2019 Cours Proba Stats 2 - Copie - Copie - Copie

UNIVERSITE MARIEN N’GOUABI Année académique 2018-2019
FACULTE DES SCIENCES ET TECHNIQUES
Notes de cours de
PROBABILITES ET
STATISTIQUE II
Enseignant : KODIA Bernédy Nel

♣ Table des matières ♣
1 Les variables aléatoires réelles 1

1.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Les moments d’une variable aléatoire . . . . . . . . . . . . . . . . . 8
1.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1 Généralités sur les variables aléatoires réelles à densité . . . . . . . 16
1.3.2 Variable aléatoire fonction d’une variable à densité . . . . . . . . . 19
1.3.3 Espérance et variance d’une variable aléatoire à densité . . . . . . . 20
2 Lois univariées usuelles 25

2.1 Lois usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Loi de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.5 Loi géométrique ou de Pascal . . . . . . . . . . . . . . . . . . . . . 28
2.1.6 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.7 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Lois usuelles à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.3 La loi normale ou de Laplace-Gauss . . . . . . . . . . . . . . . . . . 34
2.2.4 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.5 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Convergences et approximations . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1 Inégalité de Bienaymé-Tchebycheff . . . . . . . . . . . . . . . . . . 37
2.3.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . 37
i
ii
Table des matières
2.3.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 Couples de variables aléatoires réelles 39

3.1 Couples de variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . 39
3.1.1 Lois associées à un couple de variables aléatoires discrètes . . . . . 39
3.1.2 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.3 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.5 Indépendance de deux variables aléatoires discrètes . . . . . . . . . 44
3.1.6 Variable aléatoire fonction de deux variables aléatoires . . . . . . . 45
3.2 Couples de variables aléatoires admettant une densité . . . . . . . . . . . . 46
3.2.1 Lois associées à un couple de variables aléatoires à densité . . . . . 46
3.2.2 Variables aléatoires fonctions d’un couple de variables à densité . . 49
3.3 Covariance et coefficient de corrélation linéaire . . . . . . . . . . . . . . . . 50
3.3.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . 52
4 Échantillonnage et estimation 53
4.1 Échantillons d’une loi de probabilité . . . . . . . . . . . . . . . . . . . . . . 54
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.2 Statistiques sur un échantillon . . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Statistiques empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Risque quadratique d’un estimateur . . . . . . . . . . . . . . . . . . 59
4.3 Suite d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 Convergence et risque quadratique . . . . . . . . . . . . . . . . . . 61
4.3.3 Image par une fonction continue . . . . . . . . . . . . . . . . . . . . 61
4.4 Estimation par intervalles de confiance . . . . . . . . . . . . . . . . . . . . 61
4.4.1 Première approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4.2 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.3 Un exemple : Estimation de l’espérance d’une loi normale d’écart-
type connu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5.1 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . 65
KODIA Bernédy Nel c 2019 Table des matières

iii
Table des matières
4.5.2 Inégalité de Fréchet-Darmois-Cramer-Rao . . . . . . . . . . . . . . 66

4.5.3 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.6 Méthodes de construction d’un estimateur . . . . . . . . . . . . . . . . . . 67
4.6.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . 67
4.6.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Tests d’hypothèses 69
5.1 Concepts principaux en théorie des tests . . . . . . . . . . . . . . . . . . . 69
5.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.2 Problème général d’un test . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Méthode de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Méthode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.1 Principe de la règle de Neyman et Pearson . . . . . . . . . . . . . . 74
5.3.2 Hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 Hypothèses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Lois usuelles en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Loi du khi-deux de Pearson . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4.3 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4.4 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . 81
5.5 Tests d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5.1 Test du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.2 Test de Kolmogorv-Smirnov . . . . . . . . . . . . . . . . . . . . . . 83
KODIA Bernédy Nel c 2019 Table des matières

? ? Chapitre Un ? ?
Les variables aléatoires réelles
Le besoin de calculs, comme par exemple celui de la moyenne associée aux différents
résultats possibles d’une épreuve aléatoire, impose que ce résultat, symbolisé ou non par
un nombre, soit mis sous forme numérique. C’est pourquoi on souhaitera presque toujours
traduire par une valeur numérique l’événement réalisé.
Pour un lancer de pièce de monnaie, on peut retenir par exemple comme codage des
résultats : pile 7→ 0, face 7→ 1. Pour un lacer de dé, il y a un codage naturel puisque le
résultat a ici un caractère numérique : face 1 7→ 1, ..., face 6 7→ 6 ; mais on peut bien sûr
envisager d’autres codages, comme par exemple noter par zéro tout résultat pair et par
un tout résultat impair, d’où les nouvelles associations : face 1 7→ 1, face 2 7→ 0, ..., face
6 7→ 0.
Bien entendu, la valeur numérique associée à un résultat est arbitraire et correspond à
un codage des événements qui va se faire au moyen d’une certaine application, notée
usuellement X, qui va associer un nombre à chaque événement élémentaire, soit :
X : Ω → R.
Le résultat ω ayant un caractère aléatoire, la valeur numérique X(ω) associée a aussi

un caractère aléatoire. Il serait donc intéressant de pouvoir calculer la probabilité que X
prenne une certaine valeur ou appartienne à un certain intervalle. Pour pouvoir définir
cette probabilité sur l’ensemble image Ω0 = X(Ω) ⊂ R, il faut pouvoir revenir en arrière
sur l’ensemble de départ puisque la probabilité est définie sur (Ω, A). Il va donc falloir im-
poser une certaine condition à cette application qui sera alors appelée variable aléatoire
si elle est réalisée.
Un exemple introductif
Considérons l’exemple suivant où l’ensemble fondamental est Ω = {a, b, c, d}. La partition
Q
= {{a}, {b}, {c, d}} engendre l’algèbre A = {∅, {a}, {b}, {c, d}, {a, b}, {a, c, d}, {b, c, d}, Ω}.
Les événements c et d étant supposés indiscernables, on définit une probabilité P par
P ({a}) = 1/4, P ({b}) = 1/2 et P ({c, d}) = 1/4. On définit alors une application
1
2
1.1. Variable aléatoire réelle
X : Ω → R par X(a) = X(d) = 1 et X(b) = X(c) = 0. La probabilité que X

prenne la valeur 0 est la probabilité de {b, c} qui n’est pas un élément de A, donc n’est
pas un événement, et par conséquent on ne peut pas calculer cette probabilité. Cette
application n’est donc pas une variable aléatoire (v. a. en abrégé).
Il sera utile de distinguer deux cas : lorsque X(Ω) est dénombrable, la v. a. X est
dite discrète et lorsque X(Ω) est un ensemble non dénombrable de R (généralement un
intervalle, pouvant être R tout entier, ou une réunion d’intervalles), la variable aléatoire
est dite continue.
1.1 Variable aléatoire réelle
1.1.1 Généralités
Définition 1.1.1. Soit (Ω, A) un espace probabilisable. On appelle variable aléatoire
réelle (v. a. r.) X toute application de Ω dans R telle que :
∀x ∈ R, {ω ∈ Ω, X(ω) 6 x} ∈ A.
Remarque 1.1.1. Si A = P(Ω) (en particulier si Ω est fini), toute application de Ω dans
R est une variable aléatoire.
Proposition 1.1.1. Si X est une variable aléatoire réelle sur (Ω, A), alors pour tout
intervalle I de R, l’ensemble {ω ∈ Ω, X(ω) ∈ I} est un événement (c’est-à-dire appartient
à A).
En particulier, pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) = x} appartient à A.
Par définition d’une variable aléatoire réelle, la proposition est vérifiée pour tout intervalle
de la forme ] − ∞, x]. Elle reste vraie pour tout intervalle de R, car un tel intervalle
peut s’écrire à partir de réunions et intersections dénombrables d’intervalles de la forme
] − ∞, x] ou de leur complémentaire. L’ensemble {ω ∈ Ω, X(ω) = x} correspond au cas
où I est l’intervalle [x, x].
Notation 1.1.1.
— Les variables aléatoires sont notées par des lettres majuscules et les quantités
déterministes avec des lettres minuscules.
— Pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) 6 x} est l’image réciproque de ] − ∞, x]

par l’application X ; il est noté habituellement X −1 (] − ∞, x]). Dans le langage des
variables aléatoires, on le note [X 6 x]. On écrit de même, pour tout réel x,
KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

3
1.1. Variable aléatoire réelle
[X = x] = X −1 ({x}) = {ω ∈ Ω, X(ω) = x}
[X > x] = X −1 ([x, +∞[) = X −1 ({x}) = {ω ∈ Ω, X(ω) > x}
[X < x] = X −1 (] − ∞, x[) = {ω ∈ Ω, X(ω) < x}
[X > x] = X −1 (]x, +∞, [) = {ω ∈ Ω, X(ω) > x}.
On remarque que
[X 6 x] = [X < x] ∪ [X = x].
De même, on écrit, pour tous réels a et b,
[a 6 X 6 b] = X −1 ([a, b]) = {ω ∈ Ω, a 6 X(ω) 6 b}
et plus généralement, pour toute partie I de R,
[X ∈ I] = X −1 (I) = {ω ∈ Ω, X(ω) ∈ I}.
On rappelle que X(Ω) désigne l’ensemble des images par X des éléments de Ω, c’est-à-dire
l’ensemble des valeurs prises par l’application X.
Propriété 1.1.1.
1. Si X est une variable aléatoire finie qui prend les valeurs {x1 , x2 , ..., xn }, les événements
{X = xi }1≤i≤n forment un système complet d’événements appelé système complet
d’événements associé à la variable aléatoire X.
L’ensemble des événements de la forme {X ∈ A} où A ⊂ {x1 , x2 , ..., xn } forme
une algèbre d’événements de Ω incluse dans A, appelée algèbre associée à la
variable aléatoire X.
2. La somme, le produit, le quotient (si le dénominateur ne s’annule pas) de deux
variables définies sur le même ensemble Ω est une variable aléatoire définie sur Ω.
3. Si ϕ est une fonction à valeurs dans R définie sur X(Ω), la composée ϕ ◦ X est une
v. a. définie sur Ω.
Définition 1.1.2. Loi d’une variable aléatoire finie

Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire finie définie sur (Ω, A, P )
à valeurs dans {x1 , x2 , ..., xn }. La loi de X est la fonction L : X(Ω) → [0, 1] définie
par :
∀i ∈ [1, n], L(xi ) = P (X = xi ).

4
1.2. Variables aléatoires discrètes
Propriété 1.1.2. Si X est une variable aléatoire finie à valeurs dans {x1 , x2 , ..., xn }, la
loi de X vérifie :
n
X
P (X = xi ) = 1.
i=1
Réciproquement, si L : {x1 , x2 , ..., xn } → [0, 1] est une fonction vérifiant :

n
X
L(xi ) = 1,
i=1
il existe un espace probabilisé (Ω, A, P ) et une variable aléatoire X définie sur (Ω, A, P )
telle que L est la loi de X.
Définition 1.1.3. Fonction de répartition

Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ). On appelle
fonction de répartition de la variable aléatoire X, la fonction FX définie sur R et à
valeurs dans [0, 1] par :
FX (x) = P (X ≤ x).
Propriété 1.1.3.
Soit FX la fonction de répartition d’une variable aléatoire X. Alors :
1. ∀x ∈ R, FX (x) ∈ [0, 1] ;
2. FX est une fonction croissante sur R ;
3. FX est continue à droite et admet une limite à gauche en tout point de R ;
4. lim FX (x) = 0 et lim FX (x) = 1 ;
x→−∞ x→+∞
5. Pour tous réels a et b, P (a < X 6 b) = FX (b) − FX (a).
Réciproquement, toute application de R dans [0, 1] vérifiant ces propriétés est la fonction
de répartition d’une variable aléatoire X.
Définition 1.1.4. Indépendance de variables aléatoires

Des variables aléatoires finies X1 , ..., Xn sont mutuellement indépendantes si et seule-
ment si pour tout n−uplet (x1 , ..., xn ), les événements {X1 = x1 }, ..., {Xn = xn } sont
mutuellement indépendants.
1.2 Variables aléatoires discrètes

Définition 1.2.1. Variable aléatoire discrète
Soit X une variable aléatoire réelle définie sur un espace probabilisable (Ω, A). On appelle
variable aléatoire discrète (v.a.d.) X toute variable aléatoire dont l’ensemble des
valeurs ou image X(Ω), est au plus dénombrable, c’est-à-dire finie ou dénombrable.
Plus précisément

5
• toute variable aléatoire réelle X dont l’image X(Ω) est finie, est une variable
aléatoire réelle discrète finie ;
• toute variable aléatoire réelle X dont l’image X(Ω) est infinie dénombrable, est
une variable aléatoire réelle infinie.
Dit autrement, toute variable aléatoire à valeurs dans une partie au plus dénombrable de
R est une variable aléatoire discrète.
Remarque 1.2.1.
— Si Ω est fini ou dénombrable, A = P(Ω), et toute application de Ω dans R est une

variable aléatoire dont l’image est au plus dénombrable ; c’est une variable aléatoire
discrète.
— On rappelle qu’un ensemble E est dit dénombrable s’il peut être mis en bijection
avec N : les éléments de E peuvent donc être indexés par N.
Les ensembles N, Z, Q, N2 sont dénombrables. Toute partie infinie d’un en-
semble dénombrable est dénombrable. Toute réunion dénombrable d’ensembles
dénombrables est dénombrable.
L’ensemble R des réels, l’ensemble P(N) des parties de N, ne sont pas dénombrables.
— Tout ensemble E fini ou dénombrable peut s’écrire sous la forme E = {xi , i ∈ I}
où I est une partie de N et l’application i 7→ xi une bijection de I sur E (on peut
prendre I = N si E est dénombrable, I = [1, n] si E est fini de cardinal n).
La plupart du temps on aura X(Ω) ⊂ N ou X(Ω) ⊂ Z.
Proposition 1.2.1. Soit (Ω, A) un espace probabilisable et X une application de Ω dans

R telle que X(Ω) soit fini ou dénombrable. On note X(Ω) = {xi , i ∈ I}, où I est une
partie de N.
Alors X est une variable aléatoire réelle si et seulement si
∀i ∈ I, [X = xi ] ∈ A.
Proposition 1.2.2. Pour tout espace probabilisable (Ω, A) et pour tout réel a, l’applica-
tion (
Ω −→ R
X :
ω 7−→ a
est une variable aléatoire discrète finie appelée variable aléatoire constante ou cer-
taine.
Cette variable prend la même valeur connue a quel que soit le résultat de l’épreuve :
PX (X = a) = 1.

6
La masse totale de probabilité est concentrée en a ; on parle de loi de Dirac associée à

cette variable certaine.
Proposition 1.2.3. Pour tout espace probabilisable (Ω, A) et tout événement A, l’appli-
cation 
 Ω −→ R


(
X : 1 si ω ∈ A
 ω 7−→

0 si ω ∈

/A
est une variable aléatoire discrète finie appelée variable aléatoire indicatrice de
l’événement A, notée généralement 1A .
Théorème 1.1. Soit X une variable aléatoire discrète de l’espace probabilisable (Ω, A).
On note X(Ω) = {xi , i ∈ I}, où I est une partie de N. Alors la famille ([X = xi ])i∈I est
un système complet d’événements, appelé le système complet d’événements associé
à X
Définition 1.2.2. Loi d’une variable aléatoire discrète

Soit X une variable aléatoire discrète de l’espace probabilisé (Ω, A, P ). L’application
X(Ω) −→ R
x 7−→ P ([X = x])
est appelée loi de probabilité ou distribution de X et est notée PX .
Précisons que (P ([X = xi ]))xi ∈X(Ω) est telle que
1. ∀x ∈ X(Ω), P ([X = x]) > 0 ;

X
2. P ([X = x]) = 1 ;
x∈X(Ω)
X X
3. pour tout réel y, P ([X 6 x]) = P [X = y] où désigne la sommation sur
y6x y6x
l’ensemble des x ∈ X(Ω) inférieurs ou égaux à x.
Ainsi, déterminer la loi de X revient à déterminer X(Ω) et calculer, pour tout x ∈ X(Ω),
la probabilité P ([X = x]). Si X(Ω) = {xi , i ∈ I}, où I est une partie de N, on détermine
la famille (pi )i∈I , où pi = P ([X = xi ]).
Proposition 1.2.4. Soit X une variable aléatoire discrète de l’espace probabilisé (Ω, A, P ).
• Si X est une variable aléatoire finie telle que X(Ω) = {x1 , x2 , ..., xn }, on a
n
X
P ([X = xk ]) = 1.
k=1

7
• Si X est une variable aléatoire discrète infinie et X(Ω) = {xk , k ∈ N}, on a

+∞
X
P ([X = xk ]) = 1.
k=0
Fonction de répartition
Les fonctions de répartition des variables aléatoires discrètes possèdent les propriétés
énoncées dans la première partie, c’est-à-dire qu’elles sont croissantes, ont pour limite 0
en −∞ et 1 en +∞, sont continues à droite en tout point.
La fonction de répartition FX d’une variable aléatoire discrète X est continue en tout
point x tel que P ([X = x]) = 0 et en particulier en tout point x tel que x ∈
/ X(Ω), car
alors [X = x] = ∅.
Proposition 1.2.5.
Soit X une variable aléatoire finie sur l’espace probabilisé (Ω, A, P ). On pose X(Ω) =
{x1 , x2 , ..., xn } et l’on suppose que x1 < x2 < ... < xn . Alors la fonction de répartition FX
est une fonction en escalier croissante. On a, plus précisément
• FX (x) = 0 si x < x1 ;
• pour tout k ∈ [1, n − 1] et tout x ∈ [xk , xk+1 [,
FX (x) = P ([X = x1 ]) + P ([X = x2 ]) + · · · + P ([X = xk ]);
• FX (x) = 1 si x > xn .
Dans le cas où X(ω) est dénombrable, la fonction de répartition d’une telle variable
aléatoire réelle discrète est une fonction en escalier généralisé , possédant une infinité
de discontinuités.
Proposition 1.2.6.
Soit X une variable aléatoire réelle discrète dans un espace probabilisé (Ω, A, P ) telle que
X(Ω) ⊂ Z. Alors, pour tout entier n ∈ Z, la fonction FX est constante sur [n, n + 1[.
Proposition 1.2.7. Lien entre fonction de répartition et loi

Soit X une variable aléatoire réelle discrète X telle que X(Ω) ⊂ Z. On a, pour tout
k ∈ X(Ω),
P ([X = k]) = FX (k) − FX (k − 1).
Définition 1.2.3. Variable aléatoire fonction d’une variable aléatoire discrète

Soit X une variable aléatoire discrète sur un espace probabilisé (Ω, A, P ) et g une appli-
cation de X(Ω) dans R. L’application

8
(
Ω −→ R
Y :
ω 7−→ g(X(Ω))
est notée g(X).
En fait, g(X) n’est rien d’autre que la composée g ◦ X. La notation s’accorde avec la
terminologie qui appelle variable l’application X.
Exemple 1.2.1. Dans une urne contenant une infinité de boules numérotées sur Z, un
joueur prélève une boule, de façon que la probabilité que la boule numéro i soit prélevée
1
est .
2.3|i|
1
La définition est raisonnable. En effet, d’une part > 0 pour tout i ∈ Z et comme
2.3|i|
1 1
d’autre part |−i|
= , on obtient
2.3 2.3|i|
X 1 X 1 +∞
1 X 1 1 1 1
= 2 − = − = 1 − = 1.
i∈Z
2.3|i| i∈N
2.3|i| 2.30 i=0
3i 2 1− 3
2
Soit X la variable aléatoire discrète égale au numéro de la boule prélevée. On a donc

1
X(Ω) = Z et pour tout i ∈ Z, P ([X = i]) = .
2.3|i|
Posons Y = X 2 . On obtient Y (Ω) = {n2 , n ∈ Z} = {n2 , n ∈ N} et
1
∀n ∈ N∗ , P ([Y = n2 ]) = P ([X = n]) + P ([X = −n]) = n
3
1
P ([Y = 0]) = P ([X = 0]) = .
2
Théorème 1.2. Opérations

Si X et Y sont deux variables aléatoires discrètes sur l’espace probabilisé (Ω, A, P ) et λ
un réel, les applications de Ω dans R : X + Y , XY et λX définies, pour tout ω de Ω, par
(X + Y )(ω) = X(ω) + Y (ω), (XY )(ω), (λX)(ω) = λX(ω)
sont des variables aléatoires discrètes.
1.2.1 Les moments d’une variable aléatoire

Définition 1.2.4. L’espérance mathématique
Soit X une variable aléatoire discrète finie sur l’espace probabilisé (Ω, A, P ), telle que
X(Ω) = {x1 , ..., xn }, l’espérance mathématique (ou encore espérance) de la variable
aléatoire X est le réel n
X
E(X) = xi P ([X = xi ]).
i=1

9
Remarques 1.2.1.
• Toute variable aléatoire réelle discrète finie admet donc une espérance.
• L’espérance est la moyenne des valeurs prises par X pondérées par la probabilité
que X prenne cette valeur. L’espérance mathématique est donc une généralisation
de la notion de moyenne.
Proposition 1.2.8. Pour tout événement A de l’espace probabilisé (Ω, A, P ), la variable
aléatoire indicatrice 1A de l’événement A admet une espérance égale à E(1A ) = P (A).
Pour tout réel a, la variable aléatoire réelle discrète X certaine égale à a admet a comme
espérance.

Preuve .
• Rappelons que la variable aléatoire indicatrice de l’événement A est la variable
aléatoire 
 Ω −→ R


(
1A : 1 si ω ∈ A
 Ω 7−→

0 si ω ∈

/A
1A admet une espérance et E(1A ) = 0 × P ([1A = 0]) + 1 × P ([1A = 1]) = P (A).
• Soit X la variable aléatoire réelle discrète certaine égale à a. On a X(Ω) = {a} et

P ([X = a]) = 1, donc X admet une espérance et
E(X) = a × P ([X = a]) = a.
Définition 1.2.5. Soit X une variable aléatoire réelle infinie sur l’espace probabilisé
(Ω, A, P ), X(Ω) = {xi , i ∈ N}. Si la série de terme général xi P ([X = xi ]) converge
absolument, on dit alors que X admet une espérance mathématique (ou espérance)
égale au nombre réel
+∞
X
E(X) = xi P ([X = xi ]).
i=0
Remarques 1.2.2.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• on impose la convergence absolue de la série, car dans le cas d’une série qui
est convergente mais pas absolument convergente, la somme de la série varie si
l’on fait subir aux indices i une permutation arbitraire de N. Ainsi, la valeur de
+∞
X
xi P ([X = xi ]) dépendrait de la numérotation des éléments de X(ω).
i=0

10
• Toute variable aléatoire réelle discrète X telle que X(Ω) = N admet une espérance
si, et seulement si, la série de terme général nP ([X = n]) converge (en effet, elle
est à termes positifs).
En cas de convergence,
+∞
X +∞
X
E(X) = nP ([X = n]) = nP ([X = n]).
n=0 n=1
• Toute variable aléatoire réelle discrète X telle que X(Ω) = Z admet une espérance
si et seulement si les séries de termes généraux nP ([X = n]) et nP ([X = −n])
convergent (ces séries sont à termes de signe constant donc la convergence absolue
équivaut à la convergence). En cas de convergence de ces séries, on a
+∞
X +∞
X
E(X) = (−n)P ([X = −n]) + nP ([X = n]),
n=1 n=0
ce que l’on note

+∞
X
E(X) = nP ([X = n]).
n=−∞
Exemple 1.2.2. Reprenons la variable aléatoire X de l’exemple 1.2.1. Ici X est la variable
aléatoire égale au numéro de la boule prélevée dans une urne en contenant une infinité de
boules numérotées sur Z. La loi de X est définie par
1
∀k ∈ Z, P ([X = k]) = .
2.3|k|
k
La série de terme général converge, donc X admet une espérance et
2.3|k|
+∞ +∞
X −k X k
E(X) = k
+ = 0.
k=1
2.3 k=0
2.3k
Remarque 1.2.2. Il existe des variables aléatoires réelles infinies qui n’admettent pas
d’espérance mathématique.
1
Par exemple, la variable aléatoire telle que X(Ω) = N∗ et P ([X = n]) = , pour
n(n + 1)
tout n ∈ N∗ . Cette variable n’admet pas d’espérance. En effet, la série de terme général
1
nP ([X = n]) = diverge.
n+1
Théorème 1.3. Linéarité de l’espérance

Soient X et Y deux variables aléatoires discrètes sur le même espace probabilisé (Ω, A, P ),
admettant une espérance mathématique, et λ un réel. Alors X +Y et λX sont des variables
aléatoires réelles discrètes qui admettent une espérance et
E(X + Y ) = E(X) + E(Y ) et E(λX) = λE(X).

11
Ce théorème signifie que l’ensemble des variables aléatoires sur (Ω, A, P ) admettant une
espérance, forment un espace vectoriel et que l’application X 7−→ E(X) définie sur cet
espace vectoriel est linéaire.
Corollaire 1.2.1. Soit X une variable aléatoire réelle admettant une espérance mathéma-
tique E(X). Pour tout couple (a, b) de réels, aX+b est une variable aléatoire réelle discrète
admettant aE(X) + b comme espérance.
Remarque 1.2.3. Le théorème 1.3 est utile pour calculer l’espérance d’une variable dont
on ne connaı̂t pas la loi mais qu’on sait décomposer en somme de variables aléatoires plus
simples.
Exemple 1.2.3. On considère un entier n > 2 et une urne contenant n jetons numérotés
de 1 à n. On prélève ces jetons successivement et sans remise. On note (u1 , ..., un ) la liste
des numéros successivement tirés. Pour 2 > i > n, on dit qu’il y a montée (respec-
tivement descente ) au i-ième tirage si ui > ui−1 (resp. ui < ui−1 ). On note X (resp.
Y ) la variable aléatoire égale au nombre total de montées (resp. de descentes).
L’univers Ω est l’ensemble des permutations de [1, n]. On a Card(Ω) = n! et A = P(Ω).

Les variables aléatoires X et Y sont à valeurs dans [0, n − 1]. Pour i ∈ [2, n], on note Xi
la variable qui vaut 1 s’il y a montée au i-ième tirage et 0 sinon. On a alors
X = X2 + · · · + Xn .
Pour i ∈ [2, n], l’événement [Xi = 1] est réalisé si ui−1 < ui . On choisit deux éléments de
[1, n] au hasard, le plus petit est ui−1 , le plus grand ui ; les n − 2 autres jetons peuvent
être tirés dans un ordre quelconque. On trouve
Cn2 (n − 2)! 1
P ([Xi = 1]) = = .
n! 2
1
On en déduit que E(Xi ) = P ([Xi = 1]) = , puis
2
n
X 1 n−1
E(X) = = .
i=2
2 2
On peut procéder de la même manière pour Y , mais on peut remarquer simplement que
X + Y = n − 1, car s’il n’y a pas montée au i-ième tirage, il y a descente. On en déduit
que
n−1
E(Y ) = n − 1 − E(X) = .
2
Définition 1.2.6. Toute variable aléatoire réelle discrète admettant une espérance mathé-
matique nulle est dite centrée.

12
Proposition 1.2.9.
Pour toute variable aléatoire réelle discrète X admettant une espérance mathématique
E(X), la variable aléatoire X − E(X) est une variable aléatoire appelée la variable
aléatoire centrée associée à X.
Proposition 1.2.10. Positivité de l’espérance

Soit X une variable aléatoire réelle discrète admettant une espérance.
• Si X est positive, c’est-à-dire si X(ω) pour tout élément ω de Ω, alors E(X) est
un réel positif.
• Si de plus E(X) = 0, la variable X est presque sûrement nulle, c’est-à-dire vérifie
l’égalité P ([X = 0]) = 1.
Proposition 1.2.11. Croissance de l’espérance

Soient X et Y deux variables aléatoires réelles discrètes définies sur le même espace
probabilisé (Ω, A, P ), admettant une espérance.
Si X 6 Y , c’est-à-dire si X(ω) 6 Y (ω) pour tout élément ω de Ω, alors
E(X) 6 E(Y ).
Théorème 1.4. Le théorème de transfert

Si X est une variable aléatoire réelle discrète finie vérifiant X(Ω) = {x1 , x2 , ..., xn } et
g une application de X(Ω) dans R, l’espérance mathématique de la variable aléatoire
discrète finie g(X) est donnée par
n
X
E(g(X)) = g(xi )P ([X = xi ]).
i=1
Théorème 1.5.
Soit X une variable aléatoire réelle discrète telle que X(Ω) = {xn , n ∈ N} et g une ap-
plication de X(Ω) dans R, la variable aléatoire g(X) admet une espérance si et seulement
si la série de terme général g(xn )P ([X = xn ]) est absolument convergente, et l’on dispose
alors de l’égalité
+∞
X
E g(X) = g(xn )P ([X = xn ]).
n=0
Exemple 1.2.4. Reconsidérons la variable aléatoire réelle discrète X de l’exemple 1.2.1,

telle que X(Ω) = Z et
1
∀k ∈ Z, P ([X = k]) = .
2.3|k|

13
• Posons Y = 2X : c’est une variable aléatoire réelle

k discrète. k
2k 1 2 2−k 1 1
Les séries de termes généraux = et = convergent
2.3k 2 3 2.3k 2 6
2 1
absolument, car et appartient à ] − 1, 1[. Ainsi, Y admet une espérance et
3 6
+∞ k X +∞ k
X 1 2 1 1
E(Y ) = + .
k=1
2 3 k=0
2 6
En faisant le changement d’indice j = k − 1 dans la première somme, on obtient

+∞ j +∞ k
1X 2 1X 1 1 1 1 1 8
E(Y ) = + = 1 + 1 =
3 j=0 3 2 k=0 6 31− 2
21− 6
5
• Posons Z = 4X : Z est une variable aléatoire réelle discrète.

4k

1 4 4
La série de terme général k+1 = diverge car > 1. Donc Z n’admet pas
3 3 3 3
d’espérance.
Définition 1.2.7. Moments d’une variable aléatoire discrète

Soit r un entier naturel. Pour toute variable aléatoire réelle discrète finie X sur l’espace
probabilisé (Ω, A, P ), telle que X(Ω) = {x1 , ..., xn }, le moment d’ordre r de la variable
aléatoire X est le réel n
X
mr (X) = xri P ([X = xi ]).
i=1
Remarque 1.2.4. Toute variable aléatoire réelle discrète admet un moment d’ordre r
pour tout entier naturel r.
Définition 1.2.8. Soient r un entier naturel et X une variable aléatoire réelle discrète
infinie sur l’espace probabilisé (Ω, A, P ), telle que X(Ω) = {xi , i ∈ N}. Si la série de
terme général xri P ([X = xi ]) converge absolument, on dit alors que X admet un moment
d’ordre r égal au nombre réel
+∞
X
mr (X) = xri P ([X = xi ]).
i=1
Remarques 1.2.3.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• Si r est pair, la convergence absolue équivaut à la convergence, car la série de terme
général xrn P ([X = xn ]) est à termes positifs.
• Le moment d’ordre 0 est égal à 1, celui d’ordre 1 est l’espérance mathématique.

14
Proposition 1.2.12.
Soient X une variable aléatoire réelle discrète et r entier naturel. La variable X admet
un moment d’ordre r si et seulement si la variable aléatoire réelle discrète X r admet une
espérance et, dans ce cas, mr (X) = E(X r ).
Proposition 1.2.13.
Si une variable aléatoire réelle discrète X admet un moment d’ordre r, alors pour tout
entier naturel k 6 r, elle admet un moment d’ordre k.
Définition 1.2.9. La variance : Si la variable aléatoire X admet une espérance et la

variable aléatoire (X − E(X)) admet un moment d’ordre 2, on appelle variance de X le
réel V (X) défini par

2
V (X) = m2 (X − E(X)) = E (X − E(X)) .
Remarques 1.2.4.
• Toute variable aléatoire réelle discrète finie admet une variance.
• La variance est la moyenne du carré de la distance entre les valeurs de X et la
moyenne de X. La variance est donc une mesure de la dispersion de X par
rapport à E(X).
• Comme la variable X − E(X) est centrée, la variance est aussi appelée moment
centré d’ordre 2.
Proposition 1.2.14. Formule de Kœnig-Huygens

Soit X une variable aléatoire réelle discrète. La variable X admet une variance si et
seulement si X admet un moment d’ordre 2 et en cas d’existence, on a
2
V (X) = E(X 2 ) − E(X) .
1
Exemple 1.2.5. Soit X une variable aléatoire telle que XΩ) = Z et P ([X = k]) = ,
1.3|k|
pour tout k ∈ Z. Nous avons déjà démontré précédemment que son espérance est nulle.
k
k2 k2 1
La série de terme général = converge, car son terme général est équivalent
2.3k 2 3
k k−2
1 1 1 1
à k(k −1) = k(k −1) qui est la dérivée seconde d’une série géométrique
2 3 18 3
de raison 13 . On en déduit que X possède un moment d’ordre 2
+∞ 2 k k
2
X k 1 +∞ 2 1
E(X ) = 2 = sumk=1 k .
k=1
2 3 3

15
k
1
Comme la série de terme général k(k − 1) converge, on peut écrire (la troisième
3
série étant convergente car différence des deux premières),
+∞ k X +∞ k
2
X 1 1
E(X ) = k(k − 1) + k
k=1
3 k=1
3
+∞ k−2 +∞ k−1
1X 1 1X 1
= k(k − 1) + k .
9 k=1 3 3 k=1 3
On reconnaı̂t dans ces deux séries la dérivée seconde et la dérivée de la série géométrique
1
de raison . On en déduit
3
1 2 1 1 3
E(X 2 ) = 1 3 + 1 2 = .
9 (1 − 3 ) 3 (1 − 3 ) 2
Comme E(X) = 0, on obtient, d’après la formule de Kœnig-Huyghens,

3
V (X) = E(X 2 ) = .
2
Proposition 1.2.15. Propriétés de la variance

• Pour tout variable aléatoire réelle discrète X admettant un moment d’ordre 2, on
a V (X) > 0.
De plus V (X) = 0 si et seulement si X est presque sûrement constante, c’est-à-dire
si et seulement s’il existe m ∈ R tel que P ([X = m]) = 1.
• Si (a, b) est un couple de réels et X une variable aléatoire réelle discrète admettant
un moment d’ordre 2, alors aX + b admet un moment d’ordre 2 et
V (aX + b) = a2 V (X).
Définition 1.2.10. L’écart-type

Si X est une variable aléatoire réelle discrète admettant un moment d’ordre 2, l’écart-
p
type de la variable aléatoire X est le réel σ(X) = V (X).
Définition 1.2.11. Soit X une variable aléatoire réelle admettant un moment d’ordre 2.
Si E(X) = 0 et σ(X) = 1, la variable aléatoire X est dite centrée réduite.
Proposition 1.2.16. Si X est une variable aléatoire réelle discrète X admettant une
X − E(X)
variance nulle, la variable aléatoire réelle discrète X ∗ = est une variable
σ(X)
aléatoire réelle discrète centrée réduite, appelée la variable aléatoire réelle centrée
réduite associée à X.

16
1.3. Variables aléatoires réelles à densité
1.3 Variables aléatoires réelles à densité

Les variables aléatoires réelles à densité, ou continues, forment, avec les variables
discrètes, le deuxième cas particulier très important de la notion générale de variable
aléatoire réelle. Les résultats fondamentaux les concernant sont très proches du cas discret,
à condition de remplacer par exemple les sommes des séries par des intégrales, souvent
généralisées.
1.3.1 Généralités sur les variables aléatoires réelles à densité

Définition 1.3.1. Soit X une variable aléatoire réelle définie sur un espace probabilisé
(Ω, A, P ), F sa fonction de répartition. On dit que X est une variable aléatoire réelle à
densité s’il existe une fonction f : R 7−→ R vérifiant :
1. f positive ou nulle ;
2. f continue sauf éventuellement en un nombre fini de points ;
Z +∞ Z +∞
3. l’intégrale f (t)dt converge et f (t)dt = 1 ;
−∞ −∞
telle que, pour tout réel x, Z x
F (x) = f (t)dt.
−∞
La fonction f est appelée une densité de X.
Remarques 1.3.1. Z +∞
• Si la fonction f est discontinue en a1 < · · · < an de f (t)dt équivaut à la
Z a1 Z a2 −∞ Z +∞
convergence de chacune des intégrales f (t)dt, f (t)dt,..., f (t)dt qui
−∞ −a1 an
sont toutes généralisées.
Z +∞ Z x
La convergence de f (t)dt implique celle de f (t)dt pour tout réel x.
−∞ −∞
• S’il y a nécessité de préciser, on notera FX la fonction de répartition et fX une
densité de X.
Théorème 1.6.
Soit f une fonction Z de R dans R positive ou nulle, continue sauf en un nombre fini de
+∞
points et telle que f (t)dt = 1. Alors il existe un espace probabilisé (Ω, A, P ) et une
−∞
variable aléatoire X, définie sur cet espace probabilisé, dont f est une densité.
Une telle fonction f est appelée une densité ou densité de probabilité.

1 |t|
Exemple 1.3.1. Soit f la fonction définie sur R par f (t) = e . Montrons que f est
2
une densité d’une variable aléatoire X.

17
La fonction f est positive et continue sur R. Pour tout x > 0, on a

Z x
1 x −t
Z
1 −t x 1
f (t)dt = e dt = −e 0 = (1 − e−x ).
0 2 0 2 2
Z x Z x
1 1
On en déduit lim f (t)dt = . Ainsi f (t)dt converge et vaut . Comme f est
x−→+∞ 0 2 0 2
paire, on en déduit Z +∞
f (t)dt = 1.
−∞
La fonction f est une densité d’une variable aléatoire réelle.
Fonction de répartition d’une variable à densité
Rappelons les propriétés vérifiées par la fonction de répartition d’une variable aléatoire
quelconque. La fonction de répartition d’une variable aléatoire quelconque est croissante,
a pour limite 0 en −∞ et 1 en +∞ ; elle est continue à droite en tout point et, pour tout
réel x, lim
−
F = F (x) − P ([X = x]).
x
Théorème 1.7.
Soit F la fonction de répartition d’une variable aléatoire réelle à densité X, f une densité
de X. Alors
1. F est continue sur R ;

2. F est de classe C 1 sauf en un nombre fini de points. Il existe des réels a1 < · · · < an
tels que F est de classe C 1 et de dérivée f sur chaque intervalle ]−∞, a1 [, ]a1 , a2 [,...,
]an + ∞[.
Théorème 1.8.
Soit X une variable aléatoire réelle de fonction de répartition F . Si F est continue sur R
de classe C 1 sauf en un nombre fini de points, alors X est une variable à densité. Si f est
une fonction positive ou nulle telle que F 0 (x) = f (x) en tout point x où F est dérivable,
f est une densité de X.
Théorème 1.9.
Soit X une variable aléatoire réelle à densité X. Pour tout réel x, on dispose de l’égalité
P ([X = x]) = 0.

18
Proposition 1.3.1.
Soit f une densité et F la fonction de répartition d’une variable aléatoire réelle X. Pour
tout réel x, on dispose des égalités
Z x
P ([X 6 x]) = P ([X < x]) = F (x) = f (t)dt,
−∞
Z +∞
P ([X > x]) = P ([X > x]) = 1 − F (x) = f (t)dt.
x
Pour tous réels a et b tels que a < b, on dispose des égalités
P ([a < X < b]) = P ([a 6 X < b]) = P ([a < X 6 b]) = P ([a 6 X 6 b])
Z b
= F (b) − F (a) = f (t)dt.
a
Interprétation géométrique
Considérons la courbe représentative Cf de la densité f . Pour a < b, la probabilité de

l’événement [a 6 X 6 b] apparaı̂t comme l’aire de la partie du plan comprise entre Cf ,
l’axe des abscisses et les droites d’équation x = a et x = b. Pour tout réel a, F (a) apparaı̂t
comme l’aire de la partie du plan limitée par Cf , l’axe des abscisses et la droite d’équation
x = a, située à gauche de cette droite.
Remarques 1.3.2.
• Pour une variable aléatoire à densité X, tous les événements [X = x] sont quasi-
impossibles. La situation est radicalement différente de celle d’une variable discrète
X. Pour une telle variable, on a P ([X = x]) 6= 0 pour tout x ∈ X(Ω) et on appelle
loi de X la donnée de P ([X = x]) pour tout x ∈ X(Ω). Quand on parle de loi
d’une variable à densité, il s’agit de la donnée de f ou de F .
• La remarque précédente montre qu’une variable discrète ne peut pas être une
variable à densité. Il s’agit de deux ensembles disjoints de variables aléatoires.
• On peut préciser la signification d’une densité. Soit a un point où f est continue
et vérifie f (a) 6= 0. Comme
F (a + h) − F (a) P ([a 6 X 6 a + h])

f (a) = F (a) = lim = lim ,
h−→0 h h−→0 h
la probabilité de l’événement [a 6 X 6 a+h] est approximativement pour un petit
accroissement h > 0 de la variable égale à hf (a).
Définition 1.3.2. Soit X une variable à densité définie sur l’espace probabilisable (Ω, A, P ),
I un intervalle de R. On dit que X est à valeurs dans I si P ([X ∈ I]) = 1.

19
Proposition 1.3.2. Soit X une variable aléatoire réelle à densité, I un intervalle de R.

La variable X est à valeurs dans I si et seulement si elle possède une densité qui est nulle
sur le complémentaire de I.
1.3.2 Variable aléatoire fonction d’une variable à densité

Soit X une variable aléatoire réelle de densité f et ϕ une fonction dont l’ensemble de
définition contient X(Ω). On peut se demander quelles conditions il faut imposer à ϕ pour
que Y = ϕ(X) (c’est-à-dire ϕ ◦ X) soit encore une variable à densité et alors exprimer
une densité de Y en fonction d’une densité de X et de ϕ. Contrairement au cas des
variables aléatoires discrètes (pour lesquelles il n’y a pas de condition sur ϕ) le problème
est compliqué.
Proposition 1.3.3. Soit X une variable aléatoire réelle de densité f et (a, b) un couple
de réels tel que a 6= 0. Alors Y = aX + b est une variable aléatoire réelle admettant une
densité g définie par
1 y−b
∀y ∈ R, g(y) = f( ).
|a| a
Si a = 0, Y est la variable aléatoire certaine b, discrète. Ce n’est pas une variable à densité.
Théorème 1.10. Cas où ϕ est bijective et de classe C 1

Soit X une variable aléatoire de densité f , à valeurs dans un intervalle I, et ϕ : I −→ R
une application de classe C 1 dont la dérivée ne s’annule pas. Alors Y = ϕ(X) est une
variable aléatoire admettant une densité g nulle en dehors de l’intervalle J = ϕ(I) et telle
que, pour tout y ∈ J,
f ◦ ϕ−1 (y)
g(y) = f ◦ ϕ−1 (y)|(ϕ−1 )0 (y)| = .
|ϕ0 ◦ ϕ−1 (y)|
Exemple 1.3.2. Soit X une variable à densité de densité f et Y = eX . Montrons que Y

est une variable aléatoire à densité.
La fonction exp réalise une bijection strictement croissante de R sur R∗+ ; sa bijection
réciproque est ln. On a donc pour tout réel y,
(
∅ si y 6 0
[Y 6 y] = [eX 6 y] =
{X 6 ln(y)} si y > 0.
Ainsi, [Y 6 y] est un événement pour tout réel y, donc Y est une variable aléatoire et
(
0 si y 6 0
FY (y) =
FX (ln(y)) si y > 0.

20
La fonction FY est continue sur R∗+ et R∗− et
lim FY (y) = lim+ FX (ln(y)) = lim FX (x) = 0 = lim

−
FY = FY (0).
y→0+ y→0 x→−∞ 0
Donc FY est continue sur R. Elle est de classe C 1 sur R∗ . Ansi Y est une variable aléatoire
réelle à densité dont une densité g est nulle sur R− et définie pour y > 0 par
f (ln(y))
g(y) = FY0 (y) = FX0 (ln(y)) ln0 (y) = ,
y
si FY est dérivable en ln(y). En les points où FY n’est pas dérivable, on peut prendre g
quelconque, donc égale encore à cette expression.
Proposition 1.3.4.
Si X est une variable aléatoire à densité et n un entier naturel non nul, X n est une
variable aléatoire à densité.
1.3.3 Espérance et variance d’une variable aléatoire à densité

Les concepts d’espérance et de variance, déjà rencontrés au niveau des variables aléatoires
réelles discrètes, possèdent leurs analogues pour les variables à densité.
Définition 1.3.3. Espérance mathématique Z +∞

Soit X une variable aléatoire réelle de densité f . Si l’intégrale tf (t)dt est absolument
−∞
convergente, on dit alors que X admet une espérance mathématique (ou espérance)
égale au nombre réel Z +∞
E(X) = tf (t)dt.
−∞
La fonction t 7−→ tf (t) étant positive sur R+ et négative sur R− , l’absolue convergence
équivaut en fait àla convergence ici.
Exemple 1.3.3. Soit la fonction définie sur R par
f (x) = 6x(1 − x) si x ∈ [0, 1] et f (x) = 0 sinon.
Montrons que f est une densité d’une variable aléatoire réelle qui admet une espérance.
La fonction f est positive, car x(1−x) > 0 pour x ∈ [0, 1], et continue, sauf éventuellement
en 0 et 1. D’autre part, on a
Z +∞ Z 1 1
6x(1 − x)dx = 3x2 − 2x3 0 = 3 − 2 = 1

f (x)dx =
−∞ 0

21
Ainsi, f est une densité d’une variable aléatoire réelle.
Comme f est nulle en dehors de [0, 1],

Z +∞ Z 1 1
2 3 3 3 4 1
xf (x)dx = (6x − 6x )dx = 2x − x = .
−∞ 0 2 0 2
1
Toute variable aléatoire réelle X de densité f possède une espérance et E(X) = .
2
Théorème 1.11. Linéarité de l’espérance
Soit X une variable aléatoire réelle admettant une densité f et une espérance E(X), et
a un réel. Alors Y = aX + b admet une espérance vérifiant
E(Y ) = aE(X) + b.
Définition 1.3.4. Toute variable aléatoire réelle à densité admettant un espérance nulle
est dite centrée.
Proposition 1.3.5.
Pour toute variable aléatoire réelle à densité X admettant une espérance E(X), la variable
aléatoire X −E(X) est une variable aléatoire réelle à densité centrée, appelée la variable
aléatoire centrée associée à X.
Théorème 1.12.
Soient X et Y deux variables aléatoires réelles à densité sur le même espace probabilisé
(Ω, A, P ), admettant chacune une espérance.
• Si la variable aléatoire réelle X + Y est une variable à densité, elle admet une
espérance et E(X + Y ) = E(X) + E(Y ).
• Si la variable aléatoire réelle à densité X est à valeurs dans R+ , possédant une
espérance, on a alors
E(X) > 0.
Proposition 1.3.6. Soient X et Y deux variables aléatoires réelles à densité admettant

des espérances mathématiques et telles que P ([X 6 Y ]) = 1 (on dit que X 6 Y presque
sûrement). On a alors E(X) 6 E(Y ).
Théorème 1.13. Théorème de transfert

Soient X une variable aléatoire réelle de densité f , à valeurs dans un intervalle I de R,
et ϕ une fonction de I dans R, continue sauf en un nombre fini de points.

22
Si Y = ϕ(X) = ϕ ◦ X est une variable aléatoire réelle à densité, elle admet une espérance
si et seulement si l’intégrale Z
ϕ(t)f (t)dt
I
est absolument convergente. Cette espérance est alors donnée par

Z
E (ϕ(X)) = ϕ(t)f (t)dt.
I
Exemple 1.3.4. Soit X une variable aléatoire réelle de densité f et Y = eX . Le théorème

de transfert affirme que si Y admet une espérance, elle est donnée par
Z +∞
E(Y ) = et f (t)dt.
−∞
Par ailleurs, nous avons démontré précédemment qu’une densité de Y est donnée par
f ((ln(y))
g(y) = 0 si y 6 0 et g(y) = si y > 0.
y
Ainsi, l’espérance de Y est donnée sous réserve d’absolue convergence de l’intégrale par
Z +∞ Z +∞
E(Y ) = yg(y)dy = f (ln(y)) dy.
0 −∞
Mais le changement de variable t = ln(y), c’est-à-dire y = et , dans la seconde intégrale

redonne la première car on remplace dy par et dt.
Définition 1.3.5. Moments d’une variable à densité

Soit X une variable aléatoire réelle de densité f et n un entierZ naturel. On dit que la
+∞
variable aléatoire X admet un moment d’ordre n si l’intégrale xn f (x)dx converge
−∞
absolument, et en cas de convergence, on appelle moment d’ordre n de X le réel
Z +∞
mn (X) = xn f (x)dx.
−∞
Le moment d’ordre 0 est égal à 1, celui d’ordre 1 est l’espérance mathématique.
Proposition 1.3.7.
Soit X une variable aléatoire réelle à densité et n entier naturel. La variable X admet un
moment d’ordre n si et seulement si la variable aléatoire réelle à densité X n admet une
densité. On a alors mn (X) = E(X n ).

23
Définition 1.3.6. Variance

Si la variable aléatoire X admet une espérance et si la variable aléatoire (X − E(X))2
admet une espérance, on appelle variance de X le réel V (X) défini par
V (X) = E (X − E(X)) .
Proposition 1.3.8. Formule de Kœnig-Huyghens

Soit X une variable aléatoire réelle à densité. La variable aléatoire X admet une variance
si et seulement si X admet un moment d’ordre 2 et en cas d’existence, on a
V (X) = E(X 2 ) − (E(X))2 .
Exemple 1.3.5. Soit X une variable aléatoire dont une densité f est définie par
f (x) = 6x(1 − x) si x ∈ [0, 1] et f (x) = 0 sinon.

1
Nous avons montré que E(X) = . Comme f est nulle en dehors de [0, 1],
2
Z +∞ Z 1 Z 1
2 2 3 4 3 4 6 5 3
x f (x)dx = x f (x)dx = (6x − 6x )dx = x − x = .
−∞ 0 0 2 5 10
La variable aléatoire réelle X possède un moment d’ordre 2 donc une variance et

3 1 1
V (X) = E(X 2 ) − (E(X))2 = − = .
10 4 20
Théorème 1.14. Si X est une variable aléatoire réelle à densité admettant une variance
V (X), alors pour tout couple (a, b) de réels la variable aléatoire aX +b admet une variance
donnée par l’égalité
V (aX + b) = a2 V (X).
De plus, toute variance de variable aléatoire réelle à densité est strictement positive.
Définition 1.3.7. Soit X une variable aléatoire réelle à densité, possédant un moment
d’ordre 2. L’écart-type de la variable aléatoire réelle X est le réel strictement positif
p
σ(X) = V (X).
Si X vérifie E(X) = 0 et σ(X) = 1, elle est dite centrée réduite.
Proposition 1.3.9. Si X est une variable aléatoire réelle à densité, admettant un moment
X − E(X)
d’ordre 2, la variable aléatoire réelle à densité X ∗ = est une variable aléatoire
σ(X)
centrée réduite, appelée la variable aléatoire réelle centrée réduite associée à X.

? ? Chapitre Deux ? ?
Lois univariées usuelles
Si on améliore la compréhension et l’analyse d’un phénomène complexe par l’introduc-

tion d’un modèle qui la simplifie, celui-ci ne doit cependant pas être trop loin de la réalité.
Dans ce chapitre, nous présentons les principaux modèles qui peuvent être retenus pour
une modélisation aléatoire. Ce catalogue des lois usuelles distingue entre lois discrètes
et lois admettant une densité de probabilité.
2.1 Lois usuelles discrètes
2.1.1 Loi de Dirac

Définition 2.1.1. Soit a ∈ R un point fixé. On dit que la variable aléatoire X suit la
loi de Dirac, notée δa , si la variable aléatoire X est une variable aléatoire certaine ou
constante, prenant la même valeur a quel que soit le résultat de l’épreuve :
X(ω) = a, ∀ω ∈ Ω.
Ainsi :
X(Ω) = {a}, PX ([X = a]) = P (ω ∈ Ω/X(ω) = a) = P (Ω) = 1
et (
0 si x < a
FX (x) =
1 si x > a.
Le graphe de F présente un saut de valeur 1 au pont de discontinuité a, qu’on appelle

échelon de Heaviside. Dans ce cas, nous avons
E(X) = a et V (X) = 0.
C’est la seule variable aléatoire dont la variance est nulle.
25
26
2.1. Lois usuelles discrètes
2.1.2 Loi de Bernouilli

Définition 2.1.2. Soit p ∈]0, 1[. On dit qu’une variable aléatoire réelle discrète X suit
la loi de Bernouilli de paramètre p, et on note X ,→ B(1, p), ou X ,→ B(p) si
X(Ω) = {0, 1} et P ([X = 1]) = p.
Lorsque la variable aléatoire X suit une loi de Bernouilli, on dit que la variable aléatoire
X est une variable de Bernouilli.
Remarques 2.1.1.
1. Une épreuve de Bernouilli est une expérience aléatoire ayant deux issues pos-
sibles : le succès et l’échec. Une telle expérience peut être représentée par une variable
de Bernouilli, en notant 1 (le succès) et 0 (l’échec) les deux résultats possibles.
2. La variable indicatrice d’un événement A, notée 1A , telle que 0 < P (A) < 1 (c’est-
à-dire que cet événement n’est ni certain, ni impossible), définie par
(
1 si A est réalisé
1A =
0 sinon
est une variable de Bernouilli de paramètre p = P (A). Réciproquement, toute va-

riable de Bernouilli est la variable indicatrice de l’événement P ([X = 1]).
Proposition 2.1.1. Si la variable aléatoire X suit la loi de Bernouilli de paramètre p,

alors X admet une espérance mathématique et une variance, respectivement égales à
E(X) = p et V (X) = p(1 − p).
Exercice 2.1.1. Établir cette proposition.
Exemple 2.1.1. Dans une population de n individus, on associe à un chacun d’eux une
v. a. de Bernouilli, indicatrice de possession d’un certain caractère A :
(
1 si i possède le caractère A
Xi =
0 sinon.
Le paramètre p = P (A) représente la proportion d’individus de la population qui possèdent

ce caractère A.
KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles

27
2.1.3 Loi binomiale

Définition 2.1.3. On dit que la variable aléatoire réelle discrète X définie sur l’espace
probabilisé (Ω, A, P ) suit une loi binomiale de paramètres (n, p), où n ∈ N∗ et p ∈]0, 1[
si X(Ω) = [0, n] et, pour tout k ∈ [0, n],
!
n
P ([X = k]) = pk q n−k = Cnk pk q n−k ,
k
où q = 1 − p. La proposition X suit la loi binomiale de paramètre (n, p) se note
X ,→ B(n, p).
Modèle : X est le nombre de succès lors de n épreuves identiques et indépendantes, la

probabilité de succès à chaque épreuve étant p.
Remarque 2.1.1. Une variable aléatoire qui suit la loi binomiale de paramètre (1, p) est
une variable aléatoire de Bernouilli de paramètre p. Cela justifie la notation B(1, p) pour
une variable de Bernouilli.
Exemples 2.1.1.
1. On considère une succession de n épreuves dont les résultats sont indépendants,
chacun ayant deux issues appelées succès (de probabilité p) et échec (de probabilité
q = 1 − p). Alors la variable aléatoire égale au nombre total de succès dans ces n
épreuves suit la loi binomiale de paramètre (n, p).
2. Une urne contient des boules blanches en proportion p et des boules noires en pro-
portion 1 − p. On fait n tirages avec remise dans l’urne. La variable égale au nombre
de boules blanches obtenues suit une loi binomiale de paramètre (n, p).
Proposition 2.1.2. Toute variable aléatoire X de loi binomiale de paramètres (n, p)

admet une espérance et une variance données par
E(X) = np et V (X) = npq = np(1 − p).
La variable aléatoire n − X suit la loi binomiale de paramètres (n, q), où q = 1 − q. Ainsi,
si X représente un nombre de succès parmi n expériences, alors Y = n − X mesure le
nombre d’échecs.
Lien entre la loi binomiale et la loi de Bernouilli. La variable aléatoire X ,→

B(n, p) si et seulement si X est la somme de n variables aléatoires de Bernouilli indépendantes
et de même loi B(1, p).
Stabilité. Si deux variables aléatoires X et Y indépendantes sont telles que X ,→ B(n, p)

et Y ,→ B(m, p), alors
X + Y ,→ B(n + m, p).

28
2.1.4 Loi hypergéométrique

Définition 2.1.4. Soient n et N des entiers tels que 1 6 n 6 N , p ∈]0, 1[ tel que
N p = N × p soit entier, q = 1 − p. On dit qu’une variable aléatoire réelle X suit la loi
hypergéométrique de paramètres (N, n, p) si X(Ω) = [max(0, n − N q), min(n, N p)]
et

Np Nq
n n−k
∀k ∈ [max(0, n − N q), min(n, N p)] P ([X = k]) =
N
n
La proposition X suit la loi hypergéométrique de paramètres (N, n, p) se note X ,→
H(N, n, p).
Exemple 2.1.2. Une urne contient a boules blanches et b boules noires. On suppose que
n 6 a + b. On tire simultanément n boules dans l’urne. Soit X la variable aléatoire égale
au nombre de boules blanches obtenues. La variable X suit donc la loi hypergéométrique
a
de paramètres a + b, n, .
a+b
On retiendra que les tirages simultanés et les tirages successifs sans remise abou-
tissent à la même loi hypergéométrique.
Proposition 2.1.3. Toute variable aléatoire X qui suit la loi hypergéométrique de pa-
ramètres (N, n, p) admet une espérance et une variance
N −n
E(X) = np et V (X) = npq .
N −1
2.1.5 Loi géométrique ou de Pascal

Situation type
On considère une urne contenant un nombre fini de boules blanches et de boules noires
supposées indiscernables au toucher, la proportion des boules blanches dans l’urne étant p
et la proportion de boules noires q = 1 − p. On effectue une infinité de tirages d’une boule
dans l’urne, la boule tirée étant remise après chaque tirage. Les tirages sont numérotés
dans N∗ .
Soit X l’application qui, à tout élément de l’univers des possibles Ω, associe le nombre
de tirages nécessaires pour obtenir une boule blanche pour la première fois et 0 si tous
les tirages donnent une boule noire. On admet que l’univers Ω peut être muni d’une tribu
T qui contient pour tout n ∈ N l’événement An : le n-ième tirage donne une boule

29
blanche . On suppose que les résultats des différents tirages sont indépendants et donc
que (An ) est une suite d’événements indépendants. On a par hypothèse P (An ) = p et
donc P (An ) = 1 − p = q.
Pour tout entier k non nul, [X = k] = A1 ∩ A2 ∩ · · · ∩ Ak−1 ∩ Ak ∈ T et
P ([X = k]) = P (A1 )P (∩A2 ) · · · P (Ak−1 )P (Ak ) = pq k−1 .
On en déduit
+∞ +∞
X X p
P ([X = k]) = p qi = = 1,
k=1 i=0
1−q
car on reconnaı̂t la somme d’une série géométrique.

+∞
[
Cette somme représente la possibilité de [X = k] = [X = 0]. Ainsi, [X = 0] est un
k=1
événement de probabilité nulle. En négligeant cet événement, on peut considérer que X
est une variable aléatoire discrète à valeurs dans N∗ . La variable X est appelée le temps
d’attente de la première boule blanche.
On remarque que la variable Y = X − 1 représente le nombre de boules noires tirées avant
d’obtenir la première boule blanche.
Si on appelle succès le tirage d’un boule blanche, X est le temps d’attente du premier
succès et Y le nombre d’échecs avant le premier succès.
Les variables X et Y seront dites suivre une loi géométrique.
Définition 2.1.5.
Soit p ∈]0, 1[.
On dit qu’une variable aléatoire réelle discrète X suit la loi géométrique de paramètre
p à valeurs dans N∗ (temps d’attente du premier succès) si X(Ω) = N∗ et
∀k ∈ N∗ , P ([X = k]) = pq k−1 ,
où q = 1 − p.
On dit qu’une variable aléatoire réelle discrète Y suit la loi géométrique de paramètre
p à valeurs dans N (nombre d’échecs avant le premier succès) si Y (Ω) = N et
∀k ∈ N, P ([Y = k]) = pq k ,
où q = 1 − p.
La proposition X (ou Y ) suit la loi géométrique de paramètre p se note X ,→ G(p)

(ou Y ,→ G(p)).

30
Exemples 2.1.2.
1. On effectue une infinité de lancers d’une pièce de monnaie pour laquelle la probabilité
pile est p et la probabilité d’obtenir face est q = 1−p. On note X le rang d’apparition
du premier pile et Y = X − 1. On montre comme précédemment que l’événement
on n’obtient que des faces est de probabilité nulle et que X suit la loi géométrique
de paramètre p à valeurs dans N∗ , Y la loi géométrique à valeurs dans N.
2. Le même raisonnement vaut pour toute répétition d’une épreuve à deux issues
(succès et échec) pour laquelle la probabilité de succès est p, les résultats des
différentes épreuves étant indépendants. Le temps d’attente du premier succès et le
nombre d’échecs avant le premier succès suivent des lois géométriques de paramètre
p.
Proposition 2.1.4. Toute variable aléatoire X (resp. Y ) qui suit la loi géométrique de
paramètre p ∈]0, 1[ à valeurs dans N∗ (resp. N) admet une espérance et une variance,
respectivement égales à
1 q q q
E(X) = , V (X) = et E(Y ) = , V (Y ) = ,
p p2 p p2
où q = 1 − p.
Proposition 2.1.5. Si la variable aléatoire X suit la loi géométrique de paramètre p ∈

]0, 1[ à valeurs dans N∗ , on a, pour tout entier naturel k,
P ([X > k]) = q k .
Corollaire 2.1.1. Si la variable aléatoire X suit la loi géométrique de paramètre p ∈]0, 1[

à valeurs dans N∗ , on a, pour tout couple d’entiers naturels (k, l),
P ([X > k + l]) = P ([X > k])P ([X > l]).
Proposition 2.1.6. La fonction de répartition d’une variable X qui suit la loi géométrique
de paramètre p à valeurs dans N∗ est la fonction

 R −→ ([0, 1]


FX : 0 si x < 1
 x 7−→

k
1 − q si k 6 x < k + 1, k ∈ N∗ .

2.1.6 Loi binomiale négative

Définition 2.1.6. On dit que la variable aléatoire réelle discrète X définie sur l’espace
probabilisé (Ω, A, P ) suit une loi binomiale négative de paramètres (n, p), où n ∈ N∗

31
et p ∈]0, 1[ si X(Ω) = [0, n] et, pour tout k ∈ [0, n],

!
k−1 n−1 n k−n
P ([X = k]) = pn q k−n = Ck−1 p q ,
n−1
avec k, n ∈ N et k ≥ n. La proposition X suit la loi binomiale négative de paramètre

(n, p) se note X ,→ BN (n, p).
Modèle : Selon les conditions de Bernouilli (épreuves identiques et indépendantes), on

désire connaı̂tre la probabilité (d’attendre) de faire X = k épreuves indépendantes pour
avoir n succès.
Proposition 2.1.7. Toute variable aléatoire X de loi binômiale négative de paramètres

(n, p) admet une espérance et une variance données par
n 1−p
E(X) = et V (X) = n .
p p2
2.1.7 Loi de Poisson

Situation type
Il n’est pas possible de donner un modèle simple pour la loi de Poisson. Celle-ci apparaı̂t
comme une limite. En effet, si la variable aléatoire X suit une loi binomiale avec n grand
et p proche de 0, elle suit approximativement une loi de Poisson de paramètre λ = np.
On dit que la loi de Poisson est la loi des événements rares .
Dans la pratique, on peut décrire par une loi de Poisson le nombre d’événements d’un
certain type se produisant dans une période de temps donnée, par exemple :
• le nombre de clients se présentant dans un magasin pendant une période T ;
• le nombre de véhicules franchissant un poste de péage pendant une période T ;
• le nombre d’appels reçus par un standard téléphonique pendant une période T .
Définition 2.1.7. On dit qu’une variable aléatoire réelle discrète X suit la loi de Pois-
son de paramètre λ, où λ > 0, si X(Ω) = N et
λk −λ
∀k ∈ N, P ([X = k]) = e .
k!
La proposition X suit la loi de Poisson de paramètre λ se note X ,→ P(λ).
Proposition 2.1.8. Toute variable aléatoire X qui suit la loi de Poisson de paramètre λ
admet une espérance et une variance, respectivement égales à
E(X) = λ etV (X) = λ.

32
2.2. Lois usuelles à densité
Sa fonction de répartition est donnée par



 R −→ [0, 1]


 0 si x < 0
 

FX : k
 x 7−→ X λi
si k 6 x < k + 1, k ∈ N.

 

i!
 

i=0
2.2 Lois usuelles à densité
2.2.1 Loi uniforme

La loi uniforme sur un segment est la plus simple de toutes les lois de variables aléatoires
à densité. Elle exprime le fait qu’un élément est choisi au hasard sur le segment.
Définition 2.2.1. Soient a et b deux réels tels que a < b. On dit qu’une variable aléatoire
1
X suit la loi uniforme sur [a, b] si elle admet pour densité la fonction f égale à
b−a
et nulle ailleurs. On note X ,→ U([a, b]).
1
Remarque 2.2.1. La fonction f peut s’écrire f = 1[a,b] où 1[a,b] est la fonction
b−a
indicatrice définie par 1[a,b] (x) = 1 si x ∈ [a, b] et 1[a,b] (x) = 0 sinon.
Théorème 2.1. Soit une variable aléatoire réelle X suivant une loi uniforme sur [a, b].
1. Sa fonction de répartition F est donnée par



 0 si x ∈] − ∞, a]
 x−a
F (x) = si x ∈ [a, b]

 b−a
1 si x ∈ [b, +∞[.

2. Cette variable admet des moments de tous les ordres, donnés par les égalités
bn+1 − an+1
mn (X) = .
(n + 1)(b − a)
3. L’espérance mathématique et la variance de cette variable aléatoire sont données

par
a+b (b − a)2
E(X) = et V (X) = .
2 12

33
2.2.2 Loi exponentielle

La loi exponentielle intervient dans des problèmes de fiabilité (durée de vie de matériel,
durée de survie).
Définition 2.2.2. Soit λ un réel strictement positif. On dit qu’une variable aléatoire
réelle X suit la loi exponentielle de paramètre λ si elle admet pour densité la fonction
f nulle sur R∗− et définie, pour tout réel x > 0, par l’égalité
f (x) = λe−λx ,
et on note X ,→ E(λ).
La fonction f est définie pour tout réel x par f (x) = λe−λx 1R+ (x) .
Théorème 2.2. Soit X une variable aléatoire réelle suivant une loi exponentielle de
paramètre λ.
1. La fonction de répartition de cette variable aléatoire est donnée par
(
0 si x ∈] − ∞, 0]
F (x) = −λx
1−e si x ∈ [0, +∞[.
2. Cette variable aléatoire admet des moments de tous ordres, donnés pour tout n ∈ N,
par
n!
mn (X) =.
λn
3. L’espérance mathématique et la variance sont données par
1 1
E(X) = et V (X) = .
λ λ2
Corollaire 2.2.1. Si X suit la loi exponentielle de paramètre λ, on a pour tout x > 0,
sa fonction de survie donnée par
P ([X > x]) = e−λx .
Définition 2.2.3. On dit qu’une variable aléatoire réelle X d’un espace probabilisé (Ω, A, P )
est sans mémoire si elle est positive ou nulle et si, pour tout couple (x, y) de réels positifs
ou nuls, on dispose de l’égalité
P ([X > x + y]) = P ([X > x])P ([X > y]).
Théorème 2.3. Soit X une variable aléatoire positive ou nulle qui n’est pas la variable
certaine nulle. Alors X est sans mémoire si et seulement si elle est une variable aléatoire
à densité qui suit une loi exponentielle.

34
2.2.3 La loi normale ou de Laplace-Gauss

C’est la loi à densité la plus complexe, mais aussi la plus importante sur les plans
théorique et pratique. C’est Laplace qui commença à l’étudier, mais c’est Gauss qui en fit
une étude rigoureuse et complète.
Définition 2.2.4. Soit m un réel et σ un réel strictement positif. On dit qu’une variable
aléatoire réelle X suit la loi normale de paramètre (m, σ 2 ) si elle admet pour densité la
fonction f définie pour tout réel x par l’égalité
1 (x − m)2
f (x) = √ exp − ,
σ 2π 2σ 2
et on note X ,→ N (m, σ 2 ).
Remarques 2.2.1.
1. On peut constater que f (2m − x) = f (x), ce qui indique que le graphe de f est
symétrique par rapport à la droite verticale x = m.
2. L’expression (x − m)2 est minimum pour x = m, ce qui va correspondre à un
maximum pour f de valeur :
1
f (m) = √ .
σ 2π
3. Pour calculer facilement la dérivée, considérons :
√ 1
ln f (x) = − ln σ 2π − 2 (x − m).
2σ
D’où en dérivant :
f 0 (x) 1
= − 2 (x − m) et σ 2 f 0 (x) = (m − x)f (x).
f (x) σ
Et en dérivant à nouveau :
σ 2 f 00 (x) = −f (x) + (m − x)f 0 (x),
d’où on déduit :
σ 4 f 00 (x) = (m − x)2 f (x) − σ 2 f (x) = (m − x − σ)(m − x + σ)f (x),
donc f 00 s’annule en changeant de signe pour x = m − σ et x = m + σ, ce qui

correspond à deux points d’inflexion pour le graphe de f
4. Enfin, quand x devient infini, alors f (x) −→ 0, donc l’axe des abscisses est asymp-
tote au graphe.
Toutes ces remarques permettent de tracer le graphe en cloche de la densité f .

35
Théorème 2.4. Soit X une variable aléatoire réelle suivant la loi normale de paramètre
(m, σ 2 ).
1. Cette variable aléatoire admet une espérance mathématique égale à m et une va-
riance égale à σ 2 .
2. La fonction de répartition de cette variable aléatoire vérifie, pour tout réel x, l’égalité
Z x
(t − m)2

1
F (x) = P ([X 6 x]) = √ exp − .
σ 2π −∞ 2σ 2
3. La variable aléatoire X admet des moments de tous ordres.
4. La variable aléatoire X admet une espérance mathématique égale à m et une va-

riance égale à σ 2 .
Loi normale centrée réduite
Nous admettons le résultat suivant :

Z +∞
t2 √

exp − dt = 2π.
−∞ 2
Définition 2.2.5. On dit qu’une variable aléatoire réelle X suit la loi normale centrée
réduite si elle admet pour densité la fonction f définie pour tout réel x par l’égalité
x2

1
f (x) = √ exp − ,
2π 2
et on note X ,→ N (0, 1).
On note Φ la fonction de répartition d’une variable aléatoire réelle suivant une loi normale
centrée réduite.
Proposition 2.2.1. La fonction de répartition de la variable normale centrée réduite

vérifie les propriétés suivantes :
x
t2
Z
1
• pour tout réel x, Φ(x) = √ exp − dt ;
2π −∞ 2
1
• pour tout réel x, Φ(−x) = 1 − Φ(x) ; Φ(0) = ;
2
• pour tout x > 0, P (|X| 6 x) = 2Φ(x) − 1 et P (|X| > x) = 2(1 − Φ(x)).
La fonction Φ est strictement croissante sur R. Son graphe admet les droites
d’équation
1
y = 0 et y = 1 comme asymptotes. Il est symétrique par rapport au point 0, . Cela
2
1 1
résulte de l’égalité (Φ(x) + Φ(−x)) = .
2 2

36
Proposition 2.2.2. La variable aléatoire réelle X suit la loi normale de paramètre (m, σ 2 )
X −m
si et seulement si la variable Y = suit la loi normale centrée réduite.
σ
Grâce à cette proposition, les calculs sur les variables aléatoires gaussiennes (c’est-à-dire
suivant une loi normale) se ramènent à des calculs sur la loi normale centrée réduite.
Proposition 2.2.3. Utilisation de la loi normale centrée réduite

• Soient a, b, x ∈ R, avec a < b, et X ,→ N (m, σ 2 ). Alors

x−m
P (X 6 x) = Φ
σ

b−m b−m
P (a 6 X 6 b) = Φ −Φ
σ σ
• Pour tout x ∈ R,
Φ(−x) = 1 − Φ(x).
Les valeurs de Φ sont tabulées (uniquement pour les valeurs positives, ce qui est suffisant
en utilisant le deuxième item de cette proposition.
2.2.4 Loi log-normale

Définition 2.2.6. On dit qu’une variable aléatoire réelle positive X suit la loi log-
normale de paramètres m et σ > 0 si la variable aléatoire ln X suit une loi N (m, σ 2 ).
Elle admet donc pour densité de probabilité la fonction f définie pour tout réel x > 0 par
l’égalité
(ln x − m)2

1
f (x) = √ exp − ,
σx 2π 2σ 2
Proposition 2.2.4. Soit X une variable aléatoire réelle positive suivant une loi Log-
normale de paramètres m et σ > 0, alors
σ2 2 2
E(X) = em+ 2 et V (X) = (eσ − 1)e2m+σ .
2.2.5 Loi Gamma

En fiabilité, la loi Gamma permet de modéliser les temps de défaillance de matériels.
Définition 2.2.7. Une variable aléatoire réelle X suit une loi Gamma de paramètres
p > 0 et θ > 0 et on note X ,→ γ(p, θ), si c’est une variable aléatoire positive dont la
densité est de la forme :
θp −θx p−1
f (x) = e x , x > 0.
Γ(p)

37
2.3. Convergences et approximations
La fonction Γ est appelée fonction d’Euler et est définie pour tout p > 0 par :
Z +∞
Γ(p) = e−x xp−1 dx.
0
Parmi les nombreuses propriétés de la fonction Γ, on montre en intégrant par parties que
pour tout p > 1 :
Γ(p) = (p − 1)Γ(p − 1).
Donc, pour p entier strictement positif, on en déduit que :
Γ(p) = (p − 1)!
Théorème 2.5. Soit X une variable aléatoire réelle suivant une loi Gamma de pa-
ramètres positifs p et θ, alors son espérance mathématique et sa variance sont données
par
p p
E(X) = et V (X) = .
θ θ2
2.3 Convergences et approximations
2.3.1 Inégalité de Bienaymé-Tchebycheff

Théorème 2.6. Soit X une variable aléatoire discrète ou à densité, possédant une
espérance mathématique E(X) et une variance V (X), alors
V (X)
∀ε > 0, P (|X − E(X)| > ε) 6 .
ε2
La probabilité qu’une variable aléatoire s’écarte de plus de ε de sa valeur moyenne est

d’autant plus faible que sa variance est petite et que ε est grand.
De façon équivalente, on a :
V (X)
∀ε > 0, P (|X − E(X)| < ε) > 1 − .
ε2
2.3.2 Loi faible des grands nombres

Théorème 2.7. Soit (Xn ) une suite de variables aléatoires indépendantes et de même
loi, d’espérance mathématique m et de variance σ 2 positive. Soit
1
Zn = (X1 + X2 + · · · + Xn ).
n
Alors, pour tout ε > 0 :
σ2
P (|Zn − m| > ε) 6 .
nε2

38
2.3. Convergences et approximations
Il en résulte
lim P (|Zn − m| > ε) = 0 ; lim P (|Zn − m| < ε) = 1.

n→∞ n→∞
On dit alors que la suite de variables aléatoires (Zn ) converge en probabilité vers la
variable aléatoire certaine m.
De façon générale, on dit que la suite de variables aléatoires (Xn ) converge en probabilité
vers la variable aléatoire X si et seulement si :
∀ε > 0, lim P (|Xn − X| > ε) = 0.

n→∞
2.3.3 Convergence en loi

∗
Théorème
Soit λ > 0 fixé, et soit, pour tout n ∈ N , Xn est une variable aléatoire
2.8.
λ
de loi B n, . Alors
n
λk
∀k ∈ N, lim P (Xn = k) = e−λ .
n→∞ k!
On dit que la suite de variables aléatoires (Xn ) converge en loi vers une variable aléatoire
de Poisson P(λ).
Théorème 2.9. Centrale Limite

Soit (Xn ) une suite de variables aléatoires indépendantes et de même loi, d’espérance
mathématique m et de variance σ 2 positive.
Soit Sn∗ la variable centrée réduite associée à
Sn = X1 + X2 + · · · + Xn ,
alors (Sn∗ ) converge en loi vers X ∗ de loi normale centrée réduite.

? ? Chapitre Trois ? ?
Couples de variables aléatoires

réelles
Comme nous avons associé un nombre à une expérience aléatoire, dans certains cas
nous pouvons être amené à en associer plusieurs. Par exemple, le jet de deux dés distincts
ne peut être codé avec une seule valeur numérique. De même, à un individu d’une po-
pulation donnée, on peut associer son revenu et sa consommation. On est alors amené à
associer à de telles épreuves aléatoires deux, voire plusieurs valeurs numériques, au moyen
donc de plusieurs applications qui seront des variables aléatoires pouvant être regroupées
dans un vecteur, ce qui conduit à la généralisation en multidimensionnel de la notion de
variable aléatoire réelle : un vecteur aléatoire.
Dans ce chapitre, nous nous limiterons au cas bidimensionnel, celui d’un couple aléatoire,
en distinguant toujours les cas discret et continu.
3.1 Couples de variables aléatoires réelles discrètes
3.1.1 Lois associées à un couple de variables aléatoires discrètes

Définition 3.1.1. Soit (Ω, A) un espace probabilisable. On appelle couple de variables
aléatoires discrètes toute application
(
Ω −→ R2
Z :
ω 7−→ (X(ω), Y (ω)),
où X et Y sont des variables aléatoires discrètes sur (Ω, A). On note Z = (X, Y ) ce
couple de variables.
Remarque 3.1.1. Si Ω est fini, un couple de variables aléatoires discrètes est tout sim-
plement une application de Ω dans R2 .
39
40
3.1. Couples de variables aléatoires réelles discrètes
Exemple 3.1.1. On lance une infinité de fois une pièce de monnaie. On note X le rang
d’apparition du premier pile et Y le rang d’apparition du second pile. Alors (X, Y ) est un
couple de variables aléatoires discrètes.
Proposition 3.1.1.
Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On note X(Ω) = {xi , i ∈ I}
et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. Alors la famille d’événements

[X = xi ] ∩ [Y = yj ]
(i,j)∈I×J
est un système complet d’événements de (Ω, A) appelé système complet d’événements

associé au couple (X, Y ).
Remarque 3.1.2. Pour l’événement [X = xi ] ∩ [Y = yj ], on trouve aussi les notations

[X = xi , Y = yj ] ou [(X, Y ) = (xi , yj )]. Quelle que soit la notation adoptée, cet événement
est n o
ω ∈ Ω, X(ω) = xi et Y (ω) = yj .
3.1.2 Loi conjointe

Définition 3.1.2. Soit (X, Y ) un couple de variables aléatoires réelles discrètes dans
l’espace probabilisé (Ω, A, P ). L’application
(
X(Ω) × Y (Ω) −→ [0, 1]
P(X,Y ) :
(x, y) 7−→ P ([X = x] ∩ [Y = y])
est appelée loi du couple (X, Y ) ou loi conjointe des variables aléatoires X et Y .
Remarques 3.1.1.
• Si X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N, il
s’agit de déterminer la famille (pi,j )(i,j)∈I×J où pi,j = P ([X = xi ] ∩ [Y = yj ]).
• Si les variables X et Y sont finies, il existe des entiers naturels non nuls n et m
tels que X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }. La loi peut être représentée
par un tableau à double entrée, les lignes correspondant aux valeurs de X(Ω) et
les colonnes à celles de Y (Ω) : sur la i-ième ligne et la j-ième colonne, on place
P ([X = xi ] ∩ [Y = yj ]).
KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles

41
Exemple 3.1.2. Dans une succession de pile ou face pour laquelle la probabilité d’obtenir
pile est p ∈]0, 1[ et la probabilité d’obtenir face est q = 1−p, on note X le rang d’apparition
du premier pile et Y le rang d’apparition du second pile. On a X(Ω) = N∗ et Y (Ω) =
|[2, ..., ∞|[. Soit (n, k) ∈ X(Ω) × Y (Ω).
• Si n > k, on a par définition de X et Y , P ([X = n] ∩ [Y = k]) = 0.
• Si n < k, l’événement [X = n] ∩ [Y = k] est réalisé si on obtient pile aux n-ième
et k-ième lancers, les tirages entre le premier et le k-ième différents de ces deux-là
donnant face. Les résultats des différents lancers étant indépendants, on obtient
P ([X = n] ∩ [Y = k]) = p2 q k−2 .
Proposition 3.1.2. Soit (X, Y ) un couple de variables aléatoires réelles discrètes de

l’espace probabilisé (Ω, A, P ).
• Si X et Y sont finies, avec X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }, on a alors
n m
! m n
!
X X X X
P ([X = xi ] ∩ [Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]) = 1.
i=1 j=1 j=1 i=1
• De même, si X(Ω) = {xi ∈ N} et Y (Ω) = {yj ∈ N}, on a

+∞ +∞
! +∞ +∞ !
X X X X
P ([X = xi ] ∩ [Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]) = 1.
i=0 j=0 j=0 i=0
Exemple 3.1.3. Considérons l’exemple de loi conjointe étudiée précédemment. On a

+∞ X
X +∞ +∞ X
X +∞
P ([X = n] ∩ [Y = k]) = p2 q k−2 .
n=1 k=1 n=1 k=1
En faisant le changement de variable j = k − n − 1, on obtient, pour tout k ∈ N∗ ,

+∞ +∞ +∞
X
2 k−2
X
2 j+n−1 2 n−1
X 1
pq = pq =p q q j = p2 q n−1 = pq n−1 .
k=n+1 j=0 j=0
1−q
On en déduit
+∞ X
+∞ +∞
X X p
P ([X = n] ∩ [Y = k]) = p q n−1 = = 1.
n=1 k=1 n=1
1−q

42
3.1.3 Lois marginales

Définition 3.1.3. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes de
l’espace probabilisé (Ω, A, P ), la loi de X est appelée première loi marginale du couple
et celle de Y est appelée deuxième loi marginale du couple.
Théorème 3.1. Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On pose
X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On dispose
alors des égalités suivantes
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]),
j∈J
X
∀j ∈ J, P ([Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]).
i∈I
Remarques 3.1.2.
• Les sommes considérées sont finies ou infinies.
Si Y est finie, on pose Y (Ω) = {y1 , ..., ym } et on obtient
m
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]).
j=1
Si Y est discrète infinie, on prend I = N ou N∗ et on obtient

+∞
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]).
j=0
On peut faire la même chose pour la deuxième loi marginale.

• Si la loi conjointe est représentée sous la forme d’un tableau, pour obtenir la pro-
babilité P ([X = xi ]), il suffit de faire la somme des termes de la i-ième ligne ; pour
obtenir P ([Y = yj ]), on fait la somme des termes de la j-ième colonne.
Exemple 3.1.4. Déterminons les lois marginales du couple dont on a déterminé les lois
conjointes. Si X et Y représentent le rang d’apparition du premier et du deuxième pile
dans une suite infinie de lancers d’une pièce, on a obtenu, pour n ∈ N∗ et k > 2,
(
p2 q k−2 si n < k
P ([X = n] ∩ [Y = k]) =
0 si n > k.
On obtient, pour tout n ∈ N,
+∞
X +∞
X
P ([X = n]) = P ([X = n] ∩ [Y = k]) = p2 q k−2
k=n+1 k=n+1
+∞
X 1
p2 q n+j−1 = p2 q n−1 = pq n−1
k=n+1
1−q

43
et, pour tout entier k > 2,

k−1
X k−1
X
P ([Y = k]) = P ([X = n] ∩ [Y = k]) = p2 q k−2 = (k − 1)p2 q k−2 .
n=1 n=1
On constate sans surprise que la variable aléatoire X suit une loi géométrique de pa-
ramètre p (temps d’attente du premier succès). La variable aléatoire Y , temps d’attente
du deuxième succès, suit la loi de Pascal de paramètre (2, p).
Remarque 3.1.3. La connaissance des lois marginales ne suffit pas à reconstituer la loi
conjointe d’un couple de variables aléatoires.
3.1.4 Lois conditionnelles

Définition 3.1.4. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes et tout
y de Y (Ω) tel que P ([Y = y]) 6= 0, l’application
X(Ω) −→ R
P ([X = x] ∩ [Y = y])
x 7−→ = P[Y =y] ([X = x])
P ([Y = y])
est appelée la loi conditionnelle à [Y = y] de X,

et pour tout x de X(Ω) tel que P ([X = x]) 6= 0, l’application
Y (Ω) −→ R
P ([X = x] ∩ [Y = y])
y 7−→ = P[X=x] ([X = x])
P ([X = x])
est appelée la loi conditionnelle à [X = x] de Y
Remarques 3.1.3.
• La première loi conditionnelle est la loi de la variable X dans l’espace probabilisable
(Ω, A, P[Y =y] ) où P[Y =y] est la probabilité conditionnelle à l’événement [Y = y]. De
même la seconde est la loi de Y dans l’espace probabilisable (Ω, A, P[X=x] ).
• Au lieu de loi conditionnelle à [Y = y], on dit aussi loi sachant [Y = y].
Exemple 3.1.5. Reprenons l’exemple précédent. Si X et Y représentent le rang d’appa-

rition du premier et du deuxième pile dans une suite infinie de lancers d’une pièce, on a
obtenu, pour n ∈ N∗ et k > 2,
(
p2 q k−2 si n < k
P ([X = n] ∩ [Y = k]) =
0 si n > k.

44
P ([X = n]) = pq n−1 et P ([Y = k]) = (k − 1)p2 q k−2 .

On en déduit que, pour tout k > 2,

p2 q k−2 1
si n 6 k − 1


2 k−2
=
P[Y =k] ([X = n]) = (k − 1)p q k−1
 0

si n > k.
La loi conditionnelle à [Y = k] est la loi uniforme sur |[1; k − 1]|. Cela peut s’expliquer
ainsi : une fois [Y = k] réalisé, il y a dans les k − 1 premiers lancers exactement un pile
(puisque Y est le deuxième pile). La probabilité d’obtenir pile étant la même à tous les
lancers, il est réparti de manière équiprobable sur |[1; k − 1]|.
Pour tout n > 1, on a
 2 k−2
 pq = pq k−n−1 si k > n + 1
P[X=n] ([Y = k]) = pq n−1
0 si k 6 n.

On remarque que, pour j ∈ N∗ ,
P[X=n] ([Y − n = j]) = P[X=n] ([Y = n + j]) = pq j−1 .
La loi de Y − n conditionnelle à [X = n] est donc la loi géométrique de paramètre p. Une

fois l’événement [X = n] réalisé, Y − n représente le temps d’attente du premier pile (à
partir du (n + 1)-ième lancer).
Proposition 3.1.3. Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, A, P ).
On pose X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On
suppose que, pour tout (k, l) ∈ I × J, P ([X = xk ]) 6= 0 et P ([Y = yl ]) 6= 0. On a, pour
tout (i, j) ∈ I × J,
P ([X = xi ] ∩ [Y = yj ]) = P[Y =yj ] ([X = xi ])P ([Y = yj ])

= P[X=xi ] ([Y = yj ])P ([X = xi ],
X
P ([X = xi ]) = P[Y =yk ] ([X = xi ])P ([Y = yk ]),
k∈J
X
P ([Y = yj ]) = P[X=xl ] ([Y = yj ])P ([X = xl ]).
l∈I
3.1.5 Indépendance de deux variables aléatoires discrètes

Définition 3.1.5. Deux variables aléatoires réelles discrètes X et Y de l’espace probabilisé
(Ω, A, P ) sont dites indépendantes si
∀(x, y) ∈ X(Ω) × Y (Ω), P ([X = x] ∩ [Y = y]) = P ([X = x])P ([Y = y]).

45
Remarque 3.1.4. Cela équivaut à l’indépendance des événements [X = x] et [Y = y]

pour tout couple (x, y) ∈ X(Ω) × Y (Ω).
Proposition 3.1.4. Soient X et Y deux variables aléatoires réelles discrètes sur l’espace
probabilisé (Ω, A, P ). Si les variables aléatoires X et Y sont indépendantes, alors pour
toute partie E de X(Ω) et de toute partie F de Y (Ω), les événements [X ∈ E] et [Y ∈ F ]
sont indépendants.
Proposition 3.1.5. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes de
l’espace probabilisé (Ω, A, P ), toute fonction f de X(Ω) à valeurs dans R et toute fonction
g de Y (Ω) à valeurs dans R, si les variables aléatoires réelles X et Y sont indépendantes,
alors f (X) et g(Y ) sont des variables aléatoires réelles discrètes indépendantes.
Exemple 3.1.6. Si X et Y sont deux variables aléatoires discrètes indépendantes, pour

tous entiers naturels non nuls m et n, les variables X m et Y n sont indépendantes.
3.1.6 Variable aléatoire fonction de deux variables aléatoires

Théorème 3.2. Loi d’une variable aléatoire fonction de deux variables aléatoires
Pour tout couple (X, Y ) de variables aléatoires réelles discrètes sur le même espace proba-
bilisé (Ω, A, P ) et toute fonction g définie sur X(Ω)×Y (Ω) à valeurs dans R, l’application
(
Ω −→ R
Z :
ω 7−→ g X(ω), Y (ω)
est une variable aléatoire réelle discrète. Sa loi de probabilité est définie, pour tout z ∈
Z(Ω) par
X
P ([Z = z]) = P ([X = x] ∩ [Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z
En particulier, si les variables X et Y sont indépendantes, on obtient, pour tout z ∈ Z(Ω)
X
P ([Z = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z
Corollaire 3.1.1. Si X et Y sont deux variables aléatoires discrètes sur (Ω, A, P ),

indépendantes, on a, pour tout z ∈ (X + Y )(Ω),
X
P ([X + Y = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z

46
3.2. Couples de variables aléatoires admettant une densité
Théorème 3.3. Espérance d’une variable aléatoire de deux variables aléatoires

Soient X et Y deux variables aléatoires réelles finies et g une fonction définie sur X(Ω) ×
Y (Ω). On note X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }, où n et m sont deux entiers
naturels non nuls. La variable aléatoire réelle discrète finie Z = g(X, Y ) admet alors une
espérance et
n X
X m
E(Z) = g(xi , yj )P ([X = xi ] ∩ [Y = yj ]).
i=1 j=1
3.2 Couples de variables aléatoires admettant une

densité
3.2.1 Lois associées à un couple de variables aléatoires à densité

Définition 3.2.1. Si (X, Y ) est un couple de variables aléatoires, la fonction F : R2 −→
R définie par
F (x, y) = P ([X 6 x] ∩ [Y 6 y])
est appelée fonction de répartition du couple (X, Y ) ou fonction de répartition

conjointe de X et Y .
Définition 3.2.2. Soit (X, Y ) un couple de variables aléatoires réelles définies sur un
espace probabilisé (Ω, A, P ), de fonction de répartition F . On dit que (X, Y ) possède une
densité s’il existe une fonction f : R2 7−→ R vérifiant :
1. f positive ou nulle ;
Z Z Z Z
2. l’intégrale double f (t, u)dtdu converge et f (t, u)dt du = 1 ;
R2 R2
telle que, pour tout réel (x, y) ∈ R2 ,
Z Z
F (x, y) = f (t, u)dt du.
]−∞,x]×]∞,y]
La fonction f est appelée une densité du couple (X, Y ) ou densité conjointe de X

et Y .
Z Z
2
Théorème 3.4. Soit f une fonction de R dans R positive ou nulle, telle que f (t, u)dt du =
R2
1. Alors il existe un espace probabilisé (Ω, A, P ) et un couple de variables aléatoires (X, Y ),
défini sur cet espace probabilisé, dont f est une densité.

47
Exemple 3.2.1. Soit f une fonction est définie par

(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon
La fonction f est positive, nulle en

Z dehors
Z de [0, 1]2 et continue sur ce produit de segments.
On en déduit la convergence de f (t, u)dt du et
R2
Z Z Z Z Z 1 Z 1
f (t, u)dt du = f (t, u)dt du = dt du = 1.
R2 [0,1]2 0 0
Donc f est la densité d’un couple (X, Y ) de variables aléatoires. On dit que (X, Y ) suit
la loi uniforme sur [0, 1]2 .
Proposition 3.2.1. Soit (X, Y ) un couple de variables aléatoires, de fonction de répartition

conjointe F et possédant une densité f . Si f est continue au voisinage de (x, y) (c’est-à-
dire sur une boule ouverte de centre (x, y)), on a
∂ 2F ∂ 2F
f (x, y) = (x, y) = (x, y).
∂x∂y ∂y∂x
Exemple 3.2.2. Examinons la fonction de répartition d’un couple suivant la loi uniforme
sur le carré [0, 1]2 dont la densité a été introduite précédemment. Les variables aléatoires
X et Y sont à valeurs dans [0, 1], donc F (x, y) = P ([X 6 x] ∩ [Y = y]) = 0 si x < 0 ou
y < 0.
Si (x, y] ∈ [0, 1]2 , on a
Z Z Z Z Z x Z y
F (x, y) = f (u, v)du dv = du dv = du dv = xy.
[0,1]×[0,1] [0,1]×[0,1] 0 0
Si x ∈ [0, 1] et y > 1, [Y 6 y] = Ω, F (x, y) = P ([X 6 x]) = x ; le cas x > 1 et y ∈ [0, 1]

est identique.
Enfin si x > 1 et y > 1, alors F (x, y) = 1.
On vérifie que F est de classe C 2 sur R2 privé des côtés du carré [0, 1]2 et que sur cet
∂ 2F
ensemble, f = .
∂x∂y
Théorème 3.5. Probabilité de [(x, Y ) ∈ D] où D est un domaine de R2

Soit (X, Y ) un couple de variables aléatoires de fonction de répartition conjointe F ,
possédant une densité f . Pour tous intervalles I et J de R, on a
Z Z
P ([X ∈ I] ∩ [Y ∈ J]) = P ([(X, Y ) ∈ I × I × J]) = f (x, y)dx dy.
I×J

48
On obtient en particulier, si I = [a, b] et J = [c, d], où a, b, c, d sont des réels tels que
a < b et c < d,
Z b Z d
P ([a 6 X 6 b] ∩ [c 6 Y 6 d]) = f (x, y)dy dx.
a c
Plus généralement si D est un domaine élémentaire, éventuellement non borné, on obtient

Z Z
P ([(X, Y ) ∈ D]) = f (x, y)dx dy.
D
Théorème 3.6. Densités marginales

Si (X, Y ) est un couple de variables aléatoires possédant une densité f , les variables X et
Y sont des variables aléatoires à densité, dont une densité est définie respectivement par
Z +∞ Z +∞
∀x ∈ R, fX (x) = f (x, y)dy et fY (y) = f (x, y)dx.
−∞ −∞
Définition 3.2.3. Si (X, Y ) est un couple de variables aléatoires possédant une densité,
les densités des variables X et Y sont appelées les densités marginales du couple.
Exemple 3.2.3. Reconsidérons la f fonction est définie par

(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon
Si x ∈/ [0, 1], on a f (x, y) = 0 pour tout réel y et donc fX (x) = 0. Si x ∈ [0, 1], on obtient
R1
f (x, y) = 1 si y ∈ [0, 1] et f (x, y) = 0 sinon. On en déduit que fX (x) = 0 dy = 1. On
reconnaı̂t la densité de la loi uniforme sur [0, 1]. Ainsi X ,→ U([0, 1]). On démontre qu’il
en est de même de Y .
Théorème 3.7. Densités conditionnelles

Soit (X, Y ) un couple de variables aléatoires définies sur un espace probabilisé (Ω, A, P ),
possédant une densité f , X et fY les densités marginales. Pour tout réel x tel que fX (x) >
0, la fonction fY /[X=x] définie par
f (x, y)
fY /[X=x] =
fX (x)
est la densité d’une variable aléatoire, appelée densité de Y conditionnelle à [X = x].

On dit aussi que c’est la densité de la loi de Y conditionnelle à [X = x].

49
De même, pour tout réel y tel que fY (y) > 0, la fonction fX/[Y =y] définie par
f (x, y)
fX/[Y =y] =
fY (y)
est la densité d’une variable aléatoire, appelée densité de X conditionnelle à [Y = y]. On
dit aussi que c’est la densité de la loi de X conditionnelle à [Y = y].
Exemple 3.2.4. Reprenons la fonction f qui est définie par

(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon.
On a fX (x) = 1 si x ∈ [0, 1] et fX (x) = 0 sinon. On obtient, pour x ∈ [0, 1],

(
f (x, y) 1 si x ∈ [0, 1]
fY /[X=x] = =
fX (x) 0 sinon
La loi conditionnelle à [X = x] est pour tout x ∈ [0, 1], la loi uniforme sur [0, 1]. On
obtient le même résultat pour la loi de X conditionnelle à [Y = y].
Théorème 3.8. Densité d’un couple de variables indépendantes

Soient X et Y deux variables aléatoires à densité définies sur le même espace probabilisé,
de fonction de répartition conjointe F . Il y a équivalence entre :
i. les variables X et Y sont indépendantes ;
ii. pour tout (x, y) ∈ R2 , F (x, y) = FX (x)FY (y) ;
iii. la fonction (x, y) 7−→ fX (x)fY (y) est une densité du couple (X, Y ).
Exemple 3.2.5. Si (X, Y ) suit une loi uniforme sur [0, 1]2 , X et Y suivent des lois
uniformes sur [0, 1]. On a, pour (x, y) ∈ [0, 1]2 , f (x, y) = fX (x) = fY (y) = 1 et donc
/ [0, 1]2 , car alors f (x, y) = 0 et soit
f (x, y) = fX (x)fY (y). Cela reste vrai si (x, y) ∈
fX (x) = 0, soit fY (y) = 0. Les variables X et Y sont donc indépendantes.
3.2.2 Variables aléatoires fonctions d’un couple de variables à

densité
Définition 3.2.4. Somme de variables aléatoires indépendantes
Soient f et g deux densités de probabilité sur R. On appelle produit de convolution
des fonctions f et g la fonction h définie par
Z +∞
∀z ∈ R, h(z) = f (x)g(z − x)dx
−∞

50
3.3. Covariance et coefficient de corrélation linéaire
Théorème 3.9. Si X et Y sont deux variables aléatoires indépendantes de densité fX

et fY , la somme Z = X + Y est une variable à densité dont une densité est donnée par
le produit de convolution de fX et fY . On a donc, pour tout z ∈ R
Z +∞
fZ (z) = fX (x)fY (z − x)dx.
−∞
Exemple 3.2.6. Soient X et Y deux variables aléatoires indépendantes, suivant la loi

uniforme sur [0, 1]. Déterminons une densité de Z = X + Y .
Comme X et Y sont à valeurs dans [0, 1], la
Z variable Z est à valeurs dans [0, 2] et fZ (z) = 0
z
si z ∈
/ [0, 2]. Si z ∈ [0, 2], on obtient fX (x)fY (z − x)dx en utilisant le théorème
0
précédent.
Rz Rz
Si z 6 1, on a fZ (x) = fY (z − x)dx = 0 dx = z.
0
R1 R1
Si 1 < z 6 2, on a fZ (x) = 0 fY (z − x)dx = z−1 dx = 2 − z, car fY (z − x) = 0 si
z − x > 1, c’est-à-dire x < z − 1.
Théorème 3.10. Stabilité de la loi normale

Soient X et Y deux variables aléatoires définies sur le même espace probabilisé, indépendantes,
suivant des lois normales de paramètres respectifs (m, σ 2 ) et (m0 , σ 02 ). Alors Z = X + Y
suit la loi normale de paramètre (m + m0 , σ 2 + σ 02 ).
Théorème 3.11. Espérance d’une variable aléatoire fonction d’un couple de

variables aléatoires à densité
Soit (X, Y ) un couple de variables aléatoires possédant une densité f et g une application
définie sur un ensemble D contenant (X, Y )(Ω). La variable aléatoire g(X, Y ) admet une
RR
espérance si et seulement si l’intégrale R2
g(x, y)dx dy converge. Cette espérance est
alors donnée par Z Z
E(g(X, Y )) = g(x, y)dx dy.
R2
3.3 Covariance et coefficient de corrélation linéaire
3.3.1 Covariance
Définition 3.3.1. Soient X et Y deux variables aléatoires réelles (discrètes ou admettant
une densité) admettant une espérance. Si la variable (X − E(X))(Y − E(Y )) admet une
espérance, on appelle covariance de X et Y (ou du couple (X, Y )) le réel noté Cov(X, Y )
défini par
Cov(X, Y ) = E (X − E(X))(Y − E(Y )) .

51
Remarque 3.3.1. La covariance de X et Y est donc l’espérance du produit des variables

centrées associées à X et Y .
Théorème 3.12. (Théorème de Kœnig-Huygens)

Soient X et Y des variables aléatoires réelles sur le même espace probabilisé (Ω, A, P ).
Si les variables X, Y et XY admettent une espérance, alors le couple (X, Y ) admet une
covariance donnée par la formule
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Théorème 3.13. Si X, X 0 , Y et Y 0 sont des variables admettant des moments d’ordre

2 et λ un réel, on a
• Cov(X, X) = V (X) ;
• Cov(X, Y ) = Cov(Y, X) ;
• Cov(X + X 0 , Y ) = Cov(X, Y ) + Cov(X 0 , Y ) ;
• Cov(X, Y + Y 0 ) = Cov(X, Y ) + Cov(X, Y 0 ) ;
• Cov(λX, Y ) = λCov(X, Y ) et Cov(X, λY ) = λCov(X, Y )
Autrement dit, les applications X 7−→ Cov(X, Y ) et Y 7−→ Cov(X, Y ) sont linéaires.
Théorème 3.14.
• Pour tout couple discret (X, Y ) de variables aléatoires réelles admettant un moment
d’ordre 2, la variable aléatoire réelle discrète X + Y admet une variance égale à
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
• Plus généralement, pour toute famille finie (X1 , ..., Xn ) de n variables aléatoires
réelles admettant un moment d’ordre 2, la variable aléatoire réelle X1 +X2 +· · ·+Xn
admet une variance
n
X X
V (X1 + X2 + · · · + Xn ) = V (Xk ) + 2 Cov(Xi , Xj ).
k=1 16i<j6n
Théorème 3.15. Si X et Y sont deux variables aléatoires discrètes, possédant un mo-

ment d’ordre 2, on a
|Cov(X, Y )| 6 σ(X)σ(Y ).
Si σ(X) 6= 0, on obtient une égalité dans l’inégalité précédente, c’est-à-dire Cov(X, Y ) =

±σ(X)σ(Y ) si et seulement s’il existe (a, b) ∈ R2 tel que Y = aX + b presque sûrement.

52
3.3.2 Coefficient de corrélation linéaire

Définition 3.3.2. Soient X et Y des variables aléatoires réelles admettant chacune une
variance non nulle. On appelle coefficient de corrélation linéaire de X et Y le nombre réel
Cov(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )
Théorème 3.16. Pour tout couple (X, Y ) de variables aléatoires réelles admettant un
coefficient de corrélation linéaire, on dispose des inégalités
−1 6 ρ(X, Y ) 6 1.
On obtient une égalité dans les inégalités précédentes, c’est-à-dire ρ(X, Y ) = ±1 si et

seulement s’il existe (a, b) ∈ R2 tel que Y = aX + b presque sûrement, c’est-à-dire tel que
P ([Y = aX + b]) = 1.
Théorème 3.17. Cas des variables aléatoires indépendantes

Soient X et Y deux variables aléatoires réelles indépendantes admettant un moment
d’ordre 2, sur le même espace probabilisé (Ω, A, P ). On alors
• E(XY ) = E(X)E(Y ) ;
• Cov(X, Y ) = 0 ;
• V (X + Y ) = V (X) + V (Y ).
Définition 3.3.3. Si deux variables aléatoires réelles sur le même espace probabilisé
vérifient Cov(X, Y ) = 0, on dit qu’elles sont non corrélées.
Proposition 3.3.1. Deux variables aléatoires réelles indépendantes sont non corrélées.
Remarque 3.3.2. La réciproque est fausse. Deux variables aléatoires non corrélées ne
sont pas nécessairement indépendantes.

? ? Chapitre Quatre ? ?
Échantillonnage et estimation
Face à un phénomène aléatoire numérique, on cherche à connaı̂tre autant que possible

la loi qui le régit et les valeurs des paramètres dont elle peut dépendre.
Or ce phénomène n’est en général accessible que par les réalisations de la variable
aléatoire X qui le décrit. C’est donc par l’intermédiaire de plusieurs réalisations de cette
variable aléatoire que l’on cherche à déterminer, éventuellement de manière approchée (on
dit estimer ) la loi de la variable X et ses paramètres éventuels. Lorsque l’on envisage ainsi
n réalisations successives de la variable X, ont dit que l’on a réalisé un échantillon de
taille n (ou un n-échantillon) de la variable X. Il est alors d’usage de considérer que ces
n réalisations successives de la même variable aléatoire X constituent une seule et même
réalisation du vecteur aléatoire (X1 , X2 , ..., Xn ), où les Xi sont des variables aléatoires de
même loi (et de même paramètre) que X. On dit que X est la loi parente de l’échantillon
envisagé.
Il existe de nombreuses façons de constituer des échantillons. Dans ce chapitre, nous
n’envisagerons que le cas d’un échantillon aléatoire simple, où les variables Xi sont mu-
tuellement indépendantes. Pour rappeler qu’un échantillon (X1 , X2 , ..., Xn ) est constitué
de variables aléatoires Xi mutuellement indépendantes et de même loi (avec le même
paramètre), on parlera d’échantillon iid (indépendant et identiquement distribué). La
constitution d’échantillons plus compliqués, et plus sophistiqués, est par exemple envi-
sagée dans la théorie des sondages.
Il arrive souvent, et c’est le seul cas envisagé dans ce chapitre, que la forme de la loi
parente X soit connue, et que l’on cherche seulement à en déterminer certains paramètres.
On parle alors d’estimation paramétrique.
53
54
4.1. Échantillons d’une loi de probabilité
4.1 Échantillons d’une loi de probabilité
4.1.1 Définitions
Définition 4.1.1. Soit L une loi de probabilité sur un espace probabilisé (Ω, A, P ).
On appelle échantillon de taille n (ou n-échantillon) de la loi L, une suite En =
(X1 , X2 , ..., Xn ) de n variables aléatoires Xi suivant toute la loi L.
La loi L est la loi parente de l’échantillon.
Remarques 4.1.1.
• La donnée de la suite finie (X1 , X2 , ..., Xn ) équivaut naturellement à la donnée du
vecteur aléatoire (X1 , X2 , ..., Xn ).
La variable aléatoire Xi se déduit donc de l’échantillon par projection sur le i-ième
vecteur de la base canonique de Rn .
• Pour tout possible ω de la tribu A, la réalisation
(X1 (ω), X2 (ω), ..., Xn (ω)) = (x1 , x2 , ..., xn )
est un élément de Rn , et c’est un élément que l’on appelle souvent échantillon.

Pour éviter les confusions, le vecteur aléatoire est parfois appelé échantillon
aléatoire, (x1 , x2 , ..., xn ) étant un échantillon observé.
4.1.2 Statistiques sur un échantillon

Définition 4.1.2. Soit En = (X1 , X2 , ..., Xn ) un n-échantillon d’une loi de probabilité L.
On appelle statistique sur En toute variable aléatoire Y = ϕ(X1 , X2 , ..., Xn ) où ϕn est une
application de Rn dans R telle que Y soit une variable aléatoire.
Remarque 4.1.1. Une statistique sur En est une variable aléatoire définie sur le même
espace probabilisé (Ω, A, P ) que la loi parente L de l’échantillon En .
Exemple 4.1.1. Le résultat du lancer d’un dé supposé bien équilibré, est régit par la
loi uniforme discrète sur |[1, 6]|. En lançant le dé 100 fois, on réalise un 100-échantillon
E100 = (X1 , X2 , ..., X100 ) de cette loi. Si l’on cherche à illustrer la loi des grands nombres,
on est conduit à calculer la moyenne des résultats obtenus, c’est-à-dire à étudier la variable
100
1 X
aléatoire Y = Xk .
100 k=1
Cette statistique s’appelle la moyenne empirique de l’échantillon E100 .
KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation

55
4.1. Échantillons d’une loi de probabilité
4.1.3 Statistiques empiriques

Soit L une loi de probabilité, et soit F la fonction de répartition d’une variable aléatoire
X suivant la loi L. Les valeurs typiques des paramètres usuels de la loi L tels que
l’espérance et la variance, diffèrent des valeurs obtenues en utilisant un n-échantillon
En = (X1 , X2 , ..., Xn ) de la loi L, qui sont qualifiées d’empiriques (car obtenues à partir
de réalisations de l’échantillon).
Définition 4.1.3. Fonction de répartition empirique Soit En = (X1 , X2 , ..., Xn ) un

n-échantillon d’une loi L. La statistique Fn définie pour tout x réel par
n
1X
Fn (x) = 1]−∞,x] (Xk )
n k=1
porte le nom de fonction de répartition empirique de la loi L associée à l’échantillon

En .
Remarques 4.1.2.
• Une fonction de répartition d’échantillon est une statistique qui dépend du réel x.
Ce n’est pas une fonction de répartition au sens usuel du terme. En effet, pour un
x fixé, Fn (x) est une variable aléatoire.
• La variable aléatoire Fn (x) représente le pourcentage (aléatoire) des valeurs prises
par les variables aléatoires composant l’échantillon et qui sont inférieures ou égales
à x.
• On peut dire que Fn (x) est une variable aléatoire dont chaque réalisation est une
1
fonction en escalier dont les sauts sont des multiples de .
n
Théorème 4.1. Pour tout réel x, la suite de variables aléatoires Fn (x) converge en
probabilité (donc en loi) vers la variable aléatoire constante égale à F (x)
∀x ∈ R, Fn (x) −→ F (x).
P
Remarque 4.1.2. Ce théorème, ainsi que ce que ceux évoqués à la première remarque,
constituent l’argument fondamental qui justifie l’utilisation d’échantillons statistiques.
Définition 4.1.4. Moyenne empirique

Soit En = (X1 , X2 , ..., Xn un n-échantillon d’une loi L. La statistique X n définie par
n
1X
Xn = Xk
n k=1
porte le nom de moyenne empirique de la loi L associée à l’échantillon En .

56
4.2. Estimateurs
Théorème 4.2. Soit X n la moyenne empirique associée à un n-échantillon iid d’une

σ2
loi L d’espérance m et de variance σ 2 . Alors E(X n ) = m et V (X n ) = .
n
Comportement asymptotique de la moyenne empirique
Théorème 4.3. La moyenne empirique X n associée à un n-échantillon iid d’une loi L

d’espérance m converge en probabilité vers la variable certaine égale à m
X n −→ m.
P
Théorème 4.4. Soit X n la moyenne empirique associée à un n-échantillon iid d’une

loi L d’espérance m et de variance σ 2 . Alors la variable centrée réduite associée à X n
converge en loi vers une variable normale centrée réduite
√ Xn − m
n −→ Y, avec Y ,→ N (0, 1).
σ L
Définition 4.1.5. Variance empirique

Soit En = (X1 , X2 , ..., Xn ) un n-échantillon d’une loi L. La statistique Sn2 définie par
n
1X
Sn2 = (Xk − Xn )2
n k=1
porte le nom de variance empirique de la loi L associée à l’échantillon En .
Théorème 4.5. Soit Sn2 la variance empirique associée à un n-échantillon iid d’une loi
n−1 2
L d’espérance m et de variance σ 2 . Alors E(Sn2 ) = σ .
n
4.2 Estimateurs
4.2.1 Position du problème

Dans la première partie de ce chapitre, nous avons étudié des échantillons issus d’une
variable aléatoire dont la loi était bien déterminée. Nous nous intéressons maintenant au
cas où l’on est en présence d’une loi de probabilité dont certains paramètres sont inconnus.
La situation de référence est celle où l’on se trouve en face d’un phénomène dont les
manifestations consistent en des résultats de mesures que l’on est incapable de prévoir.
On fait alors le postulat suivant : les résultats observés sont des réalisations d’une
variable aléatoire.

57
4.2. Estimateurs
La loi de cette variable aléatoire X est inconnue. Le travail du statisticien consiste alors,
à partir d’un échantillon de cette loi inconnue, à rechercher quelle loi théorique on peut
retenir comme loi parente de l’échantillon.
Dans la grande majorité des cas, on suppose que l’échantillonnage a été effectué de manière
indépendante, et que les résultats successifs sont des réalisations de variables aléatoires
suivant la même loi, de telle manière que l’échantillon obtenu soit un échantillon iid. On
dit alors parfois que l’on est dans les conditions d’échantillonnage aléatoire simple.
Dans certains cas, on ne connaı̂t rien à priori sur la loi de X. Mais souvent, des considé-
rations sur les conditions de l’expérimentation permettent de préciser que la loi cherchée
appartient à une certaine famille (µθ )θ∈Θ de lois µθ dépendant d’un paramètre θ réel ou
vectoriel, dont on sait qu’il appartient à un certain ensemble Θ. C’est ce seul cas que nous
envisageons dans ce chapitre. La loi que l’on cherche à évaluer est ainsi définie par son pa-
ramètre θ0 . On dit que l’on est en présence d’un problème d’estimation paramétrique,
et nous supposons qu’à deux valeurs distinctes du paramètre, correspondent deux lois dis-
tinctes µθ et µθ0 .
Pour résumer, c’est à partir des réalisations d’un échantillon aléatoire que l’on doit évaluer
(on dit aussi estimer) la valeur de θ0 du paramètre θ (réel ou vectoriel), qui permet de
définir sans ambiguı̈té la loi µθ0 qui sera le meilleur choix possible comme loi parente de
l’échantillon dans la famille (µθ )θ∈Θ .
4.2.2 Définitions
Définition 4.2.1. Soit g une fonction de Θ dans R ; et soit En = (X1 , X2 , ..., Xn )
un n-échantillon d’un loi µθ . On appelle estimateur de g(θ0 ) toute statistique ϕn sur
l’échantillon En prenant ses valeurs dans l’ensemble g(Θ) des valeurs possibles pour g(θ).
L’estimateur Tn est donc la variable aléatoire Tn = ϕ(X1 , X2 , ..., Xn ).
L’estimateur est une variable aléatoire dépendant de (X1 , X2 , ..., Xn ). Comme les Xi
suivent tous la loi µθ , l’estimateur Tn est une variable aléatoire dépendant de θ.
Les valeurs observées grâce auxquelles on cherchera à évaluer g(θ0 ) sont des réalisations
de cette variable aléatoire.
Définition 4.2.2. Soit Tn = ϕ(X1 , X2 , ..., Xn ) un estimateur de g(θ0 ). Une estimation

de g(θ0 ) est une réalisation ϕ(x1 , x2 , ..., xn ) de Tn où (x1 , x2 , ..., xn ) est une réalisation de
l’échantillon aléatoire observé (X1 , X2 , ..., Xn ).
Exemple 4.2.1. On considère un dé dont on sait qu’il est pipé ou non. On lance le dé
n fois. Au k−ième jet du dé, on associe la variable aléatoire Xk qui prend la valeur 1

58
4.2. Estimateurs
si le résultat obtenu est 6, et 0 dans les autres cas. Les variables Xk suivent une loi de
Bernouilli de paramètre p dont (X1 , X2 , ..., Xn ) est un n-échantillon. Ici, on prend θ = p
et Θ = [0, 1].
1
La variable aléatoire Tn = (X1 + X2 + · · · + Xn ) (c’est la moyenne empirique de
n
l’échantillon) prend ses valeurs dans [0, 1]. C’est l’estimateur le plus naturel de p (= θ).
On peut envisager bien d’autres estimateurs de p. Par exemple
n n−1
2 X X
Un = kXk et Vn = Xk Xk−1
n(n + 1) k=1 k=1
sont aussi des estimateurs de p. En l’absence d’autres indications, on se demande pourquoi

on pourrait les envisager, mais ils existent, comme beaucoup d’autres.
4.2.3 Biais d’un estimateur

Pour construire un estimateur permettant d’obtenir des évaluations de bonne qualité du
paramètre étudié, pour choisir entre deux estimateurs, il faut se donner des critères de
qualité pour un estimateur. Si l’on veut estimer g(θ) par les valeurs prises par la variable
aléatoire Tn , il faut que ces valeurs ne s’éloignent pas trop de g(θ).
Un estimateur étant une variable aléatoire, et l’espérance d’une variable aléatoire étant
(lorsqu’elle existe) la principale caractéristique de tendance centrale, c’est tout naturelle-
ment que l’on s’intéressera à la différence entre l’espérance de cet estimateur et la vraie
valeur du réel g(θ0 ) (vraie valeur naturellement inconnue) que l’on cherche à évaluer.
Définition 4.2.3. Soit Tn un estimateur de g(θ). Si Tn admet une espérance pour tout
θ, on appelle biais de Tn le réel
bTn (θ) = Eθ (Tn ) − g(θ).
Remarque 4.2.1.
• Rappelons que la variable aléatoire Tn dépend a priori de θ, et que, par conséquent
son espérance dépend de θ. C’est ainsi que cette espérance peut se noter parfois
Eθ (Tn ).
• Le biais d’un estimateur peut être positif ou négatif. Il est clair que l’on cherchera à
obtenir un estimateur admettant un biais le plus faible possible (en valeur absolue),
l’idéal étant un biais nul.
• Il arrive que l’on parle du biais de Tn en θ.
• La valeur importante du biais est bien entendu bTn (θ0 ), qui est inconnue. Si l’on
remplace ce paramètre par l’estimation qu’on en a faite, on obtient une vraie valeur
approchée du biais, si bTn est une fonction continue.

59
4.2. Estimateurs
Définition 4.2.4. La variable aléatoire Tn est un estimateur sans biais de g(θ) si

bTn (θ) = 0, c’est-à-dire si Eθ (Tn ) = g(θ).
Exemples 4.2.1.
n
1X
1. Soit m l’espérance de la loi parente de l’échantillon, et considérons X n = Xk
n k=1
(moyenne empirique de l’échantillon) comme un estimateur de m. Les résultats
obtenus dans la première partie de ce chapitre permettent de conclure que X n est
un estimateur sans biais de m.
2. La variance empirique Sn2 n’est pas un estimateur sans biais de la variance σ 2 de
n−1 2
la loi parente. En effet, on a obtenu l’égalité E(Sn2 ) = σ . Le biais de la
n
2
variance empirique, en tant qu’estimateur de la la variance σ est donc bTn (θ) =
n−1 2 σ2
σ − σ2 = − .
n n
Remarques 4.2.1.
• On donne souvent le bias en valeur absolue.
• La lettre qui désigne le paramètre à estimer peut désigner tour à tour un élément
quelconque de l’ensemble des paramètres, ou la vraie valeur que l’on cherche à
estimer. Lorsque nous voulons insister sur le fait que l’on veut parler de la vraie
valeur, nous la notons avec l’indice 0.
• Lorsqu’il n’est pas nul, le biais d’un estimateur dépend en général de n et l’impor-
tant est d’étudier son comportement lorsque n tend vers l’infini.
4.2.4 Risque quadratique d’un estimateur

La qualité d’un estimateur ne dépend pas seulement de la proximité de son espérance avec
la vraie valeur du paramètre à estimer, mais aussi de la dispersion des valeurs qu’il prend
autour de cette valeur à estimer.
Définition 4.2.5. Soit Tn un estimateur de g(θ). Si Tn admet un moment d’ordre 2 pour

tout θ, on appelle risque quadratique ou erreur quadratique moyenne de Tn le réel
2
rTn (θ) = Eθ Tn − g(θ) .
Théorème 4.6. Le risque quadratique d’un estimateur est la somme de sa variance et

du carré de son biais, c’est-à-dire que
2 2
rTn (θ) = Eθ Tn − g(θ) = Vθ (Tn ) + bTn (θ) .
Ainsi, quand un estimateur est sans biais, son risque quadratique est égal à sa variance.

60
4.3. Suite d’estimateurs
Exemple 4.2.2. On suppose que X, la loi parente d’échantillon suit une loi de Bernouilli
n
1X
de paramètre p. Considérons X n = Xk comme un estimateur de p. Les résultats
n k=1
obtenus plus haut permettent de conclure que le risque quadratique de l’estimateur X n
p(1 − p)
est sa variance, c’est-à-dire .
n
Remarques 4.2.2.
• L’erreur quadratique moyenne (risque quadratique) d’un estimateur dépend du
paramètre à estimer, qui est inconnu. Pour en donner une valeur numérique ap-
prochée, on remplace ce paramètre par l’estimation qu’on en a fait. Il dépend aussi
de n, et l’important est d’étudier son comportement quand n tend vers l’infini.
• Il ne faut pas croire que, entre deux estimateurs, il faille systématiquement choisir
celui dont le biais est le plus petit (en valeur absolue), éventuellement en priorité
celui qui serait sans biais.
En réalité, on est parfois conduit à préférer un estimateur biaisé, mais dont les
valeurs sont très regroupées autour de la valeur moyenne, ce qui se traduit par une
variance faible. C’est pourquoi l’erreur quadratique moyenne tient compte de la
variance et du carré du biais.
Définition 4.2.6. Soient Tn1 et Tn2 deux estimateurs de g(θ). L’estimateur Tn1 est relati-
vement plus efficace que l’estimateur Tn2 s’il est plus précis que le second, c’est-à-dire
si :
rTn1 (θ) 6 rTn2 (θ).
4.3 Suite d’estimateurs
4.3.1 Généralités
De façon générale, un estimateur dépend non seulement des valeurs possibles du paramètre
à estimer, mais aussi du nombre n de variables aléatoires figurant dans l’échantillon. Sauf
cas très particulier, on définit donc, non un estimateur seul, mais une suite d’estima-
teurs. C’est la raison pour laquelle, dans la pratique, on désignera de la même façon un
estimateur, et la suite d’estimateurs qui lui est associée.
La loi des grands nombres, et plus généralement les propriétés de convergence, nous
laissent entendre que souvent, plus n est grand, meilleure est l’approximation.
Définition 4.3.1. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est asymptotiquement
sans biais si, pour tout θ de Θ, lim Eθ (Tn ) = g(θ).
n→∞

61
4.4. Estimation par intervalles de confiance
On dit aussi que l’estimateur Tn est asymptotiquement sans biais.
Définition 4.3.2. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est convergente si, pour
tout θ de Θ, la suite (Tn )n∈N∗ converge en probabilité vers la variable certaine g(θ), c’est-
à-dire si
∀ε ∈ R∗+ , lim Pθ (|Tn − g(θ)| > ε) = 0.
n→∞
On dit aussi que l’estimateur Tn est convergent (ou consistant).
4.3.2 Convergence et risque quadratique

Théorème 4.7. Soit Tn un estimateur de g(θ). Si le risque quadratique de Tn tend vers
0 quand n tend vers l’infini, alors Tn est un estimateur convergent de g(θ).
Corollaire 4.3.1.
• Tout estimateur sans biais dont la variance tend vers zéro est convergent.
• Tout estimateur asymptotiquement sans biais dont la variance tend vers zéro est
convergent, c’est-à-dire
h i h i
P
Eθ (Tn ) −→ et Vθ (Tn ) −→ 0 =⇒ Tn −→ g(θ) .
n→∞ n→∞ n→∞
4.3.3 Image par une fonction continue

Théorème 4.8. Soient Tn un estimateur convergent de g(θ) et f une fonction
à valeurs
réelles, continue sur g(Θ). Alors f (Tn ) est un estimateur convergent de f g(θ) .
Exemple 4.3.1. Considérons un n-échantillon iid de la loi uniforme sur un intervalle [0, θ],
où θ est un réel strictement positif. On sait que la moyenne empirique X n de l’échantillon
θ
est un estimateur sans biais et convergent de l’espérance de la loi parente. On peut
2
conclure du théorème ci-dessus que Yn = 2X n est un estimateur convergent de θ. On ne
peut par contre affirmer qu’il est sans biais (ni même asymptotiquement sans biais).
4.4 Estimation par intervalles de confiance
4.4.1 Première approche

Le résultat d’une estimation est une valeur approchée du paramètre que l’on cherche à
évaluer. Si l’on effectue une autre simulation, on n’obtiendra généralement pas le même
résultat. C’est pourquoi donner un tel résultat approché sans indication sur la précision

62
de l’évaluation n’a pas grand intérêt. Plutôt que de donner une (ou plusieurs) estimations
numériques, on cherchera, à partir de l’estimateur dont on dispose, à préciser un intervalle
qui contiendra, avec une probabilité donnée, la valeur exacte du paramètre que l’on cherche
à évaluer.
Définition 4.4.1. Soit En = (X1 , X2 , ..., Xn ) un n-échantillon issu d’une loi µθ . Soit
α un réel quelconque de l’intervalle ]0, 1[. On appelle intervalle de confiance pour
le paramètre θ, au risque α (ou au niveau de confiance 1 − α), tout intervalle de
la forme [In , Sn ] où In et Sn sont des estimateurs de θ (c’est-à-dire des statistiques sur
l’échantillon En ) tels que P (θ ∈ [In , Sn ]) = 1 − α.
Remarques 4.4.1.
• Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui
contient, avec une probabilité donnée, la valeur θ que l’on cherche à évaluer. Cette
valeur n’est pas aléatoire. Elle est seulement inconnue.
• Le nombre α est le risque qu’à l’issue d’une expérience la réalisation de l’intervalle
de confiance ne contienne pas la valeur θ que l’on cherche à évaluer.
Le problème étant ainsi posé, on peut penser à utiliser l’inégalité de Bienaymé-

Tchebychev, qui s’écrit, pour un estimateur Tn de θ et un réel α de l’intervalle [0, 1]

σ(Tn ) σ(Tn )
P Tn ∈ E(Tn ) − √ , E(Tn ) + √ 6 1 − α.
α α

σ(Tn ) σ(Tn )
Ainsi, si Tn est un estimateur de θ, l’intervalle E(Tn ) − √ , E(Tn ) + √ est un
α α
intervalle de confiance pour θ à un risque inférieur ou égal à α (ou à un niveau de confiance
supérieur ou égal à 1 − α.
Exemple 4.4.1. On considère un dé à jouer non pipé. On lance n fois, et l’on cherche
à déterminer un intervalle dans lequel la fréquence Tn des résultats six se situe avec
une probabilité supérieure √ à 1 − α. La variable Tn est la fréquence empirique et l’on a
1 5
E(Tn ) = et σ(Tn ) = √ . On obtient ainsi comme intervalle de confiance à un risque
6 a "n
√ √ #
1 5 1 5
inférieur à α, l’intervalle − √ , + √ .
6 6 nα 6 6 nα

1 5 1 5
Ainsi, pour α = 0, 05, on a P − √ , + √ 6 0, 95.
6 3 n 6 3 n
Pour n = 100, on obtient alors P ([0; 0, 34]) 6 0, 95.
Remarque 4.4.1. Les encadrements obtenus à l’aide de la formule de Bienaymé-Tchebichev

ne dépendent pas de la nature de la variable aléatoire Tn . L’obtention de l’intervalle de

63
confiance n’utilise pas le calcul de l’espérance et de la variance de Tn (et les bornes de

l’intervalle de confiance obtenu sont des variables certaines.) Parce qu’elle est une formule
très générale, et ainsi qu’on aura pu le constater dans l’exemple ci-dessus, les résultats
qu’elle permet d’obtenir sont de mauvaise qualité.
4.4.2 Intervalles de dispersion

Dans toute cette sous-section, X désigne une variable aléatoire à densité donnée. On
appelle support de X son image X(Ω).
Définition 4.4.2. Soit X une variable aléatoire à densité dont le support est un intervalle
I, et dont une densité s’annule au plus sur un ensemble fini d’éléments de I. Sa fonction
de répartition FX est alors continue, strictement croissante sur I. Elle induit donc une
bijection de I sur un intervalle dont les bornes sont 0 et 1, et qui est fermé, semi-ouvert
ou ouvert suivant la forme de l’intervalle I. On peut alors définir la fonction réciproque
FX−1 = QX . Cette fonction prend le nom de fonction quantile de X
1
La fonction quantile est définie par QX (u) = t tel que P (X 6 t) = u. Pour u = , on
2
reconnaı̂t en particulier la définition de la médiane.
Définition 4.4.3. Soient X une variable aléatoire et α un réel strictement compris entre
0 et 1. On appelle intervalle de dispersion de niveau 1 − α tout intervalle [a, b] inclus
dans X(Ω) tel que P (X ∈ [a, b]) = 1 − α.
Proposition 4.4.1. Soient X une variable aléatoire à densité satisfaisant aux conditions
de la définition ci-dessus et α un réel de l’intervalle ]0, 1[. Alors, pour tout réel β de
l’intervalle [0, α], l’intervalle [FX−1 (β), FX−1 (1 − α + β)].
Remarques 4.4.2.
• Dans la pratique, α est petit (en général inférieur à 0,1), de sorte qu’un
intervalle de dispersion de niveau 1 − α contient une forte proportion des valeurs
prises par X. Dans ces conditions, on pourra trouver un intervalle de dispersion
de niveau 1 − α dont les bornes sont voisines , moins les valeurs prises par X
seront dispersées .
• Une variable aléatoire X donnée admet autant d’intervalles de dispersion de niveau
1 − α qu’il y a de façons de choisir β dans l’intervalle [0, α], c’est-à-dire une infinité.
On distingue alors l’intervalle de dispersion symétrique pour β = α2 , l’intervalle
de dispersion unilatéral inférieur pour β = 0 et l’intervalle de dispersion uni-
latéral supérieur pour β = α, et l’on cherche à déterminer l’intervalle dont

64
la longueur est la plus faible (intervalle de dispersion optimal ). On démontre

que, dans le cas d’une variable aléatoire symétrique (c’est-à-dire dont la fonction
de répartition admet un centre de symétrie) l’intervalle de dispersion optimal est
l’intervalle de dispersion symétrique.
Exemple 4.4.2. Considérons une variable aléatoire X suivant la loi uniforme sur un
1
intervalle borné I = [a, b]. Une densité de X est la fonction constante égale à sur I,
b−a
et nulle pour tout x n’appartenant pas à I. Sa fonction de répartition FX est définie sur
x−a
I par FX (x) = . La fonction quantile est alors définie par QX (t) = a + t(b − a).
b−a
α
Pour α = 0, 1 (et donc = 0, 05), on obtient
2
— l’intervalle de dispersion symétrique I1 = [a + 0, 05(b − a); a + 0, 95(b − a)]
— l’intervalle de dispersion unilatéral inférieur I2 = [a; a + 0, 9(b − a)]
— l’intervalle de dispersion unilatéral supérieur I3 = [a + 0, 9(b − a); b]
Sur cet exemple particulièrement simple, il est clair que les intervalles de dispersion trouvés
contiennent 90% des valeurs prises par la variable aléatoire X.
4.4.3 Un exemple : Estimation de l’espérance d’une loi normale

d’écart-type connu
Considérons un n-échantillon iid En = (X1 , X2 , ..., Xn ) issu d’une loi normale d’espérance
m et d’écart-type σ0 supposé connu.
Soit alors X n la moyenne empirique de cet échantillon. Comme X n est combinaison linéaire
de variables normales, il suit lui-même une loi normale. De plus, on connaı̂t son espérance
σ2 Xn − m
et sa variance : X n suit la loi normale N (0, 0 ). Il en résulte que ϕ(X n ) = √ suit
n σ0 / n
la loi normale centrée réduite N (0, 1).
Nous sommes donc dans la situation où la variable aléatoire ϕ(X n ), qui dépend de m, suit
une loi qui ne dépend pas de m. L’intervalle de dispersion symétrique de niveau 1 − α de
la loi normale centrée réduite est
h α α i h α −1 α i
Iα = Φ−1 , Φ−1 1 − = 1 − Φ−1 1 − ,Φ 1− .
2 2 2 2

Notons tα = Φ−1 1 − α2 . L’intervalle de dispersion symétrique [1 − tα , tα ] de niveau 1 − α
pour la loi normale centrée réduite permet de conclure qu’un intervalle de confiance au
niveau de confiance 1 − α (ou au risque de α) de l’espérance m d’une loi normale X
tα σ0 tα σ0
d’écart-type connu σ0 est X n − √ , X n + √ .
n n

65
4.5. Estimateur optimal
Les valeurs usuelles de α sont 0,1 (niveau de confiance de 0,9), 0,05 (niveau de confiance
de 0,95) et 0,01 (niveau de confiance de 0,99). Nous calculons ci-dessous les valeurs cor-
respondantes de tα .
α
• Pour α = 0, 1 ; 1 − = 0, 95, on lit dans la table Φ(1, 64) ≈ 0, 9495 et Φ(1, 65) ≈
2
0, 9505, ce qui donne t0,10 = Φ−1 (0, 95) ≈ 1, 645.
α
• Pour α = 0, 05 ; 1 − = 0, 975, on lit dans la table Φ(1, 94) ≈ 0, 975, ce qui donne
2
t0,05 = Φ−1 (0, 975) ≈ 1, 96.
α
• Pour α = 0, 01 ; 1 − = 0, 995, on lit dans la table Φ(2, 57) ≈ 0, 9949 et Φ(2, 58) ≈
2
0, 9951, ce qui donne t0,01 = Φ−1 (0, 995) ≈ 2, 575.
Remarque 4.4.2. Dans la pratique, X n et S n désignant respectivement la moyenne

√ Xn − m
empirique et la variance empirique corrigée, on utilisera la statistique n qui
Sn
suit une loi de Student de paramètre n − 1, unimodale et symétrique qui ne dépend
pas de m. On peut utiliser comme ci-dessus les intervalles de dispersion de cette loi pour
déterminer des intervalles de confiance pour m.
4.5 Estimateur optimal
4.5.1 Qualité d’un estimateur

La qualité d’un estimateur va se mesurer à l’aide d’une distance au paramètre qui peut
être par exemple |Tn −θ| ou (Tn −θ)2 . Pour obtenir un indicateur numérique, on peut alors
déterminer la valeur moyenne de cette distance. L’indicateur généralement retenu, car il
se prête facilement aux calculs est l’erreur quadratique moyenne ou le risque quadratique
défini pour tout θ par :
2
EQ(Tn ) = Eθ (Tn − θ)2 = Vθ (Tn ) + bTn (θ) .
Dans le cas particulier d’un estimateur sans biais, ce risque ou erreur quadratique se
confond avec la variance de l’estimateur. Si dans l’erreur totale d’estimation on privilégie
2
l’erreur structurelle, mesurée par bTn (θ) , on fera le choix d’un estimateur sans biais et
l’erreur d’estimation se réduira à l’erreur statistique mesurée par la variance de l’estima-
teur.
Si on se place dorénavant dans la classe des estimateurs sans biais, on pourra comparer
deux estimateurs Tn et Tn0 de cette classe par leur variance qui mesure alors leur dispersion
par rapport au paramètre qui est leur espérance commune. Nous dirons que l’estimateur
Tn est plus efficace que Tn0 si pour tout θ ∈ Θ et pour une taille d’échantillon n > N :
Vθ (Tn ) 6 Vθ (Tn0 ).

66
4.5. Estimateur optimal
La question se pose alors de savoir si on pourrait trouver un troisième estimateur qui

serait à son tour meilleur que Tn . En cas de réponse positive, il faudrait poursuivre la
recherche, ce qui nous conduirait à essayer d’améliorer indéfiniment un estimateur. Le
problème n’admettrait une fin que si l’on savait que l’estimateur obtenu est le meilleur.
4.5.2 Inégalité de Fréchet-Darmois-Cramer-Rao

Dans certains conditions, il existe une borne inférieure pour l’ensemble des variances des
estimateurs sans biais, ce qui va, d’une part, constituer un butoir ne permettant pas
d’améliorer sans cesse les estimateurs. D’autre part, si cette borne est atteinte par un es-
timateur, il deviendrait le meilleur et sera qualifié d’optimal dans la classe des estimateurs
sans biais.
Définition 4.5.1. Soit (X1 , X2 , ..., Xn ), un n-échantillon. On appelle vraisemblance

(likelihood en anglais) de l’échantillon (X1 , X2 , ..., Xn ) la loi de probabilité de ce n-uple,
noté L(x1 , x2 , ..., xn ; θ), et définie par
n
Y
L(x1 , x2 , ..., xn ; θ) = P ([Xi = xi |θ])
i=1
si X est une variable aléatoire discrète, et par

n
Y
L(x1 , x2 , ..., xn ; θ) = f (xi ; θ)
i=1
si X est une variable continue de densité f (x; θ).
Définition 4.5.2. Soit L(x1 , x2 , ..., xn ; θ) la vraisemblance d’un n-échantillon (X1 , X2 , ..., Xn ).
La quantité d’information de Fisher est définie par
2
∂ ln L
In (θ) = Eθ .
∂θ
Théorème 4.9. Sous les hypothèses de Cramer-Rao, en particulier si E = X(Ω) est

indépendant du paramètre à estimer θ, pour tout estimateur sans biais Tn de θ on a :
1
Vθ (Tn ) > = BF (θ).
In (θ)
La quantité BF (θ) est la borne inférieure de Fréchet-Darmois-Cramer-Rao (FDRC
en abrégé). Notons que dans les conditions d’application de ce théorème, en particu-
lier si E = X(Ω) est indépendant du paramètre à estimer θ, on obtient une expression
équivalente de la quantité d’information de Fisher qui est généralement plus simple à
calculer :
∂ 2 ln L

In (θ) = Eθ − .
∂θ2

67
4.6. Méthodes de construction d’un estimateur
4.5.3 Estimateur efficace

Le théorème précédent fournit une borne inférieure pour la variance des estimateurs sans
biais, qui peut ou non être atteinte. Si cette borne est effectivement atteinte par un
estimateur, il sera donc le meilleur, selon ce critère, dans la classe des estimateurs sans
biais. Cette optimalité se traduit par la définition suivante.
Définition 4.5.3. Un estimateur sans biais Tn est dit efficace si sa variance est égale à
la borne inférieure de FDRC :
1
Vθ (Tn ) = .
In (θ)
Remarque 4.5.1. Un estimateur efficace est bien sûr optimal, mais dans la classe des
estimateurs sans biais. Si on utilise comme critère le risque ou erreur quadratique, qui est
une mesure de l’erreur totale où les erreurs structurelle et statistique jouent le même rôle,
on peut trouver un estimateur qui soit meilleur qu’un estimateur efficace.
1 Pn
Par exemple, dans le cas d’un échantillon d’une loi N (0, σ 2 ), on sait que σn2 = 2
i=1 Xi
n
2σ 4
est un estimateur efficace de σ 2 , avec EQ(σn2 ) = V (σn2 ) = .
n
1 Pn
Mais, si on retient l’estimateur avec biais Tn = X 2 , on obtient un estimateur
n + 2 i=1 i
2σ 4
meilleur, c’est-à-dire d’erreur totale plus faible puisque EQ(Tn ) = < EQ(σn2 ).
n+2
4.6 Méthodes de construction d’un estimateur

Dans les situations où il n’y a pas d’estimateur évident, on est amené à recourir à une
méthode de construction d’un estimateur. Les deux méthodes que nous présentons sont
celles du maximum de vraisemblance et des moments.
4.6.1 Méthode du maximum de vraisemblance

La vraisemblance L(x1 , x2 , ..., xn ; θ) représente la probabilité d’observer le n-uple (x1 , x2 , ..., xn )
pour une valeur fixée de θ. Dans la situation inverse ici où on a observé (x1 , x2 , ..., xn ) sans
connaı̂tre la valeur de θ, on va attribuer à θ la valeur qui paraı̂t la plus vraisemblable,
compte tenu de l’observation dont on dispose, c’est-à-dire celle qui va lui attribuer la plus
forte probabilité. On se fixe donc la règle suivante : à (x1 , ..., xn ) fixé, on considère la
vraisemblance L comme une fonction de θ et on attribue à θ la valeur qui maximise cette
fonction. D’où la définition suivante.

68
4.6. Méthodes de construction d’un estimateur
Définition 4.6.1. On appelle estimateur du maximum de vraisemblance (emv)

toute fonction θbn de (x1 , ..., xn ) qui vérifie :

L x1 , ..., xn ; θbn = max L(x1 , ..., xn ; θ).
θ∈Θ
Cette définition ne renseigne en aucune façon, ni sur l’existence, ni sur l’unicité, d’un tel
estimateur. La recherche de l’emv peut se faire directement par recherche du maximum
de L, ou le cas particulier où la fonction L est deux fois dérivable par rapport à θ, comme
∂L ∂ 2L
solution de l’équation = 0 qui vérifie aussi < 0.
∂θ ∂θ2
Cependant, la vraisemblance se calculant à partir d’un produit, on préfère remplacer ce
dernier problème par le problème équivalent pour la log-vraisemblance, puisque la fonction
∂ ln L ∂ 2 ln L
ln est strictement croissante, = 0 avec < 0 et qui aura une expression
∂θ ∂θ2
généralement simplifiée.

Remarquons enfin que si θbn est un emv du paramètre θ, alors g θbn est un emv du
paramètre g(θ) pour toute fonction g.
4.6.2 Méthode des moments

Dans le cas où le paramètre à estimer est θ = Eθ (X), moyenne théorique de la loi, nous
avons vu que l’estimateur naturel était la moyenne empirique, ou moyenne de l’échantillon,
X n . De même, pour estimer le paramètre θ = Vθ (X), variance de la loi, nous retenons
logiquement comme estimateur la variance empirique Sn2 .
Plus généralement, si l’un des moments d’ordre k ∈ N∗ , non centré mk = Eθ (X k ) = mk (θ),

ou centré µk = Eθ (X −m1 )k = µk (θ), dépend de θ, nous allons chercher un estimateur par
résolution de l’équation en θ obtenue en égalant moment théorique et moment empirique
correspondant, soit :
n n
1X k 1X
mkn = Xi = mk (θ) ou µkn = Xi − X n )k = µk (θ).
n i=1 n i=1
La solution de l’équation, si elle existe et est unique, sera appelée estimateur obtenu par
la méthode des moments.

? ? Chapitre Cinq ? ?
Tests d’hypothèses
On appelle théorie des tests la seconde branche de la statistique mathématique, celle

qui permet de confronter deux hypothèses a priori. Comme dans le cadre d’un problème
d’estimation, on retient un modèle statistique où la variable aléatoire X suit une loi
de probabilité Pθ qui dépend d’un paramètre θ inconnu. On dispose cependant ici d’in-
formations supplémentaires qui font penser a priori que la valeur de ce paramètre est
égale à une valeur fixée θ0 et on cherche à valider (à tester) cette hypothèse, au vu d’un
échantillon de la loi de X. Cette hypothèse est privilégiée, parce qu’elle paraı̂t la plus
vraisemblance a priori, est appelée hypothèse nulle et notée H0 . Construire un test va
consister à partitionner l’ensemble Rn des réalisations possibles du n-échantillon en deux
régions, celle où l’on décidera d’accepter H0 , et celle où l’on décidera de la rejeter, qui
se nommera région critique du test. Pour délimiter ces deux régions, on fixe a priori une
valeur (faible) à la probabilité de l’erreur qui consiste à décider, au vu de l’échantillon, de
rejeter l’hypothèse nulle alors que celle-ci est vérifiée. Cette probabilité se nomme risque
de première espèce et sa valeur standard est de 5%. Lorsque le paramètre θ ne peut
prendre que deux valeurs distinctes θ0 et θ1 , c’est le théorème de Neyman et Pearson
qui permet de déterminer la forme de la région critique, à partir du rapport des vraisem-
blances associées à chacune des valeurs possibles du paramètre. Dans le cas où on peut
attribuer des probabilités a priori à ces valeurs, ainsi que des coûts d’erreur, on utilise la
méthode de Bayes.
5.1 Concepts principaux en théorie des tests

Dans le chapitre précédent, nous avons retenu un modèle statistique paramétrique pour
décrire de façon simplifiée, mais théorique, un certain phénomène réel. Les valeurs ob-
servées, liées à ce phénomène, sont alors considérées comme des réalisations d’une variable
aléatoire dont la loi est inconnue, mais appartient à une famille donnée. Cette loi est tota-
lement spécifiée par la connaissance d’un nombre réel θ, appelé paramètre, et qui permet
de répéter précisément l’élément de cette famille de lois. La théorie de l’estimation fournit
69
70
5.1. Concepts principaux en théorie des tests
des outils permettant de se faire une idée de la valeur numérique de ce paramètre.
Ici, la théorie des tests va être un outil d’aide à la décision. Dans le cadre du même
modèle, on dispose cette fois de plus d’informations a priori sur le paramètre. Ces informa-
tions se traduisent par deux hypothèses seulement sur les valeurs possibles du paramètre.
En fonction des observations, on devra choisir l’une de ces deux hypothèses.
5.1.1 Un exemple introductif

Les ministres en charge de l’Économie et des Finances s’interrogent pour savoir s’ils
doivent prendre des mesures de relance de l’économie. Leur décision va être fondée sur les
observations de l’accroissement mensuel de l’indice de la production industrielle. Cet ac-
croissement est mesuré par l’INS avec une certaine incertitude, ce qui amène à le considérer
comme une variable aléatoire I de loi normale, de moyenne m et d’écart-type connu
σ = 0, 2%. Dans la période antérieure, le paramètre m avait pour valeur m = 0, 5%. En
période de récession, on considère que ce paramètre prend la valeur m = 0, 3%. Pour faire
un choix entre ces deux valeurs, les ministres attendent de disposer des valeurs de I pour
le dernier trimestre. Inquiets de l’effet des mesures de relance sur l’inflation, il se fixe a
priori la règle de décision suivante : si la moyenne des accroissements du trimestre est
inférieure à 0,35% alors nous prenons des mesure de relance. On peut alors se poser les
questions suivantes : est-il possible de mesurer les risques associés à cette règle arbitraire ?
Peut-on fixer à l’aide de critères objectifs un autre seuil que la valeur retenue de 0,35% ?
Le modèle statistique va nous permettre de répondre et d’associer des évaluations
numériques à cette règle de décision. La variable aléatoire I appartient ici à la famille des
lois normales, d’écart-type connu σ = 0, 2. L’autre paramètre de cette loi, la moyenne m,
est inconnu, mais ne peut prendre ici que deux valeurs. il s’agit donc de faire un choix
entre les deux hypothèses :
(
H0 : I ,→ N (0, 3; 0, 4)
H1 : I ,→ N (0, 5; 0, 4)
Chacune de ces hypothèses a pour conséquence une décision qui lui est associée :
— D0 : prendre des mesures de relance de l’économie ;
— D1 : ne rien faire.
Cette décision va être prise au vu d’un échantillon (I1 , I2 , I3 ) de cette variable aléatoire
I observée au cours du dernier trimestre. La règle de décision retenue par les ministres se
KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses

71
formalise alors de la façon suivante :

1
si (I1 + I2 + I3 ) < k on décide D0
3
1
si (I1 + I2 + I3 ) > k on décide D1
3
La valeur de k, appelé seuil critique, est fixée arbitrairement ici à k = 0, 35.

Chacune de ces décisions a pour conséquence une erreur éventuelle :
— relancer l’économie (D0 ) en période d’expansion (H1 ) et favoriser l’inflation ;
— D1 : ne rien faire (D1 ) en période de récession (H0 ) et accroı̂tre le chômage.
Le modèle statistique retenu permet alors de calculer les probabilités associées à ces
deux erreurs. Par exemple :
3
!
1X
α = P (ne rien faire|m = 0, 3) = P (D1 |H0 ) = P Ij > k|H0 .
3 j=1
3
1X 0, 4
Sous l’hypothèse H0 , la loi de I = Ij est la loi normale N 0, 3; .
3 j=1 3
On peut donc calculer la probabilité précédente en utilisant une variable aléatoire U
de loi N (0, 1) :
0, 05 √

I − 0, 3
α = P I 6 0, 35|H0 = P √ > 3|H0
0, 2/ 3 0, 2
= P (U > 0, 43) = 0, 33
De même, l’autre risque d’erreur se calcule par :
β = P (relancer|m = 0, 5) = P (D0 |H1 ) = P (I < k|H1 )

0, 15 √

I − 0, 5
=P √ <− 3|H1 = P (U < −1, 30) = 0, 097
0, 2/ 3 0, 2
Ces deux risques ne sont pas équivalents, le premier étant trois fois supérieur au second.
Cette règle correspond donc bien à un souhait de se garantir avant tout contre l’inflation.
Si on veut que le seuil ne soit pas fixé arbitrairement, c’est par le choix d’une valeur
de risque que l’on en déduira alors une valeur de seuil critique. Si on souhaite plutôt se
prémunir prioritairement contre le chômage, on fixe une valeur faible au risque α, par
exemple α = 5%. Il va en découler une valeur du seuil par la condition :
3
!
1 X k − 0, 3
α = 0, 05 = P Ij > k|H0 = P U > √ .
3 j=1 0, 2/ 3

72
On obtient ainsi :
k − 0, 3 0, 2
√ = 1, 6449 soit k = 0, 3 + √ × 1, 6449 = 0, 49.
0, 2/ 3 3
L’autre risque a alors pour valeur :

0, 49 − 0, 5
β = P (I < k|H1 ) = P U < √ = P (U < −0, 09) = 0, 4641.
0, 2/ 3
Le risque de relancer à tort est cette fois très élevé. Pour une décision où ce risque
serait comme le plus dommageable, il faudrait fixer le seuil k par la condition :

k − 0, 5
β = 0, 05 = P (relancer|m = 0, 5) = P U < √ .
0, 2/ 3
On obtient alors comme valeur :

0, 2
k = 0, 5 − √ × 1, 6449 = 0, 31
3
La règle de décision, déterminée par le seuil, est fortement dépendante du risque contre
lequel on souhaite se prémunir en priorité. Cet exemple introductif précédent nous permet
de formaliser un problème de test.
5.1.2 Problème général d’un test

On considère un modèle statistique où la loi de probabilité Pθ de la variable aléatoire
X dépend d’un paramètre inconnu θ qui varie dans un sous-ensemble donné Θ de R.
On suppose que cet ensemble est partitionné en deux sous-ensembles donnés Θ0 et Θ1 ,
auxquels vont être associées les deux hypothèses notées H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 .
Construire un test consiste à définir une règle de décision qui associe une décision à un
échantillon (X1 , ..., Xn ) de la loi de X, les deux décisions possibles étant D0 : accepter
H0 , et D1 : accepter H1 . A chaque décision correspond une région de Rn , qui va donc
être partitionnée en deux sous-ensembles W et W , c’est-à-dire que si la réalisation de
l’échantillon est un point (x1 , ..., xn ) de W on décide D1 , donc on rejette H0 . Dans le cas
contraire, c’est-à-dire pour un point de W , on décide D0 , donc on accepte H0 .
Définition 5.1.1. La région W de rejet de l’hypothèse nulle H0 se nomme région cri-

tique du test et la région W région d’acceptation.
La construction d’un test va consister à determiner cette région critique. La méthode

pour l’obtenir dépendra des conséquences que l’on attribue à chacune des deux erreurs
qui sont associées aux deux décisions possibles. Ces erreurs sont les suivantes.

73
5.2. Méthode de Bayes
Définition 5.1.2. L’erreur de première espèce consiste à décider D1 alors que H0

est vraie, soit rejeter à tort l’hypothèse nulle H0 .
L’erreur de seconde espèce consiste à décider D0 alors que H1 est vraie, soit
accepter à tort l’hypothèse nulle H0
Nous allons présenter deux méthodes de construction d’un test, basées sur des principes
très différents. La méthode de Bayes est utilisée lorsqu’on dispose encore plus d’informa-
tions a priori sur les hypothèses, permettant de leur attribuer une probabilité a priori, et
lorsque l’on peut en plus quantifier le coût de chaque décision en fonction de l’hypothèse
effectivement réalisée.
5.2 Méthode de Bayes

On se place dans le cas où on a attribué des probabilités a priori p0 et p1 = 1 − p0
à chacune des hypothèses respectives H0 et H1 et que l’on a également associé un coût
à chaque décision, en fonction de l’hypothèse qui est effectivement réalisée. Le tableau
ci-après contient ces coûts, la décision prise figurant en colonne et l’hypothèse vraie en
ligne :
D0 D1
H0 (p0 ) C00 C01
H1 (p1 ) C10 C11
Une bonne décision peut avoir également un coût et donc on aura généralement C00 > 0
et C11 > 0.
Après la réalisation (x1 , ..., xn ) on peut calculer, à l’aide du théorème de Bayes, les
probabilités a posteriori π0 et π1 des hypothèses H0 et H1 :
p0 L0 p1 L 1
π0 = et π1 =
p0 L0 + p1 L1 p0 L 0 + p1 L 1
où on a noté L0 la valeur de la vraisemblance L(x1 , ..., xn ; θ), quand θ ∈ Θ, et L1 , quand

θ ∈ Θ1 . On peut alors calculer les espérances du coût de chaque décision pour cette
distribution a posteriori :

E C(D0 ) = C00 π0 + C10 π1 et E C(D1 ) = C01 π0 + C11 π1 .
La règle de décision de Bayes consiste à associer à l’observation (x1 , ..., xn ) la décision

dont l’espérance de coût est la plus faible.

74
5.3. Méthode de Neyman et Pearson
5.3 Méthode de Neyman et Pearson
5.3.1 Principe de la règle de Neyman et Pearson

On privilégie l’une des deux hypothèses, par exemple celle que l’on considère comme
la plus vraisemblable, et on la choisit comme hypothèse nulle H0 . Cette hypothèse sera
celle dont le rejet à tort est le plus préjudiciable. L’autre hypothèse H1 est l’hypothèse
alternative. Il n’y a donc pas de symétrie entre ces deux hypothèses. l’hypothèse H0 est
privilégiée et il faut des observations très éloignées de cette hypothèse pour la rejeter.
Définition 5.3.1. On appelle risque de première espèce la probabilité de rejeter à

tort l’hypothèse nulle, soit :
α = Pθ (D1 |H0 ) = Pθ (H1 |H0 ) = Pθ (W |θ ∈ Θ0 ).
On appelle risque de seconde espèce la probabilité d’accepter à tort l’hypothèse nulle,

soit :
β = Pθ (D0 |H1 ) = Pθ (H0 |H1 ) = Pθ (W |θ ∈ Θ1 ).
L’erreur la plus grave consistant à rejeter à tort l’hypothèse nulle, la méthode de Neyman
et Pearson fixe une valeur maximum α0 au risque de première espèce. Le test est alors
déterminé par la recherche de la règle qui minimise l’autre risque, celui de seconde espèce.
Définition 5.3.2. On appelle puissance d’un test la probabilité de refuser H0 avec

raison, c’est-à-dire lorsque H1 est vérifiée, soit :
η = Pθ (D1 |H1 ) = Pθ (H1 |H1 ) = Pθ (W |θ ∈ Θ1 ) = 1 − β.
La règle de décision de Neyman et Pearson consiste à déterminer la région

critique W pour laquelle la puissance est maximum, sous la contrainte α 6 α0 . Le choix de
la valeur de α0 peut être déterminant quant à la conclusion tirée au vu d’un échantillon.
La valeur standard retenue est α0 = 0, 05. Choisir une valeur plus faible (par exemple
α0 = 0, 01) conduit à exiger des contre-preuves très fortes pour rejeter H0 , qui est ainsi
admise a priori. Choisir une valeur plus forte (par exemple α0 = 0, 10) signifie que l’on
est moins convaincu a priori de la validité de H0 et que l’on est prêt plus facilement à la
rejeter au vu des observations.
5.3.2 Hypothèses simples

Une hypothèse est qualifiée de simple si la loi de la variable aléatoire X est totalement
spécifiée quand cette hypothèse est réalisée. Dans le cas contraire elle est dite multiple.

75
Nous allons examiner le cas où le paramètre θ ne peut prendre que deux valeurs θ0 et θ1 ,
ce qui correspond au choix entre les deux hypothèses simples suivantes :
(
H0 : θ = θ0
H1 : θ = θ1 .
Même si cette situation est peu fréquente dans la réalité, de nombreux autres cas
peuvent être résolus à partir de ce cas élémentaire. La forme de la région critique est alors
déterminée par le théorème suivant.
Théorème 5.1. de Neyman et Pearson

Pour un risque de première espèce fixé à α0 , le test de puissance maximum entre les
hypothèses simples ci-dessus est défini par la région critique :

L0 (x1 , ..., xn )
W = (x1 , ..., xn )/ 6k
L0 (x1 , ..., xn )
où la valeur de la constante k est déterminée par le risque fixé α0 = Pθ (W |θ = θ0 ), ayant

posé Lθ (x1 , ..., xn ) = L(x1 , ..., xn ; θ0 ) et L1 (x1 , ..., xn ) = L1 (x1 , ..., xn ; θ1 ).
1
Exemple 5.3.1. Prenons le cas d’une loi exponentielle de paramètre , avec θ1 > θ0 . La
θ
vraisemblance a pour expression :
" n
#
1 1X
L(x1 , ..., xn ; θ) = n exp − xi
θ θ i=1
avec xi > 0, 1 6 i 6 n. Le rapport des vraisemblances est donc :

" n #
L0 (x1 , ..., xn ) θ1 1 1 X
= exp − xi .
L1 (x1 , ..., xn ) θ0 θ1 θ0 i=1
La région critique est donc définie par la condition :

" n #
θ1 1 1 X
exp − xi 6 k.
θ0 θ1 θ0 i=1
Cette condition est équivalente à :

" n
X #
1 1
exp − xi 6 k1 .
θ1 θ0 i=1
En prenant le logarithme, on obtient comme nouvelle condition équivalente :

n
X
1 1
− xi 6 k2 .
θ1 θ0 i=1

76
Puisque θ1 > θ0 , on arrive à la condition :

n
X
xi > C.
i=1
La valeur de la constante C, qui va totalement préciser la région critique, est déterminée

par la condition : ( n )
X
α0 = P Xi > C|θ = θ0 .
i=1
n
X Sn
Si l’on pose Sn = Xi , on peut montrer que 2 suit une loi du Khi-deux à 2n degrés
i=1
θ
de liberté. La condition précédente se réécrit donc sous la forme :

Sn C
α0 = P 2 >2 .
θ0 θ0
C
La valeur de 2 est donc celle du fractile d’ordre 1 − α0 de la loi du Khi-deux à 2n degrés
θ0
de liberté.
La puissance de ce test peut ensuite se calculer par :

( n )
X Sn C
η=P Xi > C|θ = θ1 =P 2 >2 .
i=1
θ1 θ1
5.3.3 Hypothèses multiples

Nous allons d’abord considérer le cas d’une hypothèse simple contre une hypothèse
multiple de l’une des formes suivantes :
( (
H0 : θ = θ0 H0 : θ = θ0
ou
H1 : θ > θ0 H1 : θ < θ0
On détermine au préalable, par la méthode de Neyman-Pearson, la région critique W

du test suivant : (
H0 : θ = θ0
H1 : θ = θ1
où θ1 est une valeur fixée quelconque, mais vérifiant l’hypothèse alternative H1 . Si la région
W obtenue pour ce test entre hypothèses simples ne dépend pas de la valeur choisie θ1 ,
alors on aura obtenu un test uniformémement le plus puissant (U P P ) pour le
problème de test initial. Cela signifie que pour toute autre région critique W 0 , on aura
Pθ (W |θ ∈ Θ1 ) > Pθ (W 0 |θ ∈ Θ1 ) pour tout θ de Θ1 .

77
Exemple 5.3.2. Si nous reprenons l’exemple précédent, la région critique dépendait de

la condition θ1 > θ0 , mais pas de la valeur précise θ1 . La région critique obtenue est donc
aussi celle du test U P P de H0 : θ = θ0 contre H1 : θ > θ0 . Cependant, on ne peut
pas cette fois calculer la puissance de ce test puisque la valeur du paramètre n’est pas
connue dans l’hypothèse alternative. On peut seulement définir une fonction puissance de
ce paramètre par : ( n )
X
η(θ) = P Xi > C|θ > θ0 .
i=1
Pour le problème de test suivant :

(
H0 : θ = θ0
H1 : θ 6= θ0
il n’existe pas de test U P P . La région critique W de ce test s’obtient par une réunion des
régions critiques W1 et W2 des deux tests précédents, pour le même risque de première
α0
espèce .
2
Exemple 5.3.3. Dans l’exemple précédent, la région critique W1 obtenue était l’ensemble
des points (x1 , ..., xn ) tels que :
S n > C1 ,
C1 α0
avec 2 qui est le fractile d’ordre 1 − de la loi du Khi-deux à 2n degrés de liberté.
θ0 2
De même, pour le test de H0 : θ = θ0 contre H1 : θ < θ0 la région critique W2 obtenue
est définie par :
S n 6 C2 ,
C2 α0
avec 2 qui est le fractile d’ordre de la loi du Khi-deux à 2n degrés de liberté. La
θ0 2
région critique de H0 : θ = θ0 contre H1 : θ 6= θ0 est W = W1 ∪ W2 . Il est plus facile
de définir ici la région d’acceptation de l’hypothèse nulle par la condition :
C2 6 Sn 6 C1 .
Pour le problème de test suivant :

(
H0 : θ 6 θ0
H1 : θ > θ0
on suppose que la loi Pθ est à rapport de vraisemblance monotone. cela signifie qu’il existe
une statistique Tn = Tn (x1 , ..., xn ) telle que le rapport des vraisemblances :
L(x1 , ..., xn ; θ)
L(x1 , ..., xn ; θ0 )
s’exprime comme une fonction croissante de Tn pour toutes les valeurs de θ et θ0 qui
vérifient l’inégalité θ > θ0 . Dans ces conditions, on utilise le théorème suivant.

78
5.4. Lois usuelles en statistique
Théorème 5.2. Théorème de Lehmann

Il existe un test UPP dont la région critique W est l’ensemble des points (x1 , ..., xn ) tels
que :
Tn (x1 , ..., xn ) > k,
où la valeur de la constante k est déterminée par le risque fixé α0 = Pθ (W |θ = θ0 ).
Exemple 5.3.4. Dans l’exemple du début, nous avons obtenu comme rapport de vrai-
semblances : " #
0 n n
L(x1 , ..., xn ; θ) θ θ − θ0 X
= exp .
L(x1 , ..., xn ; θ0 ) θ θθ0 i=1
Pour toutes les valeurs de θ et θ0 qui vérifient l’inégalité θ > θ0 , c’est une fonction croissante
Xn
de Tn = . Donc, par application du théorème de Lehman pour H0 : θ 6 θ0 contre
i=1
H1 : θ > θ0 , le test U P P a pour région critique l’ensemble des points (x1 , ..., x2 ) tels
que :
n
X
xi > k.
i=1
La constante k est déterminée par la condition :

( n )
X
α0 = P Xi > k|θ = θ0
i=1
5.4 Lois usuelles en statistique
5.4.1 Loi du khi-deux de Pearson

C’est la loi d’une variable aléatoire à densité, positive, utilisée pour le contrôle des tests
du khi-deux.
Définition 5.4.1. Soient X1 , ..., Xn n variables aléatoires réelles indépendantes et de

Xn
même loi N (0, 1). Alors la variable aléatoire réelle Y = Xi2 suit une loi du khi-
i=1
deux χ2n de paramètre n qui représente les degrés de liberté. Sa densité de probabilité
est définie par
1 n y
fn (y) = n n
y 2 −1 e− 2 , y ∈ R+ .
2 Γ 2
2
Une variable aléatoire réelle qui suit une loi du khi-deux est caractérisée par son
espérance mathématique et sa variance, données respectivement par
E(Y ) = n et V (Tn ) = 2n.

79
Considérons un n-échantillon aléatoire iid (X1 , ..., Xn ) de loi N (m, σ 2 ). La moyenne

empirique X n étantune combinaison linéaire de variables aléatoires normales indépendantes,
σ2

elle suit une loi N m, . La variance empirique est construite à partir des variables
n

1X 1
Xi − X n = − Xj + 1 − Xi
n j6=i n
qui sont des combinaisons linéaires de variables aléatoires normales indépendantes, donc
elles sont aussi des variables aléatoires normales d’espérance E(Xi X n ) = E(Xi )−E(X n ) =
2
0 et de variance V (Xi X n ) = E Xi X n = E(Sn2 ) car toutes les variables sont de même
loi. La variable aléatoire nSn2 est la somme des carrés de n variables aléatoires normales
centrées qui sont reliées par la relation ni=1 (Xi − X n ) = 0 et on peut démontrer que :
P
Sn2
n 2 suit une loi du χ2n−1 .
σ
n−1 2
On trouve bien le résultat général E(Sn2 ) = σ et on obtient ici, d’après les moments
n
n−1
de la loi du khi-deux, V (Sn2 ) = 2 2 σ 4 .
n
5.4.2 Loi de Student

C’est la loi d’une variable aléatoire à densité utilisée pour le contrôle des tests de compa-
raison de deux espérances mathématiques.
Définition 5.4.2. Soit X une variable aléatoire réelle qui suit une loi N (0, 1) et Y une
variable aléatoire réelle qui suit une loi de χ2n , X et Y étant indépendantes. Alors la
X
variable aléatoire réelle Tn = r suit une loi de Student de paramètre n > 1 qui
Y
n
représente le nombre de degrés de liberté. Sa densité de probabilité est définie par :
n+1
Γ n+1

2 t2 2
fn (t) = √ 1+ , t ∈ R.
πnΓ n2 n
Une variable aléatoire réelle qui suit une loi de Student est centrée, c’est-à-dire que
E(Tn ) = 0 et sa variance est donnée par
n
V (Tn ) = , n 6 3.
n−2
Un cas particulier de cette loi intervient lorsque n = 1, nous obtenons alors la loi de
Cauchy standard.
Nous avons vu que le théorème de la Limite Centrale nous donne

√ Xn − m
n converge en loi vers N (0, 1).
σ

80
Dans le cas où σ est un paramètre inconnu, on peut le remplacer par l’écart-type empirique
modifié, ce qui amène à considérer la variable aléatoire
√
√ Xn − m X n − m /(σ/ n
n = .
Sn0
p 0
Sn2 /σ 2
Le numérateur suit une loi normale centrée réduite et le dénominateur est la racine carrée
de la variable aléatoire : 0 0
Sn2 (n − 1)Sn2 /σ 2
=
σ2 n−1
qui est donc une variable aléatoire de loi χ2n−1 , divisé par son nombre de degrés de liberté.
D’après le théorème de Fisher, le numérateur et le dénominateur sont des variables
aléatoires indépendantes et leur rapport définit une nouvelle loi de probabilité, usuelle en
statistique, appelée loi de Student à n − 1 degrés de liberté.
5.4.3 Loi de Fisher-Snedecor

C’est la loi d’une variable aléatoire à densité utilisée pour le contrôle des tests de compa-
raison de deux variances ainsi que dans le test d’ analyse de la variance qui permet
de comparer plusieurs espérances mathématiques.
Définition 5.4.3. Soient X et Y deux variables aléatoires réelles qui suivent respective-
ment une loi du χ2n et une loi du χ2m , où X et Y sont indépendantes. Alors la variable
X/n
aléatoire réelle Zn,m = suit une loi de Fisher-Snedecor Fn,m à n et m degrés de
Y /m
liberté. Sa densité de probabilité est est définie par :
n+m

Γ m m2 −1 m n+m
2
fn,m (z) = n
2 m
x 1+ x , z ∈ R+ .
Γ 2
Γ 2
n n
Une variable aléatoire réelle Z qui suit une loi de Fisher-Snedecor Fn,m est caractérisée
par son espérance mathématique
n
E(Z) = n63
n−2
et sa variance 2
n (m + n − 2)
V (X) = 2 , n 6 5.
n−2 m(n − 4)
En présence de deux échantillons (X1 , ..., Xn ) et (Y1 , ..., Ym ) auxquels sont associées les va-
riances empiriques Sn2 et Sm
2
, on peut se poser la question de savoir s’il proviennent de deux
2
Sn
lois normales ayant la même variance, et pour cela former le rapport 2
Sm
. Si effectivement
ces deux lois ont la même variance, ce rapport de deux lois du khi-deux indépendantes,
réduites (divisées) par leur nombre de degrés de liberté, définit une nouvelle loi usuelle en
statistique, appelée loi de Fischer-Snedecor .

81
5.5. Tests d’adéquation
Théorème 5.3. Théorème de Fisher

Les variables aléatoires X1 , ..., Xn forment un échantillon d’une loi normale si et seule-
ment si les variables aléatoires X n et Sn2 sont indépendantes.
5.4.4 Test d’indépendance du khi-deux

Pour tester l’indépendance de deux caractères X et Y , qualitatifs ou quantitatifs (répartis
en classes), à respectivement r et s modalités, on relève le nombre nij d’individus d’une
population de taille n = ri=1 sj=1 nij qui possèdent simultanément la modalité i, 1 6
P P
i 6 r, du caractère X et la modalité j, 1 6 j 6 s, du caractère Y . Soit pij la probabilité

théorique correspondante, pour un individu tiré au hasard dans la population, de posséder
Xs
simultanément ces deux modalités i et j. Les probabilités marginales sont pi· = pij
j=1
r
X
et p·j = pij . L’indépendance de ces deux caractères se traduit par l’hypothèse nulle
i=1
H0 : pij = pi· × p·j . Pour tester cette hypothèse contre l’hypothèse alternative H1 : pij 6=
pi· × p·j , on utilise la statistique :
r X s 2 r X s
!
X nij − ni· n·j /n X n2ij
Dn = =n −1 .
i=1 j=1
ni· n·j /n n n
i=1 j=1 i· ·j
Sa loi asymptotique, sous H0 est la loi du khi-deux à (r − 1)(s − 1) degrés de liberté. On

s
X r
X
a noté ni· = nij et n·j = nij les effectifs marginaux.
j=1 j=1
La région critique de ce test est de la forme :
Dn 6 C.
Pour un risque de première espèce α = P (Dn > C|H0 ), la valeur de C est approximée par
le fractile d’ordre 1 − α de la loi χ2(r−1)(s−1) .
5.5 Tests d’adéquation

L’examen de la loi de probabilité empirique associée à un échantillon dont la loi parente
est inconnue permet de choisir parmi les lois usuelles celle qui lui ressemble le plus.
Si notre choix s’oriente vers une certaine loi P de fonction de répartition F , on pourra
retenir l’hypothèse que l’échantillon provient de cette loi si la distance entre la fonction
de répartition théorique F et la fonction de répartition empirique Fn est faible. Ayant
fait le choix d’une certaine distance d entre fonctions de répartition, on se fixera une règle
de décision qui s’énonce comme suit : Si l’événement d(Fn , F ) > C est réalisé, alors je

82
retiens l’hypothèse qu’il s’agit d’un échantillon de la loi de fonction de répartition F . On

peut cependant se tromper en rejetant cette hypothèse alors que F est bien la fonction
de répartition des variables de l’échantillon ; cette erreur se produit avec une probabilité
qui est de α = P {d(Fn , F ) > C}.
Si on veut que ce risque d’erreur soit faible, on fixera une valeur α faible à cette probabilité
(par exemple 5% ou 1%) et cette valeur permettra alors de préciser la valeur de la constante
C qui apparaı̂t dans la règle de décision, si on connaı̂t la loi de probabilité de la variable
aléatoire d(Fm , F ).
Nous aurons ainsi réalisé un test d’adéquation, ou d’ajustement, entre une loi théorique
donnée et une loi empirique associée à un échantillon d’observation. La fixation du risque α
déterminera alors la valeur du seuil d’acceptation ou seuil critique C. Nous présentons deux
tests, associés à deux distances entre fonctions de répartition, permettant de déterminer
la loi approchée de la variable d(Fn , F ) pour toute fonction de répartition F , le premier
étant plutôt destiné aux lois discrètes et le second réservé aux lois continues.
5.5.1 Test du khi-deux

Ce test est à retenir si les données sont discrètes, avec des valeurs possibles notées xi , de
probabilité pi pour 1 6 i 6 k, ou si les données individuelles ne sont pas fournies, mais
ont été réparties en classes (ai , ai+1 ) dont les fréquences théoriques sont calculées à partir
de la loi théorique postulée :
pi = P {X ∈ (ai , ai+1 } = F (ai+1 ) − F (ai ).
Si Ni est le nombre (aléatoire) d’observations xi , ou appartenant à la classe (ai , ai+1 ),

nous allons le comparer à l’effectif théorique qui est npi . La distance euclidienne classique
entre Fn , représentée par les k effectifs observés Ni , et la fonction de répartition F ,
représentée par les k effectifs théoriques npi , serait (Ni − npi )2 .
Cependant, comme cette distance ne permet pas de déterminer la loi asymptotique
de cette variable aléatoire, on préfère retenir une autre distance. Cette dernière sera
déterminée à partir de la remarque que les variables aléatoires Ni suivent des lois bi-
Ni − npi
nomiales de paramètres n et pi et que les variables centrées √ convergent vers la
npi
loi N (0, 1 − pi ). On retient donc la distance :
k
X (Ni − npi )2
d(Fn , F ) =
i=1
npi
et cette somme de carrés de variables aléatoires centrées qui sont asymptotiquement nor-
k
X
males et liées par la relation (Ni − npi ) = 0 converge vers une loi du χ2k−1 . La valeur
i=1

83
de C sera déterminée approximativement, en utilisant cette loi asymptotique, comme le

fractile d’ordre 1 − α de la loi du khi-deux à k − 1 degrés de liberté. Cette approxima-
tion est justifiée si n est assez grand et pi pas trop petit, avec comme règle empirique
npi 6 5. Si ce n’est pas le cas à cause d’une valeur de pi trop petite, on doit regrouper des
classes (ou des valeurs) contiguës. Pour le calcul de la distance, il est préférable d’utiliser
la formule développée :
k
X Ni2
d(Fn , F ) = − n.
i=1
npi
5.5.2 Test de Kolmogorv-Smirnov

Dans le cas d’une variable aléatoire continue pour laquelle on dispose des données indi-
viduelles, il est préférable d’utiliser toute l’information disponible et de ne pas regrouper
les observations en classes. On retient alors la distance de Kolmogorov, ou distance
de la convergence uniforme, définie par :
Kn = d(Fn , F ) = sup |Fn (x) − F (x)|.

x∈R
Là encore, on retiendra l’hypothèse que la loi parente admet F comme fonction
de répartition si cette distance est faible, c’est-à-dire plus précisément si l’événement
{d(Fn , F ) < C} est réalisé. La valeur de C sera déterminée par la fixation du risque d’er-
√
reur α = P ([d(Fn , F ) < C]) et en utilisant la loi limite de la variable aléatoire nKn qui
admet pour fonction de répartition la fonction K définie pour x > 0 par :
+∞ ∞
k −2k2 x2 2 x2
X X
K(x) = (−1) e =1−2 −1)k+1 e−2k .
k=−∞ k=1
Les valeurs de K sont tabulées, permettant de déterminer les fractiles de la loi. Les
valeurs de C sont données en fonction de α dans la table suivante :
n α = 0, 10 α = 0, 05 α = 0, 01
5 0,509 0,563 0,669
10 0,369 0,409 0,486
15 0,304 0,338 0,404
20 0,265 0,294 0,352
25 0,238 0,264 0,317
30 0,218 0,242 0,290
40 0,189 0,210 0,252
√ √ √
n > 40 1,22/ n 1,36/ n 1,63/ n

84
Pour le calcul pratique de cette distance, on utilise la définition de Fn faisant intervenir

l’échantillon ordonné X(1) < X(2) < ... < X(n) . L’expression de Fn (x) = Pn (] − ∞, x[)
s’écrit alors : 

 0 si x 6 X(1)
i−1

Fn (x) = si X(i−1) < x 6 X(i)
 n


1 si x > X(n)
On calcule au préalable les statistiques :

+ i
d (Fn , F ) = sup[Fn (x) − F (x)] = max − F X(i)
x∈R 16i6n n

+
i−1
d (F, Fn ) = sup[F (x) − Fn (x)] = max F X(i) −
x∈R 16i6n n
car Fn est constante sur chacun des intervalles délimités par les points de l’échantillon
ordonné :
i i
sup [Fn (x) − F (x)] = − inf F (x) = − F X(i) + 0
x∈]X(i) ,X(i+1) [ n X(i) <x6X(i+1) n
i
= − F X(i)
n
On calcule ensuite :
d(fn , F ) = max d+ (Fn , F ), d+ (Fn , F ) .


2019 Cours Proba Stats 2 - Copie - Copie - Copie

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2019 Cours Proba Stats 2 - Copie - Copie - Copie

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE MARIEN N’GOUABI Année académique 2018-2019

FACULTE DES SCIENCES ET TECHNIQUES

Enseignant : KODIA Bernédy Nel

1 Les variables aléatoires réelles 1

2 Lois univariées usuelles 25

2.3.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Couples de variables aléatoires réelles 39

KODIA Bernédy Nel c 2019 Table des matières

4.5.2 Inégalité de Fréchet-Darmois-Cramer-Rao . . . . . . . . . . . . . . 66

KODIA Bernédy Nel c 2019 Table des matières

Les variables aléatoires réelles

Le résultat ω ayant un caractère aléatoire, la valeur numérique X(ω) associée a aussi

X : Ω → R par X(a) = X(d) = 1 et X(b) = X(c) = 0. La probabilité que X

1.1 Variable aléatoire réelle

— Pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) 6 x} est l’image réciproque de ] − ∞, x]

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

De même, on écrit, pour tous réels a et b,

[a 6 X 6 b] = X −1 ([a, b]) = {ω ∈ Ω, a 6 X(ω) 6 b}

et plus généralement, pour toute partie I de R,

[X ∈ I] = X −1 (I) = {ω ∈ Ω, X(ω) ∈ I}.

Définition 1.1.2. Loi d’une variable aléatoire finie

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

Réciproquement, si L : {x1 , x2 , ..., xn } → [0, 1] est une fonction vérifiant :

Définition 1.1.3. Fonction de répartition

Définition 1.1.4. Indépendance de variables aléatoires

1.2 Variables aléatoires discrètes

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

— Si Ω est fini ou dénombrable, A = P(Ω), et toute application de Ω dans R est une

La plupart du temps on aura X(Ω) ⊂ N ou X(Ω) ⊂ Z.

Proposition 1.2.1. Soit (Ω, A) un espace probabilisable et X une application de Ω dans

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

La masse totale de probabilité est concentrée en a ; on parle de loi de Dirac associée à

Définition 1.2.2. Loi d’une variable aléatoire discrète

est appelée loi de probabilité ou distribution de X et est notée PX .

Précisons que (P ([X = xi ]))xi ∈X(Ω) est telle que

1. ∀x ∈ X(Ω), P ([X = x]) > 0 ;

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

• Si X est une variable aléatoire discrète infinie et X(Ω) = {xk , k ∈ N}, on a

FX (x) = P ([X = x1 ]) + P ([X = x2 ]) + · · · + P ([X = xk ]);

Proposition 1.2.7. Lien entre fonction de répartition et loi

Définition 1.2.3. Variable aléatoire fonction d’une variable aléatoire discrète

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

Soit X la variable aléatoire discrète égale au numéro de la boule prélevée. On a donc

Théorème 1.2. Opérations

(X + Y )(ω) = X(ω) + Y (ω), (XY )(ω), (λX)(ω) = λX(ω)

sont des variables aléatoires discrètes.

1.2.1 Les moments d’une variable aléatoire

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

1A admet une espérance et E(1A ) = 0 × P ([1A = 0]) + 1 × P ([1A = 1]) = P (A).

• Soit X la variable aléatoire réelle discrète certaine égale à a. On a X(Ω) = {a} et

E(X) = a × P ([X = a]) = a.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

ce que l’on note

Théorème 1.3. Linéarité de l’espérance

E(X + Y ) = E(X) + E(Y ) et E(λX) = λE(X).

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

L’univers Ω est l’ensemble des permutations de [1, n]. On a Card(Ω) = n! et A = P(Ω).

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

Proposition 1.2.10. Positivité de l’espérance

Proposition 1.2.11. Croissance de l’espérance

Théorème 1.4. Le théorème de transfert

Exemple 1.2.4. Reconsidérons la variable aléatoire réelle discrète X de l’exemple 1.2.1,

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles

• Posons Y = 2X : c’est une variable aléatoire réelle

• Posons Y = 2X : c’est une variable aléatoire réelle

• Posons Z = 4X : Z est une variable aléatoire réelle discrète.