Vous êtes sur la page 1sur 90

UNIVERSITE MARIEN N’GOUABI Année académique 2018-2019

FACULTE DES SCIENCES ET TECHNIQUES

Notes de cours de

PROBABILITES ET
STATISTIQUE II

Enseignant : KODIA Bernédy Nel


♣ Table des matières ♣

1 Les variables aléatoires réelles 1


1.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Les moments d’une variable aléatoire . . . . . . . . . . . . . . . . . 8
1.3 Variables aléatoires réelles à densité . . . . . . . . . . . . . . . . . . . . . . 16
1.3.1 Généralités sur les variables aléatoires réelles à densité . . . . . . . 16
1.3.2 Variable aléatoire fonction d’une variable à densité . . . . . . . . . 19
1.3.3 Espérance et variance d’une variable aléatoire à densité . . . . . . . 20

2 Lois univariées usuelles 25


2.1 Lois usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Loi de Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.5 Loi géométrique ou de Pascal . . . . . . . . . . . . . . . . . . . . . 28
2.1.6 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.7 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Lois usuelles à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.3 La loi normale ou de Laplace-Gauss . . . . . . . . . . . . . . . . . . 34
2.2.4 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.5 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3 Convergences et approximations . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.1 Inégalité de Bienaymé-Tchebycheff . . . . . . . . . . . . . . . . . . 37
2.3.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . 37

i
ii
Table des matières

2.3.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Couples de variables aléatoires réelles 39


3.1 Couples de variables aléatoires réelles discrètes . . . . . . . . . . . . . . . . 39
3.1.1 Lois associées à un couple de variables aléatoires discrètes . . . . . 39
3.1.2 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.3 Lois marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.4 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.5 Indépendance de deux variables aléatoires discrètes . . . . . . . . . 44
3.1.6 Variable aléatoire fonction de deux variables aléatoires . . . . . . . 45
3.2 Couples de variables aléatoires admettant une densité . . . . . . . . . . . . 46
3.2.1 Lois associées à un couple de variables aléatoires à densité . . . . . 46
3.2.2 Variables aléatoires fonctions d’un couple de variables à densité . . 49
3.3 Covariance et coefficient de corrélation linéaire . . . . . . . . . . . . . . . . 50
3.3.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . 52

4 Échantillonnage et estimation 53
4.1 Échantillons d’une loi de probabilité . . . . . . . . . . . . . . . . . . . . . . 54
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.2 Statistiques sur un échantillon . . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Statistiques empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Risque quadratique d’un estimateur . . . . . . . . . . . . . . . . . . 59
4.3 Suite d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 Convergence et risque quadratique . . . . . . . . . . . . . . . . . . 61
4.3.3 Image par une fonction continue . . . . . . . . . . . . . . . . . . . . 61
4.4 Estimation par intervalles de confiance . . . . . . . . . . . . . . . . . . . . 61
4.4.1 Première approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4.2 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.3 Un exemple : Estimation de l’espérance d’une loi normale d’écart-
type connu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5.1 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . 65

KODIA Bernédy Nel c 2019 Table des matières


iii
Table des matières

4.5.2 Inégalité de Fréchet-Darmois-Cramer-Rao . . . . . . . . . . . . . . 66


4.5.3 Estimateur efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.6 Méthodes de construction d’un estimateur . . . . . . . . . . . . . . . . . . 67
4.6.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . 67
4.6.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Tests d’hypothèses 69
5.1 Concepts principaux en théorie des tests . . . . . . . . . . . . . . . . . . . 69
5.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.2 Problème général d’un test . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Méthode de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Méthode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.1 Principe de la règle de Neyman et Pearson . . . . . . . . . . . . . . 74
5.3.2 Hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 Hypothèses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Lois usuelles en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Loi du khi-deux de Pearson . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4.3 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4.4 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . 81
5.5 Tests d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5.1 Test du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.2 Test de Kolmogorv-Smirnov . . . . . . . . . . . . . . . . . . . . . . 83

KODIA Bernédy Nel c 2019 Table des matières


? ? Chapitre Un ? ?

Les variables aléatoires réelles

Le besoin de calculs, comme par exemple celui de la moyenne associée aux différents
résultats possibles d’une épreuve aléatoire, impose que ce résultat, symbolisé ou non par
un nombre, soit mis sous forme numérique. C’est pourquoi on souhaitera presque toujours
traduire par une valeur numérique l’événement réalisé.

Pour un lancer de pièce de monnaie, on peut retenir par exemple comme codage des
résultats : pile 7→ 0, face 7→ 1. Pour un lacer de dé, il y a un codage naturel puisque le
résultat a ici un caractère numérique : face 1 7→ 1, ..., face 6 7→ 6 ; mais on peut bien sûr
envisager d’autres codages, comme par exemple noter par zéro tout résultat pair et par
un tout résultat impair, d’où les nouvelles associations : face 1 7→ 1, face 2 7→ 0, ..., face
6 7→ 0.
Bien entendu, la valeur numérique associée à un résultat est arbitraire et correspond à
un codage des événements qui va se faire au moyen d’une certaine application, notée
usuellement X, qui va associer un nombre à chaque événement élémentaire, soit :

X : Ω → R.

Le résultat ω ayant un caractère aléatoire, la valeur numérique X(ω) associée a aussi


un caractère aléatoire. Il serait donc intéressant de pouvoir calculer la probabilité que X
prenne une certaine valeur ou appartienne à un certain intervalle. Pour pouvoir définir
cette probabilité sur l’ensemble image Ω0 = X(Ω) ⊂ R, il faut pouvoir revenir en arrière
sur l’ensemble de départ puisque la probabilité est définie sur (Ω, A). Il va donc falloir im-
poser une certaine condition à cette application qui sera alors appelée variable aléatoire
si elle est réalisée.

Un exemple introductif

Considérons l’exemple suivant où l’ensemble fondamental est Ω = {a, b, c, d}. La partition
Q
= {{a}, {b}, {c, d}} engendre l’algèbre A = {∅, {a}, {b}, {c, d}, {a, b}, {a, c, d}, {b, c, d}, Ω}.
Les événements c et d étant supposés indiscernables, on définit une probabilité P par
P ({a}) = 1/4, P ({b}) = 1/2 et P ({c, d}) = 1/4. On définit alors une application

1
2
1.1. Variable aléatoire réelle

X : Ω → R par X(a) = X(d) = 1 et X(b) = X(c) = 0. La probabilité que X


prenne la valeur 0 est la probabilité de {b, c} qui n’est pas un élément de A, donc n’est
pas un événement, et par conséquent on ne peut pas calculer cette probabilité. Cette
application n’est donc pas une variable aléatoire (v. a. en abrégé).

Il sera utile de distinguer deux cas : lorsque X(Ω) est dénombrable, la v. a. X est
dite discrète et lorsque X(Ω) est un ensemble non dénombrable de R (généralement un
intervalle, pouvant être R tout entier, ou une réunion d’intervalles), la variable aléatoire
est dite continue.

1.1 Variable aléatoire réelle

1.1.1 Généralités
Définition 1.1.1. Soit (Ω, A) un espace probabilisable. On appelle variable aléatoire
réelle (v. a. r.) X toute application de Ω dans R telle que :

∀x ∈ R, {ω ∈ Ω, X(ω) 6 x} ∈ A.

Remarque 1.1.1. Si A = P(Ω) (en particulier si Ω est fini), toute application de Ω dans
R est une variable aléatoire.

Proposition 1.1.1. Si X est une variable aléatoire réelle sur (Ω, A), alors pour tout
intervalle I de R, l’ensemble {ω ∈ Ω, X(ω) ∈ I} est un événement (c’est-à-dire appartient
à A).
En particulier, pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) = x} appartient à A.

Par définition d’une variable aléatoire réelle, la proposition est vérifiée pour tout intervalle
de la forme ] − ∞, x]. Elle reste vraie pour tout intervalle de R, car un tel intervalle
peut s’écrire à partir de réunions et intersections dénombrables d’intervalles de la forme
] − ∞, x] ou de leur complémentaire. L’ensemble {ω ∈ Ω, X(ω) = x} correspond au cas
où I est l’intervalle [x, x].

Notation 1.1.1.

— Les variables aléatoires sont notées par des lettres majuscules et les quantités
déterministes avec des lettres minuscules.

— Pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) 6 x} est l’image réciproque de ] − ∞, x]


par l’application X ; il est noté habituellement X −1 (] − ∞, x]). Dans le langage des
variables aléatoires, on le note [X 6 x]. On écrit de même, pour tout réel x,

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


3
1.1. Variable aléatoire réelle

[X = x] = X −1 ({x}) = {ω ∈ Ω, X(ω) = x}
[X > x] = X −1 ([x, +∞[) = X −1 ({x}) = {ω ∈ Ω, X(ω) > x}
[X < x] = X −1 (] − ∞, x[) = {ω ∈ Ω, X(ω) < x}
[X > x] = X −1 (]x, +∞, [) = {ω ∈ Ω, X(ω) > x}.

On remarque que
[X 6 x] = [X < x] ∪ [X = x].

De même, on écrit, pour tous réels a et b,

[a 6 X 6 b] = X −1 ([a, b]) = {ω ∈ Ω, a 6 X(ω) 6 b}

et plus généralement, pour toute partie I de R,

[X ∈ I] = X −1 (I) = {ω ∈ Ω, X(ω) ∈ I}.

On rappelle que X(Ω) désigne l’ensemble des images par X des éléments de Ω, c’est-à-dire
l’ensemble des valeurs prises par l’application X.

Propriété 1.1.1.

1. Si X est une variable aléatoire finie qui prend les valeurs {x1 , x2 , ..., xn }, les événements
{X = xi }1≤i≤n forment un système complet d’événements appelé système complet
d’événements associé à la variable aléatoire X.
L’ensemble des événements de la forme {X ∈ A} où A ⊂ {x1 , x2 , ..., xn } forme
une algèbre d’événements de Ω incluse dans A, appelée algèbre associée à la
variable aléatoire X.
2. La somme, le produit, le quotient (si le dénominateur ne s’annule pas) de deux
variables définies sur le même ensemble Ω est une variable aléatoire définie sur Ω.
3. Si ϕ est une fonction à valeurs dans R définie sur X(Ω), la composée ϕ ◦ X est une
v. a. définie sur Ω.

Définition 1.1.2. Loi d’une variable aléatoire finie


Soit (Ω, A, P ) un espace probabilisé et X une variable aléatoire finie définie sur (Ω, A, P )
à valeurs dans {x1 , x2 , ..., xn }. La loi de X est la fonction L : X(Ω) → [0, 1] définie
par :
∀i ∈ [1, n], L(xi ) = P (X = xi ).

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


4
1.2. Variables aléatoires discrètes

Propriété 1.1.2. Si X est une variable aléatoire finie à valeurs dans {x1 , x2 , ..., xn }, la
loi de X vérifie :
n
X
P (X = xi ) = 1.
i=1

Réciproquement, si L : {x1 , x2 , ..., xn } → [0, 1] est une fonction vérifiant :


n
X
L(xi ) = 1,
i=1

il existe un espace probabilisé (Ω, A, P ) et une variable aléatoire X définie sur (Ω, A, P )
telle que L est la loi de X.

Définition 1.1.3. Fonction de répartition


Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, A, P ). On appelle
fonction de répartition de la variable aléatoire X, la fonction FX définie sur R et à
valeurs dans [0, 1] par :
FX (x) = P (X ≤ x).

Propriété 1.1.3.
Soit FX la fonction de répartition d’une variable aléatoire X. Alors :
1. ∀x ∈ R, FX (x) ∈ [0, 1] ;
2. FX est une fonction croissante sur R ;
3. FX est continue à droite et admet une limite à gauche en tout point de R ;
4. lim FX (x) = 0 et lim FX (x) = 1 ;
x→−∞ x→+∞
5. Pour tous réels a et b, P (a < X 6 b) = FX (b) − FX (a).
Réciproquement, toute application de R dans [0, 1] vérifiant ces propriétés est la fonction
de répartition d’une variable aléatoire X.

Définition 1.1.4. Indépendance de variables aléatoires


Des variables aléatoires finies X1 , ..., Xn sont mutuellement indépendantes si et seule-
ment si pour tout n−uplet (x1 , ..., xn ), les événements {X1 = x1 }, ..., {Xn = xn } sont
mutuellement indépendants.

1.2 Variables aléatoires discrètes


Définition 1.2.1. Variable aléatoire discrète
Soit X une variable aléatoire réelle définie sur un espace probabilisable (Ω, A). On appelle
variable aléatoire discrète (v.a.d.) X toute variable aléatoire dont l’ensemble des
valeurs ou image X(Ω), est au plus dénombrable, c’est-à-dire finie ou dénombrable.
Plus précisément

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


5
1.2. Variables aléatoires discrètes

• toute variable aléatoire réelle X dont l’image X(Ω) est finie, est une variable
aléatoire réelle discrète finie ;
• toute variable aléatoire réelle X dont l’image X(Ω) est infinie dénombrable, est
une variable aléatoire réelle infinie.
Dit autrement, toute variable aléatoire à valeurs dans une partie au plus dénombrable de
R est une variable aléatoire discrète.

Remarque 1.2.1.

— Si Ω est fini ou dénombrable, A = P(Ω), et toute application de Ω dans R est une


variable aléatoire dont l’image est au plus dénombrable ; c’est une variable aléatoire
discrète.
— On rappelle qu’un ensemble E est dit dénombrable s’il peut être mis en bijection
avec N : les éléments de E peuvent donc être indexés par N.
Les ensembles N, Z, Q, N2 sont dénombrables. Toute partie infinie d’un en-
semble dénombrable est dénombrable. Toute réunion dénombrable d’ensembles
dénombrables est dénombrable.
L’ensemble R des réels, l’ensemble P(N) des parties de N, ne sont pas dénombrables.
— Tout ensemble E fini ou dénombrable peut s’écrire sous la forme E = {xi , i ∈ I}
où I est une partie de N et l’application i 7→ xi une bijection de I sur E (on peut
prendre I = N si E est dénombrable, I = [1, n] si E est fini de cardinal n).

La plupart du temps on aura X(Ω) ⊂ N ou X(Ω) ⊂ Z.

Proposition 1.2.1. Soit (Ω, A) un espace probabilisable et X une application de Ω dans


R telle que X(Ω) soit fini ou dénombrable. On note X(Ω) = {xi , i ∈ I}, où I est une
partie de N.
Alors X est une variable aléatoire réelle si et seulement si

∀i ∈ I, [X = xi ] ∈ A.

Proposition 1.2.2. Pour tout espace probabilisable (Ω, A) et pour tout réel a, l’applica-
tion (
Ω −→ R
X :
ω 7−→ a

est une variable aléatoire discrète finie appelée variable aléatoire constante ou cer-
taine.

Cette variable prend la même valeur connue a quel que soit le résultat de l’épreuve :

PX (X = a) = 1.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


6
1.2. Variables aléatoires discrètes

La masse totale de probabilité est concentrée en a ; on parle de loi de Dirac associée à


cette variable certaine.

Proposition 1.2.3. Pour tout espace probabilisable (Ω, A) et tout événement A, l’appli-
cation 
 Ω −→ R


(
X : 1 si ω ∈ A
 ω 7−→

0 si ω ∈

/A

est une variable aléatoire discrète finie appelée variable aléatoire indicatrice de
l’événement A, notée généralement 1A .

Théorème 1.1. Soit X une variable aléatoire discrète de l’espace probabilisable (Ω, A).
On note X(Ω) = {xi , i ∈ I}, où I est une partie de N. Alors la famille ([X = xi ])i∈I est
un système complet d’événements, appelé le système complet d’événements associé
à X

Définition 1.2.2. Loi d’une variable aléatoire discrète


Soit X une variable aléatoire discrète de l’espace probabilisé (Ω, A, P ). L’application

X(Ω) −→ R
x 7−→ P ([X = x])

est appelée loi de probabilité ou distribution de X et est notée PX .

Précisons que (P ([X = xi ]))xi ∈X(Ω) est telle que

1. ∀x ∈ X(Ω), P ([X = x]) > 0 ;


X
2. P ([X = x]) = 1 ;
x∈X(Ω)
X X
3. pour tout réel y, P ([X 6 x]) = P [X = y] où désigne la sommation sur
y6x y6x
l’ensemble des x ∈ X(Ω) inférieurs ou égaux à x.

Ainsi, déterminer la loi de X revient à déterminer X(Ω) et calculer, pour tout x ∈ X(Ω),
la probabilité P ([X = x]). Si X(Ω) = {xi , i ∈ I}, où I est une partie de N, on détermine
la famille (pi )i∈I , où pi = P ([X = xi ]).

Proposition 1.2.4. Soit X une variable aléatoire discrète de l’espace probabilisé (Ω, A, P ).
• Si X est une variable aléatoire finie telle que X(Ω) = {x1 , x2 , ..., xn }, on a
n
X
P ([X = xk ]) = 1.
k=1

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


7
1.2. Variables aléatoires discrètes

• Si X est une variable aléatoire discrète infinie et X(Ω) = {xk , k ∈ N}, on a


+∞
X
P ([X = xk ]) = 1.
k=0

Fonction de répartition

Les fonctions de répartition des variables aléatoires discrètes possèdent les propriétés
énoncées dans la première partie, c’est-à-dire qu’elles sont croissantes, ont pour limite 0
en −∞ et 1 en +∞, sont continues à droite en tout point.
La fonction de répartition FX d’une variable aléatoire discrète X est continue en tout
point x tel que P ([X = x]) = 0 et en particulier en tout point x tel que x ∈
/ X(Ω), car
alors [X = x] = ∅.

Proposition 1.2.5.
Soit X une variable aléatoire finie sur l’espace probabilisé (Ω, A, P ). On pose X(Ω) =
{x1 , x2 , ..., xn } et l’on suppose que x1 < x2 < ... < xn . Alors la fonction de répartition FX
est une fonction en escalier croissante. On a, plus précisément

• FX (x) = 0 si x < x1 ;
• pour tout k ∈ [1, n − 1] et tout x ∈ [xk , xk+1 [,

FX (x) = P ([X = x1 ]) + P ([X = x2 ]) + · · · + P ([X = xk ]);

• FX (x) = 1 si x > xn .

Dans le cas où X(ω) est dénombrable, la fonction de répartition d’une telle variable
aléatoire réelle discrète est une fonction  en escalier généralisé , possédant une infinité
de discontinuités.

Proposition 1.2.6.
Soit X une variable aléatoire réelle discrète dans un espace probabilisé (Ω, A, P ) telle que
X(Ω) ⊂ Z. Alors, pour tout entier n ∈ Z, la fonction FX est constante sur [n, n + 1[.

Proposition 1.2.7. Lien entre fonction de répartition et loi


Soit X une variable aléatoire réelle discrète X telle que X(Ω) ⊂ Z. On a, pour tout
k ∈ X(Ω),
P ([X = k]) = FX (k) − FX (k − 1).

Définition 1.2.3. Variable aléatoire fonction d’une variable aléatoire discrète


Soit X une variable aléatoire discrète sur un espace probabilisé (Ω, A, P ) et g une appli-
cation de X(Ω) dans R. L’application

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


8
1.2. Variables aléatoires discrètes

(
Ω −→ R
Y :
ω 7−→ g(X(Ω))
est notée g(X).

En fait, g(X) n’est rien d’autre que la composée g ◦ X. La notation s’accorde avec la
terminologie qui appelle variable l’application X.

Exemple 1.2.1. Dans une urne contenant une infinité de boules numérotées sur Z, un
joueur prélève une boule, de façon que la probabilité que la boule numéro i soit prélevée
1
est .
2.3|i|
1
La définition est raisonnable. En effet, d’une part > 0 pour tout i ∈ Z et comme
2.3|i|
1 1
d’autre part |−i|
= , on obtient
2.3 2.3|i|
X 1 X 1 +∞
1 X 1 1 1 1
= 2 − = − = 1 − = 1.
i∈Z
2.3|i| i∈N
2.3|i| 2.30 i=0
3i 2 1− 3
2

Soit X la variable aléatoire discrète égale au numéro de la boule prélevée. On a donc


1
X(Ω) = Z et pour tout i ∈ Z, P ([X = i]) = .
2.3|i|
Posons Y = X 2 . On obtient Y (Ω) = {n2 , n ∈ Z} = {n2 , n ∈ N} et
1
∀n ∈ N∗ , P ([Y = n2 ]) = P ([X = n]) + P ([X = −n]) = n
3
1
P ([Y = 0]) = P ([X = 0]) = .
2

Théorème 1.2. Opérations


Si X et Y sont deux variables aléatoires discrètes sur l’espace probabilisé (Ω, A, P ) et λ
un réel, les applications de Ω dans R : X + Y , XY et λX définies, pour tout ω de Ω, par

(X + Y )(ω) = X(ω) + Y (ω), (XY )(ω), (λX)(ω) = λX(ω)

sont des variables aléatoires discrètes.

1.2.1 Les moments d’une variable aléatoire


Définition 1.2.4. L’espérance mathématique
Soit X une variable aléatoire discrète finie sur l’espace probabilisé (Ω, A, P ), telle que
X(Ω) = {x1 , ..., xn }, l’espérance mathématique (ou encore espérance) de la variable
aléatoire X est le réel n
X
E(X) = xi P ([X = xi ]).
i=1

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


9
1.2. Variables aléatoires discrètes

Remarques 1.2.1.
• Toute variable aléatoire réelle discrète finie admet donc une espérance.
• L’espérance est la moyenne des valeurs prises par X pondérées par la probabilité
que X prenne cette valeur. L’espérance mathématique est donc une généralisation
de la notion de moyenne.
Proposition 1.2.8. Pour tout événement A de l’espace probabilisé (Ω, A, P ), la variable
aléatoire indicatrice 1A de l’événement A admet une espérance égale à E(1A ) = P (A).
Pour tout réel a, la variable aléatoire réelle discrète X certaine égale à a admet a comme
espérance.

Preuve .
• Rappelons que la variable aléatoire indicatrice de l’événement A est la variable
aléatoire 
 Ω −→ R


(
1A : 1 si ω ∈ A
 Ω 7−→

0 si ω ∈

/A

1A admet une espérance et E(1A ) = 0 × P ([1A = 0]) + 1 × P ([1A = 1]) = P (A).

• Soit X la variable aléatoire réelle discrète certaine égale à a. On a X(Ω) = {a} et


P ([X = a]) = 1, donc X admet une espérance et

E(X) = a × P ([X = a]) = a.

Définition 1.2.5. Soit X une variable aléatoire réelle infinie sur l’espace probabilisé
(Ω, A, P ), X(Ω) = {xi , i ∈ N}. Si la série de terme général xi P ([X = xi ]) converge
absolument, on dit alors que X admet une espérance mathématique (ou espérance)
égale au nombre réel
+∞
X
E(X) = xi P ([X = xi ]).
i=0
Remarques 1.2.2.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• on impose la convergence absolue de la série, car dans le cas d’une série qui
est convergente mais pas absolument convergente, la somme de la série varie si
l’on fait subir aux indices i une permutation arbitraire de N. Ainsi, la valeur de
+∞
X
xi P ([X = xi ]) dépendrait de la numérotation des éléments de X(ω).
i=0

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


10
1.2. Variables aléatoires discrètes

• Toute variable aléatoire réelle discrète X telle que X(Ω) = N admet une espérance
si, et seulement si, la série de terme général nP ([X = n]) converge (en effet, elle
est à termes positifs).
En cas de convergence,
+∞
X +∞
X
E(X) = nP ([X = n]) = nP ([X = n]).
n=0 n=1

• Toute variable aléatoire réelle discrète X telle que X(Ω) = Z admet une espérance
si et seulement si les séries de termes généraux nP ([X = n]) et nP ([X = −n])
convergent (ces séries sont à termes de signe constant donc la convergence absolue
équivaut à la convergence). En cas de convergence de ces séries, on a
+∞
X +∞
X
E(X) = (−n)P ([X = −n]) + nP ([X = n]),
n=1 n=0

ce que l’on note


+∞
X
E(X) = nP ([X = n]).
n=−∞

Exemple 1.2.2. Reprenons la variable aléatoire X de l’exemple 1.2.1. Ici X est la variable
aléatoire égale au numéro de la boule prélevée dans une urne en contenant une infinité de
boules numérotées sur Z. La loi de X est définie par
1
∀k ∈ Z, P ([X = k]) = .
2.3|k|
k
La série de terme général converge, donc X admet une espérance et
2.3|k|
+∞ +∞
X −k X k
E(X) = k
+ = 0.
k=1
2.3 k=0
2.3k

Remarque 1.2.2. Il existe des variables aléatoires réelles infinies qui n’admettent pas
d’espérance mathématique.
1
Par exemple, la variable aléatoire telle que X(Ω) = N∗ et P ([X = n]) = , pour
n(n + 1)
tout n ∈ N∗ . Cette variable n’admet pas d’espérance. En effet, la série de terme général
1
nP ([X = n]) = diverge.
n+1

Théorème 1.3. Linéarité de l’espérance


Soient X et Y deux variables aléatoires discrètes sur le même espace probabilisé (Ω, A, P ),
admettant une espérance mathématique, et λ un réel. Alors X +Y et λX sont des variables
aléatoires réelles discrètes qui admettent une espérance et

E(X + Y ) = E(X) + E(Y ) et E(λX) = λE(X).

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


11
1.2. Variables aléatoires discrètes

Ce théorème signifie que l’ensemble des variables aléatoires sur (Ω, A, P ) admettant une
espérance, forment un espace vectoriel et que l’application X 7−→ E(X) définie sur cet
espace vectoriel est linéaire.

Corollaire 1.2.1. Soit X une variable aléatoire réelle admettant une espérance mathéma-
tique E(X). Pour tout couple (a, b) de réels, aX+b est une variable aléatoire réelle discrète
admettant aE(X) + b comme espérance.

Remarque 1.2.3. Le théorème 1.3 est utile pour calculer l’espérance d’une variable dont
on ne connaı̂t pas la loi mais qu’on sait décomposer en somme de variables aléatoires plus
simples.

Exemple 1.2.3. On considère un entier n > 2 et une urne contenant n jetons numérotés
de 1 à n. On prélève ces jetons successivement et sans remise. On note (u1 , ..., un ) la liste
des numéros successivement tirés. Pour 2 > i > n, on dit qu’il y a  montée  (respec-
tivement  descente ) au i-ième tirage si ui > ui−1 (resp. ui < ui−1 ). On note X (resp.
Y ) la variable aléatoire égale au nombre total de montées (resp. de descentes).

L’univers Ω est l’ensemble des permutations de [1, n]. On a Card(Ω) = n! et A = P(Ω).


Les variables aléatoires X et Y sont à valeurs dans [0, n − 1]. Pour i ∈ [2, n], on note Xi
la variable qui vaut 1 s’il y a montée au i-ième tirage et 0 sinon. On a alors

X = X2 + · · · + Xn .

Pour i ∈ [2, n], l’événement [Xi = 1] est réalisé si ui−1 < ui . On choisit deux éléments de
[1, n] au hasard, le plus petit est ui−1 , le plus grand ui ; les n − 2 autres jetons peuvent
être tirés dans un ordre quelconque. On trouve

Cn2 (n − 2)! 1
P ([Xi = 1]) = = .
n! 2
1
On en déduit que E(Xi ) = P ([Xi = 1]) = , puis
2
n
X 1 n−1
E(X) = = .
i=2
2 2

On peut procéder de la même manière pour Y , mais on peut remarquer simplement que
X + Y = n − 1, car s’il n’y a pas montée au i-ième tirage, il y a descente. On en déduit
que
n−1
E(Y ) = n − 1 − E(X) = .
2
Définition 1.2.6. Toute variable aléatoire réelle discrète admettant une espérance mathé-
matique nulle est dite centrée.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


12
1.2. Variables aléatoires discrètes

Proposition 1.2.9.
Pour toute variable aléatoire réelle discrète X admettant une espérance mathématique
E(X), la variable aléatoire X − E(X) est une variable aléatoire appelée la variable
aléatoire centrée associée à X.

Proposition 1.2.10. Positivité de l’espérance


Soit X une variable aléatoire réelle discrète admettant une espérance.
• Si X est positive, c’est-à-dire si X(ω) pour tout élément ω de Ω, alors E(X) est
un réel positif.
• Si de plus E(X) = 0, la variable X est presque sûrement nulle, c’est-à-dire vérifie
l’égalité P ([X = 0]) = 1.

Proposition 1.2.11. Croissance de l’espérance


Soient X et Y deux variables aléatoires réelles discrètes définies sur le même espace
probabilisé (Ω, A, P ), admettant une espérance.
Si X 6 Y , c’est-à-dire si X(ω) 6 Y (ω) pour tout élément ω de Ω, alors

E(X) 6 E(Y ).

Théorème 1.4. Le théorème de transfert


Si X est une variable aléatoire réelle discrète finie vérifiant X(Ω) = {x1 , x2 , ..., xn } et
g une application de X(Ω) dans R, l’espérance mathématique de la variable aléatoire
discrète finie g(X) est donnée par
n
X
E(g(X)) = g(xi )P ([X = xi ]).
i=1

Théorème 1.5.
Soit X une variable aléatoire réelle discrète telle que X(Ω) = {xn , n ∈ N} et g une ap-
plication de X(Ω) dans R, la variable aléatoire g(X) admet une espérance si et seulement
si la série de terme général g(xn )P ([X = xn ]) est absolument convergente, et l’on dispose
alors de l’égalité
+∞
 X
E g(X) = g(xn )P ([X = xn ]).
n=0

Exemple 1.2.4. Reconsidérons la variable aléatoire réelle discrète X de l’exemple 1.2.1,


telle que X(Ω) = Z et
1
∀k ∈ Z, P ([X = k]) = .
2.3|k|

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


13
1.2. Variables aléatoires discrètes

• Posons Y = 2X : c’est une variable aléatoire réelle


k discrète.  k
2k 1 2 2−k 1 1
Les séries de termes généraux = et = convergent
2.3k 2 3 2.3k 2 6
2 1
absolument, car et appartient à ] − 1, 1[. Ainsi, Y admet une espérance et
3 6
+∞  k X +∞  k
X 1 2 1 1
E(Y ) = + .
k=1
2 3 k=0
2 6

En faisant le changement d’indice j = k − 1 dans la première somme, on obtient


+∞  j +∞  k
1X 2 1X 1 1 1 1 1 8
E(Y ) = + = 1 + 1 =
3 j=0 3 2 k=0 6 31− 2
21− 6
5

• Posons Z = 4X : Z est une variable aléatoire réelle discrète.


4k

1 4 4
La série de terme général k+1 = diverge car > 1. Donc Z n’admet pas
3 3 3 3
d’espérance.

Définition 1.2.7. Moments d’une variable aléatoire discrète


Soit r un entier naturel. Pour toute variable aléatoire réelle discrète finie X sur l’espace
probabilisé (Ω, A, P ), telle que X(Ω) = {x1 , ..., xn }, le moment d’ordre r de la variable
aléatoire X est le réel n
X
mr (X) = xri P ([X = xi ]).
i=1

Remarque 1.2.4. Toute variable aléatoire réelle discrète admet un moment d’ordre r
pour tout entier naturel r.

Définition 1.2.8. Soient r un entier naturel et X une variable aléatoire réelle discrète
infinie sur l’espace probabilisé (Ω, A, P ), telle que X(Ω) = {xi , i ∈ N}. Si la série de
terme général xri P ([X = xi ]) converge absolument, on dit alors que X admet un moment
d’ordre r égal au nombre réel
+∞
X
mr (X) = xri P ([X = xi ]).
i=1

Remarques 1.2.3.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• Si r est pair, la convergence absolue équivaut à la convergence, car la série de terme
général xrn P ([X = xn ]) est à termes positifs.
• Le moment d’ordre 0 est égal à 1, celui d’ordre 1 est l’espérance mathématique.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


14
1.2. Variables aléatoires discrètes

Proposition 1.2.12.
Soient X une variable aléatoire réelle discrète et r entier naturel. La variable X admet
un moment d’ordre r si et seulement si la variable aléatoire réelle discrète X r admet une
espérance et, dans ce cas, mr (X) = E(X r ).

Proposition 1.2.13.
Si une variable aléatoire réelle discrète X admet un moment d’ordre r, alors pour tout
entier naturel k 6 r, elle admet un moment d’ordre k.

Définition 1.2.9. La variance : Si la variable aléatoire X admet une espérance et la


variable aléatoire (X − E(X)) admet un moment d’ordre 2, on appelle variance de X le
réel V (X) défini par
 
2
V (X) = m2 (X − E(X)) = E (X − E(X)) .

Remarques 1.2.4.
• Toute variable aléatoire réelle discrète finie admet une variance.
• La variance est la moyenne du carré de la distance entre les valeurs de X et la
moyenne de X. La variance est donc une mesure de la dispersion de X par
rapport à E(X).
• Comme la variable X − E(X) est centrée, la variance est aussi appelée moment
centré d’ordre 2.

Proposition 1.2.14. Formule de Kœnig-Huygens


Soit X une variable aléatoire réelle discrète. La variable X admet une variance si et
seulement si X admet un moment d’ordre 2 et en cas d’existence, on a
2
V (X) = E(X 2 ) − E(X) .

1
Exemple 1.2.5. Soit X une variable aléatoire telle que XΩ) = Z et P ([X = k]) = ,
1.3|k|
pour tout k ∈ Z. Nous avons déjà démontré précédemment que son espérance est nulle.
 k
k2 k2 1
La série de terme général = converge, car son terme général est équivalent
2.3k 2 3
 k  k−2
1 1 1 1
à k(k −1) = k(k −1) qui est la dérivée seconde d’une série géométrique
2 3 18 3
de raison 13 . On en déduit que X possède un moment d’ordre 2
+∞ 2  k  k
2
X k 1 +∞ 2 1
E(X ) = 2 = sumk=1 k .
k=1
2 3 3

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


15
1.2. Variables aléatoires discrètes
 k
1
Comme la série de terme général k(k − 1) converge, on peut écrire (la troisième
3
série étant convergente car différence des deux premières),
+∞  k X +∞  k
2
X 1 1
E(X ) = k(k − 1) + k
k=1
3 k=1
3
+∞  k−2 +∞  k−1
1X 1 1X 1
= k(k − 1) + k .
9 k=1 3 3 k=1 3

On reconnaı̂t dans ces deux séries la dérivée seconde et la dérivée de la série géométrique
1
de raison . On en déduit
3
1 2 1 1 3
E(X 2 ) = 1 3 + 1 2 = .
9 (1 − 3 ) 3 (1 − 3 ) 2

Comme E(X) = 0, on obtient, d’après la formule de Kœnig-Huyghens,


3
V (X) = E(X 2 ) = .
2

Proposition 1.2.15. Propriétés de la variance


• Pour tout variable aléatoire réelle discrète X admettant un moment d’ordre 2, on
a V (X) > 0.
De plus V (X) = 0 si et seulement si X est presque sûrement constante, c’est-à-dire
si et seulement s’il existe m ∈ R tel que P ([X = m]) = 1.
• Si (a, b) est un couple de réels et X une variable aléatoire réelle discrète admettant
un moment d’ordre 2, alors aX + b admet un moment d’ordre 2 et

V (aX + b) = a2 V (X).

Définition 1.2.10. L’écart-type


Si X est une variable aléatoire réelle discrète admettant un moment d’ordre 2, l’écart-
p
type de la variable aléatoire X est le réel σ(X) = V (X).

Définition 1.2.11. Soit X une variable aléatoire réelle admettant un moment d’ordre 2.
Si E(X) = 0 et σ(X) = 1, la variable aléatoire X est dite centrée réduite.

Proposition 1.2.16. Si X est une variable aléatoire réelle discrète X admettant une
X − E(X)
variance nulle, la variable aléatoire réelle discrète X ∗ = est une variable
σ(X)
aléatoire réelle discrète centrée réduite, appelée la variable aléatoire réelle centrée
réduite associée à X.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


16
1.3. Variables aléatoires réelles à densité

1.3 Variables aléatoires réelles à densité


Les variables aléatoires réelles à densité, ou continues, forment, avec les variables
discrètes, le deuxième cas particulier très important de la notion générale de variable
aléatoire réelle. Les résultats fondamentaux les concernant sont très proches du cas discret,
à condition de remplacer par exemple les sommes des séries par des intégrales, souvent
généralisées.

1.3.1 Généralités sur les variables aléatoires réelles à densité


Définition 1.3.1. Soit X une variable aléatoire réelle définie sur un espace probabilisé
(Ω, A, P ), F sa fonction de répartition. On dit que X est une variable aléatoire réelle à
densité s’il existe une fonction f : R 7−→ R vérifiant :
1. f positive ou nulle ;
2. f continue sauf éventuellement en un nombre fini de points ;
Z +∞ Z +∞
3. l’intégrale f (t)dt converge et f (t)dt = 1 ;
−∞ −∞
telle que, pour tout réel x, Z x
F (x) = f (t)dt.
−∞

La fonction f est appelée une densité de X.

Remarques 1.3.1. Z +∞
• Si la fonction f est discontinue en a1 < · · · < an de f (t)dt équivaut à la
Z a1 Z a2 −∞ Z +∞
convergence de chacune des intégrales f (t)dt, f (t)dt,..., f (t)dt qui
−∞ −a1 an
sont toutes généralisées.
Z +∞ Z x
La convergence de f (t)dt implique celle de f (t)dt pour tout réel x.
−∞ −∞
• S’il y a nécessité de préciser, on notera FX la fonction de répartition et fX une
densité de X.

Théorème 1.6.
Soit f une fonction Z de R dans R positive ou nulle, continue sauf en un nombre fini de
+∞
points et telle que f (t)dt = 1. Alors il existe un espace probabilisé (Ω, A, P ) et une
−∞
variable aléatoire X, définie sur cet espace probabilisé, dont f est une densité.

Une telle fonction f est appelée une densité ou densité de probabilité.


1 |t|
Exemple 1.3.1. Soit f la fonction définie sur R par f (t) = e . Montrons que f est
2
une densité d’une variable aléatoire X.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


17
1.3. Variables aléatoires réelles à densité

La fonction f est positive et continue sur R. Pour tout x > 0, on a


Z x
1 x −t
Z
1  −t x 1
f (t)dt = e dt = −e 0 = (1 − e−x ).
0 2 0 2 2
Z x Z x
1 1
On en déduit lim f (t)dt = . Ainsi f (t)dt converge et vaut . Comme f est
x−→+∞ 0 2 0 2
paire, on en déduit Z +∞
f (t)dt = 1.
−∞

La fonction f est une densité d’une variable aléatoire réelle.

Fonction de répartition d’une variable à densité

Rappelons les propriétés vérifiées par la fonction de répartition d’une variable aléatoire
quelconque. La fonction de répartition d’une variable aléatoire quelconque est croissante,
a pour limite 0 en −∞ et 1 en +∞ ; elle est continue à droite en tout point et, pour tout
réel x, lim

F = F (x) − P ([X = x]).
x

Théorème 1.7.
Soit F la fonction de répartition d’une variable aléatoire réelle à densité X, f une densité
de X. Alors

1. F est continue sur R ;


2. F est de classe C 1 sauf en un nombre fini de points. Il existe des réels a1 < · · · < an
tels que F est de classe C 1 et de dérivée f sur chaque intervalle ]−∞, a1 [, ]a1 , a2 [,...,
]an + ∞[.

Théorème 1.8.
Soit X une variable aléatoire réelle de fonction de répartition F . Si F est continue sur R
de classe C 1 sauf en un nombre fini de points, alors X est une variable à densité. Si f est
une fonction positive ou nulle telle que F 0 (x) = f (x) en tout point x où F est dérivable,
f est une densité de X.

Théorème 1.9.
Soit X une variable aléatoire réelle à densité X. Pour tout réel x, on dispose de l’égalité

P ([X = x]) = 0.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


18
1.3. Variables aléatoires réelles à densité

Proposition 1.3.1.
Soit f une densité et F la fonction de répartition d’une variable aléatoire réelle X. Pour
tout réel x, on dispose des égalités
Z x
P ([X 6 x]) = P ([X < x]) = F (x) = f (t)dt,
−∞
Z +∞
P ([X > x]) = P ([X > x]) = 1 − F (x) = f (t)dt.
x

Pour tous réels a et b tels que a < b, on dispose des égalités

P ([a < X < b]) = P ([a 6 X < b]) = P ([a < X 6 b]) = P ([a 6 X 6 b])
Z b
= F (b) − F (a) = f (t)dt.
a

Interprétation géométrique

Considérons la courbe représentative Cf de la densité f . Pour a < b, la probabilité de


l’événement [a 6 X 6 b] apparaı̂t comme l’aire de la partie du plan comprise entre Cf ,
l’axe des abscisses et les droites d’équation x = a et x = b. Pour tout réel a, F (a) apparaı̂t
comme l’aire de la partie du plan limitée par Cf , l’axe des abscisses et la droite d’équation
x = a, située à gauche de cette droite.

Remarques 1.3.2.
• Pour une variable aléatoire à densité X, tous les événements [X = x] sont quasi-
impossibles. La situation est radicalement différente de celle d’une variable discrète
X. Pour une telle variable, on a P ([X = x]) 6= 0 pour tout x ∈ X(Ω) et on appelle
loi de X la donnée de P ([X = x]) pour tout x ∈ X(Ω). Quand on parle de loi
d’une variable à densité, il s’agit de la donnée de f ou de F .
• La remarque précédente montre qu’une variable discrète ne peut pas être une
variable à densité. Il s’agit de deux ensembles disjoints de variables aléatoires.
• On peut préciser la signification d’une densité. Soit a un point où f est continue
et vérifie f (a) 6= 0. Comme

F (a + h) − F (a) P ([a 6 X 6 a + h])


f (a) = F (a) = lim = lim ,
h−→0 h h−→0 h
la probabilité de l’événement [a 6 X 6 a+h] est approximativement pour un petit
accroissement h > 0 de la variable égale à hf (a).

Définition 1.3.2. Soit X une variable à densité définie sur l’espace probabilisable (Ω, A, P ),
I un intervalle de R. On dit que X est à valeurs dans I si P ([X ∈ I]) = 1.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


19
1.3. Variables aléatoires réelles à densité

Proposition 1.3.2. Soit X une variable aléatoire réelle à densité, I un intervalle de R.


La variable X est à valeurs dans I si et seulement si elle possède une densité qui est nulle
sur le complémentaire de I.

1.3.2 Variable aléatoire fonction d’une variable à densité


Soit X une variable aléatoire réelle de densité f et ϕ une fonction dont l’ensemble de
définition contient X(Ω). On peut se demander quelles conditions il faut imposer à ϕ pour
que Y = ϕ(X) (c’est-à-dire ϕ ◦ X) soit encore une variable à densité et alors exprimer
une densité de Y en fonction d’une densité de X et de ϕ. Contrairement au cas des
variables aléatoires discrètes (pour lesquelles il n’y a pas de condition sur ϕ) le problème
est compliqué.

Proposition 1.3.3. Soit X une variable aléatoire réelle de densité f et (a, b) un couple
de réels tel que a 6= 0. Alors Y = aX + b est une variable aléatoire réelle admettant une
densité g définie par
1 y−b
∀y ∈ R, g(y) = f( ).
|a| a

Si a = 0, Y est la variable aléatoire certaine b, discrète. Ce n’est pas une variable à densité.

Théorème 1.10. Cas où ϕ est bijective et de classe C 1


Soit X une variable aléatoire de densité f , à valeurs dans un intervalle I, et ϕ : I −→ R
une application de classe C 1 dont la dérivée ne s’annule pas. Alors Y = ϕ(X) est une
variable aléatoire admettant une densité g nulle en dehors de l’intervalle J = ϕ(I) et telle
que, pour tout y ∈ J,

f ◦ ϕ−1 (y)
g(y) = f ◦ ϕ−1 (y)|(ϕ−1 )0 (y)| = .
|ϕ0 ◦ ϕ−1 (y)|

Exemple 1.3.2. Soit X une variable à densité de densité f et Y = eX . Montrons que Y


est une variable aléatoire à densité.
La fonction exp réalise une bijection strictement croissante de R sur R∗+ ; sa bijection
réciproque est ln. On a donc pour tout réel y,
(
∅ si y 6 0
[Y 6 y] = [eX 6 y] =
{X 6 ln(y)} si y > 0.

Ainsi, [Y 6 y] est un événement pour tout réel y, donc Y est une variable aléatoire et
(
0 si y 6 0
FY (y) =
FX (ln(y)) si y > 0.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


20
1.3. Variables aléatoires réelles à densité

La fonction FY est continue sur R∗+ et R∗− et

lim FY (y) = lim+ FX (ln(y)) = lim FX (x) = 0 = lim



FY = FY (0).
y→0+ y→0 x→−∞ 0

Donc FY est continue sur R. Elle est de classe C 1 sur R∗ . Ansi Y est une variable aléatoire
réelle à densité dont une densité g est nulle sur R− et définie pour y > 0 par

f (ln(y))
g(y) = FY0 (y) = FX0 (ln(y)) ln0 (y) = ,
y

si FY est dérivable en ln(y). En les points où FY n’est pas dérivable, on peut prendre g
quelconque, donc égale encore à cette expression.

Proposition 1.3.4.
Si X est une variable aléatoire à densité et n un entier naturel non nul, X n est une
variable aléatoire à densité.

1.3.3 Espérance et variance d’une variable aléatoire à densité


Les concepts d’espérance et de variance, déjà rencontrés au niveau des variables aléatoires
réelles discrètes, possèdent leurs analogues pour les variables à densité.

Définition 1.3.3. Espérance mathématique Z +∞


Soit X une variable aléatoire réelle de densité f . Si l’intégrale tf (t)dt est absolument
−∞
convergente, on dit alors que X admet une espérance mathématique (ou espérance)
égale au nombre réel Z +∞
E(X) = tf (t)dt.
−∞

La fonction t 7−→ tf (t) étant positive sur R+ et négative sur R− , l’absolue convergence
équivaut en fait àla convergence ici.

Exemple 1.3.3. Soit la fonction définie sur R par

f (x) = 6x(1 − x) si x ∈ [0, 1] et f (x) = 0 sinon.

Montrons que f est une densité d’une variable aléatoire réelle qui admet une espérance.

La fonction f est positive, car x(1−x) > 0 pour x ∈ [0, 1], et continue, sauf éventuellement
en 0 et 1. D’autre part, on a
Z +∞ Z 1 1
6x(1 − x)dx = 3x2 − 2x3 0 = 3 − 2 = 1

f (x)dx =
−∞ 0

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


21
1.3. Variables aléatoires réelles à densité

Ainsi, f est une densité d’une variable aléatoire réelle.

Comme f est nulle en dehors de [0, 1],


Z +∞ Z 1  1
2 3 3 3 4 1
xf (x)dx = (6x − 6x )dx = 2x − x = .
−∞ 0 2 0 2

1
Toute variable aléatoire réelle X de densité f possède une espérance et E(X) = .
2
Théorème 1.11. Linéarité de l’espérance
Soit X une variable aléatoire réelle admettant une densité f et une espérance E(X), et
a un réel. Alors Y = aX + b admet une espérance vérifiant

E(Y ) = aE(X) + b.

Définition 1.3.4. Toute variable aléatoire réelle à densité admettant un espérance nulle
est dite centrée.

Proposition 1.3.5.
Pour toute variable aléatoire réelle à densité X admettant une espérance E(X), la variable
aléatoire X −E(X) est une variable aléatoire réelle à densité centrée, appelée la variable
aléatoire centrée associée à X.

Théorème 1.12.
Soient X et Y deux variables aléatoires réelles à densité sur le même espace probabilisé
(Ω, A, P ), admettant chacune une espérance.
• Si la variable aléatoire réelle X + Y est une variable à densité, elle admet une
espérance et E(X + Y ) = E(X) + E(Y ).
• Si la variable aléatoire réelle à densité X est à valeurs dans R+ , possédant une
espérance, on a alors
E(X) > 0.

Proposition 1.3.6. Soient X et Y deux variables aléatoires réelles à densité admettant


des espérances mathématiques et telles que P ([X 6 Y ]) = 1 (on dit que X 6 Y presque
sûrement). On a alors E(X) 6 E(Y ).

Théorème 1.13. Théorème de transfert


Soient X une variable aléatoire réelle de densité f , à valeurs dans un intervalle I de R,
et ϕ une fonction de I dans R, continue sauf en un nombre fini de points.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


22
1.3. Variables aléatoires réelles à densité

Si Y = ϕ(X) = ϕ ◦ X est une variable aléatoire réelle à densité, elle admet une espérance
si et seulement si l’intégrale Z
ϕ(t)f (t)dt
I

est absolument convergente. Cette espérance est alors donnée par


Z
E (ϕ(X)) = ϕ(t)f (t)dt.
I

Exemple 1.3.4. Soit X une variable aléatoire réelle de densité f et Y = eX . Le théorème


de transfert affirme que si Y admet une espérance, elle est donnée par
Z +∞
E(Y ) = et f (t)dt.
−∞

Par ailleurs, nous avons démontré précédemment qu’une densité de Y est donnée par

f ((ln(y))
g(y) = 0 si y 6 0 et g(y) = si y > 0.
y

Ainsi, l’espérance de Y est donnée sous réserve d’absolue convergence de l’intégrale par
Z +∞ Z +∞
E(Y ) = yg(y)dy = f (ln(y)) dy.
0 −∞

Mais le changement de variable t = ln(y), c’est-à-dire y = et , dans la seconde intégrale


redonne la première car on remplace dy par et dt.

Définition 1.3.5. Moments d’une variable à densité


Soit X une variable aléatoire réelle de densité f et n un entierZ naturel. On dit que la
+∞
variable aléatoire X admet un moment d’ordre n si l’intégrale xn f (x)dx converge
−∞
absolument, et en cas de convergence, on appelle moment d’ordre n de X le réel
Z +∞
mn (X) = xn f (x)dx.
−∞

Le moment d’ordre 0 est égal à 1, celui d’ordre 1 est l’espérance mathématique.

Proposition 1.3.7.
Soit X une variable aléatoire réelle à densité et n entier naturel. La variable X admet un
moment d’ordre n si et seulement si la variable aléatoire réelle à densité X n admet une
densité. On a alors mn (X) = E(X n ).

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


23
1.3. Variables aléatoires réelles à densité

Définition 1.3.6. Variance


Si la variable aléatoire X admet une espérance et si la variable aléatoire (X − E(X))2
admet une espérance, on appelle variance de X le réel V (X) défini par

V (X) = E (X − E(X)) .

Proposition 1.3.8. Formule de Kœnig-Huyghens


Soit X une variable aléatoire réelle à densité. La variable aléatoire X admet une variance
si et seulement si X admet un moment d’ordre 2 et en cas d’existence, on a

V (X) = E(X 2 ) − (E(X))2 .

Exemple 1.3.5. Soit X une variable aléatoire dont une densité f est définie par

f (x) = 6x(1 − x) si x ∈ [0, 1] et f (x) = 0 sinon.


1
Nous avons montré que E(X) = . Comme f est nulle en dehors de [0, 1],
2
Z +∞ Z 1 Z 1  
2 2 3 4 3 4 6 5 3
x f (x)dx = x f (x)dx = (6x − 6x )dx = x − x = .
−∞ 0 0 2 5 10

La variable aléatoire réelle X possède un moment d’ordre 2 donc une variance et


3 1 1
V (X) = E(X 2 ) − (E(X))2 = − = .
10 4 20

Théorème 1.14. Si X est une variable aléatoire réelle à densité admettant une variance
V (X), alors pour tout couple (a, b) de réels la variable aléatoire aX +b admet une variance
donnée par l’égalité
V (aX + b) = a2 V (X).

De plus, toute variance de variable aléatoire réelle à densité est strictement positive.

Définition 1.3.7. Soit X une variable aléatoire réelle à densité, possédant un moment
d’ordre 2. L’écart-type de la variable aléatoire réelle X est le réel strictement positif
p
σ(X) = V (X).

Si X vérifie E(X) = 0 et σ(X) = 1, elle est dite centrée réduite.

Proposition 1.3.9. Si X est une variable aléatoire réelle à densité, admettant un moment
X − E(X)
d’ordre 2, la variable aléatoire réelle à densité X ∗ = est une variable aléatoire
σ(X)
centrée réduite, appelée la variable aléatoire réelle centrée réduite associée à X.

KODIA Bernédy Nel c 2019 Chapitre 1. Les variables aléatoires réelles


? ? Chapitre Deux ? ?

Lois univariées usuelles

Si on améliore la compréhension et l’analyse d’un phénomène complexe par l’introduc-


tion d’un modèle qui la simplifie, celui-ci ne doit cependant pas être trop loin de la réalité.
Dans ce chapitre, nous présentons les principaux modèles qui peuvent être retenus pour
une modélisation aléatoire. Ce catalogue des lois usuelles distingue entre lois discrètes
et lois admettant une densité de probabilité.

2.1 Lois usuelles discrètes

2.1.1 Loi de Dirac


Définition 2.1.1. Soit a ∈ R un point fixé. On dit que la variable aléatoire X suit la
loi de Dirac, notée δa , si la variable aléatoire X est une variable aléatoire certaine ou
constante, prenant la même valeur a quel que soit le résultat de l’épreuve :

X(ω) = a, ∀ω ∈ Ω.

Ainsi :

X(Ω) = {a}, PX ([X = a]) = P (ω ∈ Ω/X(ω) = a) = P (Ω) = 1

et (
0 si x < a
FX (x) =
1 si x > a.

Le graphe de F présente un saut de valeur 1 au pont de discontinuité a, qu’on appelle


échelon de Heaviside. Dans ce cas, nous avons

E(X) = a et V (X) = 0.

C’est la seule variable aléatoire dont la variance est nulle.

25
26
2.1. Lois usuelles discrètes

2.1.2 Loi de Bernouilli


Définition 2.1.2. Soit p ∈]0, 1[. On dit qu’une variable aléatoire réelle discrète X suit
la loi de Bernouilli de paramètre p, et on note X ,→ B(1, p), ou X ,→ B(p) si
X(Ω) = {0, 1} et P ([X = 1]) = p.

Lorsque la variable aléatoire X suit une loi de Bernouilli, on dit que la variable aléatoire
X est une variable de Bernouilli.

Remarques 2.1.1.

1. Une épreuve de Bernouilli est une expérience aléatoire ayant deux issues pos-
sibles : le succès et l’échec. Une telle expérience peut être représentée par une variable
de Bernouilli, en notant 1 (le succès) et 0 (l’échec) les deux résultats possibles.
2. La variable indicatrice d’un événement A, notée 1A , telle que 0 < P (A) < 1 (c’est-
à-dire que cet événement n’est ni certain, ni impossible), définie par
(
1 si A est réalisé
1A =
0 sinon

est une variable de Bernouilli de paramètre p = P (A). Réciproquement, toute va-


riable de Bernouilli est la variable indicatrice de l’événement P ([X = 1]).

Proposition 2.1.1. Si la variable aléatoire X suit la loi de Bernouilli de paramètre p,


alors X admet une espérance mathématique et une variance, respectivement égales à

E(X) = p et V (X) = p(1 − p).

Exercice 2.1.1. Établir cette proposition.

Exemple 2.1.1. Dans une population de n individus, on associe à un chacun d’eux une
v. a. de Bernouilli, indicatrice de possession d’un certain caractère A :
(
1 si i possède le caractère A
Xi =
0 sinon.

Le paramètre p = P (A) représente la proportion d’individus de la population qui possèdent


ce caractère A.

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


27
2.1. Lois usuelles discrètes

2.1.3 Loi binomiale


Définition 2.1.3. On dit que la variable aléatoire réelle discrète X définie sur l’espace
probabilisé (Ω, A, P ) suit une loi binomiale de paramètres (n, p), où n ∈ N∗ et p ∈]0, 1[
si X(Ω) = [0, n] et, pour tout k ∈ [0, n],
!
n
P ([X = k]) = pk q n−k = Cnk pk q n−k ,
k
où q = 1 − p. La proposition  X suit la loi binomiale de paramètre (n, p) se note
X ,→ B(n, p).

Modèle : X est le nombre de succès lors de n épreuves identiques et indépendantes, la


probabilité de succès à chaque épreuve étant p.

Remarque 2.1.1. Une variable aléatoire qui suit la loi binomiale de paramètre (1, p) est
une variable aléatoire de Bernouilli de paramètre p. Cela justifie la notation B(1, p) pour
une variable de Bernouilli.
Exemples 2.1.1.
1. On considère une succession de n épreuves dont les résultats sont indépendants,
chacun ayant deux issues appelées succès (de probabilité p) et échec (de probabilité
q = 1 − p). Alors la variable aléatoire égale au nombre total de succès dans ces n
épreuves suit la loi binomiale de paramètre (n, p).
2. Une urne contient des boules blanches en proportion p et des boules noires en pro-
portion 1 − p. On fait n tirages avec remise dans l’urne. La variable égale au nombre
de boules blanches obtenues suit une loi binomiale de paramètre (n, p).

Proposition 2.1.2. Toute variable aléatoire X de loi binomiale de paramètres (n, p)


admet une espérance et une variance données par

E(X) = np et V (X) = npq = np(1 − p).

La variable aléatoire n − X suit la loi binomiale de paramètres (n, q), où q = 1 − q. Ainsi,
si X représente un nombre de succès parmi n expériences, alors Y = n − X mesure le
nombre d’échecs.

Lien entre la loi binomiale et la loi de Bernouilli. La variable aléatoire X ,→


B(n, p) si et seulement si X est la somme de n variables aléatoires de Bernouilli indépendantes
et de même loi B(1, p).

Stabilité. Si deux variables aléatoires X et Y indépendantes sont telles que X ,→ B(n, p)


et Y ,→ B(m, p), alors
X + Y ,→ B(n + m, p).

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


28
2.1. Lois usuelles discrètes

2.1.4 Loi hypergéométrique


Définition 2.1.4. Soient n et N des entiers tels que 1 6 n 6 N , p ∈]0, 1[ tel que
N p = N × p soit entier, q = 1 − p. On dit qu’une variable aléatoire réelle X suit la loi
hypergéométrique de paramètres (N, n, p) si X(Ω) = [max(0, n − N q), min(n, N p)]
et

  
Np Nq
n n−k
∀k ∈ [max(0, n − N q), min(n, N p)] P ([X = k]) =  
N
n
La proposition  X suit la loi hypergéométrique de paramètres (N, n, p) se note X ,→
H(N, n, p).

Exemple 2.1.2. Une urne contient a boules blanches et b boules noires. On suppose que
n 6 a + b. On tire simultanément n boules dans l’urne. Soit X la variable aléatoire égale
au nombre de boules blanches obtenues. La variable X suit donc la loi hypergéométrique
 a
de paramètres a + b, n, .
a+b
On retiendra que les tirages simultanés et les tirages successifs sans remise abou-
tissent à la même loi hypergéométrique.

Proposition 2.1.3. Toute variable aléatoire X qui suit la loi hypergéométrique de pa-
ramètres (N, n, p) admet une espérance et une variance

N −n
E(X) = np et V (X) = npq .
N −1

2.1.5 Loi géométrique ou de Pascal


Situation type

On considère une urne contenant un nombre fini de boules blanches et de boules noires
supposées indiscernables au toucher, la proportion des boules blanches dans l’urne étant p
et la proportion de boules noires q = 1 − p. On effectue une infinité de tirages d’une boule
dans l’urne, la boule tirée étant remise après chaque tirage. Les tirages sont numérotés
dans N∗ .
Soit X l’application qui, à tout élément de l’univers des possibles Ω, associe le nombre
de tirages nécessaires pour obtenir une boule blanche pour la première fois et 0 si tous
les tirages donnent une boule noire. On admet que l’univers Ω peut être muni d’une tribu
T qui contient pour tout n ∈ N l’événement An :  le n-ième tirage donne une boule

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


29
2.1. Lois usuelles discrètes

blanche  . On suppose que les résultats des différents tirages sont indépendants et donc
que (An ) est une suite d’événements indépendants. On a par hypothèse P (An ) = p et
donc P (An ) = 1 − p = q.
Pour tout entier k non nul, [X = k] = A1 ∩ A2 ∩ · · · ∩ Ak−1 ∩ Ak ∈ T et

P ([X = k]) = P (A1 )P (∩A2 ) · · · P (Ak−1 )P (Ak ) = pq k−1 .

On en déduit

+∞ +∞
X X p
P ([X = k]) = p qi = = 1,
k=1 i=0
1−q

car on reconnaı̂t la somme d’une série géométrique.


+∞
[
Cette somme représente la possibilité de [X = k] = [X = 0]. Ainsi, [X = 0] est un
k=1
événement de probabilité nulle. En négligeant cet événement, on peut considérer que X
est une variable aléatoire discrète à valeurs dans N∗ . La variable X est appelée le temps
d’attente de la première boule blanche.
On remarque que la variable Y = X − 1 représente le nombre de boules noires tirées avant
d’obtenir la première boule blanche.
Si on appelle succès le tirage d’un boule blanche, X est le temps d’attente du premier
succès et Y le nombre d’échecs avant le premier succès.
Les variables X et Y seront dites suivre une loi géométrique.

Définition 2.1.5.
Soit p ∈]0, 1[.
On dit qu’une variable aléatoire réelle discrète X suit la loi géométrique de paramètre
p à valeurs dans N∗ (temps d’attente du premier succès) si X(Ω) = N∗ et

∀k ∈ N∗ , P ([X = k]) = pq k−1 ,

où q = 1 − p.
On dit qu’une variable aléatoire réelle discrète Y suit la loi géométrique de paramètre
p à valeurs dans N (nombre d’échecs avant le premier succès) si Y (Ω) = N et

∀k ∈ N, P ([Y = k]) = pq k ,

où q = 1 − p.

La proposition  X (ou Y ) suit la loi géométrique de paramètre p  se note X ,→ G(p)


(ou Y ,→ G(p)).

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


30
2.1. Lois usuelles discrètes

Exemples 2.1.2.

1. On effectue une infinité de lancers d’une pièce de monnaie pour laquelle la probabilité
pile est p et la probabilité d’obtenir face est q = 1−p. On note X le rang d’apparition
du premier pile et Y = X − 1. On montre comme précédemment que l’événement
 on n’obtient que des faces  est de probabilité nulle et que X suit la loi géométrique
de paramètre p à valeurs dans N∗ , Y la loi géométrique à valeurs dans N.

2. Le même raisonnement vaut pour toute répétition d’une épreuve à deux issues
(succès et échec) pour laquelle la probabilité de succès est p, les résultats des
différentes épreuves étant indépendants. Le temps d’attente du premier succès et le
nombre d’échecs avant le premier succès suivent des lois géométriques de paramètre
p.

Proposition 2.1.4. Toute variable aléatoire X (resp. Y ) qui suit la loi géométrique de
paramètre p ∈]0, 1[ à valeurs dans N∗ (resp. N) admet une espérance et une variance,
respectivement égales à
1 q q q
E(X) = , V (X) = et E(Y ) = , V (Y ) = ,
p p2 p p2
où q = 1 − p.

Proposition 2.1.5. Si la variable aléatoire X suit la loi géométrique de paramètre p ∈


]0, 1[ à valeurs dans N∗ , on a, pour tout entier naturel k,

P ([X > k]) = q k .

Corollaire 2.1.1. Si la variable aléatoire X suit la loi géométrique de paramètre p ∈]0, 1[


à valeurs dans N∗ , on a, pour tout couple d’entiers naturels (k, l),

P ([X > k + l]) = P ([X > k])P ([X > l]).

Proposition 2.1.6. La fonction de répartition d’une variable X qui suit la loi géométrique
de paramètre p à valeurs dans N∗ est la fonction

 R −→ ([0, 1]


FX : 0 si x < 1
 x 7−→

k
1 − q si k 6 x < k + 1, k ∈ N∗ .

2.1.6 Loi binomiale négative


Définition 2.1.6. On dit que la variable aléatoire réelle discrète X définie sur l’espace
probabilisé (Ω, A, P ) suit une loi binomiale négative de paramètres (n, p), où n ∈ N∗

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


31
2.1. Lois usuelles discrètes

et p ∈]0, 1[ si X(Ω) = [0, n] et, pour tout k ∈ [0, n],


!
k−1 n−1 n k−n
P ([X = k]) = pn q k−n = Ck−1 p q ,
n−1

avec k, n ∈ N et k ≥ n. La proposition X suit la loi binomiale négative de paramètre


(n, p) se note X ,→ BN (n, p).

Modèle : Selon les conditions de Bernouilli (épreuves identiques et indépendantes), on


désire connaı̂tre la probabilité (d’attendre) de faire X = k épreuves indépendantes pour
avoir n succès.

Proposition 2.1.7. Toute variable aléatoire X de loi binômiale négative de paramètres


(n, p) admet une espérance et une variance données par
n 1−p
E(X) = et V (X) = n .
p p2

2.1.7 Loi de Poisson


Situation type

Il n’est pas possible de donner un modèle simple pour la loi de Poisson. Celle-ci apparaı̂t
comme une limite. En effet, si la variable aléatoire X suit une loi binomiale avec n grand
et p proche de 0, elle suit approximativement une loi de Poisson de paramètre λ = np.
On dit que la loi de Poisson est la loi des événements  rares .
Dans la pratique, on peut décrire par une loi de Poisson le nombre d’événements d’un
certain type se produisant dans une période de temps donnée, par exemple :
• le nombre de clients se présentant dans un magasin pendant une période T ;
• le nombre de véhicules franchissant un poste de péage pendant une période T ;
• le nombre d’appels reçus par un standard téléphonique pendant une période T .

Définition 2.1.7. On dit qu’une variable aléatoire réelle discrète X suit la loi de Pois-
son de paramètre λ, où λ > 0, si X(Ω) = N et

λk −λ
∀k ∈ N, P ([X = k]) = e .
k!
La proposition  X suit la loi de Poisson de paramètre λ  se note X ,→ P(λ).

Proposition 2.1.8. Toute variable aléatoire X qui suit la loi de Poisson de paramètre λ
admet une espérance et une variance, respectivement égales à

E(X) = λ etV (X) = λ.

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


32
2.2. Lois usuelles à densité

Sa fonction de répartition est donnée par




 R −→ [0, 1]


 0 si x < 0
 

FX : k
 x 7−→ X λi
si k 6 x < k + 1, k ∈ N.

 

i!
 

i=0

2.2 Lois usuelles à densité

2.2.1 Loi uniforme


La loi uniforme sur un segment est la plus simple de toutes les lois de variables aléatoires
à densité. Elle exprime le fait qu’un élément est choisi au hasard sur le segment.

Définition 2.2.1. Soient a et b deux réels tels que a < b. On dit qu’une variable aléatoire
1
X suit la loi uniforme sur [a, b] si elle admet pour densité la fonction f égale à
b−a
et nulle ailleurs. On note X ,→ U([a, b]).

1
Remarque 2.2.1. La fonction f peut s’écrire f = 1[a,b] où 1[a,b] est la fonction
b−a
indicatrice définie par 1[a,b] (x) = 1 si x ∈ [a, b] et 1[a,b] (x) = 0 sinon.

Théorème 2.1. Soit une variable aléatoire réelle X suivant une loi uniforme sur [a, b].

1. Sa fonction de répartition F est donnée par




 0 si x ∈] − ∞, a]
 x−a
F (x) = si x ∈ [a, b]

 b−a
1 si x ∈ [b, +∞[.

2. Cette variable admet des moments de tous les ordres, donnés par les égalités

bn+1 − an+1
mn (X) = .
(n + 1)(b − a)

3. L’espérance mathématique et la variance de cette variable aléatoire sont données


par
a+b (b − a)2
E(X) = et V (X) = .
2 12

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


33
2.2. Lois usuelles à densité

2.2.2 Loi exponentielle


La loi exponentielle intervient dans des problèmes de fiabilité (durée de vie de matériel,
durée de survie).

Définition 2.2.2. Soit λ un réel strictement positif. On dit qu’une variable aléatoire
réelle X suit la loi exponentielle de paramètre λ si elle admet pour densité la fonction
f nulle sur R∗− et définie, pour tout réel x > 0, par l’égalité

f (x) = λe−λx ,

et on note X ,→ E(λ).

La fonction f est définie pour tout réel x par f (x) = λe−λx 1R+ (x) .

Théorème 2.2. Soit X une variable aléatoire réelle suivant une loi exponentielle de
paramètre λ.
1. La fonction de répartition de cette variable aléatoire est donnée par
(
0 si x ∈] − ∞, 0]
F (x) = −λx
1−e si x ∈ [0, +∞[.

2. Cette variable aléatoire admet des moments de tous ordres, donnés pour tout n ∈ N,
par
n!
mn (X) =.
λn
3. L’espérance mathématique et la variance sont données par
1 1
E(X) = et V (X) = .
λ λ2
Corollaire 2.2.1. Si X suit la loi exponentielle de paramètre λ, on a pour tout x > 0,
sa fonction de survie donnée par

P ([X > x]) = e−λx .

Définition 2.2.3. On dit qu’une variable aléatoire réelle X d’un espace probabilisé (Ω, A, P )
est sans mémoire si elle est positive ou nulle et si, pour tout couple (x, y) de réels positifs
ou nuls, on dispose de l’égalité

P ([X > x + y]) = P ([X > x])P ([X > y]).

Théorème 2.3. Soit X une variable aléatoire positive ou nulle qui n’est pas la variable
certaine nulle. Alors X est sans mémoire si et seulement si elle est une variable aléatoire
à densité qui suit une loi exponentielle.

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


34
2.2. Lois usuelles à densité

2.2.3 La loi normale ou de Laplace-Gauss


C’est la loi à densité la plus complexe, mais aussi la plus importante sur les plans
théorique et pratique. C’est Laplace qui commença à l’étudier, mais c’est Gauss qui en fit
une étude rigoureuse et complète.

Définition 2.2.4. Soit m un réel et σ un réel strictement positif. On dit qu’une variable
aléatoire réelle X suit la loi normale de paramètre (m, σ 2 ) si elle admet pour densité la
fonction f définie pour tout réel x par l’égalité

1  (x − m)2 
f (x) = √ exp − ,
σ 2π 2σ 2

et on note X ,→ N (m, σ 2 ).

Remarques 2.2.1.

1. On peut constater que f (2m − x) = f (x), ce qui indique que le graphe de f est
symétrique par rapport à la droite verticale x = m.
2. L’expression (x − m)2 est minimum pour x = m, ce qui va correspondre à un
maximum pour f de valeur :
1
f (m) = √ .
σ 2π
3. Pour calculer facilement la dérivée, considérons :
√ 1
ln f (x) = − ln σ 2π − 2 (x − m).

D’où en dérivant :
f 0 (x) 1
= − 2 (x − m) et σ 2 f 0 (x) = (m − x)f (x).
f (x) σ

Et en dérivant à nouveau :

σ 2 f 00 (x) = −f (x) + (m − x)f 0 (x),

d’où on déduit :

σ 4 f 00 (x) = (m − x)2 f (x) − σ 2 f (x) = (m − x − σ)(m − x + σ)f (x),

donc f 00 s’annule en changeant de signe pour x = m − σ et x = m + σ, ce qui


correspond à deux points d’inflexion pour le graphe de f
4. Enfin, quand x devient infini, alors f (x) −→ 0, donc l’axe des abscisses est asymp-
tote au graphe.

Toutes ces remarques permettent de tracer le graphe en cloche de la densité f .

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


35
2.2. Lois usuelles à densité

Théorème 2.4. Soit X une variable aléatoire réelle suivant la loi normale de paramètre
(m, σ 2 ).

1. Cette variable aléatoire admet une espérance mathématique égale à m et une va-
riance égale à σ 2 .
2. La fonction de répartition de cette variable aléatoire vérifie, pour tout réel x, l’égalité
Z x
(t − m)2
 
1
F (x) = P ([X 6 x]) = √ exp − .
σ 2π −∞ 2σ 2

3. La variable aléatoire X admet des moments de tous ordres.

4. La variable aléatoire X admet une espérance mathématique égale à m et une va-


riance égale à σ 2 .

Loi normale centrée réduite

Nous admettons le résultat suivant :


Z +∞
t2 √
 
exp − dt = 2π.
−∞ 2

Définition 2.2.5. On dit qu’une variable aléatoire réelle X suit la loi normale centrée
réduite si elle admet pour densité la fonction f définie pour tout réel x par l’égalité
x2
 
1
f (x) = √ exp − ,
2π 2

et on note X ,→ N (0, 1).

On note Φ la fonction de répartition d’une variable aléatoire réelle suivant une loi normale
centrée réduite.

Proposition 2.2.1. La fonction de répartition de la variable normale centrée réduite


vérifie les propriétés suivantes :
x
t2
Z 
1
• pour tout réel x, Φ(x) = √ exp − dt ;
2π −∞ 2
1
• pour tout réel x, Φ(−x) = 1 − Φ(x) ; Φ(0) = ;
2
• pour tout x > 0, P (|X| 6 x) = 2Φ(x) − 1 et P (|X| > x) = 2(1 − Φ(x)).

La fonction Φ est strictement croissante sur R. Son graphe admet les droites
 d’équation
1
y = 0 et y = 1 comme asymptotes. Il est symétrique par rapport au point 0, . Cela
2
1 1
résulte de l’égalité (Φ(x) + Φ(−x)) = .
2 2

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


36
2.2. Lois usuelles à densité

Proposition 2.2.2. La variable aléatoire réelle X suit la loi normale de paramètre (m, σ 2 )
X −m
si et seulement si la variable Y = suit la loi normale centrée réduite.
σ
Grâce à cette proposition, les calculs sur les variables aléatoires gaussiennes (c’est-à-dire
suivant une loi normale) se ramènent à des calculs sur la loi normale centrée réduite.

Proposition 2.2.3. Utilisation de la loi normale centrée réduite


• Soient a, b, x ∈ R, avec a < b, et X ,→ N (m, σ 2 ). Alors
 
x−m
P (X 6 x) = Φ
σ
   
b−m b−m
P (a 6 X 6 b) = Φ −Φ
σ σ

• Pour tout x ∈ R,
Φ(−x) = 1 − Φ(x).

Les valeurs de Φ sont tabulées (uniquement pour les valeurs positives, ce qui est suffisant
en utilisant le deuxième item de cette proposition.

2.2.4 Loi log-normale


Définition 2.2.6. On dit qu’une variable aléatoire réelle positive X suit la loi log-
normale de paramètres m et σ > 0 si la variable aléatoire ln X suit une loi N (m, σ 2 ).
Elle admet donc pour densité de probabilité la fonction f définie pour tout réel x > 0 par
l’égalité
(ln x − m)2
 
1
f (x) = √ exp − ,
σx 2π 2σ 2

Proposition 2.2.4. Soit X une variable aléatoire réelle positive suivant une loi Log-
normale de paramètres m et σ > 0, alors
σ2 2 2
E(X) = em+ 2 et V (X) = (eσ − 1)e2m+σ .

2.2.5 Loi Gamma


En fiabilité, la loi Gamma permet de modéliser les temps de défaillance de matériels.

Définition 2.2.7. Une variable aléatoire réelle X suit une loi Gamma de paramètres
p > 0 et θ > 0 et on note X ,→ γ(p, θ), si c’est une variable aléatoire positive dont la
densité est de la forme :
θp −θx p−1
f (x) = e x , x > 0.
Γ(p)

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


37
2.3. Convergences et approximations

La fonction Γ est appelée fonction d’Euler et est définie pour tout p > 0 par :
Z +∞
Γ(p) = e−x xp−1 dx.
0

Parmi les nombreuses propriétés de la fonction Γ, on montre en intégrant par parties que
pour tout p > 1 :
Γ(p) = (p − 1)Γ(p − 1).

Donc, pour p entier strictement positif, on en déduit que :

Γ(p) = (p − 1)!

Théorème 2.5. Soit X une variable aléatoire réelle suivant une loi Gamma de pa-
ramètres positifs p et θ, alors son espérance mathématique et sa variance sont données
par
p p
E(X) = et V (X) = .
θ θ2

2.3 Convergences et approximations

2.3.1 Inégalité de Bienaymé-Tchebycheff


Théorème 2.6. Soit X une variable aléatoire discrète ou à densité, possédant une
espérance mathématique E(X) et une variance V (X), alors

V (X)
∀ε > 0, P (|X − E(X)| > ε) 6 .
ε2

La probabilité qu’une variable aléatoire s’écarte de plus de ε de sa valeur moyenne est


d’autant plus faible que sa variance est petite et que ε est grand.

De façon équivalente, on a :

V (X)
∀ε > 0, P (|X − E(X)| < ε) > 1 − .
ε2

2.3.2 Loi faible des grands nombres


Théorème 2.7. Soit (Xn ) une suite de variables aléatoires indépendantes et de même
loi, d’espérance mathématique m et de variance σ 2 positive. Soit
1
Zn = (X1 + X2 + · · · + Xn ).
n
Alors, pour tout ε > 0 :
σ2
P (|Zn − m| > ε) 6 .
nε2

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


38
2.3. Convergences et approximations

Il en résulte

lim P (|Zn − m| > ε) = 0 ; lim P (|Zn − m| < ε) = 1.


n→∞ n→∞

On dit alors que la suite de variables aléatoires (Zn ) converge en probabilité vers la
variable aléatoire certaine m.

De façon générale, on dit que la suite de variables aléatoires (Xn ) converge en probabilité
vers la variable aléatoire X si et seulement si :

∀ε > 0, lim P (|Xn − X| > ε) = 0.


n→∞

2.3.3 Convergence en loi



Théorème
  Soit λ > 0 fixé, et soit, pour tout n ∈ N , Xn est une variable aléatoire
2.8.
λ
de loi B n, . Alors
n

λk
∀k ∈ N, lim P (Xn = k) = e−λ .
n→∞ k!

On dit que la suite de variables aléatoires (Xn ) converge en loi vers une variable aléatoire
de Poisson P(λ).

Théorème 2.9. Centrale Limite


Soit (Xn ) une suite de variables aléatoires indépendantes et de même loi, d’espérance
mathématique m et de variance σ 2 positive.
Soit Sn∗ la variable centrée réduite associée à

Sn = X1 + X2 + · · · + Xn ,

alors (Sn∗ ) converge en loi vers X ∗ de loi normale centrée réduite.

KODIA Bernédy Nel c 2019 Chapitre 2. Lois univariées usuelles


? ? Chapitre Trois ? ?

Couples de variables aléatoires


réelles

Comme nous avons associé un nombre à une expérience aléatoire, dans certains cas
nous pouvons être amené à en associer plusieurs. Par exemple, le jet de deux dés distincts
ne peut être codé avec une seule valeur numérique. De même, à un individu d’une po-
pulation donnée, on peut associer son revenu et sa consommation. On est alors amené à
associer à de telles épreuves aléatoires deux, voire plusieurs valeurs numériques, au moyen
donc de plusieurs applications qui seront des variables aléatoires pouvant être regroupées
dans un vecteur, ce qui conduit à la généralisation en multidimensionnel de la notion de
variable aléatoire réelle : un vecteur aléatoire.
Dans ce chapitre, nous nous limiterons au cas bidimensionnel, celui d’un couple aléatoire,
en distinguant toujours les cas discret et continu.

3.1 Couples de variables aléatoires réelles discrètes

3.1.1 Lois associées à un couple de variables aléatoires discrètes


Définition 3.1.1. Soit (Ω, A) un espace probabilisable. On appelle couple de variables
aléatoires discrètes toute application
(
Ω −→ R2
Z :
ω 7−→ (X(ω), Y (ω)),

où X et Y sont des variables aléatoires discrètes sur (Ω, A). On note Z = (X, Y ) ce
couple de variables.

Remarque 3.1.1. Si Ω est fini, un couple de variables aléatoires discrètes est tout sim-
plement une application de Ω dans R2 .

39
40
3.1. Couples de variables aléatoires réelles discrètes

Exemple 3.1.1. On lance une infinité de fois une pièce de monnaie. On note X le rang
d’apparition du premier pile et Y le rang d’apparition du second pile. Alors (X, Y ) est un
couple de variables aléatoires discrètes.

Proposition 3.1.1.
Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On note X(Ω) = {xi , i ∈ I}
et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. Alors la famille d’événements
 
[X = xi ] ∩ [Y = yj ]
(i,j)∈I×J

est un système complet d’événements de (Ω, A) appelé système complet d’événements


associé au couple (X, Y ).

Remarque 3.1.2. Pour l’événement [X = xi ] ∩ [Y = yj ], on trouve aussi les notations


[X = xi , Y = yj ] ou [(X, Y ) = (xi , yj )]. Quelle que soit la notation adoptée, cet événement
est n o
ω ∈ Ω, X(ω) = xi et Y (ω) = yj .

3.1.2 Loi conjointe


Définition 3.1.2. Soit (X, Y ) un couple de variables aléatoires réelles discrètes dans
l’espace probabilisé (Ω, A, P ). L’application
(
X(Ω) × Y (Ω) −→ [0, 1]
P(X,Y ) :
(x, y) 7−→ P ([X = x] ∩ [Y = y])

est appelée loi du couple (X, Y ) ou loi conjointe des variables aléatoires X et Y .

Remarques 3.1.1.
• Si X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N, il
s’agit de déterminer la famille (pi,j )(i,j)∈I×J où pi,j = P ([X = xi ] ∩ [Y = yj ]).

• Si les variables X et Y sont finies, il existe des entiers naturels non nuls n et m
tels que X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }. La loi peut être représentée
par un tableau à double entrée, les lignes correspondant aux valeurs de X(Ω) et
les colonnes à celles de Y (Ω) : sur la i-ième ligne et la j-ième colonne, on place
P ([X = xi ] ∩ [Y = yj ]).

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


41
3.1. Couples de variables aléatoires réelles discrètes

Exemple 3.1.2. Dans une succession de pile ou face pour laquelle la probabilité d’obtenir
pile est p ∈]0, 1[ et la probabilité d’obtenir face est q = 1−p, on note X le rang d’apparition
du premier pile et Y le rang d’apparition du second pile. On a X(Ω) = N∗ et Y (Ω) =
|[2, ..., ∞|[. Soit (n, k) ∈ X(Ω) × Y (Ω).
• Si n > k, on a par définition de X et Y , P ([X = n] ∩ [Y = k]) = 0.
• Si n < k, l’événement [X = n] ∩ [Y = k] est réalisé si on obtient pile aux n-ième
et k-ième lancers, les tirages entre le premier et le k-ième différents de ces deux-là
donnant face. Les résultats des différents lancers étant indépendants, on obtient

P ([X = n] ∩ [Y = k]) = p2 q k−2 .

Proposition 3.1.2. Soit (X, Y ) un couple de variables aléatoires réelles discrètes de


l’espace probabilisé (Ω, A, P ).
• Si X et Y sont finies, avec X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }, on a alors
n m
! m n
!
X X X X
P ([X = xi ] ∩ [Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]) = 1.
i=1 j=1 j=1 i=1

• De même, si X(Ω) = {xi ∈ N} et Y (Ω) = {yj ∈ N}, on a


+∞ +∞
! +∞ +∞ !
X X X X
P ([X = xi ] ∩ [Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]) = 1.
i=0 j=0 j=0 i=0

Exemple 3.1.3. Considérons l’exemple de loi conjointe étudiée précédemment. On a


+∞ X
X +∞ +∞ X
X +∞
P ([X = n] ∩ [Y = k]) = p2 q k−2 .
n=1 k=1 n=1 k=1

En faisant le changement de variable j = k − n − 1, on obtient, pour tout k ∈ N∗ ,


+∞ +∞ +∞
X
2 k−2
X
2 j+n−1 2 n−1
X 1
pq = pq =p q q j = p2 q n−1 = pq n−1 .
k=n+1 j=0 j=0
1−q

On en déduit
+∞ X
+∞ +∞
X X p
P ([X = n] ∩ [Y = k]) = p q n−1 = = 1.
n=1 k=1 n=1
1−q

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


42
3.1. Couples de variables aléatoires réelles discrètes

3.1.3 Lois marginales


Définition 3.1.3. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes de
l’espace probabilisé (Ω, A, P ), la loi de X est appelée première loi marginale du couple
et celle de Y est appelée deuxième loi marginale du couple.

Théorème 3.1. Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On pose
X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On dispose
alors des égalités suivantes
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]),
j∈J
X
∀j ∈ J, P ([Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]).
i∈I

Remarques 3.1.2.
• Les sommes considérées sont finies ou infinies.
Si Y est finie, on pose Y (Ω) = {y1 , ..., ym } et on obtient
m
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]).
j=1

Si Y est discrète infinie, on prend I = N ou N∗ et on obtient


+∞
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]).
j=0

On peut faire la même chose pour la deuxième loi marginale.


• Si la loi conjointe est représentée sous la forme d’un tableau, pour obtenir la pro-
babilité P ([X = xi ]), il suffit de faire la somme des termes de la i-ième ligne ; pour
obtenir P ([Y = yj ]), on fait la somme des termes de la j-ième colonne.

Exemple 3.1.4. Déterminons les lois marginales du couple dont on a déterminé les lois
conjointes. Si X et Y représentent le rang d’apparition du premier et du deuxième pile
dans une suite infinie de lancers d’une pièce, on a obtenu, pour n ∈ N∗ et k > 2,
(
p2 q k−2 si n < k
P ([X = n] ∩ [Y = k]) =
0 si n > k.
On obtient, pour tout n ∈ N,
+∞
X +∞
X
P ([X = n]) = P ([X = n] ∩ [Y = k]) = p2 q k−2
k=n+1 k=n+1
+∞
X 1
p2 q n+j−1 = p2 q n−1 = pq n−1
k=n+1
1−q

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


43
3.1. Couples de variables aléatoires réelles discrètes

et, pour tout entier k > 2,


k−1
X k−1
X
P ([Y = k]) = P ([X = n] ∩ [Y = k]) = p2 q k−2 = (k − 1)p2 q k−2 .
n=1 n=1

On constate sans surprise que la variable aléatoire X suit une loi géométrique de pa-
ramètre p (temps d’attente du premier succès). La variable aléatoire Y , temps d’attente
du deuxième succès, suit la loi de Pascal de paramètre (2, p).

Remarque 3.1.3. La connaissance des lois marginales ne suffit pas à reconstituer la loi
conjointe d’un couple de variables aléatoires.

3.1.4 Lois conditionnelles


Définition 3.1.4. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes et tout
y de Y (Ω) tel que P ([Y = y]) 6= 0, l’application

X(Ω) −→ R
P ([X = x] ∩ [Y = y])
x 7−→ = P[Y =y] ([X = x])
P ([Y = y])

est appelée la loi conditionnelle à [Y = y] de X,


et pour tout x de X(Ω) tel que P ([X = x]) 6= 0, l’application

Y (Ω) −→ R
P ([X = x] ∩ [Y = y])
y 7−→ = P[X=x] ([X = x])
P ([X = x])

est appelée la loi conditionnelle à [X = x] de Y

Remarques 3.1.3.
• La première loi conditionnelle est la loi de la variable X dans l’espace probabilisable
(Ω, A, P[Y =y] ) où P[Y =y] est la probabilité conditionnelle à l’événement [Y = y]. De
même la seconde est la loi de Y dans l’espace probabilisable (Ω, A, P[X=x] ).
• Au lieu de loi conditionnelle à [Y = y], on dit aussi loi sachant [Y = y].

Exemple 3.1.5. Reprenons l’exemple précédent. Si X et Y représentent le rang d’appa-


rition du premier et du deuxième pile dans une suite infinie de lancers d’une pièce, on a
obtenu, pour n ∈ N∗ et k > 2,
(
p2 q k−2 si n < k
P ([X = n] ∩ [Y = k]) =
0 si n > k.

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


44
3.1. Couples de variables aléatoires réelles discrètes

P ([X = n]) = pq n−1 et P ([Y = k]) = (k − 1)p2 q k−2 .


On en déduit que, pour tout k > 2,

p2 q k−2 1
si n 6 k − 1


2 k−2
=
P[Y =k] ([X = n]) = (k − 1)p q k−1
 0

si n > k.

La loi conditionnelle à [Y = k] est la loi uniforme sur |[1; k − 1]|. Cela peut s’expliquer
ainsi : une fois [Y = k] réalisé, il y a dans les k − 1 premiers lancers exactement un pile
(puisque Y est le deuxième pile). La probabilité d’obtenir pile étant la même à tous les
lancers, il est réparti de manière équiprobable sur |[1; k − 1]|.
Pour tout n > 1, on a
 2 k−2
 pq = pq k−n−1 si k > n + 1
P[X=n] ([Y = k]) = pq n−1

0 si k 6 n.

On remarque que, pour j ∈ N∗ ,

P[X=n] ([Y − n = j]) = P[X=n] ([Y = n + j]) = pq j−1 .

La loi de Y − n conditionnelle à [X = n] est donc la loi géométrique de paramètre p. Une


fois l’événement [X = n] réalisé, Y − n représente le temps d’attente du premier pile (à
partir du (n + 1)-ième lancer).

Proposition 3.1.3. Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, A, P ).
On pose X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On
suppose que, pour tout (k, l) ∈ I × J, P ([X = xk ]) 6= 0 et P ([Y = yl ]) 6= 0. On a, pour
tout (i, j) ∈ I × J,

P ([X = xi ] ∩ [Y = yj ]) = P[Y =yj ] ([X = xi ])P ([Y = yj ])


= P[X=xi ] ([Y = yj ])P ([X = xi ],
X
P ([X = xi ]) = P[Y =yk ] ([X = xi ])P ([Y = yk ]),
k∈J
X
P ([Y = yj ]) = P[X=xl ] ([Y = yj ])P ([X = xl ]).
l∈I

3.1.5 Indépendance de deux variables aléatoires discrètes


Définition 3.1.5. Deux variables aléatoires réelles discrètes X et Y de l’espace probabilisé
(Ω, A, P ) sont dites indépendantes si

∀(x, y) ∈ X(Ω) × Y (Ω), P ([X = x] ∩ [Y = y]) = P ([X = x])P ([Y = y]).

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


45
3.1. Couples de variables aléatoires réelles discrètes

Remarque 3.1.4. Cela équivaut à l’indépendance des événements [X = x] et [Y = y]


pour tout couple (x, y) ∈ X(Ω) × Y (Ω).

Proposition 3.1.4. Soient X et Y deux variables aléatoires réelles discrètes sur l’espace
probabilisé (Ω, A, P ). Si les variables aléatoires X et Y sont indépendantes, alors pour
toute partie E de X(Ω) et de toute partie F de Y (Ω), les événements [X ∈ E] et [Y ∈ F ]
sont indépendants.

Proposition 3.1.5. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes de
l’espace probabilisé (Ω, A, P ), toute fonction f de X(Ω) à valeurs dans R et toute fonction
g de Y (Ω) à valeurs dans R, si les variables aléatoires réelles X et Y sont indépendantes,
alors f (X) et g(Y ) sont des variables aléatoires réelles discrètes indépendantes.

Exemple 3.1.6. Si X et Y sont deux variables aléatoires discrètes indépendantes, pour


tous entiers naturels non nuls m et n, les variables X m et Y n sont indépendantes.

3.1.6 Variable aléatoire fonction de deux variables aléatoires


Théorème 3.2. Loi d’une variable aléatoire fonction de deux variables aléatoires
Pour tout couple (X, Y ) de variables aléatoires réelles discrètes sur le même espace proba-
bilisé (Ω, A, P ) et toute fonction g définie sur X(Ω)×Y (Ω) à valeurs dans R, l’application
(
Ω −→ R
Z : 
ω 7−→ g X(ω), Y (ω)

est une variable aléatoire réelle discrète. Sa loi de probabilité est définie, pour tout z ∈
Z(Ω) par
X
P ([Z = z]) = P ([X = x] ∩ [Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z

En particulier, si les variables X et Y sont indépendantes, on obtient, pour tout z ∈ Z(Ω)

X
P ([Z = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z

Corollaire 3.1.1. Si X et Y sont deux variables aléatoires discrètes sur (Ω, A, P ),


indépendantes, on a, pour tout z ∈ (X + Y )(Ω),

X
P ([X + Y = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


46
3.2. Couples de variables aléatoires admettant une densité

Théorème 3.3. Espérance d’une variable aléatoire de deux variables aléatoires


Soient X et Y deux variables aléatoires réelles finies et g une fonction définie sur X(Ω) ×
Y (Ω). On note X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }, où n et m sont deux entiers
naturels non nuls. La variable aléatoire réelle discrète finie Z = g(X, Y ) admet alors une
espérance et

n X
X m
E(Z) = g(xi , yj )P ([X = xi ] ∩ [Y = yj ]).
i=1 j=1

3.2 Couples de variables aléatoires admettant une


densité

3.2.1 Lois associées à un couple de variables aléatoires à densité


Définition 3.2.1. Si (X, Y ) est un couple de variables aléatoires, la fonction F : R2 −→
R définie par
F (x, y) = P ([X 6 x] ∩ [Y 6 y])

est appelée fonction de répartition du couple (X, Y ) ou fonction de répartition


conjointe de X et Y .

Définition 3.2.2. Soit (X, Y ) un couple de variables aléatoires réelles définies sur un
espace probabilisé (Ω, A, P ), de fonction de répartition F . On dit que (X, Y ) possède une
densité s’il existe une fonction f : R2 7−→ R vérifiant :

1. f positive ou nulle ;
Z Z Z Z
2. l’intégrale double f (t, u)dtdu converge et f (t, u)dt du = 1 ;
R2 R2
telle que, pour tout réel (x, y) ∈ R2 ,
Z Z
F (x, y) = f (t, u)dt du.
]−∞,x]×]∞,y]

La fonction f est appelée une densité du couple (X, Y ) ou densité conjointe de X


et Y .

Z Z
2
Théorème 3.4. Soit f une fonction de R dans R positive ou nulle, telle que f (t, u)dt du =
R2
1. Alors il existe un espace probabilisé (Ω, A, P ) et un couple de variables aléatoires (X, Y ),
défini sur cet espace probabilisé, dont f est une densité.

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


47
3.2. Couples de variables aléatoires admettant une densité

Exemple 3.2.1. Soit f une fonction est définie par


(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon

La fonction f est positive, nulle en


Z dehors
Z de [0, 1]2 et continue sur ce produit de segments.
On en déduit la convergence de f (t, u)dt du et
R2
Z Z Z Z Z 1 Z 1
f (t, u)dt du = f (t, u)dt du = dt du = 1.
R2 [0,1]2 0 0

Donc f est la densité d’un couple (X, Y ) de variables aléatoires. On dit que (X, Y ) suit
la loi uniforme sur [0, 1]2 .

Proposition 3.2.1. Soit (X, Y ) un couple de variables aléatoires, de fonction de répartition


conjointe F et possédant une densité f . Si f est continue au voisinage de (x, y) (c’est-à-
dire sur une boule ouverte de centre (x, y)), on a

∂ 2F ∂ 2F
f (x, y) = (x, y) = (x, y).
∂x∂y ∂y∂x

Exemple 3.2.2. Examinons la fonction de répartition d’un couple suivant la loi uniforme
sur le carré [0, 1]2 dont la densité a été introduite précédemment. Les variables aléatoires
X et Y sont à valeurs dans [0, 1], donc F (x, y) = P ([X 6 x] ∩ [Y = y]) = 0 si x < 0 ou
y < 0.
Si (x, y] ∈ [0, 1]2 , on a
Z Z Z Z Z x Z y
F (x, y) = f (u, v)du dv = du dv = du dv = xy.
[0,1]×[0,1] [0,1]×[0,1] 0 0

Si x ∈ [0, 1] et y > 1, [Y 6 y] = Ω, F (x, y) = P ([X 6 x]) = x ; le cas x > 1 et y ∈ [0, 1]


est identique.
Enfin si x > 1 et y > 1, alors F (x, y) = 1.
On vérifie que F est de classe C 2 sur R2 privé des côtés du carré [0, 1]2 et que sur cet
∂ 2F
ensemble, f = .
∂x∂y

Théorème 3.5. Probabilité de [(x, Y ) ∈ D] où D est un domaine de R2


Soit (X, Y ) un couple de variables aléatoires de fonction de répartition conjointe F ,
possédant une densité f . Pour tous intervalles I et J de R, on a
Z Z
P ([X ∈ I] ∩ [Y ∈ J]) = P ([(X, Y ) ∈ I × I × J]) = f (x, y)dx dy.
I×J

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


48
3.2. Couples de variables aléatoires admettant une densité

On obtient en particulier, si I = [a, b] et J = [c, d], où a, b, c, d sont des réels tels que
a < b et c < d,
Z b Z d 
P ([a 6 X 6 b] ∩ [c 6 Y 6 d]) = f (x, y)dy dx.
a c

Plus généralement si D est un domaine élémentaire, éventuellement non borné, on obtient


Z Z
P ([(X, Y ) ∈ D]) = f (x, y)dx dy.
D

Théorème 3.6. Densités marginales


Si (X, Y ) est un couple de variables aléatoires possédant une densité f , les variables X et
Y sont des variables aléatoires à densité, dont une densité est définie respectivement par
Z +∞ Z +∞
∀x ∈ R, fX (x) = f (x, y)dy et fY (y) = f (x, y)dx.
−∞ −∞

Définition 3.2.3. Si (X, Y ) est un couple de variables aléatoires possédant une densité,
les densités des variables X et Y sont appelées les densités marginales du couple.

Exemple 3.2.3. Reconsidérons la f fonction est définie par


(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon

Si x ∈/ [0, 1], on a f (x, y) = 0 pour tout réel y et donc fX (x) = 0. Si x ∈ [0, 1], on obtient
R1
f (x, y) = 1 si y ∈ [0, 1] et f (x, y) = 0 sinon. On en déduit que fX (x) = 0 dy = 1. On
reconnaı̂t la densité de la loi uniforme sur [0, 1]. Ainsi X ,→ U([0, 1]). On démontre qu’il
en est de même de Y .

Théorème 3.7. Densités conditionnelles


Soit (X, Y ) un couple de variables aléatoires définies sur un espace probabilisé (Ω, A, P ),
possédant une densité f , X et fY les densités marginales. Pour tout réel x tel que fX (x) >
0, la fonction fY /[X=x] définie par

f (x, y)
fY /[X=x] =
fX (x)

est la densité d’une variable aléatoire, appelée densité de Y conditionnelle à [X = x].


On dit aussi que c’est la densité de la loi de Y conditionnelle à [X = x].

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


49
3.2. Couples de variables aléatoires admettant une densité

De même, pour tout réel y tel que fY (y) > 0, la fonction fX/[Y =y] définie par
f (x, y)
fX/[Y =y] =
fY (y)
est la densité d’une variable aléatoire, appelée densité de X conditionnelle à [Y = y]. On
dit aussi que c’est la densité de la loi de X conditionnelle à [Y = y].

Exemple 3.2.4. Reprenons la fonction f qui est définie par


(
1 si (x, y) ∈ [0, 1]2
f (x, y) =
0 sinon.

On a fX (x) = 1 si x ∈ [0, 1] et fX (x) = 0 sinon. On obtient, pour x ∈ [0, 1],


(
f (x, y) 1 si x ∈ [0, 1]
fY /[X=x] = =
fX (x) 0 sinon

La loi conditionnelle à [X = x] est pour tout x ∈ [0, 1], la loi uniforme sur [0, 1]. On
obtient le même résultat pour la loi de X conditionnelle à [Y = y].

Théorème 3.8. Densité d’un couple de variables indépendantes


Soient X et Y deux variables aléatoires à densité définies sur le même espace probabilisé,
de fonction de répartition conjointe F . Il y a équivalence entre :
i. les variables X et Y sont indépendantes ;
ii. pour tout (x, y) ∈ R2 , F (x, y) = FX (x)FY (y) ;
iii. la fonction (x, y) 7−→ fX (x)fY (y) est une densité du couple (X, Y ).

Exemple 3.2.5. Si (X, Y ) suit une loi uniforme sur [0, 1]2 , X et Y suivent des lois
uniformes sur [0, 1]. On a, pour (x, y) ∈ [0, 1]2 , f (x, y) = fX (x) = fY (y) = 1 et donc
/ [0, 1]2 , car alors f (x, y) = 0 et soit
f (x, y) = fX (x)fY (y). Cela reste vrai si (x, y) ∈
fX (x) = 0, soit fY (y) = 0. Les variables X et Y sont donc indépendantes.

3.2.2 Variables aléatoires fonctions d’un couple de variables à


densité
Définition 3.2.4. Somme de variables aléatoires indépendantes
Soient f et g deux densités de probabilité sur R. On appelle produit de convolution
des fonctions f et g la fonction h définie par
Z +∞
∀z ∈ R, h(z) = f (x)g(z − x)dx
−∞

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


50
3.3. Covariance et coefficient de corrélation linéaire

Théorème 3.9. Si X et Y sont deux variables aléatoires indépendantes de densité fX


et fY , la somme Z = X + Y est une variable à densité dont une densité est donnée par
le produit de convolution de fX et fY . On a donc, pour tout z ∈ R
Z +∞
fZ (z) = fX (x)fY (z − x)dx.
−∞

Exemple 3.2.6. Soient X et Y deux variables aléatoires indépendantes, suivant la loi


uniforme sur [0, 1]. Déterminons une densité de Z = X + Y .
Comme X et Y sont à valeurs dans [0, 1], la
Z variable Z est à valeurs dans [0, 2] et fZ (z) = 0
z
si z ∈
/ [0, 2]. Si z ∈ [0, 2], on obtient fX (x)fY (z − x)dx en utilisant le théorème
0
précédent.
Rz Rz
Si z 6 1, on a fZ (x) = fY (z − x)dx = 0 dx = z.
0
R1 R1
Si 1 < z 6 2, on a fZ (x) = 0 fY (z − x)dx = z−1 dx = 2 − z, car fY (z − x) = 0 si
z − x > 1, c’est-à-dire x < z − 1.

Théorème 3.10. Stabilité de la loi normale


Soient X et Y deux variables aléatoires définies sur le même espace probabilisé, indépendantes,
suivant des lois normales de paramètres respectifs (m, σ 2 ) et (m0 , σ 02 ). Alors Z = X + Y
suit la loi normale de paramètre (m + m0 , σ 2 + σ 02 ).

Théorème 3.11. Espérance d’une variable aléatoire fonction d’un couple de


variables aléatoires à densité
Soit (X, Y ) un couple de variables aléatoires possédant une densité f et g une application
définie sur un ensemble D contenant (X, Y )(Ω). La variable aléatoire g(X, Y ) admet une
RR
espérance si et seulement si l’intégrale R2
g(x, y)dx dy converge. Cette espérance est
alors donnée par Z Z
E(g(X, Y )) = g(x, y)dx dy.
R2

3.3 Covariance et coefficient de corrélation linéaire

3.3.1 Covariance
Définition 3.3.1. Soient X et Y deux variables aléatoires réelles (discrètes ou admettant
une densité) admettant une espérance. Si la variable (X − E(X))(Y − E(Y )) admet une
espérance, on appelle covariance de X et Y (ou du couple (X, Y )) le réel noté Cov(X, Y )
défini par  
Cov(X, Y ) = E (X − E(X))(Y − E(Y )) .

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


51
3.3. Covariance et coefficient de corrélation linéaire

Remarque 3.3.1. La covariance de X et Y est donc l’espérance du produit des variables


centrées associées à X et Y .

Théorème 3.12. (Théorème de Kœnig-Huygens)


Soient X et Y des variables aléatoires réelles sur le même espace probabilisé (Ω, A, P ).
Si les variables X, Y et XY admettent une espérance, alors le couple (X, Y ) admet une
covariance donnée par la formule

Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Théorème 3.13. Si X, X 0 , Y et Y 0 sont des variables admettant des moments d’ordre


2 et λ un réel, on a
• Cov(X, X) = V (X) ;
• Cov(X, Y ) = Cov(Y, X) ;
• Cov(X + X 0 , Y ) = Cov(X, Y ) + Cov(X 0 , Y ) ;
• Cov(X, Y + Y 0 ) = Cov(X, Y ) + Cov(X, Y 0 ) ;
• Cov(λX, Y ) = λCov(X, Y ) et Cov(X, λY ) = λCov(X, Y )
Autrement dit, les applications X 7−→ Cov(X, Y ) et Y 7−→ Cov(X, Y ) sont linéaires.

Théorème 3.14.
• Pour tout couple discret (X, Y ) de variables aléatoires réelles admettant un moment
d’ordre 2, la variable aléatoire réelle discrète X + Y admet une variance égale à

V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).

• Plus généralement, pour toute famille finie (X1 , ..., Xn ) de n variables aléatoires
réelles admettant un moment d’ordre 2, la variable aléatoire réelle X1 +X2 +· · ·+Xn
admet une variance
n
X X
V (X1 + X2 + · · · + Xn ) = V (Xk ) + 2 Cov(Xi , Xj ).
k=1 16i<j6n

Théorème 3.15. Si X et Y sont deux variables aléatoires discrètes, possédant un mo-


ment d’ordre 2, on a
|Cov(X, Y )| 6 σ(X)σ(Y ).

Si σ(X) 6= 0, on obtient une égalité dans l’inégalité précédente, c’est-à-dire Cov(X, Y ) =


±σ(X)σ(Y ) si et seulement s’il existe (a, b) ∈ R2 tel que Y = aX + b presque sûrement.

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


52
3.3. Covariance et coefficient de corrélation linéaire

3.3.2 Coefficient de corrélation linéaire


Définition 3.3.2. Soient X et Y des variables aléatoires réelles admettant chacune une
variance non nulle. On appelle coefficient de corrélation linéaire de X et Y le nombre réel

Cov(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )

Théorème 3.16. Pour tout couple (X, Y ) de variables aléatoires réelles admettant un
coefficient de corrélation linéaire, on dispose des inégalités

−1 6 ρ(X, Y ) 6 1.

On obtient une égalité dans les inégalités précédentes, c’est-à-dire ρ(X, Y ) = ±1 si et


seulement s’il existe (a, b) ∈ R2 tel que Y = aX + b presque sûrement, c’est-à-dire tel que
P ([Y = aX + b]) = 1.

Théorème 3.17. Cas des variables aléatoires indépendantes


Soient X et Y deux variables aléatoires réelles indépendantes admettant un moment
d’ordre 2, sur le même espace probabilisé (Ω, A, P ). On alors
• E(XY ) = E(X)E(Y ) ;
• Cov(X, Y ) = 0 ;
• V (X + Y ) = V (X) + V (Y ).

Définition 3.3.3. Si deux variables aléatoires réelles sur le même espace probabilisé
vérifient Cov(X, Y ) = 0, on dit qu’elles sont non corrélées.

Proposition 3.3.1. Deux variables aléatoires réelles indépendantes sont non corrélées.

Remarque 3.3.2. La réciproque est fausse. Deux variables aléatoires non corrélées ne
sont pas nécessairement indépendantes.

KODIA Bernédy Nel c 2019 Chapitre 3. Couples de variables aléatoires réelles


? ? Chapitre Quatre ? ?

Échantillonnage et estimation

Face à un phénomène aléatoire numérique, on cherche à connaı̂tre autant que possible


la loi qui le régit et les valeurs des paramètres dont elle peut dépendre.
Or ce phénomène n’est en général accessible que par les réalisations de la variable
aléatoire X qui le décrit. C’est donc par l’intermédiaire de plusieurs réalisations de cette
variable aléatoire que l’on cherche à déterminer, éventuellement de manière approchée (on
dit estimer ) la loi de la variable X et ses paramètres éventuels. Lorsque l’on envisage ainsi
n réalisations successives de la variable X, ont dit que l’on a réalisé un échantillon de
taille n (ou un n-échantillon) de la variable X. Il est alors d’usage de considérer que ces
n réalisations successives de la même variable aléatoire X constituent une seule et même
réalisation du vecteur aléatoire (X1 , X2 , ..., Xn ), où les Xi sont des variables aléatoires de
même loi (et de même paramètre) que X. On dit que X est la loi parente de l’échantillon
envisagé.
Il existe de nombreuses façons de constituer des échantillons. Dans ce chapitre, nous
n’envisagerons que le cas d’un échantillon aléatoire simple, où les variables Xi sont mu-
tuellement indépendantes. Pour rappeler qu’un échantillon (X1 , X2 , ..., Xn ) est constitué
de variables aléatoires Xi mutuellement indépendantes et de même loi (avec le même
paramètre), on parlera d’échantillon iid (indépendant et identiquement distribué). La
constitution d’échantillons plus compliqués, et plus sophistiqués, est par exemple envi-
sagée dans la théorie des sondages.
Il arrive souvent, et c’est le seul cas envisagé dans ce chapitre, que la forme de la loi
parente X soit connue, et que l’on cherche seulement à en déterminer certains paramètres.
On parle alors d’estimation paramétrique.

53
54
4.1. Échantillons d’une loi de probabilité

4.1 Échantillons d’une loi de probabilité

4.1.1 Définitions
Définition 4.1.1. Soit L une loi de probabilité sur un espace probabilisé (Ω, A, P ).
On appelle échantillon de taille n (ou n-échantillon) de la loi L, une suite En =
(X1 , X2 , ..., Xn ) de n variables aléatoires Xi suivant toute la loi L.
La loi L est la loi parente de l’échantillon.

Remarques 4.1.1.
• La donnée de la suite finie (X1 , X2 , ..., Xn ) équivaut naturellement à la donnée du
vecteur aléatoire (X1 , X2 , ..., Xn ).
La variable aléatoire Xi se déduit donc de l’échantillon par projection sur le i-ième
vecteur de la base canonique de Rn .
• Pour tout possible ω de la tribu A, la réalisation

(X1 (ω), X2 (ω), ..., Xn (ω)) = (x1 , x2 , ..., xn )

est un élément de Rn , et c’est un élément que l’on appelle souvent échantillon.


Pour éviter les confusions, le vecteur aléatoire est parfois appelé échantillon
aléatoire, (x1 , x2 , ..., xn ) étant un échantillon observé.

4.1.2 Statistiques sur un échantillon


Définition 4.1.2. Soit En = (X1 , X2 , ..., Xn ) un n-échantillon d’une loi de probabilité L.
On appelle statistique sur En toute variable aléatoire Y = ϕ(X1 , X2 , ..., Xn ) où ϕn est une
application de Rn dans R telle que Y soit une variable aléatoire.

Remarque 4.1.1. Une statistique sur En est une variable aléatoire définie sur le même
espace probabilisé (Ω, A, P ) que la loi parente L de l’échantillon En .

Exemple 4.1.1. Le résultat du lancer d’un dé supposé bien équilibré, est régit par la
loi uniforme discrète sur |[1, 6]|. En lançant le dé 100 fois, on réalise un 100-échantillon
E100 = (X1 , X2 , ..., X100 ) de cette loi. Si l’on cherche à illustrer la loi des grands nombres,
on est conduit à calculer la moyenne des résultats obtenus, c’est-à-dire à étudier la variable
100
1 X
aléatoire Y = Xk .
100 k=1
Cette statistique s’appelle la moyenne empirique de l’échantillon E100 .

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


55
4.1. Échantillons d’une loi de probabilité

4.1.3 Statistiques empiriques


Soit L une loi de probabilité, et soit F la fonction de répartition d’une variable aléatoire
X suivant la loi L. Les valeurs typiques des paramètres usuels de la loi L tels que
l’espérance et la variance, diffèrent des valeurs obtenues en utilisant un n-échantillon
En = (X1 , X2 , ..., Xn ) de la loi L, qui sont qualifiées d’empiriques (car obtenues à partir
de réalisations de l’échantillon).

Définition 4.1.3. Fonction de répartition empirique Soit En = (X1 , X2 , ..., Xn ) un


n-échantillon d’une loi L. La statistique Fn définie pour tout x réel par
n
1X
Fn (x) = 1]−∞,x] (Xk )
n k=1

porte le nom de fonction de répartition empirique de la loi L associée à l’échantillon


En .

Remarques 4.1.2.
• Une fonction de répartition d’échantillon est une statistique qui dépend du réel x.
Ce n’est pas une fonction de répartition au sens usuel du terme. En effet, pour un
x fixé, Fn (x) est une variable aléatoire.
• La variable aléatoire Fn (x) représente le pourcentage (aléatoire) des valeurs prises
par les variables aléatoires composant l’échantillon et qui sont inférieures ou égales
à x.
• On peut dire que Fn (x) est une variable aléatoire dont chaque réalisation est une
1
fonction en escalier dont les sauts sont des multiples de .
n

Théorème 4.1. Pour tout réel x, la suite de variables aléatoires Fn (x) converge en
probabilité (donc en loi) vers la variable aléatoire constante égale à F (x)

∀x ∈ R, Fn (x) −→ F (x).
P

Remarque 4.1.2. Ce théorème, ainsi que ce que ceux évoqués à la première remarque,
constituent l’argument fondamental qui justifie l’utilisation d’échantillons statistiques.

Définition 4.1.4. Moyenne empirique


Soit En = (X1 , X2 , ..., Xn un n-échantillon d’une loi L. La statistique X n définie par
n
1X
Xn = Xk
n k=1

porte le nom de moyenne empirique de la loi L associée à l’échantillon En .

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


56
4.2. Estimateurs

Théorème 4.2. Soit X n la moyenne empirique associée à un n-échantillon iid d’une


σ2
loi L d’espérance m et de variance σ 2 . Alors E(X n ) = m et V (X n ) = .
n

Comportement asymptotique de la moyenne empirique

Théorème 4.3. La moyenne empirique X n associée à un n-échantillon iid d’une loi L


d’espérance m converge en probabilité vers la variable certaine égale à m

X n −→ m.
P

Théorème 4.4. Soit X n la moyenne empirique associée à un n-échantillon iid d’une


loi L d’espérance m et de variance σ 2 . Alors la variable centrée réduite associée à X n
converge en loi vers une variable normale centrée réduite

√ Xn − m
n −→ Y, avec Y ,→ N (0, 1).
σ L

Définition 4.1.5. Variance empirique


Soit En = (X1 , X2 , ..., Xn ) un n-échantillon d’une loi L. La statistique Sn2 définie par
n
1X
Sn2 = (Xk − Xn )2
n k=1

porte le nom de variance empirique de la loi L associée à l’échantillon En .

Théorème 4.5. Soit Sn2 la variance empirique associée à un n-échantillon iid d’une loi
n−1 2
L d’espérance m et de variance σ 2 . Alors E(Sn2 ) = σ .
n

4.2 Estimateurs

4.2.1 Position du problème


Dans la première partie de ce chapitre, nous avons étudié des échantillons issus d’une
variable aléatoire dont la loi était bien déterminée. Nous nous intéressons maintenant au
cas où l’on est en présence d’une loi de probabilité dont certains paramètres sont inconnus.
La situation de référence est celle où l’on se trouve en face d’un phénomène dont les
manifestations consistent en des résultats de mesures que l’on est incapable de prévoir.
On fait alors le postulat suivant : les résultats observés sont des réalisations d’une
variable aléatoire.

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


57
4.2. Estimateurs

La loi de cette variable aléatoire X est inconnue. Le travail du statisticien consiste alors,
à partir d’un échantillon de cette loi inconnue, à rechercher quelle loi théorique on peut
retenir comme loi parente de l’échantillon.
Dans la grande majorité des cas, on suppose que l’échantillonnage a été effectué de manière
indépendante, et que les résultats successifs sont des réalisations de variables aléatoires
suivant la même loi, de telle manière que l’échantillon obtenu soit un échantillon iid. On
dit alors parfois que l’on est dans les conditions d’échantillonnage aléatoire simple.
Dans certains cas, on ne connaı̂t rien à priori sur la loi de X. Mais souvent, des considé-
rations sur les conditions de l’expérimentation permettent de préciser que la loi cherchée
appartient à une certaine famille (µθ )θ∈Θ de lois µθ dépendant d’un paramètre θ réel ou
vectoriel, dont on sait qu’il appartient à un certain ensemble Θ. C’est ce seul cas que nous
envisageons dans ce chapitre. La loi que l’on cherche à évaluer est ainsi définie par son pa-
ramètre θ0 . On dit que l’on est en présence d’un problème d’estimation paramétrique,
et nous supposons qu’à deux valeurs distinctes du paramètre, correspondent deux lois dis-
tinctes µθ et µθ0 .
Pour résumer, c’est à partir des réalisations d’un échantillon aléatoire que l’on doit évaluer
(on dit aussi estimer) la valeur de θ0 du paramètre θ (réel ou vectoriel), qui permet de
définir sans ambiguı̈té la loi µθ0 qui sera le meilleur choix possible comme loi parente de
l’échantillon dans la famille (µθ )θ∈Θ .

4.2.2 Définitions
Définition 4.2.1. Soit g une fonction de Θ dans R ; et soit En = (X1 , X2 , ..., Xn )
un n-échantillon d’un loi µθ . On appelle estimateur de g(θ0 ) toute statistique ϕn sur
l’échantillon En prenant ses valeurs dans l’ensemble g(Θ) des valeurs possibles pour g(θ).

L’estimateur Tn est donc la variable aléatoire Tn = ϕ(X1 , X2 , ..., Xn ).

L’estimateur est une variable aléatoire dépendant de (X1 , X2 , ..., Xn ). Comme les Xi
suivent tous la loi µθ , l’estimateur Tn est une variable aléatoire dépendant de θ.
Les valeurs observées grâce auxquelles on cherchera à évaluer g(θ0 ) sont des réalisations
de cette variable aléatoire.

Définition 4.2.2. Soit Tn = ϕ(X1 , X2 , ..., Xn ) un estimateur de g(θ0 ). Une estimation


de g(θ0 ) est une réalisation ϕ(x1 , x2 , ..., xn ) de Tn où (x1 , x2 , ..., xn ) est une réalisation de
l’échantillon aléatoire observé (X1 , X2 , ..., Xn ).

Exemple 4.2.1. On considère un dé dont on sait qu’il est pipé ou non. On lance le dé
n fois. Au k−ième jet du dé, on associe la variable aléatoire Xk qui prend la valeur 1

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


58
4.2. Estimateurs

si le résultat obtenu est 6, et 0 dans les autres cas. Les variables Xk suivent une loi de
Bernouilli de paramètre p dont (X1 , X2 , ..., Xn ) est un n-échantillon. Ici, on prend θ = p
et Θ = [0, 1].
1
La variable aléatoire Tn = (X1 + X2 + · · · + Xn ) (c’est la moyenne empirique de
n
l’échantillon) prend ses valeurs dans [0, 1]. C’est l’estimateur le plus naturel de p (= θ).
On peut envisager bien d’autres estimateurs de p. Par exemple
n n−1
2 X X
Un = kXk et Vn = Xk Xk−1
n(n + 1) k=1 k=1

sont aussi des estimateurs de p. En l’absence d’autres indications, on se demande pourquoi


on pourrait les envisager, mais ils existent, comme beaucoup d’autres.

4.2.3 Biais d’un estimateur


Pour construire un estimateur permettant d’obtenir des évaluations de bonne qualité du
paramètre étudié, pour choisir entre deux estimateurs, il faut se donner des critères de
qualité pour un estimateur. Si l’on veut estimer g(θ) par les valeurs prises par la variable
aléatoire Tn , il faut que ces valeurs ne s’éloignent pas trop de g(θ).
Un estimateur étant une variable aléatoire, et l’espérance d’une variable aléatoire étant
(lorsqu’elle existe) la principale caractéristique de tendance centrale, c’est tout naturelle-
ment que l’on s’intéressera à la différence entre l’espérance de cet estimateur et la vraie
valeur du réel g(θ0 ) (vraie valeur naturellement inconnue) que l’on cherche à évaluer.

Définition 4.2.3. Soit Tn un estimateur de g(θ). Si Tn admet une espérance pour tout
θ, on appelle biais de Tn le réel

bTn (θ) = Eθ (Tn ) − g(θ).

Remarque 4.2.1.
• Rappelons que la variable aléatoire Tn dépend a priori de θ, et que, par conséquent
son espérance dépend de θ. C’est ainsi que cette espérance peut se noter parfois
Eθ (Tn ).
• Le biais d’un estimateur peut être positif ou négatif. Il est clair que l’on cherchera à
obtenir un estimateur admettant un biais le plus faible possible (en valeur absolue),
l’idéal étant un biais nul.
• Il arrive que l’on parle du biais de Tn en θ.
• La valeur importante du biais est bien entendu bTn (θ0 ), qui est inconnue. Si l’on
remplace ce paramètre par l’estimation qu’on en a faite, on obtient une vraie valeur
approchée du biais, si bTn est une fonction continue.

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


59
4.2. Estimateurs

Définition 4.2.4. La variable aléatoire Tn est un estimateur sans biais de g(θ) si


bTn (θ) = 0, c’est-à-dire si Eθ (Tn ) = g(θ).

Exemples 4.2.1.
n
1X
1. Soit m l’espérance de la loi parente de l’échantillon, et considérons X n = Xk
n k=1
(moyenne empirique de l’échantillon) comme un estimateur de m. Les résultats
obtenus dans la première partie de ce chapitre permettent de conclure que X n est
un estimateur sans biais de m.
2. La variance empirique Sn2 n’est pas un estimateur sans biais de la variance σ 2 de
n−1 2
la loi parente. En effet, on a obtenu l’égalité E(Sn2 ) = σ . Le biais de la
n
2
variance empirique, en tant qu’estimateur de la la variance σ est donc bTn (θ) =
n−1 2 σ2
σ − σ2 = − .
n n

Remarques 4.2.1.
• On donne souvent le bias en valeur absolue.
• La lettre qui désigne le paramètre à estimer peut désigner tour à tour un élément
quelconque de l’ensemble des paramètres, ou la vraie valeur que l’on cherche à
estimer. Lorsque nous voulons insister sur le fait que l’on veut parler de la vraie
valeur, nous la notons avec l’indice 0.
• Lorsqu’il n’est pas nul, le biais d’un estimateur dépend en général de n et l’impor-
tant est d’étudier son comportement lorsque n tend vers l’infini.

4.2.4 Risque quadratique d’un estimateur


La qualité d’un estimateur ne dépend pas seulement de la proximité de son espérance avec
la vraie valeur du paramètre à estimer, mais aussi de la dispersion des valeurs qu’il prend
autour de cette valeur à estimer.

Définition 4.2.5. Soit Tn un estimateur de g(θ). Si Tn admet un moment d’ordre 2 pour


tout θ, on appelle risque quadratique ou erreur quadratique moyenne de Tn le réel
 2 
rTn (θ) = Eθ Tn − g(θ) .

Théorème 4.6. Le risque quadratique d’un estimateur est la somme de sa variance et


du carré de son biais, c’est-à-dire que
 2   2
rTn (θ) = Eθ Tn − g(θ) = Vθ (Tn ) + bTn (θ) .

Ainsi, quand un estimateur est sans biais, son risque quadratique est égal à sa variance.

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


60
4.3. Suite d’estimateurs

Exemple 4.2.2. On suppose que X, la loi parente d’échantillon suit une loi de Bernouilli
n
1X
de paramètre p. Considérons X n = Xk comme un estimateur de p. Les résultats
n k=1
obtenus plus haut permettent de conclure que le risque quadratique de l’estimateur X n
p(1 − p)
est sa variance, c’est-à-dire .
n

Remarques 4.2.2.
• L’erreur quadratique moyenne (risque quadratique) d’un estimateur dépend du
paramètre à estimer, qui est inconnu. Pour en donner une valeur numérique ap-
prochée, on remplace ce paramètre par l’estimation qu’on en a fait. Il dépend aussi
de n, et l’important est d’étudier son comportement quand n tend vers l’infini.
• Il ne faut pas croire que, entre deux estimateurs, il faille systématiquement choisir
celui dont le biais est le plus petit (en valeur absolue), éventuellement en priorité
celui qui serait sans biais.
En réalité, on est parfois conduit à préférer un estimateur biaisé, mais dont les
valeurs sont très regroupées autour de la valeur moyenne, ce qui se traduit par une
variance faible. C’est pourquoi l’erreur quadratique moyenne tient compte de la
variance et du carré du biais.

Définition 4.2.6. Soient Tn1 et Tn2 deux estimateurs de g(θ). L’estimateur Tn1 est relati-
vement plus efficace que l’estimateur Tn2 s’il est plus précis que le second, c’est-à-dire
si :
rTn1 (θ) 6 rTn2 (θ).

4.3 Suite d’estimateurs

4.3.1 Généralités
De façon générale, un estimateur dépend non seulement des valeurs possibles du paramètre
à estimer, mais aussi du nombre n de variables aléatoires figurant dans l’échantillon. Sauf
cas très particulier, on définit donc, non un estimateur seul, mais une suite d’estima-
teurs. C’est la raison pour laquelle, dans la pratique, on désignera de la même façon un
estimateur, et la suite d’estimateurs qui lui est associée.
La loi des grands nombres, et plus généralement les propriétés de convergence, nous
laissent entendre que souvent, plus n est grand, meilleure est l’approximation.

Définition 4.3.1. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est asymptotiquement
sans biais si, pour tout θ de Θ, lim Eθ (Tn ) = g(θ).
n→∞

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


61
4.4. Estimation par intervalles de confiance

On dit aussi que l’estimateur Tn est asymptotiquement sans biais.

Définition 4.3.2. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est convergente si, pour
tout θ de Θ, la suite (Tn )n∈N∗ converge en probabilité vers la variable certaine g(θ), c’est-
à-dire si
∀ε ∈ R∗+ , lim Pθ (|Tn − g(θ)| > ε) = 0.
n→∞

On dit aussi que l’estimateur Tn est convergent (ou consistant).

4.3.2 Convergence et risque quadratique


Théorème 4.7. Soit Tn un estimateur de g(θ). Si le risque quadratique de Tn tend vers
0 quand n tend vers l’infini, alors Tn est un estimateur convergent de g(θ).

Corollaire 4.3.1.
• Tout estimateur sans biais dont la variance tend vers zéro est convergent.
• Tout estimateur asymptotiquement sans biais dont la variance tend vers zéro est
convergent, c’est-à-dire
h i h i
P
Eθ (Tn ) −→ et Vθ (Tn ) −→ 0 =⇒ Tn −→ g(θ) .
n→∞ n→∞ n→∞

4.3.3 Image par une fonction continue


Théorème 4.8. Soient Tn un estimateur convergent de g(θ) et f une fonction
 à valeurs
réelles, continue sur g(Θ). Alors f (Tn ) est un estimateur convergent de f g(θ) .

Exemple 4.3.1. Considérons un n-échantillon iid de la loi uniforme sur un intervalle [0, θ],
où θ est un réel strictement positif. On sait que la moyenne empirique X n de l’échantillon
θ
est un estimateur sans biais et convergent de l’espérance de la loi parente. On peut
2
conclure du théorème ci-dessus que Yn = 2X n est un estimateur convergent de θ. On ne
peut par contre affirmer qu’il est sans biais (ni même asymptotiquement sans biais).

4.4 Estimation par intervalles de confiance

4.4.1 Première approche


Le résultat d’une estimation est une valeur approchée du paramètre que l’on cherche à
évaluer. Si l’on effectue une autre simulation, on n’obtiendra généralement pas le même
résultat. C’est pourquoi donner un tel résultat approché sans indication sur la précision

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


62
4.4. Estimation par intervalles de confiance

de l’évaluation n’a pas grand intérêt. Plutôt que de donner une (ou plusieurs) estimations
numériques, on cherchera, à partir de l’estimateur dont on dispose, à préciser un intervalle
qui contiendra, avec une probabilité donnée, la valeur exacte du paramètre que l’on cherche
à évaluer.

Définition 4.4.1. Soit En = (X1 , X2 , ..., Xn ) un n-échantillon issu d’une loi µθ . Soit
α un réel quelconque de l’intervalle ]0, 1[. On appelle intervalle de confiance pour
le paramètre θ, au risque α (ou au niveau de confiance 1 − α), tout intervalle de
la forme [In , Sn ] où In et Sn sont des estimateurs de θ (c’est-à-dire des statistiques sur
l’échantillon En ) tels que P (θ ∈ [In , Sn ]) = 1 − α.

Remarques 4.4.1.
• Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui
contient, avec une probabilité donnée, la valeur θ que l’on cherche à évaluer. Cette
valeur n’est pas aléatoire. Elle est seulement inconnue.
• Le nombre α est le risque qu’à l’issue d’une expérience la réalisation de l’intervalle
de confiance ne contienne pas la valeur θ que l’on cherche à évaluer.

Le problème étant ainsi posé, on peut penser à utiliser l’inégalité de Bienaymé-


Tchebychev, qui s’écrit, pour un estimateur Tn de θ et un réel α de l’intervalle [0, 1]
  
σ(Tn ) σ(Tn )
P Tn ∈ E(Tn ) − √ , E(Tn ) + √ 6 1 − α.
α α
 
σ(Tn ) σ(Tn )
Ainsi, si Tn est un estimateur de θ, l’intervalle E(Tn ) − √ , E(Tn ) + √ est un
α α
intervalle de confiance pour θ à un risque inférieur ou égal à α (ou à un niveau de confiance
supérieur ou égal à 1 − α.

Exemple 4.4.1. On considère un dé à jouer non pipé. On lance n fois, et l’on cherche
à déterminer un intervalle dans lequel la fréquence Tn des résultats  six  se situe avec
une probabilité supérieure √ à 1 − α. La variable Tn est la fréquence empirique et l’on a
1 5
E(Tn ) = et σ(Tn ) = √ . On obtient ainsi comme intervalle de confiance à un risque
6 a "n
√ √ #
1 5 1 5
inférieur à α, l’intervalle − √ , + √ .
6 6 nα 6 6 nα
 
1 5 1 5
Ainsi, pour α = 0, 05, on a P − √ , + √ 6 0, 95.
6 3 n 6 3 n
Pour n = 100, on obtient alors P ([0; 0, 34]) 6 0, 95.

Remarque 4.4.1. Les encadrements obtenus à l’aide de la formule de Bienaymé-Tchebichev


ne dépendent pas de la nature de la variable aléatoire Tn . L’obtention de l’intervalle de

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


63
4.4. Estimation par intervalles de confiance

confiance n’utilise pas le calcul de l’espérance et de la variance de Tn (et les bornes de


l’intervalle de confiance obtenu sont des variables certaines.) Parce qu’elle est une formule
très générale, et ainsi qu’on aura pu le constater dans l’exemple ci-dessus, les résultats
qu’elle permet d’obtenir sont de mauvaise qualité.

4.4.2 Intervalles de dispersion


Dans toute cette sous-section, X désigne une variable aléatoire à densité donnée. On
appelle support de X son image X(Ω).

Définition 4.4.2. Soit X une variable aléatoire à densité dont le support est un intervalle
I, et dont une densité s’annule au plus sur un ensemble fini d’éléments de I. Sa fonction
de répartition FX est alors continue, strictement croissante sur I. Elle induit donc une
bijection de I sur un intervalle dont les bornes sont 0 et 1, et qui est fermé, semi-ouvert
ou ouvert suivant la forme de l’intervalle I. On peut alors définir la fonction réciproque
FX−1 = QX . Cette fonction prend le nom de fonction quantile de X
1
La fonction quantile est définie par QX (u) = t tel que P (X 6 t) = u. Pour u = , on
2
reconnaı̂t en particulier la définition de la médiane.

Définition 4.4.3. Soient X une variable aléatoire et α un réel strictement compris entre
0 et 1. On appelle intervalle de dispersion de niveau 1 − α tout intervalle [a, b] inclus
dans X(Ω) tel que P (X ∈ [a, b]) = 1 − α.

Proposition 4.4.1. Soient X une variable aléatoire à densité satisfaisant aux conditions
de la définition ci-dessus et α un réel de l’intervalle ]0, 1[. Alors, pour tout réel β de
l’intervalle [0, α], l’intervalle [FX−1 (β), FX−1 (1 − α + β)].

Remarques 4.4.2.
• Dans la pratique, α est  petit  (en général inférieur à 0,1), de sorte qu’un
intervalle de dispersion de niveau 1 − α contient une forte proportion des valeurs
prises par X. Dans ces conditions, on pourra trouver un intervalle de dispersion
de niveau 1 − α dont les bornes sont  voisines , moins les valeurs prises par X
seront  dispersées .
• Une variable aléatoire X donnée admet autant d’intervalles de dispersion de niveau
1 − α qu’il y a de façons de choisir β dans l’intervalle [0, α], c’est-à-dire une infinité.
On distingue alors l’intervalle de dispersion symétrique pour β = α2 , l’intervalle
de dispersion unilatéral inférieur pour β = 0 et l’intervalle de dispersion uni-
latéral supérieur pour β = α, et l’on cherche à déterminer l’intervalle dont

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


64
4.4. Estimation par intervalles de confiance

la longueur est la plus faible (intervalle de dispersion optimal ). On démontre


que, dans le cas d’une variable aléatoire symétrique (c’est-à-dire dont la fonction
de répartition admet un centre de symétrie) l’intervalle de dispersion optimal est
l’intervalle de dispersion symétrique.

Exemple 4.4.2. Considérons une variable aléatoire X suivant la loi uniforme sur un
1
intervalle borné I = [a, b]. Une densité de X est la fonction constante égale à sur I,
b−a
et nulle pour tout x n’appartenant pas à I. Sa fonction de répartition FX est définie sur
x−a
I par FX (x) = . La fonction quantile est alors définie par QX (t) = a + t(b − a).
b−a
α
Pour α = 0, 1 (et donc = 0, 05), on obtient
2
— l’intervalle de dispersion symétrique I1 = [a + 0, 05(b − a); a + 0, 95(b − a)]
— l’intervalle de dispersion unilatéral inférieur I2 = [a; a + 0, 9(b − a)]
— l’intervalle de dispersion unilatéral supérieur I3 = [a + 0, 9(b − a); b]
Sur cet exemple particulièrement simple, il est clair que les intervalles de dispersion trouvés
contiennent 90% des valeurs prises par la variable aléatoire X.

4.4.3 Un exemple : Estimation de l’espérance d’une loi normale


d’écart-type connu
Considérons un n-échantillon iid En = (X1 , X2 , ..., Xn ) issu d’une loi normale d’espérance
m et d’écart-type σ0 supposé connu.
Soit alors X n la moyenne empirique de cet échantillon. Comme X n est combinaison linéaire
de variables normales, il suit lui-même une loi normale. De plus, on connaı̂t son espérance
σ2 Xn − m
et sa variance : X n suit la loi normale N (0, 0 ). Il en résulte que ϕ(X n ) = √ suit
n σ0 / n
la loi normale centrée réduite N (0, 1).

Nous sommes donc dans la situation où la variable aléatoire ϕ(X n ), qui dépend de m, suit
une loi qui ne dépend pas de m. L’intervalle de dispersion symétrique de niveau 1 − α de
la loi normale centrée réduite est
h α  α i h  α  −1  α i
Iα = Φ−1 , Φ−1 1 − = 1 − Φ−1 1 − ,Φ 1− .
2 2 2 2
 
Notons tα = Φ−1 1 − α2 . L’intervalle de dispersion symétrique [1 − tα , tα ] de niveau 1 − α
pour la loi normale centrée réduite permet de conclure qu’un intervalle de confiance au
niveau de confiance 1 − α (ou au risque de α) de l’espérance m d’une loi normale X
tα σ0 tα σ0
d’écart-type connu σ0 est X n − √ , X n + √ .
n n

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


65
4.5. Estimateur optimal

Les valeurs usuelles de α sont 0,1 (niveau de confiance de 0,9), 0,05 (niveau de confiance
de 0,95) et 0,01 (niveau de confiance de 0,99). Nous calculons ci-dessous les valeurs cor-
respondantes de tα .
α
• Pour α = 0, 1 ; 1 − = 0, 95, on lit dans la table Φ(1, 64) ≈ 0, 9495 et Φ(1, 65) ≈
2
0, 9505, ce qui donne t0,10 = Φ−1 (0, 95) ≈ 1, 645.
α
• Pour α = 0, 05 ; 1 − = 0, 975, on lit dans la table Φ(1, 94) ≈ 0, 975, ce qui donne
2
t0,05 = Φ−1 (0, 975) ≈ 1, 96.
α
• Pour α = 0, 01 ; 1 − = 0, 995, on lit dans la table Φ(2, 57) ≈ 0, 9949 et Φ(2, 58) ≈
2
0, 9951, ce qui donne t0,01 = Φ−1 (0, 995) ≈ 2, 575.

Remarque 4.4.2. Dans la pratique, X n et S n désignant respectivement la moyenne


√ Xn − m
empirique et la variance empirique corrigée, on utilisera la statistique n qui
Sn
suit une loi de Student de paramètre n − 1, unimodale et symétrique qui ne dépend
pas de m. On peut utiliser comme ci-dessus les intervalles de dispersion de cette loi pour
déterminer des intervalles de confiance pour m.

4.5 Estimateur optimal

4.5.1 Qualité d’un estimateur


La qualité d’un estimateur va se mesurer à l’aide d’une distance au paramètre qui peut
être par exemple |Tn −θ| ou (Tn −θ)2 . Pour obtenir un indicateur numérique, on peut alors
déterminer la valeur moyenne de cette distance. L’indicateur généralement retenu, car il
se prête facilement aux calculs est l’erreur quadratique moyenne ou le risque quadratique
défini pour tout θ par :
2
EQ(Tn ) = Eθ (Tn − θ)2 = Vθ (Tn ) + bTn (θ) .

Dans le cas particulier d’un estimateur sans biais, ce risque ou erreur quadratique se
confond avec la variance de l’estimateur. Si dans l’erreur totale d’estimation on privilégie
2
l’erreur structurelle, mesurée par bTn (θ) , on fera le choix d’un estimateur sans biais et
l’erreur d’estimation se réduira à l’erreur statistique mesurée par la variance de l’estima-
teur.
Si on se place dorénavant dans la classe des estimateurs sans biais, on pourra comparer
deux estimateurs Tn et Tn0 de cette classe par leur variance qui mesure alors leur dispersion
par rapport au paramètre qui est leur espérance commune. Nous dirons que l’estimateur
Tn est plus efficace que Tn0 si pour tout θ ∈ Θ et pour une taille d’échantillon n > N :

Vθ (Tn ) 6 Vθ (Tn0 ).

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


66
4.5. Estimateur optimal

La question se pose alors de savoir si on pourrait trouver un troisième estimateur qui


serait à son tour meilleur que Tn . En cas de réponse positive, il faudrait poursuivre la
recherche, ce qui nous conduirait à essayer d’améliorer indéfiniment un estimateur. Le
problème n’admettrait une fin que si l’on savait que l’estimateur obtenu est le meilleur.

4.5.2 Inégalité de Fréchet-Darmois-Cramer-Rao


Dans certains conditions, il existe une borne inférieure pour l’ensemble des variances des
estimateurs sans biais, ce qui va, d’une part, constituer un butoir ne permettant pas
d’améliorer sans cesse les estimateurs. D’autre part, si cette borne est atteinte par un es-
timateur, il deviendrait le meilleur et sera qualifié d’optimal dans la classe des estimateurs
sans biais.

Définition 4.5.1. Soit (X1 , X2 , ..., Xn ), un n-échantillon. On appelle vraisemblance


(likelihood en anglais) de l’échantillon (X1 , X2 , ..., Xn ) la loi de probabilité de ce n-uple,
noté L(x1 , x2 , ..., xn ; θ), et définie par
n
Y
L(x1 , x2 , ..., xn ; θ) = P ([Xi = xi |θ])
i=1

si X est une variable aléatoire discrète, et par


n
Y
L(x1 , x2 , ..., xn ; θ) = f (xi ; θ)
i=1

si X est une variable continue de densité f (x; θ).

Définition 4.5.2. Soit L(x1 , x2 , ..., xn ; θ) la vraisemblance d’un n-échantillon (X1 , X2 , ..., Xn ).
La quantité d’information de Fisher est définie par
 2
∂ ln L
In (θ) = Eθ .
∂θ

Théorème 4.9. Sous les hypothèses de Cramer-Rao, en particulier si E = X(Ω) est


indépendant du paramètre à estimer θ, pour tout estimateur sans biais Tn de θ on a :
1
Vθ (Tn ) > = BF (θ).
In (θ)
La quantité BF (θ) est la borne inférieure de Fréchet-Darmois-Cramer-Rao (FDRC
en abrégé). Notons que dans les conditions d’application de ce théorème, en particu-
lier si E = X(Ω) est indépendant du paramètre à estimer θ, on obtient une expression
équivalente de la quantité d’information de Fisher qui est généralement plus simple à
calculer :

∂ 2 ln L
 
In (θ) = Eθ − .
∂θ2

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


67
4.6. Méthodes de construction d’un estimateur

4.5.3 Estimateur efficace


Le théorème précédent fournit une borne inférieure pour la variance des estimateurs sans
biais, qui peut ou non être atteinte. Si cette borne est effectivement atteinte par un
estimateur, il sera donc le meilleur, selon ce critère, dans la classe des estimateurs sans
biais. Cette optimalité se traduit par la définition suivante.

Définition 4.5.3. Un estimateur sans biais Tn est dit efficace si sa variance est égale à
la borne inférieure de FDRC :
1
Vθ (Tn ) = .
In (θ)

Remarque 4.5.1. Un estimateur efficace est bien sûr optimal, mais dans la classe des
estimateurs sans biais. Si on utilise comme critère le risque ou erreur quadratique, qui est
une mesure de l’erreur totale où les erreurs structurelle et statistique jouent le même rôle,
on peut trouver un estimateur qui soit meilleur qu’un estimateur efficace.
1 Pn
Par exemple, dans le cas d’un échantillon d’une loi N (0, σ 2 ), on sait que σn2 = 2
i=1 Xi
n
2σ 4
est un estimateur efficace de σ 2 , avec EQ(σn2 ) = V (σn2 ) = .
n
1 Pn
Mais, si on retient l’estimateur avec biais Tn = X 2 , on obtient un estimateur
n + 2 i=1 i
2σ 4
meilleur, c’est-à-dire d’erreur totale plus faible puisque EQ(Tn ) = < EQ(σn2 ).
n+2

4.6 Méthodes de construction d’un estimateur


Dans les situations où il n’y a pas d’estimateur évident, on est amené à recourir à une
méthode de construction d’un estimateur. Les deux méthodes que nous présentons sont
celles du maximum de vraisemblance et des moments.

4.6.1 Méthode du maximum de vraisemblance


La vraisemblance L(x1 , x2 , ..., xn ; θ) représente la probabilité d’observer le n-uple (x1 , x2 , ..., xn )
pour une valeur fixée de θ. Dans la situation inverse ici où on a observé (x1 , x2 , ..., xn ) sans
connaı̂tre la valeur de θ, on va attribuer à θ la valeur qui paraı̂t la plus vraisemblable,
compte tenu de l’observation dont on dispose, c’est-à-dire celle qui va lui attribuer la plus
forte probabilité. On se fixe donc la règle suivante : à (x1 , ..., xn ) fixé, on considère la
vraisemblance L comme une fonction de θ et on attribue à θ la valeur qui maximise cette
fonction. D’où la définition suivante.

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


68
4.6. Méthodes de construction d’un estimateur

Définition 4.6.1. On appelle estimateur du maximum de vraisemblance (emv)


toute fonction θbn de (x1 , ..., xn ) qui vérifie :

L x1 , ..., xn ; θbn = max L(x1 , ..., xn ; θ).
θ∈Θ

Cette définition ne renseigne en aucune façon, ni sur l’existence, ni sur l’unicité, d’un tel
estimateur. La recherche de l’emv peut se faire directement par recherche du maximum
de L, ou le cas particulier où la fonction L est deux fois dérivable par rapport à θ, comme
∂L ∂ 2L
solution de l’équation = 0 qui vérifie aussi < 0.
∂θ ∂θ2
Cependant, la vraisemblance se calculant à partir d’un produit, on préfère remplacer ce
dernier problème par le problème équivalent pour la log-vraisemblance, puisque la fonction
∂ ln L ∂ 2 ln L
ln est strictement croissante, = 0 avec < 0 et qui aura une expression
∂θ ∂θ2
généralement simplifiée.

Remarquons enfin que si θbn est un emv du paramètre θ, alors g θbn est un emv du
paramètre g(θ) pour toute fonction g.

4.6.2 Méthode des moments


Dans le cas où le paramètre à estimer est θ = Eθ (X), moyenne théorique de la loi, nous
avons vu que l’estimateur naturel était la moyenne empirique, ou moyenne de l’échantillon,
X n . De même, pour estimer le paramètre θ = Vθ (X), variance de la loi, nous retenons
logiquement comme estimateur la variance empirique Sn2 .

Plus généralement, si l’un des moments d’ordre k ∈ N∗ , non centré mk = Eθ (X k ) = mk (θ),


ou centré µk = Eθ (X −m1 )k = µk (θ), dépend de θ, nous allons chercher un estimateur par
résolution de l’équation en θ obtenue en égalant moment théorique et moment empirique
correspondant, soit :

n n
1X k 1X
mkn = Xi = mk (θ) ou µkn = Xi − X n )k = µk (θ).
n i=1 n i=1

La solution de l’équation, si elle existe et est unique, sera appelée estimateur obtenu par
la méthode des moments.

KODIA Bernédy Nel c 2019 Chapitre 4. Échantillonnage et estimation


? ? Chapitre Cinq ? ?

Tests d’hypothèses

On appelle théorie des tests la seconde branche de la statistique mathématique, celle


qui permet de confronter deux hypothèses a priori. Comme dans le cadre d’un problème
d’estimation, on retient un modèle statistique où la variable aléatoire X suit une loi
de probabilité Pθ qui dépend d’un paramètre θ inconnu. On dispose cependant ici d’in-
formations supplémentaires qui font penser a priori que la valeur de ce paramètre est
égale à une valeur fixée θ0 et on cherche à valider (à tester) cette hypothèse, au vu d’un
échantillon de la loi de X. Cette hypothèse est privilégiée, parce qu’elle paraı̂t la plus
vraisemblance a priori, est appelée hypothèse nulle et notée H0 . Construire un test va
consister à partitionner l’ensemble Rn des réalisations possibles du n-échantillon en deux
régions, celle où l’on décidera d’accepter H0 , et celle où l’on décidera de la rejeter, qui
se nommera région critique du test. Pour délimiter ces deux régions, on fixe a priori une
valeur (faible) à la probabilité de l’erreur qui consiste à décider, au vu de l’échantillon, de
rejeter l’hypothèse nulle alors que celle-ci est vérifiée. Cette probabilité se nomme risque
de première espèce et sa valeur standard est de 5%. Lorsque le paramètre θ ne peut
prendre que deux valeurs distinctes θ0 et θ1 , c’est le théorème de Neyman et Pearson
qui permet de déterminer la forme de la région critique, à partir du rapport des vraisem-
blances associées à chacune des valeurs possibles du paramètre. Dans le cas où on peut
attribuer des probabilités a priori à ces valeurs, ainsi que des coûts d’erreur, on utilise la
méthode de Bayes.

5.1 Concepts principaux en théorie des tests


Dans le chapitre précédent, nous avons retenu un modèle statistique paramétrique pour
décrire de façon simplifiée, mais théorique, un certain phénomène réel. Les valeurs ob-
servées, liées à ce phénomène, sont alors considérées comme des réalisations d’une variable
aléatoire dont la loi est inconnue, mais appartient à une famille donnée. Cette loi est tota-
lement spécifiée par la connaissance d’un nombre réel θ, appelé paramètre, et qui permet
de répéter précisément l’élément de cette famille de lois. La théorie de l’estimation fournit

69
70
5.1. Concepts principaux en théorie des tests

des outils permettant de se faire une idée de la valeur numérique de ce paramètre.

Ici, la théorie des tests va être un outil d’aide à la décision. Dans le cadre du même
modèle, on dispose cette fois de plus d’informations a priori sur le paramètre. Ces informa-
tions se traduisent par deux hypothèses seulement sur les valeurs possibles du paramètre.
En fonction des observations, on devra choisir l’une de ces deux hypothèses.

5.1.1 Un exemple introductif


Les ministres en charge de l’Économie et des Finances s’interrogent pour savoir s’ils
doivent prendre des mesures de relance de l’économie. Leur décision va être fondée sur les
observations de l’accroissement mensuel de l’indice de la production industrielle. Cet ac-
croissement est mesuré par l’INS avec une certaine incertitude, ce qui amène à le considérer
comme une variable aléatoire I de loi normale, de moyenne m et d’écart-type connu
σ = 0, 2%. Dans la période antérieure, le paramètre m avait pour valeur m = 0, 5%. En
période de récession, on considère que ce paramètre prend la valeur m = 0, 3%. Pour faire
un choix entre ces deux valeurs, les ministres attendent de disposer des valeurs de I pour
le dernier trimestre. Inquiets de l’effet des mesures de relance sur l’inflation, il se fixe a
priori la règle de décision suivante : si la moyenne des accroissements du trimestre est
inférieure à 0,35% alors nous prenons des mesure de relance. On peut alors se poser les
questions suivantes : est-il possible de mesurer les risques associés à cette règle arbitraire ?
Peut-on fixer à l’aide de critères objectifs un autre seuil que la valeur retenue de 0,35% ?
Le modèle statistique va nous permettre de répondre et d’associer des évaluations
numériques à cette règle de décision. La variable aléatoire I appartient ici à la famille des
lois normales, d’écart-type connu σ = 0, 2. L’autre paramètre de cette loi, la moyenne m,
est inconnu, mais ne peut prendre ici que deux valeurs. il s’agit donc de faire un choix
entre les deux hypothèses :
(
H0 : I ,→ N (0, 3; 0, 4)
H1 : I ,→ N (0, 5; 0, 4)

Chacune de ces hypothèses a pour conséquence une décision qui lui est associée :
— D0 : prendre des mesures de relance de l’économie ;
— D1 : ne rien faire.
Cette décision va être prise au vu d’un échantillon (I1 , I2 , I3 ) de cette variable aléatoire
I observée au cours du dernier trimestre. La règle de décision retenue par les ministres se

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


71
5.1. Concepts principaux en théorie des tests

formalise alors de la façon suivante :


1
si (I1 + I2 + I3 ) < k on décide D0
3

1
si (I1 + I2 + I3 ) > k on décide D1
3

La valeur de k, appelé seuil critique, est fixée arbitrairement ici à k = 0, 35.


Chacune de ces décisions a pour conséquence une erreur éventuelle :
— relancer l’économie (D0 ) en période d’expansion (H1 ) et favoriser l’inflation ;
— D1 : ne rien faire (D1 ) en période de récession (H0 ) et accroı̂tre le chômage.

Le modèle statistique retenu permet alors de calculer les probabilités associées à ces
deux erreurs. Par exemple :
3
!
1X
α = P (ne rien faire|m = 0, 3) = P (D1 |H0 ) = P Ij > k|H0 .
3 j=1

3
1X 0, 4 
Sous l’hypothèse H0 , la loi de I = Ij est la loi normale N 0, 3; .
3 j=1 3
On peut donc calculer la probabilité précédente en utilisant une variable aléatoire U
de loi N (0, 1) :

0, 05 √
 
 I − 0, 3
α = P I 6 0, 35|H0 = P √ > 3|H0
0, 2/ 3 0, 2
= P (U > 0, 43) = 0, 33

De même, l’autre risque d’erreur se calcule par :

β = P (relancer|m = 0, 5) = P (D0 |H1 ) = P (I < k|H1 )


0, 15 √
 
I − 0, 5
=P √ <− 3|H1 = P (U < −1, 30) = 0, 097
0, 2/ 3 0, 2

Ces deux risques ne sont pas équivalents, le premier étant trois fois supérieur au second.
Cette règle correspond donc bien à un souhait de se garantir avant tout contre l’inflation.
Si on veut que le seuil ne soit pas fixé arbitrairement, c’est par le choix d’une valeur
de risque que l’on en déduira alors une valeur de seuil critique. Si on souhaite plutôt se
prémunir prioritairement contre le chômage, on fixe une valeur faible au risque α, par
exemple α = 5%. Il va en découler une valeur du seuil par la condition :
3
!  
1 X k − 0, 3
α = 0, 05 = P Ij > k|H0 = P U > √ .
3 j=1 0, 2/ 3

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


72
5.1. Concepts principaux en théorie des tests

On obtient ainsi :
k − 0, 3 0, 2
√ = 1, 6449 soit k = 0, 3 + √ × 1, 6449 = 0, 49.
0, 2/ 3 3

L’autre risque a alors pour valeur :


 
0, 49 − 0, 5
β = P (I < k|H1 ) = P U < √ = P (U < −0, 09) = 0, 4641.
0, 2/ 3
Le risque de relancer à tort est cette fois très élevé. Pour une décision où ce risque
serait comme le plus dommageable, il faudrait fixer le seuil k par la condition :
 
k − 0, 5
β = 0, 05 = P (relancer|m = 0, 5) = P U < √ .
0, 2/ 3

On obtient alors comme valeur :


0, 2
k = 0, 5 − √ × 1, 6449 = 0, 31
3

La règle de décision, déterminée par le seuil, est fortement dépendante du risque contre
lequel on souhaite se prémunir en priorité. Cet exemple introductif précédent nous permet
de formaliser un problème de test.

5.1.2 Problème général d’un test


On considère un modèle statistique où la loi de probabilité Pθ de la variable aléatoire
X dépend d’un paramètre inconnu θ qui varie dans un sous-ensemble donné Θ de R.
On suppose que cet ensemble est partitionné en deux sous-ensembles donnés Θ0 et Θ1 ,
auxquels vont être associées les deux hypothèses notées H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 .
Construire un test consiste à définir une règle de décision qui associe une décision à un
échantillon (X1 , ..., Xn ) de la loi de X, les deux décisions possibles étant D0 : accepter
H0 , et D1 : accepter H1 . A chaque décision correspond une région de Rn , qui va donc
être partitionnée en deux sous-ensembles W et W , c’est-à-dire que si la réalisation de
l’échantillon est un point (x1 , ..., xn ) de W on décide D1 , donc on rejette H0 . Dans le cas
contraire, c’est-à-dire pour un point de W , on décide D0 , donc on accepte H0 .

Définition 5.1.1. La région W de rejet de l’hypothèse nulle H0 se nomme région cri-


tique du test et la région W région d’acceptation.

La construction d’un test va consister à determiner cette région critique. La méthode


pour l’obtenir dépendra des conséquences que l’on attribue à chacune des deux erreurs
qui sont associées aux deux décisions possibles. Ces erreurs sont les suivantes.

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


73
5.2. Méthode de Bayes

Définition 5.1.2. L’erreur de première espèce consiste à décider D1 alors que H0


est vraie, soit rejeter à tort l’hypothèse nulle H0 .

L’erreur de seconde espèce consiste à décider D0 alors que H1 est vraie, soit
accepter à tort l’hypothèse nulle H0

Nous allons présenter deux méthodes de construction d’un test, basées sur des principes
très différents. La méthode de Bayes est utilisée lorsqu’on dispose encore plus d’informa-
tions a priori sur les hypothèses, permettant de leur attribuer une probabilité a priori, et
lorsque l’on peut en plus quantifier le coût de chaque décision en fonction de l’hypothèse
effectivement réalisée.

5.2 Méthode de Bayes


On se place dans le cas où on a attribué des probabilités a priori p0 et p1 = 1 − p0
à chacune des hypothèses respectives H0 et H1 et que l’on a également associé un coût
à chaque décision, en fonction de l’hypothèse qui est effectivement réalisée. Le tableau
ci-après contient ces coûts, la décision prise figurant en colonne et l’hypothèse vraie en
ligne :

D0 D1
H0 (p0 ) C00 C01
H1 (p1 ) C10 C11

Une bonne décision peut avoir également un coût et donc on aura généralement C00 > 0
et C11 > 0.

Après la réalisation (x1 , ..., xn ) on peut calculer, à l’aide du théorème de Bayes, les
probabilités a posteriori π0 et π1 des hypothèses H0 et H1 :
p0 L0 p1 L 1
π0 = et π1 =
p0 L0 + p1 L1 p0 L 0 + p1 L 1

où on a noté L0 la valeur de la vraisemblance L(x1 , ..., xn ; θ), quand θ ∈ Θ, et L1 , quand


θ ∈ Θ1 . On peut alors calculer les espérances du coût de chaque décision pour cette
distribution a posteriori :
   
E C(D0 ) = C00 π0 + C10 π1 et E C(D1 ) = C01 π0 + C11 π1 .

La règle de décision de Bayes consiste à associer à l’observation (x1 , ..., xn ) la décision


dont l’espérance de coût est la plus faible.

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


74
5.3. Méthode de Neyman et Pearson

5.3 Méthode de Neyman et Pearson

5.3.1 Principe de la règle de Neyman et Pearson


On privilégie l’une des deux hypothèses, par exemple celle que l’on considère comme
la plus vraisemblable, et on la choisit comme hypothèse nulle H0 . Cette hypothèse sera
celle dont le rejet à tort est le plus préjudiciable. L’autre hypothèse H1 est l’hypothèse
alternative. Il n’y a donc pas de symétrie entre ces deux hypothèses. l’hypothèse H0 est
privilégiée et il faut des observations très éloignées de cette hypothèse pour la rejeter.

Définition 5.3.1. On appelle risque de première espèce la probabilité de rejeter à


tort l’hypothèse nulle, soit :

α = Pθ (D1 |H0 ) = Pθ (H1 |H0 ) = Pθ (W |θ ∈ Θ0 ).

On appelle risque de seconde espèce la probabilité d’accepter à tort l’hypothèse nulle,


soit :
β = Pθ (D0 |H1 ) = Pθ (H0 |H1 ) = Pθ (W |θ ∈ Θ1 ).

L’erreur la plus grave consistant à rejeter à tort l’hypothèse nulle, la méthode de Neyman
et Pearson fixe une valeur maximum α0 au risque de première espèce. Le test est alors
déterminé par la recherche de la règle qui minimise l’autre risque, celui de seconde espèce.

Définition 5.3.2. On appelle puissance d’un test la probabilité de refuser H0 avec


raison, c’est-à-dire lorsque H1 est vérifiée, soit :

η = Pθ (D1 |H1 ) = Pθ (H1 |H1 ) = Pθ (W |θ ∈ Θ1 ) = 1 − β.

La règle de décision de Neyman et Pearson consiste à déterminer la région


critique W pour laquelle la puissance est maximum, sous la contrainte α 6 α0 . Le choix de
la valeur de α0 peut être déterminant quant à la conclusion tirée au vu d’un échantillon.
La valeur standard retenue est α0 = 0, 05. Choisir une valeur plus faible (par exemple
α0 = 0, 01) conduit à exiger des contre-preuves très fortes pour rejeter H0 , qui est ainsi
admise a priori. Choisir une valeur plus forte (par exemple α0 = 0, 10) signifie que l’on
est moins convaincu a priori de la validité de H0 et que l’on est prêt plus facilement à la
rejeter au vu des observations.

5.3.2 Hypothèses simples


Une hypothèse est qualifiée de simple si la loi de la variable aléatoire X est totalement
spécifiée quand cette hypothèse est réalisée. Dans le cas contraire elle est dite multiple.

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


75
5.3. Méthode de Neyman et Pearson

Nous allons examiner le cas où le paramètre θ ne peut prendre que deux valeurs θ0 et θ1 ,
ce qui correspond au choix entre les deux hypothèses simples suivantes :
(
H0 : θ = θ0
H1 : θ = θ1 .

Même si cette situation est peu fréquente dans la réalité, de nombreux autres cas
peuvent être résolus à partir de ce cas élémentaire. La forme de la région critique est alors
déterminée par le théorème suivant.

Théorème 5.1. de Neyman et Pearson


Pour un risque de première espèce fixé à α0 , le test de puissance maximum entre les
hypothèses simples ci-dessus est défini par la région critique :
 
L0 (x1 , ..., xn )
W = (x1 , ..., xn )/ 6k
L0 (x1 , ..., xn )

où la valeur de la constante k est déterminée par le risque fixé α0 = Pθ (W |θ = θ0 ), ayant


posé Lθ (x1 , ..., xn ) = L(x1 , ..., xn ; θ0 ) et L1 (x1 , ..., xn ) = L1 (x1 , ..., xn ; θ1 ).

1
Exemple 5.3.1. Prenons le cas d’une loi exponentielle de paramètre , avec θ1 > θ0 . La
θ
vraisemblance a pour expression :
" n
#
1 1X
L(x1 , ..., xn ; θ) = n exp − xi
θ θ i=1

avec xi > 0, 1 6 i 6 n. Le rapport des vraisemblances est donc :


  "  n #
L0 (x1 , ..., xn ) θ1 1 1 X
= exp − xi .
L1 (x1 , ..., xn ) θ0 θ1 θ0 i=1

La région critique est donc définie par la condition :


  "  n #
θ1 1 1 X
exp − xi 6 k.
θ0 θ1 θ0 i=1

Cette condition est équivalente à :


" n
X #
1 1
exp − xi 6 k1 .
θ1 θ0 i=1

En prenant le logarithme, on obtient comme nouvelle condition équivalente :


 n
X
1 1
− xi 6 k2 .
θ1 θ0 i=1

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


76
5.3. Méthode de Neyman et Pearson

Puisque θ1 > θ0 , on arrive à la condition :


n
X
xi > C.
i=1

La valeur de la constante C, qui va totalement préciser la région critique, est déterminée


par la condition : ( n )
X
α0 = P Xi > C|θ = θ0 .
i=1

n
X Sn
Si l’on pose Sn = Xi , on peut montrer que 2 suit une loi du Khi-deux à 2n degrés
i=1
θ
de liberté. La condition précédente se réécrit donc sous la forme :
 
Sn C
α0 = P 2 >2 .
θ0 θ0
C
La valeur de 2 est donc celle du fractile d’ordre 1 − α0 de la loi du Khi-deux à 2n degrés
θ0
de liberté.

La puissance de ce test peut ensuite se calculer par :


( n )  
X Sn C
η=P Xi > C|θ = θ1 =P 2 >2 .
i=1
θ1 θ1

5.3.3 Hypothèses multiples


Nous allons d’abord considérer le cas d’une hypothèse simple contre une hypothèse
multiple de l’une des formes suivantes :
( (
H0 : θ = θ0 H0 : θ = θ0
ou
H1 : θ > θ0 H1 : θ < θ0

On détermine au préalable, par la méthode de Neyman-Pearson, la région critique W


du test suivant : (
H0 : θ = θ0
H1 : θ = θ1

où θ1 est une valeur fixée quelconque, mais vérifiant l’hypothèse alternative H1 . Si la région
W obtenue pour ce test entre hypothèses simples ne dépend pas de la valeur choisie θ1 ,
alors on aura obtenu un test uniformémement le plus puissant (U P P ) pour le
problème de test initial. Cela signifie que pour toute autre région critique W 0 , on aura
Pθ (W |θ ∈ Θ1 ) > Pθ (W 0 |θ ∈ Θ1 ) pour tout θ de Θ1 .

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


77
5.3. Méthode de Neyman et Pearson

Exemple 5.3.2. Si nous reprenons l’exemple précédent, la région critique dépendait de


la condition θ1 > θ0 , mais pas de la valeur précise θ1 . La région critique obtenue est donc
aussi celle du test U P P de H0 : θ = θ0 contre H1 : θ > θ0 . Cependant, on ne peut
pas cette fois calculer la puissance de ce test puisque la valeur du paramètre n’est pas
connue dans l’hypothèse alternative. On peut seulement définir une fonction puissance de
ce paramètre par : ( n )
X
η(θ) = P Xi > C|θ > θ0 .
i=1

Pour le problème de test suivant :


(
H0 : θ = θ0
H1 : θ 6= θ0

il n’existe pas de test U P P . La région critique W de ce test s’obtient par une réunion des
régions critiques W1 et W2 des deux tests précédents, pour le même risque de première
α0
espèce .
2
Exemple 5.3.3. Dans l’exemple précédent, la région critique W1 obtenue était l’ensemble
des points (x1 , ..., xn ) tels que :
S n > C1 ,
C1 α0
avec 2 qui est le fractile d’ordre 1 − de la loi du Khi-deux à 2n degrés de liberté.
θ0 2
De même, pour le test de H0 : θ = θ0 contre H1 : θ < θ0 la région critique W2 obtenue
est définie par :
S n 6 C2 ,
C2 α0
avec 2 qui est le fractile d’ordre de la loi du Khi-deux à 2n degrés de liberté. La
θ0 2
région critique de H0 : θ = θ0 contre H1 : θ 6= θ0 est W = W1 ∪ W2 . Il est plus facile
de définir ici la région d’acceptation de l’hypothèse nulle par la condition :

C2 6 Sn 6 C1 .

Pour le problème de test suivant :


(
H0 : θ 6 θ0
H1 : θ > θ0

on suppose que la loi Pθ est à rapport de vraisemblance monotone. cela signifie qu’il existe
une statistique Tn = Tn (x1 , ..., xn ) telle que le rapport des vraisemblances :
L(x1 , ..., xn ; θ)
L(x1 , ..., xn ; θ0 )
s’exprime comme une fonction croissante de Tn pour toutes les valeurs de θ et θ0 qui
vérifient l’inégalité θ > θ0 . Dans ces conditions, on utilise le théorème suivant.

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


78
5.4. Lois usuelles en statistique

Théorème 5.2. Théorème de Lehmann


Il existe un test UPP dont la région critique W est l’ensemble des points (x1 , ..., xn ) tels
que :
Tn (x1 , ..., xn ) > k,

où la valeur de la constante k est déterminée par le risque fixé α0 = Pθ (W |θ = θ0 ).

Exemple 5.3.4. Dans l’exemple du début, nous avons obtenu comme rapport de vrai-
semblances : " #
 0 n n
L(x1 , ..., xn ; θ) θ θ − θ0 X
= exp .
L(x1 , ..., xn ; θ0 ) θ θθ0 i=1

Pour toutes les valeurs de θ et θ0 qui vérifient l’inégalité θ > θ0 , c’est une fonction croissante
Xn
de Tn = . Donc, par application du théorème de Lehman pour H0 : θ 6 θ0 contre
i=1
H1 : θ > θ0 , le test U P P a pour région critique l’ensemble des points (x1 , ..., x2 ) tels
que :
n
X
xi > k.
i=1

La constante k est déterminée par la condition :


( n )
X
α0 = P Xi > k|θ = θ0
i=1

5.4 Lois usuelles en statistique

5.4.1 Loi du khi-deux de Pearson


C’est la loi d’une variable aléatoire à densité, positive, utilisée pour le contrôle des tests
du khi-deux.

Définition 5.4.1. Soient X1 , ..., Xn n variables aléatoires réelles indépendantes et de


Xn
même loi N (0, 1). Alors la variable aléatoire réelle Y = Xi2 suit une loi du khi-
i=1
deux χ2n de paramètre n qui représente les degrés de liberté. Sa densité de probabilité
est définie par
1 n y
fn (y) = n n
 y 2 −1 e− 2 , y ∈ R+ .
2 Γ 2
2

Une variable aléatoire réelle qui suit une loi du khi-deux est caractérisée par son
espérance mathématique et sa variance, données respectivement par

E(Y ) = n et V (Tn ) = 2n.

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


79
5.4. Lois usuelles en statistique

Considérons un n-échantillon aléatoire iid (X1 , ..., Xn ) de loi N (m, σ 2 ). La moyenne


empirique X n étantune combinaison linéaire de variables aléatoires normales indépendantes,
σ2

elle suit une loi N m, . La variance empirique est construite à partir des variables
n
 
1X 1
Xi − X n = − Xj + 1 − Xi
n j6=i n

qui sont des combinaisons linéaires de variables aléatoires normales indépendantes, donc
elles sont aussi des variables aléatoires normales d’espérance E(Xi X n ) = E(Xi )−E(X n ) =
2
0 et de variance V (Xi X n ) = E Xi X n = E(Sn2 ) car toutes les variables sont de même
loi. La variable aléatoire nSn2 est la somme des carrés de n variables aléatoires normales
centrées qui sont reliées par la relation ni=1 (Xi − X n ) = 0 et on peut démontrer que :
P

Sn2
n 2 suit une loi du χ2n−1 .
σ
n−1 2
On trouve bien le résultat général E(Sn2 ) = σ et on obtient ici, d’après les moments
n
n−1
de la loi du khi-deux, V (Sn2 ) = 2 2 σ 4 .
n

5.4.2 Loi de Student


C’est la loi d’une variable aléatoire à densité utilisée pour le contrôle des tests de compa-
raison de deux espérances mathématiques.

Définition 5.4.2. Soit X une variable aléatoire réelle qui suit une loi N (0, 1) et Y une
variable aléatoire réelle qui suit une loi de χ2n , X et Y étant indépendantes. Alors la
X
variable aléatoire réelle Tn = r suit une loi de Student de paramètre n > 1 qui
Y
n
représente le nombre de degrés de liberté. Sa densité de probabilité est définie par :
 n+1
Γ n+1
 
2 t2 2
fn (t) = √  1+ , t ∈ R.
πnΓ n2 n

Une variable aléatoire réelle qui suit une loi de Student est centrée, c’est-à-dire que
E(Tn ) = 0 et sa variance est donnée par
n
V (Tn ) = , n 6 3.
n−2
Un cas particulier de cette loi intervient lorsque n = 1, nous obtenons alors la loi de
Cauchy standard.

Nous avons vu que le théorème de la Limite Centrale nous donne


√ Xn − m
n converge en loi vers N (0, 1).
σ

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


80
5.4. Lois usuelles en statistique

Dans le cas où σ est un paramètre inconnu, on peut le remplacer par l’écart-type empirique
modifié, ce qui amène à considérer la variable aléatoire
 √
√ Xn − m X n − m /(σ/ n
n = .
Sn0
p 0
Sn2 /σ 2

Le numérateur suit une loi normale centrée réduite et le dénominateur est la racine carrée
de la variable aléatoire : 0 0
Sn2 (n − 1)Sn2 /σ 2
=
σ2 n−1
qui est donc une variable aléatoire de loi χ2n−1 , divisé par son nombre de degrés de liberté.
D’après le théorème de Fisher, le numérateur et le dénominateur sont des variables
aléatoires indépendantes et leur rapport définit une nouvelle loi de probabilité, usuelle en
statistique, appelée loi de Student à n − 1 degrés de liberté.

5.4.3 Loi de Fisher-Snedecor


C’est la loi d’une variable aléatoire à densité utilisée pour le contrôle des tests de compa-
raison de deux variances ainsi que dans le test d’  analyse de la variance qui permet
de comparer plusieurs espérances mathématiques.

Définition 5.4.3. Soient X et Y deux variables aléatoires réelles qui suivent respective-
ment une loi du χ2n et une loi du χ2m , où X et Y sont indépendantes. Alors la variable
X/n
aléatoire réelle Zn,m = suit une loi de Fisher-Snedecor Fn,m à n et m degrés de
Y /m
liberté. Sa densité de probabilité est est définie par :

n+m

Γ  m  m2 −1  m  n+m
2
fn,m (z) = n
2 m
 x 1+ x , z ∈ R+ .
Γ 2
Γ 2
n n

Une variable aléatoire réelle Z qui suit une loi de Fisher-Snedecor Fn,m est caractérisée
par son espérance mathématique
n
E(Z) = n63
n−2
et sa variance  2
n (m + n − 2)
V (X) = 2 , n 6 5.
n−2 m(n − 4)

En présence de deux échantillons (X1 , ..., Xn ) et (Y1 , ..., Ym ) auxquels sont associées les va-
riances empiriques Sn2 et Sm
2
, on peut se poser la question de savoir s’il proviennent de deux
2
Sn
lois normales ayant la même variance, et pour cela former le rapport 2
Sm
. Si effectivement
ces deux lois ont la même variance, ce rapport de deux lois du khi-deux indépendantes,
réduites (divisées) par leur nombre de degrés de liberté, définit une nouvelle loi usuelle en
statistique, appelée loi de Fischer-Snedecor .

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


81
5.5. Tests d’adéquation

Théorème 5.3. Théorème de Fisher


Les variables aléatoires X1 , ..., Xn forment un échantillon d’une loi normale si et seule-
ment si les variables aléatoires X n et Sn2 sont indépendantes.

5.4.4 Test d’indépendance du khi-deux


Pour tester l’indépendance de deux caractères X et Y , qualitatifs ou quantitatifs (répartis
en classes), à respectivement r et s modalités, on relève le nombre nij d’individus d’une
population de taille n = ri=1 sj=1 nij qui possèdent simultanément la modalité i, 1 6
P P

i 6 r, du caractère X et la modalité j, 1 6 j 6 s, du caractère Y . Soit pij la probabilité


théorique correspondante, pour un individu tiré au hasard dans la population, de posséder
Xs
simultanément ces deux modalités i et j. Les probabilités marginales sont pi· = pij
j=1
r
X
et p·j = pij . L’indépendance de ces deux caractères se traduit par l’hypothèse nulle
i=1
H0 : pij = pi· × p·j . Pour tester cette hypothèse contre l’hypothèse alternative H1 : pij 6=
pi· × p·j , on utilise la statistique :

r X s 2 r X s
!
X nij − ni· n·j /n X n2ij
Dn = =n −1 .
i=1 j=1
ni· n·j /n n n
i=1 j=1 i· ·j

Sa loi asymptotique, sous H0 est la loi du khi-deux à (r − 1)(s − 1) degrés de liberté. On


s
X r
X
a noté ni· = nij et n·j = nij les effectifs marginaux.
j=1 j=1

La région critique de ce test est de la forme :

Dn 6 C.

Pour un risque de première espèce α = P (Dn > C|H0 ), la valeur de C est approximée par
le fractile d’ordre 1 − α de la loi χ2(r−1)(s−1) .

5.5 Tests d’adéquation


L’examen de la loi de probabilité empirique associée à un échantillon dont la loi parente
est inconnue permet de choisir parmi les lois usuelles celle qui lui  ressemble  le plus.
Si notre choix s’oriente vers une certaine loi P de fonction de répartition F , on pourra
retenir l’hypothèse que l’échantillon provient de cette loi si la distance entre la fonction
de répartition théorique F et la fonction de répartition empirique Fn est faible. Ayant
fait le choix d’une certaine distance d entre fonctions de répartition, on se fixera une règle
de décision qui s’énonce comme suit :  Si l’événement d(Fn , F ) > C est réalisé, alors je

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


82
5.5. Tests d’adéquation

retiens l’hypothèse qu’il s’agit d’un échantillon de la loi de fonction de répartition F . On


peut cependant se tromper en rejetant cette hypothèse alors que F est bien la fonction
de répartition des variables de l’échantillon ; cette erreur se produit avec une probabilité
qui est de α = P {d(Fn , F ) > C}.
Si on veut que ce risque d’erreur soit faible, on fixera une valeur α faible à cette probabilité
(par exemple 5% ou 1%) et cette valeur permettra alors de préciser la valeur de la constante
C qui apparaı̂t dans la règle de décision, si on connaı̂t la loi de probabilité de la variable
aléatoire d(Fm , F ).
Nous aurons ainsi réalisé un test d’adéquation, ou d’ajustement, entre une loi théorique
donnée et une loi empirique associée à un échantillon d’observation. La fixation du risque α
déterminera alors la valeur du seuil d’acceptation ou seuil critique C. Nous présentons deux
tests, associés à deux distances entre fonctions de répartition, permettant de déterminer
la loi approchée de la variable d(Fn , F ) pour toute fonction de répartition F , le premier
étant plutôt destiné aux lois discrètes et le second réservé aux lois continues.

5.5.1 Test du khi-deux


Ce test est à retenir si les données sont discrètes, avec des valeurs possibles notées xi , de
probabilité pi pour 1 6 i 6 k, ou si les données individuelles ne sont pas fournies, mais
ont été réparties en classes (ai , ai+1 ) dont les fréquences théoriques sont calculées à partir
de la loi théorique postulée :

pi = P {X ∈ (ai , ai+1 } = F (ai+1 ) − F (ai ).

Si Ni est le nombre (aléatoire) d’observations xi , ou appartenant à la classe (ai , ai+1 ),


nous allons le comparer à l’effectif théorique qui est npi . La distance euclidienne classique
entre Fn , représentée par les k effectifs observés Ni , et la fonction de répartition F ,
représentée par les k effectifs théoriques npi , serait (Ni − npi )2 .
Cependant, comme cette distance ne permet pas de déterminer la loi asymptotique
de cette variable aléatoire, on préfère retenir une autre distance. Cette dernière sera
déterminée à partir de la remarque que les variables aléatoires Ni suivent des lois bi-
Ni − npi
nomiales de paramètres n et pi et que les variables centrées √ convergent vers la
npi
loi N (0, 1 − pi ). On retient donc la distance :
k
X (Ni − npi )2
d(Fn , F ) =
i=1
npi

et cette somme de carrés de variables aléatoires centrées qui sont asymptotiquement nor-
k
X
males et liées par la relation (Ni − npi ) = 0 converge vers une loi du χ2k−1 . La valeur
i=1

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


83
5.5. Tests d’adéquation

de C sera déterminée approximativement, en utilisant cette loi asymptotique, comme le


fractile d’ordre 1 − α de la loi du khi-deux à k − 1 degrés de liberté. Cette approxima-
tion est justifiée si n est assez grand et pi pas trop petit, avec comme règle empirique
npi 6 5. Si ce n’est pas le cas à cause d’une valeur de pi trop petite, on doit regrouper des
classes (ou des valeurs) contiguës. Pour le calcul de la distance, il est préférable d’utiliser
la formule développée :

k
X Ni2
d(Fn , F ) = − n.
i=1
npi

5.5.2 Test de Kolmogorv-Smirnov


Dans le cas d’une variable aléatoire continue pour laquelle on dispose des données indi-
viduelles, il est préférable d’utiliser toute l’information disponible et de ne pas regrouper
les observations en classes. On retient alors la distance de Kolmogorov, ou distance
de la convergence uniforme, définie par :

Kn = d(Fn , F ) = sup |Fn (x) − F (x)|.


x∈R

Là encore, on retiendra l’hypothèse que la loi parente admet F comme fonction
de répartition si cette distance est faible, c’est-à-dire plus précisément si l’événement
{d(Fn , F ) < C} est réalisé. La valeur de C sera déterminée par la fixation du risque d’er-

reur α = P ([d(Fn , F ) < C]) et en utilisant la loi limite de la variable aléatoire nKn qui
admet pour fonction de répartition la fonction K définie pour x > 0 par :
+∞ ∞
k −2k2 x2 2 x2
X X
K(x) = (−1) e =1−2 −1)k+1 e−2k .
k=−∞ k=1

Les valeurs de K sont tabulées, permettant de déterminer les fractiles de la loi. Les
valeurs de C sont données en fonction de α dans la table suivante :

n α = 0, 10 α = 0, 05 α = 0, 01
5 0,509 0,563 0,669
10 0,369 0,409 0,486
15 0,304 0,338 0,404
20 0,265 0,294 0,352
25 0,238 0,264 0,317
30 0,218 0,242 0,290
40 0,189 0,210 0,252
√ √ √
n > 40 1,22/ n 1,36/ n 1,63/ n

KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses


84
5.5. Tests d’adéquation

Pour le calcul pratique de cette distance, on utilise la définition de Fn faisant intervenir


l’échantillon ordonné X(1) < X(2) < ... < X(n) . L’expression de Fn (x) = Pn (] − ∞, x[)
s’écrit alors : 

 0 si x 6 X(1)
i−1

Fn (x) = si X(i−1) < x 6 X(i)
 n


1 si x > X(n)
On calcule au préalable les statistiques :
 
+ i 
d (Fn , F ) = sup[Fn (x) − F (x)] = max − F X(i)
x∈R 16i6n n
 
+
 i−1
d (F, Fn ) = sup[F (x) − Fn (x)] = max F X(i) −
x∈R 16i6n n

car Fn est constante sur chacun des intervalles délimités par les points de l’échantillon
ordonné :

i i 
sup [Fn (x) − F (x)] = − inf F (x) = − F X(i) + 0
x∈]X(i) ,X(i+1) [ n X(i) <x6X(i+1) n
i 
= − F X(i)
n
On calcule ensuite :
d(fn , F ) = max d+ (Fn , F ), d+ (Fn , F ) .


KODIA Bernédy Nel c 2019 Chapitre 5. Tests d’hypothèses

Vous aimerez peut-être aussi