Académique Documents
Professionnel Documents
Culture Documents
Notes de cours de
PROBABILITES ET
STATISTIQUE II
i
ii
Table des matières
4 Échantillonnage et estimation 53
4.1 Échantillons d’une loi de probabilité . . . . . . . . . . . . . . . . . . . . . . 54
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.2 Statistiques sur un échantillon . . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Statistiques empiriques . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Risque quadratique d’un estimateur . . . . . . . . . . . . . . . . . . 59
4.3 Suite d’estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.2 Convergence et risque quadratique . . . . . . . . . . . . . . . . . . 61
4.3.3 Image par une fonction continue . . . . . . . . . . . . . . . . . . . . 61
4.4 Estimation par intervalles de confiance . . . . . . . . . . . . . . . . . . . . 61
4.4.1 Première approche . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4.2 Intervalles de dispersion . . . . . . . . . . . . . . . . . . . . . . . . 63
4.4.3 Un exemple : Estimation de l’espérance d’une loi normale d’écart-
type connu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5.1 Qualité d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . 65
5 Tests d’hypothèses 69
5.1 Concepts principaux en théorie des tests . . . . . . . . . . . . . . . . . . . 69
5.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.2 Problème général d’un test . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Méthode de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Méthode de Neyman et Pearson . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.1 Principe de la règle de Neyman et Pearson . . . . . . . . . . . . . . 74
5.3.2 Hypothèses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.3 Hypothèses multiples . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 Lois usuelles en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1 Loi du khi-deux de Pearson . . . . . . . . . . . . . . . . . . . . . . 78
5.4.2 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.4.3 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.4.4 Test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . 81
5.5 Tests d’adéquation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5.1 Test du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5.2 Test de Kolmogorv-Smirnov . . . . . . . . . . . . . . . . . . . . . . 83
Le besoin de calculs, comme par exemple celui de la moyenne associée aux différents
résultats possibles d’une épreuve aléatoire, impose que ce résultat, symbolisé ou non par
un nombre, soit mis sous forme numérique. C’est pourquoi on souhaitera presque toujours
traduire par une valeur numérique l’événement réalisé.
Pour un lancer de pièce de monnaie, on peut retenir par exemple comme codage des
résultats : pile 7→ 0, face 7→ 1. Pour un lacer de dé, il y a un codage naturel puisque le
résultat a ici un caractère numérique : face 1 7→ 1, ..., face 6 7→ 6 ; mais on peut bien sûr
envisager d’autres codages, comme par exemple noter par zéro tout résultat pair et par
un tout résultat impair, d’où les nouvelles associations : face 1 7→ 1, face 2 7→ 0, ..., face
6 7→ 0.
Bien entendu, la valeur numérique associée à un résultat est arbitraire et correspond à
un codage des événements qui va se faire au moyen d’une certaine application, notée
usuellement X, qui va associer un nombre à chaque événement élémentaire, soit :
X : Ω → R.
Un exemple introductif
Considérons l’exemple suivant où l’ensemble fondamental est Ω = {a, b, c, d}. La partition
Q
= {{a}, {b}, {c, d}} engendre l’algèbre A = {∅, {a}, {b}, {c, d}, {a, b}, {a, c, d}, {b, c, d}, Ω}.
Les événements c et d étant supposés indiscernables, on définit une probabilité P par
P ({a}) = 1/4, P ({b}) = 1/2 et P ({c, d}) = 1/4. On définit alors une application
1
2
1.1. Variable aléatoire réelle
Il sera utile de distinguer deux cas : lorsque X(Ω) est dénombrable, la v. a. X est
dite discrète et lorsque X(Ω) est un ensemble non dénombrable de R (généralement un
intervalle, pouvant être R tout entier, ou une réunion d’intervalles), la variable aléatoire
est dite continue.
1.1.1 Généralités
Définition 1.1.1. Soit (Ω, A) un espace probabilisable. On appelle variable aléatoire
réelle (v. a. r.) X toute application de Ω dans R telle que :
∀x ∈ R, {ω ∈ Ω, X(ω) 6 x} ∈ A.
Remarque 1.1.1. Si A = P(Ω) (en particulier si Ω est fini), toute application de Ω dans
R est une variable aléatoire.
Proposition 1.1.1. Si X est une variable aléatoire réelle sur (Ω, A), alors pour tout
intervalle I de R, l’ensemble {ω ∈ Ω, X(ω) ∈ I} est un événement (c’est-à-dire appartient
à A).
En particulier, pour tout réel x, l’ensemble {ω ∈ Ω, X(ω) = x} appartient à A.
Par définition d’une variable aléatoire réelle, la proposition est vérifiée pour tout intervalle
de la forme ] − ∞, x]. Elle reste vraie pour tout intervalle de R, car un tel intervalle
peut s’écrire à partir de réunions et intersections dénombrables d’intervalles de la forme
] − ∞, x] ou de leur complémentaire. L’ensemble {ω ∈ Ω, X(ω) = x} correspond au cas
où I est l’intervalle [x, x].
Notation 1.1.1.
— Les variables aléatoires sont notées par des lettres majuscules et les quantités
déterministes avec des lettres minuscules.
[X = x] = X −1 ({x}) = {ω ∈ Ω, X(ω) = x}
[X > x] = X −1 ([x, +∞[) = X −1 ({x}) = {ω ∈ Ω, X(ω) > x}
[X < x] = X −1 (] − ∞, x[) = {ω ∈ Ω, X(ω) < x}
[X > x] = X −1 (]x, +∞, [) = {ω ∈ Ω, X(ω) > x}.
On remarque que
[X 6 x] = [X < x] ∪ [X = x].
On rappelle que X(Ω) désigne l’ensemble des images par X des éléments de Ω, c’est-à-dire
l’ensemble des valeurs prises par l’application X.
Propriété 1.1.1.
1. Si X est une variable aléatoire finie qui prend les valeurs {x1 , x2 , ..., xn }, les événements
{X = xi }1≤i≤n forment un système complet d’événements appelé système complet
d’événements associé à la variable aléatoire X.
L’ensemble des événements de la forme {X ∈ A} où A ⊂ {x1 , x2 , ..., xn } forme
une algèbre d’événements de Ω incluse dans A, appelée algèbre associée à la
variable aléatoire X.
2. La somme, le produit, le quotient (si le dénominateur ne s’annule pas) de deux
variables définies sur le même ensemble Ω est une variable aléatoire définie sur Ω.
3. Si ϕ est une fonction à valeurs dans R définie sur X(Ω), la composée ϕ ◦ X est une
v. a. définie sur Ω.
Propriété 1.1.2. Si X est une variable aléatoire finie à valeurs dans {x1 , x2 , ..., xn }, la
loi de X vérifie :
n
X
P (X = xi ) = 1.
i=1
il existe un espace probabilisé (Ω, A, P ) et une variable aléatoire X définie sur (Ω, A, P )
telle que L est la loi de X.
Propriété 1.1.3.
Soit FX la fonction de répartition d’une variable aléatoire X. Alors :
1. ∀x ∈ R, FX (x) ∈ [0, 1] ;
2. FX est une fonction croissante sur R ;
3. FX est continue à droite et admet une limite à gauche en tout point de R ;
4. lim FX (x) = 0 et lim FX (x) = 1 ;
x→−∞ x→+∞
5. Pour tous réels a et b, P (a < X 6 b) = FX (b) − FX (a).
Réciproquement, toute application de R dans [0, 1] vérifiant ces propriétés est la fonction
de répartition d’une variable aléatoire X.
• toute variable aléatoire réelle X dont l’image X(Ω) est finie, est une variable
aléatoire réelle discrète finie ;
• toute variable aléatoire réelle X dont l’image X(Ω) est infinie dénombrable, est
une variable aléatoire réelle infinie.
Dit autrement, toute variable aléatoire à valeurs dans une partie au plus dénombrable de
R est une variable aléatoire discrète.
Remarque 1.2.1.
∀i ∈ I, [X = xi ] ∈ A.
Proposition 1.2.2. Pour tout espace probabilisable (Ω, A) et pour tout réel a, l’applica-
tion (
Ω −→ R
X :
ω 7−→ a
est une variable aléatoire discrète finie appelée variable aléatoire constante ou cer-
taine.
Cette variable prend la même valeur connue a quel que soit le résultat de l’épreuve :
PX (X = a) = 1.
Proposition 1.2.3. Pour tout espace probabilisable (Ω, A) et tout événement A, l’appli-
cation
Ω −→ R
(
X : 1 si ω ∈ A
ω 7−→
0 si ω ∈
/A
est une variable aléatoire discrète finie appelée variable aléatoire indicatrice de
l’événement A, notée généralement 1A .
Théorème 1.1. Soit X une variable aléatoire discrète de l’espace probabilisable (Ω, A).
On note X(Ω) = {xi , i ∈ I}, où I est une partie de N. Alors la famille ([X = xi ])i∈I est
un système complet d’événements, appelé le système complet d’événements associé
à X
X(Ω) −→ R
x 7−→ P ([X = x])
Ainsi, déterminer la loi de X revient à déterminer X(Ω) et calculer, pour tout x ∈ X(Ω),
la probabilité P ([X = x]). Si X(Ω) = {xi , i ∈ I}, où I est une partie de N, on détermine
la famille (pi )i∈I , où pi = P ([X = xi ]).
Proposition 1.2.4. Soit X une variable aléatoire discrète de l’espace probabilisé (Ω, A, P ).
• Si X est une variable aléatoire finie telle que X(Ω) = {x1 , x2 , ..., xn }, on a
n
X
P ([X = xk ]) = 1.
k=1
Fonction de répartition
Les fonctions de répartition des variables aléatoires discrètes possèdent les propriétés
énoncées dans la première partie, c’est-à-dire qu’elles sont croissantes, ont pour limite 0
en −∞ et 1 en +∞, sont continues à droite en tout point.
La fonction de répartition FX d’une variable aléatoire discrète X est continue en tout
point x tel que P ([X = x]) = 0 et en particulier en tout point x tel que x ∈
/ X(Ω), car
alors [X = x] = ∅.
Proposition 1.2.5.
Soit X une variable aléatoire finie sur l’espace probabilisé (Ω, A, P ). On pose X(Ω) =
{x1 , x2 , ..., xn } et l’on suppose que x1 < x2 < ... < xn . Alors la fonction de répartition FX
est une fonction en escalier croissante. On a, plus précisément
• FX (x) = 0 si x < x1 ;
• pour tout k ∈ [1, n − 1] et tout x ∈ [xk , xk+1 [,
• FX (x) = 1 si x > xn .
Dans le cas où X(ω) est dénombrable, la fonction de répartition d’une telle variable
aléatoire réelle discrète est une fonction en escalier généralisé , possédant une infinité
de discontinuités.
Proposition 1.2.6.
Soit X une variable aléatoire réelle discrète dans un espace probabilisé (Ω, A, P ) telle que
X(Ω) ⊂ Z. Alors, pour tout entier n ∈ Z, la fonction FX est constante sur [n, n + 1[.
(
Ω −→ R
Y :
ω 7−→ g(X(Ω))
est notée g(X).
En fait, g(X) n’est rien d’autre que la composée g ◦ X. La notation s’accorde avec la
terminologie qui appelle variable l’application X.
Exemple 1.2.1. Dans une urne contenant une infinité de boules numérotées sur Z, un
joueur prélève une boule, de façon que la probabilité que la boule numéro i soit prélevée
1
est .
2.3|i|
1
La définition est raisonnable. En effet, d’une part > 0 pour tout i ∈ Z et comme
2.3|i|
1 1
d’autre part |−i|
= , on obtient
2.3 2.3|i|
X 1 X 1 +∞
1 X 1 1 1 1
= 2 − = − = 1 − = 1.
i∈Z
2.3|i| i∈N
2.3|i| 2.30 i=0
3i 2 1− 3
2
Remarques 1.2.1.
• Toute variable aléatoire réelle discrète finie admet donc une espérance.
• L’espérance est la moyenne des valeurs prises par X pondérées par la probabilité
que X prenne cette valeur. L’espérance mathématique est donc une généralisation
de la notion de moyenne.
Proposition 1.2.8. Pour tout événement A de l’espace probabilisé (Ω, A, P ), la variable
aléatoire indicatrice 1A de l’événement A admet une espérance égale à E(1A ) = P (A).
Pour tout réel a, la variable aléatoire réelle discrète X certaine égale à a admet a comme
espérance.
Preuve .
• Rappelons que la variable aléatoire indicatrice de l’événement A est la variable
aléatoire
Ω −→ R
(
1A : 1 si ω ∈ A
Ω 7−→
0 si ω ∈
/A
Définition 1.2.5. Soit X une variable aléatoire réelle infinie sur l’espace probabilisé
(Ω, A, P ), X(Ω) = {xi , i ∈ N}. Si la série de terme général xi P ([X = xi ]) converge
absolument, on dit alors que X admet une espérance mathématique (ou espérance)
égale au nombre réel
+∞
X
E(X) = xi P ([X = xi ]).
i=0
Remarques 1.2.2.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• on impose la convergence absolue de la série, car dans le cas d’une série qui
est convergente mais pas absolument convergente, la somme de la série varie si
l’on fait subir aux indices i une permutation arbitraire de N. Ainsi, la valeur de
+∞
X
xi P ([X = xi ]) dépendrait de la numérotation des éléments de X(ω).
i=0
• Toute variable aléatoire réelle discrète X telle que X(Ω) = N admet une espérance
si, et seulement si, la série de terme général nP ([X = n]) converge (en effet, elle
est à termes positifs).
En cas de convergence,
+∞
X +∞
X
E(X) = nP ([X = n]) = nP ([X = n]).
n=0 n=1
• Toute variable aléatoire réelle discrète X telle que X(Ω) = Z admet une espérance
si et seulement si les séries de termes généraux nP ([X = n]) et nP ([X = −n])
convergent (ces séries sont à termes de signe constant donc la convergence absolue
équivaut à la convergence). En cas de convergence de ces séries, on a
+∞
X +∞
X
E(X) = (−n)P ([X = −n]) + nP ([X = n]),
n=1 n=0
Exemple 1.2.2. Reprenons la variable aléatoire X de l’exemple 1.2.1. Ici X est la variable
aléatoire égale au numéro de la boule prélevée dans une urne en contenant une infinité de
boules numérotées sur Z. La loi de X est définie par
1
∀k ∈ Z, P ([X = k]) = .
2.3|k|
k
La série de terme général converge, donc X admet une espérance et
2.3|k|
+∞ +∞
X −k X k
E(X) = k
+ = 0.
k=1
2.3 k=0
2.3k
Remarque 1.2.2. Il existe des variables aléatoires réelles infinies qui n’admettent pas
d’espérance mathématique.
1
Par exemple, la variable aléatoire telle que X(Ω) = N∗ et P ([X = n]) = , pour
n(n + 1)
tout n ∈ N∗ . Cette variable n’admet pas d’espérance. En effet, la série de terme général
1
nP ([X = n]) = diverge.
n+1
Ce théorème signifie que l’ensemble des variables aléatoires sur (Ω, A, P ) admettant une
espérance, forment un espace vectoriel et que l’application X 7−→ E(X) définie sur cet
espace vectoriel est linéaire.
Corollaire 1.2.1. Soit X une variable aléatoire réelle admettant une espérance mathéma-
tique E(X). Pour tout couple (a, b) de réels, aX+b est une variable aléatoire réelle discrète
admettant aE(X) + b comme espérance.
Remarque 1.2.3. Le théorème 1.3 est utile pour calculer l’espérance d’une variable dont
on ne connaı̂t pas la loi mais qu’on sait décomposer en somme de variables aléatoires plus
simples.
Exemple 1.2.3. On considère un entier n > 2 et une urne contenant n jetons numérotés
de 1 à n. On prélève ces jetons successivement et sans remise. On note (u1 , ..., un ) la liste
des numéros successivement tirés. Pour 2 > i > n, on dit qu’il y a montée (respec-
tivement descente ) au i-ième tirage si ui > ui−1 (resp. ui < ui−1 ). On note X (resp.
Y ) la variable aléatoire égale au nombre total de montées (resp. de descentes).
X = X2 + · · · + Xn .
Pour i ∈ [2, n], l’événement [Xi = 1] est réalisé si ui−1 < ui . On choisit deux éléments de
[1, n] au hasard, le plus petit est ui−1 , le plus grand ui ; les n − 2 autres jetons peuvent
être tirés dans un ordre quelconque. On trouve
Cn2 (n − 2)! 1
P ([Xi = 1]) = = .
n! 2
1
On en déduit que E(Xi ) = P ([Xi = 1]) = , puis
2
n
X 1 n−1
E(X) = = .
i=2
2 2
On peut procéder de la même manière pour Y , mais on peut remarquer simplement que
X + Y = n − 1, car s’il n’y a pas montée au i-ième tirage, il y a descente. On en déduit
que
n−1
E(Y ) = n − 1 − E(X) = .
2
Définition 1.2.6. Toute variable aléatoire réelle discrète admettant une espérance mathé-
matique nulle est dite centrée.
Proposition 1.2.9.
Pour toute variable aléatoire réelle discrète X admettant une espérance mathématique
E(X), la variable aléatoire X − E(X) est une variable aléatoire appelée la variable
aléatoire centrée associée à X.
E(X) 6 E(Y ).
Théorème 1.5.
Soit X une variable aléatoire réelle discrète telle que X(Ω) = {xn , n ∈ N} et g une ap-
plication de X(Ω) dans R, la variable aléatoire g(X) admet une espérance si et seulement
si la série de terme général g(xn )P ([X = xn ]) est absolument convergente, et l’on dispose
alors de l’égalité
+∞
X
E g(X) = g(xn )P ([X = xn ]).
n=0
Remarque 1.2.4. Toute variable aléatoire réelle discrète admet un moment d’ordre r
pour tout entier naturel r.
Définition 1.2.8. Soient r un entier naturel et X une variable aléatoire réelle discrète
infinie sur l’espace probabilisé (Ω, A, P ), telle que X(Ω) = {xi , i ∈ N}. Si la série de
terme général xri P ([X = xi ]) converge absolument, on dit alors que X admet un moment
d’ordre r égal au nombre réel
+∞
X
mr (X) = xri P ([X = xi ]).
i=1
Remarques 1.2.3.
• La définition dans le cas fini apparaı̂t comme un cas particulier de celle-ci, une
somme finie pouvant être considérée comme la somme d’une série absolument
convergente dont une infinité de termes sont nuls.
• Si r est pair, la convergence absolue équivaut à la convergence, car la série de terme
général xrn P ([X = xn ]) est à termes positifs.
• Le moment d’ordre 0 est égal à 1, celui d’ordre 1 est l’espérance mathématique.
Proposition 1.2.12.
Soient X une variable aléatoire réelle discrète et r entier naturel. La variable X admet
un moment d’ordre r si et seulement si la variable aléatoire réelle discrète X r admet une
espérance et, dans ce cas, mr (X) = E(X r ).
Proposition 1.2.13.
Si une variable aléatoire réelle discrète X admet un moment d’ordre r, alors pour tout
entier naturel k 6 r, elle admet un moment d’ordre k.
Remarques 1.2.4.
• Toute variable aléatoire réelle discrète finie admet une variance.
• La variance est la moyenne du carré de la distance entre les valeurs de X et la
moyenne de X. La variance est donc une mesure de la dispersion de X par
rapport à E(X).
• Comme la variable X − E(X) est centrée, la variance est aussi appelée moment
centré d’ordre 2.
1
Exemple 1.2.5. Soit X une variable aléatoire telle que XΩ) = Z et P ([X = k]) = ,
1.3|k|
pour tout k ∈ Z. Nous avons déjà démontré précédemment que son espérance est nulle.
k
k2 k2 1
La série de terme général = converge, car son terme général est équivalent
2.3k 2 3
k k−2
1 1 1 1
à k(k −1) = k(k −1) qui est la dérivée seconde d’une série géométrique
2 3 18 3
de raison 13 . On en déduit que X possède un moment d’ordre 2
+∞ 2 k k
2
X k 1 +∞ 2 1
E(X ) = 2 = sumk=1 k .
k=1
2 3 3
On reconnaı̂t dans ces deux séries la dérivée seconde et la dérivée de la série géométrique
1
de raison . On en déduit
3
1 2 1 1 3
E(X 2 ) = 1 3 + 1 2 = .
9 (1 − 3 ) 3 (1 − 3 ) 2
V (aX + b) = a2 V (X).
Définition 1.2.11. Soit X une variable aléatoire réelle admettant un moment d’ordre 2.
Si E(X) = 0 et σ(X) = 1, la variable aléatoire X est dite centrée réduite.
Proposition 1.2.16. Si X est une variable aléatoire réelle discrète X admettant une
X − E(X)
variance nulle, la variable aléatoire réelle discrète X ∗ = est une variable
σ(X)
aléatoire réelle discrète centrée réduite, appelée la variable aléatoire réelle centrée
réduite associée à X.
Remarques 1.3.1. Z +∞
• Si la fonction f est discontinue en a1 < · · · < an de f (t)dt équivaut à la
Z a1 Z a2 −∞ Z +∞
convergence de chacune des intégrales f (t)dt, f (t)dt,..., f (t)dt qui
−∞ −a1 an
sont toutes généralisées.
Z +∞ Z x
La convergence de f (t)dt implique celle de f (t)dt pour tout réel x.
−∞ −∞
• S’il y a nécessité de préciser, on notera FX la fonction de répartition et fX une
densité de X.
Théorème 1.6.
Soit f une fonction Z de R dans R positive ou nulle, continue sauf en un nombre fini de
+∞
points et telle que f (t)dt = 1. Alors il existe un espace probabilisé (Ω, A, P ) et une
−∞
variable aléatoire X, définie sur cet espace probabilisé, dont f est une densité.
Rappelons les propriétés vérifiées par la fonction de répartition d’une variable aléatoire
quelconque. La fonction de répartition d’une variable aléatoire quelconque est croissante,
a pour limite 0 en −∞ et 1 en +∞ ; elle est continue à droite en tout point et, pour tout
réel x, lim
−
F = F (x) − P ([X = x]).
x
Théorème 1.7.
Soit F la fonction de répartition d’une variable aléatoire réelle à densité X, f une densité
de X. Alors
Théorème 1.8.
Soit X une variable aléatoire réelle de fonction de répartition F . Si F est continue sur R
de classe C 1 sauf en un nombre fini de points, alors X est une variable à densité. Si f est
une fonction positive ou nulle telle que F 0 (x) = f (x) en tout point x où F est dérivable,
f est une densité de X.
Théorème 1.9.
Soit X une variable aléatoire réelle à densité X. Pour tout réel x, on dispose de l’égalité
P ([X = x]) = 0.
Proposition 1.3.1.
Soit f une densité et F la fonction de répartition d’une variable aléatoire réelle X. Pour
tout réel x, on dispose des égalités
Z x
P ([X 6 x]) = P ([X < x]) = F (x) = f (t)dt,
−∞
Z +∞
P ([X > x]) = P ([X > x]) = 1 − F (x) = f (t)dt.
x
P ([a < X < b]) = P ([a 6 X < b]) = P ([a < X 6 b]) = P ([a 6 X 6 b])
Z b
= F (b) − F (a) = f (t)dt.
a
Interprétation géométrique
Remarques 1.3.2.
• Pour une variable aléatoire à densité X, tous les événements [X = x] sont quasi-
impossibles. La situation est radicalement différente de celle d’une variable discrète
X. Pour une telle variable, on a P ([X = x]) 6= 0 pour tout x ∈ X(Ω) et on appelle
loi de X la donnée de P ([X = x]) pour tout x ∈ X(Ω). Quand on parle de loi
d’une variable à densité, il s’agit de la donnée de f ou de F .
• La remarque précédente montre qu’une variable discrète ne peut pas être une
variable à densité. Il s’agit de deux ensembles disjoints de variables aléatoires.
• On peut préciser la signification d’une densité. Soit a un point où f est continue
et vérifie f (a) 6= 0. Comme
Définition 1.3.2. Soit X une variable à densité définie sur l’espace probabilisable (Ω, A, P ),
I un intervalle de R. On dit que X est à valeurs dans I si P ([X ∈ I]) = 1.
Proposition 1.3.3. Soit X une variable aléatoire réelle de densité f et (a, b) un couple
de réels tel que a 6= 0. Alors Y = aX + b est une variable aléatoire réelle admettant une
densité g définie par
1 y−b
∀y ∈ R, g(y) = f( ).
|a| a
Si a = 0, Y est la variable aléatoire certaine b, discrète. Ce n’est pas une variable à densité.
f ◦ ϕ−1 (y)
g(y) = f ◦ ϕ−1 (y)|(ϕ−1 )0 (y)| = .
|ϕ0 ◦ ϕ−1 (y)|
Ainsi, [Y 6 y] est un événement pour tout réel y, donc Y est une variable aléatoire et
(
0 si y 6 0
FY (y) =
FX (ln(y)) si y > 0.
Donc FY est continue sur R. Elle est de classe C 1 sur R∗ . Ansi Y est une variable aléatoire
réelle à densité dont une densité g est nulle sur R− et définie pour y > 0 par
f (ln(y))
g(y) = FY0 (y) = FX0 (ln(y)) ln0 (y) = ,
y
si FY est dérivable en ln(y). En les points où FY n’est pas dérivable, on peut prendre g
quelconque, donc égale encore à cette expression.
Proposition 1.3.4.
Si X est une variable aléatoire à densité et n un entier naturel non nul, X n est une
variable aléatoire à densité.
La fonction t 7−→ tf (t) étant positive sur R+ et négative sur R− , l’absolue convergence
équivaut en fait àla convergence ici.
Montrons que f est une densité d’une variable aléatoire réelle qui admet une espérance.
La fonction f est positive, car x(1−x) > 0 pour x ∈ [0, 1], et continue, sauf éventuellement
en 0 et 1. D’autre part, on a
Z +∞ Z 1 1
6x(1 − x)dx = 3x2 − 2x3 0 = 3 − 2 = 1
f (x)dx =
−∞ 0
1
Toute variable aléatoire réelle X de densité f possède une espérance et E(X) = .
2
Théorème 1.11. Linéarité de l’espérance
Soit X une variable aléatoire réelle admettant une densité f et une espérance E(X), et
a un réel. Alors Y = aX + b admet une espérance vérifiant
E(Y ) = aE(X) + b.
Définition 1.3.4. Toute variable aléatoire réelle à densité admettant un espérance nulle
est dite centrée.
Proposition 1.3.5.
Pour toute variable aléatoire réelle à densité X admettant une espérance E(X), la variable
aléatoire X −E(X) est une variable aléatoire réelle à densité centrée, appelée la variable
aléatoire centrée associée à X.
Théorème 1.12.
Soient X et Y deux variables aléatoires réelles à densité sur le même espace probabilisé
(Ω, A, P ), admettant chacune une espérance.
• Si la variable aléatoire réelle X + Y est une variable à densité, elle admet une
espérance et E(X + Y ) = E(X) + E(Y ).
• Si la variable aléatoire réelle à densité X est à valeurs dans R+ , possédant une
espérance, on a alors
E(X) > 0.
Si Y = ϕ(X) = ϕ ◦ X est une variable aléatoire réelle à densité, elle admet une espérance
si et seulement si l’intégrale Z
ϕ(t)f (t)dt
I
Par ailleurs, nous avons démontré précédemment qu’une densité de Y est donnée par
f ((ln(y))
g(y) = 0 si y 6 0 et g(y) = si y > 0.
y
Ainsi, l’espérance de Y est donnée sous réserve d’absolue convergence de l’intégrale par
Z +∞ Z +∞
E(Y ) = yg(y)dy = f (ln(y)) dy.
0 −∞
Proposition 1.3.7.
Soit X une variable aléatoire réelle à densité et n entier naturel. La variable X admet un
moment d’ordre n si et seulement si la variable aléatoire réelle à densité X n admet une
densité. On a alors mn (X) = E(X n ).
V (X) = E (X − E(X)) .
Exemple 1.3.5. Soit X une variable aléatoire dont une densité f est définie par
Théorème 1.14. Si X est une variable aléatoire réelle à densité admettant une variance
V (X), alors pour tout couple (a, b) de réels la variable aléatoire aX +b admet une variance
donnée par l’égalité
V (aX + b) = a2 V (X).
De plus, toute variance de variable aléatoire réelle à densité est strictement positive.
Définition 1.3.7. Soit X une variable aléatoire réelle à densité, possédant un moment
d’ordre 2. L’écart-type de la variable aléatoire réelle X est le réel strictement positif
p
σ(X) = V (X).
Proposition 1.3.9. Si X est une variable aléatoire réelle à densité, admettant un moment
X − E(X)
d’ordre 2, la variable aléatoire réelle à densité X ∗ = est une variable aléatoire
σ(X)
centrée réduite, appelée la variable aléatoire réelle centrée réduite associée à X.
X(ω) = a, ∀ω ∈ Ω.
Ainsi :
et (
0 si x < a
FX (x) =
1 si x > a.
E(X) = a et V (X) = 0.
25
26
2.1. Lois usuelles discrètes
Lorsque la variable aléatoire X suit une loi de Bernouilli, on dit que la variable aléatoire
X est une variable de Bernouilli.
Remarques 2.1.1.
1. Une épreuve de Bernouilli est une expérience aléatoire ayant deux issues pos-
sibles : le succès et l’échec. Une telle expérience peut être représentée par une variable
de Bernouilli, en notant 1 (le succès) et 0 (l’échec) les deux résultats possibles.
2. La variable indicatrice d’un événement A, notée 1A , telle que 0 < P (A) < 1 (c’est-
à-dire que cet événement n’est ni certain, ni impossible), définie par
(
1 si A est réalisé
1A =
0 sinon
Exemple 2.1.1. Dans une population de n individus, on associe à un chacun d’eux une
v. a. de Bernouilli, indicatrice de possession d’un certain caractère A :
(
1 si i possède le caractère A
Xi =
0 sinon.
Remarque 2.1.1. Une variable aléatoire qui suit la loi binomiale de paramètre (1, p) est
une variable aléatoire de Bernouilli de paramètre p. Cela justifie la notation B(1, p) pour
une variable de Bernouilli.
Exemples 2.1.1.
1. On considère une succession de n épreuves dont les résultats sont indépendants,
chacun ayant deux issues appelées succès (de probabilité p) et échec (de probabilité
q = 1 − p). Alors la variable aléatoire égale au nombre total de succès dans ces n
épreuves suit la loi binomiale de paramètre (n, p).
2. Une urne contient des boules blanches en proportion p et des boules noires en pro-
portion 1 − p. On fait n tirages avec remise dans l’urne. La variable égale au nombre
de boules blanches obtenues suit une loi binomiale de paramètre (n, p).
La variable aléatoire n − X suit la loi binomiale de paramètres (n, q), où q = 1 − q. Ainsi,
si X représente un nombre de succès parmi n expériences, alors Y = n − X mesure le
nombre d’échecs.
Np Nq
n n−k
∀k ∈ [max(0, n − N q), min(n, N p)] P ([X = k]) =
N
n
La proposition X suit la loi hypergéométrique de paramètres (N, n, p) se note X ,→
H(N, n, p).
Exemple 2.1.2. Une urne contient a boules blanches et b boules noires. On suppose que
n 6 a + b. On tire simultanément n boules dans l’urne. Soit X la variable aléatoire égale
au nombre de boules blanches obtenues. La variable X suit donc la loi hypergéométrique
a
de paramètres a + b, n, .
a+b
On retiendra que les tirages simultanés et les tirages successifs sans remise abou-
tissent à la même loi hypergéométrique.
Proposition 2.1.3. Toute variable aléatoire X qui suit la loi hypergéométrique de pa-
ramètres (N, n, p) admet une espérance et une variance
N −n
E(X) = np et V (X) = npq .
N −1
On considère une urne contenant un nombre fini de boules blanches et de boules noires
supposées indiscernables au toucher, la proportion des boules blanches dans l’urne étant p
et la proportion de boules noires q = 1 − p. On effectue une infinité de tirages d’une boule
dans l’urne, la boule tirée étant remise après chaque tirage. Les tirages sont numérotés
dans N∗ .
Soit X l’application qui, à tout élément de l’univers des possibles Ω, associe le nombre
de tirages nécessaires pour obtenir une boule blanche pour la première fois et 0 si tous
les tirages donnent une boule noire. On admet que l’univers Ω peut être muni d’une tribu
T qui contient pour tout n ∈ N l’événement An : le n-ième tirage donne une boule
blanche . On suppose que les résultats des différents tirages sont indépendants et donc
que (An ) est une suite d’événements indépendants. On a par hypothèse P (An ) = p et
donc P (An ) = 1 − p = q.
Pour tout entier k non nul, [X = k] = A1 ∩ A2 ∩ · · · ∩ Ak−1 ∩ Ak ∈ T et
On en déduit
+∞ +∞
X X p
P ([X = k]) = p qi = = 1,
k=1 i=0
1−q
Définition 2.1.5.
Soit p ∈]0, 1[.
On dit qu’une variable aléatoire réelle discrète X suit la loi géométrique de paramètre
p à valeurs dans N∗ (temps d’attente du premier succès) si X(Ω) = N∗ et
où q = 1 − p.
On dit qu’une variable aléatoire réelle discrète Y suit la loi géométrique de paramètre
p à valeurs dans N (nombre d’échecs avant le premier succès) si Y (Ω) = N et
∀k ∈ N, P ([Y = k]) = pq k ,
où q = 1 − p.
Exemples 2.1.2.
1. On effectue une infinité de lancers d’une pièce de monnaie pour laquelle la probabilité
pile est p et la probabilité d’obtenir face est q = 1−p. On note X le rang d’apparition
du premier pile et Y = X − 1. On montre comme précédemment que l’événement
on n’obtient que des faces est de probabilité nulle et que X suit la loi géométrique
de paramètre p à valeurs dans N∗ , Y la loi géométrique à valeurs dans N.
2. Le même raisonnement vaut pour toute répétition d’une épreuve à deux issues
(succès et échec) pour laquelle la probabilité de succès est p, les résultats des
différentes épreuves étant indépendants. Le temps d’attente du premier succès et le
nombre d’échecs avant le premier succès suivent des lois géométriques de paramètre
p.
Proposition 2.1.4. Toute variable aléatoire X (resp. Y ) qui suit la loi géométrique de
paramètre p ∈]0, 1[ à valeurs dans N∗ (resp. N) admet une espérance et une variance,
respectivement égales à
1 q q q
E(X) = , V (X) = et E(Y ) = , V (Y ) = ,
p p2 p p2
où q = 1 − p.
Proposition 2.1.6. La fonction de répartition d’une variable X qui suit la loi géométrique
de paramètre p à valeurs dans N∗ est la fonction
R −→ ([0, 1]
FX : 0 si x < 1
x 7−→
k
1 − q si k 6 x < k + 1, k ∈ N∗ .
Il n’est pas possible de donner un modèle simple pour la loi de Poisson. Celle-ci apparaı̂t
comme une limite. En effet, si la variable aléatoire X suit une loi binomiale avec n grand
et p proche de 0, elle suit approximativement une loi de Poisson de paramètre λ = np.
On dit que la loi de Poisson est la loi des événements rares .
Dans la pratique, on peut décrire par une loi de Poisson le nombre d’événements d’un
certain type se produisant dans une période de temps donnée, par exemple :
• le nombre de clients se présentant dans un magasin pendant une période T ;
• le nombre de véhicules franchissant un poste de péage pendant une période T ;
• le nombre d’appels reçus par un standard téléphonique pendant une période T .
Définition 2.1.7. On dit qu’une variable aléatoire réelle discrète X suit la loi de Pois-
son de paramètre λ, où λ > 0, si X(Ω) = N et
λk −λ
∀k ∈ N, P ([X = k]) = e .
k!
La proposition X suit la loi de Poisson de paramètre λ se note X ,→ P(λ).
Proposition 2.1.8. Toute variable aléatoire X qui suit la loi de Poisson de paramètre λ
admet une espérance et une variance, respectivement égales à
Définition 2.2.1. Soient a et b deux réels tels que a < b. On dit qu’une variable aléatoire
1
X suit la loi uniforme sur [a, b] si elle admet pour densité la fonction f égale à
b−a
et nulle ailleurs. On note X ,→ U([a, b]).
1
Remarque 2.2.1. La fonction f peut s’écrire f = 1[a,b] où 1[a,b] est la fonction
b−a
indicatrice définie par 1[a,b] (x) = 1 si x ∈ [a, b] et 1[a,b] (x) = 0 sinon.
Théorème 2.1. Soit une variable aléatoire réelle X suivant une loi uniforme sur [a, b].
2. Cette variable admet des moments de tous les ordres, donnés par les égalités
bn+1 − an+1
mn (X) = .
(n + 1)(b − a)
Définition 2.2.2. Soit λ un réel strictement positif. On dit qu’une variable aléatoire
réelle X suit la loi exponentielle de paramètre λ si elle admet pour densité la fonction
f nulle sur R∗− et définie, pour tout réel x > 0, par l’égalité
f (x) = λe−λx ,
et on note X ,→ E(λ).
La fonction f est définie pour tout réel x par f (x) = λe−λx 1R+ (x) .
Théorème 2.2. Soit X une variable aléatoire réelle suivant une loi exponentielle de
paramètre λ.
1. La fonction de répartition de cette variable aléatoire est donnée par
(
0 si x ∈] − ∞, 0]
F (x) = −λx
1−e si x ∈ [0, +∞[.
2. Cette variable aléatoire admet des moments de tous ordres, donnés pour tout n ∈ N,
par
n!
mn (X) =.
λn
3. L’espérance mathématique et la variance sont données par
1 1
E(X) = et V (X) = .
λ λ2
Corollaire 2.2.1. Si X suit la loi exponentielle de paramètre λ, on a pour tout x > 0,
sa fonction de survie donnée par
Définition 2.2.3. On dit qu’une variable aléatoire réelle X d’un espace probabilisé (Ω, A, P )
est sans mémoire si elle est positive ou nulle et si, pour tout couple (x, y) de réels positifs
ou nuls, on dispose de l’égalité
Théorème 2.3. Soit X une variable aléatoire positive ou nulle qui n’est pas la variable
certaine nulle. Alors X est sans mémoire si et seulement si elle est une variable aléatoire
à densité qui suit une loi exponentielle.
Définition 2.2.4. Soit m un réel et σ un réel strictement positif. On dit qu’une variable
aléatoire réelle X suit la loi normale de paramètre (m, σ 2 ) si elle admet pour densité la
fonction f définie pour tout réel x par l’égalité
1 (x − m)2
f (x) = √ exp − ,
σ 2π 2σ 2
et on note X ,→ N (m, σ 2 ).
Remarques 2.2.1.
1. On peut constater que f (2m − x) = f (x), ce qui indique que le graphe de f est
symétrique par rapport à la droite verticale x = m.
2. L’expression (x − m)2 est minimum pour x = m, ce qui va correspondre à un
maximum pour f de valeur :
1
f (m) = √ .
σ 2π
3. Pour calculer facilement la dérivée, considérons :
√ 1
ln f (x) = − ln σ 2π − 2 (x − m).
2σ
D’où en dérivant :
f 0 (x) 1
= − 2 (x − m) et σ 2 f 0 (x) = (m − x)f (x).
f (x) σ
Et en dérivant à nouveau :
d’où on déduit :
Théorème 2.4. Soit X une variable aléatoire réelle suivant la loi normale de paramètre
(m, σ 2 ).
1. Cette variable aléatoire admet une espérance mathématique égale à m et une va-
riance égale à σ 2 .
2. La fonction de répartition de cette variable aléatoire vérifie, pour tout réel x, l’égalité
Z x
(t − m)2
1
F (x) = P ([X 6 x]) = √ exp − .
σ 2π −∞ 2σ 2
Définition 2.2.5. On dit qu’une variable aléatoire réelle X suit la loi normale centrée
réduite si elle admet pour densité la fonction f définie pour tout réel x par l’égalité
x2
1
f (x) = √ exp − ,
2π 2
On note Φ la fonction de répartition d’une variable aléatoire réelle suivant une loi normale
centrée réduite.
La fonction Φ est strictement croissante sur R. Son graphe admet les droites
d’équation
1
y = 0 et y = 1 comme asymptotes. Il est symétrique par rapport au point 0, . Cela
2
1 1
résulte de l’égalité (Φ(x) + Φ(−x)) = .
2 2
Proposition 2.2.2. La variable aléatoire réelle X suit la loi normale de paramètre (m, σ 2 )
X −m
si et seulement si la variable Y = suit la loi normale centrée réduite.
σ
Grâce à cette proposition, les calculs sur les variables aléatoires gaussiennes (c’est-à-dire
suivant une loi normale) se ramènent à des calculs sur la loi normale centrée réduite.
• Pour tout x ∈ R,
Φ(−x) = 1 − Φ(x).
Les valeurs de Φ sont tabulées (uniquement pour les valeurs positives, ce qui est suffisant
en utilisant le deuxième item de cette proposition.
Proposition 2.2.4. Soit X une variable aléatoire réelle positive suivant une loi Log-
normale de paramètres m et σ > 0, alors
σ2 2 2
E(X) = em+ 2 et V (X) = (eσ − 1)e2m+σ .
Définition 2.2.7. Une variable aléatoire réelle X suit une loi Gamma de paramètres
p > 0 et θ > 0 et on note X ,→ γ(p, θ), si c’est une variable aléatoire positive dont la
densité est de la forme :
θp −θx p−1
f (x) = e x , x > 0.
Γ(p)
La fonction Γ est appelée fonction d’Euler et est définie pour tout p > 0 par :
Z +∞
Γ(p) = e−x xp−1 dx.
0
Parmi les nombreuses propriétés de la fonction Γ, on montre en intégrant par parties que
pour tout p > 1 :
Γ(p) = (p − 1)Γ(p − 1).
Γ(p) = (p − 1)!
Théorème 2.5. Soit X une variable aléatoire réelle suivant une loi Gamma de pa-
ramètres positifs p et θ, alors son espérance mathématique et sa variance sont données
par
p p
E(X) = et V (X) = .
θ θ2
V (X)
∀ε > 0, P (|X − E(X)| > ε) 6 .
ε2
De façon équivalente, on a :
V (X)
∀ε > 0, P (|X − E(X)| < ε) > 1 − .
ε2
Il en résulte
On dit alors que la suite de variables aléatoires (Zn ) converge en probabilité vers la
variable aléatoire certaine m.
De façon générale, on dit que la suite de variables aléatoires (Xn ) converge en probabilité
vers la variable aléatoire X si et seulement si :
λk
∀k ∈ N, lim P (Xn = k) = e−λ .
n→∞ k!
On dit que la suite de variables aléatoires (Xn ) converge en loi vers une variable aléatoire
de Poisson P(λ).
Sn = X1 + X2 + · · · + Xn ,
Comme nous avons associé un nombre à une expérience aléatoire, dans certains cas
nous pouvons être amené à en associer plusieurs. Par exemple, le jet de deux dés distincts
ne peut être codé avec une seule valeur numérique. De même, à un individu d’une po-
pulation donnée, on peut associer son revenu et sa consommation. On est alors amené à
associer à de telles épreuves aléatoires deux, voire plusieurs valeurs numériques, au moyen
donc de plusieurs applications qui seront des variables aléatoires pouvant être regroupées
dans un vecteur, ce qui conduit à la généralisation en multidimensionnel de la notion de
variable aléatoire réelle : un vecteur aléatoire.
Dans ce chapitre, nous nous limiterons au cas bidimensionnel, celui d’un couple aléatoire,
en distinguant toujours les cas discret et continu.
où X et Y sont des variables aléatoires discrètes sur (Ω, A). On note Z = (X, Y ) ce
couple de variables.
Remarque 3.1.1. Si Ω est fini, un couple de variables aléatoires discrètes est tout sim-
plement une application de Ω dans R2 .
39
40
3.1. Couples de variables aléatoires réelles discrètes
Exemple 3.1.1. On lance une infinité de fois une pièce de monnaie. On note X le rang
d’apparition du premier pile et Y le rang d’apparition du second pile. Alors (X, Y ) est un
couple de variables aléatoires discrètes.
Proposition 3.1.1.
Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On note X(Ω) = {xi , i ∈ I}
et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. Alors la famille d’événements
[X = xi ] ∩ [Y = yj ]
(i,j)∈I×J
est appelée loi du couple (X, Y ) ou loi conjointe des variables aléatoires X et Y .
Remarques 3.1.1.
• Si X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N, il
s’agit de déterminer la famille (pi,j )(i,j)∈I×J où pi,j = P ([X = xi ] ∩ [Y = yj ]).
• Si les variables X et Y sont finies, il existe des entiers naturels non nuls n et m
tels que X(Ω) = {x1 , ..., xn } et Y (Ω) = {y1 , ..., ym }. La loi peut être représentée
par un tableau à double entrée, les lignes correspondant aux valeurs de X(Ω) et
les colonnes à celles de Y (Ω) : sur la i-ième ligne et la j-ième colonne, on place
P ([X = xi ] ∩ [Y = yj ]).
Exemple 3.1.2. Dans une succession de pile ou face pour laquelle la probabilité d’obtenir
pile est p ∈]0, 1[ et la probabilité d’obtenir face est q = 1−p, on note X le rang d’apparition
du premier pile et Y le rang d’apparition du second pile. On a X(Ω) = N∗ et Y (Ω) =
|[2, ..., ∞|[. Soit (n, k) ∈ X(Ω) × Y (Ω).
• Si n > k, on a par définition de X et Y , P ([X = n] ∩ [Y = k]) = 0.
• Si n < k, l’événement [X = n] ∩ [Y = k] est réalisé si on obtient pile aux n-ième
et k-ième lancers, les tirages entre le premier et le k-ième différents de ces deux-là
donnant face. Les résultats des différents lancers étant indépendants, on obtient
On en déduit
+∞ X
+∞ +∞
X X p
P ([X = n] ∩ [Y = k]) = p q n−1 = = 1.
n=1 k=1 n=1
1−q
Théorème 3.1. Soit (X, Y ) un couple de variables aléatoires réelles discrètes. On pose
X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On dispose
alors des égalités suivantes
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]),
j∈J
X
∀j ∈ J, P ([Y = yj ]) = P ([X = xi ] ∩ [Y = yj ]).
i∈I
Remarques 3.1.2.
• Les sommes considérées sont finies ou infinies.
Si Y est finie, on pose Y (Ω) = {y1 , ..., ym } et on obtient
m
X
∀i ∈ I, P ([X = xi ]) = P ([X = xi ] ∩ [Y = yj ]).
j=1
Exemple 3.1.4. Déterminons les lois marginales du couple dont on a déterminé les lois
conjointes. Si X et Y représentent le rang d’apparition du premier et du deuxième pile
dans une suite infinie de lancers d’une pièce, on a obtenu, pour n ∈ N∗ et k > 2,
(
p2 q k−2 si n < k
P ([X = n] ∩ [Y = k]) =
0 si n > k.
On obtient, pour tout n ∈ N,
+∞
X +∞
X
P ([X = n]) = P ([X = n] ∩ [Y = k]) = p2 q k−2
k=n+1 k=n+1
+∞
X 1
p2 q n+j−1 = p2 q n−1 = pq n−1
k=n+1
1−q
On constate sans surprise que la variable aléatoire X suit une loi géométrique de pa-
ramètre p (temps d’attente du premier succès). La variable aléatoire Y , temps d’attente
du deuxième succès, suit la loi de Pascal de paramètre (2, p).
Remarque 3.1.3. La connaissance des lois marginales ne suffit pas à reconstituer la loi
conjointe d’un couple de variables aléatoires.
X(Ω) −→ R
P ([X = x] ∩ [Y = y])
x 7−→ = P[Y =y] ([X = x])
P ([Y = y])
Y (Ω) −→ R
P ([X = x] ∩ [Y = y])
y 7−→ = P[X=x] ([X = x])
P ([X = x])
Remarques 3.1.3.
• La première loi conditionnelle est la loi de la variable X dans l’espace probabilisable
(Ω, A, P[Y =y] ) où P[Y =y] est la probabilité conditionnelle à l’événement [Y = y]. De
même la seconde est la loi de Y dans l’espace probabilisable (Ω, A, P[X=x] ).
• Au lieu de loi conditionnelle à [Y = y], on dit aussi loi sachant [Y = y].
La loi conditionnelle à [Y = k] est la loi uniforme sur |[1; k − 1]|. Cela peut s’expliquer
ainsi : une fois [Y = k] réalisé, il y a dans les k − 1 premiers lancers exactement un pile
(puisque Y est le deuxième pile). La probabilité d’obtenir pile étant la même à tous les
lancers, il est réparti de manière équiprobable sur |[1; k − 1]|.
Pour tout n > 1, on a
2 k−2
pq = pq k−n−1 si k > n + 1
P[X=n] ([Y = k]) = pq n−1
0 si k 6 n.
Proposition 3.1.3. Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, A, P ).
On pose X(Ω) = {xi , i ∈ I} et Y (Ω) = {yj , j ∈ J}, où I et J sont des parties de N. On
suppose que, pour tout (k, l) ∈ I × J, P ([X = xk ]) 6= 0 et P ([Y = yl ]) 6= 0. On a, pour
tout (i, j) ∈ I × J,
Proposition 3.1.4. Soient X et Y deux variables aléatoires réelles discrètes sur l’espace
probabilisé (Ω, A, P ). Si les variables aléatoires X et Y sont indépendantes, alors pour
toute partie E de X(Ω) et de toute partie F de Y (Ω), les événements [X ∈ E] et [Y ∈ F ]
sont indépendants.
Proposition 3.1.5. Pour tout couple (X, Y ) de variables aléatoires réelles discrètes de
l’espace probabilisé (Ω, A, P ), toute fonction f de X(Ω) à valeurs dans R et toute fonction
g de Y (Ω) à valeurs dans R, si les variables aléatoires réelles X et Y sont indépendantes,
alors f (X) et g(Y ) sont des variables aléatoires réelles discrètes indépendantes.
est une variable aléatoire réelle discrète. Sa loi de probabilité est définie, pour tout z ∈
Z(Ω) par
X
P ([Z = z]) = P ([X = x] ∩ [Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z
X
P ([Z = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z
X
P ([X + Y = z]) = P ([X = x])P ([Y = y]).
(x,y)∈X(Ω)×Y (Ω)
g(x,y)=z
n X
X m
E(Z) = g(xi , yj )P ([X = xi ] ∩ [Y = yj ]).
i=1 j=1
Définition 3.2.2. Soit (X, Y ) un couple de variables aléatoires réelles définies sur un
espace probabilisé (Ω, A, P ), de fonction de répartition F . On dit que (X, Y ) possède une
densité s’il existe une fonction f : R2 7−→ R vérifiant :
1. f positive ou nulle ;
Z Z Z Z
2. l’intégrale double f (t, u)dtdu converge et f (t, u)dt du = 1 ;
R2 R2
telle que, pour tout réel (x, y) ∈ R2 ,
Z Z
F (x, y) = f (t, u)dt du.
]−∞,x]×]∞,y]
Z Z
2
Théorème 3.4. Soit f une fonction de R dans R positive ou nulle, telle que f (t, u)dt du =
R2
1. Alors il existe un espace probabilisé (Ω, A, P ) et un couple de variables aléatoires (X, Y ),
défini sur cet espace probabilisé, dont f est une densité.
Donc f est la densité d’un couple (X, Y ) de variables aléatoires. On dit que (X, Y ) suit
la loi uniforme sur [0, 1]2 .
∂ 2F ∂ 2F
f (x, y) = (x, y) = (x, y).
∂x∂y ∂y∂x
Exemple 3.2.2. Examinons la fonction de répartition d’un couple suivant la loi uniforme
sur le carré [0, 1]2 dont la densité a été introduite précédemment. Les variables aléatoires
X et Y sont à valeurs dans [0, 1], donc F (x, y) = P ([X 6 x] ∩ [Y = y]) = 0 si x < 0 ou
y < 0.
Si (x, y] ∈ [0, 1]2 , on a
Z Z Z Z Z x Z y
F (x, y) = f (u, v)du dv = du dv = du dv = xy.
[0,1]×[0,1] [0,1]×[0,1] 0 0
On obtient en particulier, si I = [a, b] et J = [c, d], où a, b, c, d sont des réels tels que
a < b et c < d,
Z b Z d
P ([a 6 X 6 b] ∩ [c 6 Y 6 d]) = f (x, y)dy dx.
a c
Définition 3.2.3. Si (X, Y ) est un couple de variables aléatoires possédant une densité,
les densités des variables X et Y sont appelées les densités marginales du couple.
Si x ∈/ [0, 1], on a f (x, y) = 0 pour tout réel y et donc fX (x) = 0. Si x ∈ [0, 1], on obtient
R1
f (x, y) = 1 si y ∈ [0, 1] et f (x, y) = 0 sinon. On en déduit que fX (x) = 0 dy = 1. On
reconnaı̂t la densité de la loi uniforme sur [0, 1]. Ainsi X ,→ U([0, 1]). On démontre qu’il
en est de même de Y .
f (x, y)
fY /[X=x] =
fX (x)
De même, pour tout réel y tel que fY (y) > 0, la fonction fX/[Y =y] définie par
f (x, y)
fX/[Y =y] =
fY (y)
est la densité d’une variable aléatoire, appelée densité de X conditionnelle à [Y = y]. On
dit aussi que c’est la densité de la loi de X conditionnelle à [Y = y].
La loi conditionnelle à [X = x] est pour tout x ∈ [0, 1], la loi uniforme sur [0, 1]. On
obtient le même résultat pour la loi de X conditionnelle à [Y = y].
Exemple 3.2.5. Si (X, Y ) suit une loi uniforme sur [0, 1]2 , X et Y suivent des lois
uniformes sur [0, 1]. On a, pour (x, y) ∈ [0, 1]2 , f (x, y) = fX (x) = fY (y) = 1 et donc
/ [0, 1]2 , car alors f (x, y) = 0 et soit
f (x, y) = fX (x)fY (y). Cela reste vrai si (x, y) ∈
fX (x) = 0, soit fY (y) = 0. Les variables X et Y sont donc indépendantes.
3.3.1 Covariance
Définition 3.3.1. Soient X et Y deux variables aléatoires réelles (discrètes ou admettant
une densité) admettant une espérance. Si la variable (X − E(X))(Y − E(Y )) admet une
espérance, on appelle covariance de X et Y (ou du couple (X, Y )) le réel noté Cov(X, Y )
défini par
Cov(X, Y ) = E (X − E(X))(Y − E(Y )) .
Théorème 3.14.
• Pour tout couple discret (X, Y ) de variables aléatoires réelles admettant un moment
d’ordre 2, la variable aléatoire réelle discrète X + Y admet une variance égale à
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
• Plus généralement, pour toute famille finie (X1 , ..., Xn ) de n variables aléatoires
réelles admettant un moment d’ordre 2, la variable aléatoire réelle X1 +X2 +· · ·+Xn
admet une variance
n
X X
V (X1 + X2 + · · · + Xn ) = V (Xk ) + 2 Cov(Xi , Xj ).
k=1 16i<j6n
Cov(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )
Théorème 3.16. Pour tout couple (X, Y ) de variables aléatoires réelles admettant un
coefficient de corrélation linéaire, on dispose des inégalités
−1 6 ρ(X, Y ) 6 1.
Définition 3.3.3. Si deux variables aléatoires réelles sur le même espace probabilisé
vérifient Cov(X, Y ) = 0, on dit qu’elles sont non corrélées.
Proposition 3.3.1. Deux variables aléatoires réelles indépendantes sont non corrélées.
Remarque 3.3.2. La réciproque est fausse. Deux variables aléatoires non corrélées ne
sont pas nécessairement indépendantes.
Échantillonnage et estimation
53
54
4.1. Échantillons d’une loi de probabilité
4.1.1 Définitions
Définition 4.1.1. Soit L une loi de probabilité sur un espace probabilisé (Ω, A, P ).
On appelle échantillon de taille n (ou n-échantillon) de la loi L, une suite En =
(X1 , X2 , ..., Xn ) de n variables aléatoires Xi suivant toute la loi L.
La loi L est la loi parente de l’échantillon.
Remarques 4.1.1.
• La donnée de la suite finie (X1 , X2 , ..., Xn ) équivaut naturellement à la donnée du
vecteur aléatoire (X1 , X2 , ..., Xn ).
La variable aléatoire Xi se déduit donc de l’échantillon par projection sur le i-ième
vecteur de la base canonique de Rn .
• Pour tout possible ω de la tribu A, la réalisation
Remarque 4.1.1. Une statistique sur En est une variable aléatoire définie sur le même
espace probabilisé (Ω, A, P ) que la loi parente L de l’échantillon En .
Exemple 4.1.1. Le résultat du lancer d’un dé supposé bien équilibré, est régit par la
loi uniforme discrète sur |[1, 6]|. En lançant le dé 100 fois, on réalise un 100-échantillon
E100 = (X1 , X2 , ..., X100 ) de cette loi. Si l’on cherche à illustrer la loi des grands nombres,
on est conduit à calculer la moyenne des résultats obtenus, c’est-à-dire à étudier la variable
100
1 X
aléatoire Y = Xk .
100 k=1
Cette statistique s’appelle la moyenne empirique de l’échantillon E100 .
Remarques 4.1.2.
• Une fonction de répartition d’échantillon est une statistique qui dépend du réel x.
Ce n’est pas une fonction de répartition au sens usuel du terme. En effet, pour un
x fixé, Fn (x) est une variable aléatoire.
• La variable aléatoire Fn (x) représente le pourcentage (aléatoire) des valeurs prises
par les variables aléatoires composant l’échantillon et qui sont inférieures ou égales
à x.
• On peut dire que Fn (x) est une variable aléatoire dont chaque réalisation est une
1
fonction en escalier dont les sauts sont des multiples de .
n
Théorème 4.1. Pour tout réel x, la suite de variables aléatoires Fn (x) converge en
probabilité (donc en loi) vers la variable aléatoire constante égale à F (x)
∀x ∈ R, Fn (x) −→ F (x).
P
Remarque 4.1.2. Ce théorème, ainsi que ce que ceux évoqués à la première remarque,
constituent l’argument fondamental qui justifie l’utilisation d’échantillons statistiques.
X n −→ m.
P
√ Xn − m
n −→ Y, avec Y ,→ N (0, 1).
σ L
Théorème 4.5. Soit Sn2 la variance empirique associée à un n-échantillon iid d’une loi
n−1 2
L d’espérance m et de variance σ 2 . Alors E(Sn2 ) = σ .
n
4.2 Estimateurs
La loi de cette variable aléatoire X est inconnue. Le travail du statisticien consiste alors,
à partir d’un échantillon de cette loi inconnue, à rechercher quelle loi théorique on peut
retenir comme loi parente de l’échantillon.
Dans la grande majorité des cas, on suppose que l’échantillonnage a été effectué de manière
indépendante, et que les résultats successifs sont des réalisations de variables aléatoires
suivant la même loi, de telle manière que l’échantillon obtenu soit un échantillon iid. On
dit alors parfois que l’on est dans les conditions d’échantillonnage aléatoire simple.
Dans certains cas, on ne connaı̂t rien à priori sur la loi de X. Mais souvent, des considé-
rations sur les conditions de l’expérimentation permettent de préciser que la loi cherchée
appartient à une certaine famille (µθ )θ∈Θ de lois µθ dépendant d’un paramètre θ réel ou
vectoriel, dont on sait qu’il appartient à un certain ensemble Θ. C’est ce seul cas que nous
envisageons dans ce chapitre. La loi que l’on cherche à évaluer est ainsi définie par son pa-
ramètre θ0 . On dit que l’on est en présence d’un problème d’estimation paramétrique,
et nous supposons qu’à deux valeurs distinctes du paramètre, correspondent deux lois dis-
tinctes µθ et µθ0 .
Pour résumer, c’est à partir des réalisations d’un échantillon aléatoire que l’on doit évaluer
(on dit aussi estimer) la valeur de θ0 du paramètre θ (réel ou vectoriel), qui permet de
définir sans ambiguı̈té la loi µθ0 qui sera le meilleur choix possible comme loi parente de
l’échantillon dans la famille (µθ )θ∈Θ .
4.2.2 Définitions
Définition 4.2.1. Soit g une fonction de Θ dans R ; et soit En = (X1 , X2 , ..., Xn )
un n-échantillon d’un loi µθ . On appelle estimateur de g(θ0 ) toute statistique ϕn sur
l’échantillon En prenant ses valeurs dans l’ensemble g(Θ) des valeurs possibles pour g(θ).
L’estimateur est une variable aléatoire dépendant de (X1 , X2 , ..., Xn ). Comme les Xi
suivent tous la loi µθ , l’estimateur Tn est une variable aléatoire dépendant de θ.
Les valeurs observées grâce auxquelles on cherchera à évaluer g(θ0 ) sont des réalisations
de cette variable aléatoire.
Exemple 4.2.1. On considère un dé dont on sait qu’il est pipé ou non. On lance le dé
n fois. Au k−ième jet du dé, on associe la variable aléatoire Xk qui prend la valeur 1
si le résultat obtenu est 6, et 0 dans les autres cas. Les variables Xk suivent une loi de
Bernouilli de paramètre p dont (X1 , X2 , ..., Xn ) est un n-échantillon. Ici, on prend θ = p
et Θ = [0, 1].
1
La variable aléatoire Tn = (X1 + X2 + · · · + Xn ) (c’est la moyenne empirique de
n
l’échantillon) prend ses valeurs dans [0, 1]. C’est l’estimateur le plus naturel de p (= θ).
On peut envisager bien d’autres estimateurs de p. Par exemple
n n−1
2 X X
Un = kXk et Vn = Xk Xk−1
n(n + 1) k=1 k=1
Définition 4.2.3. Soit Tn un estimateur de g(θ). Si Tn admet une espérance pour tout
θ, on appelle biais de Tn le réel
Remarque 4.2.1.
• Rappelons que la variable aléatoire Tn dépend a priori de θ, et que, par conséquent
son espérance dépend de θ. C’est ainsi que cette espérance peut se noter parfois
Eθ (Tn ).
• Le biais d’un estimateur peut être positif ou négatif. Il est clair que l’on cherchera à
obtenir un estimateur admettant un biais le plus faible possible (en valeur absolue),
l’idéal étant un biais nul.
• Il arrive que l’on parle du biais de Tn en θ.
• La valeur importante du biais est bien entendu bTn (θ0 ), qui est inconnue. Si l’on
remplace ce paramètre par l’estimation qu’on en a faite, on obtient une vraie valeur
approchée du biais, si bTn est une fonction continue.
Exemples 4.2.1.
n
1X
1. Soit m l’espérance de la loi parente de l’échantillon, et considérons X n = Xk
n k=1
(moyenne empirique de l’échantillon) comme un estimateur de m. Les résultats
obtenus dans la première partie de ce chapitre permettent de conclure que X n est
un estimateur sans biais de m.
2. La variance empirique Sn2 n’est pas un estimateur sans biais de la variance σ 2 de
n−1 2
la loi parente. En effet, on a obtenu l’égalité E(Sn2 ) = σ . Le biais de la
n
2
variance empirique, en tant qu’estimateur de la la variance σ est donc bTn (θ) =
n−1 2 σ2
σ − σ2 = − .
n n
Remarques 4.2.1.
• On donne souvent le bias en valeur absolue.
• La lettre qui désigne le paramètre à estimer peut désigner tour à tour un élément
quelconque de l’ensemble des paramètres, ou la vraie valeur que l’on cherche à
estimer. Lorsque nous voulons insister sur le fait que l’on veut parler de la vraie
valeur, nous la notons avec l’indice 0.
• Lorsqu’il n’est pas nul, le biais d’un estimateur dépend en général de n et l’impor-
tant est d’étudier son comportement lorsque n tend vers l’infini.
Ainsi, quand un estimateur est sans biais, son risque quadratique est égal à sa variance.
Exemple 4.2.2. On suppose que X, la loi parente d’échantillon suit une loi de Bernouilli
n
1X
de paramètre p. Considérons X n = Xk comme un estimateur de p. Les résultats
n k=1
obtenus plus haut permettent de conclure que le risque quadratique de l’estimateur X n
p(1 − p)
est sa variance, c’est-à-dire .
n
Remarques 4.2.2.
• L’erreur quadratique moyenne (risque quadratique) d’un estimateur dépend du
paramètre à estimer, qui est inconnu. Pour en donner une valeur numérique ap-
prochée, on remplace ce paramètre par l’estimation qu’on en a fait. Il dépend aussi
de n, et l’important est d’étudier son comportement quand n tend vers l’infini.
• Il ne faut pas croire que, entre deux estimateurs, il faille systématiquement choisir
celui dont le biais est le plus petit (en valeur absolue), éventuellement en priorité
celui qui serait sans biais.
En réalité, on est parfois conduit à préférer un estimateur biaisé, mais dont les
valeurs sont très regroupées autour de la valeur moyenne, ce qui se traduit par une
variance faible. C’est pourquoi l’erreur quadratique moyenne tient compte de la
variance et du carré du biais.
Définition 4.2.6. Soient Tn1 et Tn2 deux estimateurs de g(θ). L’estimateur Tn1 est relati-
vement plus efficace que l’estimateur Tn2 s’il est plus précis que le second, c’est-à-dire
si :
rTn1 (θ) 6 rTn2 (θ).
4.3.1 Généralités
De façon générale, un estimateur dépend non seulement des valeurs possibles du paramètre
à estimer, mais aussi du nombre n de variables aléatoires figurant dans l’échantillon. Sauf
cas très particulier, on définit donc, non un estimateur seul, mais une suite d’estima-
teurs. C’est la raison pour laquelle, dans la pratique, on désignera de la même façon un
estimateur, et la suite d’estimateurs qui lui est associée.
La loi des grands nombres, et plus généralement les propriétés de convergence, nous
laissent entendre que souvent, plus n est grand, meilleure est l’approximation.
Définition 4.3.1. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est asymptotiquement
sans biais si, pour tout θ de Θ, lim Eθ (Tn ) = g(θ).
n→∞
Définition 4.3.2. Une suite (Tn )n∈N∗ d’estimateurs de g(θ) est convergente si, pour
tout θ de Θ, la suite (Tn )n∈N∗ converge en probabilité vers la variable certaine g(θ), c’est-
à-dire si
∀ε ∈ R∗+ , lim Pθ (|Tn − g(θ)| > ε) = 0.
n→∞
Corollaire 4.3.1.
• Tout estimateur sans biais dont la variance tend vers zéro est convergent.
• Tout estimateur asymptotiquement sans biais dont la variance tend vers zéro est
convergent, c’est-à-dire
h i h i
P
Eθ (Tn ) −→ et Vθ (Tn ) −→ 0 =⇒ Tn −→ g(θ) .
n→∞ n→∞ n→∞
Exemple 4.3.1. Considérons un n-échantillon iid de la loi uniforme sur un intervalle [0, θ],
où θ est un réel strictement positif. On sait que la moyenne empirique X n de l’échantillon
θ
est un estimateur sans biais et convergent de l’espérance de la loi parente. On peut
2
conclure du théorème ci-dessus que Yn = 2X n est un estimateur convergent de θ. On ne
peut par contre affirmer qu’il est sans biais (ni même asymptotiquement sans biais).
de l’évaluation n’a pas grand intérêt. Plutôt que de donner une (ou plusieurs) estimations
numériques, on cherchera, à partir de l’estimateur dont on dispose, à préciser un intervalle
qui contiendra, avec une probabilité donnée, la valeur exacte du paramètre que l’on cherche
à évaluer.
Définition 4.4.1. Soit En = (X1 , X2 , ..., Xn ) un n-échantillon issu d’une loi µθ . Soit
α un réel quelconque de l’intervalle ]0, 1[. On appelle intervalle de confiance pour
le paramètre θ, au risque α (ou au niveau de confiance 1 − α), tout intervalle de
la forme [In , Sn ] où In et Sn sont des estimateurs de θ (c’est-à-dire des statistiques sur
l’échantillon En ) tels que P (θ ∈ [In , Sn ]) = 1 − α.
Remarques 4.4.1.
• Un intervalle de confiance est un intervalle dont les bornes sont aléatoires et qui
contient, avec une probabilité donnée, la valeur θ que l’on cherche à évaluer. Cette
valeur n’est pas aléatoire. Elle est seulement inconnue.
• Le nombre α est le risque qu’à l’issue d’une expérience la réalisation de l’intervalle
de confiance ne contienne pas la valeur θ que l’on cherche à évaluer.
Exemple 4.4.1. On considère un dé à jouer non pipé. On lance n fois, et l’on cherche
à déterminer un intervalle dans lequel la fréquence Tn des résultats six se situe avec
une probabilité supérieure √ à 1 − α. La variable Tn est la fréquence empirique et l’on a
1 5
E(Tn ) = et σ(Tn ) = √ . On obtient ainsi comme intervalle de confiance à un risque
6 a "n
√ √ #
1 5 1 5
inférieur à α, l’intervalle − √ , + √ .
6 6 nα 6 6 nα
1 5 1 5
Ainsi, pour α = 0, 05, on a P − √ , + √ 6 0, 95.
6 3 n 6 3 n
Pour n = 100, on obtient alors P ([0; 0, 34]) 6 0, 95.
Définition 4.4.2. Soit X une variable aléatoire à densité dont le support est un intervalle
I, et dont une densité s’annule au plus sur un ensemble fini d’éléments de I. Sa fonction
de répartition FX est alors continue, strictement croissante sur I. Elle induit donc une
bijection de I sur un intervalle dont les bornes sont 0 et 1, et qui est fermé, semi-ouvert
ou ouvert suivant la forme de l’intervalle I. On peut alors définir la fonction réciproque
FX−1 = QX . Cette fonction prend le nom de fonction quantile de X
1
La fonction quantile est définie par QX (u) = t tel que P (X 6 t) = u. Pour u = , on
2
reconnaı̂t en particulier la définition de la médiane.
Définition 4.4.3. Soient X une variable aléatoire et α un réel strictement compris entre
0 et 1. On appelle intervalle de dispersion de niveau 1 − α tout intervalle [a, b] inclus
dans X(Ω) tel que P (X ∈ [a, b]) = 1 − α.
Proposition 4.4.1. Soient X une variable aléatoire à densité satisfaisant aux conditions
de la définition ci-dessus et α un réel de l’intervalle ]0, 1[. Alors, pour tout réel β de
l’intervalle [0, α], l’intervalle [FX−1 (β), FX−1 (1 − α + β)].
Remarques 4.4.2.
• Dans la pratique, α est petit (en général inférieur à 0,1), de sorte qu’un
intervalle de dispersion de niveau 1 − α contient une forte proportion des valeurs
prises par X. Dans ces conditions, on pourra trouver un intervalle de dispersion
de niveau 1 − α dont les bornes sont voisines , moins les valeurs prises par X
seront dispersées .
• Une variable aléatoire X donnée admet autant d’intervalles de dispersion de niveau
1 − α qu’il y a de façons de choisir β dans l’intervalle [0, α], c’est-à-dire une infinité.
On distingue alors l’intervalle de dispersion symétrique pour β = α2 , l’intervalle
de dispersion unilatéral inférieur pour β = 0 et l’intervalle de dispersion uni-
latéral supérieur pour β = α, et l’on cherche à déterminer l’intervalle dont
Exemple 4.4.2. Considérons une variable aléatoire X suivant la loi uniforme sur un
1
intervalle borné I = [a, b]. Une densité de X est la fonction constante égale à sur I,
b−a
et nulle pour tout x n’appartenant pas à I. Sa fonction de répartition FX est définie sur
x−a
I par FX (x) = . La fonction quantile est alors définie par QX (t) = a + t(b − a).
b−a
α
Pour α = 0, 1 (et donc = 0, 05), on obtient
2
— l’intervalle de dispersion symétrique I1 = [a + 0, 05(b − a); a + 0, 95(b − a)]
— l’intervalle de dispersion unilatéral inférieur I2 = [a; a + 0, 9(b − a)]
— l’intervalle de dispersion unilatéral supérieur I3 = [a + 0, 9(b − a); b]
Sur cet exemple particulièrement simple, il est clair que les intervalles de dispersion trouvés
contiennent 90% des valeurs prises par la variable aléatoire X.
Nous sommes donc dans la situation où la variable aléatoire ϕ(X n ), qui dépend de m, suit
une loi qui ne dépend pas de m. L’intervalle de dispersion symétrique de niveau 1 − α de
la loi normale centrée réduite est
h α α i h α −1 α i
Iα = Φ−1 , Φ−1 1 − = 1 − Φ−1 1 − ,Φ 1− .
2 2 2 2
Notons tα = Φ−1 1 − α2 . L’intervalle de dispersion symétrique [1 − tα , tα ] de niveau 1 − α
pour la loi normale centrée réduite permet de conclure qu’un intervalle de confiance au
niveau de confiance 1 − α (ou au risque de α) de l’espérance m d’une loi normale X
tα σ0 tα σ0
d’écart-type connu σ0 est X n − √ , X n + √ .
n n
Les valeurs usuelles de α sont 0,1 (niveau de confiance de 0,9), 0,05 (niveau de confiance
de 0,95) et 0,01 (niveau de confiance de 0,99). Nous calculons ci-dessous les valeurs cor-
respondantes de tα .
α
• Pour α = 0, 1 ; 1 − = 0, 95, on lit dans la table Φ(1, 64) ≈ 0, 9495 et Φ(1, 65) ≈
2
0, 9505, ce qui donne t0,10 = Φ−1 (0, 95) ≈ 1, 645.
α
• Pour α = 0, 05 ; 1 − = 0, 975, on lit dans la table Φ(1, 94) ≈ 0, 975, ce qui donne
2
t0,05 = Φ−1 (0, 975) ≈ 1, 96.
α
• Pour α = 0, 01 ; 1 − = 0, 995, on lit dans la table Φ(2, 57) ≈ 0, 9949 et Φ(2, 58) ≈
2
0, 9951, ce qui donne t0,01 = Φ−1 (0, 995) ≈ 2, 575.
Dans le cas particulier d’un estimateur sans biais, ce risque ou erreur quadratique se
confond avec la variance de l’estimateur. Si dans l’erreur totale d’estimation on privilégie
2
l’erreur structurelle, mesurée par bTn (θ) , on fera le choix d’un estimateur sans biais et
l’erreur d’estimation se réduira à l’erreur statistique mesurée par la variance de l’estima-
teur.
Si on se place dorénavant dans la classe des estimateurs sans biais, on pourra comparer
deux estimateurs Tn et Tn0 de cette classe par leur variance qui mesure alors leur dispersion
par rapport au paramètre qui est leur espérance commune. Nous dirons que l’estimateur
Tn est plus efficace que Tn0 si pour tout θ ∈ Θ et pour une taille d’échantillon n > N :
Vθ (Tn ) 6 Vθ (Tn0 ).
Définition 4.5.2. Soit L(x1 , x2 , ..., xn ; θ) la vraisemblance d’un n-échantillon (X1 , X2 , ..., Xn ).
La quantité d’information de Fisher est définie par
2
∂ ln L
In (θ) = Eθ .
∂θ
∂ 2 ln L
In (θ) = Eθ − .
∂θ2
Définition 4.5.3. Un estimateur sans biais Tn est dit efficace si sa variance est égale à
la borne inférieure de FDRC :
1
Vθ (Tn ) = .
In (θ)
Remarque 4.5.1. Un estimateur efficace est bien sûr optimal, mais dans la classe des
estimateurs sans biais. Si on utilise comme critère le risque ou erreur quadratique, qui est
une mesure de l’erreur totale où les erreurs structurelle et statistique jouent le même rôle,
on peut trouver un estimateur qui soit meilleur qu’un estimateur efficace.
1 Pn
Par exemple, dans le cas d’un échantillon d’une loi N (0, σ 2 ), on sait que σn2 = 2
i=1 Xi
n
2σ 4
est un estimateur efficace de σ 2 , avec EQ(σn2 ) = V (σn2 ) = .
n
1 Pn
Mais, si on retient l’estimateur avec biais Tn = X 2 , on obtient un estimateur
n + 2 i=1 i
2σ 4
meilleur, c’est-à-dire d’erreur totale plus faible puisque EQ(Tn ) = < EQ(σn2 ).
n+2
Cette définition ne renseigne en aucune façon, ni sur l’existence, ni sur l’unicité, d’un tel
estimateur. La recherche de l’emv peut se faire directement par recherche du maximum
de L, ou le cas particulier où la fonction L est deux fois dérivable par rapport à θ, comme
∂L ∂ 2L
solution de l’équation = 0 qui vérifie aussi < 0.
∂θ ∂θ2
Cependant, la vraisemblance se calculant à partir d’un produit, on préfère remplacer ce
dernier problème par le problème équivalent pour la log-vraisemblance, puisque la fonction
∂ ln L ∂ 2 ln L
ln est strictement croissante, = 0 avec < 0 et qui aura une expression
∂θ ∂θ2
généralement simplifiée.
Remarquons enfin que si θbn est un emv du paramètre θ, alors g θbn est un emv du
paramètre g(θ) pour toute fonction g.
n n
1X k 1X
mkn = Xi = mk (θ) ou µkn = Xi − X n )k = µk (θ).
n i=1 n i=1
La solution de l’équation, si elle existe et est unique, sera appelée estimateur obtenu par
la méthode des moments.
Tests d’hypothèses
69
70
5.1. Concepts principaux en théorie des tests
Ici, la théorie des tests va être un outil d’aide à la décision. Dans le cadre du même
modèle, on dispose cette fois de plus d’informations a priori sur le paramètre. Ces informa-
tions se traduisent par deux hypothèses seulement sur les valeurs possibles du paramètre.
En fonction des observations, on devra choisir l’une de ces deux hypothèses.
Chacune de ces hypothèses a pour conséquence une décision qui lui est associée :
— D0 : prendre des mesures de relance de l’économie ;
— D1 : ne rien faire.
Cette décision va être prise au vu d’un échantillon (I1 , I2 , I3 ) de cette variable aléatoire
I observée au cours du dernier trimestre. La règle de décision retenue par les ministres se
1
si (I1 + I2 + I3 ) > k on décide D1
3
Le modèle statistique retenu permet alors de calculer les probabilités associées à ces
deux erreurs. Par exemple :
3
!
1X
α = P (ne rien faire|m = 0, 3) = P (D1 |H0 ) = P Ij > k|H0 .
3 j=1
3
1X 0, 4
Sous l’hypothèse H0 , la loi de I = Ij est la loi normale N 0, 3; .
3 j=1 3
On peut donc calculer la probabilité précédente en utilisant une variable aléatoire U
de loi N (0, 1) :
0, 05 √
I − 0, 3
α = P I 6 0, 35|H0 = P √ > 3|H0
0, 2/ 3 0, 2
= P (U > 0, 43) = 0, 33
Ces deux risques ne sont pas équivalents, le premier étant trois fois supérieur au second.
Cette règle correspond donc bien à un souhait de se garantir avant tout contre l’inflation.
Si on veut que le seuil ne soit pas fixé arbitrairement, c’est par le choix d’une valeur
de risque que l’on en déduira alors une valeur de seuil critique. Si on souhaite plutôt se
prémunir prioritairement contre le chômage, on fixe une valeur faible au risque α, par
exemple α = 5%. Il va en découler une valeur du seuil par la condition :
3
!
1 X k − 0, 3
α = 0, 05 = P Ij > k|H0 = P U > √ .
3 j=1 0, 2/ 3
On obtient ainsi :
k − 0, 3 0, 2
√ = 1, 6449 soit k = 0, 3 + √ × 1, 6449 = 0, 49.
0, 2/ 3 3
La règle de décision, déterminée par le seuil, est fortement dépendante du risque contre
lequel on souhaite se prémunir en priorité. Cet exemple introductif précédent nous permet
de formaliser un problème de test.
L’erreur de seconde espèce consiste à décider D0 alors que H1 est vraie, soit
accepter à tort l’hypothèse nulle H0
Nous allons présenter deux méthodes de construction d’un test, basées sur des principes
très différents. La méthode de Bayes est utilisée lorsqu’on dispose encore plus d’informa-
tions a priori sur les hypothèses, permettant de leur attribuer une probabilité a priori, et
lorsque l’on peut en plus quantifier le coût de chaque décision en fonction de l’hypothèse
effectivement réalisée.
D0 D1
H0 (p0 ) C00 C01
H1 (p1 ) C10 C11
Une bonne décision peut avoir également un coût et donc on aura généralement C00 > 0
et C11 > 0.
Après la réalisation (x1 , ..., xn ) on peut calculer, à l’aide du théorème de Bayes, les
probabilités a posteriori π0 et π1 des hypothèses H0 et H1 :
p0 L0 p1 L 1
π0 = et π1 =
p0 L0 + p1 L1 p0 L 0 + p1 L 1
L’erreur la plus grave consistant à rejeter à tort l’hypothèse nulle, la méthode de Neyman
et Pearson fixe une valeur maximum α0 au risque de première espèce. Le test est alors
déterminé par la recherche de la règle qui minimise l’autre risque, celui de seconde espèce.
Nous allons examiner le cas où le paramètre θ ne peut prendre que deux valeurs θ0 et θ1 ,
ce qui correspond au choix entre les deux hypothèses simples suivantes :
(
H0 : θ = θ0
H1 : θ = θ1 .
Même si cette situation est peu fréquente dans la réalité, de nombreux autres cas
peuvent être résolus à partir de ce cas élémentaire. La forme de la région critique est alors
déterminée par le théorème suivant.
1
Exemple 5.3.1. Prenons le cas d’une loi exponentielle de paramètre , avec θ1 > θ0 . La
θ
vraisemblance a pour expression :
" n
#
1 1X
L(x1 , ..., xn ; θ) = n exp − xi
θ θ i=1
n
X Sn
Si l’on pose Sn = Xi , on peut montrer que 2 suit une loi du Khi-deux à 2n degrés
i=1
θ
de liberté. La condition précédente se réécrit donc sous la forme :
Sn C
α0 = P 2 >2 .
θ0 θ0
C
La valeur de 2 est donc celle du fractile d’ordre 1 − α0 de la loi du Khi-deux à 2n degrés
θ0
de liberté.
où θ1 est une valeur fixée quelconque, mais vérifiant l’hypothèse alternative H1 . Si la région
W obtenue pour ce test entre hypothèses simples ne dépend pas de la valeur choisie θ1 ,
alors on aura obtenu un test uniformémement le plus puissant (U P P ) pour le
problème de test initial. Cela signifie que pour toute autre région critique W 0 , on aura
Pθ (W |θ ∈ Θ1 ) > Pθ (W 0 |θ ∈ Θ1 ) pour tout θ de Θ1 .
il n’existe pas de test U P P . La région critique W de ce test s’obtient par une réunion des
régions critiques W1 et W2 des deux tests précédents, pour le même risque de première
α0
espèce .
2
Exemple 5.3.3. Dans l’exemple précédent, la région critique W1 obtenue était l’ensemble
des points (x1 , ..., xn ) tels que :
S n > C1 ,
C1 α0
avec 2 qui est le fractile d’ordre 1 − de la loi du Khi-deux à 2n degrés de liberté.
θ0 2
De même, pour le test de H0 : θ = θ0 contre H1 : θ < θ0 la région critique W2 obtenue
est définie par :
S n 6 C2 ,
C2 α0
avec 2 qui est le fractile d’ordre de la loi du Khi-deux à 2n degrés de liberté. La
θ0 2
région critique de H0 : θ = θ0 contre H1 : θ 6= θ0 est W = W1 ∪ W2 . Il est plus facile
de définir ici la région d’acceptation de l’hypothèse nulle par la condition :
C2 6 Sn 6 C1 .
on suppose que la loi Pθ est à rapport de vraisemblance monotone. cela signifie qu’il existe
une statistique Tn = Tn (x1 , ..., xn ) telle que le rapport des vraisemblances :
L(x1 , ..., xn ; θ)
L(x1 , ..., xn ; θ0 )
s’exprime comme une fonction croissante de Tn pour toutes les valeurs de θ et θ0 qui
vérifient l’inégalité θ > θ0 . Dans ces conditions, on utilise le théorème suivant.
Exemple 5.3.4. Dans l’exemple du début, nous avons obtenu comme rapport de vrai-
semblances : " #
0 n n
L(x1 , ..., xn ; θ) θ θ − θ0 X
= exp .
L(x1 , ..., xn ; θ0 ) θ θθ0 i=1
Pour toutes les valeurs de θ et θ0 qui vérifient l’inégalité θ > θ0 , c’est une fonction croissante
Xn
de Tn = . Donc, par application du théorème de Lehman pour H0 : θ 6 θ0 contre
i=1
H1 : θ > θ0 , le test U P P a pour région critique l’ensemble des points (x1 , ..., x2 ) tels
que :
n
X
xi > k.
i=1
Une variable aléatoire réelle qui suit une loi du khi-deux est caractérisée par son
espérance mathématique et sa variance, données respectivement par
qui sont des combinaisons linéaires de variables aléatoires normales indépendantes, donc
elles sont aussi des variables aléatoires normales d’espérance E(Xi X n ) = E(Xi )−E(X n ) =
2
0 et de variance V (Xi X n ) = E Xi X n = E(Sn2 ) car toutes les variables sont de même
loi. La variable aléatoire nSn2 est la somme des carrés de n variables aléatoires normales
centrées qui sont reliées par la relation ni=1 (Xi − X n ) = 0 et on peut démontrer que :
P
Sn2
n 2 suit une loi du χ2n−1 .
σ
n−1 2
On trouve bien le résultat général E(Sn2 ) = σ et on obtient ici, d’après les moments
n
n−1
de la loi du khi-deux, V (Sn2 ) = 2 2 σ 4 .
n
Définition 5.4.2. Soit X une variable aléatoire réelle qui suit une loi N (0, 1) et Y une
variable aléatoire réelle qui suit une loi de χ2n , X et Y étant indépendantes. Alors la
X
variable aléatoire réelle Tn = r suit une loi de Student de paramètre n > 1 qui
Y
n
représente le nombre de degrés de liberté. Sa densité de probabilité est définie par :
n+1
Γ n+1
2 t2 2
fn (t) = √ 1+ , t ∈ R.
πnΓ n2 n
Une variable aléatoire réelle qui suit une loi de Student est centrée, c’est-à-dire que
E(Tn ) = 0 et sa variance est donnée par
n
V (Tn ) = , n 6 3.
n−2
Un cas particulier de cette loi intervient lorsque n = 1, nous obtenons alors la loi de
Cauchy standard.
Dans le cas où σ est un paramètre inconnu, on peut le remplacer par l’écart-type empirique
modifié, ce qui amène à considérer la variable aléatoire
√
√ Xn − m X n − m /(σ/ n
n = .
Sn0
p 0
Sn2 /σ 2
Le numérateur suit une loi normale centrée réduite et le dénominateur est la racine carrée
de la variable aléatoire : 0 0
Sn2 (n − 1)Sn2 /σ 2
=
σ2 n−1
qui est donc une variable aléatoire de loi χ2n−1 , divisé par son nombre de degrés de liberté.
D’après le théorème de Fisher, le numérateur et le dénominateur sont des variables
aléatoires indépendantes et leur rapport définit une nouvelle loi de probabilité, usuelle en
statistique, appelée loi de Student à n − 1 degrés de liberté.
Définition 5.4.3. Soient X et Y deux variables aléatoires réelles qui suivent respective-
ment une loi du χ2n et une loi du χ2m , où X et Y sont indépendantes. Alors la variable
X/n
aléatoire réelle Zn,m = suit une loi de Fisher-Snedecor Fn,m à n et m degrés de
Y /m
liberté. Sa densité de probabilité est est définie par :
n+m
Γ m m2 −1 m n+m
2
fn,m (z) = n
2 m
x 1+ x , z ∈ R+ .
Γ 2
Γ 2
n n
Une variable aléatoire réelle Z qui suit une loi de Fisher-Snedecor Fn,m est caractérisée
par son espérance mathématique
n
E(Z) = n63
n−2
et sa variance 2
n (m + n − 2)
V (X) = 2 , n 6 5.
n−2 m(n − 4)
En présence de deux échantillons (X1 , ..., Xn ) et (Y1 , ..., Ym ) auxquels sont associées les va-
riances empiriques Sn2 et Sm
2
, on peut se poser la question de savoir s’il proviennent de deux
2
Sn
lois normales ayant la même variance, et pour cela former le rapport 2
Sm
. Si effectivement
ces deux lois ont la même variance, ce rapport de deux lois du khi-deux indépendantes,
réduites (divisées) par leur nombre de degrés de liberté, définit une nouvelle loi usuelle en
statistique, appelée loi de Fischer-Snedecor .
r X s 2 r X s
!
X nij − ni· n·j /n X n2ij
Dn = =n −1 .
i=1 j=1
ni· n·j /n n n
i=1 j=1 i· ·j
Dn 6 C.
Pour un risque de première espèce α = P (Dn > C|H0 ), la valeur de C est approximée par
le fractile d’ordre 1 − α de la loi χ2(r−1)(s−1) .
et cette somme de carrés de variables aléatoires centrées qui sont asymptotiquement nor-
k
X
males et liées par la relation (Ni − npi ) = 0 converge vers une loi du χ2k−1 . La valeur
i=1
k
X Ni2
d(Fn , F ) = − n.
i=1
npi
Là encore, on retiendra l’hypothèse que la loi parente admet F comme fonction
de répartition si cette distance est faible, c’est-à-dire plus précisément si l’événement
{d(Fn , F ) < C} est réalisé. La valeur de C sera déterminée par la fixation du risque d’er-
√
reur α = P ([d(Fn , F ) < C]) et en utilisant la loi limite de la variable aléatoire nKn qui
admet pour fonction de répartition la fonction K définie pour x > 0 par :
+∞ ∞
k −2k2 x2 2 x2
X X
K(x) = (−1) e =1−2 −1)k+1 e−2k .
k=−∞ k=1
Les valeurs de K sont tabulées, permettant de déterminer les fractiles de la loi. Les
valeurs de C sont données en fonction de α dans la table suivante :
n α = 0, 10 α = 0, 05 α = 0, 01
5 0,509 0,563 0,669
10 0,369 0,409 0,486
15 0,304 0,338 0,404
20 0,265 0,294 0,352
25 0,238 0,264 0,317
30 0,218 0,242 0,290
40 0,189 0,210 0,252
√ √ √
n > 40 1,22/ n 1,36/ n 1,63/ n
car Fn est constante sur chacun des intervalles délimités par les points de l’échantillon
ordonné :
i i
sup [Fn (x) − F (x)] = − inf F (x) = − F X(i) + 0
x∈]X(i) ,X(i+1) [ n X(i) <x6X(i+1) n
i
= − F X(i)
n
On calcule ensuite :
d(fn , F ) = max d+ (Fn , F ), d+ (Fn , F ) .