Vous êtes sur la page 1sur 135

0.

0.2

0.4

0.6

0.8

1.0

Ensimag - 2`eme annee

55

60

65

70

75

Statistique Inferentielle Avancee


Notes de cours
Olivier Gaudoin

Table des mati`


eres
1 Introduction
2 Concepts de linf
erence statistique
2.1 Le mod`ele statistique . . . . . . . . . . . .
2.2 Mod`ele parametrique ou non parametrique
2.3 Fonction de vraisemblance . . . . . . . . .
2.4 Statistiques . . . . . . . . . . . . . . . . .
2.5 Exhaustivite . . . . . . . . . . . . . . . . .
2.6 La famille exponentielle . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

3 Estimation param
etrique optimale
3.1 Introduction . . . . . . . . . . . . . . . . . . . .
3.2 Reduction de la variance . . . . . . . . . . . . .
3.3 Completude . . . . . . . . . . . . . . . . . . . .
3.4 Lestimation sans biais et de variance minimale
3.5 Information de Fisher et efficacite . . . . . . . .
3.5.1 Score et matrice dinformation . . . . . .
3.5.2 Information et exhaustivite . . . . . . .
3.5.3 Borne de Cramer-Rao et efficacite . . . .

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

9
9
10
11
13
14
18

.
.
.
.
.
.
.
.

23
23
23
27
28
29
30
32
33

4 Maximum de vraisemblance et estimation bay


esienne
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Proprietes asymptotiques de lestimateur de maximum de
4.3 Intervalles de confiance asymptotiques . . . . . . . . . .
4.3.1 Cas dun param`etre reel . . . . . . . . . . . . . .
4.3.2 Cas dun param`etre vectoriel . . . . . . . . . . . .
4.4 Estimation bayesienne . . . . . . . . . . . . . . . . . . .
4.4.1 Principe de la methode . . . . . . . . . . . . . . .
4.4.2 Exemple du controle de qualite . . . . . . . . . .

. . . . . . . . .
vraisemblance
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

.
.
.
.
.
.
.
.

37
37
37
41
41
44
44
44
46

5 Tests dhypoth`
eses optimaux
5.1 Introduction . . . . . . . . . . . . . . . . . . .
5.2 Definitions . . . . . . . . . . . . . . . . . . . .
5.3 Tests dhypoth`eses simples . . . . . . . . . . .
5.4 Tests dhypoth`eses composites . . . . . . . . .
5.5 Test du rapport des vraisemblances maximales

.
.
.
.
.

.
.
.
.
.

49
49
49
50
55
56

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

`
TABLE DES MATIERES

6 Estimation non param


etrique de quantit
es r
eelles
6.1 Les outils de la statistique non parametrique . . . .
6.1.1 Statistiques dordre et de rang . . . . . . . .
6.1.2 Loi de probabilite empirique . . . . . . . . .
6.2 Estimation de lesperance dun echantillon . . . . .
6.2.1 Estimation ponctuelle . . . . . . . . . . . .
6.2.2 Intervalle de confiance . . . . . . . . . . . .
6.3 Estimation de la variance dun echantillon . . . . .
6.3.1 Estimation ponctuelle . . . . . . . . . . . .
6.3.2 Intervalle de confiance . . . . . . . . . . . .
6.3.3 Lien entre moyenne et variance empiriques .
6.4 Estimation des moments de tous ordres . . . . . . .
6.5 Estimation des quantiles . . . . . . . . . . . . . . .
6.5.1 Proprietes des quantiles empiriques . . . . .
6.5.2 Estimation ponctuelle . . . . . . . . . . . .
6.5.3 Intervalle de confiance . . . . . . . . . . . .
6.6 Lois asymptotiques des extremes . . . . . . . . . .
7 Estimation fonctionnelle
7.1 Estimation de la fonction de repartition .
7.1.1 Estimation ponctuelle . . . . . .
7.1.2 Intervalle de confiance . . . . . .
7.2 Estimation de la densite . . . . . . . . .
7.2.1 Rappels sur les histogrammes . .
7.2.2 La methode du noyau . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

8 Tests dad
equation bas
es sur la fonction de r
epartition
8.1 Problematique des tests dadequation . . . . . . . . . . .
8.2 Rappels sur les graphes de probabilite . . . . . . . . . . .
8.3 Cas dune loi enti`erement specifiee . . . . . . . . . . . . .
8.4 Cas dune famille de lois . . . . . . . . . . . . . . . . . .
9 Tests non param
etriques sur un
echantillon
9.1 Tests dechantillon . . . . . . . . . . . . . .
9.1.1 Le test de Spearman . . . . . . . . .
9.1.2 Le test de Kendall . . . . . . . . . .
9.2 Tests sur lesperance et la mediane . . . . .
9.2.1 Tests asymptotiques sur lesperance .
9.2.2 Tests sur la mediane . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

empirique
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

59
59
59
64
65
65
65
67
67
67
68
68
69
69
70
70
71

.
.
.
.
.
.

73
74
74
76
77
77
78

.
.
.
.

83
83
84
85
87

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

91
91
92
94
95
95
97

10 Tests non param


etriques sur plusieurs
echantillons
10.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . .
10.2 Tests de rang . . . . . . . . . . . . . . . . . . . . . .
10.2.1 Le test de la mediane . . . . . . . . . . . . . .
10.2.2 Le test de Wilcoxon-Mann-Whitney . . . . . .
10.2.3 Le test de Kruskal-Wallis . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

101
101
102
102
104
105

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

`
TABLE DES MATIERES

11 Annexe A : Rappels de probabilit


es pour la statistique
11.1 Variables aleatoires reelles . . . . . . . . . . . . . . . . . . . . .
11.1.1 Loi de probabilite dune variable aleatoire . . . . . . . .
11.1.2 Variables aleatoires discr`etes et continues . . . . . . . . .
11.1.3 Moments et quantiles dune variable aleatoire reelle . . .
11.2 Vecteurs aleatoires reels . . . . . . . . . . . . . . . . . . . . . .
11.2.1 Loi de probabilite dun vecteur aleatoire . . . . . . . . .
11.2.2 Esperance et matrice de covariance dun vecteur aleatoire
11.3 Convergences et applications . . . . . . . . . . . . . . . . . . . .
11.4 Quelques resultats sur quelques lois de probabilite usuelles . . .
11.4.1 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . .
11.4.2 Loi geometrique . . . . . . . . . . . . . . . . . . . . . . .
11.4.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . .
11.4.4 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . .
11.4.5 Loi gamma et loi du chi-2 . . . . . . . . . . . . . . . . .
11.4.6 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . .
11.4.7 Lois de Student et de Fisher-Snedecor . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

107
107
107
108
109
110
110
111
112
113
113
114
114
114
114
115
116

12 Annexe B : Lois de probabilit


e usuelles
12.1 Caracteristiques des lois usuelles . . . . . . . . .
12.1.1 Variables aleatoires reelles discr`etes . . .
12.1.2 Variables aleatoires reelles continues . . .
12.1.3 Vecteurs aleatoires dans INd et dans IRd .
12.2 Tables de lois . . . . . . . . . . . . . . . . . . .
12.2.1 Table 1 de la loi normale centree reduite
12.2.2 Table 2 de la loi normale centree reduite
12.2.3 Table de la loi du 2 . . . . . . . . . . .
12.2.4 Table de la loi de Student . . . . . . . .
12.2.5 Tables de la loi de Fisher-Snedecor . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

117
. 117
. 117
. 118
. 119
. 120
. 120
. 121
. 122
. 123
. 124

13 Annexe C : Introduction `
aR
13.1 Les bases de R . . . . . . . . . . . . . . . . .
13.2 Commandes pour les deux premiers TD en R
13.3 Quelques commandes utiles de R . . . . . . .
13.4 Les lois de probabilite usuelles en R . . . . .
13.5 Les principaux tests dhypoth`eses en R . . .
13.6 Les graphiques dans R . . . . . . . . . . . .
13.6.1 Graphique simple . . . . . . . . . . .
13.6.2 Autres fonctions graphiques . . . . .
13.6.3 Parametrage de la commande plot . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

Bibliographie

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

127
127
128
129
130
132
132
132
133
134
135

`
TABLE DES MATIERES

Chapitre 1
Introduction
Comme son nom lindique, le cours de premier semestre de Principes et Methodes Statistiques (PMS) a presente les principes et les methodes de base dune analyse statistique
de donnees. On peut resumer rapidement son contenu de la facon suivante :
Statistique descriptive : le but est de decrire et resumer linformation contenue
dans les donnees `a laide de representations graphiques (diagrammes en batons, histogrammes, graphes de probabilite) et dindicateurs statistiques (moyenne, variance,
mediane, quantiles, ...). Tous les exemples vus portent sur des donnees unidimensionnelles. Lextension `a des descriptions de donnees multidimensionnelles sera vue
dans le cours dAnalyse Statistique Multidimensionnelle (ASM).
Statistique inf
erentielle : le but est de faire des previsions et prendre des decisions
au vu des donnees. Nous avons vu deux grandes categories de methodes :
Lestimation, ponctuelle et par intervalles de confiance, avec la methode des
moments et la methode du maximum de vraisemblance.
Les tests dhypoth`
eses, avec les tests parametriques sur un ou deux echantillons
2
et les tests du .
Le but du cours de Statistique Inferentielle Avancee (SIA) est dapprofondir et detendre
ces notions, en allant plus loin dans la theorie mathematique sous-jacente.
Nous commencerons par donner des concepts generaux sur linference statistique, en
introduisant la notion de mod`
ele statistique. Puis nous etudierons des proprietes doptimalite des notions dej`a etudiees : comment trouver un estimateur optimal ? Quest-ce
quun test optimal et comment le trouver ? Nous etudierons une nouvelle methode destimation, lestimation bay
esienne, qui ouvre un champ tr`es important de la statistique
moderne.
Nous distinguerons la statistique param
etrique, qui suppose lexistence dun mod`ele
connu avec des param`etres inconnus, et la statistique non param
etrique, qui ne fait
pas ces hypoth`eses. Dans ce contexte, nous verrons comment estimer des fonctions de
r
epartition et des densit
es de probabilit
e.
Enfin, nous etudierons des tests non param
etriques, permettant de determiner si
des observations sont independantes et de meme loi ou presentent une tendance, de tester
une moyenne ou de comparer des echantillons sans faire dhypoth`eses sur un mod`ele sousjacent, ou de tester ladequation dun mod`ele.

Chapitre 1 - Introduction

Nous etablirons des proprietes sur des param`


etres `
a plusieurs dimensions (avec la
notion de matrice dinformation au lieu de celle de quantite dinformation) et etudierons
des r
esultats asymptotiques (optimalite asymptotique de lestimateur de maximum de
vraisemblance).

Chapitre 2
Concepts de linf
erence statistique
2.1

Le mod`
ele statistique

Un mod`ele statistique est un objet mathematique associe a` lobservation de donnees


issues dun phenom`ene aleatoire.
Une experience statistique consiste `a recueillir une observation x dun element aleatoire
X, `a valeurs dans un espace X et dont on ne connait pas exactement la loi de probabilite
P . Des considerations de modelisation du phenom`ene observe am`enent a` admettre que P
appartient a` une famille P de lois de probabilite possibles.
D
efinition 1 : Le mod`
ele statistique (ou la structure statistique) associe `a cette
experience est le triplet (X , A, P), o`
u:
X est lespace des observations, ensemble de toutes les observations possibles.
A est la tribu des ev`enements observables associee.
P est une famille de lois de probabilites possibles definie sur A.
Linteret de cette notion de mod`ele statistique est quelle permet de traiter avec le
meme formalisme tous les types dobservations possibles.
On dit que le mod`ele est discret quand X est fini ou denombrable. Dans ce cas, la
tribu A est lensemble des parties de X : A = P(X ). Cest le cas quand lelement aleatoire
observe X a une loi de probabilite discr`ete.
On dit que le mod`ele est continu quand X IRp et P P, P admet une densite
(par rapport a` la mesure de Lebesgue) dans IRp . Dans ce cas, A est la tribu des boreliens
de X (tribu engendree par les ouverts de X ) : A = B(X ).
On peut aussi envisager des mod`eles ni continus ni discrets, par exemple si lobservation
a certains elements continus et dautres discrets. X et A sont alors plus complexes.
Le cas le plus frequent, celui qui a ete principalement vu en PMS, est celui o`
u lelement
aleatoire observe est constitue de variables aleatoires independantes et de meme loi (i.i.d.) :
X = (X1 , . . . , Xn ), o`
u les Xi sont i.i.d. On dit que lon a alors un mod`
ele d
echantillon.
Dans ce cas, par convention, si on note (X , A, P) le mod`ele correspondant `a un echantillon
de taille 1, on notera (X , A, P)n le mod`ele correspondant `a un echantillon de taille n.

10

Chapitre 2 - Concepts de linf


erence statistique

Exemple 1 : ampoules. Lexemple de reference du cours de PMS a consiste `a recueillir


les durees de vie, supposees independantes et de meme loi exponentielle, de n ampoules
electriques. Lobservation est de la forme x = (x1 , . . . , xn ), o`
u les xi sont des realisations
de variables aleatoires Xi independantes et de meme loi exponentielle de param`etre
inconnu.
n
Pour tout i, xi IR+ , donc lespace des observations est X = IR+ . Alors la tribu
n
associee est A = B(IR+ ). Le mod`ele est continu. Comme on admet que la loi est exponentielle mais que son param`
lensemble des lois de probabilites pos etre est inconnu,

+
sibles pour chaque Xi est exp(); IR . Comme les Xi sont
 independantes, la loi
de probabilite du vecteur (X1 , . . . , Xn ) est la loi produit P = exp()n ; IR+ , ensemble des lois de probabilite des vecteurs aleatoires de taille n dont les composantes sont
independantes et de meme loi exponentielle de param`etre inconnu.
Finalement, le mod`ele statistique associe est :


n
n
IR+ , B(IR+ ), exp()n ; IR+
quon peut aussi ecrire, dapr`es la convention enoncee :

n
IR+ , B(IR+ ), exp(); IR+
.
Exemple 2 : controle de qualite. Une chane de production produit un tr`es grand nombre
de pi`eces et on sinteresse a` la proportion inconnue de pi`eces defectueuses. Pour lestimer,
on prel`eve independamment n pi`eces dans la production et on les controle. Lobservation
est x = (x1 , . . . , xn ), o`
u:

1 si la i`eme pi`ece est defectueuse
xi =
0 sinon
Par consequent, lespace des observations est X = {0, 1}n . Il est fini, donc le mod`ele
est discret et A = P ({0, 1}n ). Les Xi sont independants et de meme loi de Bernoulli B(p),
o`
u p = P (Xi = 1) est la probabilite quune pi`ece soit defectueuse.
Alors le mod`ele statistique peut secrire :


{0, 1}n , P ({0, 1}n ) , B(p)n ; p [0, 1]
ou
({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n .
Remarque : Quand lelement aleatoire X est numerique, il admet une fonction de repartition
F . La fonction de repartition caracterisant une loi de probabilite, lensemble P des lois de
probabilite possibles pour X est en bijection avec lensemble F des fonctions de repartition
possibles. Aussi le mod`ele statistique peut dans ce cas etre note (X , A, F) au lieu de
(X , A, P).

2.2

Mod`
ele param
etrique ou non param
etrique

Un mod`
ele param
etrique est un mod`ele o`
u lon suppose que le type de loi de X est
connu, mais quil depend dun param`etre inconnu, de dimension d. Alors,
la famille de
d
lois de probabilite possibles pour X peut secrire P = P ; IR .

2.3 Fonction de vraisemblance

11

Cest evidemment le cas des deux exemples. Le probl`eme principal est alors de faire
de linference statistique sur : lestimer, ponctuellement ou par regions de confiance
(intervalles si d = 1), et effectuer des tests dhypoth`eses portant sur . On fait alors de la
statistique param
etrique.
Un mod`
ele non param
etrique est un mod`ele o`
u P ne peut pas se mettre sous la
forme ci-dessus. Par exemple, P peut etre :

lensemble des lois de probabilite continues sur IR,


lensemble des lois de probabilite dont le support est [0, 1],
lensemble des lois de probabilite sur IR symetriques par rapport a` lorigine,
etc...

Dans ce cadre, il est possible de determiner des estimations, des intervalles de confiance,
deffectuer des tests dhypoth`eses. Mais les objets sur lesquels portent ces procedures
statistiques ne sont plus des param`etres de lois de probabilite. On peut vouloir estimer des
quantites reelles comme lesperance et la variance des observations. On a vu en PMS quon
pouvait utiliser la moyenne et la variance empirique des donnees. On peut aussi vouloir
estimer des fonctions, comme la fonction de repartition et la densite des observations. On
a vu en PMS quun histogramme est une estimation de densite.
En termes de tests dhypoth`eses, on peut effectuer des tests sur la valeur dune
esperance, tester si les observations sont independantes, si elles presentent une croissance,
si elles proviennent dune loi normale, tester si plusieurs echantillons proviennent de la
meme loi, etc... On fait alors de la statistique non param
etrique.
De mani`ere generale, la statistique non parametrique regroupe lensemble des methodes
statistiques qui permettent de tirer de linformation pertinente de donnees sans faire lhypoth`ese que la loi de probabilite de ces observations appartient `a une famille parametree
connue.
Un des probl`emes de la statistique parametrique est le risque derreur du a` un mauvais choix de mod`ele. Par exemple, on a vu en PMS dans lexercice sur les niveaux de
bruit `a Montreal, que lon obtient des resultats aberrants si on effectue des calculs en
supposant que des observations sont de loi exponentielle, alors quen fait elles sont de loi
normale. Lavantage de la statistique non parametrique est de ne pas etre soumise a` cet
alea. En revanche, si les observations sont bien issues dun mod`ele precis, les methodes
statistiques parametriques qui utilisent ce mod`ele seront plus performantes que celles qui
ne lutilisent pas. Il est donc egalement important detablir des methodes permettant de
determiner si des observations sont issues ou non de tel ou tel mod`ele parametrique, les
tests dadequation.

2.3

Fonction de vraisemblance

Dans un mod`ele parametrique, la fonction de vraisemblance joue un role fondamental.


Nous navons vu en PMS que le cas des mod`eles dechantillon, en traitant separement le
cas des lois discr`etes et des lois continues.
Pour un mod`ele dechantillon discret, lelement aleatoire observe est X = (X1 , . . . , Xn ),
o`
u les Xi sont independantes et de meme loi discr`ete. Alors la fonction de vraisemblance

12

Chapitre 2 - Concepts de linf


erence statistique

est :
L(; x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ; ) =

n
Y

P (Xi = xi ; ).

i=1

Pour un mod`ele dechantillon continu, lelement aleatoire observe est X = (X1 , . . . , Xn ),


o`
u les Xi sont independantes et de meme loi continue. Alors la fonction de vraisemblance
est :
n
Y
L(; x1 , . . . , xn ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; ) =
fXi (xi ; ).
i=1

Pour definir une fonction de vraisemblance valable dans nimporte quel mod`ele statistique, pas forcement dechantillon et pas forcement discret ou continu, il faut utiliser des
notions de theorie de la mesure.
Rappels :
Une mesure sur (X , A) est S
-finie si et seulement si il existe une suite {An }n1
dev`enements de A telle que n1 An = X et n 1, (An ) < + (X est une
union denombrable dev`enements de mesure finie).
P est absolument continue par rapport a` si et seulement si :
A A, (A) = 0 P (A) = 0.
On consid`ere un mod`ele parametrique quelconque (X , A, {P ; }). On supposera
quil existe une mesure -finie sur (X , A) telle que , la loi de P est absolument
continue par rapport a` (on dit que est la mesure dominante du mod`ele). Alors
le theor`eme de Radon-Nikodyn assure que P admet une densite par rapport a` . Cette
densite est appelee fonction de vraisemblance du mod`ele.
D
efinition 2 La fonction de vraisemblance du mod`ele (X , A, {P ; }) est la
fonction de definie par :
Z
A A, P (A) = P (X A; ) =
L(; x) d(x).
A

Plus generalement, pour toute fonction integrable, on a :


Z
E [(X)] =
(x) L(; x) d(x).
X

En toute rigueur, L nest definie qu`a une -equivalence pr`es. Mais dans la pratique,
il ny a pas dambig
uite, aussi parle-t-on bien de la fonction de vraisemblance.
Cas des mod`eles continus. Si X est un vecteur aleatoire admettant une densit
R e fX (x; )
(par rapport a` la mesure de Lebesgue), on sait bien que P (X A; ) = A fX (x; ) dx.
Donc la mesure dominante est la mesure de Lebesgue et la fonction de vraisemblance est
L(; x) = fX (x; ).

2.4 Statistiques

13

Cas des mod`eles discrets. Si X est un vecteur aleatoire de loi discr`ete, definie par les
probabilites elementaires P (X = x; ), alors :
Z
X
P (X A; ) =
P (X = x; ) =
P (X = x; ) dd (x)
A

xA

R
o`
u d est la mesure de denombrement sur X : d (A) = card(A) et A f (x) dd (x) =
P
xA f (x). Donc la fonction de vraisemblance est bien L(; x) = P (X = x; ).
Lavantage de cette definition generale est quelle permet de traiter des cas plus atypiques que les mod`eles dechantillon discrets ou continus.
Exemple. Une experience aleatoire conduit `a observer la realisation dun couple de variables aleatoires X = (Y, N ), o`
u Y est une variable aleatoire reelle (continue) et N est
une variable aleatoire enti`ere (discr`ete). Y et N ne sont pas forcement independantes.
Admettons que leur loi conjointe depende dun param`etre .
Pour calculer la vraisemblance, qui permettra destimer , il faut etre capable de
calculer des grandeurs du type P ((Y, N ) A1 A2 ; ) = P ([Y A1 ] [N A2 ]; ), o`
u
A1 est un intervalle de IR et A2 est une partie de IN. On a :
X
P ([Y A1 ] [N A2 ]; ) =
P ([Y A1 ] [N = n]; )
nA2

Z
P ([Y A1 ] [N = n]; ) dd (n)

=
A2

Z
P (Y A1 |N = n; ) P (N = n; ) dd (n)
Z Z
=
fY |N =n (y; ) dy P (N = n; ) dd (n)
A2 A1
Z Z
=
fY |N =n (y; ) P (N = n; ) dy dd (n)
A1 A2
Z Z
=
fY |N =n (y; ) P (N = n; ) dL d (y; n)
=

A2

A1 A2

ce qui prouve que la fonction de vraisemblance est :


L(; x) = L(; y, n) = fY |N =n (y; ) P (N = n; ).
et que la mesure dominante est la mesure produit L d , o`
u L est la mesure de Lebesgue
sur IR et d est la mesure de denombrement sur IN.

2.4

Statistiques

En PMS, on a defini une statistique comme une fonction des observations, t(x). Dans
un mod`ele parametrique, cette fonction ne doit pas dependre du param`etre inconnu .
Autrement dit, elle doit etre mesurable. La definition formelle dune statistique est la
suivante.

14

Chapitre 2 - Concepts de linf


erence statistique

D
efinition 3 Dans un mod`ele statistique (X , A, P), une statistique est une application
mesurable t de (X , A) dans un espace Y muni dune tribu B.
Rappel : une application t de (X , A) dans (Y, B) est mesurable si et seulement si B B,
lev`enement t1 (B) = [t(X) B] est dans A, cest-`a-dire A, t(A) = B A A.
Concr`etement, cela signifie que lon peut calculer la probabilite de tout ev`enement de la
forme [t(X) B], donc t ne doit pas dependre de param`etres inconnus.
Puisque x est une realisation de lelement aleatoire X, t(x) est une realisation de
lelement aleatoire T = t(X).

D
efinition 4 La loi de probabilite PT de T est appelee loi image par t et le mod`ele
(Y, B, {PT ; P P}) est le mod`
ele image par t de (X , A, P).

n
Exemple des ampoules. Le mod`ele est IR+ , B(IR+ ), exp(); IR+
. X = (X1 , . . . , Xn ),
o`
u les Xi sont des variables aleatoires independantes et de meme loi exp(). On sait
n
n
P
P
qualors T =
Xi est de loi gamma G(n, ). Donc la loi image par t(x) =
xi est la
i=1
i=1


loi G(n, ) et le mod`ele image est le mod`ele IR+ , B(IR+ ), G(n, ); IR+ .
Remarquons que le mod`ele image est de dimension 1 alors que le mod`ele initial etait
n
P
de dimension n. Autrement dit, la statistique t(x) =
xi est un resume des observations
i=1

x = (x1 , . . . , xn ). On retrouvera cette notion ulterieurement.


D
efinition 5 Soit (X , A, {P ; }) un mod`ele statistique parametrique. Si la fonction

de vraisemblance admet un maximum unique au point (x),


alors lapplication x 7 (x)

est appelee statistique de maximum de vraisemblance. (X)


est lestimateur de
maximum de vraisemblance de au vu de X.

2.5

Exhaustivit
e



On consid`ere un mod`ele statistique parametrique (X , A, P ; IRd ). On cherche `a obtenir le maximum de connaissance possible sur le param`etre a` partir de lobservation x X . Souvent, x est un vecteur (x1 , . . . , xn ) et n est tr`es grand. Il est alors
interessant de reduire les donnees en les resumant par une statistique t(x) de dimension
tr`es inferieure `a n. Il est logique de sattendre `a ce que le resume t(x) des observations
contienne moins dinformation sur que lensemble des donnees initiales. Or il existe des
statistiques qui resument les observations tout en conservant lintegralite de linformation
sur , les statistiques exhaustives.

D
efinition 6 Une statistique t est exhaustive pour si et seulement si la loi de probabilite conditionnelle de X sachant [T = t] ne depend pas de .

2.5 Exhaustivit
e

15

Justification. Si la loi de X sachant [T = t] ne depend pas de , cela signifie que, quand


on connait le resume de lobservation t(x), la connaissance de la totalite de lobservation
x napporte aucun renseignement supplementaire sur . Donc la totalite de linformation
sur est contenue dans t(x). Par consequent, il faut sattendre a` ne se servir que de t(x)
(au lieu de x tout entier) pour estimer .
Exemple du controle de qualite. Le mod`ele est ({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n . x =
(x1 , . . . , xn ), o`
u

1 si la i`eme pi`ece est defectueuse
xi =
0 sinon
Les Xi sont des variables aleatoires independantes et de meme loi B(p), o`
u p est la
probabilite quune pi`ece soit defectueuse.
Il semble evident que, pour avoir toute linformation sur p, il est inutile de savoir, pour
chaque pi`ece controlee, si elle est defectueuse ou pas. Il suffit de connatre le pourcentage
(ou le nombre total) de pi`eces defectueuses. Dailleurs on a vu en PMS que lestimateur
n
1P
Xi .
optimal (ESBVM) de p etait bien la proportion de pi`eces defectueuses pn =
n i=1
n
1P
On doit donc sattendre a` ce que pn (x) =
xi soit une statistique exhaustive. Pour
n i=1
des raisons de simplicite decriture, on va plutot montrer que le nombre total de pi`eces
n
P
xi est une statistique exhaustive.
defectueuses t(x) =
On sait que T =

i=1
n
P

Xi est de loi binomiale B(n, p). Alors :

i=1

P (X = x|T = t) = P (X1 = x1 , . . . , Xn = xn |

n
X

Xi = t)

i=1


P
=

n
P

X 1 = x1 , . . . , X n = xn , X i = t
n
 i=1
P
P
Xi = t
i=1

P (Xi = xi ) =

si

P (X1 = x1 , . . . , Xn = xn )
n

P
P
Xi = t

si

n
P
i=1
n
P

xi 6= t
xi = t

i=1

i=1

p
1p

si xi = 1
= pxi (1 p)1xi
si xi = 0

et comme les Xi sont independants, on a :


n
Q

P (X1 = x1 , . . . , Xn = xn )
n

=
P
P
Xi = t
i=1

n
Q

P (Xi = xi )

i=1

P (T = t)

pxi (1 p)1xi

i=1
Cnt

pt (1 p)nt

16

Chapitre 2 - Concepts de linf


erence statistique
n
P

Donc P (X = x|T = t) =

si

xi

n
P

(1 p)
t
Cn pt (1 p)nt

i=1

n
P

i=1

xi

n
X
1
xi = t
= t si
Cn
i=1

xi 6= t

i=1
n
P

.
1

si
x
=
t
i
Cnt  i=1

n
P
n
On reconnait la loi uniforme sur (x1 , . . . , xn ) {0, 1} ; xi = t .
i=1

La loi conditionnelle de X sachant [T = t] ne depend pas de p, donc t(x) =

n
P

xi est

i=1

une statistique exhaustive pour p.


La verification de la propriete definissant les statistiques exhaustives netant pas
forcement facile, il est plus pratique dutiliser le theor`eme de Fisher-Neyman, qui caracterise tr`es simplement lexhaustivite.
Th
eor`
eme 1 . Th
eor`
eme de factorisation de Fisher-Neyman. Pour quune statistique t soit exhaustive pour , il faut et il suffit quil existe deux fonctions mesurables g et
h telles que :
x X , , L(; x) = g (t(x); ) h(x).
Demonstration. Effectuons la demonstration dans le cas dun mod`ele discret. On a donc
L(; x) = P (X = x; ).
() Si t est exhaustive, P (X = x|T = t) ne depend pas de . Par consequent :
L(; x) = P (X = x; ) = P (X = x t(X) = t(x); )
= P (X = x T = t(x); ) = P (X = x|T = t(x)) P (T = t(x); )
= h(x) P (T = t(x); )
qui est bien de la forme g (t(x); ) h(x).
() On suppose que L(; x) = P (X = x; ) = g (t(x); ) h(x). Il faut montrer qualors
P (X = x|T = t) ne depend pas de . On a :
P (X = x t(X) = t0 ; )
P (X = x T = t0 ; )
=
P (T = t0 ; )
P (T = t0 ; )

0
si t(x) 6= t0

P (X = x; )
=
si t(x) = t0

P (T = t0 ; )
P
Or P (T = t0 ; ) = P (t(X) = t0 ; ) =
P (X = y; ).
P (X = x|T = t0 ; ) =

y;t(y)=t0

Donc, pour t(x) = t0 , on a :


P (X = x|T = t0 ; ) =

P (X = x; )
P
=
P (X = y; )
y;t(y)=t0

g (t(x); ) h(x)
P
g (t(y); ) h(y)
y;t(y)=t0

2.5 Exhaustivit
e

17
g (t ; ) h(x)
P 0
=
g (t0 ; ) h(y)

y;t(y)=t0

h(x)
P
h(y)
y;t(y)=t0

qui ne depend pas de . Donc t est exhaustive, do`


u le theor`eme.

Exemple 1 : controle de qualite. On a vu que :


L(p; x1 , . . . , xn ) =

n
Y

n
P

xi

1xi

p (1 p)

xi

= pi=1 (1 p)

n
P

xi

i=1

i=1

Cest de la forme g(

n
P

xi ; p), donc on retrouve immediatement que

i=1

n
P

xi est une sta-

i=1

tistique exhaustive.
Exemple 2 : echantillon de loi normale N (m; 2 ). On suppose que X = (X1 , . . . , Xn ), o`
u
2
les Xi sont independantes et de meme loi N (m; ). La vraisemblance est :
L(m, 2 ; x1 , . . . , xn ) =

n
Y


fXi xi ; m, 2 =

i=1

n
Y
i=1

(xi m)2

2 2
e

n
1 X

(xi m)2
2
2 i=1
1
n e
=
2
" n
#
n
X
X
1

x2i 2m
xi + nm2
2
2 i=1
1
i=1
n e
=
2
 n

n

n
n
P
P
P
P
2
2
2
qui est de la forme g ( xi , xi ); m, . Donc le couple
xi , xi est une stai=1

i=1

i=1

i=1

tistique exhaustive pour le param`etre = (m, 2 ) dun echantillon de loi normale.


Propri
et
e 1 Si t est exhaustive et si t = s, alors s est exhaustive.
Demonstration. t est exhaustive donc
L(; x) = g (t(x); ) h(x) = g ([s(x)]; ) h(x) = G (s(x); ) h(x)
donc s est exhaustive.




Exemple : echantillon de loi normale.

n
P

i=1

xi ,

n
P

x2i

= (
xn , s2n ), donc (
xn , s2n ) est une

i=1

statistique exhaustive pour (m, 2 ) (cest la statistique de maximum de vraisemblance).


Remarque : Si t est exhaustive, t ne lest pas forcement ! Par exemple, (
xn , s2n ) = xn
nest pas exhaustive pour (m, 2 ).
Propri
et
e 2 Si t est une statistique exhaustive et si est la statistique de maximum de
vraisemblance, alors il existe une fonction telle que = t.

18

Chapitre 2 - Concepts de linf


erence statistique

Demonstration. t est exhaustive donc L(; x) = g (t(x); ) h(x). h nintervient pas dans
la maximisation de cette fonction par rapport a` , donc la statistique de maximum de
vraisemblance ne depend de x qu`a travers t(x). Par consequent, il existe une fonction
telle que = t.


n
n
P
P

= (
xn , s2n ).
Cest bien le cas de la loi normale avec t(x) =
xi , x2i et (x)
i=1

i=1

La statistique de maximum de vraisemblance est fonction dune statistique exhaustive,


mais elle nest pas forcement exhaustive elle-meme.
En fait, on peut caracteriser facilement les lois de probabilite pour lesquelles les
mod`eles dechantillon admettent une statistique exhaustive : celles qui appartiennent `a la
famille exponentielle.

2.6

La famille exponentielle

D
efinition 7 Soit X une variable aleatoire reelle, dont la loi de probabilite depend dun
param`etre IRd . On dit que la loi de X appartient `
a la famille exponentielle si et
seulement si P (X = x; ) (cas discret) ou fX (x; ) (cas continu) est de la forme :
d
X

aj (x)j () + b(x) + ()

e j=1
La plupart des lois usuelles appartiennent a` la famille exponentielle :
Loi de Bernoulli B(p) :

p
P (X = x; p) =
1p

si x = 1
= px (1 p)1x = ex ln p + (1 x) ln(1 p)
si x = 0
p
x ln
+ ln(1 p)
1p
= ex[ln p ln(1 p)] + ln(1 p) = e

qui est de la forme souhaitee avec d = 1, a(x) = x, (p) = ln

p
, b(x) = 0 et
1p

(p) = ln(1 p).


Loi exponentielle exp() :
fX (x; ) = ex = ex + ln
qui est de la forme souhaitee avec d = 1, a(x) = x, () = , b(x) = 0 et
() = ln .
Loi normale N (m, 2 ) :

fX x; m,


2

1
=
2

(x m)2
x2
mx
m2

ln 2
2
2
2
2
2

2
e
= e 2

2.6 La famille exponentielle

19

1
qui est de la forme souhaitee avec d = 2, a1 (x) = x2 , 1 (m, 2 ) = 2 , a2 (x) = x,
2

m
m
2 (m, 2 ) = 2 , b(x) = 0 et (m, 2 ) = 2 ln 2.

2
Mais par exemple, la loi de Weibull W(, ) nappartient pas `a la famille exponentielle :
x1
fX (x; , ) =

 
x
x

+ ( 1) ln x ln + ln

=e
e

x
ne peut pas etre mis sous la forme a(x)(, ), donc la loi de

Weibull nappartient pas a` la famille exponentielle.


Le terme x fait que

Le lien entre famille exponentielle et exhaustivite est donne par le theor`eme de Darmois :
Th
eor`
eor`
eme de Darmois. Dans un mod`ele dechantillon (X , A, {P ;
eme 2 . Th
IRd )n , o`
u le support de la loi des observations ne depend pas de , il existe une statistiqueexhaustive si et seulement
 si cette loi appartient `a la famille exponentielle. Alors
n
n
P
P
t(x) =
a1 (xi ), . . . , ad (xi ) est une statistique exhaustive.
i=1

i=1

Demonstration. On effectue la demonstration pour des lois continues.


() Si la loi des observations appartient a` la famille exponentielle, la fonction de vraisemblance est :
d
X

L(; x1 , . . . , xn ) =

n
Y

fXi (xi ; ) =

i=1
n X
d
X

= e

n
Y

i=1

aj (xi )j () +

i=1 j=1
d
X

j ()

= e j=1

aj (xi )j () + b(xi ) + ()

j=1

n
X

b(xi ) + n()

i=1
n
X
i=1

aj (xi ) +

n
X

b(xi ) + n()

i=1


Le theor`eme de Fisher-Neyman permet alors den deduire que t(x) =

n
P

a1 (xi ), . . . ,

i=1

n
P
i=1

est une statistique exhaustive pour .


() Montrons la reciproque pour d = 1, cest-`a-dire IR. On suppose quil existe une
statistique exhaustive t. Alors :
L(; x1 , . . . , xn ) =

n
Y
i=1

f (xi ; ) = g (t(x1 , . . . , xn ); ) h(x1 , . . . , xn )


ad (xi )

20

Chapitre 2 - Concepts de linf


erence statistique
Il faut montrer qualors forcement f (x; ) est de la forme e a(x)() + b(x) + () . On

a:
ln L(; x1 , . . . , xn ) =

n
X

ln f (xi ; ) = ln g (t(x1 , . . . , xn ); ) + ln h(x1 , . . . , xn )

i=1

Et comme h ne depend pas de :


n

ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )

i=1
Pour un i quelconque fixe dans {1, . . . , n}, on a :
2
2
2
ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )
xi
xi
xi

2
=
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xi
y
Pour i et j distincts, on obtient donc :

2
2

ln g(y; )|y=t(x1 ,...,xn )


t(x1 , . . . , xn )
ln f (xi ; )
t(x1 , . . . , xn )
xi
y
xi
xi
=
=

2
2

t(x1 , . . . , xn )
ln f (xj ; )
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xj
xj
xj
y
(x; )
(y; )
ne depend pas de . Alors forcement (x; ) est de la forme (x; ) = u(x)v(). Par
2
consequent, on a
ln f (x; ) = u(x)v().
x
qui ne depend pas de . On est donc dans la situation dune fonction telle que

Do`
u

ln f (x; ) = a(x)v() + w() et ln f (x; ) = a(x)() + () + b(x).

Finalement, la densite est bien de la forme f (x; ) = e a(x)() + b(x) + () .



Pour finir ce chapitre, appliquons le theor`eme de Darmois aux lois usuelles.
Loi de Bernoulli B(p) : a(x) = x, donc on retrouve le fait que

n
P

xi est une statistique

i=1

exhaustive. LESBVM de p est une fonction de cette statistique : pn =


Loi exponentielle exp() : a(x) = x, donc

n
P

n
1P
Xi .
n i=1

xi est une statistique exhaustive.

i=1

n = n 1 .
LESBVM de est une fonction de cette statistique :
n
P
Xi
i=1

2.6 La famille exponentielle

21


Loi normale 
N (m, 2 ) : a1 (x) = x2 et a2 (x) = x, donc on retrouve le fait que
n
n
P 2 P
xi , xi ou (
xn , s2n ) est une statistique exhaustive.
i=1

i=1

Loi de Weibull W(, ). Elle nappartient pas a` la famille exponentielle, donc il


ny a pas de statistique exhaustive. Cela peut se voir autrement en ecrivant la
vraisemblance :

L(, ; x1 , . . . , xn ) =

n
Y
i=1

x1
i
e

xi


=

n
n

"

n
1 X
#

x
n
Y
i=1 i
1
e
xi
i=1

Elle ne peut pas etre factorisee sous la forme du theor`eme de Fisher-Neyman


g (t(x1 , . . . , xn ); , ) h(x1 , . . . , xn ), sauf si on prend t(x1 , . . . , xn ) = (x1 , . . . , xn ).
Autrement dit, on ne peut pas resumer lensemble des donnees en conservant la
totalite de linformation sur les param`etres.
Remarque : on a relie la notion dexhaustivite a` celle dinformation sans definir precisement
linformation. Il y a en fait un lien entre lexhaustivite et linformation de Fisher, comme
on le verra plus tard.

22

Chapitre 2 - Concepts de linf


erence statistique

Chapitre 3
Estimation param
etrique optimale
3.1

Introduction


On se place dans un mod`ele statistique parametrique (X , A, {P ; IRd ). On
cherche a` estimer au mieux le param`etre a` partir de lobservation x a` laide dune
statistique t(x). Lestimateur T = t(X) doit verifier certaines proprietes pour etre de
bonne qualite. Il est sans biais si E(T ) = . Quand IR (d = 1), on a vu quil fallait
que lerreur quadratique moyenne EQM (T ) = E [(T )2 ] soit la plus petite possible.
Quand T est sans biais, EQM (T ) = V ar(T ). Donc pour IR, un estimateur optimal
sera un estimateur sans biais et de variance minimale (ESBVM).
En PMS, nous avons vu quun estimateur sans biais et efficace (sa variance est egale
a` la borne de Cramer-Rao) etait forcement un ESBVM, mais nous navons pas donne
de procedure generale permettant de trouver un ESBVM. Cest le but essentiel de ce
chapitre. Cela necessite dutiliser la notion dexhaustivite, vue au chapitre precedent, et
de completude, que nous allons introduire.
Les resultats seront dabord introduits dans le cas simple o`
u est de dimension 1
(sections 3.2. `a 3.4.), puis nous regarderons le cas o`
u est de dimension d quelconque en
abordant la notion dinformation de Fisher.

3.2

R
eduction de la variance

Le theor`eme suivant permet, `a partir dun estimateur sans biais, de construire un


autre estimateur sans biais de variance inferieure, pour peu quil existe une statistique
exhaustive.
Th
eor`
eme 3 . Th
eor`
eme de Rao-Blackwell. Sil existe une statistique exhaustive T
et un estimateur sans biais de , alors Z = E[ | T ] est un estimateur sans biais de ,

de variance inferieure `a celle de .


Rappels.
E[Y | X] est une variable aleatoire fonction de X. E[Y | X = x] en est une realisation.
Theor`eme de lesperance totale : E [E[Y | X]] = E(Y ).
Pour toute fonction mesurable, E[(X) | X] = (X).

24

Chapitre 3 - Estimation param


etrique optimale
Pour toute fonction mesurable, E[(X)Y | X] = (X)E[Y | X].

Demonstration. Comme T est exhaustive, la loi de X sachant T ne depend pas de , donc


celle de sachant T non plus. Par consequent, E[ | T = t] ne depend pas de , donc
z(x) = E[ | T = t(x)] est bien une statistique. Ce resultat est indispensable puisque, si
Z dependait de , on ne pourrait pas lutiliser pour estimer .
h
i
Donc si est
Dapr`es le theor`eme de lesperance totale, E(Z) = E E[ | T ] = E().
un estimateur sans biais de , Z est aussi un estimateur sans biais de . La variance de
est :
h
i
h
i
= E ( E())
2 = E ( )2
V ar()
h
i
2

= E ( Z + Z )
h
i
i
h


= E ( Z)2 + E (Z )2 + 2E ( Z)(Z ) .
Les 3 termes de cette somme verifient :
h
i
1. E ( Z)2 0.
2. E [(Z )2 ] = E [(Z E(Z))2 ] = V ar(Z).
h
i
h
i
h
i

3. E ( Z)(Z ) = E ( Z)Z E( Z) = E ( Z)Z


E(Z) = = 0.
car E( Z) = E()
Enfin :
h

E ( Z)Z

=
=
=
=

h h
ii

E E ( Z)Z | T
dapr`es le theor`eme de lesperance totale
h h
ii
E E ( E[ | T ]) E[ | T ] | T
h
h
ii
E E[ | T ] E E[ | T ] | T
h
h
ii
E E[ | T ] E[ | T ] E[ | T ]

= 0.
h
i
= E ( Z)2 + V ar(Z), ce qui prouve que V ar(Z) V ar(),
do`
Do`
u V ar()
u le
theor`eme.

Exemple des ampoules. Mod`ele dechantillon de loi exponentielle. On souhaite estimer la
fiabilite dune ampoule `a linstant x, cest-`a-dire la probabilite quelle fonctionne toujours
au bout dune duree x :
R(x) = P (Xi > x) = ex .

3.2 R
eduction de la variance

25

n = 1/X n =
On sait que lestimateur de maximum de vraisemblance de est
n
P
n/ Xi , donc lestimateur de maximum de vraisemblance de R(x) est :
i=1
n x

n (x) = e
R

nx/

=e

n
P
i=1

Xi

.
n

0 = (n 1)/ P Xi ,
On a dit en PMS (mais sans le prouver) que lESBVM de est
n
i=1
(n1)x/

n0 (x) = e
donc on peut aussi proposer destimer R(x) par R

n
P

Xi

i=1

Mais le biais de ces estimateurs est difficile a` calculer. En effet, etant donne que

n
P

Xi

i=1

est de loi G(n, ), on a par exemple :


h
i Z +

E Rn (x) =
enx/y
0

n
ey y n1 dy
(n 1)!

quon ne sait pas calculer.


Une autre solution consiste `a estimer la probabilite quune ampoule fonctionne toujours
a` linstant x par le pourcentage dampoules observees qui fonctionnent toujours a` linstant
x. Cest ce quon appelle la fiabilite empirique :
n

IRn (x) = 1 IFn (x) =

1X
11{Xi >x} .
n i=1

Les proprietes de cet estimateur sont faciles a` etablir. En effet, les Yi = 11{Xi >x}
sont des variables aleatoires independantes et de meme loi de Bernoulli B (P (Yi = 1)) =
B (P (Xi > x)) = B (R(x)).
La fiabilite empirique nest autre que la moyenne empirique des Yi : IRn (x) = Y n .
Donc on sait que IRn (x) est un estimateur sans biais et convergent de E(Yi ) = R(x) :
E [IRn (x)] = R(x)
On a vu que t(x) =

et

V ar [IRn (x)] =

V ar(Yi )
R(x) [1 R(x)]
=
.
n
n

n
P

xi etait une statistique exhaustive pour . Par consequent, le




n
P
theor`eme de Rao-Blackwell permet daffirmer que Z = E IRn (x) |
Xi est un estimai=1

i=1

teur sans biais de R(x), de variance inferieure `a celle de IRn (x).


"
Soit z(x, t) = E IRn (x) |

n
X

#
Xi = t

i=1

#
n
n
X
1X
11{Xj >x} |
Xi = t
= E
n j=1
i=1
"
#
n
n
X
1X
=
E 11{Xj >x} |
Xi = t
n j=1
i=1
"

26

Chapitre 3 - Estimation param


etrique optimale
"
= E 11{X1 >x} |

n
X

#
Xi = t

i=1

car les Xi sont interchangeables, donc toutes les esperances sont egales
n
X

= P X1 > x |


Xi = t .

i=1

Comme les Xi sont positives, il est impossible que lon ait a` la fois X1 > x et

n
P

Xi = t

i=1

quand t x. On fera donc le calcul sous lhypoth`ese t > x et on rajoutera a` la fin


lindicatrice 11{t>x} . On a :
Z +
n
X

n
P X1 > x |
Xi = t =
f
(u) du
P
avec :

f
f

X1 |

n
P

Xi =t

X1 |

i=1

(X1 ,

n
P

Xi )

n
fP

i=1

Xi

(u, t)

i=1

(u) =

(t)

Xi =t

i=1

n
P

(X1 ,

Xi )

(u, t u)

i=2

n
fP

i=1

Xi

(t)

i=1

Pour les memes raisons que precedemment, le numerateur est nul quand t u. Donc
dans lintegrale, la borne sup est en fait t au lieu de +.
Pour u < t, on a :
n
fX1 (u) f P

X1 |

n
P

Xi =t

Xi

(t u)

i=2

(u) =

n
fP

i=1

Xi

(t)

i=1

car X1 et

n
P

Xi sont independantes. Comme

i=2

e
X1 |

Xi est de loi G(n 1, ), on a :

i=2
u

n
P

n
P

Xi =t

(u) =

i=1

n1 (tu)
e
(t u)n2
(t u)n2
(n 2)!
= (n 1)
n
tn1
et tn1
(n 1)!

Do`
u:
n
X

t
(t u)n2
1 
du = n1 (t u)n1 x
n1
t
t
x
i=1
(t x)n1 
x n1
=
=
1

, avec x < t.
tn1
t

x n1
Donc finalement z(x, t) = 1
11{t>x} et lestimateur recherche est :
t
x n1
n
Z = 1 P
11 P
.
n
{
Xi >x}
i=1
Xi
P X1 > x |


Xi = t =

(n 1)

i=1

3.3 Compl
etude

27

n (x), R0 n (x) et IRn (x) semblent naturels, autant celui-ci nest


Autant les estimateurs R
pas intuitif. Pourtant, cest le meilleur des 4.
On a vu quon pouvait diminuer la variance dun estimateur sans biais, mais peuton atteindre la variance minimale ? Pour le determiner, on doit introduire la notion de
statistique compl`ete.

3.3

Compl
etude

D
efinition 8 Une statistique t est compl`
ete ou totale si et seulement si pour toute
fonction mesurable , on a :
E [(T )] = 0, = 0 presque partout sur le support de la loi de T, cest-`a-dire
partout sauf sur un ensemble de mesure nulle.
Exemple 1 : controle de qualite. X = (X1 , . . . , Xn ), o`
u les Xi sont i.i.d. de loi de Bernoulli
n
P
B(p). On sait que t(x1 , . . . , xn ) =
xi est une statistique exhaustive pour p. Est-elle
i=1

compl`ete ?
On sait que T =

n
P

Xi est de loi binomiale B(n, p), donc :

i=1

E [(T )] =

n
X

(k) P (T = k) =

n
X

(k) Cnk pk (1 p)nk .

k=0

k=0

Il faut montrer que


n
X

(k) Cnk pk (1 p)nk = 0, p [0, 1] k {0, . . . , n}, (k) = 0.

k=0

En effet, comme le support de T est fini, doit etre nulle partout sur le support.

k
n
n
X
X
p
k k
nk
n
k
Or
(k) Cn p (1 p)
= (1 p)
(k) Cn
.
1

p
k=0
k=0
Soit =
n
X

p
. On a :
1p

(k) Cnk

p (1 p)

nk

= 0, p [0, 1]

k=0

n
X

(k) Cnk k = 0, IR+ .

k=0

Cest un polynome de degre n en qui est identiquement nul, donc tous ses coefficients
sont nuls. Par consequent, k {0, . . . , n}, (k) Cnk = 0 et donc k {0, . . . , n}, (k) =
n
P
0, ce qui prouve que t(x1 , . . . , xn ) =
xi est une statistique compl`ete.
i=1

Exemple 2 : ampoules. X = (X1 , . . . , Xn ), o`


u les Xi sont i.i.d. de loi exponentielle exp().
n
P
On sait que t(x1 , . . . , xn ) =
xi est une statistique exhaustive pour . Est-elle compl`ete ?
i=1

28

Chapitre 3 - Estimation param


etrique optimale
On sait que T =

n
P

Xi est de loi gamma G(n, ), donc :

i=1
+

Z
E [(T )] =
0

E [(T )] = 0, IR

n
(y)
ey y n1 dy.
(n 1)!

(y) y n1 ey dy = 0, IR+ .

Or cette integrale est la transformee de Laplace de la fonction (y) y n1 au point .


Comme la transformee de Laplace est injective, la seule fonction dont la transformee soit
0 est la fonction nulle.
Donc on a y IR+ , (y) y n1 = 0, do`
u y IR+ , (y) = 0. nest peut-etre pas
nulle en 0, mais elle est nulle presque partout sur IR+ , support de la loi G(n, ). Par
n
P
consequent, t(x1 , . . . , xn ) =
xi est une statistique compl`ete.
i=1

3.4

Lestimation sans biais et de variance minimale

Les notions dexhaustivite et de completude permettent de trouver un ESBVM de


a` partir dun estimateur sans biais.
Th
eor`
eme 4 . Th
eor`
eme de Lehmann-Scheff
e. Si est un estimateur sans biais de
et t est une statistique exhaustive et compl`ete, alors Z = E[ | T ] est lunique estimateur
sans biais de , de variance minimale parmi tous les estimateurs sans biais de .
Demonstration. Dapr`es le theor`eme de Rao-Blackwell, si un estimateur sans biais nest
pas fonction de la statistique exhaustive T , on peut toujours trouver un autre estimateur
sans biais de , de variance inferieure, qui soit fonction de T : Z = E[ | T ]. Donc un
ESBVM est forcement fonction de T .
Supposons quil existe 2 estimateurs sans biais fonction de T , 1 (T ) et 2 (T ).
h
i
h
i
h
i
h
i
E 1 (T ) = E 2 (T ) = donc , E 1 (T ) 2 (T ) = E (1 2 )(T ) = 0.
Comme t est compl`ete, on en deduit que 1 2 = 0 presque partout, do`
u 1 = 2
presque partout. Il nexiste donc quun seul estimateur sans biais fonction de T et cet
estimateur est de variance minimale.

Corollaire 1 . Pour trouver un estimateur optimal, il suffit de trouver un estimateur
sans biais fonction dune statistique exhaustive et compl`ete.
n
1P
Xi est un estimateur sans biais de p,
n i=1
n
P
fonction de la statistique exhaustive et compl`ete
Xi , donc cest lESBVM de p.

Exemple 1 : controle de qualite. pn = X n =

i=1

3.5 Information de Fisher et efficacit


e

29

Cela conforte lintuition : la meilleure facon destimer la probabilite quune pi`ece soit
defectueuse, cest de prendre le pourcentage de pi`eces defectueuses dans le lot controle.
n = n/
Exemple 2 : ampoules. Lestimateur de maximum de vraisemblance de est

n
P

Xi .

i=1

0 = (n 1)/ P Xi etait sans biais. On a affirme en


On a vu quil etait biaise et que
n
i=1

0 etait lESBVM de , sans pouvoir le justifier. On sait maintenant que cest


PMS que
n
0 est un estimateur sans biais fonction de la statistique exhaustive et compl`ete
parce que
n
n
P
Xi .
i=1

Propri
et
e 3 Le theor`eme de Lehmann-Scheffe reste valable si on remplace par (),
o`
u est une fonction mesurable quelconque. Autrement dit, lESBVM de () est un
estimateur sans biais de () fonction dune statistique exhaustive et compl`ete.
x n1
n
Dans lexemple des ampoules, on a vu que Z = 1 P
11 P
est un estin
{
Xi >x}
i=1
Xi
i=1

mateur sans biais de R(x) = ex . Comme il est fonction de la statistique exhaustive et


n
P
compl`ete
Xi , cela signifie que Z est lESBVM de R(x). IRn (x) est aussi un estimateur
i=1

sans biais de R(x), mais comme il nest pas fonction de

n
P

Xi , ce nest pas lESBVM.

i=1

Th
eor`
eme 5 Dans un mod`ele dechantillon o`
u la loi des observations appartient `a la
n
P
famille exponentielle, si () est bijective, alors la statistique exhaustive
a(xi ) est
i=1

compl`ete.
Ce theor`eme permet de retrouver directement que

n
P

xi est compl`ete dans les exemples

i=1

du controle de qualite et des ampoules.

3.5

Information de Fisher et efficacit


e

On a dit quune statistique exhaustive contenait autant dinformation sur que lobservation x toute enti`ere, mais on na pas defini ce quetait linformation sur un param`etre.
Il y a en fait plusieurs facons de la definir. On ne parlera ici que de linformation de Fisher,
mais on pourrait aussi parler de linformation de Kullback ou de Shannon. Intuitivement,
linformation mesure la capacite de lobservation a` estimer avec precision le param`etre .
En PMS, on a defini la quantite dinformation de Fisher dans le cas de mod`eles parametriques dechantillon, pour un param`etre de dimension 1 :



In () = V ar
ln L(; X1 , . . . , Xn )

"
2 #
 2


= E
ln L(; X1 , . . . , Xn )
= E
ln L(; X1 , . . . , Xn )

30

Chapitre 3 - Estimation param


etrique optimale

Linteret principal de la quantite dinformation est quelle fournit une borne inferieure
pour la variance de nimporte quel estimateur sans biais de , grace `a linegalite FDCR :
pour nimporte quelle statistique T ,

V ar(T )

2

E(T )

In ()

En particulier, si T est un estimateur sans biais de , alors V ar(T )

1
.
In ()

Un estimateur efficace est un estimateur pour lequel linegalite FDCR est une egalite.
Si un estimateur sans biais est efficace, alors il est forcement de variance minimale et sa
variance est egale a` la borne de Cramer-Rao 1/In ().
Dans cette section, nous allons approfondir cette notion dinformation de Fisher, en
commencant par la definir pour un param`etre de dimension d quelconque.

3.5.1

Score et matrice dinformation


d
On se place dans
un
mod`
e
le
param
e
trique
(X
,
A,
{P
;

I
R
). Le param`etre

1
..
secrit donc = . .
d
Quand on estime un param`etre de dimension d, les notions usuelles liees `a lestimation
secrivent sous forme vectorielle. Par exemple :

T1

Le vecteur aleatoire T = ... est un estimateur sans biais de si E(T ) = , ce


T

d
1
E(T1 )

..
..
qui secrit vectoriellement
u j {1, . . . , d}, E(Tj ) = j .
= . o`
.
E(Td )
d
Lerreur quadratique moyenne de lestimateur T est


E ||T ||

d
X

Tj j

2 i

j=1

Les theor`emes de Rao-Blackwell et Lehmann-Scheffe se generalisent en remplacant


la notion de variance par celle derreur quadratique moyenne : on reduit lEQM
en prenant lesperance conditionnelle a` une statistique exhaustive et on a lEQM
minimale si cette statistique est compl`ete.
Pour pouvoir traiter a` la fois les mod`eles discrets et continus, nous allons revenir a`
la definition generale de la fonction de vraisemblance. Soit la mesure de reference. On

3.5 Information de Fisher et efficacit


e

31

rappelle que la vraisemblance L(, x) verifie :


Z
L(; x) d(x)

A A, , P (X A; ) =
A

et pour toute fonction integrable :


Z
(x) L(; x) d(x).

E [(X)] =
X

Pour definir les notions qui vont suivre, on a besoin de faire les hypoth`eses suivantes :
Le support de P ne depend pas de (ce qui, par exemple, exclut la loi uniforme
sur [0, ]).
, x, L(; x) > 0.
ln L(; x) est derivable 2 fois par rapport `a chaque composante j de .
On peut deriver 2 fois sous le signe somme par rapport `a chaque composante de :
pour toute fonction mesurable g et tous j et k dans {1, . . . , d},
Z
Z

g(x) L(; x) d(x) =


g(x)
L(; x) d(x)
j A
j
A
et

2
j k

Z
g(x) L(; x) d(x) =

g(x)
A

2
L(; x) d(x).
j k

Sous ces hypoth`eses, on peut definir les quantites suivantes.


D
efinition 9 Le score est le gradient de la log-vraisemblance :

Z1 (; X)

..
Z(; X) = ln L(; X) =

.
Zd (; X)
o`
u j {1, . . . , d}, Zj (; X) =

ln L(; X).
j

Le score est un vecteur aleatoire de dimension d. Quand IR, cest simplement la

variable aleatoire Z(; X) =


ln L(; X). Lestimateur de maximum de vraisemblance

X) = 0.
de est la valeur de qui annule le score : Z(;
D
efinition 10 La matrice dinformation de Fisher I() est la matrice de covariance
du score, de terme general


Ijk () = Cov Zj (; X); Zk (; X) .

32

Chapitre 3 - Estimation param


etrique optimale


Quand IR, on retrouve bien I() = V ar[Z(; X)] = V ar


ln L(; X) .

Propri
et
e 4 Le score est centre : E[Z(; X)] = 0.
Demonstration. j {1, . . . , d},
 Z


ln L(; X) =
ln L(; x) L(; x) d(x)
E[Zj (; X)] = E
j
X j
Z L(; x)
Z

j
=
L(; x) d(x) =
L(; x) d(x)
L(; x)
X
X j
Z

=
L(; x) d(x)
dapr`es les hypoth`eses effectuees
j X

=
P (X X ) =
1=0
j
j

On en deduit que :





 

Ijk () = Cov Zj (; X); Zk (; X) = E Zj (; X)Zk (; X) E Zj (; X) E Zk (; X)





ln L(; X)
ln L(; X)
= E Zj (; X)Zk (; X) = E
j
k
"
2 #

Pour IR, on retrouve que I() = E


ln L(; X)
.



2
ln L(; X) .
De la meme mani`ere, on montre que Ijk () = E
j k
Propri
et
e 5 Pour les mod`eles dechantillon de taille n, la matrice dinformation est
notee In () et verifie In () = nI1 ().
Cette propriete traduit lidee naturelle que, dans un echantillon, chaque observation
porte la meme quantite dinformation sur , et que la quantite dinformation est additive.
La demonstration de ce resultat est similaire a` celle effectuee en PMS p. 43.

3.5.2

Information et exhaustivit
e

D
efinition 11 La quantit
e dinformation dune statistique t, It (), est la quantite
dinformation du mod`ele image par t.
Si on resume les donnees x par une statistique t(x), on a dit quon sattendait a` perdre
de linformation, sauf si la statistique est exhaustive. Cest exactement ce qui se passe et
qui se traduit de la facon suivante. On presente le resultat pour IR pour simplifier.
Propri
et
e6 .
Degradation de linformation : pour toute statistique t, It () I().
Information et exhaustivite : It () = I() t est exhaustive.

3.5 Information de Fisher et efficacit


e

3.5.3

33

Borne de Cramer-Rao et efficacit


e

Linegalite FDCR vue plus haut pour IR sexprime en fait pour de dimension
quelconque.
Th
eor`
eme 6 . In
egalit
e de Fr
(FDCR). On consid`ere
echet-Darmois-Cramer-Rao

d
un mod`ele parametrique (X , A, P ; IR ) verifiant les hypoth`eses de cette section et tel que la matrice dinformation I() soit inversible.
Soit t une statistique `a valeurs dans IRq , T la matrice de covariance de T et la

E(Ti ), 1 i q, 1 j d.
matrice de terme general ij =
j
Alors IRd , la matrice T I 1 () t est semi-definie positive.
Rappel : La matrice M est semi-definie positive si et seulement si x 6= 0, t xM x 0.

E(T ). Alors on obtient :


2

E(T )

V ar(T )
0.
I()

Quand d = q = 1, T = V ar(T ) et =

Cest bien le resultat attendu.


Demonstration. Demontrons le theor`eme pour d = q = 1. On a :






Cov T ; Z(; X) = E T Z(; X) E[T ] E Z(; X)


= E T Z(; X) car le score est centre


 Z

= E T
t(x)
ln L(; X) =
ln L(; x) L(; x) d(x)

X
Z
Z

=
t(x) L(; x) d(x) =
t(x) L(; x) d(x)

X
X
=

E(T ).

Linegalite de Cauchy-Schwarz permet decrire :



2


Cov T ; Z(; X) V ar(T ) V ar Z(; X)
Do`
u:


2
Cov T ; Z(; X)

 =
V ar(T )
V ar Z(; X)

2

E(T )

.
I()


Quand IRd , linegalite FDCR appliquee aux termes diagonaux de T permet


dobtenir une borne inferieure pour la variance de chaque composante de T :

34

Chapitre 3 - Estimation param


etrique optimale

Propri
et
e 7 i {1, . . . , q}, on a :
V ar(Ti )

d X
d
X

1
Ijk
()

j=1 k=1

E(Ti ) E(Ti )
.
j
k

En particulier,
 si T est un estimateur sans biais de , on a pour tout i, E(Ti ) = i . Donc
E(Ti )
1 si i = j
= ij =
, do`
u V ar(Ti ) Iii1 (), qui est la borne de Cramer-Rao.
0
sinon
j
Lestimateur T est efficace si linegalite FDCR est une egalite.
D
efinition 12 Un estimateur sans biais T est efficace si et seulement si T = I 1 ().
Alors, pour tout i, V ar(Ti ) = Iii1 ().
Le dernier theor`eme de ce chapitre donne une condition dexistence dun estimateur
efficace dans les mod`eles dechantillon, liee a` la famille exponentielle.


Th
eor`
eme 7 Dans un mod`ele dechantillon (X , A, P ; IRd )n , la borne de Cramer-Rao ne peut etre atteinte que si P appartient `a la famille exponentielle. La vraisemblance secrit :
n X
d
X

L(; x1 , . . . , xn ) = e

aj (xi )j () +

i=1 j=1

n
X

b(xi ) + n()

i=1

Alors, `a une transformation lineaire pr`es, la seule fonction de qui peut etre estimee
efficacement est h() = A1 () (), o`
u A() est la matrice de terme generique
i ()
Aij () =
.
j
0 ()
Quand IR, on a simplement h() = 0 . On montre alors en plus que lestima ()
n
1P
h0 ()
teur efficace de h() est T =
a(Xi ) et la variance minimale est V ar(T ) =
.
n i=1
n0 ()
Exemple des ampoules : echantillon de la loi exp().
fX (x; ) = ex = ex + ln .
La loi exponentielle appartient a` la famille exponentielle avec d = 1, a(x) = x, () =
, b(x) = 0 et () = ln .
0 ()
1/
1
=
= . Donc on peut estimer efficacement 1/ mais pas
0
()
1

n
0 = (n 1)/ P Xi est lESBVM de , mais il nest pas
. Cest bien ce quon avait vu :
n
Alors h() =

i=1

efficace.

3.5 Information de Fisher et efficacit


e
Lestimateur efficace de h() =
n) =
V ar(X

35

n
1
1P
est
a(Xi ) = X n et la variance minimale est

n i=1

h0 ()
1/2
1
=
=
.
0
n ()
n(1)
n2

Cest logique car

1
V ar(X)
1
= E(X), 2 = V ar(X), E(X n ) = E(X) et V ar(X n ) =
.

36

Chapitre 3 - Estimation param


etrique optimale

Chapitre 4
Maximum de vraisemblance et
estimation bay
esienne
4.1

Introduction



On se place dans ce chapitre dans un mod`ele parametrique (X , A, P ; IRd ).
Le chapitre precedent sest interesse a` la qualite des estimateurs de dans ces mod`eles :
variance minimale et efficacite. Mais au prealable, il faut disposer de methodes permettant
dobtenir de tels estimateurs. On a vu en PMS la methode des moments et la methode
du maximum de vraisemblance. Il existe de tr`es nombreuses autres methodes destimation. Nous verrons dans ce chapitre une troisi`eme methode, de plus en plus populaire,
lestimation bayesienne. Mais dabord nous allons approfondir les proprietes des estimateurs de maximum de vraisemblance, en nous interessant a` leurs proprietes asymptotiques.
Les resultats etablis permettront en particulier de construire des intervalles de confiance
asymptotiques pour les param`etres du mod`ele sous-jacent.

4.2

Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance

Rappelons que si la fonction de vraisemblance L(; x) admet un maximum unique au

point (x),
alors lapplication x 7 (x)
est appelee statistique de maximum de vraisem
blance et (X) est lestimateur de maximum de vraisemblance (EMV) de . Dans la suite,
on notera plus simplement cet estimateur. On a donc :
= arg max L(; X).

Comme dhabitude, on pref`erera maximiser le logarithme de la vraisemblance :


= arg max ln L(; X).

Dans la plupart des cas, on maximisera la log-vraisemblance en annulant sa derivee


par rapport `a chaque composante de . Mais on a vu (voir le cas de la loi uniforme)
que cette methode ne fonctionnait pas toujours. Nous allons nous placer dans ce chapitre
dans le cas o`
u cette methode va fonctionner. Il faut pour cela faire les memes hypoth`eses

38

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

(derivabilite, integration,...) que celles qui ont ete introduites dans la section 3.5.1 pour
definir la matrice dinformation. Dans ces conditions, lEMV est solution du syst`eme
des equations de vraisemblance :
j {1, . . . , d},

ln L(; X) = 0.
j

Mais comme le score est defini par Z(; X) = ln L(; X), est finalement la valeur
de qui annule le score :
X) = 0.
Z(;
Nous allons maintenant enoncer les proprietes asymptotiques de lEMV, vues en PMS
pour IR, pour un param`etre de dimension d quelconque. Nous nous interessons ici
uniquement aux mod`eles dechantillon, mais il existe des resultats analogues pour de
nombreux autres mod`eles. Pour un echantillon de taille n, lEMV sera note n , le score
Zn (; X) et la matrice dinformation In ().


Th
eor`
eme 8 Dans un mod`ele parametrique dechantillon (X , A, P ; IRd )n
verifiant les hypoth`eses annoncees, on a :


L
n (n ) Nd 0, I11 ()
o`
u I1 () est la matrice dinformation de Fisher pour un echantillon de taille 1 et Nd est
la loi normale dans IRd .
Interpretation : Comme E[n ] tend vers , lEMV est asymptotiquement sans biais.
Comme la matrice de covariance de n est asymptotiquement equivalente `a la borne de
Cramer-Rao [nI1 ]1 () = In1 (), lEMV est asymptotiquement efficace. Enfin, lEMV
est

asymptotiquement gaussien. De plus, la vitesse de convergence de n vers est 1/ n, ce


qui signifie que la variance de chaque composante de n tend vers 0 comme 1/n. Il sav`ere
que la plupart des autres estimateurs convergent moins vite. Par ailleurs, n converge
egalement presque s
urement vers .
Demonstration : Nous allons montrer le resultat pour un param`etre reel (d = 1). Alors
la quantite dinformation est simplement un reel In (), et comme on est dans un mod`ele
dechantillon, In () = nI1 ().
Par commodite decriture, on suppose que la loi sous-jacente est continue, de densite
n
Q
f . Alors la vraisemblance secrit L(; x) = L(; x1 , . . . , xn ) =
f (xi ; ) et le score est :
i=1
n

ln L(; X) =
ln f (Xi ; ).
Zn (; X) =

i=1
On a dej`a vu que E [Zn (; X)] = 0 et :
 2




ln L(; X) = E
Zn (; X) .
In () = V ar [Zn (; X)] = E
2



 2


En particulier, I1 () = V ar
ln f (X1 ; ) = E
ln f (X1 ; ) .

4.2 Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance
39

Les variables aleatoires

ln f (Xi ; ) sont independantes, de meme loi, centrees et de

variance I1 ().
Pour eviter des confusions decriture, on va noter dans la suite 0 la vraie valeur du
param`etre .
i
Le theor`eme des accroissements finis permet decrire quil existe un n0 dans min(n , 0 ),
h

max(n , 0 ) tel que :

Zn (n ; X) = Zn (0 ; X) + (n 0 )
Zn (; X) 0 .
n

Or Zn (n ; X) = 0. Multiplions par 1/ n.
1
1

Zn (0 ; X) + (n 0 )
Zn (; X) 0 = 0
n

n
n

1
1
ou Zn (0 ; X) + n (n 0 )
Zn (; X) 0 = 0.
n
n
n
Or :
1
1
1
1
Zn (; X) 0 =
Zn (; X) 0
Zn (; X) +
Zn (; X) +I1 (0 )I1 (0 ).
n
n n
0 n
0
n
n
On pose :
1
Zn (; X) + I1 (0 )
0
n
 2

n

1 X 2

=
ln f (Xi ; ) E
ln f (X1 ; ) .
0
n i=1 2
2
0

An =

Comme les Xi sont independantes et de meme loi, la loi des grands nombres permet
daffirmer que :
 2

n
1 X 2

PS

ln f (Xi ; ) E
ln f (X1 ; )
0
n i=1 2
2
0
PS

donc An 0. On pose :
1
1
Zn (; X) 0
Zn (; X) .
n
0
n
n
i
h
PS
PS
0

Puisque n 0 et n min(n , 0 ), max(n , 0 ) , on a forcement n0 0 , donc


Bn =

PS

Bn 0.

1
PS
PS
Do`
u Zn (0 ; X) + n (n 0 ) [Bn + An I1 (0 )] = 0, avec An 0 et Bn
n
0.

40

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

De plus, le theor`eme central-limite applique aux

ln f (Xi ; ) secrit :

n
X

ln f (Xi ; ) 0

Zn (; X) L
i=1
p
=p
N (0, 1).
nI1 ()
nI1 ()

Finalement, n (n 0 ) =

1
n

Zn (0 ; X)

Zn (0 ; X)
a meme limite en loi que
I1 (0 ) B
nI1 (0 )
n An 
Zn (0 ; X)
1
p
=p
, cest-`a-dire la loi N 0,
, do`
u le resultat.

I1 (0 )
I1 (0 ) nI1 (0 )
Si au lieu destimer directement , on veut estimer une fonction de , on sait que (n )
est lestimateur de maximum de vraisemblance de (). Les proprietes de cet estimateur
sont donnees par le theor`eme suivant. Il porte le nom de methode delta car ce resultat
fournit une methode pour construire des intervalles de confiance asymptotiques.
Th
eor`
eme 9 . M
ethode delta. Si est une fonction de IRd dans IRq derivable par
rapport `a chaque composante de , on a :
i

h
L

n (n ) () Nq 0, ()I11 ()t ()
o`
u () est la matrice de terme general ij () =

i (), 1 i q, 1 j d.
j

Demonstration pour d = q = 1. Dans ce cas, () = 0 (), donc le resultat secrit :




i
h
0 ()2
L

n (n ) () N 0,
I1 ()
a` laide du theor`eme des accroissements finis. Il existe n0 dans
i On le montre facilement
h
min(n , ), max(n , ) tel que :
(n ) = () + (n )0 (n0 ).
i
h

L
Donc n (n ) () = n(n )0 (n0 ). Comme n(n ) N
et 0 (n0 ) 0 (), on a bien le resultat ci-dessus.

1
0,
I1 ()




Exemple des ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). Linformation de Fisher est :





X
I1 () = V ar
ln f (X; ) = V ar
ln e






1
1
= V ar
(ln X) = V ar
X = V ar(X) = 2

4.3 Intervalles de confiance asymptotiques

41

n = 1 = n . Le resultat asymptotique sur lEMV secrit :


LEMV de est
n
P
Xn
Xi
i=1

L
n )
n(
N 0, I11 () = N (0, 2 ).

2

n ) 2 /n quand n tend vers


Donc V ar( n
u V ar(
n ) = nV ar(n ) tend vers , do`
2 2
n
n) =
linfini. Or en PMS, on a vu que V ar(
, qui est bien equivalent a`
(n 1)2 (n 2)
2 /n.
n (x) = en x . On a vu quon ne pouvait pas
LEMV de R(x) = () = ex est R
n (x) est
calculer son biais et sa variance pour n fini. Mais la methode delta montre que R
asymptotiquement sans biais et que sa variance asymptotique est :


2 2x
0
2
2 x2 2x
n (x) = () = x e
e
.
V aras R
=
nI1 ()
n/2
n

4.3

Intervalles de confiance asymptotiques

On a vu en PMS que la meilleure facon de determiner un intervalle de confiance pour


un param`etre reel dun mod`ele parametrique, est de trouver une fonction pivotale, fonction
des observations et du param`etre, dont la loi de probabilite ne depend pas du param`etre.
Mais il nest pas forcement facile de trouver une telle fonction. Nous allons voir dans cette
section que les proprietes asymptotiques de lestimateur de maximum de vraisemblance
permettent de determiner assez facilement des intervalles de confiance asymptotiques pour
des fonctions presque quelconques des param`etres.
Si IR, un intervalle de confiance (exact) de seuil pour est un intervalle aleatoire
[Y, Z] qui a une probabilite 1 de contenir . Comme on se place dans le cadre de
mod`eles dechantillon de taille n, on notera [Yn , Zn ] lintervalle de confiance. On a donc
P ( [Yn , Zn ]) = 1 .
D
efinition 13 [Yn , Zn ] est un intervalle de confiance asymptotique de seuil pour si
et seulement si :
lim P ( [Yn , Zn ]) = 1 .
n+

Dans la pratique, si on sait calculer un intervalle de confiance exact, on na pas besoin


de calculer un intervalle de confiance asymptotique. Mais quand on ne sait pas calculer
un intervalle de confiance exact, on utilise un intervalle de confiance asymptotique : si n
est suffisamment grand, P ( [Yn , Zn ]) ne devrait pas etre trop eloigne de 1 .

4.3.1

Cas dun param`


etre r
eel

Si IR, I1 ()est un reel et le resultat asymptotique sur lEMV secrit :


p
1
L
L
) N 0,
ou nI1 () (n ) N (0, 1).
I1 ()

n (n

42

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

p
Le terme nI1 () (n ) est une fonction pivotale asymptotique : fonction de et
des observations (par lintermediaire de n ), dont la loi asymptotique ne depend pas de .
Dapr`es les proprietes usuelles de la loi N (0, 1), on a donc :


p

lim P u nI1 () (n ) +u = 1
n+

= lim P
n+

"

n + p
n p
nI1 ()
nI1 ()
u

!
.

Donc n p
, n + p
est un intervalle de confiance asymptotique de
nI1 ()
nI1 ()
seuil pour . Mais cet intervalle est inutilisable a` cause du terme I1 () qui est inconnu.
Lidee naturelle est de le remplacer par I1 (n ). Pour savoir quel est limpact de cette
transformation, il faut utiliser le resultat suivant.
Th
eor`
eme 10 .Th
eor`
eme de Slutsky. Soit {Un }n1 une suite de variables aleatoires
convergeant en loi et {Vn }n1 une suite de variables aleatoires convergeant en probabilite
vers une constante c. Alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme
limite en loi que la suite {g(Un , c)}n1 .

L
Ici, on pose Un = n (n ) N


0,


1
.
I1 ()

q
PS p
I1 (n ) I1 (). Comme la convergence presque s
ure
q
p
P
entrane la convergence en probabilite, on a egalement I1 (n ) I1 ().
q
p
Soit g(u, v) = uv, Vn =
I1 (n ) et c =
I1 (). Le theor`eme de Slutsky perq
met decrire que g(Un , Vn ) =
nI1 (n ) (n ) a meme limite en loi que g(Un , c) =
q
p
L
nI1 () (n ), donc nI1 (n ) (n ) N (0, 1).
Alors, en appliquant la meme demarche que precedemment, on obtient la propriete
suivante.
PS
On sait que n , donc

Propri
et
e 8 Un intervalle de confiance asymptotique de seuil pour est :

u
n q u
.
, n + q

nI1 (n )
nI1 (n )
Exemple 1 : controle de qualite. X1 , . . . , Xn sont independantes et de meme loi B(p). On a
n
vu en PMS que In (p) = nI1 (p) =
. Donc un intervalle de confiance asymptotique
p(1 p)
de seuil pour p est :
"
#
r
r
pn (1 pn )
pn (1 pn )
pn u
, pn + u
.
n
n

4.3 Intervalles de confiance asymptotiques

43

Ce resultat avait ete obtenu en PMS (propriete 9) par une methode bien differente.
Exemple 2 : ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). In () =
n
nI1 () = 2 . Donc un intervalle de confiance asymptotique de seuil pour est :

#  
"




u
u

n
n
n 1
n 1 +
n u ,
n + u
=
,
.

n
n
n
n
Rappelons que lintervalle de confiance exact est :
h z
i
n 2n,1/2 ,
n z2n,/2 .

2n
2n
Pour n grand, les deux intervalles de confiance sont equivalents.
Interessons-nous maintenant `a des intervalles de confiance asymptotiques pour une
fonction () du param`etre , o`
u IR et est continue et derivable. Le resultat de la
methode delta secrit :


i
0
2
h

()
L
n (n ) () N 0,
I1 ()
ou :
p
i
nI1 () h
L
(n ) () N (0, 1).
0
| ()|
On peut encore appliquer le theor`eme de Slutsky et on obtient le resultat suivant.

Propri
et
e 9 Un intervalle de confiance asymptotique de seuil pour () est :

(n ) u q| (n )| , (n ) + u q| (n )| .
nI1 (n )
nI1 (n )
0

Exemple des ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). Lestimateur

de maximum de vraisemblance de R(x) = () = ex est en x . On a vu que


0 ()2
2 x2 2x
=
e
.
nI1 ()
n
Donc un intervalle de confiance asymptotique de seuil pour R(x) est :
"
n x

#
nx
nx

u en x , en x + u en x .
n
n

44

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

4.3.2

Cas dun param`


etre vectoriel

Si IRd , on a :


L
n (n ) Nd 0, I11 () .

I1 () est une matrice symetrique definie positive, donc on peut en prendre la racine
carree et ecrire :
1/2
L
n I1 () (n ) Nd (0, Id) .
o`
u Id est la matrice identite.
Sous des conditions de regularite (continuite des composantes de I1 () par rapport
a` chaque composante de ), on peut appliquer une version vectorielle du theor`eme de
Slutsky et on obtient :
1/2
L
n I1 (n ) (n ) Nd (0, Id) .
De meme, le resultat de la methode delta secrit :
i

h
L
n (n ) () Nq 0, ()I11 ()t ()
ou :

i
1/2 h

L
n ()I11 ()t ()
(n ) () Nq (0, Id) .

Sous des conditions de regularite, on a alors :


i1/2 h
i
h
L
n (n )I11 (n )t (n )
(n ) () Nq (0, Id)
ce qui permet de donner des intervalles de confiance asymptotiques pour chaque composante de ().

4.4
4.4.1

Estimation bay
esienne
Principe de la m
ethode

La philosophie de la methode destimation bayesienne est tr`es differente de celles


des methodes vues jusque l`a. Dans les methodes du maximum de vraisemblance ou des
moments, le param`etre est inconnu mais constant, deterministe. Lestimation est menee
en considerant quon ignore tout de , mis a` part son ensemble de definition.
Or parfois, on dispose dune connaissance partielle sur . Cette information, dite a
priori, peut provenir dexperiences similaires effectuees auparavant ou davis dexperts
du phenom`ene etudie qui peuvent anticiper le resultat de lexperience. Le principe de
lestimation bayesienne est de considerer que le param`etre est en fait la realisation
dune variable aleatoire, et dintegrer dans sa loi de probabilite toutes les informations a
priori dont on dispose sur lui.
Soit T la variable aleatoire dont est une realisation. La loi de probabilite de T est
appelee loi a priori. En general, cette loi est supposee continue et admettre une densite
fT () (quon note aussi usuellement ()).

4.4 Estimation bay


esienne

45

Les donnees observees x vont maintenant etre considerees comme etant issues de la
loi conditionnelle de X sachant [T = ]. Cela signifie que la fonction de vraisemblance
secrit :

P (X = x|T = ) si le mod`ele est discret


L(; x) =

fX|T = (x)
si le mod`ele est continu
La loi de X, appelee loi marginale, est alors obtenue de la facon suivante :
R
Mod`ele discret : P (X = x) = P (X = x|T = ) fT () d
R
Mod`ele continu : fX (x) = fX|T = (x) fT () d
On peut resumer les deux cas en un seul en disant que la vraisemblance marginale
ou vraisemblance pr
edictive est :
Z
L(x) = L(; x) fT () d.
Estimer dans ce contexte va consister a` enrichir la priori sur (exprime par fT ())
a` laide de linformation apportee par lobservation x. On est alors amenes a` sinteresser `a
la loi conditionnelle de T sachant [X = x], appelee loi a posteriori. Les caracteristiques
de cette loi sont determinees grace a` la formule de Bayes :
P (B|A) =

P (B A)
P (A|B)P (B)
=
P (A)
P (A)

do`
u le nom destimation bayesienne.
La loi a posteriori est determinee par sa densite :
Mod`ele discret : fT |X=x () =

P (X = x|T = )fT ()
P (X = x|T = )fT ()
=R
.
P (X = x)
P (X = x|T = u) fT (u) du

Mod`ele continu : fT |X=x () =

fX|T = (x) fT ()
fX|T = (x) fT ()
=R
.
fX (x)
fX|T =u (x) fT (u) du

On resume les deux cas en un seul en disant que la densit


e a posteriori ou vraisemblance a posteriori est :
fT |X=x () = R

L(; x) fT ()
L(; x) fT ()
=
.
L(x)
L(u; x) fT (u) du

La loi a posteriori prend en compte `a la fois linformation a priori et celle fournie


par les donnees. On lutilise donc pour estimer . On peut prendre comme estimateur la
mediane ou le mode de la loi a posteriori, mais la facon la plus courante de proceder est
de prendre lesperance de la loi a posteriori :
B = E[T |X].
Pour IR, lestimation bayesienne correspondante est donc :
R
Z
L(; x) fT () d
E[T |X = x] = fT |X=x () d = R
.
L(; x) fT () d

46

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

Elle necessite donc le calcul de deux integrales. Cest evidemment un avantage si on


peut les calculer explicitement. Ce sera le cas si les lois a priori et a posteriori appartiennent
a` la meme famille. On dit alors que ce sont des lois conjugu
ees. Mais une loi a priori qui
refl`ete de facon realiste linformation a priori sur naura pas forcement ces proprietes.
Dans ce cas, les integrales nont pas dexpression explicite. Pour les calculer, on utilise alors
des methodes de simulation de Monte-Carlo (methodes MCMC). Lestimation bayesienne
est alors co
uteuse en temps de calcul. Les algorithmes de calcul les plus connus sont les
echantillonneurs de Gibbs et dHastings-Metropolis.
Les param`etres de la loi a priori sont appeles les hyperparam`
etres. Ils sont determines
par la connaissance a priori que lon a sur , donc ce sont normalement des quantites
connues. Mais on peut pousser la logique bayesienne un cran plus loin en considerant
que ces hyperparam`etres sont inconnus. On peut alors les estimer en maximisant la vraisemblance marginale. Lestimateur bayesien obtenu avec la loi a priori estimee est alors
appele estimateur bay
esien empirique.
Puisque lon connat la loi a posteriori de T sachant [X = x], on est capables de
calculer des intervalles [y, z] tels que P (y T z|X = x) = 1 . [y, z] fournit un
encadrement du param`etre avec un certain niveau de confiance. Le concept est proche
de celui dintervalle de confiance, mais il est different. De tels intervalles sont appeles
intervalles de cr
edibilit
e. On peut les utiliser pour mesurer la precision de lestimation
bayesienne de .
Dans la densite a posteriori
fT |X=x () = R

L(; x) fT ()
,
L(u; x) fT (u) du

on constate que lon peut multiplier fT () par une constante sans changer le resultat.
Aussi on peut sautoriser `a prendre pour fT () une fonction qui nest pas forcement
une densite de probabilite. On a alors ce quon appelle des lois a priori impropres. Bien
que surprenante, cette demarche permet daboutir `a des estimateurs bayesiens simples et
coherents.

4.4.2

Exemple du contr
ole de qualit
e

Les donnees sont des variables aleatoires X1 , . . . , Xn independantes et de meme loi de


Bernoulli B(p). Xi vaut 1 si la i`eme pi`ece est defectueuse et 0 sinon.
On cherche a` estimer la proportion p de pi`eces defectueuses. Il est naturel de sattendre
a` ce que cette proportion soit faible si la machine est de bonne qualite. Il est egalement
possible que des experts soient capables de donner un ordre de grandeur de cette proportion. Pour tenir compte de cette information, il faut choisir une loi a priori pour p dont
le support est [0, 1], et qui soit concentree sur les petites valeurs. Cest le cas par exemple
de certaines lois beta.
On va donc supposer que la loi a priori pour p est la loi beta de premi`ere esp`ece 1 (a, b)
dont la densite est :
1
fP (p) =
pa1 (1 p)b1 11[0,1] (p)
(a, b)
o`
u (a, b) =

(a)(b)
.
(a + b)

4.4 Estimation bay


esienne

47

Lesperance et la variance de cette loi sont :


E(P ) =

a
a+b

et

V ar(P ) =

ab
b)2 (a

(a +

+ b + 1)

La connaissance a priori sur p peut se traduire par une valeur moyenne et une variabilite, qui permettent de donner des valeurs aux hyperparam`etres a et b.
La vraisemblance habituelle est maintenant consideree comme la densite (par rapport
a` la mesure de denombrement) de X sachant [P = p]. Autrement dit :
n
P

xi

L(p; x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |P = p) = pi=1 (1 p)

n
P

i=1

xi

La vraisemblance marginale est :


L(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
Z
=
P (X1 = x1 , . . . , Xn = xn |P = p) fP (p)dp
Z

n
P

xi

i=1

n
P

(1 p)

xi

i=1

1
pa1 (1 p)b1 dp
(a, b)

n
n
Z 1 P
P
xi +a1
n
xi +b1
1
i=1
i=1
=
p
(1 p)
dp
(a, b) 0
n

n
n
n
P
P
P
P
n
xi +b1

xi + a, n
xi + b Z 1 i=1 xi +a1
p
(1 p) i=1
i=1
i=1
n
 dp
=
n
P
P
(a, b)
0

xi + a, n
xi + b
i=1
i=1
n

n
P
P

xi + a, n
xi + b Z 1
i=1
i=1
n
n
=
f P
(p) dp
P
1 (
xi +a,n
xi +b)
(a, b)
0
i=1
i=1
n

n
P
P

xi + a, n
xi + b
i=1
i=1
=
(a, b)

La loi a posteriori est determinee par sa densite :


fP |X1 =x1 ,...,Xn =xn (p) =

P (X1 = x1 , . . . , Xn = xn |P = p)fP (p)


P (X1 = x1 , . . . , Xn = xn )
n
P

(a, b)

n
P

xi + a, n

i=1

n
P

xi + b

i=1
n
P

n
P

n
P

xi +a1
n
xi +b1
1

pi=1
(1 p) i=1
(a, b)

xi + a, n

i=1

n
P

 pi=1

xi +a1

(1 p)

n
P
i=1

xi +b1

pour p [0, 1].

xi + b

i=1

On reconnat la densite de la loi 1 (

n
P

i=1

xi + a, n

n
P
i=1

xi + b). Lestimateur bayesien est

48

Chapitre 4 - Maximum de vraisemblance et estimation bay


esienne

lesperance de cette loi, do`


u finalement :
n
P
B

p = P
n

n
P

Xi + a

i=1

Xi + a + n

i=1

n
P

=
Xi + b

Xi + a

i=1

n+a+b

i=1

Rappelons que lestimateur de maximum de vraisemblance usuel est :


n

1X
pn = X n =
Xi .
n i=1
On constate que les 2 estimateurs sont equivalents quand on a beaucoup de donnees.
Quand on a peu de donnees, la difference peut etre importante et depend du choix de la
priori. Cest logique : cest precisement quand on a peu de donnees quil est interessant
de compenser ce manque par de linformation a priori. A la limite, si on na pas du tout
de donnees (n = 0), on peut quand meme estimer p. En effet, dans ce cas lestimateur
a
. Cest lesperance de la loi a priori. Cest logique puisquen
bayesien est pB =
a+b
labsence de donnees, la seule base pour faire une estimation est linformation a priori.
Plus on a dobservations, plus le poids de linformation a priori diminue. La subtilite de
lestimation bayesienne est dans le dosage entre les poids respectifs des observations et de
linformation a priori.
Lignorance compl`ete sur p consiste `a prendre comme loi a priori la loi uniforme sur
[0, 1], qui nest autre que la loi 1 (1, 1). Alors lestimateur bayesien est ;
n
P
B

p =

Xi + 1

i=1

n+2

qui est tr`es proche de lEMV.


On constate que les lois a priori et a posteriori sont toutes les deux des lois beta.
Cest ce quon a appele des lois conjuguees. Cest cette propriete qui permet davoir des
estimateurs bayesiens explicites.

Chapitre 5
Tests dhypoth`
eses optimaux
5.1

Introduction

Les principes generaux des tests dhypoth`eses ont ete introduits dans le cours de PMS.
Rappelons les rapidement.
Un test dhypoth`eses a pour but de trancher, au vu dobservations, entre une hypoth`ese nulle H0 , et une hypoth`ese alternative H1 .
Le seuil du test est la probabilite maximale de lerreur de premi`ere esp`ece, erreur
qui consiste `a rejeter H0 a` tort (conclure H1 alors que H0 est vraie). La valeur de
est fixee par lutilisateur en fonction de la gravite des consequences de lerreur de
premi`ere esp`ece.
La puissance est liee `a la probabilite de rejeter H0 a` raison. Sa definition depend
de la nature du test (test dhypoth`eses simples ou dhypoth`eses composites).
La region critique W est lensemble des valeurs des observations pour lesquelles on
rejettera H0 .
En PMS, on a determine les regions critiques essentiellement `a laide du bon sens ou de
lintuition, ou en utilisant la dualite entre tests dhypoth`eses et intervalles de confiance.
Nous allons donner dans ce chapitre un procede systematique de construction de tests
dhypoth`eses parametriques.
Comme on ne peut pas minimiser les deux risques derreur en meme temps, on a choisi
de privilegier lerreur de premi`ere esp`ece, cest-`a-dire de construire des tests en fixant le
seuil . A fixe, le meilleur des tests possibles est celui qui minimisera la probabilite de
lerreur de deuxi`eme esp`ece, ou maximisera la puissance. Nous donnerons dans ce chapitre
les moyens de determiner des tests optimaux.
Mais pour commencer, nous allons proposer une definition plus formelle des tests
dhypoth`eses, qui va permettre delargir le cadre vu en PMS.

5.2

D
efinitions

On se place dans un mod`ele statistique (X , A, P). Lobservation x est la realisation


dun element aleatoire X de loi P P. Les hypoth`eses que lon peut effectuer sur cette

50

Chapitre 5 - Tests dhypoth`


eses optimaux

observation portent sur la nature de la loi P .


Donc on peut ecrire que les hypoth`eses dun test sont de la forme H0 : P P0 et
H1 : P P1 , o`
u P0 et P1 sont des parties de P. Au vu de x, on doit decider sil est
plus raisonnable de considerer que P P0 ou que P P1 .
D
efinition 14 Un test dhypoth`
eses de H0 : P P0 contre H1 : P P1 est une
statistique
: X [0, 1]
x 7 (x) = probabilite de rejeter H0 au profit de H1 quand lobservation est x.

D
efinition 15 Un test dhypoth`eses est d
eterministe si et seulement si est une indicatrice : (x) = 11W (x). Autrement dit, on rejettera H0 si x W et on ne rejettera pas
H0 si x
/ W.
On voit que lon retrouve ici la notion de r
egion critique. Tous les tests vus en
PMS sont deterministes. Mais la definition proposee ici est plus large : un test nest pas
forcement une indicatrice, donc on peut imaginer des tests pour lesquels la valeur de
lobservation x ne permet pas immediatement de trancher entre H0 et H1 . On va voir
quil est indispensable de definir un test de cette facon si on veut etre capables de traiter
loptimalite des tests.
Une hypoth`ese est simple si elle est reduite a` un singleton : P = P0 . Une hypoth`ese
est composite ou multiple quand elle nest pas simple : P P0 o`
u P0 nest pas reduit
a` un singleton.

5.3

Tests dhypoth`
eses simples

Un test dhypoth`
eses simples est un test dans lequel H0 et H1 sont simples. Cest
donc un test de H0 : P = P0 contre H1 : P = P1 .
D
efinition 16 Le seuil du test est = EP0 [(X)] et la puissance du test est =
EP1 [(X)].
Explication : Le seuil du test est la probabilite de rejeter `a tort H0 , cest-`a-dire la probabilite de decider que la loi de X est P1 alors quen fait la loi de X est P0 . Or on a defini
le test de sorte que (x) soit la probabilite de rejeter H0 quand lobservation est x. Pour
obtenir , il faut donc considerer (x) pour toutes les valeurs possibles de x quand la loi
de X est P0 . Autrement dit, il faut prendre lesperance de (X) sous la loi P0 .
La loi de X etant caracterisee par sa fonction de vraisemblance, on note L(P ; x) la
fonction de vraisemblance quand la loi de X est P . Alors on peut reecrire sous la forme :
Z
Z
= EP0 [(X)] = (x) dP0 (x) = (x) L(P0 ; x) d(x).

5.3 Tests dhypoth`


eses simples

51

La puissance du test est la probabilite de rejeter a` raison H0 , cest-`a-dire la probabilite


de decider a` juste titre que la loi de X est P1 . On a donc :
Z
Z
= EP1 [(X)] = (x) dP1 (x) = (x) L(P1 ; x) d(x).
Quand le test est deterministe, (x) = 11W (x), donc :
Z
Z
L(P0 ; x) d(x) = P0 (X W ).
= EP0 [(X)] = 11W (x) L(P0 ; x) d(x) =
W

De meme, = EP1 [(X)] = P1 (X W ).


On retrouve bien le fait que, pour un test dhypoth`eses simples deterministe, le seuil
est la probabilite sous H0 que les observations soient dans la region critique et la puissance
est la probabilite sous H1 que les observations soient dans la region critique.
La probabilite derreur de deuxi`eme esp`ece est 1 . Un test 1 est meilleur quun
test 2 si les deux probabilites derreur sont inferieures pour 1 a` ce quelles sont pour
2 . Donc 1 a un seuil inferieur et une puissance superieure `a 2 :
1 2 et 1 2 .
Do`
u la definition suivante :
D
efinition 17 Un test de H0 : P = P0 contre H1 : P = P1 est dit le meilleur
`
a son niveau de signification si et seulement si tout test de seuil inferieur est moins
puissant. Autrement dit :
0 , 0 0 .
Cela signifie en particulier que, quand la probabilite derreur de premi`ere esp`ece est
fixee, le meilleur test est celui qui minimise la probabilite derreur de deuxi`eme esp`ece.
Le resultat le plus important de ce chapitre est le lemme de Neyman-Pearson qui
permet, dune part de construire des tests dhypoth`eses simples de facon systematique, et
dautre part de determiner les meilleurs tests dhypoth`eses simples.
Th
eor`
eme 11 . Lemme de Neyman-Pearson. [0, 1], il existe k IR+ et
[0, 1] tels que le meilleur test de seuil de H0 : P = P0 contre H1 : P = P1 est :

1 si L(P1 ; x) > k L(P0 ; x)

si L(P1 ; x) = k L(P0 ; x)
(x) =

0 si L(P1 ; x) < k L(P0 ; x)


Remarque. Quand L(P0 ; x) 6= 0, on voit que le test consiste a` comparer L(P1 ; x)/L(P0 ; x)
a` k . Aussi le test est-il appele test du rapport de vraisemblances. Intuitivement,

52

Chapitre 5 - Tests dhypoth`


eses optimaux

si ce rapport est grand, alors P1 est plus vraisemblable que P0 et donc on rejettera H0
au profit de H1 . Et inversement si le rapport est petit.
Demonstration. Soit 0 un test tel que 0 . Il faut montrer que 0 est forcement moins
puissant que , cest-`a-dire que 0 .
Posons A(x) = (x) 0 (x), B(x) = L(P1 ; x) k L(P0 ; x) et g(x) = A(x)B(x). On
a:
Si B(x) > 0, (x) = 1, donc A(x) = 1 0 (x) 0 do`
u g(x) 0.
Si B(x) = 0, g(x) = 0.
Si B(x) < 0, (x) = 0, donc A(x) = 0 (x) 0 do`
u g(x) 0.
R
Par consequent, x X , g(x) 0, donc g(x) d(x) 0. Or :
Z
Z
Z
g(x) d(x) =
(x) L(P1 ; x) d(x) 0 (x) L(P1 ; x) d(x)

Z
Z
0
k
(x) L(P0 ; x) d(x) (x) L(P0 ; x) d(x)
= 0 k [ 0 ]
= 0 k [ 0 ] 0
Finalement 0 k [ 0 ] 0, donc 0 , ce qui prouve que est bien le
meilleur test a` son niveau de signification .

Dans un mod`ele parametrique (X , A, {P ; }), a` chaque loi P correspond un
param`etre . Donc lhypoth`ese P = P0 peut secrire = 0 et la vraisemblance
peut secrire L(P ; x) = L(; x). Les tests dhypoth`eses correspondant sont appeles tests
param
etriques. Dans le cas contraire, on parle de tests non param
etriques.
Exemple du controle de qualite. Dans le mod`ele ({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n , on
veut tester H0 : P = B(p0 )n contre H1 : P = B(p1 )n . Plus simplement, il sagit de
tester H0 : p = p0 contre H1 : p = p1 dans un mod`ele dechantillon de loi de Bernoulli.
On reconnait le probl`eme de test dhypoth`eses simples sur une proportion vu en PMS.
n
P

On sait que la fonction de vraisemblance est L(p; x1 , . . . , xn ) = p


Par consequent :
n
P
i=1

L(p1 ; x) > k L(p0 ; x) p1

xi

(1 p1 )

n
P

i=1

xi

n
P
i=1

> k p0

xi

i=1

xi

(1 p)

(1 p0 )

n
P
i=1

n
P

n
x
1 p0
p1 (1 p0 ) i=1 i
> k

p0 (1 p1 )
1 p1
" n
#
X
p1 (1 p0 )
1 p0

xi ln
> ln k + n ln
p0 (1 p1 )
1 p1
i=1

xi

n
P
i=1

xi

5.3 Tests dhypoth`


eses simples

53

On va maintenant isoler la statistique de test, cest-`a-dire ce qui ne depend que des


xi . Il faut alors prendre en compte le signe de p1 p0 . On a :
p0 < p1 1 p1 < 1 p0 p0 (1 p1 ) < p1 (1 p0 ) ln

p1 (1 p0 )
> 0.
p0 (1 p1 )

Donc, pour p0 < p1 ,


L(p1 ; x) > k L(p0 ; x)

n
X

1 p0
1 p1
= l ,
p1 (1 p0 )
ln
p0 (1 p1 )

ln k + n ln
xi >

i=1

ce qui signifie que le meilleur test est de la forme :

n
P

1 si
xi > l

i=1

n
P
si
xi = l
(x) =

i=1

n
P

0 si
xi < l
i=1

Reciproquement, pour p0 > p1 , le meilleur test est de la forme :

n
P

xi < l
1 si

i=1

n
P
si
xi = l
(x) =

i=1

n
P

0 si
xi > l
i=1

Il reste a` determiner les valeurs de l et de , ce qui se fait en explicitant le seuil du


test. On pourrait ensuite determiner k en fonction de l , p0 , p1 et n, mais ca na aucun
interet : seuls l et sont importants.
Faisons le calcul dans le cas o`
u p0 < p1 :
= EP0 [(X)] = 1 P0 ((X) = 1) + P0 ((X) = ) + 0 P0 ((X) = 0)
!
!
n
n
X
X
= P0
Xi > l + P0
Xi = l
i=1
n
P

i=1

n
P

Xi est de loi binomiale B(n, p0 ), donc, pour l entier, P0


Xi = l =
i=1
n

n
P
P
l l
nl
Cn p0 (1 p0 )
et P0
Xi > l =
Cnk pk0 (1 p0 )nk .
i=1
k=l
+1

n

P
Sil existe l0 tel que P0
Xi > l0 = , on prend l = l0 et = 0. Sinon, il existe
 n i=1

n

P
P
Xi > l0 < < P0
Xi > l0 1 . Alors on prend l = l0
forcement l0 tel que P0
i=1
i=1
n
P
P0
Xi > l0
i=1
n
 .
et =
P
P0
Xi = l0
Sous H0 ,

i=1

i=1

54

Chapitre 5 - Tests dhypoth`


eses optimaux
Ayant obtenu l et , on peut calculer la puissance du test :
!
!
n
n
X
X
= EP1 [(X)] = P1
Xi > l + P1
Xi = l ,
i=1

o`
u, sous P1 ,

n
P

i=1

Xi est de loi binomiale B(n, p1 ).

i=1

Si n est assez grand, on peut utiliser le theor`eme central-limite et lapproximation de


la loi binomiale par la loi normale :
n
P

Xi np
L

i=1

np(1 p)

N (0, 1).


Comme la loi normale est continue,

lim P0

n+

n
P


Xi = l

= 0. Donc il suffit de

i=1

prendre un test deterministe ( = 0) et


n

P
!
n
X
i=1 Xi np0
l np0
,
p
p
= P0
Xi > l = P0
>
np (1 p )

np
(1

p
)
0
0
0
0
i=1

qui tend, quand n tend vers linfini, vers 1

l np0

p
.
np0 (1 p0 )

p
p
On va donc prendre l = np0 + np0 (1 p0 ) 1 (1 ) = np0 + np0 (1 p0 ) u2 ,
et on obtient que le meilleur test asymptotique de seuil de H0 : p = p0 contre H1 :
p = p1 , avec p0 < p1 , est le test deterministe defini par la region critique
n

)
( n

xi np0

X
p
i=1
> u2 .
W =
xi > np0 + np0 (1 p0 ) u2 = p

i=1
np0 (1 p0 )

On retrouve le test vu en PMS pour les hypoth`eses p p0 contre p > p0 . Sa


puissance est :
n

P
!
n
X
i=1 Xi np1
l np1
,
p
p
= P1
Xi > l = P1
>
np (1 p )

np
(1

p
)
1
1
1
1
i=1

qui tend, quand n tend vers linfini, vers 1

!
p
n(p0 p1 ) + np0 (1 p0 ) u2
p
.
np1 (1 p1 )

On constate que le meilleur test de seuil pour n fini nest pas un test deterministe.
Donc la definition des tests avec des regions critiques ne suffisait pas pour determiner des
tests optimaux.

5.4 Tests dhypoth`


eses composites

5.4

55

Tests dhypoth`
eses composites

Un test dhypoth`eses est composite quand au moins une des deux hypoth`eses est
composite. Cest donc un test de H0 : P P0 contre H1 : P P1 o`
u P0 et P1 ne
sont pas toutes les deux reduites `a un singleton.
Les tests parametriques dhypoth`eses composites les plus usuels sont :
test bilateral : test de H0 : = 0 contre H1 : 6= 0 .
tests unilateraux : test de H0 : 0 contre H1 : > 0 et test de H0 : 0
contre H1 : < 0 .
Dans ces deux exemples, H0 et H1 sont complementaires : des 2 hypoth`eses, lune est
forcement vraie. Cest ce cas qui est important en pratique.
D
efinition 18 La fonction puissance dun test dhypoth`eses composites est la fonction
: P [0, 1]
P 7 (P ) = probabilite de rejeter H0 quand la vraie loi de X est P
= EP [(X)] =

(x) L(P ; x) d(x).

Le seuil du test est la probabilite maximale de rejeter H0 `a tort :


= sup (P ).
P P0

Pour les tests parametriques, la puissance peut etre consideree comme une fonction
du param`etre :
Z
() = (x) L(; x) d(x).
Pour le test bilateral, on a simplement = (0 ).
Un test est meilleur quun test 0 si P P, la probabilite de rejeter a` tort H0 est
plus forte pour 0 que pour et la probabilite de rejeter a` raison H0 est plus forte pour
que pour 0 :
P P0 , (P ) 0 (P )

et

P P1 , (P ) 0 (P ).

D
efinition 19 Un test de H0 : P P0 contre H1 : P P1 est dit uniform
ement
le plus puissant (UPP) si et seulement si tout test de seuil inferieur est moins puissant.
Autrement dit :
0 , 0 = P P1 , 0 (P ) (P ).
Dans le cas particulier des tests dhypoth`eses simples (P0 = {P0 } et P1 = {P1 }), le
test du rapport de vraisemblances donne par le lemme de Neyman-Pearson est UPP.
Il nexiste pas de theor`eme analogue au lemme de Neyman-Pearson pour les tests
composites. Pour rechercher des tests UPP, on utilise alors les resultats suivants :

56

Chapitre 5 - Tests dhypoth`


eses optimaux

Th
eor`
eme 12 .
1. Un test de H0 : P P0 contre H1 : P P1 est UPP si et seulement si il est
UPP de H0 : P P0 contre H1 : P = P1 , P1 P1 .
2. Soit P00 P0 . Soit un test de seuil de H0 : P P0 contre H1 : P P1 .
Si considere comme un test de P P00 contre P P1 est UPP et de seuil ,
alors est UPP.
Demonstration. 1. est immediat. Pour 2., soit 0 un test de P P0 contre P P1 de
seuil 0 . Il faut montrer que P P1 , 0 (P ) (P ).
Or sup 0 (P ) sup 0 (P ) = 0 .
P P00

P P0

Donc 0 , considere comme un test de P P00 contre P P1 est de seuil inferieur


a` . Si est UPP pour cette situation, on en deduit que P P1 , 0 (P ) (P ), ce
qui prouve que est aussi UPP pour le probl`eme de test initial.

La partie 1 du theor`eme permet de reduire lhypoth`ese alternative a` une hypoth`ese
simple. La partie 2 permet de reduire lhypoth`ese nulle a` une hypoth`ese simple en prenant P00 = {P0 }. Pour traiter un probl`eme de test dhypoth`eses composites, il faut donc
commencer par traiter le probl`eme de test dhypoth`eses simples sous-jacent.

5.5

Test du rapport des vraisemblances maximales

On se place dans un mod`ele parametrique (X , A, {P ; }) et on souhaite tester


H0 : 0 contre H1 :
/ 0 , o`
u 0 est une partie de .
D
efinition 20 La statistique du rapport des vraisemblances maximales est :
sup L(; x)
v(x) =

sup L(; x)

Il est clair que v(x) [0, 1]. Sil existe une statistique de maximum de vraisemblance

(x),
le denominateur est sup L(; x) = L((x);
x). Ce denominateur est la vraisemblance

maximale globale alors que le numerateur peut etre considere comme la vraisemblance
maximale sous H0 .

Si (x)
0 , v(x) = 1. Comme (x)
est une bonne estimation de , si H0 est vraie,
v(x) ne doit pas etre trop loin de 1. Inversement, si v(x) est trop loin de 1, on peut douter
du fait que 0 . Do`
u lidee de construire un test qui va rejeter H0 si v(x) est trop
petit.
D
efinition 21 Le test du rapport des vraisemblances maximales est le test deterministe de la forme :
(x) = 11{v(x)<l } .
Autrement dit, sa region critique est de la forme W = {v(x) < l }.

5.5 Test du rapport des vraisemblances maximales

57

Pour un test dhypoth`eses simples de H0 : = 0 contre H1 : = 1 , on se retrouve


dans ce cadre si on admet quil ny a que deux valeurs possibles pour : = {0 , 1 }.
Alors :

1
si L(0 ; x) L(1 ; x)

L(0 ; x)
L(
;
x)
0
v(x) =
=
sup (L(0 ; x), L(1 ; x)) L(1 ; x) si L(0 ; x) < L(1 ; x)
On ne rejettera H0 que dans le second cas, ce qui signifie que :
 = 11
(x) = 11 L( ; x)
= 11{L( ; x) > k L( ; x)}
1
1

0
0
{L(1 ; x) > L(0 ; x)}
< l
l
L(1 ; x)
et on retrouve bien le test du rapport de vraisemblances dans le cas o`
u il est deterministe.
Pour determiner l , il faut connatre la loi de v(X) sous H0 . Donnons le resultat dans
un cas particulier.
Propri
et
e 10 On consid`ere un mod`ele dechantillon (X , A, {P ; IRd })n et le test
bilateral de H0 : = 0 contre H1 : 6= 0 . On a :
v(x) =

L(0 ; x)
L(0 ; x)
=
.
sup L(; x)
L(n ; x)

Alors, sous H0 , on a :
L

2 ln v(X) 2d .
Donc le test deterministe dont la region critique est
W = {2 ln v(x) > zd, }
est asymptotiquement de seuil pour tester H0 contre H1 .
Demonstration. On consid`ere le cas o`
u d = 1 ( IR) et la loi des observations est continue,
de densite f . On utilise le developpement limite dej`a vu pour demontrer les proprietes
asymptotiques de lestimateur de maximum de vraisemblance, mais on le prend cette fois
a` lordre 2 :
1
2

ln L(; x) + (0 n )2 2 ln L(; x) 0 ,
ln L(0 ; x) = ln L(n ; x) + (0 n )
n
n

o`
u n0 est compris entre 0 et n .

ln L(; x) = 0. Donc on a :
n

h
i
2 ln v(X) = 2 ln L(0 ; X) ln L(n ; X)

Par definition de lEMV,

2
= (0 n )2 2 ln L(; X) 0
n

58

Chapitre 5 - Tests dhypoth`


eses optimaux
n
2 X
2

= (0 n )
ln f (Xi ; ) 0
n
2 i=1
n
i2 1 X
h
2
ln f (Xi ; ) 0
= n (0 n )
n
n i=1 2

PS
PS
n 0 donc n0 0 . Par la loi des grands nombres :

 2

n

1 X 2
P
S
ln f (Xi ; ) 0 E
ln f (X1 ; ) = I1 (0 ).

n
n i=1 2
2
0

Par ailleurs,

n (n 0 ) N


1
,
0,
I1 (0 )

L
I1 (0 ) n (n 0 ) N (0, 1)
h
i2
L
et I1 (0 ) n (n 0 ) 21 ,
donc

ce qui prouve que 2 ln v(X) 21 .


L

Revenons a` d quelconque : 2 ln v(X) 2d . Le test du rapport des vraisemblances


maximales est de la forme :
(x) = 11{v(x) < l } = 11{2 ln v(x) > 2 ln l } .

Le seuil du test est = PH0 (2 ln v(X) > 2 ln l ). Or :


lim PH0 (2 ln v(X) > 2 ln l ) = 1 F2d (2 ln l ).

n+

Donc on peut prendre 2 ln l = F1


ecrit :
2 (1 ) = zd, et le test s
d

(x) = 11{2 ln v(x) > z

d, }

.


Ce resultat est aussi valable pour dautres mod`eles que les mod`eles dechantillon (par
exemple pour des cas o`
u les Xi sont independantes mais pas de meme loi), mais malheureusement pas dans tous les cas.

Chapitre 6
Estimation non param
etrique de
quantit
es r
eelles
Comme on la dit dans lintroduction, la statistique non parametrique regroupe lensemble des methodes statistiques qui permettent de tirer de linformation pertinente de
donnees sans faire lhypoth`ese que la loi de probabilite de ces observations appartient a`
une famille parametree connue.
On se place dans le cadre dun mod`ele dechantillon : lobservation x est un vecteur
(x1 , . . . , xn ), constitue de realisations de variables aleatoires reelles X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F . On notera f leur densite, si elle existe.
En statistique parametrique, la loi des Xi depend dun param`etre . Les probl`emes statistiques que lon traite consistent essentiellement a` estimer (par exemple par la methode
du maximum de vraisemblance) et `a effectuer des tests dhypoth`eses sur ce param`etre.
Lestimation du param`etre permet alors destimer toutes les caracteristiques interessantes
de la loi de probabilite sous-jacente. En particulier, on peut estimer lesperance E(X) et
la variance V ar(X) de cette loi.
Mais il nest pas necessaire davoir un cadre parametrique pour estimer ces quantites.
Le but de ce chapitre est detudier des methodes destimation non parametrique de quantites reelles, comme les moments et les quantiles de lechantillon. Pour cela, il faut dabord
introduire les outils de base de la statistique non parametrique : statistiques dordre et de
rang, loi de probabilite empirique.
Remarque. En toute rigueur, on devrait parler des moments de la loi de probabilite dun
echantillon. Pour simplifier, on parle de moments dun echantillon.

6.1
6.1.1

Les outils de la statistique non param


etrique
Statistiques dordre et de rang

Rappelons que si x1 , . . . , xn sont n reels, on note x1 x2 xn ces n reels ranges


dans lordre croissant.

D
efinition 22 . La statistique dordre associee `a lechantillon X1 , . . . , Xn est le vecteur X = (X1 , . . . , Xn ). Xi est appelee la i`eme statistique dordre.

60

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

Remarques :
On note parfois X(i) ou X(i:n) au lieu de Xi .
e n = {(y1 , . . . , yn ) IRn ; y1 y2 yn }
X est `a valeurs dans IR
X1 = Min(X1 , . . . , Xn ),

Xn = Max(X1 , . . . , Xn ).

La statistique dordre contient toute linformation de lechantillon de depart, sauf


lordre dans lequel les observations ont ete obtenues. Cet ordre est indique par les rangs
ri des observations.
exemple 1 (sans ex-aequos) : n = 5
xi 2.3 -3.5 1.7 0.5 -1.4
xi -3.5 -1.4 0.5 1.7 2.3
ri
5
1
4
3
2
exemple 2 (avec ex-aequos) : n = 5
xi 0.5 -3.5 1.7 0.5 -1.4
xi -3.5 -1.4 0.5 0.5 1.7
ri
3
1
5
3
2
D
efinition 23 . La statistique de rang associee `a lechantillon (X1 , . . . , Xn ) est le
vecteur R = (R1 , . . . , Rn ) o`
u i {1, . . . , n},
Ri = 1 +

n
X

11{Xj <Xi }

j=1

= 1 + nombre dobservations strictement inferieures `a Xi


= rang de Xi dans lechantillon ordonne
Le rang Ri de la i`eme observation Xi est aussi appele la i`eme statistique de rang.
Remarque : on ne definit pas Ri comme le nombre dobservations inferieures ou egales a`
Xi , pour pouvoir traiter le cas des ex-aequos.
Propri
et
e 11 . Si on connait les statistiques dordre et de rang, on peut reconstruire
lechantillon initial car Xi = XR i .
On constate que sil ny a pas dex-aequos dans lechantillon, les rangs seront les entiers
de 1 a` n dans un ordre quelconque. On est s
urs de ne pas avoir dex-aequos si et seulement
si (i, j) {1, . . . , n}2 , i 6= j P (Xi = Xj ) = 0. En theorie, cest bien ce qui se passe si
la loi des Xi est continue. Mais en pratique, meme si cette loi est continue, il est possible
quil y ait des ex-aequos, du fait de la limitation de la precision des mesures et des erreurs
darrondis. Il faudra donc etre tr`es attentifs a` la presence dex-aequos dans les donnees.
Sur le plan theorique, nous eviterons cette difficulte en nous limitant aux lois continues.

6.1 Les outils de la statistique non param


etrique

61

Th
eor`
eme 13 . Soit X1 , . . . , Xn un echantillon dune loi continue. Alors :
1. La loi de R est la loi uniforme sur lensemble n des permutations des entiers de 1
`a n.
2. Les statistiques dordre et de rang sont independantes.
Demonstration.
1. La loi est continue donc il ny a pas dex-aequos. Les Ri prennent toutes les valeurs
enti`eres de 1 a` n, donc R est bien `a valeurs dans n . Puisque les Xi sont independantes
et de meme loi, elles sont interchangeables et les permutations sont equiprobables, do`
u
le resultat.
r = (r1 , . . . , rn ) n , P (R = r) = P (R1 = r1 , . . . , Rn = rn ) =

1
1
= .
card n
n!

Par exemple, pour n = 3, on a :


P (X1 < X2 < X3 ) = P (X1 < X3 < X2 ) = P (X2 < X1 < X3 ) = P (X2 < X3 < X1 )
1
= P (X3 < X1 < X2 ) = P (X3 < X2 < X1 ) = .
6
fn et toute permutation r de n , on a :
2. Il faut montrer que pour tout borelien B de IR
P (X B R = r) = P (X B)P (R = r).
Commencons par un exemple simple :


P (X1 , X2 ) [2, 4] [7, 8] R = (2, 1) = P X2 [2, 4] X1 [7, 8] .
Or linterchangeabilite des Xi fait que :


P X2 [2, 4] X1 [7, 8] = P X1 [2, 4] X2 [7, 8]

= P (X1 , X2 ) [2, 4] [7, 8] .
Plus generalement, pour tous B et r, on obtient :

P X B R = r = P (X B).
Dautre part, le theor`eme des probabilites totales permet decrire :
X
X
P (X B) =
P (X B R = r) =
P (X B) = n! P (X B).
rn

rn

fn ), r n ,
Do`
u B B(IR
P (X B) =

1
P (X B) = P (R = r)P (X B) = P (X B R = r),
n!

ce qui prouve que X et R sont independantes.



La principale consequence de ce theor`eme est que la loi de R ne depend pas de la loi
des Xi . On en deduit que toute variable al
eatoire qui ne sexprime qu`
a laide des

62

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

rangs des observations a une loi de probabilit


e ind
ependante de la loi de ces
observations. Cest bien ce quon cherche `a obtenir en statistique non parametrique, o`
u
la loi des observations nappartient pas a` une famille parametree connue. On pourra donc
faire de lestimation et des tests non parametriques a` partir des rangs des observations.
Remarques.
Il ny a pas dequivalent de ce theor`eme pour les lois non continues, ce qui limite
beaucoup linteret de la statistique non parametrique basee sur les rangs dans ce
cas.
Toute fonction symetrique des observations initiales est une fonction des statistiques
n
n
P
P
dordre. Par exemple,
Xi =
Xi .
i=1

i=1

Propri
et
e 12 . Si la loi des Xi est continue, X admet pour densite :
f(X1 ,...,Xn ) (x1 , . . . , xn ) = n!

n
Y

f (xi ) 11 gn (x1 , . . . , xn )
IR

i=1

fn , on a P (X B) = n! P (X
Demonstration. Etant donne que pour tout borelien B de IR
B), on obtient pour tout B :
Z
Z

f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn = n! f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn
B

Z
=

n!
B

n!
B

fXi (xi )dx1 , . . . , dxn

i=1

Z
=

n
Y

n
Y

f (xi )dx1 , . . . , dxn

i=1

do`
u le resultat.

Propri
et
e 13 . i {1, . . . , n}, la fonction de repartition de la ieme statistique dordre
Xi est :
n
X

x IR, FXi (x) =


Cnk [F (x)]k [1 F (x)]nk
k=i

Demonstration :
FXi (x) = P (Xi x) = P (i au moins des Xj sont inferieurs a` x)
n
X
=
P (k exactement des Xj sont inferieurs a` x)
=

k=i
n
X
k=i

Cnk P (X1 x, . . . , Xk x, Xk+1 > x, . . . , Xn > x)

6.1 Les outils de la statistique non param


etrique

=
=

n
X
k=i
n
X

63

Cnk [P (Xi x)]k [P (Xi > x)]nk


Cnk [F (x)]k [1 F (x)]nk

k=i


Corollaire 2 . Si la loi des Xi est continue, alors i {1 . . . n}, Xi admet pour densite :
x IR, fXi (x) =

n!
[F (x)]i1 [1 F (x)]ni f (x).
(i 1)!(n i)!

Demonstration. Une premi`ere solution est de deriver directement lexpression de FXi (x)
donnee par la propriete 13.
Une autre facon de faire, qui permet de mieux comprendre le sens des statistiques
dordre, est la suivante :
1
1
(FXi (x + dx) FXi (x)) = lim
P (x < Xi x + dx)
dx0 dx
dx0 dx

fXi (x) = FX0 i (x) = lim

1
P (i 1) des Xj sont x, un des Xj est compris entre x et x + dx,
dx0 dx

(n i) des Xj sont > x + dx
i1 1

ni
1 i1 
= lim
Cn P (Xj x)
Cni+1 P (x < Xj x + dx) P (Xj > x + dx)
dx0 dx
1
n!
(n i + 1)[F (x)]i1 [1 F (x)]ni lim
P (x < Xj x + dx)
=
dx0 dx
(i 1)!(n i + 1)!
n!
=
[F (x)]i1 [1 F (x)]ni f (x)
(i 1)!(n i)!
=

lim


Les lois de probabilite du minimum et du maximum dun echantillon peuvent sobtenir
comme cas particuliers des resultats precedents :
X1 = Min (X1 , . . . , Xn ) :

FX1 (x) = 1 [1 F (x)]n


fX1 (x) = nf (x)[1 F (x)]n1

Xn = Max (X1 , . . . , Xn ) : FXn (x) = [F (x)]n


fXn (x) = nf (x)[F (x)]n1
Plus generalement, on peut determiner la loi de probabilite de nimporte quel sousensemble de la statistique dordre. Dans le cas o`
u la loi des Xi est continue, on obtient :

64

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

Propri
et
e 14 . Pour tous r1 , . . . , rk entiers tels que 1 r1 < r2 < . . . < rk n, on a :
f(Xr1 ,...,Xrk ) (x1 , . . . , xk ) =

n!
k
Y
(r1 1)! (ri ri1 1)!(n rk )!

[F (x1 )]r1 1

k
Y

f (xi )

i=1

i=2

k
Y


[F (xi ) F (xi1 )]ri ri1 1 [1 F (xk )]nrk 11 gk (x1 , . . . , xk )
IR

i=2

6.1.2

Loi de probabilit
e empirique

La loi de probabilite empirique est une loi de probabilite creee directement a` partir de
lechantillon observe x1 , . . . , xn .
D
efinition 24 . La loi de probabilit
e empirique Pn associee `a lechantillon x1 , . . . , xn
est la loi uniforme (discr`ete) sur {x1 , . . . , xn }. Si Xe est une variable aleatoire de loi Pn ,
alors :
Xe est `a valeurs dans {x1 , . . . , xn }.
i {1, . . . , n}, P (Xe = xi ) = Pn (xi ) =

1
.
n

1X
On peut aussi ecrire Pn =
x .
n i=1 i
Les caracteristiques essentielles de la loi de probabilite empirique sont en fait des
quantites bien connues :
La fonction de repartition de la loi de probabilite empirique est la fonction de
repartition empirique Fn :
n

1
1X
P (Xe x) =
P (Xe = xi ) = nombre de xi x =
11{xi x} = Fn (x).
n
n i=1
x x
X
i

Lesperance de la loi de probabilite empirique est la moyenne empirique xn :


E(Xe ) =

n
X
i=1

1X
xi = xn .
xi P (Xe = xi ) =
n i=1

La variance de la loi de probabilite empirique est la variance empirique s2n :


n
n

 X
1X
2
2
V ar(Xe ) = E (Xe E[Xe ]) =
(xi xn ) P (Xe = xi ) =
(xi xn )2 = s2n .
n
i=1
i=1

6.2 Estimation de lesp


erance dun
echantillon

65

Le moment empirique dordre k est :


n

mek = E[Xek ] =

1X k
x .
n i=1 i

Le moment empirique centre dordre k est :


n

 1X
ek = E (Xe E[Xe ])k =
(xi xn )k .
n i=1

Les quantiles de la loi de probabilite empirique sont les quantiles empiriques :


( 1
(x + xnp+1 ) si np est entier,
p ]0, 1[ , qn,p =
2 np
xbnpc+1
sinon.
Remarque. Puisquon consid`ere les observations x1 , . . . , xn comme des realisations de variables aleatoires X1 , . . . , Xn , toutes les quantites definies dans cette section sont ellesmemes des realisations de variables aleatoires :
IFn (x) =

6.2
6.2.1

n
n
n
1X
1X
1X
11{Xi x}
Xn =
Xi
Sn2 =
(Xi X n )2
n i=1
n i=1
n i=1
( 1

) si np est entier
(X + Xnp+1
en,p =
Q
2 np
Xbnpc+1
sinon

Estimation de lesp
erance dun
echantillon
Estimation ponctuelle

On a dej`a vu que la moyenne empirique X n est un estimateur sans biais et convergent


(presque s
urement et en moyenne quadratique) de E(X) :
n
n
1 X
 1X
1
Xi =
E(Xi ) = nE(X) = E(X)
E(X n ) = E
n i=1
n i=1
n
n
n
1 X

1 X
V ar(X)
V ar(X n ) = V ar
Xi = 2
V ar(Xi ) =
n i=1
n i=1
n

qui tend vers 0 quand n tend vers linfini. La convergence presque s


ure est une consequence
directe de la loi forte des grands nombres.

6.2.2

Intervalle de confiance

Donner un intervalle de confiance


de seuil pour E(X), cest donner un intervalle

aleatoire I tel que P E(X) I = 1 .

66

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

Etant donne que X n est un bon estimateur


de E(X),

 il est logique de chercher un
intervalle de confiance de la forme I = X n a , X n + a . a est determine en ecrivant :


P X n a E(X) X n + a = P |X n E(X)| a = 1 .
Il est donc necessaire de connaitre la loi de probabilite de |X n E(X)| pour determiner
a . Dans un cadre parametrique, cest parfois possible, mais ca ne lest pas si on ne fait pas
dhypoth`eses particuli`eres sur la loi des Xi . Aussi est-on obliges de recourir a` un resultat
asymptotique. Le theor`eme central-limite dit que :
X n E(X) L
n
N (0, 1).
(X)

On dit aussi quasymptotiquement, X n est de loi N E(X), V ar(X)/n . Par consequent,
quand n est suffisamment grand, on a :

|X n E(X)|

a 
a 
n
= P |U | n
P |X n E(X)| a = P n
(X)
(X)
(X)
o`
u U est une variable aleatoire de loi N (0, 1).
Alors, avec les notations habituelles, on a asymptotiquement :


a
(X)
P |X n E(X)| a = 1 = n
= u = a = u .
(X)
n
Et un intervalle de confiance asymptotique pour E(X) est donc :

(X)
(X) 
X n u , X n + u
.
n
n
Comme dhabitude, cet intervalle de confiance est inexploitable car il est fonction de
(X), qui est inconnu. Une solution naturelle est alors de remplacer (X) par lecart-type
empirique Sn dans lexpression de lintervalle de confiance.
Il reste alors a` determiner quelles consequences a ce remplacement de lecart-type
theorique par lecart-type empirique. Pour cela, il faut utiliser le theor`eme de Slutsky, vu
au chapitre 4.
Ce theor`eme dit que, si {Un }n1 est une suite de variables aleatoires convergeant en loi
et {Vn }n1 une suite de variables aleatoires convergeant en probabilite vers une constante
c, alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme limite en loi que
la suite {g(Un , c)}n1 .

Ici, soit Un = n (X n E(X)). {Un }n1 converge en loi vers la loi N (0, V ar(X)).
n
1 X 2 PS
2
La loi des grands nombres appliquee aux Xi permet decrire que
X E(X 2 ).
n i=1 i
PS

Comme par ailleurs, X n E(X), on obtient que :


n

Sn2

1X 2
2 PS
=
Xi X n E(X 2 ) E(X)2 = V ar(X).
n i=1

6.3 Estimation de la variance dun


echantillon

67

Comme la convergence presque s


ure entraine la convergence en probabilite, on obtient
P
2 P
que Sn V ar(X), do`
u Vn = Sn (X).
u
Alors, puisque la fonction g(u, v) = est continue sur IR IR , le theor`eme de Slutsky
v
prouve que :
X n E(X) L
N (0, 1)
n
Sn
Il suffit alors dappliquer la meme demarche que precedemment, et on obtient :
Propri
et
e 15 . Un intervalle de confiance asymptotique de seuil pour E(X) est :
Sn
Sn
[X n u , X n + u ].
n
n
Remarque. Rappelons que dans un contexte parametrique, un intervalle de confiance de
seuil pour la moyenne m de la loi normale N (m, 2 ) au vu dun echantillon est :


Sn
Sn 
X n tn1,
, X n + tn1,
.
n1
n1

Pour n grand, la loi de Student se rapproche de la loi normale et lintervalle de confiance


propose est equivalent `a celui de la propriete 15.

6.3
6.3.1

Estimation de la variance dun


echantillon
Estimation ponctuelle

On sait dej`a que la variance empirique Sn2 est un estimateur biaise de la variance de
n
1 X
02
(Xi X n )2 est un estimateur sans
lechantillon et que la variance estimee S n =
n 1 i=1
biais et convergent en moyenne quadratique de V ar(X).
Dans la section precedente, on a montre que Sn2 converge presque s
urement vers
V ar(X). Cest evidemment aussi le cas de S 0 2n .
Enfin, on montre que, si E[X 4 ] < , alors la variance de la variance estimee est :
2

V ar(S 0 n ) =

1
[(n 1)4 (n 3)22 ]
n(n 1)

avec 4 = E[(X E[X])4 ] et 2 = V ar(X).

6.3.2

Intervalle de confiance

On peut montrer que, si E[X 4 ] < , alors le comportement asymptotique de la


variance estimee est determine par :
S 0 2n 2 L
np
N (0, 1).
4 22
En utilisant le theor`eme de Slutsky, on montre que :

68

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

Propri
et
e 16 . Un intervalle de confiance asymptotique de seuil pour V ar(X) = 2
est :
q
q
 02

u
u
4
02
e
0
Sn
4 S n , S n +
e4 S 0 4n
n
n
n
1X
o`
u e4 =
(Xi X n )4 .
n i=1

6.3.3

Lien entre moyenne et variance empiriques

Dans la mesure o`
u la moyenne et la variance empiriques sont deux quantites calculees a` laide des memes observations, ce ne sont a priori pas des variables aleatoires
independantes.
Propri
et
e 17 . Si E(X 3 ) < , alors Cov(X n , S 0 2n ) =

3
.
n

On en deduit que X n et S 0 2n sont correlees mais asymptotiquement non correlees.


On peut montrer que si la loi des Xi est symetrique, alors 3 = 0. Donc dans ce cas,
X n et S 0 2n sont non correlees pout tout n.
On sait que lindependance entraine la non-correlation mais que la reciproque est
fausse. En fait, on montre que X n et S 0 2n sont independantes si et seulement si les Xi sont
de loi normale.

6.4

Estimation des moments de tous ordres

Comme pour lesperance et la variance, on peut estimer les moments dordre k, mk =


E[X k ], et les moments centres dordre k, k = E[(X E[X])k ], de la loi de lechantillon
n
n
1X
1X k
Xi et ek =
(Xi X n )k .
par les moments empiriques correspondants mek =
n i=1
n i=1
Les proprietes de ces estimateurs sont donnees par la propriete suivante :
Propri
et
e 18 .
PS

mek mk
PS

ek k

mek mk
L
p
n
N (0, 1)
2
m2k mk

ek k
L
np
N (0, 1)
2
2
k k1 2 + 2kk1 k+1 + 2k k
Les resultats de convergence en loi et le theor`eme de Slutsky permettent dobtenir des
intervalles de confiance asymptotiques pour tous les moments.
On na pas de resultat non asymptotique, par exemple sur le biais de ces estimateurs.
Enfin, ces resultats interviennent dans letablissement des proprietes de la methode
destimation parametrique des moments.

6.5 Estimation des quantiles

6.5

69

Estimation des quantiles

On sinteresse maintenant a` lestimation des quantiles de la loi de lechantillon. Pour


simplifier, on se bornera ici au cas o`
u la loi des observations est continue et F est strictement croissante. Alors le quantile dordre p est qp = F 1 (p). On se propose de lestimer
par le quantile empirique dordre p,

en,p
Q

6.5.1

( 1

(X + Xnp+1
) si np est entier,
=
2 np
sinon.
Xbnpc+1

Propri
et
es des quantiles empiriques

Connaissant la loi dune statistique dordre et la loi conjointe dun couple de statistiques dordre, il est facile de determiner la loi dun quantile empirique, donnee par sa
densite :

Th
eor`
eme 14 . Si np est entier,
2 n!
fQen,p (x) =
(np 1)!(n np 1)!

F (2x y)np1 (1 F (y))nnp1 f (2x y)f (y)dy.

Si np nest pas entier,


fQen,p (x) =

n!
F (x)bnpc (1 F (x))nbnpc1 f (x).
bnpc!(n bnpc 1)!

Demonstration. Le cas o`
u np nest pas entier est immediat car on a directement la densite

de Xbnpc+1 .

Quand np est entier, on utilise la loi conjointe de (Xnp


, Xnp+1
) en ecrivant :

1

FQen,p (x) = P (Xnp


+ Xnp+1
)x =
2

Z Z
z+y
x
2

,X
f(Xnp
(z, y)dzdy
np+1 )

et on obtient le resultat annonce par derivation.

On obtient donc entre autres ainsi la loi de probabilite de la mediane dun echantillon,
mais cette loi depend de f et F , qui sont inconnues.
On a egalement un resultat sur la loi asymptotique dun quantile empirique :

Th
eor`
eme 15 . Th
eor`
eme de Mosteller :
p ]0, 1[,

en,p qp
Q
L
np
f (qp ) N (0, 1)
p(1 p)

70

6.5.2

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

Estimation ponctuelle

en,p ) nest pas simple. En fait, on na pas


Le theor`eme 14 montre que le calcul de E(Q
en,p . En revanche, le
de resultat non asymptotique sur la qualite destimation de qp par Q
theor`eme de Mosteller permet detablir un resultat asymptotique.
en,p est un estimateur de qp asymptotiquement sans biais et convergent
Propri
et
e 19 . Q
presque s
urement.
en,p est la loi
Demonstration. Le theor`eme de Mosteller dit que la loi asymptotique de Q
p(1 p)
en,p est asymptotiquement sans biais et
N (qp ,
), ce qui prouve directement que Q
nf 2 (qp )
est convergent en moyenne quadratique. Pour la convergence presque s
ure, il faut utiliser
un resultat sur la fonction de repartition empirique, le theor`eme de Glivenko-Cantelli, qui
sera enonce dans le chapitre suivant.

En conclusion, il est justifie, au moins si on a beaucoup dobservations, destimer un
quantile theorique par un quantile empirique. Dans certains cas, certains moments et quantiles theoriques sont confondus. Cest le cas par exemple pour les lois symetriques pour
lesquelles lesperance et la mediane sont confondues. Il est alors important de determiner
lequel des deux estimateurs empiriques correspondants est le meilleur.

6.5.3

Intervalle de confiance

Contrairement `a ce quon avait pour les moments, le theor`eme de Mosteller ne permet


pas de construire un intervalle de confiance asymptotique pour qp en utilisant le theor`eme
de Slutsky, car on ne sait pas estimer simplement f (qp ). En fait, on a ici un resultat non
asymptotique.
Th
eor`
eme 16 . (i, j), 1 i < j n, on a :
P (Xi

qp

Xj )

j1
X

Cnk pk (1 p)nk .

k=i

Demonstration. Il suffit decrire :


P (Xi qp Xj ) = P (Xi qp ) P (Xj < qp ) = FXi (qp ) FXj (qp )
n
n
X
X
k
k
nk
=
Cn [F (qp )] [1 F (qp )]

Cnk [F (qp )]k [1 F (qp )]nk


k=i

j1
X

k=j

Cnk [F (qp )]k [1 F (qp )]nk .

k=i

Or F (qp ) = p, donc on obtient P (Xi qp Xj ) =

j1
P
k=i

Cnk pk (1 p)nk .

6.6 Lois asymptotiques des extr


emes

Corollaire 3 . Sil existe i et j tels que

j1
P

71
Cnk pk (1 p)nk = 1 , alors [Xi , Xj ] est

k=i

un intervalle de confiance de seuil pour qp .


Dans la pratique, on cherche le couple (i, j) tel que cette somme soit la plus proche
possible de 1 . [Xi , Xj ] sera alors un intervalle de confiance de seuil proche de (et
connu) pour qp .
Par exemple, si on sinteresse `a la mediane, on a p =
j1
P

1
. On cherche donc i et j tels
2

P k
1 j1
C soit proche de 1 .
n
2 k=i n
k=i
7
1 P
k
C10
' 89%. On en deduit que [X3 , X8 ] est un intervalle
Pour n = 10, on a 10
2 k=3
de confiance de seuil approximativement egal `a 11% pour la mediane de lechantillon
1
(rappelons que la mediane empirique dans ce cas est (X5 + X6 )).
2
Linteret principal de ce resultat est quil nest pas asymptotique, ce qui est assez rare
en statistique non parametrique. Cependant, ces intervalles sont en general tr`es larges, ce
qui les rend assez peu utiles en pratique si on a peu dobservations.
que

6.6

Cnk pk (1 p)nk =

Lois asymptotiques des extr


emes

Le theor`eme de Mosteller dit que, pour p fixe, la loi asymptotique de Xbnpc+1


est la loi
p(1 p)
N (qp ,
).
nf 2 (qp )
On peut ainsi obtenir la loi asymptotique des statistiques dordre centrales, par
exemple de la mediane empirique. En revanche, le theor`eme de Mosteller ne permet pas
dobtenir la loi asymptotique des statistiques dordre extremes, cest a` dire X1 et Xn .

1
.
n
1
Or, pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir < p.
n
1

De meme, Xbnpc+1
= Xn bnpc = n 1 np n 1 p 1 .
n
1
Et pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir 1 > p.
n
Par consequent, les lois asymptotiques de X1 et Xn ne peuvent pas etre obtenues a`

laide du resultat sur la loi asymptotique de Xbnpc+1


.

En effet, Xbnpc+1
= X1 bnpc = 0 np < 1 p <

En fait, X1 et Xn convergent en loi vers les bornes inferieure et superieure du support


de la loi de lechantillon.



0 si F (x) = 0
n
En effet, lim FX1 (x) = lim 1 (1 F (x)) =
.
n+
n+
1 si F (x) > 0
Par exemple, si la loi des Xi est la loi uniforme sur [a, b], X1 converge en loi vers a et
Xn converge en loi vers b. Si cest la loi exponentielle, X1 converge en loi vers 0.

72

Chapitre 6 - Estimation non param


etrique de quantit
es r
eelles

En fait, au lieu de sinteresser a` la loi asymptotique de X1 , on va sinteresser `a celle


X bn
de 1
o`
u {an }n1 et {bn }n1 sont des suites de reels bien choisies.
an
Le theor`eme de Gnedenko dit que, dans ce cas, il ny a que 3 familles de lois limites
possibles.
Th
eor`
eme 17 . Th
eor`
eme de Gnedenko : Soit X1 , . . . , Xn un echantillon dune loi
continue. Sil existe des suites de reels strictement positifs {an }n1 et de reels {bn }n1
X bn
telles que 1
converge en loi vers une loi limite, alors les seules lois limites possibles,
an
definies par leur fonction de repartition G, sont :
x

G(x) = 1 ee , x IR (premi`ere loi de Gumbel).

G(x) = 1 ex , x 0, > 0 (loi de Weibull W(1, )).


1
quand X est de loi W(1, )).
X
X bn
De meme, les seules lois limites possibles pour les suites n
sont :
an

G(x) = 1 e(x) , x 0, > 0 (loi de

G(x) = ee , x IR (deuxi`eme loi de Gumbel).

G(x) = ex , x 0, > 0 (loi de

1
quand X est de loi W(1, )).
X

G(x) = e(x) , x 0, > 0 (loi de X quand X est de loi W(1, )).


Pour une loi donnee, meme sil existe plusieurs suites {an }n1 et {bn }n1 possibles, la
famille de lois limite est toujours la meme.
X1 bn
converge en loi vers la loi de Weibull, on dit que la loi des Xi
an
appartient au domaine dattraction du minimum de la loi de Weibull.
Par exemple, si

La constante 0 (loi de Dirac en 0) est une loi limite particuli`ere qui correspond a`
infini.
Ce qui est remarquable dans ce resultat, cest que, pour une fois, les lois asymptotiques
ne sont pas des lois normales. Il existe donc une difference de comportement notable entre
les statistiques dordre centrales et les statistiques dordre extremes.
Dun point de vue pratique, d`es quun phenom`ene peut sinterpreter comme un maximum ou un minimum (par exemple une duree de vie ou bien un pic dozone), les lois
de probabilite du theor`eme de Gnedenko peuvent etre utilisees comme mod`eles. Cest
essentiellement pour cela que les lois de Weibull et de Gumbel sont utilisees.

Chapitre 7
Estimation fonctionnelle
Les hypoth`eses de ce chapitre sont les memes que celles du chapitre precedent : on
suppose que les observations x1 , . . . , xn sont des realisations de variables aleatoires reelles
X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F , et de densite f ,
si elle existe.
Dans le chapitre precedent, on sest interesse `a lestimation de quantites reelles caracteristiques de la loi de probabilite de lechantillon, les moments et les quantiles. Aussi
riches denseignement que soient ces quantites, elles ne suffisent pas `a determiner enti`erement la loi de probabilite de lechantillon.
Cest pourquoi nous allons maintenant nous interesser a` lestimation de la fonction
de repartition et, si elle existe, de la densite de lechantillon. Par rapport au chapitre
precedent, il sagit maintenant destimer des fonctions, do`
u le nom destimation fonctionnelle. De plus lune comme lautre de ces fonctions caracterisent enti`erement la loi
de probabilite de lechantillon.
La fonction de repartition empirique est un estimateur simple et performant de la
fonction de repartition de lechantillon. Il est beaucoup plus difficile destimer une densite.
On connait dej`a lestimateur de base de la densite dun echantillon, lhistogramme. Bien
que tr`es connu et tr`es utilise, il est de mediocre qualite. Aussi allons-nous proposer une
methode destimation de densite bien plus performante, la methode du noyau.
Remarquons que lestimation des quantiles peut etre consideree comme de lestimation
fonctionnelle dans la mesure o`
u estimer qp = F 1 (p) quel que soit p revient a` estimer la
fonction F 1 .
Estimer une fonction g, cest dabord estimer g(x) pour tout x donne. Il faut ensuite
juger de la qualite de lestimation de g(x) pour chaque x, puis de lestimation de g dans
son ensemble.
Si g(x) est un estimateur de g(x), la qualite de lestimation pour un x donne est
usuellement mesuree par le biais, la variance et lErreur Quadratique Moyenne (ou risque
quadratique), quon notera EQMx (
g) :
 
2

EQMx (
g ) = E (
g (x) g(x))2 = E(
g (x)) g(x) + V ar(
g (x)).
On voit que lerreur quadratique moyenne se decompose en un terme de biais et un
terme de variance. Si g(x) est un estimateur sans biais de g(x), lerreur quadratique
moyenne se reduit `a la variance. On verra que, si on peut trouver facilement un estimateur
sans biais pour la fonction de repartition en un point x, il nen est pas de meme pour la

74

Chapitre 7 - Estimation fonctionnelle

densite. Aussi utilisera-t-on lerreur quadratique moyenne plutot que la variance dans ce
cas.
Pour juger de la qualite de lestimation de g dans son ensemble, il faut utiliser des
mesures de lecart entre g et g. Suivant les cas, on utilisera :
lErreur Quadratique Moyenne Int
egr
ee (EQMI) :
Z +
Z +
Z

2
EQM I(
g) =
EQMx (
g ) dx =
E(
g (x)) g(x) dx +

V ar(
g (x)) dx.

lecart maximum entre les deux fonctions :


sup{|
g (x) g(x)|; x IR}.

7.1
7.1.1

Estimation de la fonction de r
epartition
Estimation ponctuelle

Rappelons que la fonction de repartition empirique IFn de lechantillon est definie par :
n

1X
11{Xi x} = pourcentage dobservations inferieures a` x
IFn (x) =
n i=1

0.0

0.2

0.4

Fn(x)

0.6

0.8

1.0

ecdf(x)

50

100

150

200

250

Figure 7.1 Fonction de repartition empirique


Il savere que IFn est un excellent estimateur de F , ce que lon peut montrer en plusieurs
etapes.
Propri
et
e 20 . x IR , nIFn (x) est de loi binomiale B(n, F (x)).
Demonstration. nIFn (x) =

n
X

11{Xi x} est une somme de n variables aleatoires independan-

i=1

tes et de meme loi de Bernouilli de param`etre P (Xi x) = F (x), donc cest une variable
aleatoire de loi B(n, F (x)).

7.1 Estimation de la fonction de r


epartition

75

On peut dire aussi que nIFn (x) est le nombre de Xi inferieurs a` x, qui peut sinterpreter
comme le nombre de fois o`
u, en n experiences identiques et independantes, un ev`enement
de probabilite P (Xi x) = F (x) sest produit. Donc cest une variable aleatoire de loi
B(n, F (x)).

On en deduit facilement les qualites de lestimation de F (x) par IFn (x).
Propri
et
e 21 . x IR , IFn (x) est un estimateur sans biais et convergent en moyenne
quadratique de F (x).
1
1
E(nIFn (x)) = nF (x) = F (x).
n
n
1
1
V ar(IFn (x)) =
V
ar(nI
F
(x))
=
nF (x)(1 F (x))
n
n2
n2
F (x)(1 F (x))
,
=
n
qui tend vers 0 quand n tend vers linfini.

Demonstration. E(IFn (x)) =

En fait, la convergence est presque s


ure :
Propri
et
e 22 : x IR,

PS

IFn (x) F (x).

Demonstration. Il suffit dappliquer la loi des grands nombres aux variables aleatoires de
loi de Bernoulli 11{Xi x} :
n

1 X
PS
IFn (x) =
11{Xi x} E 11{Xi x} = F (x).
n i=1


Vue sous cet angle, la loi des grands nombres dit que la probabilite dun ev`enement
est la limite de la frequence doccurrence de cet ev`enement dans une suite dexperiences
identiques et independantes. On en deduit que lon peut estimer la probabilite que X
soit inferieure a` x, F (x), par le pourcentage dobservations inferieures a` x, IFn (x). Cette
estimation est dexcellente qualite.
Pour juger de la qualite globale de lestimation de F par IFn , on utilise le theor`eme de
Glivenko-Cantelli, qui dit que IFn est un estimateur convergent uniformement et presque
s
urement de F :
Th
eor`
eme 18 . Th
eor`
eme de Glivenko-Cantelli.
PS

Dn = sup{|IFn (x) F (x)|; x IR} 0.


Par ailleurs, lerreur quadratique moyenne integree est :
Z
Z +
1 +
F (x)(1 F (x)) dx.
EQM I(IFn ) =
V ar(IFn (x)) dx =
n

On ne peut pas calculer explicitement cette erreur, mais on sait quelle tend vers 0
quand n tend vers linfini a` la vitesse 1/n.

76

Chapitre 7 - Estimation fonctionnelle

7.1.2

Intervalle de confiance

Soit x fixe. Un intervalle de confiance de seuil pour F (x) est un intervalle aleatoire
I tel que P (F (x) I) = 1 .
Si on reprend la demarche vue en 6.2.2. pour lesperance de lechantillon, on va chercher
un intervalle de confiance de la forme I = [IFn (x) a , IFn (x) + a ], o`
u a est determine
en ecrivant :
P (F (x) I) = P (IFn (x) a F (x) IFn (x) + a )
= P (F (x) a IFn (x) F (x) + a )
= P (n(F (x) a ) nIFn (x) n(F (x) + a ))
bn(F (x)+a )c

Cnk [F (x)]k [1 F (x)]nk

k=bn(F (x)a )c+1

= 1
On ne peut pas deduire la valeur de a de cette expression car elle implique F (x), qui
est inconnue. En revanche, on peut obtenir un resultat asymptotique par un raisonnement
similaire `a celui que lon a utilise pour lesperance.
En effet, lapplication du theor`eme central-limite sur les 11{Xi x} , variables aleatoires
independantes de loi de Bernoulli, desperance F (x) et de variance F (x)(1 F (x)) permet
decrire :
n
X
11{Xi x} nE(11{Xi x} )
i=1

p
nV ar(11{Xi x} )

nIFn (x) nF (x)


IFn (x) F (x)
L
= np
N (0, 1).
=p
nF (x)(1 F (x))
F (x)(1 F (x))

Grace au theor`eme de Slutsky et `a la convergence presque s


ure de IFn (x) vers F (x),
on a egalement :

IFn (x) F (x)


L
np
N (0, 1).
IFn (x)(1 IFn (x))
Alors on obtient que, pour n suffisamment grand :
P (F (x) I) = P (a IFn (x) F (x) a ) = P (|IFn (x) F (x)| a )

|IFn (x) F (x)|


a
= P( n p
np
)
IFn (x)(1 IFn (x))
IFn (x)(1 IFn (x))

a
= P (|U | n p
)
IFn (x)(1 IFn (x))
= 1
o`
u U est de loi N (0, 1).

a
u p
Do`
u np
= u et a =
IFn (x)(1 IFn (x)).
n
IFn (x)(1 IFn (x))
Et on obtient finalement :

7.2 Estimation de la densit


e

77

Propri
et
e 23 . x IR, un intervalle de confiance asymptotique de seuil pour F (x)
est :


u p
u p
IFn (x)
IFn (x)(1 IFn (x)) , IFn (x) +
IFn (x)(1 IFn (x)) .
n
n
En fait, on a des resultats sur les intervalles de confiance pour le param`etre de la loi
binomiale qui nous donnent directement le resultat suivant :
Th
eor`
eme 19 . x IR, un intervalle de confiance exact de seuil pour F (x) est :

1
1

,
nnIFn (x)+1
nnIFn (x)
1 + nIF (x) f2(nnIFn (x)+1),2nIFn (x),/2 1 + nIF (x)+1 f2(nnIFn (x)),2(nIFn (x)+1),1/2
n
n
o`
u f1 ,2 , est le quantile dordre 1 de la loi de Fisher-Snedecor `a (1 , 2 ) degres de
liberte.

7.2

Estimation de la densit
e

Dans cette section, on suppose que la loi de lechantillon est continue et on cherche `a
estimer sa densite f . f est la derivee de F , mais la fonction de repartition empirique IFn
nest pas derivable, puisque cest une fonction en escalier. On ne peut donc pas utiliser
directement les resultats sur la fonction de repartition empirique pour estimer la densite.
On peut se demander quelle est lutilite destimer la densite alors que lon a dej`a un tr`es
bon estimateur de la fonction de repartition. La principale raison est que la forme dune
densite est beaucoup plus facile a` interpreter que celle dune fonction de repartition. Par
exemple, on pourra facilement avoir, grace a` une estimation de densite, des informations
sur la symetrie ou la multimodalite de la loi de lechantillon, alors que ce nest pas du
tout facile au seul vu de la fonction de repartition empirique. De meme, une estimation de
densite est une aide importante au choix dun mod`ele approprie pour la loi de lechantillon.
Par exemple, une densite estimee en forme de cloche symetrique peut conduire `a ladoption
dun mod`ele de loi normale.
Nous allons commencer par donner des rappels sur la methode destimation de densite la plus elementaire, celle de lhistogramme. Puis nous presenterons la methode plus
sophistiquee du noyau.

7.2.1

Rappels sur les histogrammes

On se fixe une borne inferieure de lechantillon a0 < x1 et une borne superieure ak > xn .
On partitionne lintervalle ]a0 , ak ], contenant toutes les observations, en k classes ]aj1 , aj ].
La largeur de la classe j est hj = aj aj1 .
Leffectif de la classe j est le nombre dobservations appartenant `a cette classe : nj =
n
P
nj
11]aj1 ,aj ] (xi ). La frequence de la classe j est .
n
i=1
Lhistogramme est constitue de rectangles dont les bases sont les classes et dont les
aires sont egales aux frequences de ces classes. Donc lhistogramme est la fonction en

78

Chapitre 7 - Estimation fonctionnelle

escalier constante sur les classes et qui vaut

nj
sur la classe ]aj1 , aj ]. Cette fonction
nhj

peut secrire :
f(x) =

k
n
k
X
X
1X 1
nj
11]a ,a ] (x) =
11]a ,a ] (x)
11]aj1 ,aj ] (xi ).
nhj j1 j
n j=1 hj j1 j
i=1
j=1

ak a0
Dans lhistogramme a` pas fixe, les classes sont de meme largeur h =
. Dans ce
k
cas, la hauteur dun rectangle est proportionnelle a` leffectif de sa classe.
On a vu en PMS quil etait plus pertinent de choisir un histogramme a` classes de
meme effectif. Admettons pour simplifier que n soit divisible par k. Alors chaque classe doit
contenir n/k observations. Les limites des classes seront alors les j/k quantiles empiriques :
1
aj = qn,j/k = (xnj + xnj +1 ), j = 1, . . . , k 1;
k
2 k
Les bornes des classes sont donc cette fois aleatoires, puisquelles sont fonction des
observations.
Enfin, le polygone des frequences est la ligne brisee reliant les milieux des sommets
des rectangles, et prolongee de part et dautre de lhistogramme de facon a` ce que laire
totale delimitee par le polygone soit egale `a 1, comme pour une densite.

0.08

Prenons lexemple vu en PMS du bruit a` Montreal. Les histogrammes `a classe de


meme largeur et de meme effectif, avec leurs polygones des frequences, sont donnes par
la figure 7.2.

0.04
0.02

0.04
0.00

0.0

0.02

Density

0.06

0.06

0.08

Histogram of bruit

55

60

65

70

75

50

55

60

65

70

75

bruit

Figure 7.2 Histogramme `a classes de meme largeur et a` classes de meme effectif pour
les niveaux de bruit a` Montreal
La forme de ces histogrammes est assez proche dune cloche symetrique, ce qui nous
am`ene a` envisager lhypoth`ese que les donnees proviennent dune loi normale.

7.2.2

La m
ethode du noyau

Les histogrammes et les polygones des frequences ne sont pas des estimations tr`es
satisfaisantes de la densite de lechantillon car ce sont des fonctions en escalier et des

7.2 Estimation de la densit


e

79

lignes brisees alors que la densite a` estimer est en general plus lisse, avec au moins sa
derivee continue.
Dautre part, lalea du au choix du nombre de classes et des bornes des classes est un
element tr`es perturbant de lanalyse, puisque des choix differents peuvent aboutir a` des
histogrammes dallures assez nettement differentes.
Lestimation par noyau a pour but de repondre `a ces deux ecueils et de proposer des
estimations de densite ayant de bonnes proprietes.
Pour cela, on commence par remarquer que la densite est la derivee de la fonction de
repartition, ce qui permet decrire pour tout x :
F (x + h) F (x h)
F (x + h) F (x)
= lim
.
h0
h0
h
2h

f (x) = F 0 (x) = lim

Donc pour un h > 0 fixe petit, on peut penser a` estimer f (x) par :
n


1
1 X
f(x) =
11]xh,x+h] (Xi ).
IFn (x + h) IFn (x h) =
2h
2nh i=1
On a alors :
E[f(x)] =



1
1
E[IFn (x + h)] E[IFn (x h)] =
F (x + h) F (x h)
2h
2h

qui tend vers f (x) quand h tend vers 0. Il faut donc faire dependre h de la taille de
lechantillon, et le faire tendre vers 0 quand n tend vers linfini, de sorte que f(x) soit un
estimateur asymptotiquement sans biais de f (x). h sera donc dorenavant note hn .
Cette demarche est proche de celle de lhistogramme au sens o`
u cela revient a` mettre x
au centre dune classe de largeur 2h et a` calculer lestimateur histogramme correspondant.
La fonction f obtenue a des sauts aux points Xi h et est constante autrement.
La grande difference par rapport `a lhistogramme est quil ny a pas de classe fixee a`
lavance : on cree une classe en chaque point o`
u on veut estimer la densite.
Lestimateur f reste une fonction en escalier. Pour obtenir quelque chose de plus lisse,
on peut remarquer que :
f(x) =

n
n
1 X1
1 X
11]xhn ,x+hn ] (Xi ) =
11{xhn <Xi x+hn }
2nhn i=1
nhn i=1 2

n
n
1 X1
x Xi 
1 X
x Xi 
=
11[1,+1[
=
K
nhn i=1 2
hn
nhn i=1
hn

1
o`
u K(u) = 11[1,+1[ (u).
2
La m
ethode du noyau consiste a` generaliser cette approche a` dautres fonctions K.
D
efinition 25 . Un estimateur `
a noyau de la densite f est une fonction f definie par :
n
1 X
x Xi 

f (x) =
K
nhn i=1
hn

80

Chapitre 7 - Estimation fonctionnelle

o`
u {hn }n1 est une suite de reels positifs appeles param`
etres de lissage ou largeurs de
la fen
etre, qui tend vers 0 quand n tend vers linfini, et K est une densite de probabilite
appelee noyau.
Les noyaux les plus communs sont :
1
le noyau rectangulaire : K(u) = 11[1,+1[ (u). Cest celui qui donne lestimateur
2
de type histogramme.
le noyau triangulaire : K(u) = (1 |u|)11[1,+1[ (u).
1
2
le noyau gaussien : K(u) = eu /2 .
2
u2 
3
le noyau dEpanechnikov : K(u) = 1
11
(u).
5 [ 5,+ 5[
4 5
Dans lestimation de f (x) par le noyau rectangulaire, le meme poids est accorde a`
toutes les observations comprises entre x h et x + h. Dans les 3 derniers noyaux, le poids
dune observation est dautant plus fort quelle est proche de x.
f a les memes proprietes de continuite et de differentiabilite que K. Par exemple, si
K est le noyau gaussien, f admet des derivees de tous ordres.
Propri
et
e 24 . Un estimateur `a noyau est une densite.
Demonstration.
Z +
f(x)dx =

n Z
1 X +
x Xi 
K
dx
nhn i=1
hn
n Z
1 X +
x Xi
)
=
K(u)hn du (changement de variable u =
nhn i=1
hn
n Z
1
1 X +
K(u)du = n = 1.
=
n i=1
n


Pour choisir quel noyau prendre et surtout choisir le param`etre de lissage hn , il faut
etudier la qualite de lestimation de f par f.
Comme les expressions du biais et de la variance de lestimateur a` noyau ne sont pas
simples a` traiter, on en donne des equivalents pour pouvoir etudier leur comportement
asymptotique :
Propri
et
e 25 . Si K est la densite dune loi de probabilite symetrique par rapport `
a
lorigine et de variance 2 , si f admet des derivees continues de tous ordres, alors, quand
n tend vers linfini, on a :

7.2 Estimation de la densit


e

81

h2n 2 00
f (x).
2
Z +
f
(x)
V ar[f(x)]
K(u)2 du.
nhn
Z +
4 2 Z +
h

1
n
2
00
2
EQM I(f)
f (x) dx +
K(u)2 du.
4
nh
n

E[f(x)] f (x)

On voit que, dans lerreur quadratique moyenne integree, le terme de biais est une
fonction croissante de hn , alors que le terme de variance est une fonction decroissante de
hn . Si hn est grand, la variance sera faible, mais le biais sera fort. Si hn est petit, cest
linverse. La valeur de hn optimale, qui minimise lEQMI, realise donc un compromis entre
biais et variance.
Cette valeur optimale est une fonction de f , qui est inconnue. On ne peut donc en
donner quune valeur approchee. En pratique, on choisit souvent :
hn =


1
4 1/5 1/5
n
min s0n ,
(
qn,3/4 qn,1/4 ) .
3
1.34

En fait, la valeur optimale de hn depend aussi de K. On montre que lerreur quadratique moyenne integree minimale est obtenue en choisissant le noyau dEpanechnikov.
Mais lecart de performance entre les differents noyaux usuels est assez faible, aussi on a
plutot tendance en pratique a` choisir le noyau le plus facile a` utiliser, qui est le noyau
gaussien.
Le biais etant un O(h2n ), on voit que le biais optimal est un O(n2/5 ). Par consequent,
f(x) est un estimateur asymptotiquement sans biais de f (x), mais la convergence est lente
car n2/5 tend lentement vers 0.
De la meme facon, la variance optimale est un O(n4/5 ). Donc f(x) est un estimateur
convergent de f (x), mais la convergence est plus lente que celle de IFn (x) vers F (x) car
n4/5 tend plus lentement que n1 vers 0.
Ces deux resultats font que, pour pouvoir estimer efficacement une densite, il faut
avoir beaucoup de donnees.
Dans lexemple des niveaux de bruit, lestimation de densite par la methode du noyau
gaussien avec le param`etre de lissage ci-dessus est donnee par la commande :
> lines(density(bruit,n=200))
On obtient la figure 7.3, la densite estimee semble bien proche de celle dune loi
normale.

Chapitre 7 - Estimation fonctionnelle

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

82

50

55

60

65

70

75

80

Figure 7.3 Estimation de densite par la methode du noyau

Chapitre 8
Tests dad
equation bas
es sur la
fonction de r
epartition empirique
Grace aux methodes de statistique non parametrique, il est tout `a fait possible dextraire des informations pertinentes dun echantillon sans connaitre la loi de probabilite
dont il est issu. Cependant, si cest possible, il est quand meme preferable dadopter un
mod`ele probabiliste. En effet, les estimations seront toujours plus precises dans un cadre
parametrique que dans un cadre non parametrique. Par ailleurs, un grand nombre de
procedures statistiques standard ne sont utilisables que si on fait des hypoth`eses particuli`eres sur la loi de probabilite des observations (par exemple, les tests dans les mod`eles
lineaires gaussiens).
Par consequent, il est fondamental de disposer de methodes permettant de determiner
sil est vraisemblable de considerer que des observations proviennent dun mod`ele probabiliste donne. Ces methodes sont appelees les tests dad
equation. On a vu en PMS deux
types de methodes : les graphes de probabilite, qui sont des tests dadequation graphiques,
et les tests du 2 . Nous allons dans ce chapitre etudier des tests plus puissants, qui sont
bases sur la fonction de repartition empirique.

8.1

Probl
ematique des tests dad
equation

Tester lad
equation dun echantillon (x1 , . . . , xn ) `a une loi de probabilite donnee,
cest determiner sil est vraisemblable que x1 , . . . , xn soient les realisations de variables
aleatoires X1 , . . . , Xn independantes et de cette loi.
On note F la fonction de repartition inconnue de lechantillon, que lon supposera pour
simplifier continue. Dans le cas de lois discr`etes, les procedures presentees ici necessiteront
des amenagements, pas toujours simples.
On distinguera deux cas, suivant que lon veut tester ladequation de lechantillon a`
une loi de probabilite enti`erement specifiee ou `a une famille de lois de probabilite.
Cas 1 : Test dadequation a` une loi enti`erement specifiee.
Test de H0 : F = F0 contre H1 : F 6= F0 .
Par exemple, on se demande si les observations sont issues dune loi normale de
moyenne 10 et de variance 4.

Chapitre 8 - Tests dad


equation bas
es sur la fonction de r
epartition
empirique

84

Cas 2 : Test dadequation a` une famille de lois de probabilite.


Test de H0 : F F contre H1 : F
/ F.
Le plus souvent, la famille F est une famille parametree : F = {F (.; ); }.
Cest le cas quand on se demande simplement si les observations sont issues dune loi
normale, sans donner de valeur a priori aux param`etres. Si le mod`ele de loi normale
est adopte, on pourra toujours estimer les param`etres ulterieurement.
En theorie, on devrait toujours appliquer un test dadequation avant dutiliser nimporte quel mod`ele probabiliste sur des donnees. En pratique, on ne le fait pas toujours,
ce qui entraine parfois lutilisation de mod`eles compl`etement errones.

8.2

Rappels sur les graphes de probabilit


e

0.0

0.2

0.4

0.6

0.8

1.0

On a vu que la fonction de repartition empirique IFn etait un excellent estimateur de


la fonction de repartition inconnue F . Si on teste lhypoth`ese F = F0 , il est naturel
de tracer les graphes de IFn et de F0 , et de juger visuellement si les deux courbes sont
proches (voir figure 8.1). Cependant, il est difficile de juger si les deux courbes sont
significativement proches, surtout si on dispose de peu de donnees. De plus, toutes les
fonctions de repartition ont des formes voisines.

55

60

65

70

75

Figure 8.1 Fonctions de repartition empirique et testee


De la meme facon, on peut comparer visuellement une estimation de la densite (par
histogramme ou par noyau) et la densite testee f0 . Cela peut permettre decarter certaines hypoth`eses manifestement fausses. Par exemple, si lestimation de densite nest
pas du tout en forme de cloche symetrique, il est peu probable que les observations proviennent dune loi normale. Dans ce cas, il nest pas forcement necessaire deffectuer un
test dadequation pour confirmer cette hypoth`ese. Inversement, meme si la forme de lestimation de densite nest pas tr`es eloignee dune cloche, rien ne prouve que la loi des

8.3 Cas dune loi enti`


erement sp
ecifi
ee

85

observations est normale. De toutes facons, il est toujours difficile devaluer visuellement
la proximite de deux courbes.
Lidee des graphes de probabilite est de chercher, a` partir de la fonction de repartition
F , une relation lineaire caracteristique de la loi `a tester. On trace alors un nuage de points
qui, si la vraie fonction de repartition est F , devraient etre approximativement alignes.
Le probl`eme essentiel de cette procedure graphique est de determiner a` partir de quand
on peut considerer que des points sont suffisamment alignes. Une idee naturelle est de
determiner la droite des moindres carres pour le nuage de points, et de considerer que
ladequation est bonne si le coefficient de correlation lineaire empirique correspondant
depasse une certaine valeur. Malheureusement, la loi de probabilite de ce coefficient de
correlation sous H0 est trop complexe pour que lon puisse construire un test dadequation
statistique simple par ce moyen.
Les graphes de probabilite sont une premi`ere etape indispensable dans une etude statistique, car ils sont faciles `a mettre en oeuvre et permettent de rejeter facilement de trop
mauvais mod`eles. Il est cependant necessaire de les completer par des tests statistiques si
lon veut obtenir des resultats plus precis.

8.3

Cas dune loi enti`


erement sp
ecifi
ee

Quand on doit tester si F = F0 , il est logique de ne pas rejeter cette hypoth`ese si


IFn et F0 sont significativement proches, dautant plus que lon sait, dapr`es le theor`eme
de Glivenko-Cantelli, que Dn = sup |IFn (x) F0 (x)| converge presque s
urement vers 0
xIR
sous H0 .
Il sagit donc de definir une distance, ou plutot un ecart, entre IFn et F0 , et de rejeter
H0 : F = F0 si cet ecart est trop grand. Les mesures decart les plus usuelles sont :
La statistique de Kolmogorov-Smirnov (KS) - Commande R : ks.test :

Kn = nDn = n sup |IFn (x) F0 (x)| .


xIR
La statistique de Cramer-von Mises (CM) - Commande R : cvm.test :
Z +
2
[IFn (x) F0 (x)]2 dF0 (x).
Wn = n

La statistique dAnderson-Darling (AD) - Commande R : ad.test :


A2n

Z
=n

[IFn (x) F0 (x)]2


dF0 (x).
F0 (x) (1 F0 (x))

Un test de seuil de H0 : F = F0 contre H1 : F 6= F0 aura donc une region


critique de la forme W = {Kn > k }, avec = PH0 (Kn > k ). Il faut donc connaitre
la loi des variables aleatoires Kn , Wn2 et A2n sous H0 . Ces lois ne sont pas facilement
accessibles pour n fini. En revanche, on a un resultat asymptotique.

86

Chapitre 8 - Tests dad


equation bas
es sur la fonction de r
epartition
empirique

Th
eor`
eme 20 . Sous H0 , Kn converge en loi vers la loi de Kolmogorov-Smirnov, de
+
X
2 2
+
fonction de repartition : z IR , FKS (z) = 1 2 (1)k+1 e2k z .
k=1

Ce qui est remarquable dans ce theor`eme, cest que la loi limite de Kn est la meme,
quelle que soit la loi de lechantillon. Cest en cela que la procedure est non parametrique
et cest pour cela que lon peut construire un test.
Ainsi, dans la region critique definie plus haut, k est le quantile dordre 1 de la
loi de Kolmogorov-Smirnov.
Linconvenient de ce resultat est quil nest quasymptotique. En pratique, on ne peut
utiliser ce test tel quel que pour n > 80. Pour n 80, on peut utiliser les lois exactes de
Kn , qui ont ete tabulees pour tout n, mais cest fastidieux. On pref`ere utiliser le resultat
suivant.

Propri
et
e 26 . Pour tout n 5, la variable aleatoire Dn

0.11
n + 0.12 +
n


est ap-

proximativement de loi de Kolmogorov-Smirnov sous H0 .


Par consequent, on appelle test de Kolmogorov-Smirnov, le test, valable quelle
que soit la taille de lechantillon, ayant pour region critique :
 



0.11
1
n + 0.12 +
W = Dn
> FKS (1 )
n
On montre que, sous H0 , Wn2 et A2n convergent aussi en loi vers des lois qui ne dependent
pas de F . Mais cette fois, les fonctions de repartition des lois limites nont pas dexpressions
simples, et on est obliges de se referer `a des tables. Comme pour Kn , on dispose de resultats
permettant dappliquer les tests quelle que soit la loi de lechantillon :
Propri
et
e 27 . Pour tout n 5, on a, sous H0 :



0.4 0.6
1
2
+ 2
1+
est approximativement de loi de Cramer-von Mises.
Wn
n
n
n
A2n est approximativement de loi dAnderson-Darling.
La table 8.1 donne quelques quantiles usuels des lois limites de Kolmogorov-Smirnov,
Cramer-von Mises et Anderson-Darling.
Enfin, pour calculer facilement les statistiques de test, il est pratique dutiliser le
resultat suivant.
Propri
et
e 28 . Pour i {1, . . . , n}, on pose Ui = F0 (Xi ). On a :



i
i1

Kn = n max max{ Ui , i = 1..n}, max{Ui


, i = 1..n} .
n
n

8.4 Cas dune famille de lois

87

15% 10%
5%
2.5%
1%
KS 1.138 1.224 1.358 1.480 1.628
CM 0.284 0.347 0.461 0.581 0.743
AD 1.610 1.933 2.492 3.070 3.857
Table 8.1 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 1

Wn2

2
n 
X
1
2i 1

.
=
+
Ui
2n
12n
i=1

A2n

1X
= n +
[(2i 1 2n) ln(1 Ui ) (2i 1) ln Ui ].
n i=1

Il est impossible de calculer la puissance de tels tests puisque lhypoth`ese alternative


H1 : F 6= F0 est beaucoup trop vaste. Des etudes intensives prenant en compte un grand
nombre dalternatives possibles ont montre que, de mani`ere generale, le test dAndersonDarling etait le plus puissant des trois et le test de Kolmogorov-Smirnov le moins puissant.

8.4

Cas dune famille de lois

On teste H0 : F F = {F (.; ); } contre H1 : F


/ F.
Puisque est un param`etre inconnu, une demarche naturelle est den determiner un
1 , . . . , Xn ) et de calculer les statistiques Kn , W 2 et A2 en remplacant F0 (x)
estimateur (X
n
n
1 , . . . , Xn )). On notera K
n, W
n2 et A2n les statistiques correspondantes.
par F (x; (X
n, W
2 et A2 en fonction des Ui restent valables a` condition de
Les expressions de K
n
n


remplacer Ui = F0 (Xi ) par Ui = F Xi ; (X1 , . . . , Xn ) .


n, W
2
Malheureusement, le fait destimer entraine que les lois limites sous H0 de K
n
2
2
2
et An ne sont pas les memes que celles de Kn , Wn et An . Cela tient au fait que, sous H0 ,
les Ui etaient independantes et de meme loi uniforme sur [0, 1], alors que les Ui ne sont
plus ni independantes, ni de loi uniforme.
Dans le cas general, les lois limites des statistiques de test dependent de la loi testee
F , de la procedure destimation utilisee (maximum de vraisemblance, moments, moindres
carres, ...), et de la vraie valeur de . Contrairement au cas dune loi enti`erement specifiee,
on ne peut donc pas obtenir de test dadequation applicable dans tous les cas de figure.
Pour faire un test dadequation, il faut au minimum que la loi limite des statistiques
de test soit independante de , puisque cette valeur est inconnue.
Propri
et
e 29 . Si est un param`etre de position, dechelle ou de position-echelle, alors
n, W
n2 et A2n ne dependent pas de .
les lois de probabilite sous H0 de K
Rappelons que :

Chapitre 8 - Tests dad


equation bas
es sur la fonction de r
epartition
empirique

88

m est un param`
etre de position (ou de localisation) si et seulement si la loi de
X m est independante de m ou bien si et seulement si la densite de X est de la
forme f (x; m) = g(x m).
X
est independante de

1 x
ou bien si et seulement si la densite de X est de la forme f (x; ) = g
.

est un param`
etre d
echelle si et seulement si la loi de

= (m, ) est un param`


etre de position-
echelle si et seulement si la loi de
X m
est independante de m et de ou bien si et seulement si la densite de X



1
xm
est de la forme f (x; m, ) = g
.

Exemples :

1
loi normale : f (x; m, ) = e
2
echelle.
loi exponentielle : f (x; ) = ex .
loi gamma : f (x; , ) =

(x m)2
2 2 . (m, ) est un param`etre de position1
est un param`etre dechelle.

x 1
e x . (, ) nest pas un param`etre de position()

echelle.
Par consequent, les methodes KS, CM et AD permettent de tester ladequation dun
echantillon `a la loi normale et `a la loi exponentielle, mais pas a` la loi gamma.
Pour les lois dont le param`etre est de position-echelle, la loi limite des statistiques
de test ne depend pas de , mais elle depend du type de loi testee et de la procedure
destimation. Aucune des lois limites na dexpression explicite, donc il faut recourir a` des
tables. Dautre part, il existe encore des modifications des statistiques de test a` effectuer
pour pouvoir utiliser les tests meme pour de petits echantillons.
Exemple 1 : la loi normale.
Les estimateurs de maximum de vraisemblance de la moyenne et la variance pour
n2 = Sn2 . Donc Ui = F (Xi ; m
n,
n2 ) =
unechantillon
n = X n et
 de loi normale sont m
Xi X n
. Les modifications des statistiques sont :

Sn



0.85

Statistique de Kolmogorov-Smirnov modifiee : Dn


n 0.01 +
.
n


0.5
2
n 1 +
Statistique de Cramer-von Mises modifiee : W
.
n


0.75 2.25
2

Statistique dAnderson-Darling modifiee : An 1 +


+ 2 .
n
n
Et les valeurs usuelles des quantiles sont donnees par la table 8.2.

8.4 Cas dune famille de lois

89

15% 10%
5%
2.5%
1%
KS 0.775 0.819 0.895 0.995 1.035
CM 0.091 0.104 0.126 0.148 0.179
AD 0.561 0.631 0.752 0.873 1.035
Table 8.2 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi normale avec estimation par maximum de vraisemblance

Exemple 2 : la loi exponentielle.


Lestimateur de maximum de vraisemblance du param`etre pour un echantillon ex n ) = 1 eXi /X n .
n = 1 . Donc Ui = F (Xi ;
ponentiel est
Xn
Les modifications des statistiques sont :




0.2
0.5
n
Statistique de Kolmogorov-Smirnov modifiee : D
n + 0.26 + .
n
n


n2 1 + 0.16 .
Statistique de Cramer-von Mises modifiee : W
n


0.6
2

.
Statistique dAnderson-Darling modifiee : An 1 +
n
Et les valeurs usuelles des quantiles sont donnees par la table 8.3.
15% 10%
5%
2.5%
1%
KS 0.926 0.995 1.094 1.184 1.298
CM 0.148 0.175 0.222 0.271 0.338
AD 0.916 1.062 1.321 1.591 1.959
Table 8.3 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi exponentielle avec estimation par maximum de vraisemblance

Lestimateur de maximum de vraisemblance est biaise. Il faut neanmoins le conserver


car la table 8.3 a ete obtenue avec cet estimateur biaise.
Il sav`ere que les puissances des differents tests sont plus proches quand on estime
les param`etres que pour une loi enti`erement specifiee. Cependant, Anderson-Darling est
toujours le meilleur et Kolmogorov-Smirnov le moins bon.
Ces tests sont plus puissants que les tests du 2 car le regroupement en classes fait
perdre de linformation sur les donnees.

90

Chapitre 8 - Tests dad


equation bas
es sur la fonction de r
epartition
empirique

Chapitre 9
Tests non param
etriques sur un

echantillon
Comme precedemment, on suppose dans ce chapitre que les observations x1 , . . . , xn
sont des realisations de variables aleatoires reelles X1 , . . . , Xn . Dans les chapitres precedents, on a suppose que les Xi etaient independantes et de meme loi. Tout ce qui a ete
fait jusquici na de sens que si cette hypoth`ese est verifiee. Il est donc fondamental de
determiner si cette hypoth`ese est valide ou pas. Les tests qui permettent dy parvenir sont
appeles tests d
echantillon.
Si on a admis que les observations forment un echantillon, on peut utiliser les procedures
destimation des moments, quantiles, fonction de repartition et densite de lechantillon,
vues precedemment. Letape statistique suivante est deffectuer des tests dhypoth`eses
sur ces quantites. Par exemple, on peut vouloir faire un test de E(X) m contre
E(X) > m. Dans ce chapitre, on se contentera detudier des tests portant sur la moyenne
et la mediane de la loi de lechantillon.
Dans les deux cas, on supposera que la loi est continue et on utilisera les statistiques
de rang pour effectuer les tests. En effet, on a vu que, si la loi de lechantillon est continue,
alors la loi des statistiques de rang ne depend pas de la loi de lechantillon.

9.1

Tests d
echantillon

Le probl`eme est de determiner si les observations forment un echantillon. Lhypoth`ese


nulle dun test dechantillon sera donc :
H0 : X1 , . . . , Xn sont independantes et de meme loi (i.i.d.).
Le choix dun test dechantillon depend fortement des hypoth`eses alternatives que
0 : X1 , . . . , Xn ne sont pas i.i.d. est trop vaste. Les
lon choisit. Lhypoth`ese H1 = H
alternatives les plus frequemment retenues sont celles qui portent sur lexistence dune
tendance :
H1 : Les Xi sont de plus en plus grandes
H2 : Les Xi sont de plus en plus petites
Par exemple, si Xi est la cotation dun titre au jour i, il est interessant de determiner
si le titre evolue a` la hausse (H1 ), `a la baisse (H2 ), ou ni lun ni lautre (H0 ).

92

Chapitre 9 - Tests non param


etriques sur un
echantillon

Ou bien, si les Xi sont les durees de bon fonctionnement successives entre les pannes
dun syst`eme reparable, lusure va faire en sorte que les pannes se produiront de plus en
plus souvent, donc les Xi seront de plus en plus petits (H2 ).
Il est necessaire de definir ce que lon entend par des variables aleatoires de plus en
plus grandes. Cela peut vouloir dire par exemple que la suite des E(Xi ) est croissante. On
peut en fait definir plusieurs ordres de ce type, appeles ordres stochastiques. Lordre
le plus frequemment retenu est le suivant :
D
efinition 26 . On dira que la suite de variables aleatoires {Xi }i1 est stochastiquement croissante (resp. decroissante) si et seulement si les fonctions de repartition des
Xi diminuent (resp. augmentent) au sens o`
u:
x IR,

i < j FXi (x) FXj (x) (resp. )

En effet, pour nimporte quel x, si Xi est plus petit que Xj , Xi a une plus forte
chance que Xj detre inferieure `a x.
On se contentera ici detudier les hypoth`eses :
H1 : Les Xi sont stochastiquement croissantes
H2 : Les Xi sont stochastiquement decroissantes
sachant que dautres alternatives sont possibles comme par exemple :
Les Xi sont stochastiquement periodiques
Les Xi sont de meme moyenne mais de variances croissantes
Sous H0 , les Xi sont i.i.d. donc leur ordre na aucune importance. Ce nest evidemment
pas le cas sous H1 et H2 . Il semble donc logique dutiliser les statistiques dordre et de
rang pour construire les tests.
Remarque. Noublions pas que le resultat dun test nest probant que si on rejette H0 .
Donc on pourra eventuellement conclure quil nest pas improbable que les Xi forment un
echantillon, mais on ne pourra jamais accepter cette hypoth`ese.

9.1.1

Le test de Spearman

La premi`ere idee consiste a` etudier le lien entre les rangs Ri des observations et leurs
indices i. En effet, si les Xi sont strictement croissants, alors les observations sont directement ordonnees dans lordre croissant, donc i, Ri = i. Inversement, si les Xi sont
strictement decroissants, alors i, Ri = n i + 1.
Do`
u lidee dutiliser le coefficient de correlation lineaire empirique entre les rangs et
les indices, RRI,n . Sous H1 , RRI,n doit etre proche de 1, sous H2 il doit etre proche de -1,
et sous H0 , il doit etre proche de 0.
n
1X
nin
Ri i R
n i=1
cRI
=s
.
RRI,n =
n
n
sR sI
1 X 2 2  1 X 2 2 
R Rn
i in
n i=1 i
n i=1

9.1 Tests d
echantillon

93

Par
de la forme
 exemple, un
test de H0 contre H1 de seuil aura une region critique

W = RRI,n > k . k est determine en ecrivant que PH0 RRI,n > k = . Il faut donc
connaitre la loi de RRI,n sous H0 pour effectuer le test : k sera le quantile dordre 1
de cette loi.
n
n
n
1 n(n + 1)
n+1
1P
n = 1 P Ri = 1 P i = n + 1 , car, sil
i=
=
et R
On a in =
n i=1
n
2
2
n i=1
n i=1
2
n
n
P
P
ny a pas dex-aequos (loi continue), alors pour toute fonction ,
(Ri ) =
(i).
i=1

i=1

De meme,
n

s2R

s2I

1 X 2 2
1 n(n + 1)(2n + 1)
n + 1 2
=

i in =
n i=1
n
6
2
n + 1  2n + 1 n + 1  n + 1
(n + 1)(n 1)

=
[4n + 2 3n 3] =
2
3
2
12
12
n2 1
=
12

Do`
u RRI,n

1X
n + 1 2
Ri i
n
n
2
P
n+1
12
Ri i 3
.
= i=1 2
=
2
n 1
n(n 1) i=1
n1
12

Sachant que la loi du vecteur des rangs R = (R1 , . . . , Rn ) sous H0 est la loi uniforme
sur lensemble des permutations des entiers de 1 a` n, il est possible den deduire la loi de
RRI,n sous H0 . Cette loi est appelee loi de Spearman. Do`
u le test dechantillon suivant :
D
efinition 27 . Le test de Spearman est le test dechantillon base sur la statistique
n
P
12
n+1
RRI,n =
R
i

3
. Plus precisement, on a :
i
n(n2 1) i=1
n1


Test de H0 contre H1 (test de croissance) : W = RRI,n > sn, ,


Test de H0 contre H2 (test de decroissance) : W = RRI,n < sn,1 ,
o`
u sn, est le quantile dordre 1 de la loi de Spearman de param`etre n.
Il existe une table des quantiles de la loi de Spearman. Mais quand la taille de
lechantillon est suffisamment grande, on utilise les resultats suivants.
Propri
et
e 30 .
Sous H0 , pour n > 10,

n2 q

RRI,n
2
1 RRI,n

St(n 2).

L
Sous H0 , n 1 RRI,n N (0, 1).

est approximativement de loi de Student

94

Chapitre 9 - Tests non param


etriques sur un
echantillon

En pratique, pour n < 10, on utilise la table de la loi de Spearman. Pour 11 n 30,
on utilise lapproximation de Student, et pour n > 30, on utilise lapproximation normale.

9.1.2

Le test de Kendall

Si les Xi sont strictement croissants, alors (i, j), i < j Xi < Xj . Inversement, si
les Xi sont strictement decroissants, alors (i, j), i < j Xi > Xj .
Do`
u lidee de compter le nombre Qn de couples (i, j) tels que i < j et Xi < Xj :
n1
n
P P
Qn =
11{Xi <Xj } . Le nombre total de couples (i, j) tels que i < j est le nombre de
i=1 j=i+1

facons de choisir 2 entiers distincts parmi n, cest-`a-dire Cn2 =

n(n 1)
.
2

n(n 1)
, et sous H2 , Qn doit etre proche de
2
n(n 1)
1
.
0. Sous H0 , (i, j), P (Xi < Xj ) = . Donc Qn doit etre proche de
2
4
Donc, sous H1 , Qn doit etre proche de

4Qn
1.
n(n 1)
n est appelee le tau de Kendall. Sous H1 , n doit etre proche de 1, sous H2 , n doit etre
proche de -1 et sous H0 , n doit etre proche de 0. Ainsi linterpretation de n est similaire
a` celle du coefficient de correlation de Spearman. On peut determiner la loi de n sous
H0 , appelee loi de Kendall.
Pour rendre la statistique de test plus facile a` interpreter, on pose n =

D
efinition 28 . Le test de Kendall est le test dechantillon base sur la statistique
n1
n
P P
4
11{Xi <Xj } 1. Plus precisement, on a :
n =
n(n 1) i=1 j=i+1


Test de H0 contre H1 (test de croissance) : W = n > kn,


Test de H0 contre H2 (test de decroissance) : W = n < kn,1
o`
u kn, est le quantile dordre 1 de la loi de Kendall de param`etre n.

s
Propri
et
e 31 . Sous H0 ,

9n(n 1)
L
n N (0, 1).
2(2n + 5)

En pratique, pour n 10, on utilise une table de quantiles de la loi de Kendall, et


pour n > 10, on utilise lapproximation normale.
Suivant les cas, le test de Kendall sera plus ou moins puissant que le test de Spearman.
2(n + 1)
, qui tend vers 1 quand n tend vers
On peut montrer que (RRI,n , n ) = p
2n(2n + 5)
linfini, ce qui signifie que, quand on a beaucoup de donnees, les deux tests sont equivalents.

9.2 Tests sur lesp


erance et la m
ediane

9.2

95

Tests sur lesp


erance et la m
ediane

Dans cette section, on suppose que les observations forment un echantillon, ce qui a
pu etre confirme par les tests de la section precedente. On peut alors vouloir effectuer des
tests dhypoth`eses sur les diverses caracteristiques de la loi de lechantillon.
Les tests les plus utilises portent sur la valeur de lesperance de lechantillon. On a vu
dans le chapitre 2 que le moyenne empirique X n est un excellent estimateur de E(X). Il
est donc logique de construire des tests sur lesperance `a partir de la moyenne empirique.
Mais comme on ne connait que la loi asymptotique de X n , seuls des tests asymptotiques
seront possibles.
Au lieu de faire porter les tests sur lesperance de la loi, il est aussi interessant de les
faire porter sur la mediane de cette loi. Il sav`ere quil est plus facile de construire des
tests sur la mediane que des tests sur lesperance a` partir des statistiques de rang. Par
ailleurs, esperance et mediane sont egales dans le cas des lois symetriques.

9.2.1

Tests asymptotiques sur lesp


erance

Les hypoth`eses des tests portant sur lesperance de lechantillon sont les suivantes :
H0 : E(X) = m

H1 : E(X) 6= m

H2 : E(X) m

H3 : E(X) m

Au chapitre 6, on a vu quun intervalle de confiance asymptotique de seuil pour


E(X) est :

Sn
Sn 
X n u , X n + u
n
n
Par consequent, pour tester H0 : E(X) = m contre H1 : E(X) 6= m au seuil , il
suffit de rejeter H0 si et seulement si m nest pas dans lintervalle de confiance ci-dessus.
On obtient comme region critique :

Sn
Sn  
Sn
Sn
= m < X n u ou m > X n + u
m
/ X n u , X n + u
n
n
n
n


Sn
Sn  X n m
= X n m < u ou X n m > +u
=
n > u .
Sn
n
n

W =

On peut verifier que cette region critique convient. On a vu que :


X n E(X) L
n
N (0, 1).
Sn
Xn m L
n
N (0, 1).
Sn
Xn m

 n
Alors PH0 (X1 , . . . , Xn ) W = PH0
n > u . La probabilite de
Sn
rejeter `a tort H0 est bien asymptotiquement egale `a .
Donc, sous H0 ,

96

Chapitre 9 - Tests non param


etriques sur un
echantillon

Intuitivement, on rejette lhypoth`ese E(X) = m si X n est significativement eloigne


de m, cest-`a-dire si |X n m| est trop grand.
Supposons maintenant que lon veuille tester H3 : E(X) m contre H2 : E(X) >
m. Lidee naturelle est de rejeter E(X)
m
u

si X n est significativement grand, do`
une region critique de la forme W = X n > k .
k est determine en ecrivant que le seuil du test est :
= sup P (X n > k ) =
H3

X n E(X) k E(X)
sup P ( n
> n
)
Sn
Sn
E(X)m


k E(X) 
1 n
, o`
u est la fonction
Sn
E(X)m
de repartition de la loi normale centree-reduite.
Donc asymptotiquement, =

sup

k E(X) 
n
est une fonction croissante
Sn
de E(X). Par consequent, son maximum quand E(X) m est atteint pour E(X) = m.
k m 
k m
= 1 (1 ) = u2 et
On en deduit que = 1 n
, do`
u n
Sn
Sn
u2 Sn
finalement k = m + .
n
est une fonction croissante, donc 1


u2 Sn
Le test de H3 contre H2 aura donc comme region critique W = X n > m +
,
n
Xn m

ce quon peut aussi ecrire sous la forme plus pratique W =
n > u2 .
Sn
Le test symetrique de H2 contre H3 setablit de la meme mani`ere et on obtient au
bout du compte la propriete suivante.
Propri
et
e 32 . Tests asymptotiques de seuil sur lesperance de lechantillon, parfois
appeles tests de Student :
Test de H3 : E(X) m contre H2 : E(X) > m : W =
Test de H2 : E(X) m contre H3 : E(X) < m : W =

Xn m

n > u2 .
Sn

Xn m

n < u2 .
Sn

 X n m

Test de H0 : E(X) = m contre H1 : E(X) 6= m : W =
n > u .
Sn
Linconvenient de ces tests est quils sont asymptotiques, donc ils ne sont pas valables
pour des echantillons de petite taille.
En pratique, on peut disposer de tests valables meme pour de petits echantillons,
`a condition de supposer en plus que la loi de lechantillon est symetrique. Le principe
est deffectuer des tests portant sur la mediane, puisque, quand la loi est symetrique, la
mediane q1/2 est egale a` lesperance E(X).

9.2 Tests sur lesp


erance et la m
ediane

9.2.2

97

Tests sur la m
ediane

Dans cette section, on va sinteresser `a des tests non parametriques portant sur la
mediane q1/2 . Quand la loi est symetrique, ces tests pourront etre consideres comme des
tests sur lesperance de lechantillon.
Les hypoth`eses des tests portant sur la mediane de lechantillon sont les suivantes :
H0 : q1/2 = m,

H1 : q1/2 6= m,

H2 : q1/2 m,

H3 : q1/2 m.

Sous H0 , il y a une chance sur deux quune observation soit inferieure `a m et une
chance sur deux quelle soit superieure a` m.
9.2.2.1. Le test du signe
Le principe de ce test est de considerer le nombre dobservations superieures `a m,
n
P
appele statistique du signe : Sn+ =
11{Xi >m} .
i=1

1
Sous H0 , puisque la probabilite quune observation soit superieure a` m est , Sn+ doit
2
n
+
+
etre proche de . Sous H2 , Sn doit etre grand et sous H3 , Sn doit etre petit. Sous
2
n
+
H1 , Sn doit etre eloigne de .
2

Propri
et
e 33 . Sn+ est de loi binomiale B(n, 1 F (m)). Sous H0 , Sn+ est de loi B n,

1
.
2

Demonstration. Sn+ est une somme


aleatoires independantes et de m
 de n variables
eme
+
loi de Bernouilli B P (Xi > m) . Donc Sn est de loi binomiale B n, P (Xi > m) =
 1
1
B(n, 1 F (m)). Sous H0 , F (m) = F q1/2 = , donc Sn+ est de loi B n, .

2
2
Pour tester H3 contre H2 , on prendra logiquement une region critique de la forme
W = {Sn+ > k }. k est determine en ecrivant :
=
=

sup P (Sn+
H3
n
X
i=bk c+1


> k ) = sup

Cni


 (k ) = 1 F

1F

q1/2 m

 1 i 
1 ni
1
1
= n
2
2
2

B n,1F (m)
n
X

B n, 21

 (k )

Cni .

i=bk c+1

Le probl`eme est que la fonction de repartition de la loi binomiale nest pas inversible.
Donc il nest pas forcement possible, pour un donne, de trouver k verifiant lequation
ci-dessus. Cela signifie quon ne peut effectuer le test que pour quelques valeurs de bien
determinees.

98

Chapitre 9 - Tests non param


etriques sur un
echantillon

Ce probl`eme se resoud quand n est grand en utilisant lapproximation de la loi binon n


1
par la loi normale N , . On a en fait, sous H0 :
miale B n,
2
2 4
n
Sn+
2Sn+ n L
r 2 =
N (0, 1).
n
n
4
Alors, en reprenant le calcul precedent, on a, asymptotiquement :
2k n
2k n 
2Sn+ n

>
)=1
n
n
n

2k n
n + nu2
1
do`
u
= (1 ) = u2 et k =
.
2
n

 +
n + nu2
Le test de H3 contre H2 aura donc comme region critique W = Sn >
,
2

 2Sn+ n

> u2 .
ce quon peut aussi ecrire sous la forme plus pratique W =
n
Finalement, on obtient :
= PH0 (Sn+ > k ) = PH0

D
efinition 29 . Le test du signe est le test sur la mediane base sur la statistique
n
X
11{Xi >m} . Plus precisement, on a, asymptotiquement :
Sn+ =
i=1


2Sn+ n

> m : W =
> u2 .
n
 +

2Sn n

< m : W =
< u2 .
n

 +

2Sn n


> u .
6= m : W =
n


Test de H3 : q1/2 m contre H2 : q1/2


Test de H2 : q1/2 m contre H3 : q1/2
Test de H0 : q1/2 = m contre H1 : q1/2

En pratique, on admet que lapproximation normale est valide d`es que n > 10.
9.2.2.2. Le test des rangs sign
es de Wilcoxon
Dans cette section, on suppose que m = 0. Il est possible de generaliser a` m quelconque.
D
efinition 30 Le vecteur des rangs sign
es associe `a lechantillon (X1 , . . . , Xn ) est le
+
+
+
vecteur R = (R1 , . . . , Rn ) defini par :
i {1, . . . , n},

Ri+

= 1+

n
X

11{|Xj |<|Xi |}

j=1

rang de |Xi | dans la suite |X1 | , . . . , |Xn |

9.2 Tests sur lesp


erance et la m
ediane

99

Les rangs signes Ri+ sont aux |Xi | ce que les rangs Ri sont aux Xi .
Exemple : n = 5.
xi
xi
ri
|xi |
|xi |
ri+

2.3 -3.5 1.7 0.5 -1.4


-3.5 -1.4 0.5 1.7 2.3
5
1
4
3
2
2.3 3.5 1.7 0.5 1.4
0.5 1.4 1.7 2.3 3.5
4
5
3
1
2

D
efinition 31 . Le test des rangs sign
es de Wilcoxon est le test de nullite de la
mediane base sur la somme des rangs signes des observations strictement positives, appele
n
P
statistique des rangs sign
es de Wilcoxon : Wn+ =
Ri+ 11{Xi >0} .
i=1

Lidee est que, sous H2 : q1/2 > 0, il y aura plus de Xi positifs que de Xi negatifs,
et que les valeurs absolues des Xi positifs seront dans lensemble plus grandes que les
valeurs absolues des Xi negatifs. Donc, sous H2 , Wn+ sera grand. Reciproquement, sous
H3 , Wn+ sera petit.
Propri
et
e 34 .

n(n + 1)
Wn+ est `a valeurs dans 0, . . . ,
.
2
X
Wn+ =
11{Xi +Xj >0} .
1ijn

Wn+ =

11{Xi +Xj >0} + Sn+ .

1i<jn

Sous H0 , E(Wn+ ) =

n(n + 1)
n(n + 1)(2n + 1)
et V ar(Wn+ ) =
.
4
24

n(n + 1)
Wn+
L
4
Sous H0 , r
N (0, 1).
n(n + 1)(2n + 1)
24
En pratique, pour n 15, on utilise une table de la loi de Wn+ sous H0 . Pour n > 15,
on utilise lapproximation gaussienne.
On montre que le test des rangs signes est plus puissant que le test du signe. De plus,
il est utilisable sans probl`emes meme pour les tr`es petits echantillons. Donc il est conseille
dutiliser le test des rangs signes plutot que le test du signe.

100

Chapitre 9 - Tests non param


etriques sur un
echantillon

Chapitre 10
Tests non param
etriques sur
plusieurs
echantillons
Dans ce chapitre, on suppose que lon dispose de plusieurs echantillons, que lon souhaite comparer. Par exemple, il peut sagir des resultats de lapplication de plusieurs
traitements dune meme maladie `a plusieurs groupes de malades. Il est important de
determiner si les traitements ont des efficacites comparables ou si lun sav`ere plus efficace que les autres. Mathematiquement, cela revient a` comparer les lois de probabilite
de chaque echantillon. Dans un contexte parametrique, on dispose pour cela de methodes
bien connues comme lanalyse de variance. On sinteressera dans ce chapitre a` un point
de vue non parametrique sur ce probl`eme.
La situation de base est la comparaison de deux echantillons independants, notes
X1 , . . . , Xn1 et Y1 , . . . , Yn2 . Les Xi sont supposes independants et de meme loi, de fonction
de repartition F inconnue, et les Yj sont supposes independants et de meme loi, de fonction
de repartition G inconnue. Tester lhypoth`ese que les deux echantillons sont issus de la
meme loi de probabilite, cest tester :
H0 : F = G contre H1 : F 6= G.
Mais on peut aussi sinteresser aux hypoth`eses :
H2 : F > G, qui signifie que les Xi sont stochastiquement inferieurs aux Yj .
H3 : F < G, qui signifie que les Xi sont stochastiquement superieurs aux Yj .
Cest ce genre dhypoth`eses que lon utilisera si on cherche a` determiner si un traitement est plus efficace quun autre.
Pour pouvoir utiliser les proprietes des statistiques de rang, on se contentera detudier
le cas o`
u les lois des echantillons sont continues.

10.1

Test de Kolmogorov-Smirnov

Si les deux echantillons proviennent de la meme loi, ils ont la meme fonction de
repartition, donc leurs fonctions de repartition empiriques IFn1 et Gn2 doivent etre tr`es
proches. Le test de Kolmogorov-Smirnov
consiste `a rejeter H0 : F = G si et seulement



si Dn1 ,n2 = sup IFn1 (x) Gn2 (x) est trop grand.
xIR

102

Chapitre 10 - Tests non param


etriques sur plusieurs
echantillons
r

n1 n2
Dn ,n a une loi
n1 + n2 1 2
de probabilite qui ne depend pas de F et converge en loi vers la loi de Kolmogorov-Smirnov.
Donc le test de comparaison dechantillon resultant est similaire au test dadequation de
Kolmogorov-Smirnov.
Si n1 = n2 = m, la loi de Dm,m sous H0 est tr`es simple et a une expression explicite
meme pour m fini :
On montre alors que, sous H0 , la variable aleatoire Kn1 ,n2 =



bm/kc
X
(m!)2
k
=2
(1)j+1
k IN, P Dm,m
m
(m jk)!(m + jk)!
i=1

10.2

Tests de rang

Pour un seul echantillon, on a utilise le fait que le vecteur des rangs a une loi de
probabilite independante de la loi de lechantillon (loi uniforme sur lensemble n des
permutations des entiers de 1 a` n). Dans le cas de deux echantillons, on a une propriete
equivalente.
Th
eor`
eme 21 . Soient S et R les vecteurs des rangs respectifs de (X1 , . . . , Xn1 ) et
(Y1 , . . . , Yn2 ) lorsque ces n = n1 + n2 variables aleatoires sont ordonnees toutes ensemble.
Alors, sous H0 : F = G, on a :
(S, R) est de loi uniforme sur n .
n2 !
.
n!
n1 !
.
r = (r1 , . . . , rn2 ), {r1 , . . . , rn2 } {1, . . . , n}, P (R = r) =
n!
s = (s1 , . . . , sn1 ), {s1 , . . . , sn1 } {1, . . . , n}, P (S = s) =

Demonstration. Si F = G, X1 , . . . , Xn1 , Y1 , . . . , Yn2 est un echantillon de taille n de la loi


de fonction de repartition F et (S, R) est son vecteur des rangs. (S, R) est donc de loi
1
uniforme sur n , ce qui signifie que (s, r) n , P (S = s R = r) = .
n!
P
1
Alors, P (S = s) =
P (S = s R = r) =
nombre de vecteurs r possibles.
n!
r
Puisque les rangs des Xi sont determines par s, il reste `a choisir les rangs des n2 Yj .
n2 !
Il y a n2 ! possibilites pour cela. On obtient donc P (S = s) =
et symetriquement
n!
n1 !
P (R = r) =
.

n!
Puisque la loi de (S, R) ne depend pas de F sous H0 , on pourra construire des tests
de H0 contre H1 a` partir de statistiques ne dependant que de (S, R). De tels tests et
statistiques sappellent tests de rang et statistiques de rang.

10.2.1

Le test de la m
ediane

Lidee de ce test est que, si les Xi sont stochastiquement inferieurs aux Yj , alors les
rangs des Xi dans lechantillon complet (les Si ) seront dans lensemble inferieurs aux rangs

10.2 Tests de rang

103

des Yj (les Rj ). En particulier, les Yj seront dans lensemble superieurs `a la mediane de


lechantillon complet, ou bien les rangs des Yj seront dans lensemble superieurs au rang
n+1
median de lechantillon complet, qui vaut
. Do`
u:
2
D
efinition 32 . La statistique de la m
ediane Mn1 ,n2 est le nombre dobservations du
deuxi`eme echantillon strictement superieures `a la mediane de lechantillon complet :
Mn1 ,n2 =

n2
X

11{Rj > n+1 }


2

j=1

Sous H2 , Mn1 ,n2 doit etre grand, sous H3 , Mn1 ,n2 doit etre petit, et sous H0 , Mn1 ,n2
doit etre ni grand, ni petit.
Propri
et
e 35 . Sous H0 , Mn1 ,n2 est de loi hypergeometrique :

n
H n, n2 ,
si n est pair.
2


n1
H n, n2 ,
si n est impair.
2
Demonstration. Rappelons quune variable aleatoire K est de loi hypergeometrique H(N,
m, n) si et seulement si on est dans la situation suivante : on a N objets dont m ont une
certaine caracteristique ; on tire n objets sans remise parmi ces N ; K represente alors le
nombre dobjets possedant la caracteristique en question parmi les n tires.
Ici, on a n observations parmi lesquelles n2 sont des Yj et Mn1 ,n2 represente le nombre
de Yj parmi les observations strictement superieures `a la mediane. Celles-ci sont au nombre
n1
n
de si n est pair et
si n est impair.

2
2
Connaissant lesperance et la variance de la loi hypergeometrique, on peut en deduire
celles de la statistique de la mediane sous H0 . Un argument de type theor`eme central-limite
permet den deduire la loi asymptotique de Mn1 ,n2 sous H0 .
Propri
et
e 36 . Sous H0 ,

2Mn1 ,n2 n2 L
n N (0, 1).

n1 n2

Finalement, on a :
D
efinition 33 : Le test de la m
ediane est le test de comparaison de deux echantillons
n2
P
base sur la statistique de la mediane Mn1 ,n2 =
11{Rj > n+1 } .
j=1

Les regions critiques des differents tests possibles sont etablis `a laide des quantiles des
lois hypergeometrique ou normale. En pratique, on consid`ere que lapproximation normale
est valide si n1 8 et n2 8.

104

10.2.2

Chapitre 10 - Tests non param


etriques sur plusieurs
echantillons

Le test de Wilcoxon-Mann-Whitney

Le principe de ce test est similaire `a celui du test de la mediane : si les Yj sont dans
lensemble superieurs aux Xi , alors les rangs Rj des Yj seront dans lensemble superieurs
aux rangs Si des Xi dans lechantillon complet.
D
efinition 34 : La statistique de Wilcoxon Wn1 ,n2 est la somme des rangs des observations du deuxi`eme echantillon dans lechantillon complet :
Wn1 ,n2 =

n2
X

Rj .

j=1

n2
P

n2 (n2 + 1)
.
2
j=1
n1P
+n2
n2 (n2 + 1)
Inversement, si les Yj sont tous superieurs aux Xi , Wn1 ,n2 =
j=
+ n1 n2 .
2
j=n1 +1
Sous H0 , le melange des deux echantillons est homog`ene, donc Wn1 ,n2 devrait etre de
n2 (n2 + 1) n1 n2
n2 (n + 1)
lordre de
+
=
.
2
2
2
Par consequent, sous H2 , Wn1 ,n2 doit etre grand, sous H3 , Wn1 ,n2 doit etre petit,
n2 (n + 1)
.
et sous H0 , Wn1 ,n2 doit etre proche de
2
Dans le cas extreme o`
u les Yj sont tous inferieurs aux Xi , Wn1 ,n2 =

j=

D
efinition 35 . Le test de Wilcoxon est le test de comparaison de deux echantillons
base sur la statistique de Wilcoxon.

Propri
et
e 37 . Sous H0 ,

2Wn1 ,n2 (n + 1)n2 L


p
3 N (0, 1).
(n + 1)n1 n2

Quand n est petit, on utilise des tables de la loi de la statistique de Wilcoxon sous H0 .
En pratique, on consid`ere que lapproximation normale est valide si n1 8 et n2 8.
On peut aborder le probl`eme differemment, en remarquant que, sous H0 , comme les
1
Xi et les Yj sont independants et de meme loi, on a (i, j), P (Xi Yj ) = .
2
D
efinition 36 . La statistique de Mann-Whitney est le nombre de couples (i, j) tels
que Xi Yj :
n1 X
n2
X
Un1 ,n2 =
11{Xi Yj } .
i=1 j=1

Sous H0 , Un1 ,n2 doit etre de lordre de la moitie des couples (Xi , Yj ) possibles, `a savoir
n1 n2
. Sous H2 , Un1 ,n2 doit etre grand, et sous H3 , Un1 ,n2 doit etre petit.
2

10.2 Tests de rang

105

D
efinition 37 . Le test de Mann-Whitney est le test de comparaison de deux echantillons
base sur la statistique de Mann-Whitney.

2Un ,n n1 n2 L
Propri
et
e 38 . Sous H0 , p 1 2
3 N (0, 1).
(n + 1)n1 n2
La condition de validite de lapproximation normale est la meme que pour les tests
precedents : n1 8 et n2 8.
Propri
et
e 39 . Un1 ,n2 = Wn1 ,n2

n2 (n2 + 1)
.
2

Cette propriete a pour consequence que les tests de Mann-Whitney et Wilcoxon sont en
fait equivalents, au sens o`
u ils donneront exactement la meme reponse. Cest pourquoi on
peut utiliser indifferemment lun ou lautre, en leur donnant le nom de test de WilcoxonMann-Whitney.
On montre que ce test est globalement plus puissant que le test de KolmogorovSmirnov et le test de la mediane.

10.2.3

Le test de Kruskal-Wallis

Apr`es avoir compare deux echantillons, on souhaite maintenant comparer k echantillons,


avec k > 2. Pour i allant de 1 `a k, le i`eme echantillon est note X1i , . . . , Xni i . Le nombre
k
P
total dobservations est n =
ni .
i=1

Des hypoth`eses comparables a` F > G ne sont plus possibles quand on a plus de


deux echantillons. Aussi on se contentera de tester :
H0 : Les k echantillons sont de meme loi contre H1 = H 0 .
Pour cela, on ordonne lensemble des n observations et on note :
Rji = rang de Xji dans lechantillon global.
i

R =

ni
X

Rji = somme des rangs des observations du i`eme echantillon dans lechantillon

j=1

global.
D
efinition 38 . Le test de Kruskal-Wallis est le test de comparaison de k echantillons
base sur la statistique de Kruskal-Wallis :
k

X Ri
12
3(n + 1)
Kn =
n(n + 1) i=1 ni

106

Chapitre 10 - Tests non param


etriques sur plusieurs
echantillons
L

Propri
et
e 40 . Sous H0 , Kn 2k1 .
En pratique, lapproximation par la loi du 2 est valide d`es quil y a au moins 5
observations par echantillon.
Le test de Kruskal-Wallis consiste a` rejeter lhypoth`ese degalite des k lois si Kn
est trop grand. Si lapproximation du 2 est valide, la region critique du test sera
W = {Kn > zk1, }, o`
u zk1, est le quantile dordre 1 de la loi 2k1 .

Chapitre 11
Annexe A : Rappels de probabilit
es
pour la statistique
Cette annexe rappelle quelques resultats de base du calcul des probabilites utiles pour
la statistique. Les notions sont presentees sans aucune demonstration. Les details sont a`
aller chercher dans le cours de Probabilites Appliquees de premi`ere annee.

11.1

Variables al
eatoires r
eelles

11.1.1

Loi de probabilit
e dune variable al
eatoire

Mathematiquement, une variable aleatoire est definie comme une application mesurable. On se contentera ici de la conception intuitive suivante.
Une variable al
eatoire est une grandeur dependant du resultat dune experience
aleatoire, cest-`a-dire non previsible a` lavance avec certitude. Par exemple, on peut dire
que la duree de vie dune ampoule electrique ou le resultat du lancer dun de sont des
variables aleatoires. Pour une experience donnee, ces grandeurs prendront une valeur
donnee, appelee realisation de la variable aleatoire. Si on recommence lexperience, on
obtiendra une realisation differente de la meme variable aleatoire.
On ne sinteresse ici quaux variables al
eatoires r
eelles, cest-`a-dire a` valeurs dans
IR ou un sous-ensemble de IR. On note traditionnellement une variable aleatoire par une
lettre majuscule (X) et sa realisation par une lettre minuscule (x).
Le calcul des probabilites va permettre de calculer des grandeurs comme la duree de vie
moyenne dune ampoule ou la probabilite dobtenir un 6 en lancant le de. Ces grandeurs
sont determinees par la loi de probabilit
e de ces variables aleatoires.
Il y a plusieurs moyens de caracteriser la loi de probabilite dune variable aleatoire. La
plus simple est la fonction de repartition.
On appelle fonction de r
epartition de la variable aleatoire X la fonction
FX : IR [0, 1]
x 7 FX (x) = P (X x)
FX est croissante, continue a` droite, telle que lim FX (x) = 0 et lim FX (x) = 1.
x

x+

Elle permet de calculer la probabilite que X appartienne `a nimporte quel intervalle de


IR :

108

Chapitre 11 - Annexe A : Rappels de probabilit


es pour la statistique

(a, b) IR2 , a < b, P (a < X b) = FX (b) FX (a)


Les variables aleatoires peuvent etre classees selon le type densemble dans lequel elles
prennent leurs valeurs. Dans la pratique, on ne sinteressera qu`a deux categories : les
variables aleatoires discr`etes et les variables aleatoires continues (ou a` densite).

11.1.2

Variables al
eatoires discr`
etes et continues

Une variable al
eatoire X est dite discr`
ete (v.a.d.) si et seulement si elle est a`
valeurs dans un ensemble E fini ou denombrable. On peut noter E = {x1 , x2 , ...}.
Exemples :
Face obtenue lors du lancer dun de : E = {1, 2, 3, 4, 5, 6}.
Nombre de bugs dans un programme : E = IN.
La loi de probabilite dune v.a.d. X est enti`erement determinee par les probabilites
elementaires P (X = xi ), xi E.
P
La fonction de repartition de X est alors FX (x) = P (X x) =
P (X = xi ).
xi x

Une variable al
eatoire X est dite continue (v.a.c.) si et seulement si sa fonction de
repartition FX est continue et presque partout derivable. Sa derivee fX est alors appelee
densite de probabilite de X, ou plus simplement densit
e de X. Une v.a.c. est forcement
a` valeurs dans un ensemble non denombrable.
Exemples :
Appel de la fonction Random dune calculatrice : E = [0, 1].
Duree de bon fonctionnement dun syst`eme : E = IR+ .
Rb
On a alors (a, b) IR2 , a < b, P (a < X b) = FX (b) FX (a) = a fX (x) dx.
R
Plus generalement, B IR, P (X B) = B fX (x) dx. Donc la densite determine
enti`erement la loi de probabilite de X.
R +
fX est une fonction positive telle que fX (x) dx = P (X IR) = 1.
Connaissant la loi de X, on est souvent amenes `a determiner celle de Y = (X). Quand
X est discr`ete, il suffit decrire P (Y = y) = P ((X) = y). Si est inversible, on obtient
P (Y = y) = P (X = 1 (y)). Quand X est continue, on commence par determiner la
fonction de repartition de Y en ecrivant FY (y) = P (Y y) = P ((X) y), puis on
en deduit sa densite par derivation. Quand est inversible, on obtient la formule du
changement de variable :
fY (y) =

|0

fX
(1 (y))|


1 (y)

Remarque : Il existe des lois de probabilite de variables aleatoires reelles qui ne sont ni
discr`etes ni continues. Par exemple, si X est la duree de bon fonctionnement dun syst`eme
qui a une probabilite non nulle p detre en panne a` linstant initial, on a lim FX (x) = 0
x0

11.1 Variables al
eatoires r
eelles

109

(une duree ne peut pas etre negative) et FX (0) = P (X 0) = P (X = 0) = p. Par


consequent FX nest pas continue en 0. La loi de X ne peut donc pas etre continue, et elle
nest pas non plus discr`ete puisquelle est `a valeurs dans IR+ . Ce type de variable aleatoire
ne sera pas etudie dans ce cours.

11.1.3

Moments et quantiles dune variable al


eatoire r
eelle

Si X est une variable aleatoire discr`ete, son esp


erance math
ematique est definie
par :
X
E(X) =
xi P (X = xi )
xi E

Si X est une variable aleatoire continue, son esperance mathematique est definie par :
Z

E(X) =

xfX (x) dx

Concr`etement, E(X) est ce quon sattend a` trouver comme moyenne des resultats
obtenus si on rep`ete lexperience un grand nombre de fois. Par exemple, si on lance une
pi`ece de monnaie 10 fois, on sattend a` trouver en moyenne 5 piles.
Plus generalement, on peut sinteresser a` lesperance mathematique dune fonction de
X :
P
Si X est une v.a.d., E [(X)] =
(xi )P (X = xi ).
xi E

Si X est une v.a.c., E [(X)] =

R +

(x)fX (x) dx.

Ce resultat permet de calculer lesperance de (X) sans avoir a` determiner enti`erement


sa loi.
Deux esperances de ce type sont particuli`erement utiles :
 X
Si
X
est
une
v.a.d.,
sa
fonction
g
e
n
e
ratrice
est
d
e
finie
par
G
(z)
=
E
z
=
X
P xi
z P (X = xi ).
xi E



Si X est une v.a.c., sa fonction caract
eristique est definie par X (t) = E eitX =
R + itx
e fX (x) dx.

Au meme titre que la fonction de repartition et la densite, les fonctions generatrices


et caracteristiques definissent enti`erement les lois de probabilite concernees.
 
Soit k un entier naturel quelconque.
Le moment
dordre k de X est E X k et le
h
i
moment centr
e dordre k est E (X E(X))k .
De tous les moments, le plus important estle moment centr
e dordre 2, appele aussi
2
variance. La variance de X est V ar(X) = E (X E(X)) , qui se calcule plus facilement sous la forme V ar(X) = E (X 2 ) [E(X)]2 .
p
L
ecart-type de X est (X) = V ar(X).

110

Chapitre 11 - Annexe A : Rappels de probabilit


es pour la statistique

La variance et lecart-type sont des indicateurs de la dispersion de X : plus la variance


de X est petite, plus les realisations de X seront concentrees autour de son esperance.
(X)
. Cest egalement un indiE(X)
cateur de dispersion, dont lavantage est detre sans dimension. Il permet de comparer
les dispersions de variables aleatoires dordres de grandeur differents ou exprimees dans
des unites differentes. En pratique, on consid`ere que, quand CV (X) est inferieur `a 15%,
lesperance peut etre consideree comme un bon resume de la loi.
Le coefficient de variation de X est CV (X) =

Soit p ]0, 1[. Le quantile dordre p (ou p-quantile) de la loi de X est tout reel qp
verifiant P (X < qp ) p P (X qp ).
Si F est continue et strictement croissante (donc inversible), on a simplement P (X <
qp ) = P (X qp ) = FX (qp ) = p, do`
u qp = FX1 (p).
Si FX est constante egale a` p sur un intervalle [a, b], nimporte quel reel de [a, b] est
un quantile dordre p. En general, on choisit de prendre le milieu de lintervalle :
a+b
.
qp =
2
Si FX est discontinue en q et telle que lim FX (x) < p FX (q), alors qp = q.
xq

Les tables fournies donnent les quantiles les plus usuels des lois normale, du chi-deux,
de Student et de Fisher-Snedecor.

11.2

Vecteurs al
eatoires r
eels

On ne sinteressera ici quaux vecteurs aleatoires (X1 , . . . , Xn ) constitues de n variables


aleatoires reelles toutes discr`etes ou toutes continues.

11.2.1

Loi de probabilit
e dun vecteur al
eatoire

La loi dun vecteur aleatoire (X1 , . . . , Xn ) est determinee par sa fonction de repartition :
F(X1 ,...,Xn ) (x1 , . . . , xn ) = P (X1 x1 , . . . , Xn xn )
Si les Xi sont discr`etes, cette loi est aussi determinee par les probabilites elementaires
P (X1 = x1 , . . . , Xn = xn ).
Si les Xi sont continues, la densite de (X1 , . . . , Xn ) est definie, si elle existe, par :
n
f(X1 ,...,Xn ) (x1 , . . . , xn ) =
F(X1 ,...,Xn ) (x1 , . . . , xn )
x1 ...xn
R
R
On a alors B IRn , P ((X1 , . . . , Xn ) B) = . . . B f(X1 ,...,Xn ) (x1 , . . . , xn ) dx1 ...dxn .
Les variables aleatoires X1 , . . . , Xn sont (mutuellement) ind
ependantes si et seulement si :
n
Y
F(X1 ,...,Xn ) (x1 , . . . , xn ) =
P (Xi xi )
i=1

11.2 Vecteurs al
eatoires r
eels

111

Pour des variables discr`etes cela donne P (X1 = x1 , . . . , Xn = xn ) =


Et pour des variables continues, f(X1 ,...,Xn ) (x1 , . . . , xn ) =

n
Q

n
Q

P (Xi = xi ).

i=1

fXi (xi ).

i=1

Concr`etement, lindependance signifie que la valeur prise par lune des variables na
aucune influence sur la valeur prise par les autres.

11.2.2

Esp
erance et matrice de covariance dun vecteur al
eatoire

Lesp
erance math
ematique dun vecteur aleatoire est le vecteur des esperances
mathematiques de ses composantes : E [(X1 , . . . , Xn )] = (E[X1 ], . . . , E[Xn ]).
Lequivalent de la variance en dimension n est la matrice de covariance du vecteur
(X1 , . . . , Xn ), notee K(X1 ,...,Xn ) ou K, dont les coefficients sont donnes par
kij = Cov(Xi , Xj ), (i, j) {1, ..., n}2
Cov(Xi , Xj ) est la covariance des variables aleatoires Xi et Xj et est definie par :
Cov(Xi , Xj ) = E [(Xi E(Xi )) (Xj E(Xj ))] = E(Xi Xj ) E(Xi )E(Xj )
Pour i = j, Cov(Xi , Xi ) = E (Xi2 ) [E(Xi )]2 = V ar(Xi ).
Pour i 6= j, la covariance de Xi et Xj traduit le degre de correlation entre ces deux
variables. En particulier, si Xi et Xj sont independantes, Cov(Xi , Xj ) = 0 (mais la
reciproque est fausse). Par consequent, si X1 , . . . , Xn sont independantes, leur matrice
de covariance K est diagonale.
Le coefficient de corr
elation lin
eaire entre Xi et Xj est (Xi , Xj ) =

Cov(Xi , Xj )
.
(Xi )(Xj )

On montre que :
(Xi , Xj ) [1, +1].
(Xi , Xj ) = +1 Xi = aXj + b, avec a > 0 et b IR.
(Xi , Xj ) = 1 Xi = aXj + b, avec a > 0 et b IR.
si (Xi , Xj ) > 0, Xi et Xj sont correlees positivement, ce qui signifie quelles varient
dans le meme sens. Par exemple, Xi et Xj peuvent etre la taille et le poids dindividus
pris au hasard.
si (Xi , Xj ) < 0, Xi et Xj sont correlees negativement, ce qui signifie quelles varient
en sens contraire. Par exemple, Xi et Xj peuvent etre lage et la resistance dun
materiau.
si (Xi , Xj ) = 0, il ny a pas de correlation lineaire entre Xi et Xj . Cela ne signifie
pas que Xi et Xj sont independantes. Il peut eventuellement y avoir une correlation
non lineaire.
Lesperance mathematique est lineaire : si X et Y sont des variables aleatoires et a, b
et c des reels, alors E(aX + bY + c) = aE(X) + bE(Y ) + c.

112

Chapitre 11 - Annexe A : Rappels de probabilit


es pour la statistique

En revanche, la variance nest pas lineaire : si X et Y sont des variables aleatoires et


a, b et c des reels, alors V ar(aX + bY + c) = a2 V ar(X) + 2abCov(X, Y ) + b2 V ar(Y ).
Si X et Y sont independantes, Cov(Xi , Xj ) = 0, donc V ar(aX +bY +c) = a2 V ar(X)+
2
b V ar(Y ). En particulier, la variance de la somme de variables aleatoires independantes
est egale `a la somme des variances de ces variables. Mais ce resultat est faux si les variables
ne sont pas independantes.

11.3

Convergences et applications

Deux des resultats les plus importants des probabilites sont le theor`eme central-limite
et la loi des grands nombres. Ces resultats necessitent dutiliser la notion de convergence
dune suite de variables aleatoires.
Une suite de variables aleatoires {Xn }n1 converge en loi vers la loi de probabilite
de fonction de repartition F si et seulement si lim FXn (x) = F (x) en tout point x o`
u
n
F est continue. Cela signifie que, quand n est grand, la loi de probabilite de Xn est
approximativement la loi de fonction de repartition F .
Th
eor`
eme Central-Limite : Soit {Xn }n1 une suite de variables al
eatoires reelles indep
pendantes et de meme loi, desperance E(X) et decart-type (X) = V ar(X) finis. Pour
tout n 1, on pose :
n
X

Zn =

Xi nE(X)

i=1

nV ar(X)

n E(X)
X
n
(X)

Alors la suite {Zn }n1 converge en loi vers la loi normale centree-reduite, ce qui secrit :
n E(X) L
X
n
N (0, 1)
(X)
Concr`etement, cela signifie que la loi de toute variable aleatoire egale a` la somme
dun nombre suffisamment grand de variables aleatoires independantes et de meme
n
P
loi est approximativement une loi normale. Plus precisement, pour n grand,
Xi est
i=1

approximativement de loi N (nE(X), nV ar(X)). Ce qui est remarquable, cest que ce


resultat est vrai quelle que soit la loi des Xi .
De tr`es nombreux phenom`enes naturels sont la resultante dun grand nombre de phenom`enes elementaires identiques, independants et additifs ce qui justifie limportance (et le
nom) de la loi normale.
La plus forte des convergences de suites de variables aleatoires est la convergence
presque s
ure. Ce concept necessite davoir defini une variable aleatoire comme une application mesurable dun espace probabilise dans un autre. Une suite de variables aleatoires
{Xn
urement vers la variable aleatoire X si et seulement si
n }n1 converge presque
o s
P
; lim Xn () = X()
= 1.
n

Une suite de variables aleatoires {Xn }n1 converge en probabilit


e vers la variable
aleatoire X si et seulement si > 0, lim P (|Xn X| > ) = 0.
n

11.4 Quelques r
esultats sur quelques lois de probabilit
e usuelles

113

On montre que la convergence presque s


ure entrane la convergence en probabilite, qui
elle-meme entrane la convergence en loi.
Loi forte des grands nombres : Soit {Xn }n1 une suite de variables aleatoires reelles
n
n = 1 P Xi . Alors la suite
independantes et de meme loi, desperance E(X). Soit X
n i=1

{Xn }n1 converge presque s


urement vers E(X), ce qui secrit :
ps
n
X
E(X)

Concr`etement, cela signifie que quand on fait un tr`es grand nombre dexperiences
identiques et independantes, la moyenne des realisations de la variable aleatoire a` laquelle
on sinteresse tend vers lesperance de sa loi. Ce resultat permet de justifier lidee naturelle
destimer une esperance par une moyenne et une probabilite par une proportion.
En fait, la convergence la plus utile en statistique est la convergence en moyenne
quadratique ou dans L2 . L2 est lensemble des variables aleatoires reelles X telles que
E (X 2 ) < . Une suite de variables aleatoires {Xn }n1 de L2 converge en moyenne
quadratique vers la variable aleatoire X si et seulement si lim E |Xn X|2 = 0.
n

On montre que la convergence en moyenne quadratique entrane la convergence en


probabilite, qui elle-meme entrane la convergence en loi. Mais il ny a pas de lien entre
la convergence en moyenne quadratique et la convergence presque s
ure.

11.4

Quelques r
esultats sur quelques lois de probabilit
e usuelles

Les tables de lois de probabilite fournies donnent notamment, pour les lois les plus
usuelles, les probabilites elementaires ou la densite, lesperance, la variance, et la fonction generatrice ou la fonction caracteristique. On presente dans cette section quelques
proprietes supplementaires de quelques unes de ces lois.

11.4.1

Loi binomiale

Une variable aleatoire K est de loi binomiale B(n, p) si et seulement si elle est a` valeurs
dans {0, 1, ..., n} et P (K = k) = Cnk pk (1 p)nk .
Le nombre de fois o`
u, en n experiences identiques et independantes, un ev`enement de
probabilite p sest produit, est une variable aleatoire de loi B(n, p).
La loi de Bernoulli B(p) est la loi B(1, p).
Si X1 , . . . , Xn sont independantes et de meme loi B(m, p), alors

n
P

Xi est de loi

i=1

B(nm, p). En particulier, la somme de n v.a. independantes et de meme loi B(p) est
de loi B(n, p).

114

11.4.2

Chapitre 11 - Annexe A : Rappels de probabilit


es pour la statistique

Loi g
eom
etrique

Une variable aleatoire K est de loi geometrique G(p) si et seulement si elle est a` valeurs
dans IN et P (K = k) = p (1 p)k1 .
Dans une suite dexperiences identiques et independantes, le nombre dexperiences
necessaires pour que se produise pour la premi`ere fois un ev`enement de probabilite p, est
une variable aleatoire de loi G(p).
Si X1 , . . . , Xn sont independantes et de meme loi G(p), alors

n
P

Xi est de loi binomiale

i=1

negative BN (n, p).

11.4.3

Loi de Poisson

Une variable aleatoire K est de loi de Poisson P() si et seulement si elle est a` valeurs
k
dans IN et P (K = k) = e .
k!
Pour n 50 et p 0.1, la loi binomiale B(n, p) peut etre approchee par la loi de
Poisson P(np). On dit que la loi de Poisson est la loi des ev`enements rares : loi du nombre
de fois o`
u un evenement de probabilite tr`es faible se produit au cours dun tr`es grand
nombre dexperiences identiques et independantes.
n
P
Si X1 , . . . , Xn sont independantes et de meme loi P(), alors
Xi est de loi P(n).
i=1

11.4.4

Loi exponentielle

Une variable aleatoire X est de loi exponentielle exp() si et seulement si elle est a`
valeurs dans IR+ et fX (x) = ex .
2

La loi exponentielle est dite sans memoire : (t, x) IR+ , P (X > t + x|X > t) =
P (X > x).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), alors

n
P

Xi est de loi gamma

i=1

G(n, ).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), et representent les durees
entre occurrences successives dun meme evenement, alors le nombre dev`enements survenus sur une periode de longueur t est une variable aleatoire de loi de Poisson P(t).

11.4.5

Loi gamma et loi du chi-2

Une variable aleatoire X est de loi gamma G(a, ) si et seulement si elle est a` valeurs
a x a1
e x . Les proprietes de la fonction gamma sont rappelees
dans IR+ et fX (x) =
(a)
sur les tables.
La loi G(1, ) est la loi exp().

11.4 Quelques r
esultats sur quelques lois de probabilit
e usuelles

La loi G

n 1
,
2 2

115

est appelee loi du chi-2 a` n degres de liberte, notee 2n .




.
Si X est de loi G(a, ) et est un reel strictement positif, alors X est de loi G a,

Si X et Y sont des variables aleatoires independantes de lois respectives G(, ) et


G(, ), alors X + Y est de loi G( + , ). En particulier, si X et Y sont independantes
et de lois respectives 2n et 2m , alors X + Y est de loi 2n+m .

11.4.6

Loi normale

Une variable aleatoire X est de loi normale N (m, 2 ) si et seulement si elle est a`
(x m)2

1
2 2 .
valeurs dans IR et fX (x) = e
2
Si X est de loi N (m, 2 ), alors aX + b est de loi N (am + b, a2 2 ). En particulier,
X m
est de loi N (0, 1).

P (X [m , m + ]) = 68.3%.

P (X [m 2, m + 2]) = 95.4%.

P (X [m 3, m + 3]) = 99.7%.
Si X est de loi N (0, 1), alors X 2 est de loi 21 .
Si (X1 , X2 ) est un vecteur gaussien tel que X1 est de loi N (m1 , 12 ) et X2 est de loi
N (m2 , 22 ), alors aX1 + bX2 est de loi N (am1 + bm2 , a2 12 + 2abCov(X1 , X2 ) + b2 22 ).
Th
eor`
eme de Fisher. Si X1 , . . . , Xn sont independantes et de meme loi N (m, 2 ),
n
n
n = 1 P Xi et Sn2 = 1 P (Xi X
n )2 , on a :
alors, en posant X
n i=1
n i=1
n
P

Xi est de loi N (nm, n 2 ).


i=1

n est de loi N
X



2
m,
.
n

n
1 P
(Xi m)2 est de loi 2n .
2 i=1

2
n
1 P
n )2 = nSn est de loi 2 .
(X

X
i
n1
2 i=1
2

n et Sn2 sont independantes.


X

n m

X
n1
est de loi de Student St(n 1).
Sn

116

11.4.7

Chapitre 11 - Annexe A : Rappels de probabilit


es pour la statistique

Lois de Student et de Fisher-Snedecor

Soit U une variable aleatoire de loi N (0, 1) et X une variable aleatoire de loi 2n . Si U
U
et X sont independantes, alors n est de loi de Student a` n degres de liberte St(n).
X
Soit X une variable aleatoire de loi 2n et Y une variable aleatoire de loi 2m . Si X et
mX
Y sont independantes, alors
est de loi de Fisher-Snedecor F (n, m).
nY
Ces deux definitions entrainent que si T est de loi St(n), alors T 2 est de loi F (1, n).
Les lois de Student et de Fisher-Snedecor sont toujours utilisees par lintermediaire
de tables ou `a laide dun logiciel de statistique. Il nest donc pas necessaire de donner
lexpression de leur densite.

Chapitre 12
Annexe B : Lois de probabilit
e
usuelles
12.1

Caract
eristiques des lois usuelles

12.1.1

Variables al
eatoires r
eelles discr`
etes

Dans le tableau ci-dessous, on suppose n IN , p ]0, 1[ et IR+ .

Loi et Symbole

Probabilites

E(X)

Var (X)

Fonction
caracteristique
X (t) = E(eitX )

Bernouilli
B(p)

P (X = 0) = 1 p
P (X = 1) = p

p(1 p)

1 p + peit

Binomiale
B(n, p)

P (X = k) = Cnk pk (1 p)nk 11{0,...,n} (k)

np

np(1 p)

(1 p + peit )n

Binomiale negative

n1 n
P (X = k) = Ck1
p (1 p)kn 11{n,...} (k)

n
p

n(1p)
p2

1
p

1p
p2

nm
N

nm(N n)(N m)
N 2 (N 1)

peit
1(1p)eit

n

BN (n, p)
Poisson
P()
Geometrique
G(p)
Hypergeometrique
H(N, m, n)
(m, n) {1, . . . , N }2

P (X = k) = e k!

11IN (k)

P (X = k) = p(1 p)k1 11IN (k)

P (X = k) =

k C nk
Cm
N m
n
CN

11{0,...,min(m,n)} (k)

e(e

it 1)

peit
1(1p)eit

118

Chapitre 12 - Annexe B : Lois de probabilit


e usuelles

12.1.2

Variables al
eatoires r
eelles continues

La fonction Gamma est definie pour a > 0 par (a) =


On a : n IN ,

(n) = (n 1)! ,

R +

ex xa1 dx .
 

= ,
2

(1) = 1 ,

a ]1, +[ , (a) = (a 1)(a 1) .


Dans le tableau ci dessous, [a, b] IR, m IR, IR+ , IR+ , IR+ , n IN

Loi et Symbole

Densite

Esperance

Var (X)

Fonction
caracteristique
X (t) = E(eitX )

a+b
2

(ba)2
12

eitb eita
it(ba)

eitm

1
2


it 1

11IR+ (x)


it

11IR+ (x)

2n

(1 2it) 2

1
1+t2

X
Loi Uniforme
U[a, b]

Loi Normale
N (m, 2 )

Loi Exponentielle
exp() = G(1, )

fX (x) =

fX (x) =

1
ba

1 e
2

11[a,b] (x)

(xm)2
2 2

fX (x) = ex 11IR+ (x)

Loi Gamma
G(, )

fX (x) =

x 1
x
() e

Loi du Chi-deux

fX (x) =

2 2 x2 n
x 2 1
( n
)e
2

2n = G( n2 , 12 )

Premi`ere loi de Laplace

11IR (x)

fX (x) = 12 e|x| 11IR (x)

2 t2
2

12.1 Caract
eristiques des lois usuelles

119

La fonction Beta est definie pour a > 0 et b > 0 par


Z 1
(a)(b)
xa1 (1 x)b1 dx
(a, b) =
=
(a + b)
0
Dans le tableau suivant, on suppose a IR+ , b IR+ et IR+ , IR+ .

Loi et Symbole
X

Densite

Loi Beta de 1`ere esp`ece


1 (a, b)

fX (x) =

Loi Beta de 2`eme esp`ece


2 (a, b)

1
a1 (1
(a,b) x

fX (x) =

Loi de Weibull

fX (x) =

E(X)

Var (X)

a
a+b

ab
(a+b)2 (a+b+1)

a
b1

a(a+b1)
(b1)2 (b2)

si b > 1

si b > 2

(1 + 1 )

h
i
2 (1 + 2 ) (1 + 1 )2

x)b1 11[0,1] (x)

1
xa1
(a,b) (1+x)a+b

11IR+ (x)

 
x
1
x
e

11IR+ (x)

W(, )

12.1.3

Vecteurs al
eatoires dans INd et dans IRd

Dans le tableau suivant, on a :


n IN , p = (p1 , p2 , . . . , pd ) ]0, 1[d ,

d
P

pi = 1 et k = (k1 , k2 , . . . , kd ) INd ,

i=1

d
P

ki = n.

i=1

m IRd et Md,d .

Loi et Symbole
X

Probabilites ou Densite

Loi Multinomiale

k1 k2
n!
k1 !...kd ! p1 p2

P (X = k) =

. . . pkdd

E(X)

11INd (k)

Nd (m, )

Fonction
Caracteristique


np

ci,i = npi (1 pi )

d
P

n
p i zi

i=1

Md (n, p)

Loi normale

Matrice
de covariance

ci,j = npi pj , i 6= j

fX (x) =

1
e
det( 2)d

1t
(xm)1 (xm)
2

ei

t mt 1 t tt
2

120

Chapitre 12 - Annexe B : Lois de probabilit


e usuelles

12.2

Tables de lois

12.2.1

Table 1 de la loi normale centr


ee r
eduite

U etant une variable aleatoire de loi N (0, 1), la table donne la valeur de (u) = P (U
u). En R, la commande correspondante est pnorm(u).

0.0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9

0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159

0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186

0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212

0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238

0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264

0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289

0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315

0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340

0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365

0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389

1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9

0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713

0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719

0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726

0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732

0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738

0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744

0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750

0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756

0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761

0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767

2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9

0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981

0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982

0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982

0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983

0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984

0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984

0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985

0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985

0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986

0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986

Lecture de la table : (1.25) = (1.2 + 0.05) = 0.8944.

Grandes valeurs de u
u
(u)

3.0
0.9987

3.5
0.99977

4.0
0.999968

4.5
0.999997

12.2 Tables de lois

12.2.2

121

Table 2 de la loi normale centr


ee r
eduite

U etant une variablealeatoire de loi N (0, 1) et un reel de [0, 1], la table donne la valeur de u = 1 1 2 telle que P (|U | > u ) = . En R, la commande correspondante
est qnorm(1-alpha/2).

0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9

0.0
+
1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257

0.01
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130

0.02
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4959
0.3585
0.2275
0.1004

0.03
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878

0.04
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753

0.05
1.96
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627

0.06
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502

0.07
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376

0.08
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251

107
5.3267

108
5.7307

109
6.1094

Lecture de la table : u0.25 = u0.2+0.05 = 1.1503.


Petites valeurs de

0.002
3.0902

0.001
3.2905

104
3.8906

105
4.4171

106
4.8916

1
Pour p < , 1 (p) = u2p .
2
1
Pour p , 1 (p) = u2(1p) .
2

0.09
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125

122

Chapitre 12 - Annexe B : Lois de probabilit


e usuelles

12.2.3

Table de la loi du 2

X etant une variable aleatoire de loi du 2 a` n degres de libertes et un reel de


[0, 1], la table donne la valeur de zn, = F1
2 (1 ) telle que P (X > zn, ) = . En R, la
n
commande correspondante est qchisq(1-alpha, n).

0.995

0.990

0.975

0.95

0.9

0.8

0.7

0.5

0.3

0.2

0.1

0.05

0.025

0.01

0.005

0.001

1
2
3
4
5
6
7
8
9
10

0.00004
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16

0.0002
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56

0.001
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25

0.004
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94

0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87

0.06
0.45
1.01
1.65
2.34
3.07
3.82
4.59
5.38
6.18

0.15
0.71
1.42
2.19
3.00
3.83
4.67
5.53
6.39
7.27

0.45
1.39
2.37
3.36
4.35
5.35
6.35
7.34
8.34
9.34

1.07
2.41
3.66
4.88
6.06
7.23
8.38
9.52
10.66
11.78

1.64
3.22
4.64
5.99
7.29
8.56
9.80
11.03
12.24
13.44

2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99

3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31

5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48

6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21

7.88
10.6
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19

10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59

11
12
13
14
15
16
17
18
19
20

2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43

3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26

3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59

4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85

5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44

6.99
7.81
8.63
9.47
10.31
11.15
12.00
12.86
13.72
14.58

8.15
9.03
9.93
10.82
11.72
12.62
13.53
14.44
15.35
16.27

10.34
11.34
12.34
13.34
14.34
15.34
16.34
17.34
18.34
19.34

12.90
14.01
15.12
16.22
17.32
18.42
19.51
20.60
21.69
22.77

14.63
15.81
16.98
18.15
19.31
20.47
21.61
22.76
23.90
25.04

17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41

19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41

21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17

24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57

26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00

31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31

21
22
23
24
25
26
27
28
29
30

8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79

8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95

10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79

11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49

13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60

15.44
16.31
17.19
18.06
18.94
19.82
20.70
21.59
22.48
23.36

17.18
18.10
19.02
19.94
20.87
21.79
22.72
23.65
24.58
25.51

20.34
21.34
22.34
23.34
24.34
25.34
26.34
27.34
28.34
29.34

23.86
24.94
26.02
27.10
28.17
29.25
30.32
31.39
32.46
33.53

26.17
27.30
28.43
29.55
30.68
31.79
32.91
34.03
35.14
36.25

29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26

32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77

35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98

38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89

41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67

46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70

2
1
1
u2 + 2n 1
si <
2
2
2
1 p
1

2n) u2(1)
si .
2
2

Pour n > 30, on admet que zn,


et zn,

12.2 Tables de lois

12.2.4

123

Table de la loi de Student

X etant une variable


 aleatoire de loi St(n) et un reel de [0, 1], la table donne la valeur
1

de tn, = FSt(n) 1 2 telle que P (|X| > tn, ) = . En R, la commande correspondante


est qt(1-alpha/2,n). Pour n = +, t+, = u .

0.90

0.80

0.70

0.60

0.50

0.40

0.30

0.20

0.10

0.05

0.02

0.01

0.001

1
2
3
4
5
6
7
8
9
10

0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129

0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260

0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397

0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542

1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700

1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879

1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093

3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372

6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812

12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228

31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764

63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169

636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587

11
12
13
14
15
16
17
18
19
20

0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127

0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257

0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391

0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533

0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687

0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860

1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064

1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325

1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725

2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086

2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528

3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845

4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850

21
22
23
24
25
26
27
28
29
30

0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127

0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256

0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389

0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530

0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683

0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854

1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055

1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310

1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697

2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042

2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457

2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750

3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646

40
80
120
+

0.126
0.126
0.126
0.126

0.255
0.254
0.254
0.253

0.388
0.387
0.386
0.385

0.529
0.526
0.526
0.524

0.681
0.678
0.677
0.674

0.851
0.846
0.845
0.842

1.050
1.043
1.041
1.036

1.303
1.292
1.289
1.282

1.684
1.664
1.658
1.645

2.021
1.990
1.980
1.960

2.423
2.374
2.358
2.326

2.704
2.639
2.617
2.576

3.551
3.416
3.373
3.291

124

Chapitre 12 - Annexe B : Lois de probabilit


e usuelles

12.2.5

Tables de la loi de Fisher-Snedecor

X etant une variable aleatoire de loi F (1 , 2 ), les tables donnent les valeurs de
f1 ,2 , = FF1(1 ,2 ) (1 ) telles que P (X > f1 ,2 , ) = pour = 5% et = 1%.
1
En R, la commande correspondante est qf(1-alpha, nu1, nu2). f2 ,1 , =
.
f1 ,2 ,1

Table 1 : = 5%.
1

10

12

16

20

24

40

60

100

1
2
3
4
5
6
7
8
9
10

161.4
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96

199.5
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10

215.7
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71

224.6
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48

230.2
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33

234
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22

236.8
19.35
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14

238.9
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07

241.9
19.40
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98

243.9
19.41
8.74
5.91
4.68
4.00
3.57
3.28
3.07
2.91

246.5
19.43
8.69
5.84
4.60
3.92
3.49
3.20
2.99
2.83

248
19.45
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77

249
19.45
8.64
5.77
4.53
3.84
3.41
3.12
2.90
2.74

251.1
19.47
8.59
5.72
4.46
3.77
3.34
3.04
2.83
2.66

252.2
19.48
8.57
5.69
4.43
3.74
3.30
3.01
2.79
2.62

253
19.49
8.55
5.66
4.41
3.71
3.27
2.97
2.76
2.59

254.3
19.49
8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54

11
12
13
14
15
16
17
18
19
20

4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35

3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49

3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10

3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87

3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71

3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60

3.01
2.91
2.83
2.76
2.71
2.66
2.61
2.58
2.54
2.51

2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45

2.85
2.75
2.67
2.60
2.54
2.49
2.45
2.41
2.38
2.35

2.79
2.69
2.60
2.53
2.48
2.42
2.38
2.34
2.31
2.28

2.70
2.60
2.51
2.44
2.38
2.33
2.29
2.25
2.21
2.18

2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12

2.61
2.51
2.42
2.35
2.29
2.24
2.19
2.15
2.11
2.08

2.53
2.43
2.34
2.27
2.20
2.15
2.10
2.06
2.03
1.99

2.49
2.38
2.30
2.22
2.16
2.11
2.06
2.02
1.98
1.95

2.46
2.35
2.26
2.19
2.12
2.07
2.02
1.98
1.94
1.91

2.40
2.30
2.21
2.13
2.07
2.01
1.96
1.92
1.88
1.84

21
22
23
24
25
30

4.32
4.30
4.28
4.26
4.24
4.17

3.47
3.44
3.42
3.40
3.39
3.32

3.07
3.05
3.03
3.01
2.99
2.92

2.84
2.82
2.80
2.78
2.76
2.69

2.68
2.66
2.64
2.62
2.60
2.53

2.57
2.55
2.53
2.51
2.49
2.42

2.49
2.46
2.44
2.42
2.40
2.33

2.42
2.40
2.37
2.36
2.34
2.27

2.32
2.30
2.27
2.25
2.24
2.16

2.25
2.23
2.20
2.18
2.16
2.09

2.16
2.13
2.11
2.09
2.07
1.99

2.10
2.07
2.05
2.03
2.01
1.93

2.05
2.03
2.01
1.98
1.96
1.89

1.96
1.94
1.91
1.89
1.87
1.79

1.92
1.89
1.86
1.84
1.82
1.74

1.88
1.85
1.82
1.80
1.78
1.70

1.81
1.78
1.76
1.73
1.71
1.62

40
50
60
80
100
+

4.08
4.03
4.00
3.96
3.94
3.84

3.23
3.18
3.15
3.11
3.09
3.00

2.84
2.79
2.76
2.72
2.70
2.60

2.61
2.56
2.53
2.49
2.46
2.37

2.45
2.40
2.37
2.33
2.31
2.21

2.34
2.29
2.25
2.21
2.19
2.10

2.25
2.20
2.17
2.13
2.10
2.01

2.18
2.13
2.10
2.06
2.03
1.94

2.08
2.03
1.99
1.95
1.93
1.83

2.00
1.95
1.92
1.88
1.85
1.75

1.90
1.85
1.82
1.77
1.75
1.64

1.84
1.78
1.75
1.70
1.68
1.57

1.79
1.74
1.70
1.65
1.63
1.52

1.69
1.63
1.59
1.54
1.52
1.39

1.64
1.58
1.53
1.48
1.45
1.32

1.59
1.52
1.48
1.43
1.39
1.24

1.51
1.44
1.39
1.32
1.28
1.00

12.2 Tables de lois

125
Table 2 : = 1%.

10

12

16

20

24

40

60

100

1
2
3
4
5
6
7
8
9
10

4052
98.5
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04

4999
99.0
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56

5403
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55

5625
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99

5764
99.3
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64

5859
99.33
27.91
15.21
10.67
8.47
7.19
6.37
5.80
5.39

5928
99.36
27.67
14.98
10.46
8.26
6.99
6.18
5.61
5.20

5981
99.37
27.49
14.80
10.29
8.10
6.84
6.03
5.47
5.06

6056
99.4
27.23
14.55
10.05
7.87
6.62
5.81
5.26
4.85

6106
99.42
27.05
14.37
9.89
7.72
6.47
5.67
5.11
4.71

6170
99.44
26.83
14.15
9.68
7.52
6.28
5.48
4.92
4.52

6209
99.45
26.69
14.02
9.55
7.40
6.16
5.36
4.81
4.41

6235
99.46
26.60
13.93
9.47
7.31
6.07
5.28
4.73
4.33

6287
99.47
26.41
13.75
9.29
7.14
5.91
5.12
4.57
4.17

6313
99.48
26.32
13.65
9.20
7.06
5.82
5.03
4.48
4.08

6334
99.49
26.24
13.58
9.13
6.99
5.75
4.96
4.41
4.01

6366
99.5
26.13
13.46
9.02
6.88
5.65
4.86
4.31
3.91

11
12
13
14
15
16
17
18
19
20

9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10

7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85

6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94

5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43

5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10

5.07
4.82
4.62
4.46
4.32
4.20
4.10
4.01
3.94
3.87

4.89
4.64
4.44
4.28
4.14
4.03
3.93
3.84
3.77
3.70

4.74
4.50
4.30
4.14
4.00
3.89
3.79
3.71
3.63
3.56

4.54
4.30
4.10
3.94
3.80
3.69
3.59
3.51
3.43
3.37

4.40
4.16
3.96
3.80
3.67
3.55
3.46
3.37
3.30
3.23

4.21
3.97
3.78
3.62
3.49
3.37
3.27
3.19
3.12
3.05

4.10
3.86
3.66
3.51
3.37
3.26
3.16
3.08
3.00
2.94

4.02
3.78
3.59
3.43
3.29
3.18
3.08
3.00
2.92
2.86

3.86
3.62
3.43
3.27
3.13
3.02
2.92
2.84
2.76
2.69

3.78
3.54
3.34
3.18
3.05
2.93
2.83
2.75
2.67
2.61

3.71
3.47
3.27
3.11
2.98
2.86
2.76
2.68
2.60
2.54

3.60
3.36
3.17
3.00
2.87
2.75
2.65
2.57
2.49
2.42

21
22
23
24
25
30

8.02
7.95
7.88
7.82
7.77
7.56

5.78
5.72
5.66
5.61
5.57
5.39

4.87
4.82
4.76
4.72
4.68
4.51

4.37
4.31
4.26
4.22
4.18
4.02

4.04
3.99
3.94
3.90
3.85
3.70

3.81
3.76
3.71
3.67
3.63
3.47

3.64
3.59
3.54
3.50
3.46
3.30

3.51
3.45
3.41
3.36
3.32
3.17

3.31
3.26
3.21
3.17
3.13
2.98

3.17
3.12
3.07
3.03
2.99
2.84

2.99
2.94
2.89
2.85
2.81
2.66

2.88
2.83
2.78
2.74
2.70
2.55

2.80
2.75
2.70
2.66
2.62
2.47

2.64
2.58
2.54
2.49
2.45
2.30

2.55
2.50
2.45
2.40
2.36
2.21

2.48
2.42
2.37
2.33
2.29
2.13

2.36
2.31
2.26
2.21
2.17
2.01

40
50
60
80
100
+

7.31
7.17
7.08
6.96
6.90
6.63

5.18
5.06
4.98
4.88
4.82
4.61

4.31
4.20
4.13
4.04
3.98
3.78

3.83
3.72
3.65
3.56
3.51
3.32

3.51
3.41
3.34
3.26
3.21
3.02

3.29
3.19
3.12
3.04
2.99
2.80

3.12
3.02
2.95
2.87
2.82
2.64

2.99
2.89
2.82
2.74
2.69
2.51

2.80
2.70
2.63
2.55
2.50
2.32

2.66
2.56
2.50
2.42
2.37
2.18

2.48
2.38
2.31
2.23
2.19
2.00

2.37
2.27
2.20
2.12
2.07
1.88

2.29
2.18
2.12
2.03
1.98
1.79

2.11
2.01
1.94
1.85
1.80
1.59

2.02
1.91
1.84
1.75
1.69
1.47

1.94
1.82
1.75
1.65
1.60
1.36

1.80
1.68
1.60
1.49
1.43
1.00

126

Chapitre 12 - Annexe B : Lois de probabilit


e usuelles

Chapitre 13
Annexe C : Introduction `
aR
Ce chapitre fournit une introduction elementaire a` R. Pour plus de details, voir les
liens presentes sur le Kiosk.

13.1

Les bases de R

R est un logiciel de statistique dedie a` lanalyse des donnees et a` leur visualisation.


Il contient une collection doutils pour la statistique, un environnement graphique et un
langage de programmation oriente objet. La plupart des entites creees en R sont permanentes. Ces entites sont les objets donnees, resultats, fonctions, et sont stockees dans le
repertoire .RData cree par defaut. Le resultat dune procedure statistique peut etre ainsi
reutilise lors de differentes sessions. Il est donc important de creer un repertoire pour
chaque projet statistique effectue en R.
On ouvre une session de R par la commande :
$ R
Pour cloturer une session, utiliser :
> q()
Lhistorique dune session est conserve dans le fichier .Rhistory.
R poss`ede une documentation en ligne accessible par :
> help.start()
Techniquement, R est un langage fonctionnel. Les commandes elementaires sont constituees
dexpressions et daffectations. Par exemple :
> 2 + 5
[1] 7
> a <- c(9,3,7,5)
> a
[1] 9 3 7 5
> a + 3
[1] 12 6 10 8
> a[2:4]
[1] 3 7 5

128

Chapitre 13 - Annexe C : Introduction `


aR

> a[a>6]
[1] 9 7
R peut etre complete en ecrivant de nouvelles fonctions. Voici un exemple o`
u lon souhaite
n
X
1
ln xi o`
u i, xi > 0. On pourra definir une
calculer la statistique stat.log(x) =
n i=1
fonction de la facon suivante (meme si lon peut faire bien plus rapide en pratique) :
>
+
+
+
+
+
+

stat.log <- function(x)


{
n <- length(x)
s <- 0
for(i in (1:n)) { s <- s + log(x[i]) }
-s/n
}

La fonction stat.log pourra etre desormais utilisee comme une fonction standard de
R. Dun point de vue pratique, on peut editer ses fonctions dans un editeur externe (nedit,
emacs, . . .) puis faire du copier/coller vers R ou bien utiliser la commande source.

13.2

Commandes pour les deux premiers TD en R

Pour enregistrer une figure dans un fichier au format postscript, commencer par rediriger la sortie graphique vers le fichier de sauvegarde, ici nomfichier.eps :
postscript("nomfichier.ps", horizontal=FALSE)
Puis tracer la figure voulue, par exemple un histogramme :
hist(x)
Et enfin rediriger la sortie graphique vers la fenetre initiale :
dev.off()
Meme chose en pdf avec pdf("nomfichier.pdf").
Pour tracer un histogramme des donnees x dont laire est egale `a 1, les bornes des
classes sont donnees par le vecteur bornes, et les plages de valeurs des abscisses par le
vecteur xlim :
histx <- hist(x, prob=T, breaks=bornes, xlim=xlim, ...)
Pour un histogramme `a classes de meme effectif, les bornes des classes peuvent etre
calculees comme des quantiles empiriques, `a laide dune commande du type :
breaks <- c(a0, quantile(x,seq(1,k-1)/k),ak)

13.3 Quelques commandes utiles de R

129

La droite de regression lineaire sur le nuage des points dabcisses abs et dordonnees
ord est obtenue `a laide de :
reg <- lm(ordabs)
La pente de la droite des moindres carres est donnee par reg$coefficient[2] et
lordonnee a` lorigine par reg$coefficient[1].
Pour tracer la droite obtenue, lune des commandes suivantes pourra etre utilisee :
lines(abs, fitted.values(reg)) ou abline(reg).

13.3

Quelques commandes utiles de R

help(mean)
x <- c(3,14,15,9)
n <- length(x)
sum(x^2)

aide sur la commande mean


cree un vecteur ligne x = (3, 14, 15, 9)
taille
X du vecteur x
x2i
i

moyenne empirique de lechantillon x


valeurs de x arrondies `a lentier le plus proche
sequence (1 + 2k ; k entier, 1 + 2k 10)
concatenation de 3 repliques du vecteur x
solution du syst`eme lineaire ax = b
matrice diagonale de diagonale x
variance estimee s0n 2
racine carree de x, element par element.
moyenne, mediane, quartiles et valeurs extremes
histogramme de x
tri de x par valeurs croissantes
graphe de probabilites pour la loi normale
trace le nuage de points {(xi , yi )}i
superpose au graphique precedent la droite
dequation y = ax + b
points(x,z)
superpose au graphique precedent le nuage
de points {(xi , zi )}i
lines(x,z)
superpose au graphique precedent la ligne
polygonale reliant les points {(xi , zi )}i
lm(yx)
regression lineaire de y sur x
lm(yx)$coefficients[2]
pente de la droite de regression
lm(yx)$coefficients[1]
ordonnee a` lorigine de la droite de regression
lines(x,fitted.values(lm(yx)) superpose au graphique precedent la droite
de regression
postscript("nom.eps")
redirection de la sortie graphique vers le fichier
nom.eps
dev.off()
termine la redirection graphique vers un fichier
mean(x)
round(x)
seq(from=1,to=10,by=2)
rep(x,3)
solve(a,b)
diag(x)
var(x)
sqrt(x)
summary(x)
hist(x)
sort(x)
qqnorm(x)
plot(x,y)
abline(b,a)

130

Chapitre 13 - Annexe C : Introduction `


aR
par()
controle des param`etres graphiques
par(mfcol=c(2,1))
graphique `a 2 lignes et 1 colonnes
cat("bonjour","\ n") imprime `a lecran le mot bonjour et retourne
a` la ligne
source("nom.R")
charge les commandes R contenues dans le fichier
nom.R dans R
if, else
structure de controle ou diteration
for, while, repeat
...

13.4

Les lois de probabilit


e usuelles en R

Toutes les lois de probabilite usuelles ont ete implementees en R. Chaque loi est identifiee par une abreviation :
loi binomiale : binom
loi de Poisson : pois
loi geometrique : geom. Attention, la commande geom concerne en fait la loi de X 1,
o`
u X est de loi geometrique.
loi exponentielle : exp
loi gamma : gamma
loi du chi 2 : chisq
loi normale : norm
loi de Student : t
loi de Fisher-Snedecor : f
Loi uniforme : unif
Loi beta de premi`ere esp`ece : beta
Loi de Cauchy : cauchy
Loi hypergeometrique : hyper
Loi log-normale : lnorm
Loi logistique : logis
Loi negative binomiale : nbinom
Loi de Weibull : weibull
Loi de Wilcoxon : wilcox
Pour chaque loi, 4 fonctions sont disponibles, identifiees par un prefixe :

Probabilites elementaires pour les v.a.d. ou densite pour les v.a.c. : d


Fonction de repartition : p
Quantiles : q
Simulation : r

Une commande R pour une loi de probabilite est constituee dun prefixe suivi de
labreviation de la loi. Les param`etres dependent de la loi choisie.

13.4 Les lois de probabilit


e usuelles en R

131

Exemples :
pnorm(u) donne la fonction de repartition de la loi normale centree-reduite N (0, 1)
au point u, (u). On retrouve la table 1 de la loi normale.
> pnorm(0.61)
[1] 0.7290691
dnorm(x, m, ) donne la densite de la loi normale N (m, 2 ) au point x.
> dnorm(1.2,2,5)
[1] 0.07877367
qnorm(p) donne le quantile dordre p de la loi N (0, 1), 1 (p). On retrouve la table
2 de la loi normale en prenant p = 1 /2.
> qnorm(1-0.05/2)
[1] 1.959964
rnorm(n, m, ) simule un echantillon de taille n de la loi N (m, 2 ).
> rnorm(10, 20, 1)
[1] 21.63128 20.16724 17.21667 18.76593 20.48102 20.46236 20.41822
[8] 19.91344 21.19312 19.89164
dbinom(k, n, p) donne P (K = k) quand K est de loi binomiale B(n, p).
> dbinom(3,5,0.2)
[1] 0.0512
rpois(n, ) simule un echantillon de taille n de la loi de Poisson P().
> rpois(15,4)
[1] 8 3 2 1 6 6 7 5 3 3 4 4 6 1 1
qchisq(p,n) donne le quantile dordre p de la loi du chi 2 2n . On retrouve la table
de la loi du chi 2 en prenant p = 1 .
> qchisq(1-0.05,20)
[1] 31.41043
qt(p,n) donne le quantile dordre p de la loi de Student St(n). On retrouve la table
de la loi de Student en prenant p = 1 /2.
> qt(1-0.3/2,12)
[1] 1.083211
qf(p,1 ,2 ) donne le quantile dordre p de la loi de Fisher-Snedecor F (1 , 2 ). On
retrouve la table de la loi de Fisher-Snedecor en prenant p = 1 .
> qf(1-0.05,8,22)
[1] 2.396503

132

Chapitre 13 - Annexe C : Introduction `


aR

13.5

Les principaux tests dhypoth`


eses en R

t.test(x,...)

test de Student sur lesperance dune loi normale

binom.test()

test sur une proportion

var.test(x,y,...)

test de Fisher sur la variance de 2 echantillons


gaussiens independants

t.test(x,y,...)

test de Student sur lesperance de 2 echantillons


gaussiens independants

prop.test()

test de comparaison de proportions

chisq.test(x,...)

test du 2 sur les probabilites dev`enements


et tables de contingence

ks.test(x,...)

test de Kolmogorov-Smirnov sur un ou deux echantillons

wilcox.test(x,...) test de Wilcoxon-Mann-Whitney sur un ou deux echantillons

13.6

Les graphiques dans R

13.6.1

Graphique simple

Le script suivant en R permet de tracer un nuage de 100 points dont les coordonnees
sont des variables aleatoires independantes et de meme loi normale centree-reduite N (0, 1),
et de le sauvegarder au format postscript dans le fichier rnorm.ps.
postscript("rnorm.ps")
plot(rnorm(100),rnorm(100))
dev.off()
Les instructions suivantes permettent dinserer cette figure dans un document Latex
et de pouvoir la referencer sous le nom de figure 13.1.

\begin{figure}[htbp]
\begin{center}
% Requires \usepackage{graphicx}
\includegraphics[width=8 cm, angle=270]{rnorm.ps}\\
\caption{{\it Utilisation de rnorm}}\label{rnorm}
\end{center}
\end{figure}

13.6 Les graphiques dans R

133
rnorm(100)

3
2
1
0

rnorm(100)

1
2

Figure 13.1 Utilisation de rnorm

13.6.2

Autres fonctions graphiques

abline(h=u)

ajoute une droite dequation y=u.

abline(v=u)

ajoute une droite dequation x=u.

legend(x,y,legend,...)

ajoute une legende dutilisation tr`es flexible

text(x,y,labels,...)

ajoute du texte dans un graphe

axis(side,at, labels..)

ajoute un axe au graphique

arrows(x0,y0,x1,y1,...)

dessine des fl`eches

symbols(x,y,....)

dessine des cercles, des carres, ...

box(...)

ajoute une boite

polygon(x,y)

ajoute un polygone

voir aussi image(), pairs(), persp(),...

134

Chapitre 13 - Annexe C : Introduction `


aR

13.6.3

Param
etrage de la commande plot

Le script suivant :
postscript("graphesR.ps")
x<- seq(-2*pi,2*pi,0.05)
y <- sin(x)
par(mfrow=c(2,2))
plot(x,y,xlab="x",ylab="Sinus de x")
plot(x,y,type="l", main="trait continu")
plot(x[seq(5,1000,by=5)],y[seq(5,1000,by=5)], type="b",axes=F)
plot(x,y,type="n", ylim=c(-2,1))
text(0,0.05,"Divers param
etrages de la fonction plot")
dev.off()
permet dobtenir la figure 13.2.

1.0
0.5
0.0
1.0

0.5

0.0
1.0

0.5

Sinus de x

0.5

1.0

trait continu

Divers paramtrages de la fonction plot

2.0

1.0

y[seq(5, 1000, by = 5)]

0.0 0.5 1.0

6
x[seq(5, 1000, by = 5)]

Figure 13.2 R permet de creer plusieurs types de graphiques

Bibliographie
[1] Fourdrinier D., Statistique inferentielle, Dunod, 2002.
[2] Lejeune M., Statistique, la theorie et ses applications, Springer, 2004.
[3] Monfort A., Cours de statistique mathematique, Economica, 1997.
[4] Rice J.A., Mathematical Statistics and Data Analysis, Duxbury Press, 1995.
[5] Saporta G., Probabilites, analyse des donnees et statistique, Technip, 2006.
[6] Shao J., Mathematical statistics, Springer, 1998.
[7] Tassi P., Methodes statistiques, Economica, 1989.