Vous êtes sur la page 1sur 409

UNIVERSITE VICTOR SEGALEN BORDEAUX 2

U.F.R. "Sciences et Modélisation"

COURS de STATISTIQUE MATHEMATIQUE


Modèles, Méthodes, Applications

à
l’usage des étudiants de DEUG, Licence et Master

M. Nikulin
V. Bagdonavičius
C. Huber
V. Nikoulina

BORDEAUX
2004/2005

1
2
Table des matières

0 LOIS USUELLES. APPROXIMATIONS. 11


0.1 Lois discrètes. Approximations normale et de Poisson. Théorème limite
central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
0.2 Approximations normales et de Poisson . . . . . . . . . . . . . . . . . . . 14
0.3 Lois continues. Liaisons entre des lois . . . . . . . . . . . . . . . . . . . . 15
0.4 Epreuves de Bernoulli et marches aléatoires. . . . . . . . . . . . . . . . . 22
0.5 Représentation d’une suite d’épreuves de Bernoulli indépendante . . . . . 22
0.6 Probabilités associées à une marche aléatoire reliant 2 points du treillis S . 23
0.7 Frontière absorbante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.8 Marches aléatoires et distributions discrètes . . . . . . . . . . . . . . . . . 24

1 QUELQUES PROBLÈMES CLASSIQUES DE LA STATISTIQUE MATHE-


MATIQUE. 31
1.1 Problèmes d’estimation et de comparaison des probabilités de succès. . . . 31
1.2 Modèle probabiliste de l’erreur de mesure. . . . . . . . . . . . . . . . . . 41
1.3 Méthode de Monte-Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2 ELEMENTS DE LA THEORIE DE L’ESTIMATION PONCTUELLE. 55


2.1 Modèle statistique. Fonction de vraisemblance. . . . . . . . . . . . . . . . 55
2.2 Statistique. Échantillon. Loi empirique. . . . . . . . . . . . . . . . . . . . 56
2.3 Estimateur ponctuel. Consistance. Estimateur invariant . . . . . . . . . . . 62
2.4 Fonction de perte, fonction de risque. . . . . . . . . . . . . . . . . . . . . 64
2.5 Statistiques exhaustives, nécessaires, minimales et complètes. . . . . . . . 65
2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet. Théorème de Rao-
Blackwell-Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7 Méthode des moments. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.8 Méthode des moindres carrés. Modèle de Gauss de la théorie des erreurs. . 81
2.9 Régions, intervalles, limites de confiance. . . . . . . . . . . . . . . . . . . 86
2.10 Méthode de Bolshev de construction des limites de confiance. . . . . . . . 88
2.11 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.12 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . . . 100
2.13 Intervalle de confiance pour la variance d’une loi normale . . . . . . . . . 105
2.14 Intervalle de confiance pour la différence des moyennes de deux lois normales112
2.15 Intervalle de confiance pour le quotient des variances de deux lois normales. 117
2.16 La loi de Thompson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17 Méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . 121
2.18 Propriétés asymptotiques du rapport de vraisemblance . . . . . . . . . . . 132

3
2.19 Decomposition orthogonale de Fisher . . . . . . . . . . . . . . . . . . . . 151
2.20 Modèle d’analyse des variances à 2 facteurs. . . . . . . . . . . . . . . . . 154
2.21 Modèle exponentiel. Analyse statistique. . . . . . . . . . . . . . . . . . . 163

3 ELEMENTS DE LA STATISTIQUE NON PARAMETRIQUE. 169


3.1 La loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.2 Médiane de la loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . 180
3.3 Théorème de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrètes. . . . . . . . . . . . . . . . . . . . . . . . . 184
3.4 Tests de Kolmogorov et Smirnov pour un échantillon. . . . . . . . . . . . 186
3.5 Test de Kolmogorov-Smirnov pour deux échantillons. . . . . . . . . . . . 189
3.6 Test ω2 de Cramer-von Mises et statistiques associées de Lehmann, Gini,
Downton, Moran-Greenwood et Sherman. . . . . . . . . . . . . . . . . . . 190
3.7 Les statistiques de Kolmogorov et Gihman. . . . . . . . . . . . . . . . . . 195
3.8 Test des signes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.9 Test de Wilcoxon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.10 Estimation non paramétrique de la densité. Histogramme. Estimateur de
Rosenblatt. Le noyau de Parzen. . . . . . . . . . . . . . . . . . . . . . . . 204

4 TESTS STATISTIQUES. 207


4.1 Principe des tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
4.2 Test de Neyman-Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . 209
4.3 Loi multinomiale et test du chi-deux de Pearson. . . . . . . . . . . . . . . 214
4.4 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
4.5 Théorème de Chernoff-Lehmann. . . . . . . . . . . . . . . . . . . . . . . 224
4.6 Test du chi-deux pour une loi logistique. . . . . . . . . . . . . . . . . . . . 225
4.7 Test du chi-deux dans un problème d’homogénéité. . . . . . . . . . . . . . 228
4.8 Test du χ2 d’homogénéité pour des lois multinomiales. . . . . . . . . . . . 233
4.9 Test du χ2 pour l’indépendance dans une table de contingence. . . . . . . . 236
4.10 Test du Chauvenet pour la détection des observations aberrantes. . . . . . . 241

5 REGRESSION 243
5.1 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.1.1 Modèle de la régression linéaire . . . . . . . . . . . . . . . . . . . 243
5.1.2 Codage des covariables . . . . . . . . . . . . . . . . . . . . . . . 244
5.1.3 Interprétation des coefficients β. . . . . . . . . . . . . . . . . . . . 245
5.1.4 Modèle avec interactions . . . . . . . . . . . . . . . . . . . . . . 245
5.1.5 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 246
5.1.6 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . 247
5.1.7 Décomposition des sommes de carrés . . . . . . . . . . . . . . . . 250
5.1.8 Le coefficient de détermination. . . . . . . . . . . . . . . . . . . . 252
5.1.9 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . 253
5.1.10 Régression normale . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.1.11 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 255
5.1.12 Lois des estimateurs β̂ et σ̂2 . . . . . . . . . . . . . . . . . . . . . . 255
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0 . . . . . . . . . . . . 257
5.1.14 Les coefficients empiriques de la correlation partielles . . . . . . . 260

4
5.1.15 Intervalles de confiance pour les coefficients β et leur combinaisons
linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.1.16 Intervalles de confiance pour les valeurs de la fonction de régres-
sion m(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
5.1.17 Prédiction de la nouvelle observation . . . . . . . . . . . . . . . . 263
5.1.18 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.2 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
5.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

6 ELEMENTS D’ANALYSE DES DONNEES CENSUREES ET TRONQUEES.281


6.1 Distribution de survie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6.2 Risque de panne ou taux de défaillance. . . . . . . . . . . . . . . . . . . . 284
6.3 Modèles paramétriques de survie. . . . . . . . . . . . . . . . . . . . . . . 289
6.4 Modèles nonparamétriques . . . . . . . . . . . . . . . . . . . . . . . . . . 298
6.5 Types de censure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
6.6 Troncature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6.7 Estimateur de Kaplan-Meier. . . . . . . . . . . . . . . . . . . . . . . . . . 316
6.8 Modèle de Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
6.9 Sur l’estimation semiparamétrique pour le modèle de Cox . . . . . . . . . 323
6.10 Processus de comptage et l’estimation non paramétrique . . . . . . . . . . 328
6.11 Estimation dans des expériences accélérées . . . . . . . . . . . . . . . . . 336
6.11.1 Modèles de vie accélérée . . . . . . . . . . . . . . . . . . . . . . 336
6.11.2 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . 341
6.11.3 Estimation semiparamétrique . . . . . . . . . . . . . . . . . . . . 350

7 INFERENCE BAYESIENNE 357


7.1 La règle Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
7.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
7.3 Approche bayesienne empirique . . . . . . . . . . . . . . . . . . . . . . . 370
7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
7.4.1 La loi beta et ses propriétés . . . . . . . . . . . . . . . . . . . . . 370
7.5 Résultats principaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
7.6 Aproximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

8 EXERCICES. 375

9 SOLUTIONS. 383

5
6
AVANT PROPOS

Ce fascicule est destiné tout d’abord aux étudiants de


l’UFR "Sciences et Modélisation"
(ancienne l’UFR MI2S) de l’Université Victor Segalen Bordeaux 2, qui veulent apprendre
les notions fondamentales de la statistiques mathématiques. Le contenu de ce fascicule est
une synthèse des des cours de statistique que j’ai donné à l’Université Bordeaux 2, l’Univer-
sité Bordeaux 1 et l’Univrsité Bordeaux 4 dans les années 1992-2002. Il est supposé que les
étudiants aient la connaissance avec des notions fondamentalles de la théorie de probabilité
pour apprendre la première partie de cours et de la théorie des processus stochastiques pour
la deuxième partie, exposées par exemple, dans le fascicule
"Calcul des Probabilités et Introduction aux Processus Aléatoires", 2000/2001, UFR
MI2S, (V.Bagdonavičius, V.Nikoulina et M.Nikulin). Il y a une corrélation forte positive
entre ces deux cours.
Il faut remarquer qu’à la base de cet ouvrage se trouvent les mêmes idées statistiques
qui étaient exposées dans les deux polycopies de C.Huber et M.Nikulin :
"Transformations des variables aléatoires. Applications au choix et à la réduction d’un
modèle statistique", (1991), UFR "Etudes Médicales et Biologiques", Université Paris 5,
et "Applications Statistiques des Transformations des Variables Aléatoires", (1993), UFR
MI2S, Université Bordeaux 2.
Pour traiter bien les données, c’est-à-dire pour mener à bien les estimations et les tests
classiques, paramétriques ou non paramétriques, on transforme les observations brutes en
calculant des statistiques bien choisies qui doivent avoir les propriétés suivantes :
1. Perdre le moins d’information possible, éventuellement pas du tout et c’est le cas des
statistiques exhaustives, tout en réduisant au minimum le volume initial des observations.
2. Etre calculable ou avoir une bonne approximation. Par exemple s’il s’agit d’un esti-
mateur obtenu par la méthode de maximum de vraisemblance, il se peut que l’on ne puisse
en obtenir aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins
bon.
3. Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur.
Ce qui suit donne, grâce à des transformations appropriées des observations, des statis-
tiques qui ont ces propriétés et aussi de bonnes approximations des lois usuelles et permet
ainsi de n’utiliser essentiellement que deux tables : celle de la loi normale standard et celle
des lois gamma (ou chi-deux). Des exemples illustrent l’application de ces méthodes, qui
donnent des approximations meilleures ( vitesse de convergence plus rapide) que les ap-
proximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-

7
blèmes concrets, en particulier pour les ingénieurs, mais aussi, et c’est moins connu, dans
les domaines de la médecine, de la biologie et de la sociologie.
De plus cette approche nous permet de considérer "les transformations des variables
aléatoires" comme le synonyme d’une partie de "la statistique mathématique", qui est basée
sur la théorie de la probabilité. Ce point de vue sur le rôle des transformations des variables
aléatoires dans la statistique a été exprimé tres nettement par Professeur L.N. Bolshev dans
ces articles, voir, par exemple, (1959), (1963) etc.
Dans cette optique C.Huber, T.Smith and M.Nikulin ont préparé le manuscript "Intro-
duction to the Theory of Statistical Inference",(1992), Departement of Mathematics and
Statistics, Queen’s University, Kingston, Canada. Ce manuscrit a été largement utilisé pour
créer la base du cours de la statistique que j’ai donné à Queen’s University en 1991-1992,
ainsi que les cours de statistiques donnés au sein de l’UFR MI2S à l’Université Bordeaux
2.
Il faut noter que pour préparer le cours actuel nous avons utilisé aussi les livres suivants :
V. Bagdonavičius & M.Nikulin, "Accelerated Life Models", 2002,
Chapman&Hall/CRC : Boca Raton,
C.Huber, "Statistique au PCEM",1992, Masson, Paris,
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.1 : Univa-
riate Case" 1993, Kluwer Academic Publishers, Dortrecht),
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.2 : Multiva-
riate Case", 1996, Kluwer Academic Publishers, Dortrecht,
P.E.Greenwood & M.Nikulin, "A Guide to Chi-Squared Testing", 1996, John Wiley and
Sons, New-York,
Encyclopaedia of Mathematics, 1994, (Editor : M.Hasewinkel), Kluwer Academic Pu-
blishers, v. 1-10,
Probability & Mathematical Statistics : Encyclopaedia, 1999, (Ed. : Yu.V.Prokhorov),
Big Russian Encyclopaedia,Moscow,
d’où était tiré la plupart des exemples, définitions, remarques, exercises et démonstrations
des résultats à caractère théorique pour construire les cours de statistique que nous avons
donné à l’Université Bordeaux 2 (DEUG, Licence et Maîtrise de la filère MASS, DESS et
DEA de la filière Sciences Cognitive à l’UFR MI2S, DESS de Statistique Appliquée aux
Sciences Sociales et de Santé de l’ISPED. Ce cours est lié avec d’autres cours de statis-
tiques donnés à l’Université Bordeaux 2 ( les UFR’s STAPS, Sciences de la Vie, Sciences
Pharmaceutiques, l’ISPED) et peut-être bien utilisé comme le support de base dans l’en-
seignement des cours de statistiques de niveau de DESS et DEA orientés vers le milieu
biomédicale, ainsi que pour les sciences sociales et économiques. En particulier, il est bien
adapté pour le DESS "Statistique Appliquée aux Sciences Sociales et de la Santé" et DEA
d’Epidémiologie (Option Biostatistique) à l’Institut de Santé Publique, d’Epidémiologie et
de Développement. Cet ouvrage est tres lié avec notre ouvrage précident "Statistique ma-
thématique : Théorie, Méthodes and Applications", (2000/2001).
Dans ces cours nous avons essayé d’exposer les idées et les notions fondamentales de
la statistique mathématique en termes de définitions, exemples et remarques et d’introduire
les techniques des transformations des données et les méthodes statistiques que l’on utilise
souvent dans les applications. Tout cela ensemble permet d’apprendre les bases fondamen-
tales de la statistique mathématique, d’apprendre à travailler avec des logiciels et des tables
statistiques, de construire des modèles probabilistes et de faire des inférences statistiques,
et par conséquent, à être pret de travailler dans les différents domaines d’applications des

8
modèles et méthodes de la statistique mathématique. Il est évident que ce cours de statis-
tique reflète des intérets statistiques des auteurs et que nous avons traité plus profondément
les thèmes qui sont proches aux thèmes de recherches, développés au sein du Laboratoire
"Statistique Mathématiques et ses Applications" de l’Université Bordeaux 2. Il faut noter
que parallelement à l’Université Bordeaux 2 on fait d’autres cours de statistiques, qui sont
plus appliqués et où on considère des méthodes d’analyse des données, de la statistique
multivariée, de l’analyse des régressions et surtout de l’analyse de survie dans le cadre des
cours de statistiques de l’ISPED.
Vu l’importance d’applications des modèles semiparamétriques avec des covariables dé-
pendant du temps dans l’analyse de survie, en fiabilité, dans l’économie etc., nous avons mis
quelques résultas récents, liés avec la théorie des épreuves accélérées. Plus d’informations
on peut voir, par exemple, dans nos monographies avec V.Bagdonavičius “Semiparametric
Models in Accelerated Life Testing”, (1995), et "Additive and Multiplicative Semiparame-
tric Models in Accelerated Life Testing and Survival Analysis", (1998).
A la fin il faut ajouter que nos cours de statistiques sont accompagnés des travaux pra-
tiques en Statistiques avec l’utilisation de SPSS.
Je remercie mes collegues des Universités Bordeaux 1, 2 et 4, de l’Université Paris
5, et tous les participants au Séminaire Statistique des Universités de Bordeaux et du Sé-
minaire Européan "Mathematical Methods in Survival Analysis and Reliability", avec les-
quels nous avons discuté sur les problèmes d’enseignement de la statistique. Les discus-
sions ont été très intéressantes et très utiles pour nous, et surtout avec A.Alioum„ Ch.Bulot,
D.Commenges, V.Couallier, L.Gerville-Réache, H.Lauter, M.Mesbah, J.Poix, V.Solev, V.Voinov.
Mikhail Nikouline

9
10
Chapitre 0

LOIS USUELLES.
APPROXIMATIONS.

0.1 Lois discrètes. Approximations normale et de Poisson.


Théorème limite central

Ici nous allons exposer des lois probabilistes que l’on utilise souvent en applications sta-
tistiques, des liaison entre elles et des approximations utiles. Plus d’information à ce sujet
on peut trouver dans les publications de L.Bolshev (1963), C.Huber et M.Nikulin (1993),
où, en particulier, est exposé la théorie des transformations asymptotique de Pearson, dé-
veloppée par L.Bolshev, voir aussi, L.Bolshev et N.Smirnov (1968), M.Nikulin (1984),
Bagdonaviv̧uis et Nikulin (2002).
Définition 1. On dit qu’une variable aléatoire discrète X suit la loi de Bernoulli de
paramètre p, p ∈ [0, 1], si X ne prend que 2 valeurs 1 et 0 avec les probabilités

p = P{X = 1} et q = 1 − p = P{X = 0},

i.e.
P{X = x} = px (1 − p)1−x , x ∈ {0, 1}. (1)
Il est clair que
1
EX = p, Var X = EX 2 − (EX)2 = pq ≤ .
4
On remarque que
Var X
= q < 1.
EX
Définition 2. Soient X1 , ..., Xn des variables aléatoires indépendantes et qui suivent la
même loi de Bernoulli (1) de paramètre p. Dans ce cas on dit que la statistique
n
µn = ∑ Xi
i=1

suit la loi binomiale B(n, p) de paramètres n et p, 0 ≤ p ≤ 1, et on note µn ∼ B(n, p).

11
Il est facile de montrer que
µ ¶
n
P{µn = k} = pk (1 − p)n−k , k ∈ {0, 1, ..., n}, (2)
k

Eµn = np, Var µn = np(1 − p) = npq.


La fonction de répartition de µn est
m µ ¶
n
P{µn ≤ m} = ∑ pk (1 − p)n−k = 1 − I p (m + 1, n − m) =
k=0
k

I1−p (n − m, m + 1), 0 ≤ m ≤ n, (3)


où Z x
1
Ix (a, b) = ua−1 (1 − u)b−1 du, 0 < u < 1, (4)
B(a, b) 0

est la fonction Béta incomplète de Euler (a > 0, b > 0),


Z 1
B(a, b) = ua−1 (1 − u)b−1 du (5)
0

la fonction Béta de Euler.


Exemple 1. Soit X1 , ..., Xn une suite de variables aléatoires, qui suivent la même loi de
Bernoulli de paramètre p = 0.5 :

P{Xi = 1} = P{Xi = 0} = 0.5.

Notons
Sn = X1 + ... + Xn et τ = min{k : Sk > a},
où a est une constante positive.
Construisons des variables aléatoires

Yn = Sτ+n − Sτ+(n−1) , n = 1, 2, ....

Il est facile de montrer que Y1 ,Y2 , ...,Yn , ... forment une suite de variables aléatoires indé-
pendantes, ayant la même loi de Bernoulli de paramètre p = 0.5 :

P{Yn = 1} = P{Yn = 0} = 0.5.

Définition 3. On dit qu’une variable aléatoire X suit la loi uniforme discrète sur l’en-
semble {1, 2, ..., N}, si

1
P{X = k} = , ∀k ∈ {1, 2, ..., N}.
N
Il est facile de montrer que

N +1 N2 − 1
EX = , Var X = .
2 12

12
Définition 4. On dit que la variable aléatoire discrète X suit la loi géométrique de
paramètre p, 0 < p < 1, si

P{X = k} = p(1 − p)k , ∀k ∈ {0, 1, 2, ...}.

On peut montrer que


1− p 1− p
EX = , Var X = ,
p p2
et la fonction de répartition de X est
n
P{X ≤ n} = ∑ p(1 − p)k = 1 − P{X ≥ n + 1} =
k=0

1 − I1−p (n + 1, 1) = I p (1, n + 1), n ∈ {0, 1, ...}.

On remarque que
Var X 1
= > 1.
EX p
Définition 5. On dit que la variable aléatoire discrète X suit la loi de Poisson de para-
mètre λ, λ > 0, si
λk
P{X = k} = e−λ , k ∈ {0, 1, 2, ...}.
k!
Il est facile de montrer que
EX = Var X = λ,

et donc
Var X
= 1.
EX
La fonction de répartition de X est

m
λk −λ
P{X ≤ m} = ∑ e = 1 − Iλ(m + 1),
k=0 k!

où Z x
1
Ix ( f ) = t f −1 e−t dt, x > 0,
Γ( f ) 0

est la fonction Gamma incomplète de Euler avec f degrés de liberté, f > 0.


Pour les calculs très approximatifs quand les valeurs de λ sont assez grandes on peut
utiliser l’approximation normale simple :
µ ¶ µ ¶
m + 0.5 − λ 1
P{X ≤ m} = Φ √ +O √ , λ → ∞.
λ λ

13
0.2 Approximations normales et de Poisson

Théorème Limite Central de Moivre-Laplace. Soit {Xn }∞ n=1 } une suite de variables
aléatoires indépendantes de même loi de Bernoulli de paramètre p, 0 < p < 1 :

P{Xi = 1} = p, P{Xi = 0} = q = 1 − p,
½ ¾
µn − np
µn = X1 + ... + Xn , Fn (x) = P √ ≤x , x ∈ R1 .
npq
Alors, uniformément par rapport à x, x ∈ R1 ,
Z x
1 2 /2
Fn (x) → Φ(x) = √ e−t dt, n → ∞.
2π −∞

Du théorème limite central il suit que pour les grands valeurs de n


½ ¾
µn − np
P √ ≤ x ≈ Φ(x).
npq

Souvent on utilise cette approximation avec la correction de continuité 0.5 :


½ ¾
µn − np + 0.5
P √ ≤ x ≈ Φ(x),
npq

voir, par exemple, Greenwood & Nikulin (1996).


Théorème de Poisson.
Soit {µn } une suite de variables binomiales, µn ∼ B(n, pn ), 0 < pn < 1, telle que

npn → λ, quand n → ∞, où λ > 0.

Alors
λm −λ
lim P{µn = m} = e .
n→∞ m!
En pratique cela signifie que pour n “grand” et p “petit” on obtient l’approximation de
Poisson de la loi binomiale B(n, p) par une loi de Poisson de paramètre λ = np :

λm −λ
P{µn = m} ≈ e .
m!
On peut montrer (J.L. Hodges et L. Le Cam, 1968) que
x µ ¶ √
n x
λm −λ C
sup | ∑ pm (1 − p)n−m − ∑ e |≤ √ , avec C ≤ 3 λ.
x m=0 m m=0 m! n

Théorème Limite Central de Lévy.


Soit {Xn }∞
n=1 une suite de variables aléatoires indépendantes de même loi telle que

EXi = µ et Var Xi = σ2

14
existent. Notons Sn = X1 + ...Xn . Alors, uniformément par rapport à x ∈ R1
½ ¾
Sn − nµ
P √ ≤ x → Φ(x), n → ∞.
σ n
Corrolaire 1. Dans les conditions du Théorème de Lévy on a : quelque soit ε > 0
½¯ ¯ √ ¾
1 n ¯ Sn − nµ ¯ ε n
P{| ∑ X j − µ| ≥ ε} = P ¯¯ √ ¯¯ >
n j=1 σ n σ
µ√ ¶
ε n
≈ 2Φ − .
σ

Par exemple, si ε = 3σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.997,
j=1

si ε = 2σ/ n, alors
n
1
P{|
n ∑ X j − µ| ≤ ε} ≈ 0.965.
j=1

0.3 Lois continues. Liaisons entre des lois

Définition 1. On dit qu’une variable aléatoire U suit la loi uniforme sur [a, b], si la
densité de probabilité de U est donnée par la formule :
1
f (x; a, b) = 1 (x), x ∈ R1 .
b − a [a,b]
La fonction de répartition de U est
x−a
F(x; a, b) = P{U ≤ x} = 1 (x) + 1]b,+∞[ (x), x ∈ R1 .
b − a [a,b]
Il est facile de vérifier que
a+b (b − a)2
EU = , VarU = .
2 12
Remarque 1. Soit X une variable aléatoire continue. Notons F(x) sa fonction de répar-
tition. Il est facile de vérifier que la variable aléatoire U = F(X) suit la loi uniforme sur
[0, 1]. Souvent on dit que pour obtenir U on a appliquée la transformation de Smirnov.
Définition 2. On dit qu’une variable aléatoire Z suit la loi normale standard N(0, 1) ou
réduite, si la densité de probabilité ϕ(x) de Z est donnée par la formule
1 2
ϕ(x) = √ e−x /2 , x ∈ R1 . (1)

15
La fonction de répartition correspondante joue un rôle important dans la suite. Aussi lui
donne-t-on un nom particulier, on l’appelle Φ :
Z x
1 2 /2
Φ(x) = P{Z ≤ x} = √ e−z dz, x ∈ R1 . (2)
2π −∞

De (2) on déduit que


Φ(x) + Φ(−x) ≡ 1, x ∈ R1 . (3)
Soit x un nombre quelconque fixé et soit

p = Φ(x), 0 < p < 1. (4)

Si nous notons Ψ(y) = Φ−1 (y) la fonction inverse de y = Φ(x), 0 < y < 1, de (3) et (4) il
résulte que
Φ[Ψ(p)] ≡ p et Φ[Ψ(1 − p)] ≡ 1 − p (5)
pour tout p, 0 < p < 1. De plus comme

Φ(−x) = 1 − Φ(x) = 1 − p et − x = Ψ(1 − p),

quand x = Ψ(p), on en déduit que

Ψ(p) + Ψ(1 − p) ≡ 0, 0 < p < 1. (6)

Il est connu que EZ = 0, Var Z = 1.


Soit X = σZ + µ, où Z ∼ N(0, 1), |µ| < ∞, σ > 0. Dans ce cas on dit que X suit la
loi normale N(µ, σ2 ) de paramétres

µ = EX et σ2 = Var X. (7)

La densité de X est
µ ¶ ½ ¾
1 x−µ 1 (x − µ)2
ϕ =√ exp − , x ∈ R1 , (8)
σ σ 2πσ 2σ2

et la fonction de répartition est


¶ µ
x−µ
P{X ≤ x} = Φ , x ∈ R1 . (9)
σ

Définition 3. On dit qu’une variable aléatoire χ2f suit la loi de chi-deux à f degrés de
liberté, f > 0, si sa densité de probabilité est donnée par la formule

1 f
q f (x) = f
³ ´ x 2 −1 e−x/2 1]0,∞[ (x), x ∈ R1 , (10)
2 Γ 2f
2

où Z ∞
Γ(a) = t a−1 e−t dt, a>0 (11)
0
est la fonction Gamma de Euler.

16
Nous allons noter Q f (x) = P{χ2f ≤ x} la fonction de répartition de χ2f . Par des calculs
directs il est facile de montrer que

Eχ2f = f et Var χ2f = 2 f . (12)

Cette définition de la loi du chi-deux n’est pas constructive. Pour construire une variable
aléatoire χ2n , n ∈ N ∗ , il suffit de prendre n variables aléatoires indépendantes Z1 , ..., Zn , qui
suivent la même loi normale standard N(0, 1) et construire la statistique

Z12 + ... + Zn2 .

On peut montrer que P{Z12 + ... + Zn2 ≤ x} = Qn (x), i.e.,

Z12 + ... + Zn2 = χ2n (13)

suit la loi de chi-deux à n degrés de liberté. Souvent (13) on prend pour la définition de χ2n .
Nous allons suivre aussi cette tradition.
D’après le Théorème Limite Central il résulte que si n est assez grand alors on a l’ap-
proximation normale :
½ 2 ¾ µ ¶
χn − n 1
P √ ≤ x = Φ(x) + O √ .
2n n

On utilise aussi souvent pour la loi du χ2 l’approximation normale de Fisher, d’après la-
quelle µ ¶
q √ 1
P{ 2χ2n − 2n − 1 ≤ x} = Φ(x) + O √ , n → ∞.
n
Les meilleurs résultats donne l’approximation normale de Wilson-Hilferty :
"µr ¶r # µ ¶
x 2 9n 1
P{χn ≤ x} = Φ
2 3
−1+ +O , n → ∞.
n 9n 2 n

Définition 4. On dit qu’une variable aléatoire γ f suit la loi Gamma à f degrés de liberté
( f > 0), si pour tout x > 0
P{γ f ≤ x} = Ix ( f ), (14)
où x Z
1
Ix ( f ) = t f −1 e−t dt (15)
Γ( f ) 0
est la fonction Gamma incomplète de Euler.
Il est facile de vérifier que
1 2
χ = γf . (16)
2 2f
En effet, ∀x > 0 on a
Z 2x
1 1
P{ χ22 f ≤ x} = P{χ22 f ≤ 2x} = Q2 f (2x) = f t f −1 e−t/2 dt.
2 2 Γ( f ) 0

En faisant le changement de variable t = 2u, on trouve que


Z x
1 1
P{ χ22 f ≤ x} = u f −1 e−u du = Ix ( f ) = P{γ f ≤ x},
2 Γ( f ) 0

17
où γ f est une variable aléatoire qui suit la loi gamma à f degrés de liberté. En utilisant la
relation (16) on trouve que
1 1 1
Eγ f = E χ22 f = f , Var γ f = Var χ22 f = Var χ22 f = f .
2 2 4
Si f = 1, alors de (14) on déduit
Z x
P{γ1 ≤ x} = e−t dt = 1 − e−x , x > 0, (17)
0
c’est-à-dire que la variable aléatoire γ1 suit la loi exponentielle standard. De cette propriété
et de (16) on tire que 12 χ22 suit la loi exponentielle standard aussi.
Théorème 1 Soient X1 , ..., Xn des variables aléatoires indépendantes, qui suivent la
même loi exponentielle (17). Alors leur somme suit la loi gamma à n degrés de liberté, i.e.
X1 + ... + Xn = γn . (18)
Remarque 2. Soit X une variable aléatoire qui suit la loi de Poisson de paramètre λ,
λ > 0. Il est facile de montrer que pour tout m ∈ N
P{X ≤ m} = P{γm+1 ≥ λ} = P{χ22m+2 ≥ 2λ} =
1 − P{χ22m+2 ≤ 2λ} = 1 − Q2m+2 (2λ). (19)
En effet, soit γm une variable aléatoire qui suit la loi gamma de paramètre m. Dans ce cas la
fonction de survie de γm est
Z ∞
1
P{γm ≥ λ} = xm−1 e−x dx =
Γ(m) λ
Z ∞
1 1
e−x dxm = P{γm+1 ≥ λ} − e−λ λm ,
Γ(m + 1) λ Γ(m + 1)
i.e. on a reçu que
λm −λ
P{γm+1 ≥ λ} = P{γm ≥ λ} + e ,
m!
d’où par la récurrence il résulte que pour tout m ∈ {0, 1, 2, ...}
Z ∞
λkm
1
P{X ≤ m} = ∑ e−λ = P{γm+1 ≥ λ} = xm e−x dx.
k=0 k! Γ(m + 1) λ

Supposons maintenant que λ est grand (en pratique cela signifie que λ ≥ 25). Comme
EX = Var X = λ
de l’inégalité de Tchebyshev il suit que nous pouvons compter que
m − λ = o(λ), λ → ∞,
parce que pour chaque m, qui ne vérifie pas cette condition, la probabilité P{X ≤ m} coin-
cide pratiquement avec 0 ou avec 1. De l’autre côté, de la relation (19) et de l’approxima-
tion normale pour la loi du chi-deux on obtient l’approximation normale de Bolshev (1963),
d’après laquelle
( )
χ22m+2 − (2m + 2) 2λ − 2m − 2
P{X ≤ m} = 1 − P √ ≤ √ =
4m + 4 4m + 4

18
µ ¶ µ ¶ µ ¶ µ ¶
λ−m−1 1 m−λ+1 1
1−Φ √ +O √ =Φ √ + O √ , λ → ∞.
m+1 λ m+1 λ
On remarque que en utilisant l’approximation normale de Fisher pour la loi de chi-deux on
obtient facilement une autre approximation normale de Bolshev :
√ √
P{X ≤ m} = P{χ22m+2 ≥ 2λ} ≈ 1 − Φ( 4λ − 4m + 3) =
√ √ p √
Φ( 4m + 3 − 2 λ) = Φ( 4(m + 0.5) + 1 − 2 λ), λ → ∞.
Le nombre 0.5 dans la dernière formule peut être considéré comme la correction de conti-
nuité dans cette approximation.
En pratique cela signifie que
³√ √ ´ √ √
P{X ≤ m} ≈ Φ 4m + 1 − 2 λ ≈ Φ(2 m − 2 λ), λ → ∞,
√ √
i.e., si λ ≥ 25, alors la statistique 4X + 1 suit approximativement la loi normale N(2 λ, 1).
Les meilleurs résultats on obtient en utilisant l’approximation de Wilson-Hilferty, voir, par
exemple, Bolshev (1963), Huber et Nikulin (1993), Nikulin (1984), d’après laquelle
" Ã r !#
√ λ 4
P{X ≤ m} = P{χ2m+2 ≥ 2λ} ≈ Φ 3 m + 1 1 −
3
− .
m + 1 9(m + 1)

Définition 5. On dit que la variable aléatoire β = βa,b suit la loi Béta de paramètres a
et b (a > 0, b > 0), si la densité de β est
1
f (x; a, b) = xa−1 (1 − x)b−1 1]0,1[ (x), (20)
B(a, b)
où Z 1
Γ(a)Γ(b)
B(a, b) = t a−1 (1 − t)b−1 dt = (21)
0 Γ(a + b)
est la fonction Béta de Euler.
En notant x Z
1
Ix (a, b) = t a−1 (1 − t)b−1 dt (22)
B(a, b) 0
la fonction incomplète Béta de Euler, on voit que

P{β ≤ x} = Ix (a, b), 0 < x < 1, (23)

et
P{β > x} = 1 − Ix (a, b) = I1−x (b, x), 0 < x < 1.
Il est facile de vérifier que
a ab
Eβ = , Var β = . (24)
a+b (a + b)2 (a + b + 1)
Remarque 4. Soit µn une variable aléatoire Binomiale de paramétres n et p. Il est facile
de montrer que pour m = 0, 1, ..., n
m µ ¶
n
P{µn ≤ m} = ∑ pk (1 − p)n−k = I1−p (n − m, m + 1). (25)
k=0
k

19
Remarque 5. Soit γn et γm sont indépendantes. Il est utile de remarquer que les statis-
tiques
γn
β= γn+m = γn + γm
γn + γm
sont indépendantes, β suit la loi béta de paramètres a = n et b = m, γn+m suit la loi gamma
à n + m degrés de liberté.
Définition 6. Soit
1 1
χ2m = γ m2 et χ2n = γ 2n
2 2
indépendantes. Dans ce cas on dit que la statistique

m χm
1 2 nγm/2 1
Fm,n = = = (26)
n χn
1 2 mγn/2 Fn,m

la loi de Fisher à n et m degrés de liberté (m > 0, n > 0).


La fonction de répartition de Fm,n est
m n
mx (
P{Fm,n ≤ x} = I n+mx , ), x > 0. (27)
2 2
On peut montrer que si n > 2, alors
n
EFm,n =
n−2
et si n > 4, alors
2n2 (n + m + 2)
Var Fm,n = .
m(n − 2)2 (n − 4)
Posant
1 2
χ ,
Fm,∞ =
m m
on en tire l’approximation de Fisher, d’après laquelle pour tout m fixé
µ ¶
1
P{Fm,n ≤ x} = P{χm ≤ mx} + O √ , n → ∞.
2
n

Si m = 1, on en déduit que

P{F1,∞ ≤ x} = P{χ21 ≤ x} = 2Φ( x) − 1.

Cette relation nous permet de calculer les valeurs de Φ(x) en utilisant les tables statistiques
de la loi F. La relation suivante
χ2
F1,n = 1 12 = tn2 (28)
n χn
nous montre que F1,n représente le carré de la variable aléatoire tn de Student à n degrés de
liberté, d’où on tire que pour chaque x ∈ R1

1 n
P{F1,n ≤ x2 } = P{tn2 ≤ x2 } = I x2 ( , ) = 2Sn (|x|) − 1, (29)
n+x2 2 2

20

¡ ¢Z µ
2 ¶− 2
n+1
1 Γ n+1 x u
Sn (x) = P{tn ≤ x} = √ ¡2¢ 1+ du (30)
πn Γ n2 −∞ n
est la fonction de répartition de la variable aléatoire tn de Student à n degrés de liberté. La
variable aléatoire tn peut être construite par la façon suivante.
Soit X = (X1 , ..., Xn )T un échantillon normale, Xi ∼ N(µ, σ2 ). On construit deux statis-
tiques
1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2 ,
n i=1 n i=1
représentant les meilleurs estimateurs sans biais pour µ et σ2 . Alors la variable aléatoire
√ X̄n − µ
tn = n−1 (31)
Sn
suit la loi de Student à n degrés de liberté :

P{tn ≤ x} = Sn (x), x ∈ R1 .

De (28) on tire que, si n → ∞, alors, puisque


1 2 P
χ → 1, (32)
n n
on a µ

1
Sn (x) = Φ(x) + O √ , x ∈ R1 ,
n
i.e. pour les grandes valeurs de n la loi de Student est approximée par la loi normale stan-
dard.
Par contre, si dans (28)-(30) on pose n = 1, on en tire que la variable aléatoire t1 suit la
loi de Student à 1 degré de liberté
Z x
1 dt
P{t1 ≤ x} = S1 (x) = , x ∈ R1 . (33)
π −∞ 1 + t
2

Cette loi est plus connue sous le nom de la loi standard de Cauchy ou tout simplement de
Cauchy. Cette loi nous donne un très simple exemple d’une variable aléatoire t1 , dont l’es-
pérance mathématique n’existe pas. Un autre exemple intéressant lié avec la loi de Cauchy
est le suivant.
Soit X = (X1 , ..., Xn )T un échantillon de la loi de Cachy de densité

1
, x ∈ R1 ,
π[1 + (x − µ)2 ]

avec le paramètre de translation µ, |µ| < ∞. Dans ce cas la statistique

1 n
X̄n = ∑ Xi
n i=1

suit la même loi de Cauchy que Xi et donc X̄n ne converge pas en probabilité vers µ.

21
Exercices 1. Soit X suit la loi standard de Cauchy . Montrer que les statistiques
1 2X 3X − X 2
, ,
X 1 − X2 1 − 3X 2
suivent la même loi de Cauchy.
Exercices 2. Soient X et Y deux variables aléatoires standards normales indépendantes.
Trouver la loi de Z = X/Y .
Exercices 3. Soit X = (X1 , ..., Xn ) un échantillon,
1 −1
P{Xi = k} = e , k ∈ N,
k!
i.e. Xi suit la loi de Poisson de paramètre λ = 1. Considérons la statistique

Sn = X1 + ... + Xn , n = 1, 2, ....

1. Montrer que Sn suit la loi de Poisson de paramètre λ = n :


nk −n
P{Sn = k} = e , k ∈ N,
k!
en particulier
nn −n
pn = P{Sn = n} = e , n ∈ N∗ .
n!
2. En utilisant le théorème limite central montrer que
µ ¶ µ ¶
1 1 1 1
pn ≈ Φ √ − Φ − √ ≈ √ ϕ(0) = √ , (n → ∞),
2 n 2 n n 2πn
où Φ(·) est la fonction de répartition de la loi normale standard, ϕ(x) = Φ0 (x).
3. En utilisant 1) et 2) obtenir la formule asymptotique de Stirling

n! ≈ 2πnnn e−n , (n → ∞).

0.4 Epreuves de Bernoulli et marches aléatoires.

0.5 Représentation d’une suite d’épreuves de Bernoulli


indépendante

Considérons une suite d’épreuves de Bernoulli indépendantes avec la probabilité de


succès p (0 < p < 1).
On peut représenter l’ensemble des résultats possibles de cette expérience à l’aide de la
marche aléatoire d’une particule se déplaçant sur un treillis S dans le plan (xOy)

S = {(x, y); x ∈ N; y ∈ N}. (voir fig. 1)

22
Donc, un résultat de l’expérience sera représenté par un chemin dans le treillis S.
Si, après une épreuve, la particule se trouve au point de coordonnées (x, y), après l’épreuve
suivante elle se trouvera soit au point (x, y + 1) avec la probabilité p s’il y a eu succès, soit
au point (x + 1, y) avec la probabilité q = 1 − p s’il y a eu échec parce qu’il n’y a pas d’autre
possibilité.
Nous supposerons que le point de départ de la particule est l’origine des axes O(0, 0). Soit
A0 , A1 , · · · , An , · · · la suite des points obtenus à l’issue de l’expérience, A0 = O(0, 0). Un
chemin dans S peut être représenté par une ligne brisée reliant ces points (fig. 1).
On peut associer à cette expérience la suite X1 , X2 , · · · , Xn , · · · des variables aléatoires indé-
pendantes de Bernoulli,
½
1, s’il y a eu succès à la i-ème epreuve,
Xi =
0, s’il y a eu échec à la i-ème epreuve.

Ces variables aléatoires sont idépendantes par construction et

P{Xi = 1} = p et P{Xi = 0} = q.

0.6 Probabilités associées à une marche aléatoire reliant


2 points du treillis S

Soient Ax et AX les points de S dont les coordonnées sont (x, y) et (X,Y ) respectivement
(0 ≤ x ≤ X; 0 ≤ y ≤ Y ).

23
Un chemin reliant Ax à AX comporte (X − x) déplacements horizontaux et (Y − y) déplace-
ments verticaux, chaque combinaison différente définissant un chemin différent ; le nombre
de chemins possibles relient Ax à AX sera donc :
µ ¶ µ ¶
X − x +Y − y X − x +Y − y
= . (1)
X −x Y −y
Il est évident que chacun de ces chemins a la même probabilité de réalisation égale à
pY −y (1 − p)X−x , (2)
donc la probabilité d’arriver au point AX en étant parti du point Ax est
µ ¶
X − x +Y − y
pY −y (1 − p)X−x . (3)
X −x
En particulier, si on part de l’origine A0 , la probabilité d’arriver en AX est
µ ¶
X +Y
pY (1 − p)X . (4)
X
Remarque 1. De façon évidente, on déduit des formules précédentes que le nombre de
chemins possibles pour aller de Ax (x, y) à AU (u, v) en passant par AX (X,Y ) est égal au
produit du nombre de chemins allant de Ax à AX par le nombre de chemins allant de AU à
AX .

0.7 Frontière absorbante

Nous allons nous intéresser aux expériences pour lesquelles la réalisation de la marche
aléatoire est limitée (avec la probabilité 1) par une frontière absorbante B (B ⊂ S). Cela
signifie que l’expérience s’arrête dès que la particule a atteint la frontière. Un point b ∈ B
est appelé point limite ou point frontière. Si un chemin atteint ce point, il s’arrête. On dit
que b est une réalisation de la statistique temps d’arrêt.
Nous verrons plus tard que pour certaines expériences, la seule connaissance des coordon-
nées du point de la frontière où le chemin s’arrête nous permet d’estimer de la meilleure
façon le paramétre p lorsque celui-ci est inconnu.
La frontière B est généralement définie par une équation de la forme y = f (x). Nous allons
étudier différentes frontières et leur associer des variables aléatoires connues.

0.8 Marches aléatoires et distributions discrètes

Loi de Bernoulli (fig. 2)

Considérons une marche aléatoire à 1 pas dans un treillis limité par la frontière B donné
par l’équation :
x + y = 1.

24
Dans ce cas il existe seulement 2 points limites. Si nous considérons la variable aléatoire
X qui prend la valeur 1 lorsque le chemin se termine en A1 (0, 1) et la valeur 0 lorsqu’il se
termine en A01 (0, 1) nous obtenons :
P{X = 1} = p et P{X = 0} = 1 − p, 0 < p < 1.
La variable X suit une distribution de Bernoulli de paramètre p : X ∼ B(1, p) = B(p).
X représente le résultat d’une unique épreuve de Bernoulli.
On peut par exemple associer à cette épreuve un contrôle de qualité :
on contrôle un article dans une production et on lui affecte la note 1 s’il est deféctueux, 0
s’il est bon.

Loi Binomiale (fig. 3)

Considérons une marche aléatoire dans le treillis S commençant à l’origine et limitée par
la frontière B d’équation x + y = n (le nombre de points frontières est n + 1). Cette marche
comporte n pas. Nous pouvons associer à cette marche n variables aléatoires de Bernoulli
indépendantes de paramètres p : X1 , X2 , · · · , Xn .
Considérons la statistique :
n
Tn = ∑ Xi .
i=1
Elle représente le nombre de succès au cours des n épreuves ou bien le nombre d’articles
défectueux dans un échantillon de taille n si on s’intéresse à un probléme de contrôle de
qualité.
Pour tout k = 0, 1, · · · , n l’événement {Tn = k} est équivalent à une marche aléatoire se
terminant au point b de B de coordonnées (n − k, k). Par suite d’après (4)
n k
P{Tn = k} = ( )p (1 − p)n−k , k = 0, 1, · · · , n,
k

25
et donc la loi de Tn est une loi binomiale de paramètres n et p, Tn ∼ B(n, p).

Loi géométrique (fig. 4)

Supposons maintenant que la frontière B a pour équation y = 1. Cela siginifie que la


marche aléatoire s’arrête dès qu’on a obtenu le premier succès. Les points limites sont dans
ce cas les points de coordonnées (x, 1), x ∈ N, et la probabilité d’arriver au point (x, 1)
par un chemin issu de l’origine est
p(1 − p)x .
Nous pouvons associer à cette marche la variable aléatoire Z : rang du premier succès" ou
"rang du premier article défectueux" rencontré dans le lot.
L’événement {Z = k}, k ∈ N ∗ , est équivalent à une marche aléatoire se terminant au point
de B de coordonnées (k − 1, 1) et par suite

P{Z = k} = p(1 − p)k−1 .

On dit que Z suit la loi géométrique de paramètre p : Z ∼ G(p).


On peut montrer que
1 1− p
EZ = et VarZ = 2 .
p p

Loi binomiale négative (fig. 5)

On choisit la frontière B donné par l’équation y = r. Cela signifie que l’expérience


cesse dès qu’on a obtenu le r-ème succès. Si la marche considérée comporte k étapes,

26
r ≤ k k ∈ N, on doit avoir k − r déplacements horizontaux et r déplacements verticaux
mais le dernier pas est obligatoirement un déplacement vertical : le point (k − r, r) n’est
accessible qu’à partir du point (k − r, r − 1) et ce passage se fait avec la probabilité p.
Considérons la statistique Sr , rang du r-ème succès.
Alors

µ ¶
k−1
P{Sr = k} = pr−1 (1 − p)k−r p, k = r, r + 1, · · · .
r−1

On dit que Sr suit la loi binomiale négative de paramètres r et p, Sr ∼ NB(r, p).

Remarques

1. Si r = 1, on retrouve la loi géométrique de paramètre p : G(p).

2. Soient Z1 , Z2 , · · · , Zr r variables aléatoires indépendantes de même loi géométrique


de paramètre p Zi ∼ G(p). Alors la statistique

r
Sr = ∑ Zi
i=1

suit de façon évidente la loi binomiale négative de paramètres r et p et on en déduit


que

r r(1 − p)
ESr = et VarSr = .
p p2

3. De la même façon, on constate que si Z1 , · · · Zn sont n variables aléatoires indépen-


dantes, Zi ∼ NB(ri , p), alors la statistique :

n
Un = ∑ Zi
i=1

suit la loi binomiale négative de paramètres r = ∑ni=1 ri et p.

Loi de Polya (fig. 6)

27
On choisit la frontière B donnée par l’équation y = x + r, r ∈ N ∗ . Cela signifie qu’on
arrête l’expérience dès que le nombre de succès est supérieur de r au nombre d’échecs (ou
que le nombre d’articles défectueux dépasse de r le nombre d’articles bons).
Une marche issue de l’origine O et s’arrêtant au point frontière de coordonnées
(k, r + k), k ∈ N, comporte donc (k, k + r) étapes mais le point(k + r, k) n’est accessible
qu’à partir du point M(k, k + r − 1) par un chemin qui ne doit pas avoir encore rencontré
la frontière. Le nombre de chemins allant de O à M et qui touchent ou coupent la frontière
peut être calculé de la façon suivante : lorsque le chemin touche la frontière B pour la
première fois on prend son symétrique par rapport à B : c’est un chemin qui arrive au point
M 0 (k − 1, k + r) (symétrique de M par rapport à B). Le nombre de chemins reliant O à M 0
est égale à
µ ¶
2k + r − 1
k−1
et le nombre de chemins reliant O à M est égale à
µ ¶
2k + r − 1
,
k

d’où on déduit donc que le nombre de réalisations possibles de la marche considérée est
égale à
µ ¶ µ ¶ µ ¶
2k + r − 1 2k + r − 1 (2k + r − 1)! r 2k + r
− = (k + r − k) = .
k k−1 k!(k + r)! 2k + r k

Si nous associons à cette marche la variable Vr : rang de l’épreuve pour laquelle le nombre
de succès est pour la première fois supérieur de r au nombre d’échecs, alors l’événement
{Vr = v} est équivalent à une marche partant de l’origine et comportant v étapes :
v − r/2 déplacements horizontaux et v − r/2 déplacements verticaux.
De façon évidente on doit avoir v ≥ r et v − r ∈ 2N, c’est-à-dire v = 2k + r, k ∈ N.
Dans ce cas, pour r > 0 on a :
µ ¶
r 2k + r
P{Vr = v} = P{Vr = 2k + r} = pk+r (1 − p)k .
2k + r k

Examinons le cas r = 0. Nous devons dans ce cas considérer les chemins partant non plus
de l’origine O mais du point A1 (1, 0).
Un raisonnement analogue du précédent nous montre alors que
·µ ¶ µ ¶¸
2k − 2 2k − 2
P{V0 = 2k} = − [p(1 − p)]k =
k−1 k
µ ¶
2k − 1
2(k − 1) [p(1 − p)]k .
k

Loi hypergéométrique (fig. 7)

28
Soient N et M deux entiers positifs fixés et 0 ≤ M ≤ N.
Considérons une marche aléatoire dans le treillis S limitée par la frontière B : x + y = N.
Nous nous intéressons plus particulièrement à la marche aléatoire partant de l’origine et
atteignant le point B de coordonnées (N − M, M). Soit
n
Tn = ∑ Xi , où Xi ∼ B(p),
i=1

les Xi étant indépendantes, et donc Tn ∼ B(n, p). Nous savions que TN = M et il est intéres-
sant de savoir comment cette information influe sur la distribution de la statistique Tn , n < N.
C’est-à-dire que, sachant que la marche a atteint le point (N − M, M), nous allons évaluer
la probabilité pour qu’après n pas elle soit à un point donné de la frontière

β : x + y = n.

Nous cherchons donc la probabilité :

P{Tn = k; TN = M}
P{Tn = k|TN = M} = ,
P{TN = M}


Max(0, n + M − N) ≤ k ≤ Min(n, M).
On sait que :
µ
¶µ ¶
n N −n
P{Tn = k; TN = M} = pk (1 − p)n−k .pN−k (1 − p)N−n =
k M−k
µ ¶µ ¶
n N −n
= pM (1 − p)N−M
k M−k
et µ ¶
N
P{TN = M} = pM (1 − p)N−M .
M
Par suite, la probabilité cherchée est égale à
µ ¶µ ¶ µ ¶µ ¶
n N −n N −M M
k M −k n−k k
P{Tn = k|TN = M} = µ ¶ = µ ¶ ,
N N
M n


1 ≤ n ≤ N, 1 ≤ M ≤ N, Max(0, n + M − N) ≤ k ≤ Min(n, M).
Cette loi conditionnelle de Tn est la loi hypergéométrique H(N, M, n) de paramètres N, M
et n. On peut remarquer qu’elle ne dépend pas du paramètre p .
On peut montrer que si X suit une loi H(N, M, n), alors

nM n(N − n)M(N − M)
EX = et Var X = .
N N 2 (N − 1)

29
30
Chapitre 1

QUELQUES PROBLÈMES
CLASSIQUES DE LA STATISTIQUE
MATHEMATIQUE.

1.1 Problèmes d’estimation et de comparaison des proba-


bilités de succès.

Exemple 1. Estimation de la probabilité dans le schéma d’expériences de Bernoulli.


On a coutume de considérer l’hypothèse H0 : p = 0.5 selon laquelle la probabilité de la
naissance d’un garçon est la même que celle d’une fille. On possède beaucoup de données
statistiques pour sa vérification. Nous utiliserons ceux qui ont été données sur la Suisse :
entre 1871 et 1900 naquirent en Suisse n = 2644757 enfants et parmi eux

µn = 1359671 garçons et n − µn = 1285086 filles.

Est-ce que ces données confirment l’hypothèse H0 : p = 0.5 ?


Nommons succès ( !) la naissance d’un garçon et posons la question autrement en uti-
lisant le schéma d’expériences de Bernoulli avec la probabilité de succès p. L’hypothèse
H0 : p = 0.5 concorde-t-elle avec le fait que dans la série de n = 2644757 expériences la
fréquence de “succès” soit égale à

µn 1359671
= = 0.5141?
n 2644757
Il est évident que si au lieu de l’hypothèse H0 : p = 0.5 on avait pris une autre hypothèse
H1 : p = 0.1, par exemple, alors cette hypothèse H1 serait rejetée par tous comme une
hypothèse peu probable (ou même impossible). La question est : sur quoi est basée cette
décision ?
La réponse peut être donnée puisqu’on sait que l’estimateur
µn
p̂n =
n

31
de la probabilité p, p ∈]0, 1[, est basé sur la statistique µn qui suit une loi binomiale B(n, p)
µ ¶
n
P{µn = k|p} = P p {µn = k} = pk (1 − p)n−k , k = 0, 1, . . . , n,
k

d’où on tire que


E p µn = np, Varµn = np(1 − p),
et par conséquent pour tout p ∈]0, 1[

µn µn p(1 − p)
Ep =p et Var = .
n n n
De l’inégalité de Tchebyshev il suit que pour tout ε > 0

P p {| p̂n − p| > ε} → 0, quand n → ∞. (1)

Nous disons que { p̂n } est une suite consistante (cohérente) d’estimateurs sans biais du
paramètre p, puisque
Pp
E p p̂n = p et p̂n → p.
La relation (1) on peut préciser, notamment, pour tout λ > 0 on a :
r
p(1 − p) 1
P p {| p̂n − p| < λ } ≥ 1− 2.
n λ
En particulier, si λ = 2, on en tire que
1
P p {| p̂n − p| < √ } ≥ 0.75.
n
En utilisant l’approximation normale, basée sur le théorème limite central de de Moivre-
Laplace, on a
 
 µn − p 
lim P p q n
≤ x = Φ(x) pour tout x ∈ R1 , (2)
n→∞  p(1−p) 
n

où Z
x
1 2
Φ(x) = √ e−t /2 dt, −∞ < x < ∞. (3)
2π −∞
En prenant α assez petit, 0 < α < 0.5 ), ( on va appeler ce nombre α le niveau de significa-
tion, on peut affirmer, par exemple, que
½ r ¾
n µn
P p −x̄α/2 ≤ ( − p) ≤ x̄α/2 ≈ 1 − α, (4)
p(1 − p) n

où le nombre x̄α/2 est donné par

Φ(x̄α/2 ) = 1 − α/2. (5)

La quantité x̄α/2 s’appelle quantile supérieur de niveau α/2 de la loi normale standard.

32
Par exemple,

x̄α/2 = 3 est le quantile supérieur de niveau α/2 = 0.00135,


½¯r ¯ ¾
¯ n µ ¯
P p ¯¯ ( − p)¯¯ > 3 ≈ 0.0027 = α,
n
p(1 − p) n
tandis que

le quantile x̄α/2 = 4 correspond déjà à α/2 = 0.00003167 (= 0.0000),

d’oú on tire que ½¯r ¯ ¾


¯ n µn ¯
¯
P ¯ ¯
( − p)¯ > 4 ≈ 0.000063,
p(1 − p) n
(en pratique cette probabilité = 0.000) et
½¯r ¯ ¾
¯ n µ ¯
P ¯¯ ( − p)¯¯ ≤ 4 ≈ 0.999937
n
p(1 − p) n

(en pratique cette probabilité = 1).


Revenons à nos données et à l’hypothèse H0 . L’hypothèse H0 suppose que p = 0.5 et
donc sous H0 on a : r µ ¶
n ³µ ´ √ µn 1
n
−p =2 n − .
p(1 − p) n n 2
Tout d’abord on remarque qu’il y a 3 contrehypothèses naturelles pour H0 :

H1 : p 6= 0.5, H1+ : p > 0.5, H1− : p < 0.5

qui sont en concurence avec H0 . Il est naturel de dire que l’intervalle

S = [−x̄α/2 , x̄α/2 ] ⊂ R1

représente l’ensemble des valeurs de la statistique


µ ¶
√ µn 1
Tn = T (µn ) = 2 n − ,
n 2

qui sont favorable à l’hypothèse H0 , tandis que l’ensemble


[ [
K = R1 \ S = K1− K1+ =] − ∞, −x̄α/2 [ ]x̄α/2 , ∞[,

appelé la région critique pour H0 , représente l’ensemble des valeurs de la statistique Tn , qui
sont favorable à H1 . Par contre, l’ensemble S s’appelle la région d’acceptation de l’hypo-
thèse H0 .
On remarque que

P{Tn ∈ S | H0 } ≈ 1 − α, P{Tn ∈ K|H0 } ≈ α.

Il est clair que l’événement


{Tn ∈ K1− } ⊂ {Tn ∈ K}

33
est favorable à H1− , et l’événement

{Tn ∈ K1+ } ⊂ {Tn ∈ K}

est favorable à H1+ , et que


α
P{Tn ∈ K1− |H0 } = P{Tn ∈ K1+ |H0 } ≈ .
2
Dans notre cas pour les données de Suisse nous constatons que
µ ¶ r
√ µn 1 2644757
Tn = T (µn ) = 2 n − = (0.5141 − 0.5) = 45.86 > 4,
n 2 0.5 · 0.5

i.e. l’événement {Tn > 4} est apparu. La valeur observée de Tn est très supérieure à la
valeur critique x̄α/2 = 4, correspondant au niveau de signification α/2 = 0.00003167, qui
est égal pratiquement à 0, et donc ce phenomène doit être considéré comme impossible sous
l’hypothèse H0 : p = 0.5. Que devons nous faire ? Il faut évidemment rejeter l’hypothèse
H0 : p = 0.5 en faveur de H1 , puisque Tn ∈ K. Nous disons que l’hypothèse H0 ne concorde
pas avec les données observées. En plus comme dans l’expérience on a observé l’événement
{Tn ∈ K1+ }, il est raisonable d’accepter l’hypothèse H1+ . Comme estimateur de la valeur
inconnue de p sous l’hypothèse H1+ il est recommandé de prendre p̂n = 0.514.
Enfin de (4) on tire que
r r
µn p(1 − p) µn p(1 − p)
P{ − x̄α/2 ≤ p ≤ + x̄α/2 } ≈ 1 − α,
n n n n
c’est-à-dire pour les grandes valeurs de n on obtient l’intervalle de confiance pour p avec
le coefficient de confiance P ≈ 1 − α :
µn 1 µn 1
P{ − x̄α/2 √ ≤ p ≤ + x̄α/2 √ } ≈ 1 − α (= 0.9973 si x̄α/2 = 3).
n 2 n n 2 n

Si, par exemple,


α
= 0.00135 i.e. α = 0.0027,
2
dans ce cas x̄α/2 = 3 et d’après nos données on obtient la réalisation de l’intervalle de
confiance
0.5141 − 0.0003x̄α/2 ≤ p ≤ 0.5141 + 0.0003x̄α/2 ,
i.e.
0.5132 ≤ p ≤ 0.5150.
Remarque 1. On remarque que

Φ(0) = 0.500000, Φ(1) = 0.841345, Φ(1.6) = 0.945201, Φ(2) = 0.97725,

Φ(2.6) = 0.995339, Φ(3) = 0.998650, Φ(4) = 0.999968,


où Φ(x) est donnée par (3), i.e.

0 = x̄0.5 , 1 = x̄0.158655 , 1.6 = x̄0.054799 , 2 = x̄0.02275 , ...

34
Exemple 2. K. Pearson a jeté une pièce symétrique n = 24000 fois et a observé

µn = 12012

succès. On sait que


µn
p̂n =
n
est un bon estimateur pour la probabilité de succès p = 0.5 (on a supposé que la pièce est
symétrique c’est-à-dire l’hypothèse H0 : p = 0.5). Dans notre cas p̂n = 0.5005. Nous savons
que
1
E p̂n = 0.5 et Var p̂n = .
4n
En étudiant le résultat de l’expérience de K. Pearson, nous pouvons constater que la statis-
tique µn a pris une valeur très proche de sa moyenne Eµn = np = 12000. Est-ce vraisem-
blable ou non ? On note que sous l’hypothèse H0 : p = 0.5 on a
n
Varµn = np(1 − p) = ,
4
et comme l’écart-type de µn est
p p
Varµn = np(1 − p) = 77.5,

on pourrait donner plusieurs raisons à l’apparition de l’événement


n n o
|µn − | > 77.5 = {|µn − 12000| > 77.5}
2
Mais dans son expérience K. Pearson a obtenu

|µn − 12000| = 12 ¿ 77.5.

On pourrait penser que c’est trop beau pour être vrai. Quelle est donc la probabilité d’ob-
server l’événement {|µn − n2 | ≤ 12} sous l’hypothèse H0 ?
On a ½ ¯ ¾
n |µn − n2 | 12 ¯¯
P{|µn − | ≤ 12|H0 } = P √ ≤ H0 ≈
2 n 0.5 · 0.5 77.5 ¯
1
≈ Φ(0.155) − Φ(−0.155) ≈ 0.124 = .
8
Il est évident que cet événement est bien probable, donc K. Pearson pouvait observer ce
résultat.
Exemple 3. Supposons que nous avons un générateur de nombres aléatoires et que ce géné-
rateur nous fournit les “nombres aléatoires” x1 , x2 , ..., xn qu’on peut considérer (hypothèse
H0 ) comme des réalisations de variables aléatoires indépendantes

X1 , X2 , ..., Xn ,

ayant chacune la distribution discrète uniforme sur l’ensemble S = {0, 1, ..., 9} i.e.,

P{X j = i | H0 } = 0.1, i ∈ S. (6)

35
Considérons maintenant un échantillon X = (X1 , X2 , ..., Xn )T de taille n = 10 000, associé
au générateur de nombres aléatoires mentionné précédemment. Nous désirons tester l’hypo-
thèse H0 que l’échantillon X est issu de la distribution uniforme (1) si dans notre échantillon
on a observé seulement 4999 fois xi ne dépassant pas 4. Quel niveau de signification doit
on avoir pour rejeter H0 ?
Solution. Soit
µn = #{Xi ≤ 4}. (7)
On remarque que
P{Xi ≤ 4|H0 } = 0.5.
D’après nos données :
µn 4999
p̂n = =
n 10 000
qui est très voisin de 0.5. Par ailleurs, sous l’hypothèse H0 , la statistique µn suit une distri-
bution binomiale B(n, p) de paramètres n = 10 000, p = 0.5 et donc sous H0
Eµn = np = 5000 and Varµn = np(1 − p) = 2500. (8)
D’où pour tout x = 1, 2, ..., d’après le théorème de de Moivre-Laplace, nous avons (avec la
correction de continuité de 0.5)
nn n o
P{| µn − np |≤ x | H0 } = P − x ≤ µn ≤ + x|H0 ≈
2 2
µ ¶ µ ¶ µ ¶
0.5n + x + 0.5 − 0.5n 0.5n − x − 0.5 − 0.5n 2x + 1
Φ √ −Φ √ = 2Φ √ − 1. (9)
n · 0.5 · 0.5 n · 0.5 · 0.5 n
Notons α le niveau de signification du test (0 < α < 0.5) avec la région critique :

¯ n ¯¯ o nn n o
¯µn − ¯ ≤ x̄α/2 = − x̄α/2 ≤ µn ≤ + x̄α/2 . (10)
2 2 2
Alors, à la valeur critique x̄α/2 , correspond le niveau de signification α :
µ ¶
2x̄α/2 + 1
α ≈ 2Φ √ − 1, (n = 10000). (11)
n
En particulier, si x̄α/2 = 1, alors
µ ¶
3
α ≈ 2Φ √ − 1 = 2Φ(0.03) − 1 = 2 · 0.512 − 1 = 0.024.
n
Inférence statistique : d’après le test statistique, basé sur la région critique :
{| µn − 5000 |≤ 1},
l’hypothèse H0 sera rejetée avec le niveau de signification α ≈ 0.025, puisque
P{|µn − 5000| ≤ 1|H0 } ≈ 0.024 < α = 0.025.
(Voir, aussi, Cuadras C., Nikulin (1993)).
Exemple 4. Le problème du Chevalier de Méré. D’abord on considère l’épreuve sui-
vante : on jette 4 fois un dé.
Soit A l’événement :
A = {obtenir au moins une fois le 1 au cours de cette expérience}.

36
Considérons ensuite la deuxième expérience qui consiste à jeter 24 fois 2 dés.
Soit B l’événement :

B = {obtenir au moins une fois le (1,1) au cours de cette expérience}.

Le Chevalier de Méré ayant supposé que

p1 = P(A) < p2 = P(B)

avait misé sur B. Avait-il raison ?


On remarque que
µ ¶4
5
p1 = P(A) = 1 − = 0.5177,
6
µ ¶24
35
p2 = P(B) = 1 − = 0.4914.
36
Mais Méré ne pouvait pas faire ces calculs. Par contre, il aurait pu faire une expérience pour
résoudre ce problème par des méthodes statistiques, basées sur la loi des grands nombres.
(1) (2)
Soient µn = µn (A) et µn = µn (B) les résultats de la modélisation de ces expériences
lorsqu’on les a répété n = 25, 50, 100, 250 fois chacune.

n 25 50 100 250
µn (A) 18 27 52 121
µn (B) 14 24 47 126

Ici µn (A) et µn (B) représentent les nombres de succès dans la première et la seconde expé-
riences respectivement.
D’après la loi des grands nombres
(1) (2)
µn P µn P
p̂1n = → p1 p̂2n = → p2 , (n → ∞),
n n
c’est-à-dire il y a la consistance de deux suites d’estimateurs { p̂1n } et { p̂2n } de paramètres
p1 et p2 . En plus on sait que
1 (1) 1 (2)
E p̂1n = Eµn = p1 , E p̂2n = Eµn = p2 ,
n n
donc pour tout n ∈ N∗ p̂1n et p̂2n sont les estimateurs sans biais pour p1 et p2 respectivement.
Enfin, on remarque, que quand n → ∞

p1 (1 − p1 ) p2 (1 − p2 )
Var p̂1n = → 0, Var p̂2n = → 0.
n n
En utilisant les résultats de modélisation du jeu on obtient une nouvelle table

n 25 50 100 250
(1)
µn
n 0.72 0.54 0.52 0.484
(2)
µn
n 0.56 0.48 0.47 0.504

37
Il faut noter que bien que p1 soit supérieur à p2 l’expérience nous donne ici
(1) (2)
µn = 121 < µn = 126 pour n = 250,

et donc
(1) (2)
µn µn
= 0.484 < = 0.504 pour n = 250.
n n
Si on arrête “le jeu” à n = 250, on aura une conclusion erronée que p1 < p2 . On va évaluer
(1) (2)
P{µn < µn }
(1) (2)
la probabilité d’événement {µn < µn }. Notons
(1) (2)
µn − np1 µn − np2
Xn = p , Yn = p , n ∈ N∗ .
np1 (1 − p1 ) np2 (1 − p2 )

Pour tout n les variables aléatoires Xn et Yn sont indépendantes, et

EXn = EYn = 0, Var Xn = VarYn = 1.

En plus, du théorème de de Moivre-Laplace il suit que pour tout x ∈ R1

lim P{Xn ≤ x} = lim P{Yn ≤ x} = Φ(x),


n→∞ n→∞


Zx
1 2 /2
Φ(x) = √ e−t dt.

−∞

De ce résultat il suit que


(1) (2)
X −Yn (µn − µn ) + n(p2 − p1 )
p n =p
Var (Xn −Yn ) np1 (1 − p1 ) + np2 (1 − p2 )

est aussi asymptotiquement normale quand n → ∞,


( )
Xn −Yn
P p ≤ x ≈ Φ(x), x ∈ R1 .
Var (Xn −Yn )

(1) (2)
Maintenant nous somme capable d’évaluer la probabilité de l’événement {µn < µn }.
En effet,
(1) (2) (1) (2)
P{µn < µn } = P{µn − µn < 0} =
( (1) (2) √ )
µn − µn + n(p2 − p1 ) n(p2 − p1 )
P p <p ≈
np1 (1 − p1 ) + np2 (1 − p2 ) p1 (1 − p1 ) + p2 (1 − p2 )
à √ !
n(p2 − p1 )
≈Φ p → 0, n → ∞, si p2 < p1 .
p1 (1 − p1 ) + p2 (1 − p2 )

38
On remarque qu’en utilisant les tables statistiques on peut calculer cette probabilité pour

n = 25, 50, 100, 250 et 1000 et pour p1 = 0.5177 et p2 = 0.4914 :


n 25 50 100 250 1000
(1) (2)
P{µn < µn } 0.42 0.39 0.35 0.18 0.12
On constate que même pour n assez grand (n = 1000) on a 12 pour cent de chances de faire
une conclusion erronnée, et on comprend le trouble du Chevalier.

Exemple 5. Comparaison de deux probabilités. On veut comparer la qualité de pro-


duction de deux usines qui produisent le même article. Soit p1 (respectivement p2 ) la pro-
babilité qu’un article de la 1ère usine (respectivement de la 2ème ) soit défectueux. Pour
effectuer le contrôle on a prélevé n1 articles dans la première usine et n2 articles de la
seconde. Soit µn1 (respectivement µn2 ) le nombre d’articles défectueux pour la première
(respectivement pour la seconde) usine. Supposons que nous voulions tester l’hypothèse
d’homogénéité
H0 : p1 = p2 = p, p ∈]0, 1[.
Sous l’hypothèse H0 on a
µn1 µn
E = E 2 = p,
n1 n2
µn p(1 − p)
Var 1 = → 0, (n1 → ∞),
n1 n1
µn p(1 − p)
Var 2 = → 0, (n2 → ∞).
n2 n2
Donc, sous l’hypothèse H0 on a deux suites consistantes { p̂1n } et { p̂2n } d’estimateurs sans
biais pour le paramètre p. On remarque que quels que soient n1 et n2 les estimateurs p̂1n et
p̂2n sont indépendants.
En général, même si l’hypothèse H0 est vraie, dans l’expérience on observe l’événement
½ ¾
µn1 µn2
6= .
n1 n2
Il est évident que pour tester H0 contre l’alternative H1 : p1 6= p2 il est raisonnable d’utiliser
la statistique ¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯
comme l’estimateur de |p1 − p2 | et rejeter H0 si
¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯ ≥ cα ,

où il faut choisir la valeur critique cα de façon que


½¯ ¯ ¯ ¾
¯ µn1 µn2 ¯ ¯
P ¯¯ − ¯ ≥ cα ¯ H0 ≥ α,
¯ ¯ 0 < α < 0.5.
n1 n2
Par contre, si ¯ ¯
¯ µn1 µn2 ¯
¯ ¯
¯ n1 − n2 ¯ < cα ,

39
on accepte H0 . On remarque que
½¯ ¯ ¯ ¾
¯ µn1 µn2 ¯ ¯
P ¯¯ − ¯ < cα ¯ H0 ≥ 1 − α.
n1 n2 ¯ ¯

Comment trouver la valeur critique cα , correspondant au niveau de signification α ? Pour


n1 et n2 suffisamment grands on peut s’attendre à ce que la variable aléatoire
µn1 µn2

n1 n2
r ³ ´
p(1 − p) n11 + n12

soit approximativement normale, puisque


 ¯ 
 µn1 µn2 ¯ 

 − ¯ 
n1 n2 ¯ 
¯
lim P r
min(n1 ,n2 )→∞ 
³ ´ ≤ x¯ H0  = Φ(x).

 p(1 − p) 1 + 1 ¯ 
n1 n2 ¯ 

Donc, en choisissant cα = x̄α/2 on a


¯ ¯ ¯ 
 ¯ µ µ ¯ ¯ 
 ¯¯
 n 1

n 2 ¯ ¯ 
n1 n2 ¯ ¯ 
P ¯r¯ ¯ ≥ x̄ ¯
α/2 ¯ H0 ≈ α,
 ³ ´¯ 
 ¯
 ¯ p(1 − p) ¯ ¯ 
¯ 
1 1
n1 + n2 ¯

et, par conséquent, on rejette H0 en faveur de H1 , si


¯ ¯
¯ µn1 µn2 ¯
¯ n1 − n2 ¯
r ³ ´ ≥ x̄α/2 ,
µn ¡ µn ¢ 1 1
n 1− n n1 + n2


µn µn1 + µn2
= = p̂n
n n1 + n2
est le meilleur estimateur sans bias pour p sous l’hypothèse H0 .
Il est évident que
¯ ¯ ¯ 
 ¯ µn1 µn2 ¯ ¯ 

¯ ¯ − ¯ ¯ 
n n ¯ ¯ 
P ¯¯ r 1 2 ¯ > x̄α/2 ¯ H0 ≈ α,

 ¡ ¢³ 1 ´¯ ¯ 
 ¯¯ µn 1 − µn 1 ¯ ¯ 
¯ 
n n n1 + n2 ¯

quand n1 et n2 sont sufisamment grands.


Remarque 1. Il est clair que si nous voulons tester l’hypothèse H0 : p1 = p2 contre
l’hypothèse unilatérale H1+ : p1 > p2 , dans ce cas il faut choisir cα = x̄α et rejeter H0 si
µn1 µn2

n1 n2
r ³ ´ ≥ x̄α ,
µn ¡ µn ¢ 1 1
n 1− n n1 + n2

40
où Φ(x̄α ) = 1 − α. Le niveau de ce test unilatéral ≈ α.
Remarque 2. Si nous voulons tester H0 : p1 = p2 contre l’alternative H1− : p1 < p2 , qui
est unilatérale, il faut rejeter H0 si
µn1 µn2

n1 n2
r ³ ´ < −x̄α .
µn ¡ µn ¢ 1 1
n 1− n n1 + n2

Le niveau de ce test unilatéral ≈ α.

1.2 Modèle probabiliste de l’erreur de mesure.

Tout résultat d’observation provenant de quelque façon que ce soit de mesures engendre
des erreurs d’origines diverses.
Les erreurs se divisent en trois groupes : erreurs grossières, erreurs systématiques et
erreurs aléatoires.

Les erreurs grossières :

Les erreurs grossières sont souvent appelées en statistique observations aberrantes (aber-
rations) ; elles proviennent de mauvais calculs, de lectures incorrectes sur l’appareil de me-
sure etc ... ; cela induit donc une donnée erronée. En général ces résultats de mesures qui
contiennent des erreurs grossières diffèrent sensiblement des autres résultats et sont ainsi
faciles à identifier.

Les erreurs systématiques

Les erreurs systématiques surestiment ou sousestiment toujours les résultats de me-


sures, et sont dues à différentes raisons (mauvaise installation de l’équipement, effet de
l’environnement, etc ...). Elles affectent systématiquement toutes les mesures et les altèrent
dans une seule direction.

Les erreurs aléatoires :

Les erreurs aléatoires ont un effet imprévisible sur les mesures, à la fois en surestimant
certaines et en sousestimant d’autres résultats.

Considérons maintenant le modèle probabiliste (appelé le modèle de l’erreur de mesure)


utilisé dans la pratique, lorsque nous avons à mesurer une certaine quantité µ. Selon ce mo-
dèle, tout résultat de l’expérience destinée à estimer la quantité inconnue µ, sera considéré
comme la réalisation d’une variable aléatoire X. Dans ce cas, la variable aléatoire :

δ = X −µ (1.1)
est appelée erreur de mesure ou erreur vraie.

41
De (1) il s’ensuit que

X = µ + δ, (1.2)
et puisque µ est une constante, on en tire

EX = µ + Eδ et Var X = Var δ. (1.3)


Notons

b = Eδ et σ2 = Var δ (1.4)
l’espérance mathématique et la variance de l’erreur vraie δ.

Alors on a

X = µ + b + (δ − b). (1.5)
La quantité b = Eδ est appelée erreur systématique ou biais de la procédure de mesure.

La variable aléatoire

ξ = δ−b (1.6)
est appelée erreur aléatoire de la procédure de mesure. De (2), (5) et (6) il s’ensuit que la
variable aléatoire X peut être représentée par la façon suivante

X = µ + b + ξ, (1.7)

Eξ = 0 et Var ξ = σ2 (1.8)
Nous obtenons donc pour notre modèle :

EX = µ + b, VarX = σ2 . (9)
Souvent on dit que σ2 est la précision de la méthode ou de l’instrument qu’on utilise
pour faire les mesures. Traditionellement, en statistique mathématique on dit que X est un
estimateur sans biais de µ + b.

Si le biais b = 0, alors X est un estimateur sans biais de µ.

Nous avons maintenant une décomposition très intéressante (7) de la variable aléatoire
X dont nous utiliserons la réalisation pour estimer la quantité inconnue µ.

Selon notre modèle, l’observation X est la somme de la vraie (mais inconnue) valeur µ,
du biais b qui est la valeur de l’erreur systématique de l’instrument de mesure et de l’er-
reur aléatoire ξ, qui satisfait (8) et dont la variance donne donc la mesure de l’imprécision
et décrit la dispersion ou la variation des données si nous avons besoin de plusieurs mesures.

42
De façon évidente, la mesure parfaite serait celle pour laquelle b = 0 et σ2 = 0 mais
on ne peut l’obtenir dans la pratique. Par contre, on peut organiser l’expérience de façon
à avoir b = 0 et en même temps à minimiser σ2 , c’est-à-dire à augmenter la précision des
mesures ou de l’appareil qu’on utilise pour obtenir ces mesures.
Si b = 0, alors EX = µ ce qui signifie l’absence d’erreur systématique. Dans ce cas δ
représente l’erreur aléatoire et nous dirons comme nous l’avons vu plus haut que X est un
estimateur sans biais pour µ.

Pour estimer la taille de l’erreur de mesure δ = X − µ d’un estimateur X d’une quantité


inconnue µ, on utilise souvent l’erreur quadratique moyenne (le risque quadratique ) ou
l’erreur absolue moyenne (le risque absolu) qui sont respectivement définies par

E(X − µ)2 et E|X − µ|. (10)


Dans notre modèle nous utiliserons l’erreur quadratique moyenne pour caractériser la
performance de l’estimateur X de µ. Dans ce cas, de (10), on déduit :

E(X − µ)2 = E [(X − EX) + (EX − µ)]2 = E(X − EX)2 + b2 = σ2 + b2 .


Nous avons donc montré que l’erreur quadratique moyenne peut se décomposer en la
somme b2 + σ2 du carré du biais b de la procédure de mesure et de la variance σ2 de l’erreur
aléatoire ξ.

Remarque 1. Souvent dans la pratique, le coefficient

1
k= p
2(σ2 + b2 )
est appelé précision de l’estimateur X.
Dans le cas d’absence d’erreur systématique (b = 0)

1 1
k= √ = √ .
2σ2 σ 2
Lorsque la déviation standard σ et le biais b sont petits, nous avons une haute préci-
sion et dans ce cas l’erreur quadratique moyenne est petite ; d’où une erreur quadratique
moyenne petite signifie une précision plus grande.

Exemple 1. Supposons que l’on cherche à déterminer le poids µ1 d’un objet à l’aide d’une
balance. On utilise un modèle Gaussien pour l’erreur de mesure en représentant le résultat
d’une mesure comme la réalisation de la variable aléatoire

X = µ1 + δ, (14)
où δ est l’erreur de mesure, δ ∼ N(0, σ2 ), et σ2 ne dépend pas de µ1 . Il est évident que si σ2
est connu et que nous voulons avoir une précision σ2 /N, alors nous devons faire N mesures
et prendre comme estimateur µ̂1 de µ1 , la réalisation de la statistique :

1
µ̂1 = X̄N = (X1 + X2 + . . . + XN ), (15)
N

43
moyenne des N mesures. De (14) il s’ensuit que

σ2
X̄N ∼ N(µ1 , ). (16)
N
Supposons maintenant que nous voulions déterminer les poids µ1 et µ2 de deux objets. De
combien de mesures avons nous besoin pour obtenir des estimateurs µ̂1 et µ̂2 pour µ1 et
µ2 respectivement, chacun avec la précision σ2 /N ? Il est évident qu’on peut peser chaque
objet N fois et de cette façon obtenir les estimateurs
1
µ̂1 = (X11 + X12 + . . . + X1N )
N
et
1
µ̂2 = (X21 + X22 + . . . + X2N ) (17)
N
pour µ1 et µ2 . Puisque
σ2 σ2
µ̂1 ∼ N(µ1 ,) et µ̂2 ∼ N(µ2 , ), (18)
N N
notre but est atteint mais au prix de 2N mesures.
Nous allons maintenant montrer comment on peut obtenir la même précision avec seule-
ment N mesures.
On peut remarquer qu’avec une balance et 2 objets, on peut faire plusieurs choses :
1) on peut déterminer le poids de chaque objet séparément.
2) on peut les peser tous les 2 ensemble ;
3) on peut déterminer la différence entre les 2.
En tenant compte de cette remarque, on peut représenter aussi les résultats de ces mesures :

X1i = µ1 + δ1i , i = 1, 2, . . . , n1 ,

X2i = µ2 + δ2i , i = 1, 2, . . . , n2 ,
X3i = µ1 + µ2 + δ3i , i = 1, 2, . . . , n3 ,
X4i = µ1 − µ2 + δ4i , i = 1, 2, . . . , n4 ,
où {δki } sont des variables aléatoires indépendantes identiquement distribuées :

δki ∼ N(0, σ2 ), i = 1, ..., nk , k = 1, 2, 3, 4. (19)

Par symétrie, il est naturel de prendre

n1 = n2 , n3 = n4 .
Il est évident que les statistiques

1 n1 1 n2 1 n3 1 n4
X̄1 = ∑ 1i 2 n2 ∑ 2i 3 n3 ∑ 3i 4 n4 ∑ X4i,
n1 i=1
X , X̄ = X , X̄ = X , X̄ = (20)
i=1 i=1 i=1

sont indépendantes et

σ2 σ2
X̄1 ∼ N(µ1 , ), X̄2 ∼ N(µ2 , ), (n1 = n2 )
n1 n1

44
et
σ2 σ2
X̄3 ∼ N(µ1 + µ2 , ), X̄4 ∼ N(µ1 − µ2 , ), (n3 = n4 ) (21)
n3 n3
d’où on déduit que
µ̂1 = X̄1 et µ̂2 = X̄2
sont des estimateurs sans biais pour µ1 et µ2 ayant chacun pour précision σ2 /n1 . Construi-
sons les statistiques
1 1
µ∗1 = (X̄3 + X̄4 ) et µ∗2 = (X̄3 − X̄4 ). (22)
2 2
Il est clair que
σ2 σ2
µ∗1 ∼ N(µ1 , ) et µ∗2 ∼ N(µ2 , ), (23)
2n3 2n3
d’où il s’ensuit que µ∗1 et µ∗2 sont aussi des estimateurs sans biais de µ1 et µ2 . De l’autre
côté, on peut remarquer que si n1 = n3 , alors la variance de µ∗1 est 2 fois plus petite que la
variance de µ̂1 . De même pour µ∗2 et µ̂2 . En posant n1 = N/2, notre but est atteint :

1
Varµ∗2 = Varµ̂2 . (24)
2
Exemple 2. (suite). Supposons maintenant que l’on a 3 objets dont on veut déterminer les
poids, en les pesant sur une balance non calibrée. Dans ce cas, les mesures pour ces trois
objets peuvent être représentés de la façon suivante :

X1 = µ1 + b + δ1 , X2 = µ2 + b + δ2 , X3 = µ3 + b + δ3 , (25)
respectivement, où b est l’erreur systématique ou le biais (supposé inconnu) de la procédure
de mesure due au fait que la balance n’est pas calibrée et δi est l’erreur aléatoire, δi ∼
N(0, σ2 ). Puisque
EXi = µi + b, (26)
pour estimer µi , nous avons besoin du biais. Cela demande une lecture sans aucun objet sur
la balance, c’est-à-dire qu’on obtient

X4 = b + δ4 , δ4 ∼ N(0, σ2 ). (27)

Puisque
EX4 = b, (28)
on peut utiliser X4 comme estimateur de b.
Considérons les statistiques

µ̂i = Xi − X4 , i = 1, 2, 3. (29)

Puisque toutes les mesures sont indépendantes, on peut dire que δ1 , δ2 , δ3 , δ4 sont des va-
riables aléatoires i.i.d.,
δi ∼ N(0, σ2 ), i = 1, . . . , 4,
et puisque
µ̂i = Xi − X4 = µi + b + δi − b − δ4 = µi + δi − δ4 (30)

45
des propriétées de δ1 , δ2 , δ3 , δ4 , on déduit que

µ̂i ∼ N(µi , 2σ2 ), i = 1, 2, 3. (31)

Puisque

Eµ̂i = µi , (32)
on peut dire que µ̂i est un estimateur sans biais pour µi . On remarque que

Varµ̂i = 2σ2 , i = 1, 2, 3. (33)

On peut représenter notre expérience à l’aide de la matrice d’expérience


° °
° µ1 µ2 µ3 b °
° °
° 1 0 0 1 °
° °
Σ1 = °
° 0 1 0 1 °.
°
° 0 0 1 1 °
° °
° 0 0 0 1 °

Considérons une autre représentation d’expérience donnée par la matrice :


° °
° µ1 µ2 µ3 b °
° °
° 1 0 0 1 °
° °
Σ2 = °° 0 1 0 1 °.
°
° 0 0 1 1 °
° °
° 1 1 1 1 °
Dans cette expérience les 3 premiers mesures sont comme précédemment (dans Σ1 ) mais la
quatrième détèrmine le poids des 3 articles ensemble, c’est à dire :

X4 = µ1 + µ2 + µ3 + b + δ4 .

Il est évident que :


X4 ∼ N(µ1 + µ2 + µ3 + b, σ2 ),
EX4 = µ1 + µ2 + µ3 + b, VarX4 = Varδ4 = σ2 .
Considérons maintenant les statistiques

Y1 = X1 + X4 − X2 − X3 , Y2 = X2 + X4 − X1 − X3 , Y3 = X3 + X4 − X1 − X2 .

Alors :

EY1 = 2µ1 , EY2 = 2µ2 , EY3 = 2µ3 ,


d’où on déduit que
1
µ∗i = Yi , i = 1, 2, 3
2
sont des estimateurs sans biais pour µ1 , µ2 , µ3 respectivement, c’est à dire

Eµ∗i = µi , i = 1, 2, 3.

46
De plus les variables aléatoires δ1 , δ2 , δ3 , δ4 sont indépendantes, δi ∼ N(0, σ2 ), d’où nous
obtenons
1 4σ2
Varµ∗i = VarYi = = σ2 .
4 4
Ainsi, si nous organisons l’expérience selon la matrice Σ2 , nous pouvons obtenir les mêmes
résultats qu’avec une balance calibrée sans erreur systématique.
Enfin on remarque que si, par exemple, il nous faut déterminer les poids µ1 , . . . , µ4 de
4 objets et que la balance est calibrée, alors dans ce cas au lieu d’utiliser le plan avec la
matrice ° °
° µ1 µ2 µ3 µ4 °
° °
° 1 0 0 0 °
° °
Σ3 = ° ° 0 1 0 0 °,
°
° 0 0 1 0 °
° °
° 0 0 0 1 °
d’après lequel on a
Xi = µ̂i ∼ N(µi , σ2 ),
il est évident qu’il est mieux de choisir le plan avec la matrice
° °
° µ1 µ2 µ3 µ4 °
° °
° 1 1 0 0 °
° °
Σ4 = °
° 1 −1 0 0 °.
°
° 0 0 1 1 °
° °
° 0 0 1 −1 °

Dans ce cas on obtient les estimateurs


σ 2
µ̂ˆ i ∼ N(µi , ), i = 1, . . . , 4.
2
Example 3. Supposons que nous observons un objet A qui se déplace uniformément avec
une vitesse constante et inconnue θ, θ > 0. Soit s(t) la distance parcourue par cet objet A
entre les temps t = 0 et t, t > 0. En supposant que s(0) = 0, on a

s(t) = θt, pour tout t ≥ 0.

Pour estimer θ on mesure les distances

s1 = s(t1 ), s2 = s(t2 ), . . . , sn = s(tn )

aux moments t1 < t2 < . . . < tn , on suppose que s0 = s(0) = 0.


Par ailleurs on sait que la précision de mesure de si est égale à ki σ2 , où les constantes ki
sont données, i = 1, . . . , n; σ2 > 0. Dans ces conditions on propose souvent comme valeur
expérimentale pour θ le nombre
n
θ̂ = ∑ ĉi si ,
i=1

n 2
ti t
ĉi = et α = ∑ i .
αki i=1 ki

47
On remarque que les coefficients ĉi sont choisis de facon que

ĉT t = 1, où ĉ = (ĉ1 , . . . , ĉn )T et t = (t1 , . . . ,tn )T .

Construire un modèle probabiliste permettant de donner des explications raisonnables sur


l’origine et l’optimalité dans un certain sens de cette procédure d’estimation.
Solution. Supposons que s = (s1 ,s2 , . . . , sn )T est une réalisation d’un vecteur aléatoire
S = (S1 , . . . , Sn )T dont les coordonnées Si sont des variables aléatoires indépendantes telles
que

ESi = θti et σ2i = VarSi = ki σ2 = σ2i , i = 1, . . . , n.


Dans ce cas nous pouvons dire que

Si = θti + δi , i = 1, . . . , n;
Eδi = 0, Varδi = ki σ2 = σ2i , i = 1, . . . , n.
Nous supposons que ti et ki sont donnés, mais le paramètre θ et la variance σ2 ne sont
pas connus. Notre but est de montrer que θ̂ est une réalisation du meilleur estimateur (de
variance minimale) sans biais dans la classe ∆θ de tous les estimateurs linéaires sans biais
θ∗n pour θ :
n
∆θ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si , Eθ θ∗n = θ}.
i=1
Pour montrer cela nous considérons en plus la classe
n
∆ = {θ∗n = θ∗n (S) : θ∗n = ∑ ci Si }
i=1
de toutes les statistiques linéaires. Il est évident que ∆θ ⊂ ∆.
Soit θ∗n une statistique linéaire, θ∗n ∈ ∆. Puisque
n n n
Eθ θ∗n = ∑ ci ESi = ∑ ci θti = θ ∑ citi ,
i=1 i=1 i=1

on en tire que θ∗n ∈ ∆θ si et seulement si


n
∑ citi = cTt = 1.
i=1

Comme on l’a déja remarqué, le choix des coefficiens ĉi a été fait de façon à satisfaire cette
condition, et donc la statistique
n
θ̂n = ∑ ĉi Si
i=1

appartient à notre classe ∆θ des estimateurs linéaires sans biais. Montrons que θ̂n a la va-
riance minimale dans la classe ∆θ :

Varθ̂n = min Varθ∗n .


∗ θn ∈∆θ

Pour tout θ∗n ∈ ∆θ on a :

48
n n
Varθ∗n =∑ c2i VarSi =σ 2
∑ kic2i .
i=1 i=1

Il nous faut construire l’estimateur θ̂n , θ̂n ∈ ∆θ , tel que

Varθ̂n = min Varθ∗n .


∗ θn ∈∆θ

Cela signifie qu’il nous faut minimiser la fonction


n
∑ kic2i
i=1

à condition que
n
cT t = ∑ citi = 1.
i=1
En utilisant la méthode de Lagrange nous pouvons trouver ce minimum lié. Soit λ un mul-
tiplicateur de Lagrange. Nous voulons minimiser la fonction de Lagrange

Φ(c, λ) = ∑ c2i ki − 2λ(∑ citi − 1),

donc il nous faut résoudre l’équation

gradΦ(c, λ) = 0, 0 ∈ Rr+1 ,

ce qui est équivalent à résoudre le système de n + 1 équations


∂Φ(c, λ)
= 2ci ki − 2λti = 0, i = 1, 2, . . . , n,
∂ci
et
∂Φ(c, λ)
= ∑ citi − 1 = 0.
∂λ
On trouve que
ci = λti /ki , i = 1, . . . , n.
Pour trouver λ il faut mettre les valeurs trouvées de ci dans la dernière équation du système,
d’où on obtient que
1
λ= n 2,
t
∑ kii
i=1
et donc
ti
ki ti
ĉi = = , i = 1, . . . , n.
n t2 αki
∑ i
ki
i=1

Ces valeurs de ci nous donnent justement l’estimateur θ̂n sans biais, θ̂n ∈ ∆θ, dont la va-
riance est minimale :
n n
ti
θ̂n = ∑ ĉi Si = ∑ Si .
i=1 i=1 αk i

49
Puisque les statistiques Si sont indépendantes, par des calculs directs on trouve que
n n n
Varθ̂n = Var ∑ ĉi Si = ∑ (ĉi )2 VarSi = σ2 ∑ ki (ĉi )2 =
i=1 i=1 i=1

à !−1
n n
t2 ti2 1 2
σ2 α−2 ∑ i = σ2 ∑ ki = σ .
i=1 ki =1 α

1.3 Méthode de Monte-Carlo.

Considérons le problème d’évaluation d’un intégrale multidimensionnelle


Z 1 Z 1 Z
In = ··· fn (x1 , ..., xn )dx1 ...dxn = f (x)dx, (1)
0 0 Kn


x = (x1 , ..., xn )T ∈ Kn = [0, 1] × [0, 1] × ... × [0, 1] = [0, 1]n ,
{ fn (·)} est une suite de fonctions données, fn (·) : Kn → R1 , n ∈ N.
Il est connu que le problème d’évaluation d’intégrales de ce type devient compliqué
avec l’augmentation de n.
Supposons que nous pouvons construire un èchantiiilon X1 = (X11 , ..., X1n )T de taille
n, formé des variables aléatoires indépendantes suivant la même loi uniforme U ([0, 1]) sur
[0, 1]. Dans ce cas le vecteur X1 suit une loi uniforme U (Kn ) sur le cube Kn .
Supposons en plus que nous pouvons construire un échantillon X = (X1 , ..., XN )T de
taille N quelque soit N ∈ N des vecteurs aléatoires indépendants, ayant la même loi uni-
forme U (Kn ) sur le cube Kn , c’est-à-dire nous pouvons construire nN variables aléatoires
indépendantes Xi j uniformément distribuées sur [0, 1]. On remarque que de la construction
des variables aléatoires Xi j il suit que
Z
E fn (Xi ) = fn (x)dx = In , (2)
Kn

i.e. la valeur numérique de l’intégrale n’est que la moyenne E fn (Xi ) de la variable aléa-
toire fn (Xi ). Dans ce cas pour estimer la moyenne E fn (Xi ) = In nous avons la possibilité
d’utiliser la loi faible des grands nombres de Bernoulli d’après laquelle

1 N

P
fn (Xi ) → In , N → ∞, (3)
N i=1

i.e. pour tout ε > 0

1 N
P{| ∑ fn(Xi) − In| > ε} → 0,
N i=1
si N → ∞, (4)

50
ou
1 N
P{| ∑ fn(Xi) − In| ≤ ε} → 1,
N i=1
si N → ∞, (5)

d’où on tire que pour les grandes valeurs de N avec une probabilité proche à 1 on a

1 N
In ≈ ∑ fn (Xi ) (6)
N i=1

De (4) et du Théorème Limite Central on tire que pour les grandes valeurs de N
µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≥ ε} ≈ 2Φ − (7)
N i=1 σn

et donc µ √ ¶
1 N ε N
P{| ∑ fn (Xi ) − In | ≤ ε} ≈ 1 − 2Φ −
N i=1 σn
où Z
σ2n 2
= Var fn (Xi ) = E[ fn (Xi ) − In ] = [ fn (x − In ]2 dx (8)
Kn

est la variance de fn (Xi ). (On suppose que Var fn (Xi ) existe). Donc si nous voulons que la
probabilité dans (7) soit proche à 0.997, par exemple, il faut choisir ε de façon que

ε N
=3
σn
i.e.
3σn
ε= √ ,
N
d’où on tire que la précision ε d’approximation de In , donnée par (7), est de l’ordre de
N −1/2 . Il est important de noter que la précision de l’approximation ne dépend que de la
variance σ2n de fn (Xi ). Donc pour évaluer l’intégrale In avec la précision √ 3σn
N
il suffit de
modeliser N vecteurs aléatoires Xi et calculer N valeurs fn (Xi ).
Comparons ce résultat avec la méthode classique du calcul des intégrales en utilisant
une approximation par les sommes.
Si n = 1, la méthode de Simpson avec N noeuds d’interpolation donne (pour une fonc-
tion f régulière ) la précision N14 . Mais pour n > 1 l’utilisation de cette méthode pour
chacune des variables même seulement avec 10 noeuds d’interpolation exige 10n calculs
des valeurs de la fonction fn (x) = fn (x1 , ..., xn ). Alors avec augmentation de n le calcul de
l’intégral In par cette méthode devient pratiquement impossible à cause de cumulation des
erreurs de calcul. Méthode de Monte-Carlo dans les mêmes conditions exige nN modelisa-
tions des variables aléatoires Xi j et N calculs des valeurs de la fonction fn (Xi ) au lieu de
10n dans la méthode de Simpson. Il est clair que pour n grand la méthode de Monte-Carlo
est uniquement possible. Mais il est raisonable bien sûr de trouver un estimateur supérieur
de la variance σ2n .
Exercice 1. Soit f une fonction continue périodique de période T = 1 sur R1 :

f (x + T ) = f (x), x ∈ R1 .

51
Considérons une suite des variables aléatoires indépendantes {Xn }, uniformément distri-
buées sur [0, 1], Xi ∼ U([0, 1]). Montrer que
Z 1
1 n

P
f (x + Xk ) → f (x)dx.
n k=1 0

Exercice 2. Soit f continue sur [0, 1]. Montrer que


Z 1 Z 1 µ ¶
x1 + x2 + ... + xn 1
lim ··· f dx1 dx2 ...dxn = f ( ).
n→∞ 0 0 n 2
Exercice 3. Calculer
Z 1 Z 1
π
lim ··· cos2m (x1 + x2 + ... + xn )dx1 dx2 ...dxn , m ∈ N.
n→∞ 0 0 2n
Exercice 4. Soient g continue et bornée sur R1 et
P
{Xn } → X.

Montrer que
a) limn→∞ Eg(Xn ) = Eg(X) ( la suite du théorème de Lebesgue) ;
b) limn→∞ E |g(Xn − g(X)|r = 0, r > 0.
Exercice 5. Soit f continue sur [0, 1]. Montrer que
Z 1 Z 1
√ 1
lim ··· f ( n x1 ...xn ) dx1 ...dxn = f ( ).
n→∞ 0 0 e
Exercice 6. Soient f et g continues sur [0, 1] et telles que pour tout x ∈]0, 1[

0 ≤ f (x) < cg(x), c > 0.

Montrer que
Z 1 Z 1 R1
f (x1 ) + ... + f (xn ) f (x)dx
lim ··· dx1 ...dxn = R01 .
n→∞ 0 0 g(x1 ) + ... + g(xn ) 0 g(x)dx
Exercice 7. Montrer que
Z 1 Z 1 2
x1 + ... + xn2 2
lim ··· dx1 ...dxn = .
n→∞ 0 0 x1 + ... + xn 3
Exercice 8. Soit f telle que f 00 est continue sur [0, 1]. Montrer que
Z 1 Z 1· µ ¶ µ ¶¸ ¡ ¢
x1 + ... + xn 1 f 00 12
lim n ··· f −f dx1 ...dxn = .
n→∞ 0 0 n 2 24
Exercice 9. Montrer que
a) Z Z
lim ... dx1 ...dxn = 0;
n→∞

0≤xi ≤1, x12 +...+xn2 ≤ n

52
b) Z Z
lim ... dx1 ...dxn = 0;
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n4

c) Z Z
lim ... dx1 ...dxn = 1.
n→∞
0≤xi ≤1, x12 +...+xn2 ≤ n2

Exercice 10. Calculer


a) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn ;
n→∞
{x12 +...+xn2 ≤n}

b) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a < σ2 );
n→∞
{∑nk=1 xk2 ≤an}

c) Z Z
lim ... f (x1 )... f (xn )dx1 ...dxn (a > σ2 );
n→∞
{∑nk=1 xk2 ≤an}

si f satisfait aux condition


Z ∞ Z ∞
1= f (x)dx, σ =
2
x2 f (x)dx < ∞.
−∞ −∞

Exercice 11. On dit qu’une suite de nombres {an }, n ∈ N∗ , an ∈ [0, 1] est uniformément
distribuée au sens de H.Weyl sur [0, 1] si pour toute fonction continue f , intégrable sur
[0, 1] au sens de Riemann
Z 1
1 n
lim
n→∞ n
∑ f (ak ) = 0
f (x)dx.
k=1

Soit {Xn } une suite de variables aléatoires indépendantes uniformément distribuées sur
[0, 1]. Montrer que avec probabilité égale à 1 {Xn } est uniformément distribuée au sens
de Weyl sur [0, 1].

Remark 1. On rappele que


Z b Z u(b)
f (u−1 (t)
f (x)dx = dt,
a u(a) u0 (u−1 (t))

en faisant le changement de variables t = u(x). En statistique on utilise souvent les trans-


formations en choisissant :

u(x) = e−x , u(x) = 1/x, u(x) = x/(1 + x).

53
54
Chapitre 2

ELEMENTS DE LA THEORIE DE
L’ESTIMATION PONCTUELLE.

2.1 Modèle statistique. Fonction de vraisemblance.

Soient (Ω, A , P) un espace probabilisé et (Rn , Bn ) un espace borélien.


Définition 1. Une application
X = X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω))T : Ω → Rn
de l’ensemble Ω = {ω} de tous les événements élémentaires dans Rn est appelée un vecteur
aléatoire si
X−1 (B) ∈ A , pour tout B ∈ Bn . (1)
Définition 2. Soit PX une mesure sur (Rn , Bn ), déterminée par la formule suivante :
PX (B) = P{ω : X(ω) ∈ B} = P{X−1 (B)} = P{X ∈B}. (2)
La mesure PX , déterminée sur la σ-algèbre borélienne Bn par l’égalité (2), s’appelle la
distribution (la répartition) de X dans Rn .
Supposons que la distribution PX de X appartienne à une famille
P = {Pθ , θ ∈ Θ}.
Définition 3. On appelle modèle statistique le triplet (Rn , Bn , P ).
Souvent au lieu de (Rn , Bn , P ) on écrit (Rn , Bn , Pθ , θ ∈ Θ) pour indiquer l’espace des
paramètres Θ.

Définition 4. Un modèle (Rn , Bn , Pθ , θ ∈ Θ) est dit dominé par une mesure σ-finie µ dans
Rn , si la famille P = {Pθ , θ ∈ Θ} est absolumemt continue par rapport à µ :
Pθ ¿ µ, ∀θ ∈ Θ.
Autrement dit, le modèle (Rn , Bn , Pθ , θ ∈ Θ) est dominé par µ, si pour tout θ ∈ Θ il
existe une fonction non négative Bn - mesurable p(x; θ) telle que
Z
Pθ (B) = p(x; θ)dµ(x)
B

55
pour tout B ∈ Bn . La fonction p(x; θ) = pθ (x) est appelée la dérivée de Radon-Nikodym de
la mesure Pθ par rapport à la σ-mesure µ, et on note souvent

dPθ
p(x; θ) = (x) ou dPθ (x) = p(x; θ)dµ(x).

Considérons le modèle :

H0 : X ∼ p(x; θ), θ ∈ Θ, x ∈ Rn ,
d’après lequel la densité d’un vecteur aléatoire X = X(ω) de dimension n appartient à une
famille des densités

{p(x; θ), θ ∈ Θ}, x = (x1 , x2 , . . . , xn )T ∈ Rn .


Définition 5. Si Θ est un ensemble Θ de Rm , on dit que le modèle H0 est paramétrique,
sinon le modèle H0 s’appelle non paramétrique.
Définition 6. La variable aléatoire

L(θ) = L(X, θ) = p(X; θ), θ ∈ Θ ⊂ Rm , (3)

est appelée la fonction de vraisemblance de X.


Remarque 1. On appelle L(θ) ainsi car la fonction de vraisemblence L(θ), sachant la réali-
sation x du vecteur aléatoire X, nous permet de comparer les paramètres θ1 ∈ Θ et θ2 ∈ Θ .
Si
L(θ1 ) > L(θ2 ),
il est plus probable que X = x pour θ = θ1 .
Avec cette optique il est très naturel de considérer

θ̂n = θ̂n (X) = argθ max L(θ), i.e. L(θ̂n ) = max L(θ),
θ∈Θ
Θ

comme un estimateur de θ, appelé l’estimateur de maximum de vraisemblance.

2.2 Statistique. Échantillon. Loi empirique.

Définition 1. Soit T = T(x) une application de (Rn , Bn ) dans un espace E muni d’une σ-
algèbre borélienne E , T : Rn → E. On dit que T est une application borélienne si pour
tout ensemble borélien B de l’espace (E, E ), B ∈ E , T−1 (B) est un ensemble borélien dans
(Rn , Bn ), i.e.

{x : T(x) ∈ B} = T−1 (B) ∈ Bn , pour tout B ∈ E .


Définition 2. Soient X = X(ω) un vecteur aléatoire sur (Ω, A , P), X : Ω → Rn , et T(x), une
application borélienne de Rn dans un espace mesurable (E, E ),

T : Rn → E.

56
Dans ce cas on dit que T(X) = T(X(ω)) est une statistique et l’application T elle-même
s’appelle une fonction de décision.
En d’autres termes n’importe quelle transformation du vecteur d’observations X ne dé-
pendant pas du paramètre inconnu θ est une statistique.
Définition 3. Soit X(ω) = (X1 (ω), X2 (ω), . . . , Xn (ω))T un vecteur aléatoire. Considérons un
modèle H0 d’après lequel les variables aléatoires X1 , . . . , Xn sont indépendantes et suivent
la même loi. Dans ce cas on dit que X est un échantillon de taille n et on écrit X au lieu de
X.
Remarque 1. Soit X = (X1 , . . . , Xn )T un échantillon de taille n, X : Ω → Rn . Considérons
un modèle paramétrique

H0 : X ∼ p(x; θ), θ ∈ Θ , x ∈ Rn .
Soit f (xi ; θ) la densité de Xi : R1 × Θ → R1 . Dans ce cas pour tout x ∈ Rn
n
p(x; θ) = ∏ f (xi ; θ), θ ∈ Θ ,
i=1

et la fonction de vraisemblance de l’échantillon X est


n
L(θ) = p(X; θ) = ∏ f (Xi ; θ), θ ∈ Θ .
i=1

Exemple 1. Statistiques d’ordre. Vecteur des rangs. Soit X = (X1 , ..., Xn )T un échantillon,
X ∈ X ⊂ Rn . A toute réalisation x = (x1 , ..., xn )T ∈ X de X on peut associer le vecteur
x(n) = (x(1) , ..., x(n) )T obtenu en ordonnant les xi par ordre croissant

x(1) ≤ x(2) ≤ ... ≤ x(n) .

La statistique correspondante X(n) = (X(1) , ..., X(n) )T est appelée le vecteur des statistiques
d’ordre et X(i) est la i-ème statistique d’ordre dans A ⊂ Rn :

A = {x = (x1 , ..., xn )T ∈ Rn : x1 ≤ x2 ≤ ... ≤ xn }.

Si de plus on associe à X le vecteur R = (R1 , ..., Rn )T des rangs Ri des Xi (i = 1, ..., n), dans
X(n) , avec
n
Ri = ∑ 1{X j ≤Xi}
j=1

et on suppose que
P{X(1) < X(2) < · · · < X(n) } = 1,

alors dans ce cas la correspondence entre X et la statistique (X(n) , R) est bijective. En gé-
néral, R est à valeurs dans l’ensemble σn des permutations des n premier entiers, avec
répétition car il peut y avoir des ex aequo parmi les composantes de X. Cependant, si la
probabilité pour qu’au moins deux des composants de X soient égales est nulle, R est à
valeurs dans l’ensemble σn des permutations de {1, 2, ..., n}. Cela se produit en particulier
si la loi de X admet une densité p(x) par rapport à la mesure de Lebesgue sur Rn . Parfois,
au lieu de X (n) on utilise le signe X (·) .

57
La statistique Jn = (J1 , ..., Jn )T , oú
n
Jk = ∑ j1{R j =k}, k = 1, 2, ..., h,
j=1

est connue comme le vecteur des antirangs.


Soit F(x) = P{X1 ≤ x} la fonction de répartition de X1 . Dans ce cas on a, par exemple,

P{X(n) ≤ x} = F n (x), P{X(1) ≤ x} = 1 − [1 − F(x)]n ,


n
F k (x)(1 − F(x))n−k
P{X(r) ≤ x} = n! ∑ ,
k=r k!(n − k)!
puisque
n!
P{X(r) ≤ x < X(r+1) } = (F(x))r [1 − F(x)]n−r .
r!(n − r)!
Donc si la loi F de X1 est absolument continue, i.e. s’il existe la densité f (x) telle que
Z x
F(x) = f (u)du, x ∈ R1 ,

alors la loi de X(r) est absolument continue aussi et sa densité est donnée par la formule

n!
fX(r) (x) = (F(x)r−1 [1 − F(x)]n−r , r = 1, ..., n.
(r − 1)!(n − r)!

Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon. Dans ce cas les statistiques


n n
T1 1 n
T1 = ∑ Xi , T2 = ∑ Xi2 , X̄n = , s2n = ∑ (Xi − X̄n)2,
i=1 i=1 n n i=1
sn
T3 = X(1) , T4 = X(n) , T5 = X(n) − X(1) , Vn =
X̄n
donnent des exemples simples de statistiques scalaires, tandis que

T = (T1 , T2 )T et U = (X̄n , s2n )T

sont deux statistiques vectorielles de dimension deux. La statistique Vn s’appelle le coeffi-


cient de variabilité, T5 est l’étendu de l’échantillon, T3 et T4 sont les statistiques extrémales.
Exemple 3. La loi empirique. Soit X = (X1 , ..., Xn )T un échantillon, F(x) = P{Xi ≤ x}
est la fonction de répartition de Xi . Ayant la réalisation x = (x1 , ..., xn )T de la statistique
X = (X1 , ..., Xn )T , nous pouvons construire la fonction

1 n 1 n
Fn (x) = Fn (x; x1 , ..., xn ) = ∑ ]−∞,x] i n ∑ 1]−∞,x](x(i)),
n i=1
1 (x ) = x ∈ R1 ,
i=1

dont la valeur Fn (x) en n’importe quel point x, x ∈ R1 , représente la réalisation de la statis-


tique
1 n 1 n
Fn (x) = Fn (x; X1 , ..., Xn ) = ∑ 1]−∞,x] (Xi ) = ∑ 1]−∞,x] (X(i) ),
n i=1 n i=1

58
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une variable aléatoire discrète, disons X, dont la loi conditionnelle,
conditionnée par X = x, est donnée par la fonction Fn (x), c’est-à-dire

Fn (x) = P{X ≤ x | X = x} = P{X ≤ x | X1 = x1 , ..., Xn = xn }, x ∈ R1 ,

et par conséquent
Fn (x) = P{X ≤ x | X}, x ∈ R1 .
Cette formule détermine la fonction de répartition aléatoire et, par tradition, on l’appelle la
fonction de répartition empirique. Par conséquent, la loi conditionnelle de la variable aléa-
toire X, conditionnée par X, s’appelle la loi empirique. La loi empirique est la loi discrète
de X telle que
1
P{X = Xi | X} =
n
pour tout i = 1, 2, ..., n et Fn (x) est la fonction de répartition de cette loi.
Les statistiques X̄n et s2n représentent la moyenne et la variance de la loi empirique. Par
définition la statistique
x̂P = X([nP]+1)
représente P- quantile de la loi empirique, et par conséquant, x̂0.5 = X([ 2n ]+1) est la médiane
de la loi empirique.

Remarque 2. Soit X = (X1 , . . . , Xn )T un vecteur aléatoire, X ∈ Rn , dont la densité est pX (x),


x = (x1 , . . . , xn )T .
Considérons une statistique Y = f (X), où f : Rn → Rn est une application dérivable.
Notons
y = f (x), i.e. y = (y1 , . . . , yn )T , où y j = f j (x), x ∈ Rn .
Le Jacobien de f est une application

D f : Rn → R1 ,

donnée par la formule : ° °


° ∂ f j (x) °
°
D f (x) = det ° °,
∂xi °
i.e. D f (x) est le déterminant de la matrice Jacobienne.
Si D f (x) 6= 0 au voisinage d’un point x, x ∈ Rn , dans ce cas f −1 (y) existe au voisinage
du point y = f (x) avec
D f −1 ( f (x))D f (x) = 1, (1)
ou
D f −1 (y)D f (x) = 1, y = f (x).
Si f −1 existe, alors d’après une propriété connue en analyse, pour toute fonction integrable
ϕ de Rn on a Z Z
ϕ(y) dy = ϕ( f (x))|D f (x)| dx (2)
A f −1 (A)

59
pour tout A, borelien de Rn . C’est la formule de changement de variables dans une intégrale.

Lemme 1. Soient Y = f (X) et pX (x) la densité de X, X ∈ Rn , où f est telle que f −1 existe.


Dans ce cas la densité pY (y) de la statistique Y est donnée par la formule

pY (y) = pX ( f −1 (y))|D f −1 (y)|. (3)

Démonstration. D’après (2) pour tout B borélien, B ∈ Bn , on a :


Z
P{Y ∈ B} = pY (y) dy = P{X ∈ f −1 (B)} =
B
Z Z
= pX (x) dx = pX ( f −1 (y))|D f −1 (y)| dy,
f −1 (B) B

et donc
pY (y) = pX ( f −1 (y))|D f −1 (y)| (4)
et vice-versa
pX (x) = pY ( f (x))|D f (x)|. (5)
Théorème 1. Soit X = (X1 , ..., Xn )T . Dans ce cas la densité de X1 est
Z
pX1 (x1 ) = pX (x1 , ..., xn )dx2 · · · dxn .
Rn−1

Démonstration. Pour tout A borélien dans R1 , A ∈ B , on a

P{X1 ∈ A} = P{X1 ∈ A, −∞ < X2 < +∞, ..., −∞ < Xn < +∞} =


 
Z Z Z Z 
pX (x)dx1 · · · dxn = pX (x1 , ..., xn )dx2 · · · dxn dx1 ,
 
A Rn−1 A Rn−1
et donc Z
X1 ∼ pX1 (x1 ) = pX (x1 , ..., xn )dx2 · · · dxn .
Rn−1

Exemple 4. Soit X = (X1 , X2 )T , Y1 = X1 + X2 . Trouvons la densité de la statistique Y1 .


Considérons la statistique Y = (Y1 ,Y2 )T = f (X), où

Y1 = X1 + X2 = f1 (X), Y2 = f2 (X) = X2 ,

i.e.
f (x) = (y1 , y2 ) = ( f1 (x), f2 (x))T ,
f1 (x) = x1 + x2 , f2 (x) = x2 .
Dans ce cas
∂ f1 (x) ∂ f1 (x) ∂ f2 (x) ∂ f2 (x)
= 1, = 1, = 0, =1
∂x1 ∂x2 ∂x1 ∂x2

60
et donc ° °
° 1 1 °
D f (x) = det °
° 0 1
° = 1,
° D f −1 (y) = 1,

où x = (x1 , x2 )T = f −1 (y) est donnée par les formules :

x1 = f1−1 (y) = y1 − y2 ,

x2 = f2−1 (y) = y2 ,
et donc
∂ f1−1 (y) ∂ f1−1 (y) ∂ f2−1 (y) ∂ f2−1 (y)
= 1, = −1, = 0, = 1,
∂y1 ∂y2 ∂y1 ∂y2
° −1 °
° ∂ f (y) °
−1 ° j °
D f (y) = det ° ° = 1.
° ∂yi °
D’après (4) on a

pY (y) = pX ( f −1 (y)) | D f −1 (y) |= pX (y1 − y2 , y2 ) (6)

et, par conséquant, on en déduit que (avec l’aide du Théorème 1)


Z∞ Z∞
pY1 (y1 ) = pY (y)dy2 = pX (y1 −2 , y2 )dy2 . (7)
−∞ −∞

Théorème 2. Si la densité pX (x) du vecteur X ∈ Rn est présentée par la formule


n
pX (x) = ∏ pXi (xi ),
i=1

où pXi (xi ) est la densité de Xi , dans ce cas les variables aléatoires X1 , X2 , . . . , Xn sont
indépendantes.
Démonstration. Soient Ai1 , Ai2 , ..., Aik des ensembles boréliens dans R1 . Dans ce cas

P{Xi1 ∈ Ai1 , Xi2 ∈ Ai2 , ... Xik ∈ Aik } = P{Xi j ∈ Ai j , j = 1, ..., k; Xi ∈ R1 , i 6= j} =


Z Z Z Z
··· pXi1 (xi 1 )...pXik (xi k )dxi1 · · · dxik ∏ pXi (xi )dxi =
Ai1 Ai2 Aik Rn−k i6=i j

k Z k
∏ p(xi j ) dxi j = ∏ P{Xi j ∈ Ai j }.
j=1 j=1
Ai j

Remarque 3. Soit X = (X1 , X2 )T un vecteur aléatoire, dont les componentes sont indépen-
dantes. Dans ce cas
pX (x) = pX (x1 , x2 ) = pX1 (x1 )pX2 (x2 ), (8)
et donc la densité de la statistique Y1 = X1 + X2 est donnée par la formule
Z Z
pY1 (y1 ) = pY1 (y1 − y2 )pX2 (y2 )dy2 = pX1 (y2 )pX2 (y1 − y2 )dy2 . (9)

61
En effet, de (7) on trouve que
Z∞ Z∞
pY1 (y1 ) = pX (y1 − y2 , y2 )dy2 = pX1 (y1 − y2 )pX2 (y2 )dy2
−∞ −∞

(on a utilisé l’indépendance de X1 et X2 et (8)).

2.3 Estimateur ponctuel. Consistance. Estimateur inva-


riant

Considérons le modèle paramétrique H0 d’après lequel

X ∼ p(x; θ), x ∈ Rn , θ ∈ Θ ⊂ Rm , 1 ≤ m ≤ n.

Définition 1. Soit T = T(X) une statistique telle que

T : Rn → Θ ⊂ Rm , m ≤ n.
Dans ce cas la statistique T s’appelle un estimateur statistique ponctuel ou, tout simplement,
un estimateur pour θ = (θ1 , . . . , θm )T .
Si la vraie valeur du paramètre θ est inconnue, alors la réalisation

θ∗ = T(x), θ∗ ∈ Θ ⊂ Rn ,

de l’estimateur T(X) est considérée comme une approximation expérimentale pour θ,

θ∼
= θ∗ = T(x).
On dit que c’est l’estimation ponctuelle de θ.
Remarque 1. Parfois, pour souligner qu’on travaille avec un vecteur d’observations X
d’ordre n, on ecrit θ∗n au lieu de θ∗ .
Définition 2. On appelle biais de l’estimateur T = T(X) de θ, θ ∈ Θ ⊂ Rm , la fonction
b : Θ → Rm ,
b(θ) = Eθ (T − θ), θ ∈ Θ.
Si
b(θ) ≡ 0m , θ∈Θ
on dit que l’estimateur T est sans biais.
Remarque 2. Soient θ∗n et θ̄n deux estimateurs scalaires sans biais pour θ ∈ Θ ⊂ R1 :

Eθ θ∗n = Eθ θ̄n , θ ∈ Θ.

Dans ce cas θ̃n = Eθ (θ∗n |θ̄n ) est aussi un estimateur sans bias pour θ :

Eθ θ̃n = Eθ {Eθ (θ∗n |θ̄n )} ≡ θ, θ ∈ Θ.

Supposons Varθ θ̄n et Varθ θ∗n existent. Alors, comme

Varθ θ∗n = Eθ {Varθ (θ∗n |θ̄n )} + Varθ {Eθ (θ∗n |θ̄n )},

62
et
Eθ {Varθ (θ∗n |θ̄n )} ≥ 0,
on en tire que
Varθ θ̃n = Varθ {Eθ (θ∗n |θ̄n )} ≤ Varθ θ∗n .
Il est évident que par symétrie on obtient également que

Varθ θ̃n ≤ Varθ θ̄n .

Définition 3. {Tn } est une suite d’estimateurs asymptotiquement sans biais pour le para-
mètre θ, θ ∈ Θ , si pour tout θ ∈ Θ

bn (θ) = Eθ (Tn − θ) → 0m ,

lorsque n → ∞.
Définition 4. Soit {θ∗n } une suite d’estimateurs ponctuels pour θ, θ∗n = θ∗n (X). On dit que
{θ∗n } est une suite consistante ou cohérante pour θ, si {θ∗n } converge en probabilité vers θ,
i.e. si pour tout ε > 0

Pθ {kθ∗n − θk > ε} → 0, quand n → ∞.


Critère de consistance. Soit Tn une suite d’estimateurs asymptotiquement sans biais pour
P
le paramètre scalaire θ, θ ∈ Θ ⊂ R1 , telle que Varθ Tn → 0, lorsque n → ∞. Alors θ∗n → θ.
En effet, de l’inégalité de Tchebychev, on tire que pour tout ε > 0

Eθ (Tn − θ)2 Varθ Tn b2n (θ)


Pθ {| Tn − θ |> ε} ≤ = + 2 → 0,
ε2 ε2 ε
lorsque n → ∞, puisque bn (θ) = Eθ Tn → 0 quand n → ∞, et donc la suite {Tn } est consis-
tante.
Définition 5. Soit θ∗n = θ∗n (X1 , ..., Xn ) un estimateur de paramètre θ. On dit que θ∗n est inva-
riant par rapport au paramètre de translation C, C ∈ R1 , si

θ∗n (X1 +C, X2 +C, ..., Xn +C) = θ∗n (X1 , ..., Xn ).

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, σ2 ). Dans ce cas la statistique


µ∗n (X1 , ..., Xn ) = X̄n n’est pas un estimateur invariant pour µ par rapport au paramètre de
translation C, parce que

µ∗n (X1 +C, ..., Xn +C) = C + X̄n 6= µ∗n (X1 , ..., Xn ).

Par contre la statistique


n
1
s2n = s2n (X1 , ..., Xn ) =
n ∑ (X j − X̄n)2
j=1

est un estimateur invariant pour σ2 par rapport au paramètre de translation C, parce que

s2n (X1 +C, ..., Xn +C) = s2n (X1 , ..., Xn ).

63
2.4 Fonction de perte, fonction de risque.

Définition 1. (Fonction de perte). Soit T = T (X) : Rn → Θ un estimateur ponctuel du


paramètre θ, θ ∈ Θ ⊂ R1 . Toute fonction non négative l(t, θ) : Θ × Θ → R1+ convexe en t
est appelée fonction de perte de l’estimateur T .
Les fonctions de perte servent à mesurer la qualité d’un estimateur ; cela suppose donc
que la valeur observée l(t, θ) de la fonction l(T (X), θ), représente la perte pour chaque θ
qui résulte de l’utilisation de la valeur de T au lieu de θ. Il est naturel de supposer que
l(θ, θ) = 0. On utilise le plus souvent la fonction

l(T (X), θ) = (T (X) − θ)2 , θ ∈ Θ,

comme fonction de perte (fonction de perte quadratique). Mais on peut aussi prendre
µ ¶2
T (X)
l(T (X), θ) =| T (X) − θ |, l(T (X), θ) = 1 −
θ
ou µ ¶
T T
l(T (X), θ) = − ln − 1.
θ θ
Il est intéressant aussi d’utiliser des fonctions convexes et de choisir

l(T (X), θ) = g(T (X) − θ), θ ∈ Θ,

où g est une fonction convexe non négative.


Définition 2. (Fonction de risque). On appelle fonction de risque ou risque de l’estimateur
T par rapport à la fonction de perte l l’espérance mathématique de la fonction de perte

Rl (T, θ) = Eθ {l(T, θ)}, θ ∈ Θ.

Cette fonction représente manifestement la perte moyenne lorsqu’on utilise l’estimateur


T (X) quand la vraie valeur du paramètre est θ.
Par exemple, si ½
1, | T − θ |≥ ε,
l(T, θ) =
0, | T − θ |< ε,
alors la fonction de risque est

Rl (T, θ) = Eθ {l(T, θ)} = Pθ {| T − θ |≥ ε}, θ ∈ Θ.

Cette définition nous permet d’introduire une relation d’ordre partiel sur les estimateurs
de θ. Il est logique d’admettre que l’estimateur T1 est préférable à l’estimateur T2 par rapport
à la fonction de perte l, si
Rl (T1 , θ) ≤ Rl (T2 , θ), θ ∈ Θ.
Remarque 1. Lorsque la fonction de perte choisie est la fonction de perte quadratique,
le risque-associé est appelé risque quadratique. Dans le cas d’un estimateur sans biais, le
risque quadratique correspond à la variance de l’estimateur.
Remarque 2. Dans le cas où le paramètre θ = (θ1 , ..., θm )T est un élément de Θ ⊂ Rm , alors
les produits sont des produits scalaires et les variances sont des matrices de covariance.

64
Plus d’information et des exemples on peut trouver, par exemple, dans Voinov& Nikulin
(1993), (1996).

2.5 Statistiques exhaustives, nécessaires, minimales et com-


plètes.

Considérons le modèle

H0 : X ∼ p(x; θ), θ ∈ Θ ⊂ Rm , x ∈ Rn ,
où la densité du vecteur X = X(ω) de dimension n, X : Ω → Rn , appartient à une famille
des densités

{p(x; θ), θ ∈ Θ }, x = (x1 , x2 , . . . , xn )T ∈ Rn .


Définition 1. Exhaustivité. On dit qu’une statistique

T = T(X), T : Rn → Rk , m ≤ k ≤ n,

est exhaustive pour le paramètre θ ou pour la famille des densités

{p(x; θ), θ ∈ Θ },
si la loi conditionnelle de X, sachant T,

Pθ {X ≤ x | T = t}
ne dépend pas de θ, i.e.

Pθ {X ≤ x | T = t} = P{X ≤ x | T = t}.

Remarque 1. Le fait que la loi conditionnelle de X, sachant T, ne dépende pas de θ signifie


que T contient toute l’information sur le paramètre inconnu θ.
Remarque 2. En pratique, il est très difficile de répondre à la question s’il existe une sta-
tistique exhaustive ou non en utilisant cette definition. Mais, ce qui est plus ennuyeux c’est
que cette definition ne donne aucune méthode pour construire des statistiques exhaustives.
Il est donc très important d’avoir un critère simple qui permettrait de trouver des statistiques
exhaustives.

Théorème. (Critère de factorisation de Neyman-Fisher).


Une statistique T = T(X) est exhaustive pour θ si et seulement si la fonction de vrai-
semblance L(θ) de X peut être factorisée de la façon suivante :

L(θ) = g(T; θ)W (X), (1)

65
où le premier facteur ne dépend que de T et θ, et le second ne dépend que de X.
Démonstration. On va donner la démonstration de ce théorème dans le cas où

i) X = X = (X1 , . . . , Xn )T est un échantillon,


Xi ∼ f (xi ; θ), xi ∈ Xi = X ⊂ Rn , θ ∈ Θ ;
ii) l’espace des réalisations X de Xi est fini ou infini dénombrable,

et donc la distribution de X est discrète dans

X n = X1 × X2 × · · · × Xn = X × X × · · · × X , X n ⊂ Rn ;

i.e.
X ∼ p(x; θ) = Pθ {X = x} > 0, x = (x1 , · · · , xn )T ∈ X n , θ ∈ Θ,

n
p(x; θ) = ∏ f (xi ; θ)
i=1
est la densité de X. On suppose aussi que X ne dépend pas de θ.
Tout d’abord on démontre que si T = T (X) est une statistique qui verifie (1), elle est
exhaustive.
Soit T une statistique T : X n → T telle que (1) ait lieu, où T = {t} ⊂ Rk est l’espace des
réalisations de T , i.e.
Pθ {T = t} > 0, t ∈ T .
Notons
Xt = {x = (x1 , . . . , xn )T : T (x) = t, x ∈ X n ⊂ Rn }
l’orbite, correspondant à la valeur t, t ∈ T , de la statistique T . Il est évident que X n =
S
t∈T Xt .
Comme {T (X) = t} = {X ∈ Xt } on a

P {X = x, T (X) = t}
Pθ {X = x|T (X) = t} = θ =
Pθ {T (X) = t}

 Pθ {X = x}
, si x ∈ Xt ,
= Pθ {T = t}

0, sinon,
car ½
Pθ {X = x}, si T (X) = t,
Pθ {X = x, T (X) = t} =
0, sinon.
On remarque que d’après (1) on a
½
g(t; θ)W (x), x ∈ Xt ,
Pθ {X = x} = p(x; θ) =
0, sinon.

Par ailleurs pour tout t ∈ T on a

Pθ {T (X) = t} = ∑ Pθ {X = x} =
x∈Xt

66
= ∑ g(T (x); θ)W (x) = ∑ g(t; θ)W (x) = g(t; θ) ∑ W (x),
x∈Xt x∈Xt x∈Xt
d’où on tire que
 W (x)

∑ W (x)
, x ∈ Xt ,
Pθ {X = x|T (X) = t} = x∈Xt

0, sinon.
Comme x est arbitraire, x ∈ X n , et Xt ne dépend pas de θ, donc

Pθ {X = x|T (X) = t} = p(x|t)

ne dépend pas de θ, i.e. T est une statistique exhaustive.


Réciproquement, si

Pθ {X = x|T (X) = t} = P{X = x|T (X) = t} = p(x|t)

ne dépend pas de θ, alors d’après le théorème de multiplication des probabilités, on a

p(x; θ) = Pθ {X = x} = Pθ {X = x|T (X) = t}Pθ {T (X) = t} =


[
= p(x|t)g(t; θ) = g(t; θ)W (x), x ∈ Xn = Xt ,
où W (x) = p(x|t) = p(x|T (x)), i.e. on obient (1), et donc le théorème est démontré.
Remarque 3. Il faut noter que, en principe, une statistique exhaustives, comme n’importe
quelle statistique, n’est pas un estimateur du paramètre inconnu. On a vu que la définition de
statistique est plus large que la définition d’estimateur. Evidemment, certaines statistiques
exhaustives peuvent être des estimateurs mais, en général, ce n’est pas le cas. L’idée d’uti-
liser des statistiques exhaustives permet de réduire les données expérimentales sans perdre
l’information. Chercher des estimateurs est l’étape suivante du traitement des observations.
Cela signifie que il est recommandé de chercher les estimateurs statistiques en termes des
statistiques exhaustives, si elles existent.
Définition 2. Soit T une statistique exhaustive. Dans ce cas U = U(T) est appelée une
statistique nécessaire.
Pour que la statistique nécéssaire U = U(T ) soit exhaustive il suffit que U(·) soit inver-
sible.
Définition 3. Soit U l’ensemble de toutes les statistiques exhaustives pour la famille {Pθ , θ ∈
Θ }. Une statistique exhaustive U, U ∈ U , est dite minimale si elle est nécessaire par rap-
port à toute autre statistique exhaustive T, T ∈ U , i.e. pour chaque T ∈ U il existe une
application U : U = U(T).
On dit aussi que U est une réduction de toute statistique exhaustive T (d’où le nom de
minimale). Cela signifie que U est une réduction de T si de l’égalite T (x1 ) = T (x2 ) il suit
l’égalité U(x1 ) = U(x2 ), x1 , x2 ∈ X n .
Donc, une statistique exhaustive minimale U est la statistique exhaustive la plus gros-
sière, et donc elle “réduit” au maximum l’espace des observations sans perdre l’information
sur θ. Soit V = H(U). Si H est inversible, c’est-à-dire H est une application bijective bime-
surable, alors V est elle aussi exhaustive, sinon V n’est plus exhaustive. Si H est inversible,

V ∼ U,

67
et dans ce sens U est unique (classe d’équivalence).
Remarque 4. Soient T = T (X) une statistique exhaustive,

L(X; θ) = g(T ; θ)W(X), T : Xn → T ,

et S = S(X) une autre statistique, telle que

S = S(X) = U(T (X)), S : Xn → J,

où U(·) est une fonction inversible i.e., si U : T → J , alors il existe

R = U −1 : J → T ,

telle que
T (X) = R(S) = R(S(X)).
On peut affirmer que S est elle aussi exhaustive ; en effet

L(X; θ) = g(T ; θ)W(X) = g(R(S(X)); θ)W(X) =

= g∗ (S(X); θ)W(X) = g∗ (S; θ)W(X).


Nous dirons que T et S sont équivalentes, T ∼ S, si elles sont inverses l’une de l’autre. On
dit souvent aussi que W(X) est une statistique auxiliaire ou complémentaire.
Définition 4. On dit que la famille de densités { f (x; θ), θ ∈ Θ ⊂ Rm } est complète si la
seule fonction T , T : R1 → R1 , qui vérifie l’équation intégrale
Z+∞
T (x) f (x; θ)dx = 0 pour tout θ∈Θ
−∞

est telle que T (x) = 0 presque partout.


Remarque 5. Si X ∼ f (x; θ), θ ∈ Θ ⊂ Rm , la complétude de la famille { f (x; θ)} signifie
que le seul estimateur sans biais de 0 est une statistique T (X) qui est nulle presque partout.
Définition 5. Soit T = T(X) une statistique, T : Rn → Rk ,

T ∼ g(t; θ), θ ∈ Θ , t ∈ Rk .

On dit que la statistique T est complète, si la famille {g(t; θ)} est complète.
Remarque 6. Pour mener à bien les estimations et les tests classiques, paramétriques ou
non paramétriques, on transforme les observations brutes en calculant des statistiques bien
choisies qui doivent avoir les propriétés suivantes :
1) Perdre le moins d’information possible, éventuellement pas du tout (et c’est le cas des
statistiques exhaustives) tout en réduisant au minimum le volume initial des observations.
2) Etre calculables ou avoir une bonne approximation. Par exemple, s’il s’agit d’un
estimateur obtenu par maximum de vraisemblance, il se peut que l’on ne puisse en obtenir
aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins bon.
3) Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur. Ce qui suit donne, grâce à des transformations appropriées des
observations, des statistiques qui ont ces propriétés et aussi de bonnes approximations par
des lois usuelles et permet ainsi de n’utiliser essentiellement que deux tables : celle de la loi

68
normale standard et celle des lois gamma (ou chi-deux). Des exemples illustrent l’applica-
tion de ces méthodes qui donnent des approximations meilleures (de vitesse de convergence
plus rapide) que les approximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-
blèmes concrets, en particulier chez les ingénieurs, mais aussi, dans les domaines de la
médecine et de la biologie.
Il y a plusieurs méthodes d’estimation d’un paramètre θ, par exemple :
10 . La méthode des moments ( basée sur la loi empirique) ;
20 . la méthode des moindres carrés (basée sur la méthode de Gauss) ;
30 . La méthode de minimum du chi-deux ;
40 . La méthode du maximum de vraisemblance, etc.
En général, ces méthodes sont différentes et par conséquant les propriétés des
estimateurs obtenus par ces méthodes sont différentes.

2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet.


Théorème de Rao-Blackwell-Kolmogorov.

Considérons un modèle paramétrique ; on a vu qu’une statistique exhaustive conserve


toute “ l’information” du modèle.
Pour mesurer l’information contenue dans une statistique, Fisher a défini la quantité
d’information.
Considérons la famille des densités :

{ f (x; θ) : θ ∈ Θ}, x ∈ R1 , Θ ⊂ R1 .

Supposons que cette famille est régulière. C’est-à-dire :



i) il existe ∂θ f (x, θ) pour tout θ ∈ Θ ;
ii) l’ensemble des x pour lesquels f (x, θ) = 0 est indépendant de θ ( le support X de f
ne dépend pas du paramètre θ)
iii) on peut dériver sous l’intégrale par rapport à θ la quantité
Z Z
f (x, θ)dx = f (x, θ)dx = 1. (1)
R1 X

Soit X = (X1 , ..., Xn )T un n-échantillon où

Xi ∼ f (xi ; θ), θ ∈ Θ ⊂ R1 , xi ∈ R1 .

Alors, la quantité
∂ ln f (X j ; θ)
λ(X j ; θ) = (2)
∂θ
est appelé informant de l’observation X j et la quantité suivante

Λ(X, θ) = ln L(θ) (3)
∂θ
est appelé informant de l’échantillon X ; (L(θ) est la fonction de vraisemblance de X).

69
Puisque
n
ln L(θ) = ∑ ln f (X j ; θ)
j=1

on en tire que
n
Λ(X; θ) = ∑ λ(X j ; θ). (4)
j=1

Définition 1. On appelle information de Fisher dans X par rapport à θ la quantité :

In (θ) = Varθ Λ(X, θ), (5)

si elle existe.
Remarque 1. Puisque
Eθ Λ(X; θ) = 0, θ ∈ Θ, (6)
on a
In (θ) = Eθ Λ2 (X, θ). (7)
Remarque 2. Si (1) peut être dérivée deux fois par rapport à θ sous le signe d’intégration,
alors on peut montrer que

In (θ) = −Eθ Λ(X, θ). (8)
∂θ
Remarque 3. Puisque
n
L(θ) = p(X; θ) = ∏ f (Xi , θ),
i=1
on pourra écrire :
In (θ) = ni(θ), (9)

i(θ) = Eθ λ2 (X j ; θ) (10)
représente l’information d’une des composantes, par exemple X j , du vecteur X. Nous en
déduisons que le vecteur X contient n fois plus d’information que chacune de ses compo-
santes. On remarque que si (1) peut être dérivée deux fois par rapport à θ, alors

i(θ) = −Eθ λ(X1 , θ). (11)
∂θ
L’inégalité de Rao-Cramer-Fréchet. Si T = T (X) un estimateur sans biais du paramètre
θ, alors sous les conditions i)-iii)
1
Varθ T ≥ , θ ∈ Θ. (12)
In (θ)
Démonstration. Soit τ la classe de tous les estimateurs T = T (X) sans biais pour le para-
mètre θ :
τ = {T : Eθ T ≡ θ}.
Dans ce cas pour tout T ∈ τ on a
Z
Eθ T = T (x)p(x; θ)dx ≡ θ, θ ∈ Θ,
Xn

70
et donc des conditions i)-iii) on tire que
Z Z
∂ ∂
T (x)p(x; θ)dx = T (x) p(x; θ)dx ≡ 1,
∂θ ∂θ
Xn Xn

i.e. on a Z Z · ¸
∂ ∂
1≡ T (x) p(x; θ)dx = T (x) ln p(x; θ) p(x; θ)dx =
∂θ ∂θ
Xn Xn
Z
T (x)Λ(θ)p(x; θ)dx = Eθ {T (X)Λ(θ)}, θ ∈ Θ,
Xn
où Λ(θ) est l’informant du vecteur d’observation X. Comme

Eθ T ≡ θ et Eθ Λ(θ) ≡ 0

nous pouvons écrire que

Eθ {T (X)Λ(θ)} = Eθ {(T − θ)Λ} = Covθ (T, Λ) ≡ 1, θ ∈ Θ,

et donc de cette identité et de l’inégalité de Cauchy-Schwarz-Bounjakovsky on tire que

1 ≡ Cov2θ (T, Λ) ≤ Varθ T × Varθ Λ = Varθ T In (θ),

d’où on obtient l’inégalité (12), connue sous le nom d’inégalité de Rao-Cramer-Fréchet.


Remarque 4. Si T = T (X) est un estimateur sans biais de la fonction différentiable g(θ), θ ∈
Θ, alors on peut montrer que dans le cas régulier :

[g0 (θ)]2
Varθ T ≥ , θ ∈ Θ. (13)
In (θ)
Par exemple, soit Eθ T = g(θ) = θ + b(θ), i.e. b(θ) est le biais de l’estimateur T . Dans ce
cas de (13) on tire que
[1 + b0 (θ)]2
Varθ T ≥ .
In (θ)
Remarque 5. 1/In (θ) n’est plus la borne inférieure de la variance d’un estimateur avec
biais.
Définition 2. Un estimateur sans biais T = T (X) du paramètre θ sera efficace si
1
Varθ T = . (14)
In (θ)
Un estimateur efficace est donc un estimateur sans biais pour lequel la borne inférieure de
l’inégalité de Rao-Cramer Fréchet est atteinte.
Remarque 6. En reprenant la remarque 4 on dira de la même façon que T est un estimateur
efficace de g(θ) si
[g0 (θ)]2
Varθ T = , θ ∈ Θ. (15)
In (θ)
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,

Xi ∼ f (xi ; p) = pxi (1 − p)1−xi , p ∈]0, 1[, xi ∈ X = {0, 1},

71
i.e. Xi suit une loi de Bernoulli de paramètre p. Dans ce cas la fonction de vraisemblance
est n n
n ∑ Xi n− ∑ Xi
L(p) = ∏ f (Xi ; p) = pi=1 (1 − p) i=1 , p ∈]0, 1[
i=1
et donc
n
µn = ∑ Xi
i=1
est une statistique exhaustive pour p. Il est évident que la statistique µn suit la loi binomiale
B(n, p). On sait que :

Eµn = np et Varµn = np(1 − p),


donc la statistique
µn
p̂n = X̄n =
n
est un estimateur sans biais pour p,

p(1 − p)
E p̂n = EX̄n = p et Var p̂n = , p ∈]0, 1[. (16)
n
Pour montrer que p̂n est le meilleur estimateur sans biais pour p, calculons la borne infé-
rieure dans l’inégalité de Rao-Cramer-Fréchet. Comme

ln L(p) = µn ln p + (n − µn ) ln (1 − p),

de (7) et (8) on déduit que

∂ µn n − µn
Λ(p) = ln L(p) = − , (17)
∂p p 1− p
d’où on tire que

∂ n
In (p) = EΛ2 (p) = −E Λ(p) = , p ∈]0, 1[, (18)
∂p p(1 − p)

on voit donc que p̂n est un estimateur efficace, puisque


1
In (p) = . (19)
Var p̂n
On va prouver maintenant qu’il y a un seul estimateur sans biais p̂n pour p, exprimé en
termes de la statistique exhaustive µn , c’est-à-dire qu’on va montrer que µn est une statis-
tique exhaustive complète.
Supposons qu’il existe un autre estimateur p∗n = p∗n (µn ) sans biais pour p,

E p p∗n (µn ) = p.

Dans ce cas δ(µn ) = p̂n − p∗n est un estimateur sans biais pour 0 :

E p δ(µn ) = E p ( p̂n − p∗n ) = 0, p ∈]0, 1[,

72
i.e., µ ¶
n
n
∑ δ(m) m
pm (1 − p)n−m = 0, p ∈]0, 1[,
m=0

d’où on tire que δ(m) ≡ 0, m ∈ {0, 1, ..., n}, puisque le système des fonctions {1,t,t 2 , ...,t n , ...}
forme une base complète. Puisque la statistique µn est complète, on en déduit que p̂n est
unique, que c’est et donc le meilleur estimateur sans biais pour p et qu’il est efficace.
Supposons qu’il nous faille estimer p2 . Comme

Varµn = Eµ2n − (Eµn )2 = np − np2 ,


on trouve que

Eµ2 = np + n2 p2 − np2 ,
et donc

µ2n p
E = + p2 .
n(n − 1) n − 1
Comme Eµn = np, on obtient que la statistique

µn (µn − 1)
(20)
n(n − 1)
est le meilleur estimateur sans biais pour p2 , puisqu’il est exprimé en termes de la statistique
exhaustive complète. De la même façon on peut montrer que
½ ¾
µn (µn − 1) · · · (µn − k + 1)
E = pk
n(n − 1) · · · (n − k + 1)
pour tous les k = 1, 2, ..,n.
Example 2. Soit X = (X1 , . . . , Xn )T un échantillon,
θxi −θ
Xi ∼ f (xi ; θ) = e , xi ∈ X = {0, 1, 2, . . .}, θ > 0,
xi !
i.e. Xi suit une loi de Poisson de paramètre θ.
Comme à !−1
n
n ∑ Xi n
L(θ) = ∏ f (Xi ; θ) = e −nθ i=1
θ ∏ Xi , θ > 0,
i=1 i=1
du critère de factorisation on déduit que la statistique
n
T = ∑ Xi
i=1

est exhaustive pour θ, et comme la famille { f (x; θ)} est complète, on en déduit que T est la
statistique exhaustive minimale.
On remarque que dans ce modèle la statistique
à !−1
n
W (X) = ∏ Xi
i=1

73
est auxiliaire.
Il est facile de démontrer par des calculs directs que
Pθ {X = x|T = t}, x = (x1 , . . . , xn )T ∈ X n ,
ne dépend pas de θ. En effet :
Pθ {X1 = x1 , . . . , Xn = xn , T = t}
Pθ {X = x|T = t} = =
Pθ {T = t}

 Pθ {X = x} , si x ∈ X ,
t
= Pθ {T = t}

0, sinon.
Soit x ∈ Xt = {x : ∑ xi = t}. Dans ce cas pour ∀t ∈ X
θx1 −θ
· · · θxn ! e−θ
xn
Pθ {X = x} x1 ! e
Pθ {X = x|T = t} = = (nθ)t −nθ
=
Pθ {T = t}
t! e
µ ¶t
t! 1
= .
x1 !x2 ! · · · xn ! n
Donc, la loi conditionnelle de X, sachant T = t, est la loi multinomiale uniforme, qui ne
n
dépend pas de θ, quelle que soit la valeur observée t de la statistique exhaustive T = ∑ Xi .
i=1
On considère maintenant le problème de l’estimation du paramètre θ. Pour estimer θ on
appliquera la méthode du maximum de vraisemblance. Pour trouver
θ̂n = argθ max L(θ),
il nous faut résoudre l’équation du maximum de vraisemblance Λ(θ) = 0, puisque

Λ(θ) = ln L(θ).
∂θ
Comme
ln L(θ) = −nθ + T ln θ + lnW (X),
on doit résoudre l’équation
T
Λ(θ) = −n + = 0,
θ
dont la solution θ̂n est
1 1 n
θ̂n = T = ∑ Xi = X̄n .
n n i=1
Comme T suit une loi de Poisson de paramètre nθ, on obtient immédiatement que
θ
Eθ θ̂n = θ et Varθ θ̂n = ,
n
i.e. {θ̂n } est une suite consistante d’estimateurs sans biais du paramètre θ. On va montrer
que θ̂n est un estimateur efficace, c’est-à-dire qu’on a l’égalité :
1
Varθ̂n = .
In (θ)

74
En effet,

In (θ) = −Eθ Λ(θ),
∂θ
et comme
∂ T
Λ(θ) = − 2 ,
∂θ θ
on trouve que l’information de Fisher sur θ dans X est égale à
∂ 1 n
In (θ) = −Eθ Λ(θ) = 2 Eθ T = ,
∂θ θ θ
d’où on tire que
1 θ
Varθ̂n = = ,
In (θ) n
et donc θ̂n est un estimateur efficace pour θ. Comme la famille des densités
½ x ¾
θ −θ
e , θ>0
x!

est complète, on en déduit que θ̂n est un estimateur sans biais unique dans la classe des
estimateurs sans biais, exprimés en termes de la statistique exhaustive T et θ̂n est donc le
meilleur estimateur sans biais pour θ.
Remarque 7. Soit X = (X1 , ..., Xn )T un vecteur aléatoire ayant une distribution discrète dans
Rn . Notons X = {x = (x1 , ..., xn )T } l’espace des réalisations de X dans Rn , c’est-à-dire que ;

P{X = x} = pX (x) = p(x) > 0, ∀x ∈ X ⊂ Rn

et
∑ P{X = x} = P{X ∈ X } = 1,
x∈X
où X est fini ou infini dénombrable, puisque X suit une loi discrète.
Soit T = T(X) une statistique arbitraire, T(x) : X → τ, où τ = {t} est l’espace des
réalisations de T,
P{T = t} > 0 pour ∀t ∈ τ.
Pour toute valeur possible t de la statistique T, t ∈ τ, on détermine son orbite Xt dans X :

Xt = {x : T(x) = t, x ∈ X }.
Il est évident que {Xt } est une partition de X :
[ \
Xt = X et Xt Xt0 6= 0, t, t0 ∈ τ, t 6= t0 . (21)
t∈τ

La loi conditionnelle de X sachant que T = t est l’ensemble des probabilités conditionnelles


{p(x | t)} étant donné t fixé :

p(x | t) = P{X = x | T(X) = t} =



 P{X=x,T(X)=t}
= p(x)
, si x ∈ Xt ,
P{T(X)=t} ∑ p(x)
x∈Xt (22)

0, sinon ,

75
puisque ½
P{X = x} = p(x), si x ∈ Xt ,
P{X = x, T = t} =
0, sinon .
La famille des probabilités (22) est finie ou infinie dénombrable, et on choisit t dans (22)
de façon que P{T = t} > 0, i.e. t ∈ τ.
Soit U = U(X) une autre statistique, U(x) : X → U , telle que EU existe. D’après la
définition :
EU = EU(X) = ∑ U(x)p(x). (23)
x∈X

On détermine l’espérence conditionnelle E{U | T = t} sachant que T = t en termes de la


distribution conditionnelle (22) :

E{U | T = t} = ∑ U(x)p(x | t) =
x∈Xt

∑ U(x)p(x)
x∈Xt
. (24)
∑ p(x)
x∈Xt

Nous pouvons considerer E{U | T = t} comme une réalisation de la variable aléatoire E{U |
T} quand T = t. Il est facile de prouver que

E{E{U | T}} = EU.

De (21) et (24) il suit que

E{E{U | T}} = ∑ E{U | T = t}P{T = t} =


t∈τ

∑ E{U | T = t} ∑ p(x) =
t∈τ x∈Xt

∑ ∑ U(x)p(x) = ∑ U(x)p(x) = EU,


t∈τ x∈Xt x∈X

puisque {Xt } est une partition de X . On a donc montré que

E{E{U | T}} = EU, (25)

et par conséquent pour calculer EU on peut tout d’abord calculer E{U | T = t} puis E{E{U |
T}}.
Soit X un vecteur aléatoire, X ∈ Rn , X ∼ F, F ∈ F , où F = {F} est une famille de
fonctions de répartitions dans Rn . Soient ψ = ψ(X) et ϕ = ϕ(X) deux statistiques, ψ :
Rn → Rk , ϕ : Rn → Rk , telles que

Eψ, Eϕ, EψψT , EϕϕT

existent.
Considérons la statistique

Ψ = Ψ (ϕ) = E{ψ|ϕ}, Ψ ∈ Rk .

76
Il est évident que
Ψ = E{E{ψ|ϕ}} = Eψ,

ce qui signifie que Ψ est un estimateur sans biais de Eψ.

Théorème 1 (Rao-Blackwell-Kolmogorov)
Pour tout z ∈ Rk

Ψ − Eψ)(Ψ
zT E{(Ψ Ψ − Eψ)T }z ≤ zT E{(ψ − Eψ)(ψ − Eψ)T }z. (26)

Démonstration. Notons

Ψ − Eψ)]T z.
∆ = [ψ − Ψ ]T z = [(ψ − Eψ) − (Ψ

Puisque E∆ = 0, nous obtenons

Var ∆ = E∆2 = E∆T ∆ ≥ 0. (27)

Mais
Ψ − Eψ)T −
∆2 = ∆T ∆ = zT {(ψ − Eψ)(ψ − Eψ)T − (ψ − Eψ)(Ψ
Ψ − Eψ)(ψ − Eψ)T + (Ψ
−(Ψ Ψ − Eψ)(Ψ
Ψ − Eψ)T }z,
et par suite de (27), on peut tirer que

0 ≤ E∆2 = zT (Var ψ)z − zT Cov (ψ, Ψ )z−


(28)
Ψ, ψ)z + zT (Var Ψ )z.
−zT Cov (Ψ
Puisque
Ψ − Eψ)T } =
Cov (ψ, Ψ ) = E{(ψ − Eψ)(Ψ
Ψ − Eψ)T |ϕ}} = E{E{(ψ − Eψ)|ϕ}(Ψ
= E{E{(ψ − Eψ)(Ψ Ψ − Eψ)T } =
Ψ − Eψ)(Ψ
= E{(Ψ Ψ − Eψ)T } = Var Ψ , (29)
alors de (27), (28) et (29) on déduit que

0 ≤ E∆2 = zT (Var ψ)z − zT (Var Ψ )z,

ce qu’il nous fallait démontrer.

Remarque 8. Si ψ = ψ(X) est un estimateur sans biais d’une fonctionnelle g(F), F ∈ F ,


alors
Ψ = E{ψ|ϕ}
est aussi un estimateur sans biais pour g(F), dont le risque quadratique n’est pas plus grand
que celui de ψ. Ce théorème est très intéressant lorsque ϕ est une statistique exhaustive.

Exemple 1. Soit X = (X1 , . . . , Xn )T un échantillon,

X ∼ p(x; θ), θ ∈ Θ ⊂ Rm .

Supposons qu’il existe une statistique exhaustive

T = T(X), T : Rn → Rk , m ≤ k ≤ n,

77
dont la densité est g(t; θ), t ∈ Rk . Notons q(x,t; θ) la densité conjointe de X et T, p(x | t)
la densité conditionnelle de X sachant T = t. Dans ce cas pour tout x fixé, x ∈ Rn , p(x|T )
est un estimateur sans biais pour p(x; θ). En effet,
Z Z
Ep(x|T ) = p(x|t)g(t; θ) dt = q(x,t; θ) dt = p(x; θ).
Rk Rk

2.7 Méthode des moments.

La fonction de répartition Fn (x) de la loi empirique associée à un échantillon X =


(X1 , ..., Xn )T est un bon estimateur de la fonction de répartition F(x) :
EFn (x) = F(x) = P{Xi ≤ x}, x ∈ R1 ,
et pour tout ε > 0
P{| Fn (x) − F(x) |> ε} → 0, x ∈ R1
lorsque n → ∞ quel que soit x fixé. En pratique cela signifie que Fn (x) ≈ F(x) pour tout x
fixé, quand n est assez grand.
Il est donc naturel de choisir les moments
Z+∞
1 n
αm = ∑ Xim = xm dFn (x)
n i=1
−∞

de la loi empirique Fn comme estimateurs des moments


Z+∞
m
am = EX = xm dF(x)
−∞

de la loi F, puisque αm ≈ am , si Fn (x) ≈ F(x).


Supposons que la fonction de répartition
F(x; θ) = Pθ {Xi ≤ x}, | x |< ∞
dépende d’un paramètre inconnu
θ = (θ1 , ..., θs )T ∈ Θ ⊂ Rs
et qu’existent les moments
Z+∞
ar (θ) = xr dF(x; θ), r = 1, 2, ..., s.
−∞

On cherche un estimateur du paramètre θ = (θ1 , ..., θs )T en résolvant le système d’équa-


tions :
am (θ) = αm , (m = 1, 2, ..., s) (1)

78
par rapport à θ1 , ..., θs . La solution θ̃n = (θ̃1 , ..., θ̃n )T de cette équation,
θ̃1 = θ̃1 (α1 , ..., αs ),
···
θ̃s = θ̃s (α1 , ..., αs ),
s’appelle l’estimateur par la méthode des moments de θ.
Si les fonctions (1) déterminent une application bijective, leurs dérivées partielles existent
et sont continues et les moments ak (θ) (k = 1, 2, ..., 2s) existent ; donc les estimateurs ob-
tenus par la méthode des moments sont cohérents et de distributions asymptotiquement nor-
males. Des propriétés asymptotiques d’estimateurs, obtenus par la mèthode des moments,
serons considérées dans le chapitre III.
Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon lognormalle LN(µ, σ2 ),
1 − 1 (ln x−µ)2
Xi ∼ p(x; µ, σ2 ) = √ e 2σ2 1]0,∞[ (x), µ ∈ R1 , σ2 > 0.
xσ 2π
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .
D’après la méthode des moments pour estimer µ et σ2 il faut résoudre le système
( 2
eµ+σ /2 = X̄n = α1 ,
2
e2µ+2σ = n ∑i=1 Xi = α2 ,
1 n 2

ce qui est équivalent à ½


µ + σ2 /2 = ln α1 ,
µ + 2σ2 = ln α2 ,
d’où on trouve les estimateurs σ̃2n et µ̃n :
µ ¶
s2n X̄ 2
σ̃2n = ln α2 − ln α21 = ln +1 , µ̃n = ln p n ,
X̄n2 s2n + X̄n2

1 n
s2n = ∑ (Xi − X̄n)2
n i=1
est la variance de la loi empirique.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon,
r
1 2 x2
Xi ∼ p(x; θ) = exp {− 2 }1]0,∞[ (x), x ∈ R1 , θ ∈ Θ =]0, ∞[.
θ π 2θ
On peut montrer que
r
2 π−2
EX1 = θ , EX12 = θ2 , Var X12 = θ2 .
π π
Pour estimer θ par la méthode des moments on considère l’équation
r
2
θ = X̄n ,
π

79
d’où on obtient l’estimateur r
π
θ̃n = X̄n .
2
Il est claire que Eθ̃n = θ, i.e. θ̃n est un estimateur sans biais pour θ, et comme
µ ¶
θ2 2
Var X̄n = 1− ,
n π

on en tire que
π θ2 ³ π ´
Var θ̃n = Var X̄n = −1 =
2 n 2
θ2 π − 2 π − 2 1
= > ,
n 2 In (θ) In (θ)
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π

est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 .
 θ π−2 
π

Du théorème de Slutsky on tire que les variables aléatoires



n(θ̃n − θ)
q
θ̃n π−22

sont asymptotiquement normales N(0, 1) aussi, i.e.


 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 ,
 θ̃ π−2 
n 2

si les valeurs de n sont assez grandes.


Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
 
 √ 
n(θ̃n − θ)
P −x̄α/2 ≤ q ≤ x̄α/2 ≈ 1 − α,
 θ̃ π−2 
n 2

80
où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n

et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n

si n est assez grand.

2.8 Méthode des moindres carrés. Modèle de Gauss de la


théorie des erreurs.

Supposons qu’on cherche à mesurer une constante µ ; pour cela on fait n mesures di-
rectes x1 , x2 , . . . , xn de µ, indépendantes les unes des autres, de même précision, sans erreur
systématique. De chaque résultat d’expérience on tire que

µ∼
= xi , i = 1, 2, . . . , n. (1)
On obtient un système de n équations, qui sont en général incompatibles si les xi ne sont
pas tous égaux. Pour cette raison il est logique de traiter xi − µ comme une erreur, commise
au cours de la i-ème mesure de µ, et x − µ1n comme le vecteur des erreurs que l’on a fait au
cours des n expériences organisées pour déterminer µ ; donc
n
kx − µ1n k2 = (x − µ1n )T (x − µ1n ) = ∑ (xi − µ)2 (2)
i=1
repésente le carré de la longueur du vecteur des erreurs x − µ1n .
Compte tenu du fait que toutes les mesures sont faites dans les mêmes conditions, et que par
suite les n équations ont toutes la même validité pour l’expérimentateur, Legendre a posé le
problème de la détermination d’une valeur µ∗ , µ∗ ∈ R1 , qui est meilleure que chaque résultat
individuel xi et en même temps est en meilleur accord, dans un certain sens avec tous les xi ,
c’est-à-dire, avec le système d’équations (1) qui représente les résultats d’expériences de
mesures du paramètre µ.
Pour déterminer µ∗ , Legendre a proposé le principe des moindres carrés, d’après lequel
la valeur de µ, la plus en accord avec l’expérience est donnée par la valeur µ∗ , qui minimise
kx − µ1n k2 , le carré de la longueur du vecteur des erreurs (x − µ1n ) , i.e.

(x − µ∗ 1n )T (x − µ∗ 1n ) = min (x − µ1n )T (x − µ1n ). (3)


µ∈R1
Ceci justifie le nom de la méthode, que l’on appelle la méthode des moindres carrés. Par
tradition on dit aussi que µ∗ est un estimateur des moindres carrés pour µ.
Plus tard Gauss a donné une justification logique de la méthode des moindres carrés,
en utilisant un modèle classique d’erreurs de mesures, qui est connu aujourd’hui sous le

81
nom de modèle de Gauss. D’après ce modèle le résultat xi de la i-ème mesure représente la
réalisation de la variable aléatoire

Xi = µ + δi , i = 1, . . . , n, (4)
où δi est l’erreur aléatoire de la i-ème mesure,

δi ∈ N(0, σ2 ), (5)
puisque Eδi = 0 par convention (absence d’erreur systématique) et σ2 = Varδi > 0 est une
constante ne dépendant pas de i, car chaque mesure a été faite avec la même précision.
Gauss a proposé de considérer chaque δi comme une variable aléatoire de loi normale ; en
effet selon la théorie des erreurs, développée par Gauss, toute erreur δi représente la somme
d’un grand nombre de petites erreurs , qu’on peut supposer indépendantes ; par suite, on
peut supposer que leur somme est normale, ce qui peut s’expliquer dans le cadre du théo-
rème limite central. De plus on a l’indépendance des mesures, d’où on déduit que dans
le modèle de Gauss on peut supposer que δ1 , . . . , δn sont des variables aléatoires indépen-
dantes, et donc que X = (X1 , . . . , Xn )T est un échantillon normal ; cela signifie que X1 , . . . , Xn
sont des variables aléatoires indépendantes qui suivent la même loi normale de paramètres
µ et σ2 :

Xi ∈ N(µ, σ2 ), i = 1, . . . , n; (6)
donc dans le cadre de ce modèle le résultat de l’expérience x = (x1 , . . . , xn )T est une réa-
lisation d’un vecteur aléatoire X, de loi normale de dimension n et de paramètres µ1n et
σ2 In , X ∼ Nn (µ1n , σ2 In ),

EX = µ1n et VarX = E(X − µ1n )(X − µ1n )T = σ2 In , (7)


où σ2 est une constante positive, qui exprime la précision des mesures. Nous supposerons
d’abord que σ2 est connu.
Dans le modèle de Gauss le vecteur des observations X peut se représenté comme la
somme

X = µ1n + δ, (8)
d’un terme déterministe, mais inconnu, et d’un terme aléatoire

δ = (δ1 , . . . , δn )T = X − µ1n , (9)


qui suit la loi normale de dimension n et de paramètres

Eδ = 0n = (0, . . . , 0)T et Eδδ T = σ2 In , (10)


et ce vecteur δ est le vecteur des erreurs aléatoires. Le problème principal dans la théo-
rie des erreurs, élaborée par Gauss, est la construction du meilleur (en un sens à préciser)
estimateur de µ en utilisant la réalisation x du vecteur des observations X. Pour trouver ce
meilleur estimateur pour µ, Gauss a proposé d’utiliser la méthode du maximum de vraisem-
blance, d’après laquelle la valeur qui rend maximum la fonction de vraisemblance L(µ),
liée au vecteur des observations X, est l’estimateur du paramètre inconnu µ. D’après le mo-
dèle que l’on a choisi, le vecteur X suit une loi normale de dimension n et de paramètres
(7) ; donc la fonction de vraisemblance L(µ) est donnée par la formule

82
½ ¾
√ −n 1 T
L(µ) = (σ 2π) exp − 2 (X − µ1n ) (X − µ1n ) =

½ ¾ ½ ¾
√ −n 1 T √ −n 1 2
= (σ 2π) exp − 2 δ δ = (σ 2π) exp − χn , µ ∈ R1 , (11)
2σ 2
car

δT δ = σ2 χ2n . (12)
On remarque ici que maximiser la fonction de vraisemblance L(µ), µ ∈ R1 , revient à
minimiser la fonction (X − µ1n )T (X − µ1n ) qui représente la fonction de la formule (2),
mais en d’autres termes, en termes d’observations. C’est-à-dire que dans ce cas la méthode
de Legendre et la méthode de Gauss sont équivalentes. Donc L(µ), µ ∈ R1 , atteint son
maximum, X étant donné, pour le point µ∗ , qui rend minimum la forme quadratique

(X − µ1n )T (X − µ1n ) = δT δ,
i.e. l’estimateur statistique µ∗ est la solution du problème extrêmal :

(X − µ∗ 1n )T (X − µ∗ 1n ) = min (X − µ1n )T (X − µ1n ), (13)


µ∈R1

obtenue pour la valeur µ = µ∗ , qui vérifie l’équation

(1Tn 1n )µ = 1Tn X, (14)


d’où on tire que
1 1
µ∗ = X̄n = (X1 + X2 + . . . + Xn ) = 1Tn X. (15)
n n
L’estimateur statistique µ∗ = X̄n s’appelle l’estimateur des moindres carrés ou estima-
teur de Gauss pour µ. On remarque que
" #
√ −n n 1 n
L(µ) = (σ 2π) exp{− 2 (X̄n − µ)2 + ∑ (Xi − X̄n )2 } =
2σ n i=1

n 2
exp{− (X̄n − µ) }W (X);
σ 2

donc X̄n est une statistique exhaustive pour µ. Comme X̄n ∈ R1 et µ ∈ R1 , la statistique
exhaustive X̄n est minimale. De (6) et (7) il suit que X̄n suit la loi normale N(µ, σ2 /n) de
paramètres
σ2
EX̄n = µ et VarX̄n = E(X̄n − µ)2 = . (16)
n
Puisque la famille des loi normale N(µ, σ2 ) est complète, on en tire que X̄n est une statistique
exhaustive minimale et complète. X̄n est un estimateur efficace pour µ.
Souvent la variance σ2 est elle aussi inconnue ; dans ce cas outre l’estimateur X̄n pour µ
il est très important d’obtenir un estimateur statistique pour σ2 . Notons

θ = (µ, σ2 )T , θ ∈ Θ = {θ :| µ |< ∞, σ2 > 0} ⊂ R2 .

83
Pour estimer θ on considère la statistique

∆ = X − µ∗ 1n = (X − X̄n 1n ) = (X − µ1n ) + (µ − µ∗ )1n = δ + (µ − µ∗ )1n , (17)


qui s’appelle le vecteur des erreurs apparentes. Il est évident que la statistique ∆ suit la loi
normale Nn (0n , σ2 Dn ), qui est dégénérée et où
1
Dn = In − 1n 1Tn , (18)
n
avec In , matrice identité d’ordre n. On remarque que Dn est une matrice idempotente,
puisque
rangDn = n − 1 et DTn Dn = Dn DTn = Dn . (19)
De (9) et (17) on tire l’égalité

δ = (µ∗ − µ)1n + ∆, (20)


que l’on appelle la décomposition orthogonale du vecteur des erreurs aléatoires δ en termes
de µ∗ et ∆. On remarque que

δT δ = ∆T ∆ + (µ∗ − µ)1Tn 1n (µ∗ − µ) = ∆T ∆ + n(X̄n − µ)2 =


n
= ∑ (Xi − X̄n )2 + n(X̄n − µ)2 = n[s2n + (X̄n − µ)2 ], (21)
i=1

où la statistique s2n est déterminée par la formule

1 1 n
s2n = XT Dn X = ∑ (Xi − X̄n )2 . (22)
n n i=1
Comme θ = (µ, σ2 )T , il vaut mieux écrire que la fonction de vraisemblance de X est L(θ) =
L(µ, σ2 ). En utilisant (11),(13), (21) et (22), nous pouvons présenter L(µ, σ2 ) en termes des
statistiques s2n et X̄n par la formule suivante
½ ¾
√ −n 1 T
L(X; µ, σ ) = (σ 2π) exp − 2 δ δ =
2

√ −n n n o
= (σ 2π) exp − 2 [s2n + (X̄n − µ)2 ] , (23)

¡ ¢T
d’où on tire que la statistique T = X̄n , s2n est exhaustive. On peut montrer que T est
minimale et complète.
Pour étudier les propriétés de T on considère, par exemple, la transformation linéaire
Y = CX de Helmert, déterminée par la matrice orthogonale C,

CT C = CCT = In , CT = C−1 ,
° °
° √1 √−1 0 0 ··· 0 0 °
° 1·2 1·2 °
° √1 √1 √−2 ··· °
° 0 0 0 °
° 2·3 2·3 2·3 °
° .. .. .. ... .. .. .. °
C=° . . . . . . °.
° −(n−1) °
° √ 1 √ 1 √ 1 √ 1
··· √ 1 √ °
° (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n (n−1)n °
° °
° √1 √1 √1 √1 ··· √1 √1 °
n n n n n n

84
D’après cette transformation Y = (Y1 , ...,Yn )T , où

Y1 = √1 (X1 − X2 ),
1·2
Y2 = √1 (X1 + X2 − 2X3 ),
2·3
..
.
Yn−1 = √ 1
(X1 + X2 + ... + Xn−1 − (n − 1)Xn ),
(n−1)n

Yn = √1 (X1 + X2 + ... + Xn ) = nX̄n ,
n

et comme C est orthogonale on a


n n
∑ Xi2 = ∑ Yi2; (24)
i=1 i=1

la fonction de vraisemblance de Y est donc donnée par la formule :


" #
³ √ ´−n 1 n−1 √
L(Y; µ, σ2 ) = σ 2π exp{− 2 ∑ Yi2 + (Yn − µ n)2 } =
2σ i=1
µ ¶n−1 n−1
1 1 ¡ √ ¢2 1 1
√ exp{− 2 Yn − µ n }
σ 2π 2σ

σ 2π
∏ exp{− 2 Yi2 },

i=1
puisque
pY (y) = pX (C−1 y)| det C−1 | = pX (C−1 y) =
½ ¾
1 1 T T T
= √ exp − 2 (C y − µ1n ) (C y − µ1n ) =
( 2πσ)n 2σ
½ ¾
1 1 2 √ 2
= √ exp − 2 (kyk − 2µyn n + nµ ) =
( 2πσ)n 2σ
( " #)
1 1 n−1 2 √ 2
= √ exp − 2 ∑ yi + (yn − µ n) ,
( 2πσ)n 2σ i=1
√ √
C1n = (0, ..., 0, n)T et µyT C1n = µyn n,
d’où on tire que Y1 ,Y2 , ...,Yn sont indépendantes et

Yi ∼ N(0, σ2 ), i = 1, ..., n − 1; (25)



Yn ∼ N(µ n, σ2 ). (26)
Notons que de (24) il suit que
n n−1
ns2n = ∑ (Xi − X̄n )2 = ∑ Yi2,
i=1 i=1

donc s2n ne dépend pas de Yn = nX̄n , et par conséquent, s2n et X̄n sont indépendantes. En
plus , de (24), (25) et (26) on tire que

σ2 ns2
X̄n ∼ N(µ, ) et 2n = χ2n−1 , (27)
n σ

85
donc que la statistique s2n est distribuée comme σ2 χ2n−1 /n, où χ2f est une variable aléatoire
qui suit la loi du chi-deux à f dégrés de liberté, f > 0, i.e. pour tout x ≥ 0
Zx
2− f /2 f
P{χ2f ≤ x} = ³ ´ t 2 −1 e−t/2 dt.
Γ 2f 0

Comme
Eχ2f = f et Varχ2f = 2 f , (28)
de (27) et (28) on tire que
µ ¶
1 2σ4 (n − 1)
Es2n =σ 2
1− et Vars2n = . (29)
n n2
On peut vérifier que dans notre problème l’estimateur de maximum de vraisemblance
θ̂n pour θ est
θ̂n = T = (X̄n , s2n )T .
En effet, on a
√ n n n
ln L(X; µ, σ2 ) = −n ln 2π − ln σ2 − 2 s2n − 2 (X̄n − µ)2 ,
2 2σ 2σ
∂ln L n ∂ln L n ns2n n
= 2 (X̄n ) − µ) et = − + + 4 (X̄n − µ)2 ,
∂µ σ ∂σ 2 2σ 2 2σ 4 2σ
donc pour trouver µ̂n et σ̂2n , il faut résoudre le système
(
∂ln L
∂µ = 0,
∂ln L
∂σ2
= 0.
De la première équation du système on tire que
µ̂n = X̄n ,
et de la deuxième on tire que
σ̂2n = s2n ,
d’où on obtient que θ̂n = (X̄n , s2n )T est l’estimateur de maximum de vraisemblance pour
θ = (µ, σ2 )T .
D’un autre côté comme de (29) on tire que

n 2 1 n
Sn2 =
n−1
sn = ∑ (Xi − X̄n)2
n − 1 i=1
(30)

est un estimateur sans biais pour σ2 .


On peut montrer que la statistique θ̃n = (X̄n , Sn2 )T est le meilleur estimateur sans biais
(au sens de minimum de variance) pour θ = (µ, σ2 )T .

2.9 Régions, intervalles, limites de confiance.

Dans ce paragraph nous allons suivre les articles de Bolshev (1965) et de Bagdona-
vičius, Nikoulina & Nikulin (1997).

86
Soit X = (X1 , . . . , Xn )T un échantillon, dont les réalisations x = (x1 , . . . , xn )T appar-
tiennent à X ⊆ Rn , x ∈ X ⊆ Rn ,

H0 : Xi ∼ f (x; θ), θ = (θ1 , . . . , θk )T ∈ Θ ⊆ Rk .

On s’intéresse à un problème d’estimation de la vraie valeur b = b(θ) d’une fonction b(·) :


Θ ⇒ B ⊆ Rm au point θ, θ ∈ Θ . Notons B0 l’intérieur de B.
Définition 1. On appelle région de confiance pour b = b(θ) de coefficient de confiance
γ (0.5 < γ < 1) ou γ-région de confiance tout court, un ensemble aléatoire C(X), C(X) ⊆
B ⊆ Rm , tel que
inf Pθ {C(X) 3 b(θ)} = γ.
θ∈ΘΘ

De cette définition on tire


Pθ {C(X) 3 b(θ)} ≥ γ,
pour tous θ ∈ Θ .
Dans le cas où b(θ) ∈ B ⊆ R1 la région de confiance est souvent un intérvalle dans R1 ,

C(X) =]bi (X), bs (X)[ ⊆ B ⊆ R1 ,

et on parle de l’intervalle de confiance du coefficient de confiance γ pour b, si

inf Pθ {bi (X) < b < bs (X)} = γ.


θ∈Θ
Θ

Il est évident que


Pθ {bi (X) < b < bs (X)} ≥ γ
pour tous θ ∈ Θ . Les statistiques bi (X) et bs (X) sont appelées les limites de l’intervalle de
confiance C(X). On remarque que

Pθ {bi (X) ≤ bs (X)} = 1.


Remarque 1. Supposons qu’on prenne un grand nombre d’échantillons X1 , . . . , XN et que
chaque fois on construise un intervalle de confiance ]bi (Xi ), bs (Xi )[ du coefficient de confiance
γ. Soit ]bi (xi ), bs (xi )[ une réalisation de ]bi (Xi ), bs (Xi )[; i = 1, . . . , N. Dans ce cas la vraie
valeur b sera recouverte par ces intervalles ]bi (xi ), bs (xi )[ au moins dans 100γ% des cas.
Souvent on prend γ ≥ 0.9.
Definition 2. Une statistique bi (X)(bs (X)) est appelée la limite inférieure (supérieure) de
confiance pour b = b(θ) de coefficient de confiance γ1 (γ2 ), si
à !
inf Pθ {bi (X) < b} = γ1 inf Pθ {bs (X) > b} = γ2 , 0.5 < γ j < 1.
θ∈Θ
Θ θ∈Θ
Θ

Les statistiques bi (X) et bs (X) sont appelées aussi γ1 - limite inférieure et γ2 - limite su-
périeure tout court. Si les coefficients de confiance de bi (X) et bs (X) sont égaux à γ1 et
γ2 respectivement, dans ce cas ]bi (X), bs (X)[ est l’intervalle de confiance du coefficient de
confiance
γ = γ1 − (1 − γ2 ) = γ1 + γ2 − 1

87
pour la vraie valeur de b = b(θ).
Définition 3. Les intervalles

]bi (X), +∞[ et ] − ∞, bs (X)[

sont appelés intervalles de confiance supérieur et inférieur pour b. Tous les deux sont des
intervalles unilatéraux.

2.10 Méthode de Bolshev de construction des limites de


confiance.

Lemme (Bolshev (1965)) Soit G(t) la fonction de répartition d’une variable aléatoire T .
Dans ce cas pour tout z ∈ [0, 1]

P{G(T ) ≤ z} ≤ z ≤ P{G(T − 0) < z}. (1)

Si T est continue, alors


P{G(T ) ≤ z} = z, 0 ≤ z ≤ 1.
Démonstration. On va d’abord montrer que

P{G(T ) ≤ z} ≤ z, 0 ≤ z ≤ 1. (2)
Si z = 1, on a P{G(T ) ≤ 1} ≤ 1. Fixons z ∈ [0, 1) et pour cette valeur de z on considère les
situations différentes.
1) Il existe une solution y de l’équation G(y) = z. Notons

y0 = sup{y : G(y) = z}.


On peut avoir :
a)G(y0 ) = z. Dans ce cas on a

P{G(T ) ≤ z} ≤ P{T ≤ y0 } = G(y0 ) = z.

b) G(y0 ) > z. Dans ce cas on a

P{G(T ) ≤ z} ≤ P{T < y0 } = G(y0 − 0) ≤ z.

2) Il n’existe pas de solution pour l’equation G(y) = z. Mais dans ce cas il existe y tel que

G(y) > z et G(y − 0) < z,


d’où on tire que
P{G(T ) ≤ z} ≤ P{T < y} = G(y − 0) < z.
Donc l’inégalité (2) est démontrée.
Démontrons maintenant la seconde inégalité dans (1) :

88
z ≤ P{G(T − 0) < z}, 0 ≤ z ≤ 1. (3)
Considérons la satistique −T . Sa fonction de répartition est

G− (y) = P{ − T ≤ y} = P{T ≥ −y} = 1 − G(−y − 0}.

Appliquons l’inégalité (2) en remplaçant

T, z, G par − T, 1 − z et G−
respectivement :
P{G− (−T ) ≤ 1 − z} ≤ 1 − z, 0 ≤ z ≤ 1,
d’où on obtient que

P{1 − G(T − 0) ≤ 1 − z} ≤ 1 − z,
P{G(T − 0) ≥ z} ≤ 1 − z,
P{G(T − 0) < z} ≥ z, 0 ≤ z ≤ 1.
Si T est continue, dans ce cas G(t − 0) = G(t), et donc (2) et (3) nous donnent P{G(T ) ≤
z} = z pour tout z ∈ [0, 1].
Le Lemme de Bolshev est démontré.
Théoreme. Supposons que l’on ait une variable aléatoire T = T (X, b), b ∈ B, telle que sa
fonction de répartition

G(t, b) = Pθ {T ≤ t}
ne dépende que de b pour tous t ∈ R et que les fonctions

I(b, x) = G(T (x, b) − 0, b) et S(b, x) = G(T (x, b), b)


soient décroissantes et continues par rapport à b pour tout x fixé, x ∈ X . Dans ce cas 1) la
statistique bi (X),

bi = bi (X) = sup{b : I(b, X) ≥ γ, b ∈ B}, si le supremum existe,

sinon
bi = bi (X) = inf B
est la limite inférieure de confiance pour b ∈ B0 du coefficient de confiance supérieur où
égal à γ ;
2) la statistique bs (X) est une limite supérieure de confiance pour b ∈ B0 du coefficient de
confiance supérieur où égale à γ :

bs = bs (X) = inf {b : S(b, X) ≤ 1 − γ, b ∈ B}, si le infimum existe,


sinon

bs = bs (X) = sup B,

89
3) si x, x ∈ X , est telle que les fonctions I(b, x) et S(b, x) sont strictement décroissantes par
rapport à b, alors bi (x) et bs (x) sont les racines des équations

I(bi (x), x) = γ et S(bs (x), x) = 1 − γ.

Démonstration. Notons D = D(X) l’événement suivant

D = {il existe b tel que I(b, X) ≥ γ}.

Alors pour la vrai valeur b ∈ B0 on a


\ \
P{bi < b} = P{(bi < b) D} + P{(bi < b) D̄} =
\ n \ o
P{((sup b∗ : I(b∗ , X) ≥ γ, b∗ ∈ B) < b) D} + P (inf B < b) D̄ =
\ \ \
= P{(I(b, X) < γ) D} + P{D̄} ≥ P{(I(b, X) < γ) D} + P{(I(b, X) < γ) D̄} =
= P{I(b, X) < γ} ≥ γ,
d’après le Lemme de Bolshev. Le théorème est démontré.
Remarque 1. Si θ est unidimensionnel, les variables al’eatoires Xi sont continues et la
fonction F(x; θ) est monotone et continue en θ, on peut prendre
n
T (X; θ) = −2 ∑ ln F(Xi ; θ).
i=1

D’après le lemme de Bolshev F(Xi ; θ) ∼ U (0; 1), donc

−2ln F(Xi ; θ) = χ22 , i = 1, . . . , n,

et comme X1 , . . . , Xn sont indépendantes

T (X; θ) = χ22n .

Notons G2n (x) = P{χ22n ≤ x}. Alors,


à !
n
I(θ; X) = S(θ; X) = G2n (T (X; θ)) = G2n −2 ∑ ln F(Xi ; θ) .
i=1

Si les fonctions I et S sont strictement décroissantes (ou croissantes) en θ, alors d’après


le théorème de Bolshev on a
n
−2 ∑ ln F(Xi ; θ) = χ2γ (2n) (ou χ21−γ (2n)),
i=1

n
−2 ∑ ln F(Xi ; θ) = χ21−γ (2n) (ou χ2γ (2n)).
i=1

Remarque 2. Soit {θn }, n ∈ N∗ , une suite d’estimations, θn∗ : Rn → Θ, du paramètre θ =
(θ1 , . . . , θm )T ∈ Θ ⊂ Rm , telle que
√ L
n(θ∗n − θ) −→ N(0m , Σ ), n → ∞.

90
Soit g une fonction borélienne, g : Rm → R1 , differentiable en θ. Alors

√ L
n[g(θ∗n ) − g(θ)] −→ N(0, gradTθ Σ gradθ g), n → ∞.

En particulier, si m = 1, θ∗n : Rn → Θ ⊂ R1 , et g : R1 → R1 ,

√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞,

alors
√ L
n[g(θ∗n ) − g(θ)] −→ N(0, σ2 [g0 (θ)]2 ), n → ∞.
On emploie très souvent des méthodes asymptotiques pour la construction des inter-
valles de confiance.
Remarque 3. Soit X = (X1 , . . . , Xn )T un échantillon,

F(x; θ) = P{Xi ≤ x}, θ = (θ1 , . . . , θm )T ∈ Θ ⊂ Rm .

Sous des conditions très générales l’estimateur de maximum de vraisemblance θ̂n = (θ̂1 , . . . , θ̂n )
est asymptotiquement efficace et normal avec les parametres θ et I(θ) :

θ̂n ∼ AN(θ, I−1 (θ)),

où I(θ) est la matrice d’information de Fisher de X.


Soit b : Rm → R1 une fonction differentiable, alors b̂n = b(θ̂n ) = b(θ̂1 , . . . , θ̂m ) un esti-
mateur de paramètre b = b(θ1 , . . . , θm ), et b̂n ∼ AN(b, σ2b (θ)), où

σ2b (θ) = [gradθ b(θ)]T I−1 (θ) gradθ b(θ),

i.e.
(b̂n − b)/σ2b (θ̂n ) ∼ AN(0, 1).
Donc on peut prendre
T (b, X) = (b̂n − b)/σ2b (θ̂n ).
Les fonctions
I(b; X) = S(b; X) = Φ((b̂n − b)/σ2b (θ̂n ))
sont décroissantes en b et d’après le théorème de Bolshev les égalités

Φ((b̂n − b)/σ2b (θ̂n )) = γ, Φ((b̂n − b)/σ2b (θ̂n )) = 1 − γ

implique
b = b̂n − zγ σ2b (θ̂n ); b = b̂n + zγ σ2b (θ̂n ),
où zγ est γ-quantile de la loi normale standard. On peut noter que asymptotiquement (b, b)
est le plus court intervalle de confiance de niveau donné.

91
2.11 Théorème de Fisher.

Dans ce paragraph nous alons résumer les propriétés principales des estimateurs X̄n , Sn2
et s2n .
Théorème de Fisher. Soit X = (X1 , ..., Xn )T un échantillon normal de paramètres µ et σ2 :
Xi ∼ N(µ, σ2 ). Dans ce cas la statistique θ̃n = (X̄n , Sn2 )T est exhaustive minimale et complète,
X̄n et Sn2 sont indépendantes,
µ ¶
σ2 (n − 1) 2
X̄n ∼ N µ, , Sn = χ2n−1 ,
n σ2
et la variable aléatoire
√ X̄n − µ
n = tn−1
Sn
suit la loi de Student à n − 1 degré de liberté. L’estimateur θ̃n est le meilleur estimateur
sans biais pour θ = (µ, σ2 )T .

Remarque 1. On note qu’une variable aléatoire t f suit la loi de Student à f degrées de


liberté, f > 0, si pour tout x ∈ R1
³ ´
Γ f +1 Zx µ ¶− f +1 Z t
2 t2 2
S f (x) = P{t f ≤ x} = √ ³ ´ 1+ dt = s f (t)dt.
π f Γ 2f −∞ f −∞

Exemple 1. Etudions ici quelques propriétés de la statistiques θ̃n = (X̄n , Sn2 )T . On sait que
Eθ̃n = θ = (µ, σ2 )T , où X̄n et Sn2 sont les estimateurs sans biais de µ et σ2 respectivement.
Nous savons aussi que
σ2
X̄n ∼ N(µ, ), (1)
n
par suite
σ2
Eθ X̄n = µ, Var θ X̄n = . (2)
n
D’autre part on a
n−1 2
Sn = χ2n−1 , (3)
σ 2

2σ4
Eθ Sn2 = σ2 , Var θ Sn2 = . (4)
n−1
θ̃n est-il un estimateur efficace pour θ = (µ, σ2 )T ?
La fonction de vraisemblance de X j est :
µ ¶ ½ ¾
1 Xj − µ 1 (X j − µ)2
L j (θ) = ϕ =√ exp − (5)
σ σ 2πσ 2σ2

et le vecteur informant λ j (θ) de l’observation X j est :


µ ¶T µ ¶T
∂ln L j (θ) ∂ln L j (θ) X j − µ (X j − µ)2 1
λ j (θ) = , = , − 2 . (6)
∂µ ∂σ2 σ 2 2σ 4 2σ

92
Nous pouvons donc en déduire l’information de Fisher i(θ) sur θ pour une observation X j :

i(θ) = Eλ j (θ)λTj (θ) =


° °
° (X j − µ)2 (X j − µ)3 X j − µ °
° − °
° σ4 2σ6 2σ4 °
= Eθ °
° (X − µ)3 X − µ
°=
°
° j j (X j − µ)4 (X j − µ)2 1 °
° − − + 4 °
2σ 6 2σ4 4σ 8 2σ 6 4σ

° ° ° °
° 1 ° ° 1 °
° 2 0 ° ° 2 0 °
=° σ
° ° ° σ °
°=° °. (7)
° 3 1 1 ° ° 1 °
° 0 4
− 4+ 4 ° ° 0 °
4σ 2σ 4σ 2σ4
L’information de Fisher I n (θ) sur θ dans X est :
° °
° n °
° 2 0 °
I n (θ) = ni(θ) = ° σ
° °
n ° , (8)
° 0 °
° 2σ4 °

par suite ° 2 °
° σ °
° 0 °
° n °
I −1 (θ) = ° °. (9)
n ° 2σ4 °
° °
° 0 °
n
On doit donc avoir (d’après l’inégalité de Rao-Cramer-Frechet) pour tous les estimateurs
sans biais µ∗ et σ∗ 2 de µ et σ2 :

σ2 2σ4
Var θ µ∗ ≥ et Var θ σ∗ 2 ≥ . (10)
n n
On voit que l’estimateur µ̂n = X̄n est efficace pour µ . Par contre :

2σ4 2σ4
Var θ Sn2 = > , (11)
n−1 n
donc σ∗ 2 = Sn2 n’est pas efficace pour σ2 , donc θ̃n = (µ̂n , Sn2 )T n’est pas un estimateur ef-
ficace du paramètre θ = (µ, σ2 )T . Nous allons cependant montrer que θ̃n = (µ̂n , Sn2 )T est le
meilleur estimateur sans biais pour θ, parce que c’est celui de variance minimum parmi tous
les estimateurs sans biais de θ. Pour le montrer il suffit de montrer qu’il n’y a pas d’aure
estimateur sans biais de σ2 meilleur que Sn2 . Supposons qu’on ait σ̃2 = σ̃2 (X) estimateur
sans biais de σ2 , Eθ σ̃2 ≡ σ2 . Soit δ = σ̃2 − Sn2 . Il est clair que

Eθ δ ≡ 0, (12)

δ = δ(X) est un autre estimateur sans biais de 0. Puisque θ̃n est exhaustive, on peut écrire
l’égalité précédente sous la forme :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn dX1 dX2 · · · dXn ≡ 0.
2 2
(13)
( 2πσ)n n 2σ
R

93
En dérivant (13) par rapport à µ, on a
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n 2σ
Rn

n
×
(X̄n − µ) dX1 dX2 · · · dXn ≡ 0,
σ2
puis à nouveau en dérivant par rapport à µ, on obtient :
Z ½ ¾
1 1 £ ¤
√ δ(X)exp − 2 n(X̄n − µ) + (n − 1)Sn ×
2 2
( 2πσ)n n 2σ
R
· ¸
n2 2 n
× 4 (X̄n − µ) − 2 dX1 dX2 · · · dXn ≡ 0,
σ σ
i.e.,
Eθ δ(X)(Xn − µ) ≡ 0, (14)
et donc δ(X) et X̄n − µ ne sont pas correlées. De la même façon on peut montrer que
© ª
Eθ δ(X)Sn2 ≡ 0, (15)

i.e., δ(X) et Sn2 ne sont pas correlées non plus. Mais par ailleurs :

σ̃2 = δ + Sn2 , (16)

d’oú
Var θ σ̃2 = Var θ δ + Var θ Sn2 ≥ Var θ Sn2 . (17)
Cela signifie que la variance de Sn2 est minimale dans la classe de tous les estimateurs sans
biais de σ2 , et donc Sn2 est le meilleur estimateur de σ2 dans ce sens.
On peut obtenir le même résultat sur la complétude de θ̃n en utilisant le théorème de
Lehmann-Scheffé.
Example 2. Soit Xn = (X1 , ..., Xn )T un échantilon,

Xi ∼ N(µ, 1), | µ |< ∞,

i.e. Xi suit une loi normale de paramètres

µ = EXi et 1 = Var Xi .

Comme X1 , . . . , Xn sont indépendantes, on peut aussi dire que Xn suit la loi normale de
dimension n :
Xn ∼ Nn (µ1n , I n ),
où 1n = (1, . . . , 1)T ∈ Rn , I n est la matrice identité d’ordre n, et

EXn = µ1n , Var Xn = I n .

La densité de Xn est
½ ¾
1 1 T
pXn (x; µ) = exp − (x − µ1n ) (x − µ1n ) =
(2π)n/2 2

94
( )
1 1 n
= exp − ∑ (xi − µ)2 , x = (x1 , . . . , xn )T ∈ Rn , (18)
(2π)n/2 2 i=1
et donc la fonction de vraisemblance L(µ) de Xn est
( )
1 1 n
L(µ) = exp − ∑ (Xi − µ)2 , µ ∈ R1 .
(2π) n/2 2 i=1

Considérons la statistique
1 n 1
X̄n = ∑
n i=1
Xi = 1Tn Xn .
n
Comme
√ ( )
n n n o 1 1 n
L(µ) = √ exp − (X̄n − µ)2 √ exp − ∑ (Xi − X̄n )2 , (19)
2π 2 n(2π)(n−1)/2 2 i=1

du critère de factorisation de Neyman-Fisher il suit que X̄n est une statistique exhaustive
minimale pour µ. Il est evident que X̄n ∼ N(µ, 1n ). Soit
T
W n = (X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n ) = Xn − X̄n 1n =

1 1
Xn − 1n X̄n = Xn − 1n 1Tn Xn = (In − 1n 1Tn )Xn = Dn Xn , (20)
n n

1
Dn = I n − 1n 1Tn .
n
On note que la matrice Dn est idempotente, c.a.d. :

DTn Dn = Dn DTn = D2n = Dn ,

et que Dn 1n = 0n . La formule (20) montre que la statistique W n est le résultat d’une trans-
formation linéaire de Xn , W n = Dn Xn , et donc on constate que la statistique W n suit une
loi normale dans Rn dont la fonction caractéristique est

1
fW n (t) = exp {− tT Dn t}, t ∈ Rn , (21)
2
puisque µ ¶
1 T
EW n = Dn EXn = I n − 1n 1n µ1n = µ1n − µ1n = 0n
n
et
VarW n = EW nW Tn = E{Dn Xn XTn DTn } = Dn [I n + µ2 1n 1Tn ]DTn =
= Dn I n DTn = Dn DTn = Dn ,
On peut remarquer que la loi de la statistique W n ne dépend pas de paramètre µ. C’est la
raison pour laquelle on dit que W n est une statistique libre, ce qui signifie que W n n’apporte
pas d’information sur µ. Toute information sur µ conserve la statistique exhaustive minimale
X̄n .

95
Nous allons montrer que les statistiques X̄n et W n sont indépendantes. Pour cela il nous
faudra étudier plus attentivement la répartition de W n . Notons
Wi = Xi − X̄n , i = 1, . . . , n.
Il est facile de vérifier que detDn = 0, d’où on déduit que la loi de W n est dégénérée, ce qui
explique la dépendance linéaire entre W1 , ...,Wn :
n
∑ Wi = 0, donc Wn = −(W1 + · · · +Wn−1 ).
i=1

Considérons maintenant la statistique U n−1 = (W1 , ...,Wn−1 )T . On remarque que


EUn−1 = 0n−1 ,
et sa matrice de covariance Bn−1 est la matrice Dn sans la dernière ligne ni la dernière
colonne. Par un calcul direct, on peut montrer que
1
detBn−1 = , i.e. rangBn−1 = rangDn = n − 1,
n
et donc avec une probabilité 1 la répartition de W n est concentrée dans Rn−1 .
On remarque que ° °
° 2 1 1 ... 1 °
° °
° 1 2 1 ... 1 °
° °
° 1 1 2 ... 1 °
B−1
n−1 = ° °
° .. °
° . °
° °
° 1 1 1 ... 2 °
n−1,n−1

et detB−1= n. De ces résultats il suit que la statistique U n−1 = (W1 , . . . ,Wn−1 )T suit une
n−1
loi normale Nn−1 (0n−1 , Bn−1 ), dont la densité
pU n−1 (u), u = (u1 , . . . , un−1 )T ∈ Rn−1 ,
est donnée par la formule
½ ¾
1 1 T −1
pU n−1 (u) = √ exp − u Bn−1 u =
det Bn−1 (2π)(n−1)/2 2
  Ã !2 

√  n−1 n−1 
n 1
=
(2π)(n−1)/2
exp −
 2 i=1 ∑ iu 2
+ ∑ i  , u ∈ Rn−1.
u  (22)
i=1

Maintenant, il est facile de montrer que U n−1 et X̄n sont indépendantes. En effet, considé-
rons la statistique
Y = (Y1 ,Y2 , . . . ,Yn−1 ,Yn )T = CXn ,
où ° °
° 1− 1 − 1n − 1n ··· − 1n − 1n °
° n °
° 1 °
° − 1n 1 − 1n − 1n ··· −n −n °
1
° °
° 1 °
° − 1n − 1n 1 − 1n ··· 1
−n −n °
°
C=° °,
.. °
° . °
° °
° −1 − 1n − 1n ··· 1
1 − n −n °1 °
° n
° °
° 1 1 1
··· 1 1 °
n n n n n

96
et donc
Yn = X̄n , et Y j = W j = X j − X̄n , j = 1, . . . , n − 1, (23)
d’où il suit que
° °
° 1 0 0 ... 0 1 °
° °
° 0 1 0 ... 0 1 °
° °
° .. °
X = C−1Y , −1
où C = ° . °
° °
° 0 0 0 ... 1 1 °
° °
° −1 −1 −1 . . . −1 1 °

et donc
Xi = Yi +Yn , i = 1, . . . , n − 1,
et
n−1 n−1
Xn = nYn − ∑ Xi = Yn − ∑ Yi .
i=1 i=1

Pour trouver la densité pY (y; µ) de la statistique Y on remarque que et


° °
° ∂xi °
J = detC = det °
−1 °
° ∂y j ° = n,

et donc de (18) on obtient que


√ n n o
−1 n
−1 2
pY (y; µ) = pXn (C y; µ)|detC | = √ exp − (yn − µ) ×
2π 2
  Ã !2 
√  n−1 n−1 
n 1
×
(2π)(n−1)/2
exp − ∑ i
 2 i=1
y2
+ ∑ i .
y  (24)
i=1

De (19) et (24) il suit que X̄n et U n−1 = (X1 − X̄n , . . . , Xn−1 − X̄n )T sont indépendantes.
Comme
n
1Tn W n = ∑ (Xi − X̄n ) = 0,
i=1
on tire que
n−1
Xn − X̄n = − ∑ (Xi − X̄n ),
i=1

i.e. Xn − X̄n est une statistique de U n−1 , qui est indépendante de X̄n , et donc X̄n et W n =
(X1 − X̄n , X2 − X̄n , . . . , Xn − X̄n )T sont indépendantes.
On remarque qu’on peut obtenir le même résultat par calcul direct de la fonction carac-
téristique ϕV (t), t ∈ Rn+1 , de la statistique

V = (W n , X̄n ) = (X1 − X̄n , ..., Xn − X̄n , X̄n )T


(" #)
n
ϕV (t) = E exp i ∑ ti(Xi − X̄n) + tn+1X̄n .
i=1

97
Exemple 3. Soit X = (X1 , ..., Xn )T un échantilon,

Xi ∼ N(µ, σ2 ), | µ |< ∞, σ2 > 0.

La fonction de vraisemblance L(µ, σ2 ) de X est

1 1 n
L(µ, σ2 ) = p(X; µ, σ2 ) =
σ (2π)
n n/2
exp{−
2σ2 ∑ (Xi − µ)2 } =
i=1
" #
n n
1 1
σn (2π)n/2
exp{−
2σ2 ∑ Xi2 − 2µ ∑ Xi + nµ2 }. (25)
i=1 i=1

On voit que la statistique


à !T
n n
T = T(X) = ∑ Xi, ∑ Xi2
i=1 i=1

est exhaustive et minimale pour (µ, σ2 )T .


Soit
Xt = {x : T(x) = t = (t1 ,t2 )T , x ∈ Rn }.
Notons ct = ct (µ, σ2 ) la valeur de la densité p(x; µ, σ2 ) sur cet ensemble. Dans ce cas la loi
conditionnelle de X sachant T(X) = t est uniforme sur Xt . En effet, pour tout x ∈ Xt on a

pX (x; µ, σ2 )
pX (x | T(X) = t; µ, σ2 ) = R =
pX (x; µ, σ2 )dx
Xt

ct 1
= = const. (26)
ct mesXt mesXt
Considérons la statistique Zn = (Z1 , ..., Zn )T , où

X j − X̄n
Zj = , j = 1, ..., n, (27)
Sn

1 n 1 1 n
X̄n = ∑ Xi , Sn2 = T
X Dn X = ∑ (Xi − X̄n )2 . (28)
n i=1 n−1 n − 1 i=1
Comme les statistiques T et U = (X̄n , Sn2 )T sont équivalentes, on remarque que de (26) et
(28) il suit que si U est fixée, dans ce cas X suit la loi uniforme sur l’intersection de deux
surfaces données par les équations :

1 n 1 n
∑ (Xi − X̄n)2 = n − 1
Sn2 i=1
et ∑ (Xi − X̄n) = 0,
Sn i=1

√ qui représenten la sphère de dimension n − 1 avec le centre au point X̄n 1n et de rayon


ce
n − 1Sn dans R , et par conséquent on en tire que si U est fixé, la loi de Zn est uniforme
sur l’intersection des deux surfaces données par les équations :
n n
∑ Zi2 = n − 1 et ∑ Zi = 0,
i=1 i=1

98

ce qui représente la sphère de dimension de n − 1 de rayon n − 1 dans Rn dont la surface
ne dépend pas de U et par conséquent, on obtient que la loi conditionnelle de Zn ne dépend
pas de U = (X̄n , Sn2 ), donc les statistiques Zn et (X̄n , Sn2 ) sont indépendantes. Comme X̄n et
Sn2 sont indépendantes il s’ensuit que les trois statistiques Zn , X̄n et Sn2 sont indépendantes.
Exemple 4. Supposons qu’aux moments t = 0, 1, ..., n nous observons un objet A qui se dé-
place uniformément avec une vitesse constante et inconnue µ, µ > 0. Soit s(t) la distance
parcourue par cet objet A aux moments t = 0, 1, ..., n; n ≥ 1. Si toutes les mesures étaient
correctes on aurait
s(k) = µk, pour tout k = 0, 1, 2, ..., n,
(on suppose que s(0) = 0).
Supposons que l’expérience soit organisée de manière qu’il n’y ait pas d’erreurs systéma-
tiques ; il y a cependant des erreurs de mesure qui sont normales et indépendantes et qui
s’accumulent à chaque moment de mesure.
En supposant que toutes les erreurs de mesure ont la même variance σ2 , trouvons les
meilleurs estimateurs sans biais pour µ et σ2 .
Tout d’abord supposons que

s = (s0 , s1 , ..., sn )T , où s0 = s(0), s1 = s(t1 ), ..., sn = s(tn ),

est une réalisation d’un vecteur aléatoire S = (S0 , S1 , ..., Sn )T dont les coordonnées Si selon
le modèle physique sont des variables aléatoires telles que

S0 = δ0 , S1 = µ + δ1 , S2 = 2µ + δ1 + δ2 , ..., Sn = nµ + δ1 + ... + δn ,

où toutes les erreurs de mesures δ0 , δ1 , ..., δn sont indépendantes et suivent la même loi
normale N(0, σ2 ). Dans ce cas la fonction de vraisemblance du vecteur des erreurs δ =
(δ0 , δ1 , ..., δn )T est
( )
n
1
L(δ; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 ∑ δ2i .
2σ i=0

Soit
Li−1 = Si − Si−1 (i = 1, 2, ..., n), où S0 = δ0 .
Alors
δi = Li−1 − µ pour i = 1, 2, ..., n,
et la fonction de vraisemblance de la statistique S est
( )
n
1 1
L(S; µ, σ2 ) = (2π)−(n+1)/2 σ−(n+1) exp − 2 δ20 − 2 ∑ (Li−1 − µ)2 =
2σ 2σ i=1
( " #)
n
1
= (2π)−(n+1)/2 σ−(n+1) exp − 2
δ20 + ∑ (Li−1 − L̄n )2 + n(L̄n − µ)2 ,
2σ i=1


1 n
L̄n = ∑ Li−1,
n i=1

99
on en tire donc que
à !T
n
U= L̄n , δ20 + ∑ (Li−1 − L̄n )2
i=1

est une statistique exhaustive pour (µ, σ2 )T . Il est évident, que la statistique
n
Tn = δ20 + ∑ (Li−1 − L̄n )2
i=1

est distribuée comme la variable aléatoire σ2 χ2n , et on en déduit que


½ ¾
Tn
E = σ2 et EL̄n = µ.
n
Comme la famille des distributions normales est complète, la statistique exhaustive U est
donc complète et on en déduit que
1 n 1 n
L̄n = ∑
n i=1
Li−1 = ∑ (Si − Si−1)
n i=1
et " #
Tn 1 2 n
= S + ∑ [(Si − Si−1 ) − L̄n ]2
n n 0 i=1
sont les estimateurs sans biais uniques qui s’expriment en fonction de la statistique exhaus-
tive U et par conséquent ils sont les meilleurs estimateurs sans biais pour µ et σ2 .

2.12 Intervalle de confiance pour la moyenne d’une loi


normale

Soit X = (X1 , ..., Xn )T un échantillon,


Xi ∼ N(µ, σ2 ), |µ| < ∞, σ2 > 0.
Considérons ici le problème d’estimation des paramètres µ et σ2 par intervalles. Nous sa-
vons que la variable aléatoire
√ X̄n − µ √ X̄n − µ
tn−1 = n = n−1
Sn sn
suit la loi de Student à f = n − 1 degrés de liberté
P{t f ≤ t} = S f (t).
On donne ici quelques valeurs de S f (t) :

f 3 4 6 8 16 52
t 2.3534 2.1318 1.9432 1.8595 2.1199 2.0024

S f (t) 0.9500 0.9500 0.9500 0.9500 0.9750 0.9750

100
Nous pouvons trouver pour chaque α, 0 < α < 0.5, les valeurs t n−1 (α) et t n−1 (α) telles
que ½
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t n−1 (α)) = α,
(1)
P{tn−1 ≤ t n−1 (α)} = Sn−1 (t¯n−1 (α)) = 1 − α,
et donc
P{t n−1 (α) ≤ tn−1 ≤ t n−1 (α)} = 1 − 2α. (2)
t n−1 (α) est souvent appelé α−quantile supérieur où (1 − α)−quantile de la loi de Student
avec f = n − 1 degrées de liberté et t n−1 (α) est appelé α−quantile inférieur de la loi de
Student avec f = n − 1 degrées de liberté. De la symétrie par rapport à zéro de la densité
sn−1 (x) nous avons
t n−1 (α) = −t n−1 (α), (3)
et donc (2) peut être présentée

P{−t n−1 (α) ≤ tn−1 ≤ t n−1 (α)} = 1 − 2α. (4)

Les quantiles t f (α) pour différentes valeurs de f et α peuvent être trouvés dans des tables
statistiques.
Maintenent en utilisant (4) et le Theoreme de Fisher nous pouvons construire l’intervalle
de confiance ou l’estimateur par intervalle pour la moyenne µ de la loi normale N(µ, σ2 ).
Nous disons que l’intervalle aléatoire

l(X) ≤ µ ≤ L(X) (5)

est l’intervalle de confiance de niveau (1 − α) ou l’estimateur par intervalle avec le coeffi-


cient de confiance (1 − α) pour la moyenne inconnue µ si

P{l(X) ≤ µ ≤ L(X)} = 1 − α. (6)

Les statistiques l(X) et L(X) s’appellent limites de confiance inférieure et supérieure res-
pectivement pour µ.
Fixons α (0 < α < 0.5) et choisissons les quantiles

t n−1 (α/2) et t n−1 (α/2) = −t n−1 (α/2),

alors du Théorème de Fisher et de (4) on tire que


½ ¾
√ X̄n − µ
P −t n−1 (α/2) ≤ n ≤ t n−1 (α/2) = 1 − α, (7)
Sn

ou, ce qui est équivalent,


½ ¾
Sn Sn
P X̄n − √ t n−1 (α/2) ≤ µ ≤ X̄n + √ t n−1 (α/2) = 1 − α. (8)
n n

Donc l’intervalle aléatoire


µ ¶
Sn Sn
X̄n − √ t n−1 (α/2) ≤ µ ≤ X̄n + √ t n−1 (α/2) (9)
n n

101
est l’intervalle de confiance de niveau (1 − α) pour µ. La limite inférieure de confiance de
cet intervalle est
Sn
l(X) = X̄n − √ t n−1 (α/2),
n
et la limite supérieure de confiance est
Sn
L(X) = X̄n + √ t n−1 (α/2).
n

Exercice 1. La charge d’un électron est e = µ10−10 . Miliken a obtenu expérimentale-


ment 58 mesures de µ. Les résultats de Miliken sont présentés dans le tableau suivant :

4.781 4.764 4.777 4.809 4.761 4.769

4.795 4.776 4.765 4.790 4.792 4.806


4.769 4.771 4.785 4.779 4.758 4.779
4.792 4.789 4.805 4.788 4.764 4.785
4.779 4.772 4.768 4.772 4.810 4.790
4.775 4.789 4.801 4.791 4.799 4.777
4.772 4.764 4.785 4.788 4.799 4.749
4.791 4.774 4.783 4.783 4.797 4.781
4.782 4.778 4.808 4.740 4.790
4.767 4.791 4.771 4.775 4.747
On considère un modèle H0 où ces résultats sont traités comme des réalisations des variables
aléatoires indépendantes X1 , X2 , ..., Xn (n = 58) qui suivent la même loi normale N(µ, σ2 ).
a. Trouver la statistique exhaustive minimale pour θ = (µ, σ2 )T .
b. Trouver l’estimateur de maximum de vraisemblance θ̂n de θ.
c. Montrer que le meilleure (le plus court) intérvalle de confiance de niveau P = 1−α = 0.95
pour µ, sachant que t 0.025 (57) = 2.0025, X̄n = 4.7808 et Sn2 = 23383 · 10−8 , est

4.7768 < µ < 4.7848.

Exercice 2. Soit x une réalisation observée de la somme des carrés des erreurs de mesures
dans une expérience. Nous supposons que le nombre de mesures f est inconnu et que l’ex-
périence est organisée de façon que toutes les mesures puissent être considérées comme des
erreurs normales faites dans les même conditions et indépendamment les unes des autres en
l’absence d’erreur systématique.
a) Trouver le meilleur estimateur sans biais fˆ pour f .
b) Supposons que l’expérience donne x=407.41. En utilisant la distribution asympto-
tique de fˆ et l’approximation normale de Fisher construire ≈ 0.9-limites de confiance pour
f.
Solution. Le nombre x peut-être observé comme la réalisation de la variable aléatoire
f
∑ Xi2 = fˆ,
i=1

102
où X = (X1 , ..., X f )T un échantillon de taille f , Xi ∼ N(0, σ2 ). Ici Xi est une erreur de la
i-ème mesure. Il est clair que fˆ suit la loi de chi-deux à f degrées de liberté, i.e.
f
P{ fˆ ≤ x} = P{ ∑ Xi2 ≤ x} = P{χ2f ≤ x} = Q f (x), x ≥ 0.
i=1

Comme Eχ2f = f , la statistique fˆ est l’estimateur sans biais de f. On sait que la variable
aléatoire q q
p p
ˆ
2 f − 2 f − 1 = 2χ2f − 2 f − 1
est asymptotiquement normale (approximation de Fisher), quand f → ∞, i.e. pour tout z
fixé q p
P{ 2 fˆ − 2 f − 1 ≤ z} ≈ Φ(z),
pour les grandes valeurs de f . De cette égalité on déduit
q p
P{−1.28 ≤ 2 fˆ − 2 f − 1 ≤ 1.28} ≈ 0.8,

puisque Φ−1 (0.9) = x̄0.1 = 1.28, et donc on obtient l’intervalle de confiance pour f
µq ¶2 µq ¶2
1 1 1 1
P{ + 2 fˆ − 1.28 ≤ f ≤ + 2 fˆ + 1.28 } ≈ 0.8.
2 2 2 2
p
Comme fˆ = 407.81, 2 fˆ = 28.54, on en tire que

373 ≤ f ≤ 445.

Il est utile de remarquer que pour avoir l’estimateur par intervalle de confiance (9) avec
le coefficient de confiance 1 − α nous devons choisir les quantiles de niveau α/2. Il faut
remarquer encore que la longueur Ln de cette intervalle est une variable aléatoire
Sn
Ln = 2 √ t n−1 (α/2) (10)
n
et puisque r ¡ ¢
2 Γ n2
ESn = ¡ ¢σ,
n − 1 Γ n−1
2
(voir, par exemple, Voinov & Nikulin (1993) ), on en tire que
s ¡ ¢
2 Γ n2
ELn = 2σt n−1 (α/2) ¡ ¢. (11)
n(n − 1) Γ n−1 2

D’un autre côté nous savons que pour chaque x ∈ R1

S f (x) = P{t f ≤ x} → Φ(x), quand f → ∞,

et en plus (voir, par exemple, Huber et Nikulin (1992)),


p
S f (x) − Φ(x) = O(1/ f )

103
uniformément par rapport à x, x ∈ R1 , et donc de (11) il suit que pour grandes valeurs de n
µ ¶
2σ 1
ELn = √ x(α/2) + O 3/2 (12)
n n
où x(α/2) = xα/2 est le quantile supérieur de niveau α/2 de la loi standard normale. Puisque
Sn2 est un estimateur sans biais de σ2 , ESn2 = σ2 , alors de (10) il suit que

4σ2 2
ELn2 = t (α/2),
n n−1
et donc " ¡ ¢ #
4σ 2 2 Γ 2 n
Var Ln = ELn − (ELn )2 = t 2n−1 (α/2) 1 − 2 ¢
¡ n−1 . (13)
n n−1 Γ 2
2
Puisque ¡ ¢ µ ¶
2 Γ2 n2 1 1
1− ¡ n−1 ¢ = +O 2 , (n → ∞)
n−1 Γ2
2
2n n
de (13) il suit que pour les grandes valeurs de n
µ ¶
2σ2 2 1
Var Ln = 2 x (α/2) + O 3 , (14)
n n
et donc on peut dire que Ln est pratiquement constante, Ln ≈ ELn . En pratique cela signifie
que

Ln = √ x(α/2), (15)
n
quand n est assez grand.
Supposons maintenent que la variance σ2 est connue. Comment cette information change
l’intervalle de confiance pour µ ? Si σ2 est donné, dans ce cas X̄n est une statistique exhaus-
tive pour paramètre µ et, comme il est bien connu, X̄n est le meilleur estimateur sans biais
pour µ et suit la loi normal N(µ, σ2 /n), |µ| < ∞. Donc la variable aléatoire
√ X̄n − µ
Z= n
σ
suit la loi normal standard N(0, 1).
Il s’en suit que lorsqu’on choisit x(α/2), 0 < α < 0.5, comme le quantile supérieur de
niveau α/2 de la loi normale standard, alors on a

P{−x(α/2) ≤ Z ≤ x(α/2)} = 1 − α

ou, ce qui est la même chose,


√ X̄n − µ
P{−x(α/2) ≤ n ≤ x(α/2)} = 1 − α,
σ
d’où on obtient l’intervalle de confiance de longueur minimale avec le coefficient de confiance
(1 − α) pour µ :
σ σ
P{X̄n − √ x(α/2) ≤ µ ≤ X̄n + √ x(α/2)} = 1 − α, (16)
n n

104
Par exemple, si

α = 0.05, alors 1 − α = 0.95, α/2 = 0.025, x(0.025) = 1.96

et donc dans ce cas particulier on obtient


σ σ
P{X̄n − 1.96 √ ≤ µ ≤ X̄n + 1.96 √ } = 0.95, (17)
n n
et on dit que avec la probabilité 0.95 l’intervalle aléatoire
µ ¶
σ σ
X̄n − 1.96 √ ≤ µ ≤ X̄n + 1.96 √
n n
inclu ou couvre la vraie (mais inconnue !) valeur de µ.
La longueur Ln de l’intervalle de confiance (16) est

Ln = √ x(α/2) (18)
n
et comme on le voit de (15) il coincide avec la longueur moyenne de l’intervalle de confiance
pour µ quand σ2 est inconnu et il n’est pas aléatoire !

2.13 Intervalle de confiance pour la variance d’une loi


normale

Nous voulons maintenant construire l’intervalle de confiance de niveau (1 − α) pour la


variance σ2 de la loi normale N(µ, σ2 ). Considérons d’abord le cas où µ est aussi inconnue.
Le Théorème de Fisher nous dit que
n−1 2
S = χ2n−1 , (1)
σ2 n

1 n
Sn2 = ∑ (Xi − X̄n)2
n − 1 i=1
(2)

est un meilleur estimateur sans biais de σ2 . Pour chaque α fixé, 0 < α < 0.5 , on peut trouver
des tables statistiques des quantiles

χ2n−1 (α/2) et χ̄2n−1 (α/2)

tels que
α α
P{χ2n−1 ≤ χ2n−1 (α/2)} = et P{χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − , (3)
2 2
c’est-à-dire
P{χ2n−1 (α/2) ≤ χ2n−1 ≤ χ̄2n−1 (α/2)} = 1 − α. (4)

105
De (1) et (4) on a
n−1 2
P{χ2n−1 (α/2) ≤ S ≤ χ̄2n−1 (α/2)} = 1 − α
σ2 n
et donc ( )
(n − 1)Sn2 (n − 1)Sn2
P ≤ σ2
≤ = 1 − α. (5)
χ̄2n−1 (α/2) χ2n−1 (α/2)
Voila pourquoi l’intervalle aléatoire

(n − 1)Sn2 (n − 1)Sn2
≤ σ 2
≤ (6)
χ̄2n−1 (α/2) χ2n−1 (α/2)

est appellé l’intervale de confiance de niveau (1 − α) ou l’estimateur par intervalle avec le


coefficient de confiance (1 − α) pour la variance σ2 de la loi normale N(µ, σ2 ) quand µ est
inconnue. La longueur Ln de cet intervalle est égale à
à !
2 1 1
Ln = (n − 1)Sn − .
χ2n−1 (α/2) χ̄2n−1 (α/2)

Il faut remarquer ici qu’à l’aide de (5) on peut construire l’intervalle de confiance de
niveau (1 − α) pour σ.
Ici nous donnons quelques valeurs de la fonction de répartition Q f (x) de χ2f :
Z x
1 f
Q f (x) = P{χ2f ≤ x} = f ³ ´ y 2 −1 e−y/2 dy, x ≥ 0.
2 2 Γ 2f 0

f 1 1 3 4 4 4 57 57
x 3.844 2.706 7.815 9.488 7.779 0.711 79.572 38.027

Q f (x) 0.950 0.900 0.950 0.950 0.900 0.050 0.975 0.025


Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 5, Xi ∼ N(µ, σ2 ), et µ et
σ2 sont inconnus. On va construire le plus court intervalle de confiance de niveau (1 − α)
pour µ, quand α = 0.1 et

X1 = 2.96, X2 = 3.07, X3 = 3.02, X4 = 2.98, X5 = 3.06.

D’après (10.9) l’intervalle le plus court de confiance de niveau (1 − α) pour µ est


³α´ S ³α´ S
X̄n − t¯n−1 √n ≤ µ ≤ X̄n + t¯n−1 √n .
2 n 2 n
Dans notre cas
S52 S
X̄n = X̄5 = 3.018, Sn2 = S52 = 0.00232, = 0.000464, √5 = 0.046,
5 5
³α´
α/2 = 0.05, t¯n−1 = t¯4 (0.05)2.132
2

106
et donc le plus court intervalle pour µ

2.972 ≤ µ ≤ 3.064.

Construisons maintenant l’intervalle de confiance de niveau (1 − α) pour σ2 , si α =


0.01. D’après (11.6) l’intervalle de confiance de niveau 0.90 pour σ2 est

4S52 4S52
≤ σ 2
≤ .
χ̄24 (0.05) χ24 (0.05)

Puisque dans notre cas

S52 = 0.00232, χ̄24 (0.05) = 0.711 and χ24 (0.05) = 9.488

nous obtenons la réalisation de l’intervalle de confiance de niveau 0.9 pour σ2 :

0.00098 ≤ σ2 ≤ 0.0131.

Supposons maintenant que µ est connu et il nous faut estimer σ2 . Il est évident que dans
ce cas la statistique
1 n
s̃n = ∑ (Xi − µ)2
2
(7)
n i=1
est le meilleur estimateur sans biais de σ2 :

Es̃2n = σ2 , (8)

et comme X1 , ..., Xn sont indépendants et (Xi − µ)/σ suit la loi normale standard N(0, 1), on
trouve que
s̃2
n n2 = χ2n . (9)
σ
Pour chaque fixé α, 0 < α < 0.5, on peut trouver des tables statistiques les quantilles

χ2n (α/2) et χ̄2n (α/2)

tels que
α α
P{χ2n ≤ χ2n (α/2)} = et P{χ2n ≤ χ̄2n (α/2)} = 1 − , (10)
2 2
i.e.
P{χ2n (α/2) ≤ χ2n ≤ χ̄2n (α/2)} = 1 − α. (11)
De (9) et (11) nous obtenons

ns̃2n
P{χ2n (α/2) ≤ ≤ χ̄2n (α/2)} = 1 − α. (12)
σ2
et donc ( )
ns̃2n ns̃2n
P ≤ σ2
≤ = 1 − α. (13)
χ̄2n (α/2) χ2n (α/2)

107
C’est pourquoi l’intervalle aléatoire

ns2n ns2n
≤ σ 2
≤ (14)
χ̄2n (α/2) χ2n (α/2)

est appellé l’intervalle de confiance ou l’estimateur par intervalles avec le coefficient de


confiance 1 − α pour la variance σ2 de la loi normale N(µ, σ2 ), quand µ est connu.
En pratique on choisit souvent pour le coefficient de confiance 1 − α = 0.90 ou 0.95, ou
0.99, ce qui correspond à α égale à 0.1, 0.05 ou 0.01 respectivement.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 201, Xi ∼ N(µ, σ2 ), et
soit
1 201
2
S201 = ∑
200 i=1
(Xi − X̄n )2

un meilleur estimateur sans biais pour σ2 . Il faut évaluer la probabilité

P{0.8σ2 ≤ S201
2
≤ 1.2σ2 }.

Solution. Comme nous savons


200 2
S = χ2200
σ2 201
et donc
200 2
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{160 < S < 240} = P{160 < χ2200 < 240}.
σ2 201
Pour calculer cette probabilité on peut utiliser l’approximation normale simple pour la loi
chi-deux, d’après laquelle pour chaque x ∈ R1
( 2 )
χf − f
P √ < x → Φ(x), quand f → ∞,
2f

et donc ½ ¾
40 χ2200 − 200 40
P{160 < χ2200< 240} = P − < < =
20 20 20
½ ¾
χ2200 − 200
P −2 < < 2 ≈ 2Φ(2) − 1 = 2 · 0.9772 − 1 = 0.9544,
20
c’est-à-dire
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } ≈ 0.9544.
2 ≤ 1.2σ2 } peut être obtenue à partir de l’ap-
Meilleure approximation pour P{0.8σ2 ≤ S201
proximation normale de Fisher, d’après laquelle pour chaque x ∈ R1
q p
P{ 2χ2f − 2 f − 1 < x} → Φ(x), quand f → ∞.

En utilisant cette approximation, nous avons


√ √
P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{4 10 < χ200 < 4 15} =

108
√ q √ √
P{8 5 − 20 < 2χ2200 − 400 < 4 30 − 20}
q √
= P{−2.112 < 2χ2200 − 400 < 1.908}
≈ Φ(1.908) + Φ(−2.112) = 0.9718 + 0.9827 − 1 = 0.9545.
Il faut remarquer ici que la valeur exacte (avec 5 chiffres décimaux) est

P{0.8σ2 ≤ S201
2
≤ 1.2σ2 } = P{160 < χ2200 < 240}

= 0.98292 − 0.02796 = 0.95496 ≈ 0.9550.


Exemple 3. Soit X = (X1 , ..., Xn )T un échantillon de taille n = 16, Xi ∼ N(µ, σ2 ). Calculons
la probabilié
3
P{|X̄n − µ| < √ Sn },
n

1 n 1 n
X̄n = ∑ Xi
n i=1
et Sn2 = ∑ (Xi − X̄n)2
n − 1 i=1
sont les meilleurs estimateurs sans biais pour µ et σ2 .
D’après le Théorème de Fisher la variable aléatoire

√ X̄n − µ
tn−1 = n
Sn
suit la loi de Student avec f = n − 1 = 15 degrées de liberté et donc nous avons
Z 3
3
P{|X̄n − µ| < √ Sn } = P{|t15 | < 3} = s15 (x)dx
n −3
Z 3
=2 s15 (x)dx = 2S15 (3) − 1 = 0.991,
0
où s15 (x) est la densité de la loi de Student à 15 degrée de liberté et S15 (x) sa fonction de
répartition. On peut remarquer que si l’on utilise l’approximation normale pour l’estimation
de la même probabilité, on aura
3
P{|X̄n − µ| < √ Sn } ≈ 0.9973 > 0.991
n

pour chaque n.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, dont Xi ∼ N(µ, σ2 ). On va chercher,
en utilisant l’approximation normale, la plus petite valeur de n = n(ε) pour lequel
½ 2 ¾
|Sn − σ2 |
P < ε ≥ 0.9,
σ2

quand ε = 0.5 et ε = 0.05. Du Théorème de Fisher il suit que


½ 2 ¾ ½ ¾
|Sn − σ2 | Sn2
P < ε = P (n − 1)(1 − ε) < (n − 1) 2 < (n − 1)(1 + ε) =
σ2 σ

109
© ª
P (n − 1)(1 − ε) < χ2n−1 < (n − 1)(1 + ε) .
Du Théorème limite central il suit que χ2f est asymptotiquement normale pour les grandes
valeurs de f et donc en utilisant l’approximation normale on obtient
½ 2 ¾
|Sn − σ2 | © ª
P < ε = P (n − 1)(1 − ε) < χ2
< (n − 1)(1 + ε) =
σ2 n−1

( r r )
n−1 χ2 − (n − 1) n−1
P −ε < n−1
p <ε ≈
2 2(n − 1) 2
à r ! à r ! à r !
n−1 n−1 n−1
Φ ε − Φ −ε = 2Φ ε − 1,
2 2 2
d’où il suit que à r !
n−1
2Φ ε − 1 ≥ 0.9,
2
si à r !
n−1
Φ ε ≥ 0.95,
2
et comme Φ est croissante, la dernière inégalité est équivalante à la suivante :
r
n−1
ε ≥ Φ−1 (0.95) = 1.645,
2
d’où on tire que la plus petite valeur de n = n(ε) vérifie la relation suivante :
r
n−1
ε ≈ 1.6,
2
i.e.
n ≈ 1 + 5.2/ε2 .
Par exemple, si ε = 0.5, alors n ≈ 21, et par calculs directs on obtient que

P{10 < χ220 < 30} = 0.8973 < 0.9,

mais pour n = 22 on a

P{10.5 < χ221 < 31.5} = 0.901 > 0.9,

et donc pour ε = 0.5 la plus petite valeur de n = n(0.5) = 22. Dans le cas ε = 0.05 nous
pouvons résoudre le problème asymptotiquement et nous aurons
2.6 2.6
n ≈ 1+2 = 1+2 = 2080.
ε 2 0.0025
Exemple 5. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, σ2 ), où µ et σ2 sont incon-
nus. Notre but est de construire un intervalle de prédiction pour une nouvelle observation
Xn+1 , Xn+1 ∼ N(µ, σ2 ), qui est indépendante de X.

110
Comme X est un échantillon normale N(µ, σ2 ), nous pouvons travailler avec la statis-
tique exhaustive minimale
U = (X̄n , Sn2 )T ,

1 n 1 n
X̄n = ∑ Xi et Sn2 = ∑ (Xi − X̄n )2
n i=1 n − 1 i=1

sont les meilleurs estimateurs sans biais pour µ et σ2 ,

σ2 n−1 2
X̄n ∼ N(µ, ), S = χ2n−1 ,
n σ2 n

X̄n et Sn2 sont indépendantes. Puisque Xn+1 et X sont indépendants, alors Xn+1 est indépen-
dante de X̄n et Sn2 , et donc
µ ¶
n+1 2
Xn+1 − X̄n ∼ N 0, σ ,
n

i.e. la variable aléatoire


Xn+1 − X̄n
Z= q
σ 1 + 1n

suit la loi normale standard, Z ∼ N(0, 1). Il est évident que Z est indépendante de Sn2 et donc
la statistique
Z Xn+1 − X̄n
τ= p = q
Sn /σ
2 2
Sn 1 + n1
suit la loi de Student avec n − 1 degrés de liberté. c’est-à-dire

P{τ ≤ t} = Sn−1 (t).

Par conséquent
 
 ³ α ´ X − X̄ ³ α ´
n+1 n
P −t¯n−1 ≤ q ≤ t¯n−1 = 1−α
 2 1
Sn 1 + n 2 

d’où il suit que


( r r )
1 ³α´ 1 ³α´
P X̄n − Sn 1 + t¯n−1 ≤ Xn+1 ≤ X̄n + Sn 1 + t¯n−1 = 1 − α.
n 2 n 2

L’intervalle
r ³α´ r ³α´
1 1
X̄n − Sn 1 + t¯n−1 ≤ Xn+1 ≤ X̄n + Sn 1 + t¯n−1
n 2 n 2
est connu sous le nom du plus court intervalle de prédiction de niveau de confiance 1 − α
pour une seule nouvelle observation Xn+1 , Xn+1 ∼ N(µ, σ2 ).

111
Par exemple, supposons que n = 5, et

X1 = −0.79, X2 = −0.89, X3 = 0.32, X4 = 0.50, X5 = −0.20.

Dans ce cas X̄5 = −0.212, S52 = 0.3960,


r r
1 1 √
Sn 1 + = S5 1+ = 0.47517 = 0.689,
n 5

et puisque t¯4 (0.025) = 2.776, l’intervalle de prédiction pour X6 est

−2.125 ≤ X6 ≤ 1.701.

Exemple 6. Soit X = (X1 , ..., Xn )T un échantillon, Xi ∼ N(µ, 1), où µ est inconnu, et il


nous faut construire l’intervalle de prédiction pour une nouvelle observation Xn+1 , Xn+1 ∼
N(µ, 1), qui est indépendante de X. Il est claire que dans ce cas la variable aléatoire

Xn+1 − X̄n
Z= q
1 + 1n

suir la loi normale standard et donc


¯ ¯ 
¯¯ X − X̄ ¯¯ 
P ¯¯ q
n+1 n¯
¯ < x̄(α/2) = 1 − α,
¯ 1+ 1 ¯ 
n

où x̄(α/2) est α/2−quantille supérieur de la loi normale standard. Par exemple, si α = 0.05,
alors pour les données de l’exemple 4 nous avons

x̄(α/2) = x̄(0.025) = 1.96

et par conséquent l’intervalle de prédiction pour X6 est



|X6 + 0.212| < 1.96 1.2 = 1.96 · 1.095 = 2.15,

ou
−2.36 < X6 < 1.94.

2.14 Intervalle de confiance pour la différence des moyennes


de deux lois normales

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons,

Xi ∼ N(µX , σ2X ), Y j ∼ N(µY , σY2 ).

112
Supposons que X et Y sont indépendants. Notre but est d’estimer µX − µY . D’abord on
étudie le cas quand σY2 et σ2X sont connues. Dans notre problème la statistique T = (X̄m , Ȳn )T
est exhaustive pour µ = (µX , µY )T , où
1 m 1 n
X̄m = ∑ Xi,
m i=1
Ȳn =
n ∑ Yj (1)
j=1

sont les meilleurs estimateurs sans biais pour µX , et µY , et comme on le sais déjà bien
µ ¶ µ ¶
σ2X σY2
X̄m ∼ N µX , et Ȳn ∼ N µY , . (2)
m m
Par conséqent, la statistique X̄m − Ȳn est le meilleur estimateur sans biais pour µX − µY et
µ ¶
σ2X σY2
X̄m − Ȳn ∼ µX − µY , + . (3)
m m
Il suit de (3) que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (4)
σ2X σY2
m + n

suit la loi normale standard, Z ∼ N(0, 1), et donc


 
 X̄m − Ȳn − (µX − µY ) 
P −x̄(α/2) ≤ q ≤ x̄(α/2) = 1 − α, (5)
 σ2X σY2 
m + m

ou, ce qui est équivalent,


 s s 
 σX σY
2 2 σX σY 
2 2
P X̄m − Ȳn − x̄(α/2) + ≤ µX − µY ≤ X̄m − Ȳn + x̄(α/2) + = 1 − α.
 m n m n 
(6)
Cette formule donne le plus court intervalle de confiance de niveau (1 − α) pour la diffé-
rence µX − µY quand les variancea σ2X et σY2 sont connues.

§15. Intervalle de confiance pour la différence des moyennes


de deux lois normales quand les variances sont inconnues.

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons normales indépendants,

Xi ∼ N(µX , σ2X ), Y j ∼ N(µY , σY2 ), (1)

et on s’intéresse à l’estimation de µX − µY , quand µX et µY sont inconnues et

σY2 = σ2X = σ2 ,

où σ2 est aussi inconnue. Il est évident que


¡ ¢T
T = X̄m , Ȳn , SX2 , SY2 (2)

113
est une statistique exhaustive pour θ = (µX , µY , σ2 )T , où

1 m σ2 1 n
σ2
X̄m = ∑ i
m i=1
X ∼ N(µ X ,
m
), Ȳn =
n ∑ Y j ∼ N(µY , n
), (3)
j=1

(m − 1)SX2 (n − 1)SY2
= χ 2
et = χ2n−1 (4)
σ 2 m−1
σ 2

sont des variables aléatoires indépendantes. La statistique T n’est pas une statistique mini-
male exhaustive pour θ = (µX , µY , σ2 )T . Dans ce problème la statistique minimale exhaus-
tive est
U = (X̄m , Ȳn , S2 )T , (5)
où S2 est l’estimateur de σ2 appellé l’estimateur unifié sans biais :
m−1 2 n−1 2
S2 = SX + S . (6)
n+m−2 n+m−2 Y
De (4) et (6) il suit que
n+m−2 2
S = χ2m+n−2 , (7)
σ2

et donc
2σ4
ES2 = σ2 et Var S2 = . (8)
m+n−2
Il est clair que des composantes X̄m , Ȳn , S2 de la statistique minimale exhaustive U sont des
variables aléatoires indépendantes. L’estimateur unifié S2 est une moyenne pondérée de SX2
et SY2 . On peut voir que le poids plus grand sera donné à celui des estimateurs de σ2 qui
correspond au échantillon de taille max (m, n). Si n = m alors S2 est une moyenne ordinaire
de SX2 et SY2 . Il faut remarquer que de (6), (7) et (8) il suit que
(
4 2σ4
2 2σ Var SX2 = m−1 ,
Var S = < 4 (9)
n+m−2 2σ
Var SY2 = n−1 ,

et on voit que l’estimateur unifié S2 est meilleur que SX2 ou SY2 .


Puisque X̄m et Ȳn sont les meilleurs estimateur sans biais pour µX et µY respectivement,
on en déduit immédiatement que X̄m − Ȳn est le meilleur estimateur sans biais pour µX − µY ,
et de (3) il suit que µ ¶
σ2 σ2
X̄m − Ȳn ∼ N µX − µY , + . (10)
m n
Par conséquent, la variable eléatoire

X̄m − Ȳn − (µX − µY )


Z= q (11)
σ m1 + 1n

suit la loi normale standard. Comme la statistique S, donnée par (6) est indépendante de
X̄m − Ȳn , et grace à la relation (7), du Théorème de Fisher il résulte que la variable aléatoire

X̄m − Ȳn − (µX − µY )


q = tn+m−2 (12)
S m1 + 1n

114
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r 1 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (13)
2 m n

c’est-à-dire
³α´ r 1 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r 1 1
X̄m − Ȳn + t¯m+n−2 S + (14)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de deux
moyennes des lois normales possédant la même variance inconnue.
Remarque 1. Supposons que σ2X et σY2 sont inconnues, mais leur quotient σ2X /σY2 est
donné, par exemple,
σ2X /σY2 = k, k > 0, (15)
et il faut construire le plus court intervalle de confiance de niveau 1 − α pour la différence
µX − µY , où µX et µY sont aussi inconnues. Le cas k = 1 vient d’être considéré. So l’on note
σY2 = σ2 , alors σ2X = kσ2 et au lieu de (3) et (4) nous aurons
µ ¶ µ ¶
kσ2 σ2
X̄m ∼ M µX , et Ȳn ∼ N µY , , (16)
m n
(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 , (17)
kσ2 σ2
et au lieu de (10) on a µ ¶
kσ2 σ2
X̄m − Ȳn ∼ N µX − µY , + , (18)
m n
d’où il vient que la variable aléatoire
X̄m − Ȳn − (µX − µY )
Z= q (19)
σ mk + 1n

suit la loi normale standard. D’autre côté, puisque


(m − 1)SX2 (n − 1)SY2
+ = χ2m−1 + χ2n−1 = χ2m+n−2 , (20)
kσ2 σ2
de (17) il suit que l’estimateur unifié sans biais pour σ2 est
½ ¾
2 1 m−1 2 2
S = SX + (n − 1)SY . (21)
m+n−2 k
Comme
m+n−2 2
S = χ2m+n−2 , (22)
σ2
et S2 est indépendante de Z, donnée par (19), du Théorème de Fisher on déduit que la
variable aléatoire
X̄m − Ȳn − (µX − µY )
q = tm+n−2 (23)
S mk + 1n

115
suit la loi de Student avec m + n − 2 degrés de liberté, et donc
( )
³α´ r k 1
P |(µX − µY ) − (X̄m − Ȳn )| ≤ t¯m+n−2 S + = 1 − α, (24)
2 m n

c’est-à-dire
³α´ r k 1
X̄m − Ȳn − t¯m+n−2 S + ≤ µX − µY ≤
2 m n
³α´ r k 1
X̄m − Ȳn + t¯m+n−2 S + (25)
2 m n
est le plus court intervalle de confiance de niveau (1 − α) pour la différence µX − µY de
deux moyennes des lois normales possédant le qoutient donné k = σ2X /σY2 des variances
inconnues σ2X et σY2 .
Exemple 1. Pour mesurer un angle A il étaient effectuées deux expériments indépen-
dants. Dans le premier étaient reçues deux valeurs

210 .76 et 200 .98, (26)

et dans le second il’en avait 6

210 .64, 210 .54, 220 .32, 200 .56, 210 .43, 210 .07. (27)

Nous supposons que toutes les erreurs de mesures sont des réalisatios des variables aléa-
toires normales indépendantes, et dans le deuxième expériment on utilise un instrument
de mesure dont la précision est 4 fois meilleur que celui du premier expériment. Il faut
construire le plus court intervalle de confiance de niveau (1 − α) pour la différence bX − bY
des erreurs systématiques bX et bY des instruments utilisés dans le premier et second expé-
riments (α = 0.01).
Solution. Suivant la théorie des erreurs de Gauss nous pouvons supposer que les données
(26) représentent la réalisation d’un échantillon normale

X = (X1 , X2 )T , Xi ∼ N(µX , σ2X ), (28)

et les données (27) représentent la réalisation d’un échantillon normale

Y = (Y1 , ...,Y6 )T , Y j ∼ N(µX , σ2 ), (29)

où σ2X = 4σ2 , car k = 4. Dans ce cas la statistique exhaustive est

(X̄m , SX2 , Ȳn , SY2 )T ,

avec
X̄m = X̄2 = 21.37, Ȳn = Ȳ6 = 21.42, SX2 = 0.3042, SY2 = 0.3445. (30)
De (21) il suit que l’estimateur unifié pour σ2 est
½ ¾ ½ ¾
2 1 m−1 2 2 1 1 2 2
S = Sx + (n − 1)SY = S + 5SY . (31)
m+n−2 k 6 4 X
Puisque r r
k 1 13
+ = et t¯6 (0.05) = 1.943, (32)
m n 6

116
et comme
µX − µY = bX − bY ,
de (25) on a
( r )
1 1
P |(bX − bY ) − (X̄m − Ȳn )| ≤ t¯6 (0.05)S + = 1 − α, (33)
m n

et donc de (30)-(32) nous obtenons que la différence systématique bX − bY appartient à


l’intervalle
|(bX − bY ) − (−0.05)| ≤ 1.57,
c’est-à-dire
−10 .62 ≤ bX − bY ≤ 10 .52.

2.15 Intervalle de confiance pour le quotient des variances


de deux lois normales.

Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons indépendantes,

Xi ∼ N(µX , σ2X ) et Y j ∼ N(µY , σY )T .

D’après le théorèm de Fisher nous avons

(m − 1)SX2 (n − 1)SY2
= χ2m−1 et = χ2n−1 (1)
σ2X σY2


1 m 1 n
SX2 = ∑ (Xi − X̄m)2
m − 1 i=1
et SY2 = ∑ (Y j − Ȳn)2
n − 1 i=1
(2)

sont les meilleurs estimateurs sans biais pour σ2X et σY2 , et

1 m 1 n
X̄m = ∑ Xi et Ȳn = ∑ Yi (3)
m i=1 n i=1

sont des meilleurs estimateurs sans biais pour µX et µY . Puisque les échantillons X et Y sont
indépendantes , les statistiques SX2 et SY2 sont indépendantes aussi, et donc nous obtenons
Théorème 1. La variable aléatoire

SX2 /σ2X
F= = Fm−1,n−1 (4)
SY2 /σY2

suit la loi F avec m − 1 et n − 1 degrés de liberté.

117
Nous allons utiliser ce théorème pour construire l’intervalle de confiance pour le quo-
tient σY2 /σ2X . En utilisant (4) et la table de F-répartition on peut trouver deux quantilles
1
F m−1,n−1 (α/2) = et F̄m−1,n−1 (α/2)
F̄n−1,m−1 (α/2)
tels que
P{F m−1,n−1 (α/2) ≤ Fm−1,n−1 ≤ F̄m−1,n−1 (α/2)} = 1 − α. (5)
Dans ce cas de (4)et (5) nous avons
½ ¾
σY2 SX2
P F m−1,n−1 (α/2) ≤ 2 2 ≤ F̄m−1,n−1 (α/2) = 1 − α (6)
σX SY
ou ½ ¾
SY2 σY2 SY2
P F m−1,n−1 (α/2) 2 ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (7)
SX σX SX
Puisque
1
F̄m−1,n−1 (α/2) = , (8)
F n−1,m−1 (α/2)
nous obtenons l’intervalle de confiance de niveau (1 − α) pour le quotient σY2 /σ2X :
½ ¾
1 SY2 σY2 SY2
P ≤ 2 ≤ 2 F̄m−1,n−1 (α/2) = 1 − α. (9)
F̄n−1,m−1 (α/2) SX2 σX SX
De (9) il suit immédiatement que l’intervalle de confiance de niveau (1−α) pour le quotient
σ2X /σY2 est
½ ¾
1 SX2 σ2X SX2
P ≤ 2 ≤ 2 F̄n−1,m−1 (α/2) = 1 − α. (10)
F̄m−1,n−1 (α/2) SY2 σY SY
Par conséquent, (9) et (10) nous donnent deux intervalles de confiance de niveau (1 − α)
pour σY2 /σ2X et σ2X /σY2 respectivement.
Exemple 1. Soient X = (X1 , ..., Xm )T et Y = (Y1 , ...,Yn )T deux échantillons indépen-
dantes,
Xi ∼ N(µX , σ2X ) et Y j ∼ N(µY , σY )T .
Nous supposons que un experiment pour m = 25 et n = 14 on a obtenu
SX2 = 74 · 10−6 et SY2 = 20 · 10−6 .
En utilisant (10) nous construisons l’intervallle de confiance de niveau (1 − α) pour le
quotient des variances σ2X /σY2 . Prenons α = 0.1. Puisque SX2 /SY2 = 3.70,
³α´
F̄n−1,m−1 = F̄13,24 (0.05) = 2.13
2
et ³α´ 1
1/F̄m−1,n−1 = ¡ ¢ = 1/2.35 = 0.426,
2 F̄24,13 α2
on a que
σ2
1.58 < X2 < 7.88,
σY
avec le coefficient de confiance 0.9.

118
2.16 La loi de Thompson.

Soit X = (X1 , . . . , Xn )T un échantillon normal, Xi ∼ N(µ, σ2 ). Notons


r
X j − X̄n n
ηj = = Z j , j = 1, 2, . . . , n, (2.1)
sn n−1
où Z j est donné par (8.57),

1 n 1 n
X̄n = ∑ Xi,
n i=1
s2n = ∑ (Xi − X̄n)2.
n i=1

Dans ce cas pour tout j la statistique η j suit la loi de Thompson à n − 2 degrées de liberté,
¡ n−1 ¢ Zx µ ¶ n−4
© ª Γ t2 2
P η j ≤ x = Tn−2 (x) = p 2
¡ n−2 ¢ 1− dt, (2.2)
π(n − 1)Γ 2 √ n−1
− n−1

pour |x| < n − 1.
Soit τm une variable aléatoire qui suit la loi de Thompson à m degrés de liberté,

P{τm ≤ x} = Tm (x).

On sait que la statistique r


m
tm = τm (2.3)
m + 1 − τ2m
suit la distribution de Student à m degrés de liberté,

P{tm ≤ x} = Sm (x).

On voit de (3) que s


m+1
τm = tm (2.4)
m + tm2
et par conséquent il en résulte que les quantiles τ(α, m) de la loi de Thompson à m degrés
de liberté (de niveau α) s’expriment en fonction des quantiles correspondants t(α, m) de la
loi de Student à m degrées de liberté par la formule
s
m+1
τ(α, m) = t(α, m) . (2.5)
m + t 2 (α, m)

On sait que si n → ∞, alors


Sm (x) → Φ(x) (2.6)
et par conséquent de (3) à (5) on déduit une approximation normale pour le loi de Thomp-
son, en utilisant la liaison qui existe entre les variables aléatoires τm et β = β m2 , m2 :

τm + m + 1
β= √ , (2.7)
2 m+1

119
ce qui est équivalent à
½ √ ¾ ³m m´
x+ m+1
P{τm ≤ x} = P β 2 , 2 ≤
m m √ = I x+√ m+1

, , (2.8)
2 m+1 2 m+1 2 2

oùβα,β est une variable aléatoire qui suit la loi béta de paramètres α et β.
Remarque 1. (Coefficient de correlation d’un échantillon normale dans R2 ).
Soit µ ¶ µ ¶ µ ¶
X1 X2 Xn
, ,...,
Y1 Y2 Yn
un échantillon d’une loi normale de dimension 2, i.e. pour tout (x, y) ∈ R2

x−µx y−µy
Zσx Zσy ½ ¾
1 1 2 2
P{Xi ≤ x,Yi ≤ y} = p exp − (u − 2ρuv + v ) du dv,
2π 1 − ρ2 2(1 − ρ2 )
−∞ −∞


µx = EXi , µy = EYi , σ2x = Var Xi , σ2y = VarYi ,
1
ρ= E(Xi − µx )(Yi − µy ).
σx σy
On peut montrer que les statistiques

1 n 1 n 1 n
X̄n = ∑ Xi , Ȳn = ∑ Yi , s2x = ∑ (Xi − X̄n )2 ,
n i=1 n i=1 n i=1

1 n sxy
s2y = ∑ (Yi − Ȳn)2,
n i=1
ρ̂n =
sx sy

sont les estimateurs de maximum de vraisemblance pour les paramètres µx , µy , σ2x , σ2y et ρ
respectivement, où
1 n
sxy = ∑ (Xi − X̄n )(Yi − Ȳn ).
n i=1
On peut montrer sous l’hypothèse H0 : ρ = 0 la densité pn (r), n ≥ 3, de la statistique ρ̂n est
donnée par la formule :
¡ ¢
1 Γ n−1 n−4
pn (r) = √ ¡ n−22 ¢(1
− r2 ) 2 , |r| < 1, (2.9)
πΓ 2

d’où on tire que si l’hypothése H0 est juste , alors


s
n−2
ρ̂2n = β 1 , n−2 et tn−2 = ρ̂n . (2.10)
2 2 1 − ρ̂2n

120
2.17 Méthode du maximum de vraisemblance.

Supposons que’on a un échantillon

X ∼ Pθ , θ = (θ1 , . . . , θm )T ∈ Θ ⊂ Rm

et que Pθ est absolument continue par rapport à une mesure σ-finie µ. Notons par f (x; θ) la
densité de X.
Soit
L(θ) = L(X, θ) = f (X; θ), θ ∈ Θ ⊂ Rm ,
la fonction de vraisemblance de X.
On appelle L(X, θ) ainsi car, sachant une réalisation x du vecteur aléatoire X, la va-
leur L(x, θ) = f (x, θ) de L(X, θ) nous permet de trouver les plus vraisemblables valeurs du
paramètre θ.
En effet, soit V (x) un voisinage infiniment petit de x. Alors

Pθ (X ∈ V (x)) ≈ f (x, θ) µ(V (x)) (1)

(dans le cas discret on a une égalité). Les valeurs de θ plus vraisemblables sont telles qui
maximisent la probabilité que X prend la valeur observée x (ou prend la valeur dans un
infiniment petit voisinage de x, si telles probabilités sont égales à zero), donc d’ après (1)
maximisent la realisation L(x, θ) = f (x, θ) de la fonction de vraisemblance L(X, θ) par
rapport à θ.
Définition 1. Une statistique θ̂n = θ̂n (X) est appellée estimateur de maximum de vrai-
semblance (EMV) du paramètre θ, si µ-p.s.

L(X, θ̂n ) = sup L(X, θ). (2)


θ∈Θ
Θ

Si g : Θ → Rk est une fonction mésurable, k ≤ m, alors ĝn = g(θ̂n ) est appellé estimateur
de maximum de vraisemblance de g = g(θ).
Rémarque 1. Si T = T (X) est une statistique exhaustive, alors le critère de factorisation
L(X, θ) = g(T (X), θ)h(X) implique que l’EMV est une fonction de T .
Générallement on cherche l’EMV en maximisant la fonction ln L(X, θ) par rapport à θ,
car cette fonction atteint le maximum dans le même point que L et dans la plupart des cas
concrets est plus simple.
Si la fonction ln L(X, θ) est dérivable par rapport à θ, alors l’EMV vérifie le système
d’équations de vraisemblance
U(θ) = 0,
où µ ¶T µ ¶T
∂ ln L(X, θ) ∂ ln L(X, θ) ∂ ln L(X, θ)
U(θ) = = ,..., (3)
∂θ ∂θ1 ∂θm
est la fonction score.
La forme de la fonction de vraisemblance dépend de la structure de l’échantillon.

121
Exemple 1. Si X = (X1 , . . . , Xn )T est un échantillon simple, Xi ∼ p(x, θ), θ ∈ Θ ⊂ Rm ,
alors
n n
L(X, θ) = ∏ p(Xi , θ), ln L(X, θ) = ∑ ln p(Xi , θ),
i=1 i=1

and à !T
n
∂ ln p(Xi , θ)
U(θ) = ∑ ∂θ . (4)
i=1

Exemple 2. Censure du premier type. On fixe le temps t de l’expérience et on observe


n sujets. Les durées de vie T1 , . . . , Tn de sujets sont des v.a. i.i.d. de la fonction de répartition
F(t, θ), θ ∈ Θ ⊂ Rm et de la densité p(t, θ) par rapport à la mesure de Lebesque . La valeur
ti de la variable aléatoire Ti n’est pas observée, si ti > t. Les moments t(1) ≤ . . . ≤ t(d(t)) de
d(t) décès, (d(t) ≤ n), sont observés pendant l’expérience, si d(t) > 0. Si d(t) = 0, t(i) ne
sont pas observés. Le vecteur
(t(1) , . . . ,t(d(t)) , d(t))T
est une réalisation d’un vecteur aléatoire

(T(1) , . . . , T(D(t)) , D(t))T .

Cherchons la densité de ce vecteur :

fT(1) ,...,T(D(t)) ,D(t) (t1 , . . . ,td , d)

1
= lim P{t1 < T(1) ≤ t1 + h1 , . . . ,td < T(d) ≤ td + hd , D(t) = d}
h1 ,...,hd ↓0 h1 . . . hd

1
= lim P{D(t1 ) = 0, D(t1 + h1 ) − D(t1 ) = 1, . . . , D(td + hd ) − D(td ) = 1,
h1 ,...,hd ↓0 h1 . . . hd

D(t) − D(td ) = 0, D(∞) − D(t) = n − d} =


n!
[1 − F(t, θ]n−d p(t1 , θ) . . . p(td , θ),
(n − d)!
si t1 < t2 < . . .td , d = 1, 2, . . .).
Donc la fonction de vraisemblance est
n!
L(θ) = [1 − F(t, θ]n−D(t) p(T(1) , θ) . . . p(T(D(t)) , θ), (5)
(n − D(t))!

si D(t) = 1, 2, . . ., et
L(θ) = [1 − F(t, θ]n , (6)
si D(t) = 0.
La même fonction de vraisemblance (avec une constante près) peut être obtenu diffé-
rament. Posons
Xi = min(Ti ,t), δi = 1{Ti ≤t} .
Sachant les paires
(X1 , δ1 ), . . . , (Xn , δn ),

122
on peut trouver T(1) , . . . , T(D(t)) : il faut ordonner les Xi , qui corresponent à δi = 1. Les
vecteurs aléatoirs (Xi , δi ) sont i.i.d., donc cherchons la loi de (X1 , δ1 ). On a

FX1 ,δ1 (x, 1; θ) = Pθ (X1 ≤ x, δ1 = 1) = Pθ (T1 ≤ x, T1 ≤ t) =


Z x
FTi (min(x,t)) = p(u, θ)1{u≤t} du,
0
FX1 ,δ1 (x, 0; θ) = Pθ (X1 ≤ x, δ1 = 0) = Pθ (t ≤ x, T1 > t) =
1{t≤x} (1 − F(t, θ)).
Considérons la mesure µ sur R+ × {0, 1} suivante :
Z x
µ([0, x] × {1}) = 1{u≤t} du, µ([0, x] × {0}) = 1{t≤x} .
0

Alors Z x
FX1 ,δ1 (x, k; θ) = pk (u, θ)[1 − F(t, θ)]1−k µ(du, k),
0
et donc la densité de (Xi , δi ) par rapport à µ est

pXi ,δi (xi , ki ; θ) = pki (xi , θ)[1 − F(t, θ)]1−ki .

Donc la fonction de vraisemblance est


n
L(X1 , δ1 , . . . , Xn , δn ; θ) = ∏ pδi (Xi , θ)[1 − F(Xi , θ)]1−δi . (7)
i=1

Notons que cette fonction est ǵale à la fonction donnèe par (5) et (6) à la constante près :
D(t)
L(X1 , δ1 , . . . , Xn , δn ; θ) = ∏ p(T(i), θ)[1 − F(t, θ)]n−D(t), si D(t) > 0
i=1

ou
L(X1 , δ1 , . . . , Xn , δn ; θ) = [1 − F(t, θ)]n ,
si D(t) = 0.
Des censures de plusieurs types sont considérée dans les chapitres suivants.
Exemple 3. (Données groupés) Soit Z n = (Zn1 , . . . , ZnN ) vecteur aléatoire qui suit la loi
multinomiale MN (n, p(θ)), où p(θ) = (p1 (θ), . . . , pN (θ))T , θ ∈ Θ ⊂ Rm .
Par exemple, si la région X des valeurs des v.a. i.i.d. Xi ∼ F(x, θ), θ ∈ Θ ⊂ Rm (i =
1, . . . , n) est divisé en N intervalles I1 , . . . , IN , alors Zn j peut être interpreté comme le nombre
aléatoire des Xi , qui appartiennent à I j :
n
Zn j = ∑ 1{Xi ∈I j } et pi (θ) = Pθ (Xi ∈ I j ).
i=1

Donc
Pθ (Z n = zn ) = P {Zn1 = k1 , . . . , ZnN = kN } =
n!
pk1 (θ)pk22 (θ) . . . pkNN (θ).
k1 ! . . . kN ! 1

123
Supposons que n’observe que les v.a. Zn j . Alors la fonction de vraisemblance est

n!
L(Z n , θ) = pZ1 n1 (θ)pZ2 n2 (θ) . . . pZNnN (θ).
Zn1 ! . . . ZnN !
19. Propriétés asymptotiques des estimateurs de maximum de vraisemblance
On va démontrer que sous conditions générales des estimateurs de maximum de vrai-
semblance sont consistants et asymptotiquement efficaces.
Soit
X = (X 1 , . . . , X n ),
un échantillon, où X 1 , . . . , X n sont des vecteurs aléatoires indépendants,

X i ∼ pi (xi , θ), θ ∈ Θ ⊂ Rm ,

où pi (xi , θ) est la densité du vecteur ri -dimensionnel X i par rapport à une mesure σ-fini µ.
La fonction de vraisemblance a la forme
n
L(X, θ) = ∏ pi (X i , θ).
i=1

On a vu que sous des conditions générales la matrice d’information de Fisher a la forme

∂2
I n (θ) = Eθ Î n (X, θ), où Î n (X, θ) = − ln L(X, θ).
∂θ2
Si X 1 , . . . , X n sont des vecteurs aléatoires i.i.d. de la même dimension r (en cas r = 1 on a
un échantillon simple), alors pi = p, I n (θ) = nI 1 (θ), où

∂2
I 1 (θ) = Eθ Î 1 (X 1 , θ), Î 1 (X 1 , θ) = p(X 1 , θ).
∂θ2

Théorème. Supposons que les vecteurs aléatoires X 1 , . . . , X n sont i.i.d. et


1) Θ est ouvert ;
2) presque pour tout y ∈ Rr la densité p(y, θ) est deux fois continument dérivable par
rapport à θ dans un voisinage Vρ = {θ :|| θ − θ0 ||≤ ρ} de la vraie valeur θ0 du paramètre
θ;
3) on peut dériver deux fois sous le signe de l’integrale :
Z Z
∂ ∂
p(y, θ)dy = p(y, θ0 )dy = 0,
Rr ∂θ ∂θ Rr
Z Z
∂2 ∂ ∂
p(y, θ 0 )dy = p(y, θ0 )dy = 0;
Rr ∂θ
2 ∂θ Rr ∂θ
4) la matrice d’information de Fisher I 1 (θ0 ) est définie positive ;
5) il existent des fonctions non-negatives h et b, telles que pour presque tous y ∈ Rr et
tous θ ∈ Vρ

|| Î1 (y, θ) − Î1 (y, θ0 ) ||≤ h(y) b(θ), Eθ0 {h(X 1 )} < ∞, b(θ0 ) = 0,

la fonction b est continue au point θ0 .

124
Alors il existe une suite des estimateurs {θ̂n } telle que
P
P(U(X, θ̂n ) = 0) → 1, θ̂n → θ0 , (1)

et √ d
n(θ̂n − θ0 ) → Nm (0, I −1
1 (θ0 )). (2)

Démonstration. Soit c > 0 une constante et


1/2
Bnc = {θ : (θ − θ0 )T I n (θ0 )(θ − θ0 ) ≤ c2 } = {θ : || I n (θ0 )(θ − θ0 ) ||≤ c} (3)

un voisinage de θ0 . Notons par ∂Vρ = {θ :|| θ − θ0 ||= ρ} la frontière de Vρ . La condition


4) implique que
inf (θ − θ0 )T I 1 (θ0 )(θ − θ0 ) > 0,
θ:θ∈∂Vρ
donc il existe N = N(ρ) > 0 tel que Bnc ∩ ∂Vρ = 0, / quand n > N et donc Bnc ⊂ Vρ . Il est
evident aussi que Bnc → θ0 , i.e. supθ∈Bn || θ − θ0 ||→ 0 quand n → ∞.
c
On va montrer que
à !
Pθ0 sup ln L(θ) − ln L(θ0 ) < 0 → 1, quand n → ∞. (4)
θ∈∂Bnc

Pour tout θ ∈ ∂Bcn écrivons la formule de Taylor :

1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T Î n (θ∗ )(θ − θ0 ), (5)
2
où θ∗ = θ∗ (X) est un point sur la ligne entre θ et θ0 .
On va montrer d’abord que

1 1
Î n (θ∗ ) = I n (θ0 ) + oP (1). (6)
n n
La condition 5) implique que

1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤ Eθ0 || Î 1 (θ∗ ) − Î 1 (θ0 )) ||≤
n
sup b(θ) Eθ0 h(X 1 ) → 0.
θ∈Bnc
Cette convergence implique que

1 1 L 1 1 P
Î n (θ∗ ) − Î n (θ0 ) →1 0 =⇒ Î n (θ∗ ) − Î n (θ0 ) → 0. (7)
n n n n
La loi de grands nombres implique que

1 1 n ∂2
Î n (θ0 ) = − ∑ 2 ln p(X i , θ0 ) → I 1 (θ0 ),
P
(8)
n n i=1 ∂θ

125
car Î n (θ0 ) est la somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la variance I 1 (θ0 ).
Donc on a
1 1 1
Î n (θ∗ ) = Î n (θ0 ) + oP (1) = I 1 (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (9)
n n n
Cette égalité, l’égalité (5) et la définition de ∂Bnc (voir (3)) impliquent que uniformément
sur ∂Bnc
1
ln L(θ) − ln L(θ0 ) = U T (θ0 )(θ − θ0 ) − (θ − θ0 )T I n (θ0 )(θ − θ0 ) + oP (1)
2
c2
= U T (θ0 )(θ − θ0 ) − + oP (1). (10)
2
Donc à !
Pθ0 sup ln L(θ) − ln L(θ0 ) < 0 ≥
θ∈∂Bnc
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) + sup | oP (1) |<
θ∈∂Bnc θ∈∂Bnc 2
à !
c 2 c 2
≥ Pθ0 sup U T (θ0 )(θ − θ0 ) < , | oP (1) |< ≥
θ∈∂Bnc 4 4
à ! µ ¶
c 2 c2
1 − Pθ0 sup U (θ0 )(θ − θ0 ) ≥
T
− Pθ0 | oP (1) |≥ . (11)
θ∈∂Bn 4 4
c

Notons que supµ∈Rm ,||µ||=1 aT µ =|| a || pour tout a ∈ Rm , donc


−1/2 1/2
sup U T (θ0 )(θ − θ0 ) = c sup U T (θ0 )I n (θ0 )I n (θ0 )(θ − θ0 )/c
θ∈∂Bnc θ∈∂Bnc
−1/2 −1/2
≤c sup U T (θ0 ) I n (θ0 )µ = c || U T (θ0 ) In (θ0 ) || . (12)
µ∈Rm ,||µ||=1
L’inégalité de Tchebyshev-Bienaimé implique que
³
−1/2
Pθ0 || U T (θ0 ) I n (θ0 ) ||≥

−1/2
c/4) ≤ (4/c)2 Eθ0 (|| U T (θ0 )I n (θ0 ) ||2 )
= (4/c)2 Eθ0 U(θ0 )I −1 2
n (θ0 )U(θ0 ) = (4/c) m. (13)
Pour tout δ > 0 on peut trouver c > 0 tel que (4/c)2 ≤ δ/2. Fixons un tel c. Alors
à !
c 2
Pθ0 sup U T (θ0 )(θ − θ0 ) ≥ < δ/2. (14)
θ∈∂Bn 4
c

On peut trouver N = N(δ) > 0 tel que pour tous n ≥ N


µ ¶
c2
Pθ0 | oP (1) |≥ < δ/2. (15)
4

126
L’inégalités (11)-(15) impliquent la convergence (4).
La fonction ln L(θ) est continument dérivable sur Vρ ⊃ Bnc , donc cette convergence im-
plique qu’il existe une suite d’estimateurs {θ̂n } telle que
¡ ¢
Pθ0 U(θ̂n ) = 0, (θ̂n − θ0 )T I n (θ0 )(θ̂n − θ0 ) ≤ c2 → 1,

donc pour tout ε > 0 la relation


¡ ¢
Pθ0 U(θ̂n ) = 0, || θ̂n − θ0 ||≤ ε → 1

implique la suivante
¡ ¢ P
Pθ0 U(θ̂n ) = 0 → 1, θ̂n → θ0 .
Démontrons la normalité asymptotique des estimateurs θ̂n . En intégrant la gauche et la
droite de l’égalité

U{θ0 + t(θ̂n − θ0 )} =
∂t

U({θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 ) =
∂θ
−Î n {θ0 + t(θ̂n − θ0 )}(θ̂n − θ0 )
par rapport à t, on obtient
Z 1
−U(θ0 ) = U(θ̂n ) −U(θ0 ) = − Î n (θ0 + t(θ̂n − θ0 ))dt (θ̂n − θ0 ). (15)
0

Montrons que le deuxième integrale est asymptotiquement equivalent à I n (θ0 ). La condition


5) implique
Z 1
1
|| Î n (θ0 + t(θ̂n − θ0 ))dt − Î n (θ0 ) ||
n 0
Z 1
1 n ∂2 ∂2
≤ ∑ || 2 ln p(X i , θ0 + t(θ̂n − θ0 )) − 2 ln p(X i , θ0 ) || dt
n i=1 0 ∂θ ∂θ
Z 1
1 n
≤ ∑ h(X i ) b(θ0 + t(θ̂n − θ0 ))dt. (17)
n i=1 0

Le premier facteur à la droite est la moyenne de v.a. i.i.d. de l’espérance fini, donc la loi de
grands nombres implique que
1 n

P
h(X i ) → Eθ0 h(X 1 ). (18)
n i=1

Montrons que le deuxième facteur tend en probabilité vers 0. La continuité de la fonction


b en θ0 et la condition b(θ0 ) = 0 impliquent que pour tout ε > 0 il existe ∆ = ∆(ε) tel que
b(θ) < ε, si || θ − θ0 ||< ∆. Si || θ̂n − θ0 ||< ∆, alors pour tout t ∈ [0, 1]
Z 1
b(θ0 + t(θ̂n − θ0 )) < ε ⇒ b(θ0 + t(θ̂n − θ0 ))dt < ε.
0

Donc µZ 1

Pθ0 b(θ0 + t(θ̂n − θ0 ))dt ≥ ε ≤ Pθ0 (|| θ̂n − θ0 ||≥ ∆) → 0. (19)
0

127
Les convergences (18) et (19) et l’inégalité (16) impliquent
Z 1
1 1 1
Î n (θ0 + t(θ̂n − θ0 ))dt = Î n (θ0 ) + oP (1) = I n (θ0 ) + oP (1). (20)
n 0 n n
L’égalités (16) et (20) impliquent
µ ¶
1 1 √
√ U(θ0 ) = Î n (θ0 ) + o p (1) n(θ̂n − θ0 ) =
n n

(I 1 (θ0 ) + o p (1)) n(θ̂n − θ0 ) (21)
La v.a. U(θ0 ) est une somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la matrice
de covariance I 1 (θ0 ). Le théorème limite centrale implique que
1 d
√ U(θ0 ) → Nm (0, I 1 (θ0 )). (22)
n
Cette convergence, l’égalité (21) et le théorème de Slutsky impliquent que
√ d
n(θ̂n − θ0 ) → Nm (0, I −1 −1 −1
1 (θ0 )I 1 (θ0 ))I 1 (θ0 )) = Nm (0, I 1 (θ0 )).

Corollaire. Sous les hypothèses du Théorème


d
(θ̂n − θ0 )T Î n (θ̂n )(θ̂n − θ0 ) → χ2m . (23)

Démonstration. Le résultat du théorème implique que


d
(θ̂n − θ0 )T I 1 (θ0 )(θ̂n − θ0 ) → χ2m . (24)

La condition 5) du Théorème implique


1
Eθ0 || Î n (X, θ̂n ) − Î n (X, θ0 ) ||≤
n
Eθ0 || Î1 (X 1 , θ̂n ) − Î1 (X 1 , θ0 ) ||≤ Eθ0 h(X 1 ) b(θ̂n ) → 0,
donc
1
Î n (θ̂n ) = I 1 (θ0 ) + oP (1). (25)
n
(23) et (24) impliquent (22).
Corollaire. Sous les hypothèses du Théorème
d
U T (θ0 )I −1
n (θ0 )U(θ0 ) → χm
2

et
−1 d
U T (θ0 )Î n (θ̂n )U(θ0 ) → χ2m . (26)

Corollaire. Si la fonction g : Θ → G ⊂ Rk a des dérivés partielles du premier ordre


continues, les hypothèses du Théorème sont vérifiées, ĝn = g(θ) est l’EMV de g = g(θ),
alors √ d
n(ĝn − g0 ) → Nk (0, G(θ0 )I −1 T
1 (θ0 ))G (θ0 ),

128
où g0 est la vraie valeur de g et
· ¸
∂gi (θ0 )
G(θ0 ) = .
∂θ j k×m

Ce résultat est impliqué par la méthode delta.


Corollaire. Sous les hypothèses du Corollaire
n o−1
−1 d
(ĝn − g0 )T G(θ̂n )Î n (θ̂n )GT (θ̂n ) (ĝn − g0 ) → χ2k .

Démonstration. Corollaire implique


√ © ª−1 √ d
n(ĝn − g0 )T G(θ0 )I −1 T
n (θ0 )G (θ0 ) n(ĝn − g0 ) → χ2k . (27)

La fonction G est continue, donc

G(θ̂n ) = G(θ0 ) + oP (1). (28)

ce qui implique le résultat.


Le cas important est g = (θl1 , . . . , θlk ), où 1 ≤ l1 ≤ . . . ≤ lk ≤ m. Dans ce cas gi j (θ) = 1,
si j = li , et gi j (θ) = 0, sinon. Donc
−1
Ai1 ...ik = G(θ̂n )Î n (θ̂n )GT (θ̂n )
−1
est la sous-matrice de Î n (θ̂n ) étante sur intersection de i1 , . . . , ik -èmes lignes et i1 , . . . , ik -
èmes colognes. Donc
d
(θ̂l1 − θ0l1 , . . . , θ̂lk − θ0lk )T A−1
i1 ...ik (θ̂l1 − θ0l1 , . . . , θ̂lk − θ0lk ) → χk .
2
(29)

Généralisons le théorème pour le cas, quand les vecteurs X i ne sont pas nécéssairement
identiquement distribués.
Théorème. Supposons que
1) Θ est ouvert ;
2) presque pour tout xi ∈ Rri (ri ≤ r) la densité pi (xi , θ) est deux fois continument
dérivable par rapport à θ dans un voisinage Vρ = {θ :|| θ − θ0 ||≤ ρ} ;
3) on peut dériver deux fois par rapport à θ sous le signe des intégrales :
Z Z
∂ ∂
p(xi , θ)dxi = p(xi , θ0 )dxi = 0,
Rri ∂θ ∂θ Rri
Z Z
∂2 ∂ ∂
p(x i , θ 0 )dx i = p(xi , θ0 )dxi = 0;
Rri ∂θ2 ∂θ Rri ∂θ
4) la matrice limn→∞ 1n I n (θ0 ) = I n (θ0 ) est définie positive.
5) existent des fonctions non-negatives hi et b, telles que pour presque tous xi ∈ Rri et
tous θ ∈ Vρ
∂2 ∂2
|| 2 ln pi (xi , θ) − 2 ln pi (xi , θ0 ) ||≤ hi (xi ) b(θ),
∂θ ∂θ

129
Eθ0 {sup h(X i )} < ∞, b(θ0 ) = 0,
i
la fonction b est continue en θ0 .
6) il existe un nombre positif δ > 0, tel que

1 n
∂2
lim
n→∞ n1+δ
∑ Eθ0 || ∂θ2 ln pi(X i, θ0) ||1+δ= 0.
i=1

Alors il existe une suite des estimateurs {θ̂n } telle que


P
P(U(X, θ̂n ) = 0) → 1, θ̂n → θ0 . (30)

Supposons, de plus, que

7) Eθ0 sup || f rac∂∂θ ln pi (X i , θ0 ) ||2+δ < ∞.


i

Alors √ d
n(θ̂n − θ0 ) → Nm (0, I −1 (θ0 )). (31)

Démonstration. Soit Bnc un voisinage de θ0 défini par (3). De même que dans le théorème
précedant la condition 4) implique que Bnc → θ0 et que Bnc ⊂ Vρ , si n est grand.
Pour tout θ ∈ ∂Bnc écrivons le development (5). La condition 5) implique

1
Eθ0 || (Î n (θ∗ ) − Î n (θ0 )) ||≤
n
∂2 ∂2
Eθ0 || 2 ln pi (X i , θ∗ ) − 2 ln pi (X i , θ0 ) ||≤
∂θ ∂θ
Eθ0 sup hi (X i ) sup b(θ) → 0,
i θ∈Bnc
donc la convergence (7) a lieu.
La condition 6) et la loi de grands nombres impliquent
1
(Î n (X, θ0 ) − I n (θ0 )) =
n
½ 2 µ 2 ¶¾
1 n ∂ ∂
− ∑
P
ln pi (X i , θ0 ) − Eθ0 ln pi (X i , θ0 ) → 0.
n i=1 ∂θ2 ∂θ 2

Cette convergence et la convergence (7) impliquent


1 1
Î n (θ∗ ) = I n (θ0 ) + oP (1).
n n
Le reste de démonstration de la consistence est le même comme dans Théorème.
Démontrons la normalité asymptotique. On écrit l’égalité (16). La condition 5) implique
que
Z 1
1
|| Î n (θ0 + t(θ̂n − θ0 ))dt − Î n (θ0 ) ||≤
n 0

130
Z 1
P
sup hi (X i ) b(θ0 + t(θ̂n − θ0 ))dt → 0.
i 0
Donc µ ¶
1 1 √
√ U(θ0 ) = I n (θ0 ) + o p (1) n(θ̂n − θ0 ).
n n
Notons

Yi = ln pi (X i , θ0 ).
∂θ
Soit a ∈ Rm \0. Alors
n
aT U(θ0 ) = ∑ aT Y i , E(aT Y i ) = 0,
i=1

Varθ0 (aT U(θ0 )) = aT I n (θ0 )a.


Alors
aT U(θ0 ) d
→ N(0, 1),
aT I n (θ0 )a
si la condition de Liapunov
∑ni=1 E | aT Y i |2+δ
→0
(aT I n (θ0 )a)1+δ/2
est vérifiée. Mais l’inégalité

E | aT Y i |2+δ ≤|| a ||2+δ E sup || Y i ||2+δ


i

implique que
∑ni=1 E | aT Y i |2+δ

(aT I n (θ0 )a)1+δ/2
|| a ||2+δ
n−δ 1
E sup || Y i ||2+δ → 0,
(a n I n (θ0 )a)
T 1+δ/2 i

car l’espérance à la droite est finie d’après la condition 7), la matrice I(θ0 ) est définie
positive et donc
1
aT I n (θ0 )a → aT I(θ0 )a > 0,
n
m
d’où on tire que pour tout a ∈ R \0

1 d
√ aT U(θ0 ) → Nm (0, aT I(θ0 )a)
n

et donc
1 d
√ I −1 (θ0 )U(θ0 ) → N(0, I −1 (θ0 )),
n
µ ¶−1
1 1 d
√ I n (θ0 ) U(θ0 ) → N(0, I −1 (θ0 )),
n n
d’où on tire que √
n(θ̂n − θ0 ) =

131
µ ¶−1
1 1 d
√ I n (θ0 ) + oP (1) U(θ0 ) → Nm (0, I −1 (θ0 )).
n n
2.18 Propriétés asymptotiques du rapport de vraisemblance
Théorème. Sous les conditions du théorème on a
L(X, θ0 ) d 2
−2 ln → χ (m).
L(X, θ̂n )
Démonstration. D’apré la formule de Taylor

ln L(X, θ0 ) − ln L(X, θ̂n ) = U T (X, θ̂n )(θ0 − θ̂n )−


1
(θ̂n − θ0 )T Î n (X, θ∗ (X))(θ̂n − θ0 ) =
2
1√ 1 √
− n(θ̂n − θ0 )T Î n (X, θ∗ (X)) n(θ̂n − θ0 )
2 n
où θ∗ (X) est un point sur la ligne entre θ̂n et θ0 et
P
|| θ∗ (X) − θ0 ||≤|| θ̂n − θ0 ||→ 0,
P
donc θ∗ (X) → θ0 .
Comme dans la démonstration du théorème (voir) , on a
1 1 P
Î n (θ∗ ) − Î n (θ0 ) → 0. (1)
n n
Donc
1 1
Î n (θ∗ ) = Î n (θ0 ) + oP (1) = I 1 (θ0 ) + oP (1).
n n
et
−2(ln L(X, θ0 ) − ln L(X, θ̂n )) =
√ √
n(θ̂n − θ0 )T I 1 (θ0 ) n(θ̂n − θ0 ) + oP (1).
La convergence
√ d
n(θ̂n − θ0 ) → Z =∼ Nm (0, I −1
1 (θ0 ))
implique que
d
−2(ln L(X, θ0 ) − ln L(X, θ̂n )) → Z T I 1 (θ0 )Z ∼ χ2 (m).

Soit
φ = (φ1 , φ2 ) : Θ → G = G1 × G2 ⊂ Rk × Rm−k
une bijection continument dérivable. Notons par ψ : G1 × G2 → Θ la fonction inverse.
Soient g10 un point dans G1 et Θ 0 un sous-ensemble de Θ , défini par

Θ 0 = {θ : φ1 (θ) = g10 } = {θ : θ = ψ(g10 , g2 ), g2 ∈ G2 } ⊂ Θ . (2)

Exemple 1. Soit

φ1 (θ) = θ1 = (θ1 , . . . , θk ), φ2 (θ) = θ2 = (θk+1 . . . , θm )

132
des projection de

θ = (θ1 , . . . , θm ), θ1 ∈ Θ 1 , θ2 ∈ Θ 2 , Θ = Θ1 × Θ2.

Alors φ(θ) = θ, ψ(θ) = θ et

Θ 0 = {θ : θ1 = θ10 } = {θ : θ = (θ10 , θ2 ), θ2 ∈ Θ 2 },

où g10 = θ10 est une valeur de θ1 fixée.


Exemple 2. Soit k = 1,

φ1 (θ) = ln θ1 , φ2 (θ) = θ2 = (θ2 , . . . , θm ).

Alors
φ(θ) = (ln θ1 , θ2 ), ψ(g1 , θ2 ) = (eg1 , θ2 )
et
Θ 0 = {θ : ln θ1 = g10 } = {θ : θ = (eg10 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 3. Soit k = 1,

φ1 (θ) = θ1 − θ2 , φ2 (θ) = θ2 .

Alors
φ(θ) = (θ1 − θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 + θ2 , θ2 )
et
Θ 0 = {θ : θ1 − θ2 = g10 } = {θ : θ = (g10 + θ2 , θ2 ), θ2 ∈ Θ 2 }.
Exemple 4. Soit k = 1,

φ1 (θ) = θ1 /θ2 , φ2 (θ) = θ2 .

Alors
φ(θ) = (θ1 /θ2 , θ2 ), ψ(g1 , θ2 ) = (g1 θ2 , θ2 )
et
Θ0 = {θ : θ1 /θ2 = g10 } = {θ : θ = (g10 θ2 , θ2 ), θ2 ∈ Θ2 }.

Théorème Supposons que les conditions du Théorème précédent sont vérifiés et Θ 0 est
l’ensemble défini par (2). Si θ0 ∈ Θ 0 alors

sup L(X, θ)
θ∈ΘΘ0
R(X, g10 ) = −2 ln
sup L(X, θ)
θ∈ΘΘ

sup L(X, θ)
θ:φ1 (θ)=g10 d
= −2 ln → χ2 (k),
L(X, θ̂n )
i.e. pour tout x ∈ R
Pθ0 (R(X, g10 ) ≤ x) → Fχ2 (x).
k

133
Démonstration. On a

sup L(θ) = sup L(θ)


θ∈ΘΘ0 θ:θ=ψ(g10 ,g2 ),g2 ∈G2

= sup L(ψ(g10 , g2 )) = sup L∗ (g2 ),


g2 :g2 ∈G2 g2 :θ2 ∈G2

où L∗ (g2 ) = L(ψ(g10 , g2 )). La v.a. L∗ (X, g2 ) est la fonction de vraisemblance pour le mo-
dèle statistique
X ∼ f ∗ (x, g2 ), g2 ∈ G2 ,
où f ∗ (x, g2 ) = f (x, ψ(g10 , g2 )).
La consistance de θ̂n implique que
√ 1
I 1 (θ0 ) n(θ̂n − θ0 ) = √ U(θ0 ) + oP (1), (3)
n

donc
√ 1
n(θ̂n − θ0 ) = I −1
1 (θ0 ) √n U(θ0 ) + oP (1). (4)

Ce résultat implique que


√ √
2(ln L(X, θ̂n ) − ln L(X, θ0 )) = n(θ̂n − θ0 )T I 1 (θ0 ) n(θ̂n − θ0 ) + oP (1)

1 1
= √ U T (θ0 )I −1
1 (θ0 )I 1 (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1)
n n
1 1
= √ U T (θ0 )I −1
1 (θ0 ) √ U(θ0 ) + oP (1). (5)
n n
De même, notant
g˜2 n = g˜2 n (g10 , X)
l’EMV de g2 sous notre modèle, on a

2(ln L∗ (X, g̃2n ) − ln L∗ (X, g20 ))

1 1
= √ (U ∗ )T (g20 )(I ∗1 )−1 (g20 ) √ U ∗ (g20 ) + oP (1). (6)
n n
La fonction score est
∗ ∂ ln L∗ (g2 )
U (g2 ) = =
g2
∂ ln L(ψ(g10 , g2 )) ∂ψ(g10 , g2 )
= U(ψ(g10 , g2 )) =
∂g2 ∂g2
A(g0 )U(ψ(g10 , g2 )), (7)

∂ψ(g10 , g2 )
A(g10 , g2 ) = .
∂g2
En particulier,
U ∗ (g20 ) = A(g0 )U(θ0 ), (8)

134
La matrice d’information de Fisher en g20 est

I ∗1 (g20 ) = Eθ0 U ∗ (g20 )(U ∗ )T (g20 ) =

A(g0 )Eθ0 U(θ0 )U T (θ0 )A(g0 )T = A(g0 )I 1 (θ0 )A(g0 )T . (9)


Les égalités (7) et (9) impliquent

2(ln L(X, θ̂n ) − ln L∗ (X, g̃2n )) =


1 1
√ U T (θ0 ){I −1
1 (θ0 ) − AT (g0 )(I ∗1 )−1 (g20 )A(g0 )} √ U(θ0 ). (10)
n n
La convergence
1 d
√ U(θ0 ) → Z ∼ N(0, I 1 (θ0 ))
n
implique que
d
2(ln L(X, θ̂n ) − ln L∗ (X, g̃2n )) → Z T {I −1 T ∗ −1
1 − A (I 1 ) A}Z. (11)

La v.a. limite est une forme quadratique des v.a. normales. On va utiliser le résultat (voir)
qui dit que si
Y ∼ N(0, Σ)etBΣB = B, tr(BΣ) = k,
alors Y T BY ∼ χ2k . Dans notre cas

(I −1 T ∗ −1 −1 T ∗ −1
1 − A (I 1 ) A)I 1 (I 1 − A (I 1 ) A) =

I −1 T ∗ −1 T ∗ −1
1 − A (I 1 ) A − A (I 1 ) A

+AT (I ∗1 )−1 AI 1 AT (I ∗1 )−1 A = I −1 T ∗ −1


1 − A (I 1 ) A, (12)
car AI 1 AT = I ∗1 . Le rang
tr((I −1 T ∗ −1
1 − A (I 1 ) A)I 1 ) =

tr(Em − AT (I ∗1 )−1 AI 1 ) = m − tr((I ∗1 )−1 AI 1 AT ) = m − tr(Em−k ) = k. (13)


D’où le résultat du théorème.
Corollaire. Sous les hypothèses du théorème
−1 d
U T (ψ(g10 , g̃2n ))Î n (ψ(g10 , g̃2n ))U(ψ(g10 , g̃2n )) → χ2k . (14)

Démonstration. Notons que


1 1
√ U(ψ(g10 , g̃2n )) = √ U(ψ(g10 , g20 )) + oP (1) =
n n
1
√ U(θ0 ) + oP (1), (15)
n
−1
nÎ n (ψ(g10 , g̃2n )) = nI −1
n (ψ(g10 , g̃2n )) + oP (1)
= I −1 −1
1 (ψ(g10 , g̃2n )) + oP (1) = I 1 (θ0 ) + oP (1). (16)

135
L’égalité U ∗ (g̃2n ) = 0, les égalités (15) et (16) impliquent
−1
U T (ψ(g10 , g̃2n ))Î n (ψ(g10 , g̃2n ))U(ψ(g10 , g̃2n ))
1 1
= √ U T (ψ(g10 , g̃2n ))I −1 1 (ψ(g10 , g̃2n )) √ U(ψ(g10 , g̃2n ))−
n n
1 1
√ U ∗ T (g̃2n )(I ∗1 )−1 (g̃2n ) √ U ∗ (g̃2n ) + oP (1) =
n n
1
√ U T (ψ(g10 , g̃2n )){I −1 1 (ψ(g10 , g̃2n ))−
n
1
AT (g̃2n )(I ∗1 )−1 (g̃2n )A(g̃2n )} √ U(ψ(g10 , g̃2n )) + oP (1) =
n
1 1 d
√ U T (θ0 ){I −1
1 (θ0 ) − AT (g0 )(I ∗1 )−1 (g20 )A(g0 )} √ U(θ0 ) + oP (1) → χ2k .
n n
Le cas particulier important est, quand

g1 (θ) = θ(1) = (θl1 , . . . , θlk ) et g2 (θ) = θ(2) = (θs1 , . . . , θsm−k )

où (l1 , . . . lk , s1 , . . . sm−k ) est une permutation de (1, . . . , m),

1 ≤ l1 ≤ . . . ≤ lk ≤ m, 1 ≤ s1 ≤ . . . ≤ sm−k ≤ m.

. Dans ce cas · ¸
∂θ
A= = [ai j ](m−k)×m ,
∂θ(2)
où ½
1, si (i, j) = (l, sl ) (l = 1, . . . , m − k),
ai j =
0, sinon.
(1) (2)
Notons que les s1 , . . . , sm−k composantes de U(θ0 , θ̃n ) sont égales à zero, car
(2) (1) (2) (1) (2) (1) (2)
0 = U ∗ (θ̃n ) = AU(θ0 , θ̃n ) = (Us1 (θ0 , θ̃n ), . . . ,Usm−k (θ0 , θ̃n ))T .

Posons
(1) (2) (1) (2) (1) (2)
U l1 ,...,lk (θ0 , θ̃n ) = (Ul1 (θ0 , θ̃n ), . . . ,Ulk (θ0 , θ̃n ))T
(1) (2)
et Ai1 ...ik (θ0 , θ̃n ) la sous-matrice de
−1 (1) (2)
Î n (θ0 , θ̃n )

étante sur intersection de l1 , . . . , lk -èmes lignes et l1 , . . . , lk -èmes colognes. Donc


(1) (2) (1) (2) (1) (2) d
U Tl1 ,...,lk (θ0 , θ̃n )Ai1 ...ik (θ0 , θ̃n )U Tl1 ,...,lk (θ0 , θ̃n ) → χ2k .

21. Exemples et remarques

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon lognormalle LN(µ, σ2 ),


1 − 1 (ln x−µ)2
Xi ∼ p(x; µ, σ2 ) = √ e 2σ2 1]0,∞[ (x), µ ∈ R1 , σ2 > 0.
xσ 2π

136
Remarqons que ln Xi suit une loi normale N(µ, σ2 ). On peut montrer que
2 /2 2
a1 = EX1 = eµ+σ , a2 = EX12 = e2µ+2σ .

D’après la méthode des moments pour estimer µ et σ2 il faut résoudre le système


( 2
eµ+σ /2 = X̄n = α1 ,
2
e2µ+2σ = n ∑i=1 Xi2 = α2 ,
1 n

ce qui est équivalent à ½


µ + σ2 /2 = ln α1 ,
µ + 2σ2 = ln α2 ,
d’où on trouve les estimateurs σ̃2n et µ̃n :
µ ¶
s2n X̄ 2
σ̃2n = ln α2 − ln α21 = ln +1 , µ̃n = ln p n ,
X̄n2 s2n + X̄n2

1 n
s2n = ∑ (Xi − X̄n)2
n i=1
est la variance de la loi empirique.
Exemple 2. Soit X = (X1 , ..., Xn )T un échantillon,
r
1 2 x2
Xi ∼ p(x; θ) = exp {− 2 }1]0,∞[ (x), x ∈ R1 , θ ∈ Θ =]0, ∞[.
θ π 2θ
On peut montrer que
r
2 π−2
EX1 = θ , EX12 = θ2 , Var X12 = θ2 .
π π
Pour estimer θ par la méthode des moments on considère l’équation
r
2
θ = X̄n ,
π
d’où on obtient l’estimateur r
π
θ̃n = X̄n .
2
Il est claire que Eθ̃n = θ, i.e. θ̃n est un estimateur sans biais pour θ, et comme
µ ¶
θ2 2
Var X̄n = 1− ,
n π
on en tire que
π θ2 ³ π ´
Var θ̃n = Var X̄n = −1 =
2 n 2
θ2 π − 2 π − 2 1
= > ,
n 2 In (θ) In (θ)

137
où µ ¶
2n ∂2 3 2 1 2n
In (θ) = 2 = −nE 2 ln p(X1 ; θ) = nE 4 X1 − 2 = 2
θ ∂θ θ θ θ
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur θ̃n n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires
√ q
√ n(X̄n − π2 θ)
n(θ̃n − θ)
q = q , n = 1, 2, ...
π−2
θ 2 θ 1 − 2
π

est asymptotiquement normale N(0, 1), quand n → ∞, i.e. pour les grandes valeurs de n
 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 .
 θ π−2 
π

Du théorème de Slutsky on tire que les variables aléatoires



n(θ̃n − θ)
q
θ̃n π−22

sont asymptotiquement normales N(0, 1) aussi, i.e.


 
 √n(θ̃ − θ) 
P qn ≤ x ≈ Φ(x), x ∈ R1 ,
 θ̃ π−2 
n 2

si les valeurs de n sont assez grandes.


Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
 
 √ 
n(θ̃n − θ)
P −x̄α/2 ≤ q ≤ x̄α/2 ≈ 1 − α,
 θ̃ π−2 
n 2

où x̄α/2 est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
( r µ ¶ r )
π−2 θ π−2
P −x̄α/2 ≤ 1− ≤ x̄α/2 ≈ 1−α
2n θ̃n 2n

et donc
( Ã r ! Ã r !)
π−2 π−2
P θ̃n 1 − x̄α/2 ≤ θ ≤ θ̃n 1 + x̄α/2 ≈ 1 − α,
2n 2n

si n est assez grand.


Exemple 3. Soit X = (X1 , ..., Xn )T un échantillon,
1
Xi ∼ f (x; θ) = 1[0,θ] (x), θ ∈ Θ =]0, ∞[,
θ

138
i.e. Xi suit la loi uniforme sur [0, θ]. Dans ce cas la fonction de vraisemblance est
n
1 1
L(θ) = L(X; θ) = ∏ 1[0,θ] (X j ) = n 1[0,θ] (X(n) ),
j=1 θ θ

puisque P{0 ≤ X(1) ≤ X(n) ≤ θ} = 1, d’où on tire que X(n) est une statistique exhaustive
minimale. Il est évident que θ̂n = X(n) .
Donc, pour estimer θ, nous pouvons utiliser la statistique θ̂n = X(n) comme estimateur
ponctuel.
Par ailleurs, comme EXi = θ/2 on en déduit que la statistique

2 n
θ∗n = 2X̄n = ∑ Xi
n i=1

peut être considérée comme un autre estimateur sans biais de θ, puisque

Eθ θ∗n = θ.

On va comparer les deux estimateurs θ̂n et θ∗n . Comme VarXi = θ2 /12, il s’ensuit que
à ! µ ¶
2 n
4 n θ2 1

Varθn = Var ∑
n i=1
Xi = 2 ∑ VarXi =
n i=1 3n
=O
n
→ 0, (n → ∞),

et donc du critère de consistance on tire que {θ∗n } converge en probabilité vers θ, i.e. {θ∗n }
est une suite consistante d’estimateurs sans biais de θ. De plus d’après le théorème central
limite on obtient que pour tout x ∈ R1
( ) (√ )
θ∗n − Eθ∗n 3n(θ∗n − θ)
Pθ p ≤ x = Pθ ≤ x → Φ(x), n → ∞, (1)
Varθ∗n θ

i.e. {θ∗n } est une suite d’estimateurs asymptotiquement normale de paramètres θ et θ/ 3n.
Étudions maintenant la statistique θ̂n = X(n) , qui est l’estimateur de maximum de vrai-
semblance de θ. Tout d’abord, on remarque que

Pθ {0 ≤ X(n) ≤ θ} = 1, θ > 0.

Pour tout t ∈ [0, θ] on a


³ t ´n
Pθ {X(n) ≤ t} = Pθ {X1 ≤ t, ..., Xn ≤ t} = = G(t; θ), (2)
θ
la densité g(t; θ) = G0 (t, θ) de X(n) est donc donnée par :

n ³ t ´n−1
g(t; θ) = G0 (t; θ) = 1[0,θ] (t),
θ θ
d’où on tire que
Zθ ³ ´n−1
n t n
Eθ X(n) = Eθ θ̂n = t dt = θ,
θ θ n+1
0

139
Zθ ³ t ´n−1
n n 2
2
Eθ X(n) = t2 dt = θ ,
θ θ n+2
0
donc
n 2 n2
Varθ X(n) = θ − θ2 =
n+2 (n + 1)2
µ ¶
n 1
θ = O 2 → 0, n → ∞.
2
(n + 2)(n + 1)2 n
On remarque que {θ̂n } est une suite consistante d’estimateurs asymptotiquement sans biais
du paramètre θ, car pour tout n ∈ N∗ le biais bn (θ) de l’estimateur θ̂n est
n θ
bn (θ) = Eθ (θ̂n − θ) = θ−θ = − →0 (n → ∞).
n+1 n+1
Le risque quadratique R(θ̂n , θ) de θ̂n est égal à

2θ2
R(θ̂n , θ) = Varθ̂n + bn (θ)2 = .
(n + 1)(n + 2)
Soit
n+1
θ∗∗
n = θ̂n , n ∈ N.
n
Comme
µ ¶
(n + 1)2 θ2 1
Eθ θ∗∗
n = θ et Varθ θ∗∗
n = Var θ θ̂n = = O ,
n2 n(n + 2) n2

n } est une suite consistante d’estimateurs sans biais du paramètre θ.


on voit que {θ∗∗
Pour trouver la loi limite de X(n) = θ̂n on remarque que pour les grandes valeurs de n,
θ2
VarX(n) ³ n2
et donc pour tout x > 0
½ ¾ n ³
θ − X(n) x ´o
Pθ 0 ≤ ≤ x = Pθ X(n) ≥ θ 1 − =
θ/n n
n ³ x ´o ³ x ´n
1 − Pθ X(n) ≤ θ 1 − = 1− 1− → 1 − e−x , (n → ∞). (3)
n n
Choisissons un coefficient de confiance P = 1 − α, où 0 < α < 0.5, et donc 0.5 < P < 1,
et, en utilisant (1) et (3), trouvons les deux quantiles x̄ α2 et yα tels que :
½ ¾

x̄ α2 θ
Pθ | θn − θ |≤ √ ≈ 1 − 2Φ(−x̄ α2 ) = P = 1 − α,
3n
( )
θ̂n
Pθ θ̂n ≤ θ ≤ ¡ yα ¢ ≈ 1 − e−yα = P = 1 − α.
1− n
On a donc construit 2 intervalles de confiance de niveaux de confiance ≈ P = 1 − α pour la
valeur inconnue θ, basés sur les estimateurs θ∗n et θ̂n :
µ ¶ µ ¶

x̄ α2 −1 ∗
x̄ α2 −1
θn 1 + √ ≤ θ ≤ θn 1 − √
3n 3n

140
et ³ yα ´−1
θ̂n ≤ θ ≤ θ̂n 1 −
n
de longueurs √
ln∗ = l(θ∗n ) ≈ 2θ∗n x̄ α2 / 3n et lˆn = l(θ̂n ) ≈ θ̂n yα /n
respectivement, d’où on tire que

ln∗ √ 2x̄ α2
≈ n√ (n → ∞),
lˆn 3yα

car θ∗n /θ̂n est très proche de 1 avec une grande probabilité. Par exemple, si α = 0.05, soit
P = 0.95, on a x̄ α2 = 1.96, yα = 2.99 et dans ce cas

ln∗ √
≈ 0.76 n.
lˆn
Remarque 2. On voit que

θ2 2θ2
R(θ∗n , θ) = Varθ∗n = , R(θ̂n , θ) = ,
3n (n + 1)(n + 2)

θ2
R(θ∗∗ ∗∗
n , θ) = Varθn = ,
n(n + 2)
d’où on tire que θ∗n et θ̂n sont des estimateurs inadmissibles pour θ par rapport à la fonction
de perte quadratique, puisque

R(θ∗∗ ∗
n , θ) < R(θn , θ), θ ∈ Θ,

et pour tout n ≥ 2
R(θ∗∗
n , θ) < R(θ̂n , θ), θ ∈ Θ.
Exemple 4. Changeons un peu le problème. Supposons que dans les conditions de l’exemple
1 on ait :
1
f (x; θ) = 1]0,θ[ (x), θ > 0,
θ
i.e. Xi suit la loi uniforme sur ]0, θ[. Alors,
n
1 1
L(θ) = ∏ 1]0,θ[ (X j ) = n 1]0,θ[ (X(n) ), θ ∈ Θ =]0, ∞[.
j=1 θ θ
n

Donc, X(n) est une statistique exhaustive, mais L(θ) n’a pas de maximum et donc, il n’existe
pas de l’estimateur du maximum de vraisemblance pour θ.
On sait d’après la définition d’un estimateur, θ∗n : Rn → Θ, qu’il faut qu’il prenne ces
valeurs dans Θ, mais ici X(n) n’appartient pas à Θ (X(n) est toujour plus petit que θ) ; par
conséquent dans cet exemple l’estimateur de maximum de vraisemblance n’existe pas. On
peut choisir θ très proche de X(n) , mais pas égal à X(n) .
Exemple 5. Donnons maintenant un exemple de non unicité de l’estimateur de maximum
de vraisemblance lié avec une loi uniforme.

141
Soit X = (X1 , ..., Xn )T ,

H0 : Xi ∼ f (x; θ) = 1[θ,θ+1] (x), θ ∈ Θ = R1 .

La fonction de vraisemblance est

L(θ) = 1[θ,θ+1] (X(1) )1[θ,θ+1] (X(n) ) = 1[X(n) −1,X(1) ] , θ ∈ Θ = R1 .

et donc T = (X(1) , X(n) )T est une statistique exhaustive minimale. On remarque que T ∈ R2 ,
tandis que θ ∈ Θ = R1 . N’importe quel θ dans l’intervalle [X(n) − 1, X(1) ] ⊂ Θ peut-être
considéré comme estimateur de maximum de vraisemblance ; en particulier

θ̂1 = X(1) ou θ̂2 = X(n) − 1.

On note que ni θ̂1 ni θ̂2 ne sont des statistiques exhaustives, mais ce sont des statistiques
nécessaires.
On remarque que c’est justement en ces deux points

θ̂1 = X(1) et θ̂2 = X(n) − 1,

que L(θ) a des ruptures (des sauts). Pour construire estimateur sans biais pour θ on peut
prendre, par exemple, la statistique

1 X(1) + X(n) − 1
θ∗n = (θ̂1 + θ̂2 ) = , Eθ∗n = θ. (4)
2 2
On peut montrer que
1
Varθ∗n = .
2(n + 1)(n + 2)
Remarque 3. En présence d’une statistique exhaustive T pour θ l’estimateur de maximum
de vraisemblance θ̂n = θ̂n (T ) est donc une statistique nécessaire.
Remarque 4. Soit X = (X1 , X2 , . . . , Xn )T un échantillon, dont la réalisation observée est
x = (x1 , x2 , . . . , xn )T . Notre problème est de construire une loi empirique, en utilisant le
vecteur des données x et le principe du maximum de vraisemblance. Comme les éléments
Xi de l’échantillon X sont indépendants, on peut écrire que
n
\
{X1 = x1 , X2 = x2 , . . . , Xn = xn } = {Xi = xi },
i=1
donc
" #
n
\ n
P{X1 = x1 , X2 = x2 , . . . , Xn = xn } = P {Xi = xi } = ∏ P{Xi = xi }.
i=1 i=1

Pour construire une loi empirique il faut choisir les probabilités

pi = P{Xi = xi } ≥ 0, i = 1, 2, . . . , n,

telles que
p1 + p2 + . . . + pn = 1, pi ≥ 0.

142
Le principe du maximum de vraisemlance nous dit qu’il faut choisir les pi de façon que le
produit
n
∏ pi
i=1
soit maximal. Comme
à !1/n
n
1 n n
∏ pi ≤ ∑
n i=1
pi et ∑ pi ≤ 1,
i=1 i=1

on en déduit que
à !1/n
n
1
∏ pi ≤ ,
n
i=1

et donc
n µ ¶n
1
∏ pi ≤ n ,
i=1
d’où on trouve que notre solution est

1
p1 = p2 = . . . = pn = ,
n
et c’est donc la loi empirique classique qui donne la meilleure solution au sens du principe
de maximum de vraisemblance.

Remarque 5. (Principe d’invariance de l’estimateur de maximum de vraisemblance).


Soit θ̂n l’estimateur de maximum de vraisemblance de θ, θ ∈ Θ ⊂ Rn . Supposons que
nous voulions estimer la valeur g(θ) d’une application g : Θ → G ⊂ R1 . Dans ce cas

ĝ = g(θ̂n ) (5)

est l’estimateur de maximum de vraisemblance pour g(θ) .


Par exemple, si
1 n
s2n = ∑ (Xi − X̄n )2
n i=1

est l’estimateur du maximum de vraisemblance pour la variance σ2 de la loi normale


N(µ, σ2 ), quand µ et σ2 sont inconnus, alors
s
1 n
sn = ∑ (Xi − X̄n)2
n i=1

est l’estimateur de maximum de vraisemblance pour σ.


Pour démontrer (29), notons

Θ g = {θ : θ ∈ Θ , g(θ) = g}, g ∈ G,

143
i.e. Θ g est l’orbite de l’application g(θ), correspondant à une valeur g de g(θ). Il est évident
que {Θ Θg } est une partition de Θ ,
[
Θg = Θ, /
Θ g0 ∩ Θ g = 0.
g∈G

Soit
Lg = sup L(θ), g ∈ G.
θ∈ΘΘg

Il est évident que


L(θ̂n ) = sup L(θ) = sup sup L(θ) = sup Lg .
θ∈Θ
Θ g∈G θ∈Θ
Θg g∈G

Choisissons
ĝ = g(θ̂n ), ĝ ∈ G,
et considérons l’orbite Θ ĝ , θ̂n ∈ Θ ĝ .
Comme pour tout g ∈ G
sup Lg ≥ Lg
g∈G

et, en particulier,
sup Lg ≥ Lĝ = sup L(θ) = L(θ̂n ),
g∈G θ∈ΘΘĝ

on en tire que L(θ̂n ) = Lĝ , et donc (29) est démontrée.


Exemple 5. Soit X = (X1 , . . . , Xn )T un échantillon

Xi ∼ f (xi ; θ) = θxi (1 − θ)1−xi , xi ∈ X = {0, 1}, 0 < θ < 1.

Supposons que nous voulions estimer g(θ) = 1/θ. Kolmogorov a montré que parmi les
fonctions de θ, seuls les polynômes
m
um (θ) = ∑ ak θk , θ ∈ Θ =]0, 1[, 1 ≤ m ≤ n,
k=1

de degré m ≤ n, sont estimables, c’est-à-dire peuvent être estimés à l’aide d’estimateurs


n
sans biais en termes de la statistique exhaustive µn = ∑ Xi . Comme g(θ) = 1/θ n’est pas
i=1
un polynome, il n’existe pas d’estimateur sans biais pour 1/θ. Mais comme l’estimateur de
maximum de vraisemblance θ̂n = µn /n existe pour θ, du principe du maximum de vraisem-
blance on tire que
n
Tn = g(θ̂n ) =
µn
est l’estimateur de maximum de vraisemblance pour 1/θ. On remarque que Eθ Tn n’existe
pas puisque
Pθ {µn = 0} = (1 − θ)n > 0.
Par ailleurs, comme nous estimons g(θ) = 1/θ, la borne inférieure dans l’inégalité de Rao-
Cramer-Fréchet est égale à

[g0 (θ)] θ(1 − θ) 1 − θ


= = ,
In (θ) θ4 n nθ3

144
et donc µ ¶
1 1−θ
Tn ∼ AN , ,
θ nθ3
i.e. pour tout x ∈ R1 s 
 nθ3 µ n 1 ¶ 
Pθ − ≤ x → Φ(x).
 1 − θ µn θ 

Exemple 6. Soit X = (X1 , ..., Xn )T un échantillon normale,

Xi ∼ N(θ, θ), θ ∈ Θ =]0, ∞[.

Considérons le problème d’estimation du paramètre θ dans ce modèle. On remarque que

θ = EXi = Var Xi .

Dans ce cas la fonction de vraisemblance est


n ½ ¾
1 1
L(θ) = L(X, θ) = ∏ exp − 2θ (Xi − θ) =
(2πθ)n/2 i=1
2

( )
1 1 n 2 n nθ
exp − ∑ Xi + ∑ Xi − =
(2πθ)n/2 2θ i=1 i=1 2
( )
1 1 n 2 nθ n

(2πθ)n/2
exp − ∑ i 2
2θ i=1
X − exp { ∑ Xi},
i=1

d’où on tire que la statistique


n
Tn = ∑ Xi2
i=1
est exhaustive et minimale pour θ. Il est intéressant de noter que la statistique
n
∑ Xi = nX̄n
i=1

n’est pas une statistique exhaustive dans notre problème ! Puisque L(θ) > 0 pour tout θ ∈ Θ
et
lim L(θ) = lim L(θ) = 0,
θ↓0 θ→∞

on en tire que l’estimateur du maximum de vraisemblance θ̂n de θ est la racine positive de


l’équation du maximum de vraisemblance Λ(θ) = 0, où

∂ n Tn n
Λ(θ) = ln L(θ) = − + 2 − .
∂θ 2θ 2θ 2

Donc θ̂n est la racine positive de l’équation

1
θ2 + θ − Tn = 0,
n

145
i.e. r
1 1 1
θ̂n = − + + Tn .
2 4 n
P
Il est facile de vérifier que {θ̂n } → θ. En effet, d’après la loi des grands nombres
1 P
Tn → Eθ X12 = Var θ X1 + (Eθ X1 )2 = θ + θ2 ,
n
d’où, en utilisant le théorème de Slutsky, on tire que
r
P 1 1 1 1
θ̂n → − + + θ + θ2 = − + + θ = θ.
2 4 2 2

Remarque 6. Soit X = (X1 , X2 , . . . , Xn )T un échantillon, Xi suit la loi, dont la densité f (x; θ)


appartient à la famille F = { f (x; θ)}, où
( )
n
f (x; θ) = h(x) exp ∑ θk xk +V (θ) , x ∈ X, (2.7)
k=1

θ = (θ1 , θ2 , . . . , θs )T ∈ Θ ⊂ Rs , X est un ensemble borelien en R1 . La famille (6) est tres


riche. Par exemple, la famille des disributions normales N(µ, σ2 ), θ = (µ, σ2 )T , appartient à
F , la famille des distributions de Poisson appartient à F aussi etc. Comme il est connu la
statistique
à !T
n n n
Un = ∑ Xi, ∑ Xi2 , . . . , ∑ Xis
i=1 i=1 i=1

est exhaustive pour la famille (6).


Supposons que
1) l’ensemble X ne dépend pas de paramètre θ ;
2) la matrice de Hessen ° 2 °
° ∂ °
−°
° ∂θi ∂θ j V (θ)°
°
s×s
de la fonction V (θ) est positivement définie sur Θ ;
3) il existe le moment as = Eθ X1s .
Dans ce cas
−gradV (θ) = a(θ) = (a1 (θ), a2 (θ), . . . , as (θ))T ,
1
et donc la statistique T = U n est le meilleur estimateur sans biais pour a(θ), i.e.
n
Eθ T n = a(θ),

ce qui nous permet d’estimer θ (trouver l’estimateur θ∗n par la méthode des moments de
façon unique de l’équation T n = a(θ) dans les termes de la statistique exhaustive Un ).
De l’autre coté les conditions 1)–3) sont suffisantes (voir, par exemple, Zacks, 1971) pour
l’existence de l’estimateur du maximum de vraisemblance θ̂n :
n
L(θ̂) = sup L(θ), où L(θ) = ∏ f (Xi , θ),
θ∈Θ i=1

146
et pour la famille (6) l’estimateur θ̂n est la racine unique de la même équation T n = a(θ),
et donc de ce fait on tire que pour la famille exponentielle (6) la méthode du maximum
de vraisemblance et la méthode des moments donnent le même estimateur θ∗n = θ̂n pour le
paramètre θ.
Exemple 7. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit la loi normale N(µ, σ2 ), θ =
(µ, σ2 )T . Dans ce cas la statistique
¡ ¢T
θ̂n = X̄n , s2n

est l’estimateur du maximum de vraisemblance pour θ et elle-même nous donne l’estima-


teur par la méthode des moments.
Exemple 8. Soit X = (X1 , . . . , Xn )T un échantillon, Xi suit la loi de Poisson de paramètre
θ, θ ∈ Θ =] − ∞, +∞[ :

θk −θ
Pθ {Xi = k} = e , k = 0, 1, 2, . . . .
k!
n
Dans ce cas la statistique ∑ Xi est exhaustive pour le paramètre θ et donc la moyenne X̄n
i=1
de la loi empirique est le meilleur estimateur sans biais pour θ et en même temps X̄n est
l’estimateur du maximum de vraisemblance pour θ.
Exemple 9. On a n expériences indépendantes de Bernoulli avec trois états possibles
S S T
E1 , E2 , E3 , E1 E2 E3 = Ω, Ei E j = 0, / dont les probabilités sont

 P(E1 ) = p1 (θ) = θ,
P(E2 ) = p2 (θ) = 2θ,

P(E3 ) = p3 (θ) = 1 − 3θ,

où 0 < θ < 1/3. Trouver l’estimateur du maximum de vraisemblance θ̂n pour θ.


Solution. Soit ν = (ν1 , ν2 , ν3 )T le vecteur des fréquences observées, n = ν1 + ν2 + ν3 - le
nombre des épreuves. Comme la distribution du vecteur ν est trinomiale des paramètres n
et p = (p1 , p2 , p3 )T , pi = pi (θ), la fonction de vraisemblance L(θ) est
n! n!
L(θ) = pν11 pν22 pν33 = θν1 (2θ)ν2 (1 − 3θ)ν3 , (7)
ν1 !ν2 !ν3 ! ν1 !ν2 !ν3 !
et donc
ln L(θ) = const + (ν1 + ν2 ) ln θ + ν3 ln (1 − 3θ).
Par conséquent l’équation de vraisemblance
d ln L(θ)
Λ(θ) = =0 (8)

s’écrit de la façon suivante :
d ln L(θ) ν1 + ν2 3ν3
Λ(θ) = = − = 0,
dθ θ 1 − 3θ
d’où l’on tire l’équation
ν1 + ν2 3ν3
= ,
θ 1 − 3θ

147
dont la racine θ̂n est
ν1 + ν2
θ̂n = .
3n
On a trouvé l’estimateur du maximum de vraisemblance θ̂ et donc

 p̂1 = p1 (θ̂n ) = θ̂n ,
p̂ = p2 (θ̂n ) = 2θ̂n ,
 2
p̂3 = p3 (θ̂n ) = 1 − 3θ̂n ,

sont les estimateurs du maximum de vraisemblance de pi (θ), i = 1, 2, 3.


En général pi = pi (θ) sont des fonctions de θ plus compliqées et dans ce cas l’équation de
vraisemblance (8) n’est pas si facile à résoudre. Par exemple, dans notre cas, que l’on vient
de considérer, on a
d ln L(θ) p0 (θ) p0 (θ) p0 (θ)
Λ(θ) = = ν1 1 + ν2 2 + ν3 3 = 0. (9)
dθ p1 (θ) p2 (θ) p3 (θ)
Comme
p1 (θ) + p2 (θ) + p3 (θ) ≡ 1,
on a
p01 (θ) + p02 (θ) + p03 (θ) ≡ 0 et p001 (θ) + p002 (θ) + p003 (θ) ≡ 0,
et de (1) on tire que
d2
ln L(θ) =
dθ2
" µ 0 ¶ # " µ 0 ¶ # " µ 0 ¶ #
p001 (θ) p1 (θ) 2 p002 (θ) p2 (θ) 2 p003 (θ) p3 (θ) 2
ν1 − + ν2 − + ν3 − .
p1 (θ) p1 (θ) p2 (θ) p2 (θ) p3 (θ) p3 (θ)

Pour trouver une bonne aproximation de la racine θ̂n de l’équation (9), nous pouvons appli-
quer la procédure suivante (the scoring method of Fisher). Soit
νi
p̂i = , i = 1, 2, 3, (10)
n
les estimateurs de maximum de vraisemblance pour des probabilités pi (θ). Parmi ces trois
équations pi (θ) = p̂i (par rapport à θ) on choisit la plus simple d’où l’on tire la solution
θ̂0n , que l’on peut prendre comme approximation initiale pour l’estimateur du maximum de
vraisemblance θ̂n . Comme dans notre cas l’information de Fisher
½ 2 ¾
d
In (θ) = −E ln L(θ)
dθ2
est égale à " ¡ 0 ¢2 #
(p01 (θ))2 (p02 (θ))2 p3 (θ)
In (θ) = n + + ,
p1 (θ) p2 (θ) p3 (θ)

on trouve une nouvelle approximation θ̂1n , qui est donnée par la formule suivante :
¯
1 d ln L(θ) ¯¯
θ̂1n = θ̂0n + . (11)
In (θ̂0n ) dθ ¯θ=θ̂0n

148
On peut montrer que l’estimateur θ̂1n est asymptotiquement équivalent à l’estimateur du
maximum de vraisemblance θ̂n , c’est-à-dire si n → ∞, alors
p ¡ ¢
In (θ) θ̂1n − θ

suit dans la limite la loi normale de paramètre 0 et 1,


np ¡ ¢ o
lim In (θ) θ̂1n − θ < x = Φ(x).
n→∞

Par exemple, soit p = (p1 , p2 , p3 , p4 )T , où




 p1 = p1 (θ) = 2θ,

p2 = p2 (θ) = 0.5 − 4θ,

 p3 = p3 (θ) = 0.5 + θ,

p4 = p4 (θ) = θ.

Il est clair que 0 ≤ θ ≤ 1/8. Comme la fonction de vraisemblance L(θ) est égale à
n!
L(θ) = pν1 pν2 pν3 pν4 =
ν1 !ν2 !ν3 !ν4 ! 1 2 3 4
n!
(2θ)ν1 (0.5 − 4θ)ν2 (0.5 + θ)ν3 θν4 =
ν1 !ν2 !ν3 !ν4 !
n!2ν1
θν1 +ν4 (0.5 − 4θ)ν2 (0.5 + θ)ν3
ν1 !ν2 !ν3 !ν4 !
et donc on trouve que la statistique T = (ν1 + ν4 , ν2 , ν3 )T est exaustive pour le paramètre
θ. Supposons que n = 1000 et que l’on ait observé

ν1 = 195, ν2 = 110, ν3 = 590, ν4 = 105.

Notons

q1 = p1 + p4 , q2 = p2 , q3 = p3 et µ1 = ν1 + ν4 , µ2 = ν2 , µ3 = ν3 .

Avec ces notations la fonction de vraisemblance L(θ) peut s’écrire de la manière suivante :

L(θ) = const(3θ)µ1 (0.5 − 4θ)µ2 (0.5 + θ)µ3 ,

d’où l’on déduit

ln L(θ) = ln (const) + µ1 ln θ + µ2 ln (0.5 − 4θ) + µ3 ln (0.5 + θ),

d ln L(θ) µ1 4µ2 µ3
= − +
dθ θ 0.5 − 4θ 0.5 + θ
et donc on obtient l’équation du maximum de vraisemblance

µ1 (0.5 − 4θ)(0.5 + θ) − 4µ2 θ(0.5 + θ) + µ3 θ(0.5 − 4θ) = 0,

qui est équivalente à la suivante :

160θ2 + 15θ − 3 = 0,

149
dont les solutions θ1 et θ2 sont données par les formules suivantes :
√ √
−15 + 225 + 160 ∗ 12 −15 − 225 + 160 ∗ 12
θ1 = et θ1 = .
320 320
Comme 0 < θ < 1/8, on en déduit que l’estimateur du maximum de vraisemblance θ̂n est
égale à θ1 et donc on obtient que
−15 + 46.31 ∼
θ̂n = θ1 = = 0.0978.
320
Comme
d2 µ1 16µ2 µ3
ln L(θ) = − 2 − − ,
dθ2 θ (0.5 − 4θ)2 (0.5 + θ)2
et Eµi = nqi , on trouve que
½ 2 ¾ · ¸
d 3θ 16 1
In (θ) = −E ln L(θ) = n 2 + + =
dθ2 θ 0.5 − 4θ 0.5 + θ
· ¸
3 32 2
n + + .
θ 1 − 8θ 1 + 2θ
Comme on l’a déjà noté la variable aléatoire

θ̂ − θ p
qn = In (θ)(θ̂n − θ)
1
In (θ)

suit à la limite quand n → ∞ la loi normale N(0, 1). Du théorème de Cramer on déduit que
q
θ̂ − θ
qn = In (θ̂n )(θ̂n − θ)
1
In (θ̂n )

suit aussi à la limite la loi normale N(0, 1).


Nous pouvons aussi utiliser le scoring méthode de Fisher pour trouver un estimateur de
θ. Si on prend θ̂0 ∼
= 0.1 comme approximation initiale, on trouve
1150000
In (θ̂0 ) =
6
et donc en utilisant la formule (35)
¯
1 d ln L(θ) ¯¯
θ̂1n = θ̂0 + ,
In (θ̂0 ) dθ ¯θ=θ̂0

on trouve que
· ¸
6 440 590
θ̂1n = 0.1 + 300 − + = 0.1 − 0.0022 = 0.0978 = θ̂n .
1150000 0.1 0.6

Admettons que quelqu’un suppose θ = 0.11. Avec quelle certitude peut-on affirmer
d’après les données observées que θ = 0.11 ?

150
Comme nous le savons
½q q ¾ · µ q ¶¸
P ∼
In (θ̂n )|θ̂n − θ| > 0.0121 In (θ̂n ) = 2 1 − Φ 0.0121 In (θ̂n ) =

2 [1 − Φ(5.297)] = 5 · 10−7 ,
ce qui nous permet d’affirmer l’invraisemblance que θ = 0.11.

2.19 Decomposition orthogonale de Fisher

Supposons que les résultas d’une expérience soient présentés par la matrice

A = kai j k, i ∈ I = {1, . . . , I}; j ∈ J = {1, . . . , J}.

Les valeurs observées ai j nous pouvons considérer comme les valeurs a(i, j) d’une
fonction a(·, ·), déterminée sur l’ensemble I ? J. On peut poser une question : est ce que
la fonction a(·, ·) est constante,

a(i, j) = ai j = const = a.. , (1)

ou peut-être c’est une fonction d’une variable, par exemple i,et qui prend les valeurs ai. :

a(i, j) = ai. = a.. + αi. , (2)


αi. = ai. − a.. , (3)
ou peut-être c’est une fonction présentée comme la somme de deux fonctions d’une variable
chacune
a(i, j) = ai j = ai. + a. j − a.. = a.. + αi. + α. j ,
avec α. j = (a. j − a.. ), ou peut-être c’est une fonction de deux variables avec une interaction
entre les arguments i et j :

a(i, j) = ai j = a.. + αi. + α. j + αi j , (4)


αi j = ai j − ai. − a. j + a.. . (5)
Toutes ces questions sont importantes si nous voulons construire une approximation pour la
fonction a(·, ·) et suivant l’information que nous avons nous pouvons proposer la meilleur
approximation dans un certain sense.
Nous pouvons toujours compter que nous avons une fonction qui est présentée par la
formule (’) et donc il nous faut faire le meilleur choix des constantes, en utilisant des don-
nées.
Si nous avons la fonction de deux variables, alors il se peut qu’il soit intéressant de
l’approximer par une fonction d’une variable ou par la somme de deux fonctions d’une

151
variable chacune, avec ou sans interactions. On cherchera l’approximation dans le sens de
moindres carrés :
I J
∑ ∑ (ai j − α)2 → min . (6)
i=1 j=1

Le premier à avoir considéré ce problème en statistique est Sir R.Fisher qui a proposé de
choisir les constantes suivantes :
J
1 1 I
ai. =
J ∑ ai j , a. j = ∑ ai j ,
I i=1
(7)
j=1

1 I J 1 J
1 I
a.. = ∑ ∑ ai j = ∑ a. j = I ∑ ai.. (8)
IJ i=1 j=1 J j=1 i=1

Donc dans le cas où nous cherchons la meilleure approximation par la fonction d’une va-
riable, par exemple qui ne dépend que de i, d’après Fisher il faut choisir α = ai. . Si nous
cherchons une approximation par la somme de deux fonction d’une variable chacune sans
leurs interactions, alors il nous faut choisir

α = ai. + a. j − a.. = a.. + (ai. − a.. ) + (a. j − a.. ), (9)

etc. On fait ce problème de la même façon dans le cas continue. Par exemple, on peut
introduire
ZI ZJ ZJ
1 1
a.. = a(i, j)did j, ai. = a(i, j)d j, (10)
IJ I
0 0 0

i ∈ I = [0, I], j ∈ J = [0, J].


On peut généraliser les résultats de Fisher pour le cas de l’espace de plus haute dimen-
sion. Notons
[ai j ] = (a11 , a12 , ..., a1J , a21 , ..., a2J , ..., aI1 , ..., aIJ )T
le vecteur-colonne de dimension IJ, [ai j ] ∈ RIJ , c’est-à-dire tous les éléments de la ma-
trice A sont présentés en forme d’un vecteur de RIJ , et soit [a.. ] le vecteur de même espace
RIJ , dont tous les éléments sont égaux à a.. . Nous pouvons dire que

[a.. ] = a.. 1IJ , où 1IJ = (1, 1, . . . , 1)T ∈ RIJ . (11)

Dans ce cas nous pouvons écrire que

[ai j ] = [a..] + [ai j − a.. ], where [ai j − a.. ] = [ai j ] − [a.. ]. (12)

Soit L1 est le sousespace linéaire engendré par le vecteur [a.. ], L1 ⊂ RIJ . Par les calcules
directes on peut montrer, en utilisant les formules (6) et (7), que les vecteurs [a.. ] et [ai j −a.. ]
sont orthogonaux, c’est-à-dire
[a.. ]T [ai j − a.. ] = 0, (13)
et donc le vecteur [ai j − a.. ] ∈ LIJ−1 et le sousespace
LIJ−1 = RIJ ª L1
est ortogonale à L1 ,
RIJ = L1 ⊕ LIJ−1 , (14)

152
et de cette façon on a montré que la fonction a.. donne la meilleure (dans le sens (6))
approximation de notre fonction a(i, j) par la constante.
Maintenant on considère le second problème : quelle fonction d’une variable, par exemple
i, donne la meilleure approximation pour [ai j − a.. ] ∈ LIJ−1 . On a l’identité

[ai j − a.. ] = [ai. − a.. ] + [ai j − ai. ], (15)

d’où on déduit que si nous voulons construire une approximation qui ne dépend que de j,
par exemple, alors on revient de nouveau au problème précédent, car les vecteurs

[ai. − a.. ] = [ai. ] − [a.. ] et [ai j − ai. ] = [ai j ] − [ai. ] (16)

sont orthogonaux :
[ai. − a.. ]T [ai j − ai. ] = 0. (17)
On note que
[ai. ] = (a1. , ..., a1. , a2. , ..., a2. , ..., aI. , ..., aI. )T ∈ RIJ
and
[a. j ] = (a.1 , ..., a.1 , a.2 , ..., a.2 , ..., a.J , ..., a.J )T ∈ RIJ .
On remarque que
I J
∑ (ai. − a..) = 0, ∑ (a. j − a..) = 0.
i=1 j=1

Puisque pour tout i fixé, i ∈ I,


J
∑ (ai j − ai.) = 0, (18)
j=1


J
1
ai. =
J ∑ ai j ,
j=1

on en déduit que

[ai. − a.. ] ∈ LI−1 et [ai j − ai. ] ∈ LIJ−I = LI(J−1) , (19)

et que les sousespaces LI−1 et LI(J−I) sont orthogonaux :

LI−1 ⊕ LI(J−1) = LIJ−1 , (20)

et que
L1 ⊕ LI−1 ⊕ LI(J−1) = RIJ (21)
Si nous avançons plus loin de la même façon on obtient sur le pas suivant l‘identité

[ai j − ai. ] = [a. j − a.. ] + [ai j − ai. − a. j + a.. ], (22)


[a. j − a.. ] ∈ LJ−1 (23)
et
[a. j − a.. ]T [ai j − ai. − a. j + a.. ] = 0. (24)

153
Mais comme
[ai j − ai. − a. j + a.. ] ∈ LIJ−I−J+1 = L(I−1)(J−1) , (25)
de (6), (9), (14)-(17) et (19) on déduit que

RIJ = L1 ⊕ LI−1 ⊕ LJ−1 ⊕ L(I−1)(J−1) , (26)

c’est-à-dire on a reçu la décomposition de RIJ en somme directe de quatre sousespaces


orthogonaux, et donc la décomposition de Fisher n’est que la projection du vecteur des
données [ai j ] ∈ RIJ sur ces sousespaces. De plus nous pouvons dire que la décomposition
orthogonale de Fisher

[ai j ] = [a.. ] + [ai. − a.. ] + [a. j − a.. ] + [ai j − ai. − a. j + a.. ], (i = 1, . . . , I; j = 1, . . . , J)

ne dépend que de IJ coefficients, et non pas de 1 + I + J + IJ. En plus du Théorème de


Pythagore on obtient l’identité suivante :

k[ai j ]k2 = k[a.. ]k2 + k[ai. − a.. ]k2 + k[a. j − a.. ]k2 + k[ai j − ai. − a. j + a.. ]k2 ,

d’où on tire l’identité de Fisher :


I J I J I J
∑∑ a2i j = IJa2.. + J ∑ (ai. − a..) 2
+ I ∑ (a. j − a.. ) + ∑ 2
∑ (ai j − ai. − a. j + a..)2.
i=1 j=1 i=1 j=1 i=1 j=1

On utilise ce fait pour faire un analyse de variances.

2.20 Modèle d’analyse des variances à 2 facteurs.

Suposons que sous l’hypothèse H0 on a le modèle de régression d’après lequel


on a I × J × K observation sont indépendantes

Yi jk = µ + αi + β j + γi j + δi jk ,

i = 1, 2, ..., I; j = I, 2, ..., J; k = 1, 2, ..., K,


où µ, αi , β j , γi j sont des constantes inconnues, et

δi jk ∼ N(0, σ2 ).

On note Y = (Y111 , ...,YIJK )T le vecteur d’observation, Y ∈ RIJK . On suppose que I ≤ J.


Dans le cadre de ce modèle il faut estimer les paramètres suivants :

µ, α = (α1 , ..., αI )T , β = (β1 , ..., βJ )T , γ = ||γi j ||I×J and σ2 .

On note
1 I 1 J
α. = ∑ αi,
I i=1
β. =
J ∑ β j,
j=1

154
J
1 1 I
γi. =
J ∑ γi j , ( j = 1, 2, ..., J); γ. j = ∑ γi j ,
I i=1
( j = 1, 2, ..., J);
j=1
J I
1
γ.. =
IJ ∑ ∑ γi j .
j=1 i=1
On suppose sans perdre la gènèralitè que

α. = β. = γi. = γ. j = γ.. = 0, (i = 1, 2, ..., I; j = 1, 2, ..., J).

Pour tout i et pour tout j on note

1 K
Xi j = Yi j. = ∑ Yi jk = (1T 1)−1 1T Yi j ,
K k=1


Yi j = (Yi j1 , ...,Yi jK )T , 1 = 1K = (1, 1, ..., 1)T ∈ RK .
Notons
X = (X11 , ..., XIJ )T , X ∈ RIJ ,
où Xi j = Yi j. , (i = 1, 2, ..., I; j = 1, 2, ..., J). Il est claire que sous H0

σ2
Xi j = µ + αi + β j + γi j + δi j. , δi j. ∼ N(0, ),
K
parce que
EYi jk = µ + αi + β j + γi j , k = 1, 2, ..., K,
et donc sous H0 pour tout k fixè la fonction de vraisemblance pk (µ, α, β, γ, σ2 ) du vector
(Y11k , ...,YIJk )T est donnée par la formule suivante :
( )
J I (Y − µ − α − β − γ )2
1
exp − ∑ ∑
i jk i j i j
pk (µ, α, β, γ, σ2 ) = .
(2πσ2 )IJ/2 j=1 i=1 2σ2

Puisque sous H0 les variables δi jk sont indèpendantes et suivent la même loi normale
N(0, σ2 ) on en tire que la fonction de vraisemblance du vector d’observations Y est
( )
J I K (Y − µ − α − β − γ )2
1
exp − ∑ ∑ ∑
i jk i j i j
L(µ, α, β, γ, σ2 ) = =
(2πσ2 )IJK/2 j=1 i=1 k=1 2σ2
½ ¾ ( )
J I
1 −SCint −K
(2πσ )
2 IJK/2
exp
2σ2
exp
2σ2 ∑ ∑ (Xi j − µ − αi − β j − γi j )2 ,
j=1 i=1

J I K J I K
SCint = ∑ ∑ ∑ (Yi jk − Xi j )2 = ∑ ∑ ∑ (Yi jk −Yi j.)2.
j=1 i=1 k=1 j=1 i=1 k=1

On voit que la statistique (SCint , X)T est exhaustive pour (µ, α, β, γ, σ2 )T , et que SCint et
X = (X11 , ..., XIJ )T sont indèpendantes. Il est èvident que sous HO

SCint σ2
= χ2(K−1)IJ et Xi j ∼ N(µ + αi + β j + γi j ; ).
σ 2 K

155
En utilisant la dècomposition orthogonale de Fisher on a

Xi j = X.. + (Xi. − X.. ) + (X. j − X.. ) + (Xi j − Xi. − X. j + X.. )

et

kXk2 = k[Xi j ]k2 = k[X.. ]k2 + k[Xi. − X.. ]k2 + k[X. j − X.. ]k2 + k[Xi j − Xi. − X. j + X.. ]k2 ,

d’où on tire l’identité de Fisher Phytagore :


I J I J I J
∑∑ Xi2j = IJX..2 + J ∑ (Xi. − X..) 2
+ I ∑ (X. j − X.. ) + ∑
2
∑ (Xi j − Xi. − X. j + X..)2.
i=1 j=1 i=1 j=1 i=1 j=1

Maintenant nous pouvons prèsenter L(µ, α, β, γ, σ2 ) par la façon suivante :


½ ¾
1 −SCint
L(µ, α, β, γ, σ ) =
2
exp ×
(2πσ2 )IJK/2 2σ2
( "
I J
−K
exp
2σ2
IJ(X .. − µ)2
+ J ∑ i. .. i
(X − X − α )2
+ I ∑ (X. j − X.. − β j )2+
i=1 j=1
#)
I J
∑ ∑ (Xi j − Xi. − X. j + X.. − γi j )2 ,
i=1 j=1

d’où on obtient les meilleurs estimateurs sans biais (au sens du minimum de risk quadra-
tique) pour µ, αi , β j , γi j :

µ̂ = X.. , α̂i = Xi. − X.. , β̂ j = X. j − X.. , γ̂i j = Xi j − Xi. − X. j + X.. .

Pour estimer σ2 il faut utiliser la relation


SCint
= χ2(K−1)IJ ,
σ2
qui nous donne l’estimateur
J I K
1 1
σ̂2 =
IJ(K − 1)
SCint =
IJ(K − 1) ∑ ∑ ∑ (Yi jk − Xi j )2.
j=1 i=1 k=1

Comme nous avons dit nous avons construit MVUE’s (voir, Voinov and Nikulin (1996))
puisque
Eµ̂ = EX.. = µ, Eα̂i = αi , Eβ̂ j = β j ,
Eγ̂i j = γi j , Eσ̂2 = σ2 .
On considère ici les sommes de carrés suivantes :
I J
SCentα = KJ ∑ (Xi. − X.. )2 , SCentβ = KI ∑ (X. j − X.. )2 ,
i=1 j=1

I J
SCinter = K ∑ ∑ (Xi j − Xi. − X. j + X..)2.
i=1 j=1

156
On note aussi
J I K J I K
SCtot = ∑∑ ∑ (Yi jk −Y...)2 = ∑ ∑ ∑ (Yi jk − X..)2,
j=1 i=1 k=1 j=1 i=1 k=1


J I K
1
Y... = X.. =
IJK ∑ ∑ ∑ Yi jk .
j=1 i=1 k=1

Dans ce cas on a la relation suivante entre ces sommes de carrés :

SCtot = SCint + SCentα + SCentβ + SCinter .

On remarque que les statistiques SCint , SCentα , SCentβ , SCinter sont indépendantes.
On considère les trois hypoths̀es suivantes :

H0α : α1 = α2 = ... = αI = 0,

H0β : β1 = β2 = ... = βJ = 0,
H0γ : γ1 = γ2 = ... = γIJ = 0.
On remarque que

si H0α est vraie, alors


SCentα
= χ2I−1 ,
σ 2

si H0β est vraie, alors


SCentβ
= χ2J−1 ,
σ2
si H0γ est vraie, alors
SCinter
= χ2(I−1)(J−1) .
σ2
Pour tester H0α on calcule la statistique

IJ(K − 1)SCentα
= FI−1,IJ(K−1) .
(I − 1)SCint

Pour tester H0β on calcule la statistique

IJ(K − 1)SCentβ
= FJ−1,IJ(K−1) .
(J − 1)SCint

Pour tester H0γ on calcule la statistique

IJ(K − 1)SCinter
= F(I−1)(J−1),IJ(K−1) .
(I − 1)(J − 1)SCint

Exemple 1. Analyse de variance à un facteur. On suppose que l’on a mesuré les


diamètres de 5 billes. Pour chaque bille on a répété 5 fois les mesures. On considère l’hy-
pothèse H0 selon laquelle

157
1) les 5 valeurs (inconnues) des diamètres de ces 5 billes sont des réalisations de 5
variables aléatoires qui sont indépendantes et suivent la même loi normale N(a, σ2o ).
2) toutes les mesures sont indépendantes, de même précision et sans biais.
3) les erreurs aléatoires de ces mesures suivent la même loi normale N(0, σ2 ), dont la
variance σ2 est inconnue.
La Table nous donne les résultats suivants pour des mesures (en mm). On note xi j la
j-ème mesure de la bille avec le numéro i, et xi. la valeur moyenne des mesures pour ce
sujet.

Numéro SUJETS
des mesures 1 2 3 4 5
1 12.093 11.996 12.017 12.023 11.900
2 12.097 11.995 12.012 12.026 11.893
3 12.096 11.990 12.014 12.028 11.896
4 12.094 11.991 12.017 12.028 11.899
5 12.100 11.998 12.010 12.021 11.898

Table 1

Il nous faut trouver les meilleurs estimateurs sans biais des valeurs inconnues des dia-
mètres des billes, de a, σ2o et σ2 , et aussi des surfaces des sections de ces 5 billes.
Tout d’abord il faut construire la fonction de vraisemblance. Il est clair, que nous pou-
vons considérer le résultat xi j de la j-ème mesure de la bille i comme la réalisation d’une
variable aléatoire Xi j , où
Xi j = a + δi + δi j , i = 1, 2, . . . , I; j = 1, 2, . . . , J. (1)
Les éléments δ1 , δ2 , . . . , δI du vecteur δ = (δ1 , δ2 , . . . , δI )T et δi j de la matrice ∆ = kδi j k
sont indépendants, δi suit la loi normale N(0, σ2o ), δi j suit la loi normale N(0, σ2 ), les
paramètres a, σ2o et σ2 sont inconnus.
Notons
1 J 1 I J 1 I
Xi. = ∑ Xi j , X.. = ∑ ∑ Xi j = ∑ Xi. , (2)
J j=1 IJ i=1 j=1 I i=1
On remarque que dans notre cas
X1. = 12.0960, X2. = 11.9920, X3. = 12.0140,
X4. = 12.0252, X5. = 11.8972, X.. = 12.00488.
De plus notons
J I J I
1 1 1
δi. =
J ∑ δi j , δ.. = IJ ∑ ∑ δi j , δ. = I ∑ δi. (3)
j=1 i=1 j=1 i=1
Dans ce cas, l’observation Xi j peut-être représentée comme
Xi j = X.. + (Xi. − X.. ) + (Xi j − Xi. ) (4)
et nous pouvons remarquer que
Xi. = a + δi + δi. ,
X.. = a + δ. + δ.. ,

158
et que
Xi j − Xi. = δi j − δi. ,
Xi. − X.. = (δi − δ. ) + (δi. + δ.. ), (5)
X.. − a = δ. + δ.. .
Comme toutes les variables δ1 , δ2 , . . . , δI , δ11 , . . . , δIJ sont indépendantes et normales, on a
(δi − δ. ), δ. , δi j sont indépendantes,
(δi − δ. ), δ. , (δi j − δi. ), δi. sont indépendantes, (6)
(δi − δ. ), δ. , (δi j − δi. ), (δi. − δ.. ), δ.. sont indépendantes
et de plus la variable aléatoire
σ2o σ2
δ. + δ.. suit la loi normale N(0, + ). (7)
I IJ
La variable aléatoire
I I
∑ [(δi − δ.) + (δi. − δ..)]2 = ∑ [(δi + δi.) − (δ. + δ..)]2
i=1 i=1

est distribuée comme


1
(σ2o + σ2 )χ2I−1 ,
J
c’est-à-dire que
I
1
∑ [(δi − δ.) + (δi. − δ..)]2 = χ2I−1,
(σ2o + 1J σ2 ) i=1
(8)

et il est évident, que


1
σ2 ∑
(δi j − δi. )2 = χ2I(J−1) . (9)
i, j
Par conséquent, de (6)-(9) on déduit que
I
∑ [(δi − δ.) + (δi. − δ.. )]2
(δ. + δ.. )2 1
σ2 ∑
σ2o
+ i=1 + (δi j − δi. )2 = χ2IJ ,
+ σ2 σ2o + 1J σ2 i, j
I IJ

ce qui est équivalent à


I I J
∑ (Xi. − X.. )2 ∑ ∑ (Xi j − X.. )2
(X.. − a)2 i=1 j=1
+ i=1 + = χ2IJ . (10)
1 2 σ2
σ2o + σJ
2
σ2
I (σo + J )

On trouve maintenant la fonction de vraisemblance L(a, σ2o , σ2 ) de notre échantillon


(X11 , . . . , XIJ )T . L’expression (10) est proportionnelle, à un terme additif près, à ln L(a, σ20 , σ2 ).
Pour le montrer on remarque que
Z∞
( " #)
1 1 1 1 J y 2

σo 2π (2π) σ
J/2 J
exp −
2 σ2 ∑ (xi j − a − yi )2 + i2
σo
dyi =
−∞ i=1

159
Z∞
" (
J J
1 1 1 2yi
σo (2π)(J+1)/2 σJ
exp −
2 σ2 ∑ (xi j − a)2 − σ2 ∑ (xi j − a)+
−∞ j=1 j=1
µ ¶ ¸¾ ) (
J
1 J 1 1
+ y2 dyi = exp − 2 ∑ (xi j − a)2 ×
σ2o σ2 i σo (2π)J/2 σJ ( σ12 + σJ2 )1/2 2σ j=1
o

Z∞
( " # µ ¶ · µ ¶ ¸)
yi J 1 1 J 1/2 1 J
exp 2 ∑ (xi j − a) √ + 2 exp −1/2 + 2 y2i dyi . (11)
σ j=1 2π σ 2
o σ σ 2
o σ
−∞

De l’autre côtè on sait que si une variable aléatoire ζ suit la loi normale N(Eζ, Varζ) de
paramètres Eζ et Varζ, alors

t2
Eeitζ = exp{itEζ − Varζ}. (12)
2
représente la fonction caractéristique de ζ. Dans notre cas

ζ = δ. + δ.. = X.. − a,
J
1 1
Eζ = 0, Varζ = 1 J
+ σ2
, it = 2
σ ∑ (xi j − a)2, (13)
σ2 o
j=1

et par conséquent de (12)-(13) on déduit que l’integrale en (11) est égale à


 " #2 
 1 J 
exp ∑ ij
 2σ4 ( 12 + J2 ) i=1
(x − a)

(14)
σ σ o

et donc
1
L(a, σ2o , σ2 ) = ³ ´I/2 ×
(2π)IJ/2 σIJ σIo 1
σ2o
+ J
σ2
 " #2 
 1 I J 1 I J 
exp − 2 ∑ ∑ (Xi j − a) + σ4
2
∑ ∑ (Xi j − a)  , (15)
 2σ i=1 j=1 2( 2 + Jσ2 ) i=1 j=1 σo
d’où l’on tire que

1 I J
ln L(a, σ2o , σ2 ) = ln(const) − 2 ∑ ∑
2σ i=1 j=1
(Xi j − a)2 +

" #2
I J
1
³ ´∑ ∑ (Xi j − a)2 . (16)
σ4
2 σ2o
+ Jσ2 i=1 j=1

Mais par ailleurs, de (2)-(5) on déduit

Xi j − a = (X.. − a) + (Xi. − X.. ) + (Xi j − Xi. ),


J
∑ (Xi j − a) = J(X.. − a) + J(Xi. − X..),
j=1

160
" #2
I J I
∑ ∑ (Xi j − a) = IJ 2 (X.. − a)2 + J 2 ∑ (Xi. − X.. )2 , (17)
i=1 j=1 i=1

(Xi j − a)2 = (X.. − a)2 + (Xi. − X.. )2 + (Xi j − Xi. )2 +


2[(X.. − a)(Xi. − X.. ) + (X.. − a)(Xi j − Xi. ) + (Xi. − X.. )(Xi j − Xi. )],
I J I I J
∑ ∑ (Xi j − a)2 = IJ(X.. − a)2 + J ∑ (Xi. − X..)2 + ∑ ∑ (Xi j − Xi.)2,
i=1 j=1 i=1 i=1 i=1

et par conséquent de (16) et (17) il résulte que

IJ J I
−2 ln L(a, σ2o , σ2 ) = −2 ln(const) +
σ2
(X.. − a)2
+ ∑ (Xi. − X..)2+
σ2 i=1

1 I J IJ 2 J2 I
∑ ∑
σ i=1 j=1
2
(Xi j − Xi. )2 − σ4
+ σ2 J
(X.. − a)2 − σ4
+ σ2 J
∑ (Xi. − X..)2 =
σ2o σ2o i=1

I I J
∑ (Xi. − X.. )2 ∑ ∑ (Xi j − X.. )2
(X.. − a)2 i=1 i=1 j=1
−2 ln (const) + + + =
1 2 σ2
σ2o + σJ
2
σ2
I (σo + J )

= −2 ln(const) + χ2IJ , (18)


comme on le voit à partir de (11). De (18) on déduit que
à !T
I I J
T= X.. , ∑ (Xi. − X..)2, ∑ ∑ (Xi j − Xi.)2 (19)
i=1 i=1 j=1

est une statistique exhaustive. Il est évident que les meilleurs estimateurs sans biases pour
a, σ2 et σ2o + σ2 /J sont
I J
1
â = X.. , σˆ2 = ∑ ∑
I(J − 1) i=1 j=1
(Xi j − Xi. )2 , (20)

σˆ2 1 I
ˆ
σo +
2
J
= ∑
I − 1 i=1
(Xi. − X.. )2 , (21)

et par conséquent, on trouve


q
â = 12.00488, σˆ2 = 0.00000918, σˆ2 = 0.00303, (22)
q
σˆ2
σˆ2o + = 0.0051400, σˆ2o = 0.0051382, σˆ2o = 0.07168. (23)
J
Comme
(X.. −a)2
σ2o σ2
I + IJ I(X.. − a)2 χ21 2
= = = F1,I−1 = tI−1 ,
I
∑ (Xi. −X.. )2
I χ
1 2
i=1
1
I−1 ∑ (Xi. − X.. )2 I−1 I−1
i=1
(I−1)(σ2o + σJ )
2

161
on a  

 


 

√ q 
|X.. − a|
P Is ≤ F1,I−1 (P) = P, (24)

 I 


 


1
I−1 ∑ (Xi. − X.. )2

i−1

où F1,I−1 (P) est le quantile de niveau P (P > 0.5) de la distribution F à 1 et I − 1 degrés de


liberté, dont on rapelle la définition :
P{F1,I−1 ≤ F1,I−1 (P)} = P. (25)
Par exemple, si P = 0.95, alors F1,4 (0.95) = 7.7086. De (24) et (25) on déduit l’intervalle
de confiance s
1 1 I
|a − X.. | ≤
I
F1,I−1 (P) ∑ (Xi. − X..)2
I − 1 i=1
(26)

de coefficient de confiance P. Par conséquent, on trouve l’intervalle de confiance pour le


paramètre a :
11.9159 < a < 12.0939
En continuant les calculs, liés à la table 1 des données initiales, on obtient la table suivante :

i
J
1
4 ∑ (Xi j − Xi. )2 75 ∗ 10−7 115 ∗ 10−7 95 ∗ 10−7 97 ∗ 10−7 77 ∗ 10−7
i=1

Table 2.

De plus, on a
I
1
∑ (Xi. − X..)2 = 0.020559808, ∑ I(Xi. − X..)2 = 0.005139952,
4 i=2
i=1
s
1 I I J
∑ i. ..
4 i=1
(X − X )2 = 0.071693458557946,
∑ ∑ (Xi j − Xi.)2 = 0.0001836,
i=1 j=1
v
u
1 I J u1 I J
∑ ∑
20 i=1 j=1
(Xi j − Xi. )2 = 0.00000918, t ∑ ∑ (Xi j − Xi. )2 = 0.003029851481508,
20 i=1 j=1

1 I 1 I J

4 i=1
2
(Xi. − X.. ) − ∑ ∑
100 i=1 j=1
(Xi j − Xi. )2 = 0.005138116,
v
u I
u1 I J
t ∑ (Xi. − X.. )2 − 1 ∑ ∑ (Xi j − Xi. )2 = 0.071680652898814,
4 i=1 100 i=1 j=1
I
1
4 ∑ (Xi. − X.. )2
i=1
I J
= 559.9076252723311.
1
20 ∑ ∑ (Xi j − Xi. )2
i=1 j=1

162
La surface de section de la bille de numéro i est égale à
π
(a + δi )2 ,
4
et l’espérance de la section de n’importe quelle bille est égale à
π π π
E(a + δi )2 = (a2 + Eδ2i ) = (a2 + σ2o ),
4 4 4
car Eδi = 0 et Varδi = Eδ2i . Mais comme

σ2o σ2
EX..2 = VarX.. + (EX.. )2 = + + a2 ,
I IJ
on obtient l’estimateur sans biais de π4 (a2 + σ2o ) :
à !
π σˆ2o σˆ2
X.. − − − σˆ2o =
2
4 I IJ

π 0.00514
[(12.00488)2 + 0.00514 − ] = 113.1926.
4 5
Par ailleur, on a
a + δi ∼
= Xi. , E{Xi. |δi } = a + δi
et donc
σ2
Var{Xi. |δi } = , E{Xi.2 |δi } = Var{Xi. |δi } + (a + δi )2 ,
J
et donc l’estimateur sans biais pour la surface de la section de la bille de numéro i est
à !
π σ ˆ2 π¡ 2 ¢
Xi.2 − = Xi. − 0.0000018 .
4 J 4

Les valeurs numériques de ces estimateurs pour les billes de numéros 1,2,3,4,5 sont

114.91413, 112.32974, 113.36138, 113.57284, 111.16790

respectivement (la moyenne arithmétique est égale à 113.06920). Enfin, on remarque que

σ2 < 0.007926σ2o et σ2 > 0.00127

avec le coefficient de confiance P = 0.98.

2.21 Modèle exponentiel. Analyse statistique.

Soit X = (X1 , . . . , Xn )T un échantillon d’une loi exponentielle E (µ, σ), i.e.

Xi ∼ f (x; θ), θ ∈ Θ = {θ = (µ, σ)T : |µ| < ∞, σ > 0},

163
où  µ ¶
 1 exp − x − µ , x ≥ µ,
f (x; θ) = σ σ

0, sinon.
Il est évident que µ ¶
1 x−µ
f (x; θ) = exp − H(x − µ), (2.1)
σ σ
½
1, si x ≥ 0,
H(x) =
0, si x < 0.
On sait que
EXi = µ + σ et Var Xi = σ2 . (2.2)
Notons X (n) = (X(1) , X(2) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur
de observation X,
P{X(1) < X(2) < · · · < X(n) } = 1. (2.3)
Il est facile de montrer que T = (X(1) , S)T est une statistique exhaustive pour le paramètre
θ, où
n
X(1) = min(X1 , X2 , . . . , Xn ) et S = ∑ (X(i) − X(1) ). (2.4)
i=2
En effet, la fonction de vraisemblance de X est
( )
n
1 1 n
L(X; θ) = ∏ f (Xi ; θ) = n exp − ∑ (Xi − µ) H(X(1) − µ) =
i=1 σ σ i=1
( )
n
1 1
=
σn
exp − ∑ (X(i) − µ) H(X(1) − µ).
σ i=1
(2.5)

Comme
n n n n
∑ Xi = ∑ X(i) = ∑ (X(i) − X(1)) + nX(1) = ∑ (X(i) − X(1)) + nX(1),
i=1 i=1 i=2 i=2

on en tire que la statistique T = (X(1) , S)T est exhaustive minimale pour θ = (µ, σ)T . Il est
connu que X (n) est une statistique exhaustive pour θ, mais X (n) n’est pas intéressante parce
qu’elle a la même dimension n que le vecteur X, c’est-à-dire que X (n) ne réduit pas des
données. Le vecteur
n
U = (X(1) , ∑ X(i) )T
i=2
est aussi une statistique exhaustive minimale pour θ. Il est facile de montrer que la densité
de X(1) est donnée par la formule
n n n o
exp − (x(1) − µ) H(x(1) − µ), (2.6)
σ σ
i.e., X(1) suit une loi exponentielle E (µ, σ/n),

σ σ2
EX(1) = µ + et Var X(1) = . (2.7)
n n2

164
Nous pouvons donc dire que la statistique nX(1) ∼ E (nµ, σ), et de (2) et (7) on obtient que

E{nX(1) } = nµ + σ et Var {nX(1) } = σ2 . (2.8)

Maintenant nous alons montrer que X(1) et S sont indépendantes. Tout d’abord on remarque
que la densité de X(·) est
( )
n n
n! 1
g(x(·) ; θ) = n! ∏ f (x(i) ; θ) = n exp − ∑ (x(i) − µ) H(x(1) − µ) =
i=1 σ σ i=1

n n n o (n − 1)!
= exp − (x(1) − µ) H(x(1) − µ) n−1 ×
σ σ σ
( )
1 n
× exp − ∑ (x(i) − x(1) ) H(x(2) − x(1) ), (2.9)
σ i=2

x(·) = (x(1) , . . . , x(n) )T ∈ Bµ = {x ∈ Rn : µ ≤ x1 ≤ x2 ≤ · · · ≤ xn }, (2.10)
d’où on tire que
( )
(n − 1)! 1 n
exp − ∑ (x(i) − x(1) ) , x(1) ≤ x(2) ≤ · · · ≤ x(n) , (2.11)
σn−1 σ i=2

représente la densité conditionnelle de

(X(2) , X(3) , . . . , X(n) )T sachant que X(1) = x(1) .

On constate que cette loi conditionnelle ne dépend pas de µ. En plus de (4) et (9) on dé-
duit que si la valeur x(1) de la statistique X(1) est fixée, X(1) = x(1) , alors la statistique
(X(2) , X(3) , . . . , X(n) )T représente le vecteur des statistiques d’ordre obtenu à partir d’un
échantillon de dimension n − 1, dont les éléments suivent la loi exponentielle
½ ¾
1 x − x(1)
exp − H(x − x(1) ).
σ σ
Maintenant on va chercher la densité conjointe q(y; θ),

y = (y1 , . . . , yn )T ∈ Bµ = {x ∈ Rn : µ ≤ y1 , 0 ≤ y2 ≤ · · · ≤ yn },

des statistiques
X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T ,
c’est-à-dire la densité de la statistique

Y = (Y1 ,Y2 , . . . ,Yn )T ,


Y1 = X(1) , Y j = X( j) − X(1) , j = 2, . . . , n. (2.12)
On constate que la statistique Y est le résultat d’une transformation linéaire la statistique
X (n) :
Y = BX (n) ,

165
où ° °
° 1 0 0 ... 0 °
° °
° −1 1 0 ... 0 °
° °
° ... 0 °
B = ° −1 0 1 °,
° .. °
° . °
° °
° −1 0 0 ... 1 °
et donc
X (n) = B−1Y ,
où ° °
° 1 0 0 ... 0 °
° °
° 1 1 0 ... 0 °
° °
° 1 0 1 ... 0 °
B−1 = ° °.
° .. °
° . °
° °
° 1 0 0 ... 1 °
Comme det B = 1, de (9) on tire

q(y; θ) = g(B−1 y; θ)| det B−1 | = g(y1 , y1 + y2 , . . . , y1 + yn ; θ) =


( )
n n n o (n − 1)! 1 n
= exp − (y1 − µ) H(y1 − µ) n−1 − ∑ yi , y ∈ Bµ ⊂ Rn , (2.13)
σ σ σ σ i=2

d’où on tire que la densité conjointe de X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T est le produit
de deux densités et donc les statistiques X(1) et (X(2) − X(1) , . . . , X(n) − X(1) )T sont indépen-
n
dantes, d’où on tire que X(1) et ∑ (X(i) − X(1) ) sont indépendantes.
i=2
En plus de (13) il suit que
n
∑ (X(i) − X(1))
i=2
suit une loi gamma dont la densité est

1
yn−2 e−y/σ H(y),
σn−1 Γ(n − 1)
parce que
(n − 1)! 1 n
σn−1
exp{− ∑ yi},
σ i=2
0 ≤ y2 ≤ y3 ≤ . . . yn ,

représente la densité conjointe du vecteur des statistiques d’ordre de dimension (n − 1),


associé avec une loi exponentielle
½ ¾
1 1
exp − y H(y),
σ σ

i.e. avec une loi exponentielle E (0, σ), et donc la variable aléatoire

1 n 1 n
∑ i σ ∑ (X(i) − X(1)) = γn−1
σ i=2
Y =
i=2

166
est distribuée comme la somme de (n − 1) variables aléatoires indépendantes, qui forment
un échantillon de volume (n − 1) d’une loi exponentielle E (0, 1), i.e., S suit une loi gamma
avec (n − 1) degrés de liberté et de paramètre d’échelle σ.
n n
S = ∑ Yi = ∑ (X(i) − X(1) ) = σγn−1 , (2.14)
i=2 i=2

et donc
ES = E{σγn−1 } = (n − 1)σ, Var S = Var {σγn−1 } = σ2 (n − 1). (2.15)
Dans ce cas la statistique

1 n n
σ̄n = ∑
n − 1 i=2
(X(i) − X(1) ) =
n−1
(X̄n − X(1) ) (2.16)

est le meilleur estimateur sans biais pour σ. De (15) on tire que

σ2
Var σ̄n = . (2.17)
n−1
Enfin, en utilisant (7) et (16) nous pouvons construire le meilleur estimateur sans biais µ̄n
pour µ :

σ̄n 1 n
1
µ̄n = X(1) −
n
= X(1) − ∑
n(n − 1) i=2
(X(i) − X(1) ) = X(1) −
n−1
(X̄n − X(1) ). (2.18)

Comme les statistique X(1) et S sont indépendantes, les statistiques X(1) et σ̄n sont aussi
indépendantes et par conséquent

1 σ2 σ2 σ2
Var µ̄n = Var X(1) + Var σ̄n = + = . (2.19)
n2 n2 (n − 1)n2 n(n − 1)

Corollaire 1. Comme
n n n
∑ (X(i) − X(1)) = ∑ Yi = ∑ (n − i − 1)[X(i) − X(i−1)], (2.20)
i=2 i=2 i=2

de (9) et (12) il suit que les statistiques

nX(1) , (n − 1)[X(2) − X(1) ], . . . , (n − i − 1)[X(i) − X(i−1) ], . . . , X(n) − X(n−1)

sont indépendantes et

nX(1) ∼ E (nµ, σ), i.e. n(X(1) − µ) ≈ E (0, σ), (2.21)

(n − i − 1)[X(i) − X(i−1) ] ∼ E (0, σ), i = 2, 3, . . . , n. (2.22)


Il est évident que toutes ces propriétés importantes d’un échantillon X d’une loi exponen-
tielle sont dûes à l’indépendance temporelle de la distribution exponentielle (une loi expo-
nentielle est sans mémoire).

167
Remarque 1. (Méthode des moments). Comme

EXi = µ + σ et Var Xi = σ2

pour estimer θ = (µ, σ)T nous pouvons utiliser la méthode des moments. D’après cette
méthode en qualité d’estimateurs µ̃n et σ̃n de µ et σ il faut choisir la solution du système
(
µ + σ = X̄n ,
σ2 = s2n ,

puisque X̄n et s2n sont l’espérance et la variance de le loi empirique correspondant à l’échan-
tillon X = (X1 , . . . , Xn )T , d’où on obtient que

θ̃n = (µ̃n , σ̃n )T ,

où s
1 n
µ̃n = X̄n − sn = X̄n − ∑ (Xi − X̄n)2,
n i=1
s
1 n
σ̃n = sn = ∑ (Xi − X̄n)2.
n i=1
Remarque 2. (Méthode du maximum de vraisemblance). De (5) on a
( )
n
1 1
L(X; θ) = L(X; µ, σ) = n exp − ∑ (Xi − µ) H(X(1) − µ),
σ σ i=1

d’où on tire immédiatement que


µ̂n = X(1) .
Puisque
∂ lnL(X; θ) n 1 n
= − + 2 ∑ (Xi − µ),
∂σ σ σ i=1
on en tire que σ̂n est la solution de l’équation

n 1 n
− + 2 ∑ (Xi − X̄n ) = 0,
σ σ i=1

i.e.,
1 n
σ̂n = ∑ (Xi − X̄n) = X̄n − X(1),
n i=1
et donc
θ̂n = (µ̂n , σ̂n )T .
On remarque que les meilleurs estimateurs sans biais pour µ et σ sont
µ ¶
n 1 n−1
µ̄n = µ̂n − X̄n et σ̄n = σ̂n .
n−1 n n

168
Chapitre 3

ELEMENTS DE LA STATISTIQUE
NON PARAMETRIQUE.

3.1 La loi empirique.

Soit l’hypothèse H0 selon laquelle les éléments X1 , X2 , . . . , Xn de l’échantillon X =


(X1 , X2 , . . . , Xn )T suivent une loi donnée, dont la fonction de répartition est F(x), i.e. pour
tout x ∈ R1

P{Xi ≤ x|H0 } = F(x), i = 1, 2, . . . , n, (3.1)


et X1 , X2 , . . . , Xn sont indépendantes. Supposons en outre que la fonction de répartition
F(x), x ∈ R1 , soit telle que le moment a2k existe,

Z+∞
a2k = EX12k = x2k dF(x). (3.2)
−∞

On sait que dans ce cas tous les moments a j , 1 ≤ j ≤ 2k, existent ainsi que les moments
centraux m j ,

m j = E(X1 − EX1 ) j = E(X1 − a) j , j = 1, 2, .., 2k, (3.3)


où a = a1 = EX1 . Notons aussi

σ2 = Var X1 = m2 = E(X1 − a)2 . (3.4)


Ayant la réalisation x = (x1 , . . . , xn )T de la statistique X = (X1 , X2 , . . . , Xn )T , nous pouvons
construire la fonction

1 n
Fn (x) = Fn (x; x1 , . . . , xn ) = ∑ 1(−∞,x] (xi ), x ∈ R1 , (3.5)
n i=1

dont la valeur Fn (x) en n’importe quel point x, x ∈ R1 , représente la réalisation de la


statistique

169
1 n
Fn (x) = Fn (x; X1 , . . . , Xn ) = ∑ 1(−∞,x] (Xi ), (3.6)
n i=1
calculée au point choisi x.
Par construction, la fonction Fn (x), x ∈ R1 , a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une vaiable aleatoire, disons X, dont la loi conditionnelle, conditionnée
par X = x, est donnée par la fonction Fn (x), c’est-à-dire

P{X ≤ x|X = x} = P{X ≤ x|X1 = x1 , . . . , Xn = xn } = Fn (x), x ∈ R1 , (3.7)


et par conséquent de (6) et (7) il résulte que

Fn (x) = P{X ≤ x|X}, x ∈ R1 , (3.8)


c’est-à-dire que (8) détermine une fonction de répartition aléatoire, qu’on appelle fonction
de répartition empirique. Par conséquent, la loi conditionelle de la variable aléatoire X,
conditionnée par X, s’appelle la loi empirique. De (5)–(8) il résulte que la loi empirique est
la loi discrète d’après laquelle

1
P{X = Xi |X} = pour tout i = 1, 2, . . . , n, (3.9)
n
c’est-à-dire que la loi empirique affecte le même poids 1/n à chaque élément Xi de l’échan-
tillon X = (X1 , X2 , . . . , Xn )T , et Fn (x) est la fonction de répartition de cette loi. Soit αm le
moment d’ordre m de la loi empirique. Alors de (6), (8) et (9) on déduit

1 n m
αm = E{X m |X} = ∑ Xi ,
n i=1
(3.10)

et, par conséquent, on obtient la moyenne α1 de la loi empirique :

1 n
α1 = E{X|X} = ∑ Xi = X̄n.
n i=1
(3.11)

De même, la variance de la loi empirique s’exprime par la formule

1 n
E{(X − α1 )2 |X} = E{(X − X̄n )2 |X} = α2 − α21 = ∑ (Xi − X̄n)2 = s2n.
n i=1
(3.12)

La loi empirique (9) et sa fonction de répartition Fn (x), x ∈ R1 , jouent un rôle très important
dans la statistique mathématique ; c’est pour cela que nous allons parler un peu plus en détail
de ses propriétés et qualités.
Premièrement, on remarque que pour tout x fixé, x ∈ R1 ,

E1]−∞,x] (Xi ) = P{Xi ≤ x} = F(x), (3.13)


c’est-à-dire que la statistique 1]−∞,x] (Xi ) est un estimateur sans biais de F(x). On remarque
ici que 1]−∞,x] (Xi ) est la fonction de répartition empirique construite avec une seule obser-
vation Xi . Il est facile de vérifier que

170
Var 1]−∞,x] (Xi ) = F(x)[1 − F(x)], (3.14)
car pour tout x fixé la statistique 1]−∞,x] (Xi ) représente la variable aléatoire de Bernoulli de
paramétre p = F(x), puisque
(
P{1]−∞,x] (Xi ) = 1} = P{Xi ≤ x} = F(x) = p,
(3.15)
P{1]−∞,x] (Xi ) = 0} = P{Xi > x} = 1 − F(x) = 1 − p = q.
D’autre part nous avons

1 n 1
Fn (x) = ∑
n i=1
1]−∞,x] (Xi ) = νn (x),
n
(3.16)


n
νn (x) = ∑ 1]−∞,x] (Xi ). (3.17)
i=1
Comme les variables aléatoires X1 , X2 , . . . , Xn sont indépendantes et suivent la même loi
F(x), i.e. P{Xi ≤ x} = F(x), de (13)-(17) il s’ensuit que pour tout x fixé

P{νn (x) = k} = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n, (3.18)


où p = F(x). Comme

Eνn (x) = np = nF(x), Var νn (x) = npq = nF(x)[1 − F(x)], (3.19)


on a
1
EFn (x) = F(x) et Var Fn (x) = F(x)[1 − F(x)]. (3.20)
n
De (20) il déduit que si n → ∞
Var Fn (x) → 0
pour tout x fixé, x ∈ R1 ; par conséquent, de l’inégalité de Tchebyschev, il résulte que pour
tout ε > 0

Var Fn (x) F(x)[1 − F(x)]


P {|Fn (x) − F(x)| ≥ ε} ≤ = → 0, (3.21)
ε2 ε2
quand n → ∞. Ainsi de (20) et (21) résulte le

Théorème 1. Si P{Xi ≤ x} = F(x), alors


(
1) EFn (x) = F(x),
(3.22)
2) P {|Fn (x) − F(x)| > ε} → 0, quand n → ∞,

quel que soit x fixé, x ∈ R1 .

Remarque 1. Le théorème 1 nous dit que {Fn (x)}n∈N est une suite cohérente d’es-
timateurs sans biais de F(x) pour tout x fixé, x ∈ R1 . Cela signifie que si la taille n de

171
l’échantillon X = (X1 , . . . , Xn )T est grande, alors la valeur de la fonction Fn (x) en un point x
la réalisation de la fonction de répartition empirique Fn (x) en ce point, peut-être considérée
comme une bonne approximation de la valeur F(x). Cela veut dire que si F est inconnue,
on pourra supposer que

Fn (x) ∼
= F(x) (3.23)
pour tout x et cette approximation est d’autant meilleure que le nombre n des observations,
c’est-à-dire notre information sur F, est plus grand.

Remarque 2. Du théorème 1 il résulte que

P{X ≤ x} = EP{X ≤ x|X} = EFn (x) = F(x),

c’est-à-dire que la loi déconditionnée de la variable aléatoire X est la même que celle de Xi ,
élément de l’échantillon X,

P{X ≤ x} = P{Xi ≤ x} = F(x).

Le théorème 1 peut-être affiné en considérant la fonction de répartition empirique Fn (x), x ∈


R1 , dans son ensemble et non pas pour chaque x pris séparément. On va s’intéresser au
maximum de l’écart entre Fn (x) et F(x), que l’on notera Dn :

Dn = Dn (X) = sup |Fn (x) − F(x)|. (3.24)


|x|<∞

La statistique Dn s’appelle la statistique de Kolmogorov (1933).

Théorème 2. (Glivenko-Cantelli)
n o
P lim Dn = 0 = 1. (3.25)
n→∞

Le théorème de Glivenko-Cantelli nous dit que la suite {Fn (x)} des fonctions de répar-
tition empiriques converge presque sûrement vers F(x) uniformément par rapport à x quand
n → ∞. La réalisation
Dn = sup |Fn (x) − F(x)|
|x|<∞

de la statistique de Kolmogorov Dn nous donne la déviation maximale observée sur l’axe


réel de la fonction de répartition empirique Fn (x) et de la fonction de répartition F(x) de
la variable aléatoire X1 . Du théorème de Glivenko-Cantelli il résulte que pour tout x, avec
la probabilité 1, cette déviation devient plus petite que tout nombre positif ε arbitrairement
petit, ce qui justifie encore une fois l’approximation (23).

Théorème 3. (Donsker) Si n → ∞, alors


√ L
n(Fn (x) − F(x)) → W (x), x ∈ R1 ,

où W (x) est un processus gaussien, EW (x) ≡ 0, dont la fonction de covariance est

k(x, y) = F(x) ∧ F(y) − F(x)F(y), (x, y) ∈ R1 × R1 .

172
Théorème 4. Si F(x) est continue, alors
Ãr !
2n
P{lim sup sup | Fn (x) − F(x) | = 1} = 1.
n→∞ ln ln n x

Remarque 3. Pour avoir une idée de la conduite de F(x) on construit souvent le graphe
de la fonction Fn (x), réalisation de la fonction de répartition empirique Fn (x). Pour construire
le graphe de Fn (x) on utilise le vecteur

X (·) = (X(1) , . . . , X(n) )T

des statistiques d’ordre, construit à partir de l’échantillon X. Soit x(·) = (x(1) , ..., x(n) )T ,
la réalisation de la statistique X (·) . Comme on le sait le vecteur x(·) s’obtient à partir de
x = (x1 , . . . , xn )T en ordonnant les xi par ordre croissant, c’est-à-dire que l’on a

x(1) ≤ x(2) ≤ . . . ≤ x(n) . (3.26)


De (26) il résulte que les statistiques d’ordre X(1) , X(2) , . . . , X(n) sont liées (avec la probabilité
1) par les inégalités :

X(1) ≤ X(2) ≤ . . . X(n) . (3.27)


Supposons pour l’instant qu’il n’y ait pas d’ex-aequo, ce qui a lieu avec la probabilité 1 si
F n’a pas de saut. En utilisant (26), (27) de (5), (6) et (9) on obtient que

 0 , si x < X(1) ,
i
Fn (x) = , si X(i) ≤ x < X(i+1) , (3.28)
 n
1 , si x ≥ X(n) ,
par conséquent on a

 0, si x < x(1) ,
i
Fn (x) = , si x(i) ≤ x < x(i+1) , (3.29)
 n
1, si x ≥ x(n) .
De (29) on déduit que F(n) (x) a des sauts aux points x(i) . Ces sauts sont égaux à 1/n. Dans
le cas général, F peut avoir des sauts et donc, parmi les x(i) , il peut y avoir des ex-aequo.
Pour construire le graphe de Fn (x), notons


 e1 = x(1) = min{x1 , x2 , . . . , xn },



 e2 = min{x(i) : x(i) > x(1) = e1 },


 ..
.
(3.30)

 e j = min{x(i) : x(i) > e j−1 },

 ..

 .


 e = x = max{x , x , . . . , x }
k (n) 1 2 n

les différentes valeurs prises par les xi . Le nombre k des différentes valeurs

e1 < e2 < . . . < ek , (3.31)

173
prises par x1 , x2 , . . . , xn , peut être strictement inférieur à n s’il y a des ex-aequo. Notons ν j
la fréquence de la valeur e j , j = 1, 2, . . . , k. Il est évident que

ν1 + ν2 + . . . + νk = n.

En utilisant les valeurs observées e1 , e2 , . . . , ek et leurs fréquences ν1 , ν2 , . . . , νk on peut fa-


cilement obtenir une autre représentation de la réalisation Fn (x) de la fonction de répartition
empirique Fn (x) en termes des fréquences ν1 , ν2 , . . . , νk des valeurs e1 , e2 , . . . , ek :


 0, si x < e1 ,
 i
n ∑ ν j , si e j ≤ x < ei+1 ,
1
Fn (x) = (3.32)


 j=1
1, si x ≥ ek .
La fonction Fn (x) est aussi appellé la fonction cumulative, parce que on "accumule" les
fréquences ν1 , ν2 , . . . , νk en partant de la plus petite valeur e1 = x(1) vers la plus grande
ek = x(n) .
On voit que la fonction cumulative Fn (x) est croissante de 0 à 1, qu’elle est continue à
droite et qu’elle a des sauts de hauteurs νi /n en tout point ei , i = 1, 2, . . . , k, tout en restant
constante entre deux valeurs observées ei et ei+1 consécutives.
Remarque 4. (Loi empirique et méthode des moments) Maintenant que nous savons que
la fonction de répartition Fn (x) de la loi empirique est un bon estimateur de la fonction de
répartition F(x) de Xi au sens des théorèmes 1 et 2, il est très naturel de choisir les moments
(10)
1 n
αm = E{X m |X} = ∑ Xim , m = 1, 2, . . . , 2k
n i=1
de la loi empirique (9) comme estimateurs des moments am = EX1m de la loi F. Comme
( )
n
1
Eαm = E {E {X m |X}} = E ∑ Xim = am , m = 1, 2, . . . , 2k, (3.33)
n i=1

on voit que le moment αm de la loi empirique est un estimateur sans biais de am . On re-
marque ici que tous les moments αm , m = 1, 2, . . ., de la loi empirique (9) existent, tandis
que la loi F n’a d’après notre hypothèse (2), que les moments a1 , . . . , a2k . Si nous prenons
m ≤ k, alors nous pouvons calculer la variance de la statistique αm , car
( )
n
1 1
Var αm = Var ∑
n i=1
Xim = Var X1m =
n

1 © 2m ª 1
=EX1 − (EX1m )2 = (a2m − a2m ). (3.34)
n n
De cette formule on déduit que la variance, Var αm , de l’estimateur αm existe si m ≤ k.
De plus on en déduit que Var αm → 0 quand n → ∞, et par conséquent de l’inégalité de
Tchebyschev il résulte que pour tout ε > 0
Var αm a2m − a2m
P {|αm − am | > ε} = P {|αm − Eαm | > ε} ≤ = → 0, (3.35)
ε2 nε2
quand n → ∞. Ainsi de (33) et (35) il résulte que {αm } est une suite consistante (cohérente)
d’estimateurs sans biais de am (m = 1, 2, . . . , k). On peut remarquer que pour estimer la

174
précision de l’estimateur αm du moment am on a eu besoin d’utiliser le moment α2m d’ordre
2m.
Exemple 1. Soient a = EX1 et σ2 = Var X1 et supposons que nous voulions estimer a.
Comme nous l’avons dit, nous pouvons prendre la moyenne
1 n
α1 = ∑ Xi = X̄n
n i=1

de la loi empirique comme estimateur de a = a1 , moyenne de la loi F.


D’après (33) on a
EX̄n = a = EX1
et de (34) on déduit
1 σ2 1
Var X̄n = Var X1 = = (a2 − a2 ),
n n n
et, par conséquent, de (35) on déduit que pour tout ε > 0
σ2
P {|X̄n − a| ≥ ε} ≤ → 0, n → ∞, (3.36)
εn
c’est-à-dire que {X̄n }, n ∈ N, est une suite consistante d’estimateurs sans biais de la moyenne
a de la loi F , si σ2 < ∞.
Remarque 5. (Théorème de Khinchine.) On peut montrer que pour que la suite {X̄n },
n ∈ N, soit cohérente il suffit que EX1 existe.
Example 2. Supposons que nous voulions estimer

σ2 = Var X1 = a2 − a21 = a2 − a2 . (3.37)

Comme nous l’avons dit, nous pouvons prendre la variance


1 n
s2n = ∑ (Xi − X̄n)2 = α2 − α21
n i=1
(3.38)

de la loi empirique comme estimateur de σ2 . De (38) on déduit


£ ¤
Es2n = Eα2 − Eα21 = a2 − Var α1 + a2 =

a2 − a2 σ2 n − 1 2
= a2 − a2 − = σ2 − = σ ,
n n n
i.e. s2n est un estimateur de σ2 qui a un biais bn ,

σ2
bn = E(s2n − σ2 ) = − . (3.39)
n
Si nous prenons la statistique
1 n n 2
Sn2 = ∑
n − 1 i=1
(Xi − X̄n )2 = s
n−1 n
(3.40)

comme estimateur de σ2 , alors on aura un estimateur sans biais de σ2 , car de (40) on déduit :
µ ¶
n 2 n
2
ESn = E sn = Es2 = σ2 . (3.41)
n−1 n−1 n

175
Pour calculer la variance Var s2n de la statistique s2n ,
µ ¶
n − 12 4
Var s2n = E(s2n )2 − (Es2n )2 = E(s2n )2 − σ , (3.42)
n

il nous faut savoir calculer E(s2n )2 . Pour faire cela on remarque que la statistique (Xi − X̄n )2
est invariante par rapport à la moyenne a = EX1 de la loi F. Cela veut dire que si nous
posons Yi = Xi − c (i = 1, 2, . . . , n), où c est un nombre arbitraire et si

1 n
Ȳn = ∑ Yi ,
n i=1

alors on voit que


Yi − Ȳn = Xi − c − (X̄n − c) = Xi − X̄n , (3.43)
donc pour calculer E(s2n )2 nous pouvons admettre que a = EX1 = 0. Dans ce cas m j = a j et
nous pouvons écrire :
à !2
1 n 1 n 1 n
s2n = ∑ (Xi − X̄n )2 = ∑ Xi2 − 2 ∑ Xi =
n i=1 n i=1 n i=1

n−1 n 2 2
= 2 ∑ Xi − ∑ Xi X j , (3.44)
n i=1 n i< j
d’où, comme EX1 = 0 par hypothèse et de l’indépendence de Xi et X j , on déduit
( )
(n − 1)2 4
E(s2n )2 = E
n4 ∑ Xi2 X j2 + 4 ∑ Xi2 X j2 =
n i< j
i< j

(n − 1)2 (n − 1)2 + 2
= m 4 + (n − 1)σ4 . (3.45)
n3 n3
De (42) et (45) il résulte que
µ ¶
(n − 1)2 n−3 4
Var Sn2 = m4 − σ , (3.46)
n3 n−1
et par conséquent, on en déduit que

Var s2n → 0 quand n → ∞.

De (46) il est facile de déduire la variance Var Sn2 de la statistique Sn2 , qui est le meilleur
estimateur sans biais de σ2 (41). On a
µ ¶ µ ¶
n 2 n2 1 n−3 4
2
Var Sn = Var s = 2
Var sn = m4 − σ , (3.47)
n−1 n (n − 1)2 n n−1

et on voit que Var Sn2 tend aussi vers 0 quand n → ∞. Comme pour tout ε > 0

©¯ ¯ ª ©¯ ¯ ª Var Sn2
P ¯Sn2 − σ2 ¯ ≥ ε = P ¯Sn2 − ESn2 ¯ ≥ ε ≤ → 0, (3.48)
ε2

176
quand n → ∞, nous pouvons dire que {Sn2 } est une suite cohérente d’estimateurs sans biais
de la variance σ2 de la loi F(x). On remarque ici, que de (47) on déduit

Var s2n < Var Sn2 ,

i.e. le risque quadratique de s2n est plus petit de celui de Sn2 , mais l’estimateur s2n a le biais
bn = −σ2 /n.
Nous avons montré (35) que le moment

1 n m
αm = ∑ Xi
n i=1

d’ordre m (m = 1, 2, . . . , k) de la loi empirique est un bon estimateur du moment


Z∞
am = EX1m = xm dF(x),
−∞

de la loi F(x) en ce sens que

1
Eαm = am et Var αm = (a2m − a2m ) → 0, quand n → ∞.
n
Que pouvons nous dire de plus ? La statistique

1 n m
αm = ∑ Xi , m = 1, . . . , k,
n i=1

est la somme des variables indépendantes X1m , ..., Xnm , puisque les variables aléatoires X1 , . . . , Xn
sont indépendantes et que de plus elles suivent la même loi. En outre, nous savons que la
variance
Var Xim = a2m − a2m
existe pour tout m = 1, 2, . . . , k. Par conséquent du théorème central limite il résulte que
½ ¾ ( )
αm − am √ αm − am
P √ =P np < x → Φ(x) quand n → ∞, (3.49)
Var αm a2m − a2m

c’est-à-dire que la suite {αm }m∈N∗ est asymptotiquement normalement distribuée de para-
mètres am et (a2m − a2m )/n, ce que nous écrivons de la manière suivante :
µ ¶
a2m − a2m
αm est AN am , , (3.50)
n

ou la suivante :
√ αm − am
np est AN(0, 1). (3.51)
a2m − a2m
D’après (35) nous savons que si n → ∞ alors pour tout ε > 0

P {|αm − am | ≥ ε} → 0. (3.52)

177
En utilisant l’approximation normale (49) nous pouvons estimer la probabilité de l’événe-
ment {|αm − am | ≥ ε}. On a
½ ¾
|αm − am | ε
P {|αm − am | ≥ ε} = P √ ≥√ . (3.53)
Var αm Var αm
Si n est assez grand alors de (49) et (53) il résulte que
( √ )
ε n
P {|αm − am | ≥ ε} ≈ 2Φ − p , (3.54)
a2m − a2m

Zx
1 2 /2
Φ(x) = √ e−y dy

−∞
est la fonction de répartition de la loi normale N(0, 1), qui satisfait l’identité suivante :
Φ(x) + Φ(−x) ≡ 1, |x| < ∞. (3.55)
Notons ici, que si Z est une variable aléatoire qui suit la loi normale N(0, 1),
P{Z ≤ x} = Φ(x), x ∈ R1 ,
alors de (55) il résulte que
P{|Z| ≤ x} = 2Φ(x) − 1, (3.56)
ce qui a déjà été utilisé pour obtenir (54) à partir de (49). Ainsi, de (53)-(56) il résulte que
( √ ) ( √ )
ε n ε n
P {|αm − am | ≤ ε} ≈ 1 − 2Φ − p = 2Φ p − 1, (3.57)
a2m − a2m a2m − a2m
i.e. pour tout ε > 0 on a
( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p − 1, (3.58)
a2m − a2m
quand n est assez grand.
Nous devons constater que nous ne pouvons pas utiliser (58) directement pour savoir
avec quelle probabilité l’intervalle
[αm − ε; αm + ε] (3.59)
"couvre" la valeur inconnue de am , ou, comme on dit, avec quelle probabilité am appartient
à l’intervalle [αm − ε; αm + ε], que l’on appelle un intervalle de confiance. Pour avoir la
possibilité d’utiliser (58) pour estimer
P {am ∈ [αm − ε; αm + ε]}
nous devons substituer aux paramètres inconus a2m et a2m dans la partie droite de (58) leurs
estimateurs α2m et α2m et de cette manière nous aurons pour n assez grand la relation sui-
vante : ( √ )
ε n
P {αm − ε ≤ am ≤ αm + ε} ≈ 2Φ p (3.60)
α2m − α2m

178
Maintenant nous allons utiliser l’approximation (60) pour construire l’intervalle de confiance
(59) tel que
P {am ∈ [αm − ε; αm + ε]} ≈ P = 1 − α, (3.61)
où la probabilité P = 1 − α, appelée le coefficient de confiance, est choisie d’avance, 0.5 <
P < 1, 0 < α < 0.5. Ayant choisi un coefficient de confiance P = 1 − α, il nous faut résoudre
l’équation ( )

ε n
2Φ p −1 = P = 1−α (3.62)
α2m − α2m
pour trouver ε qui satisfait à (61).
Soit α une probabilité telle que 0 < α < 0.5. Notons z+ α et zα les quantiles de seuils α

et 1 − α respectivement, c’est-à-dire que z+ −


α et zα satisfont aux relations :

Φ(z−
α ) = α et Φ(z+
α ) = 1 − α, 0 < α < 0.5.

De (55) il résulte que z+ −


α = −zα . En utilisant les notations de (62) on a
( √ )
ε n 1+P α
Φ p = = 1− (3.63)
α2m − α2m 2 2

d’où l’on obtient √ ³


+ ε n α´
=p
xα/2 = Φ−1 1 − (3.64)
α2m − α2m 2
et par conséquent on trouve que
q q
xP 1 +
ε= √ α2m − αm = √ xα/2 α2m − α2m .
2 (3.65)
n n
De (60)–(62) et (65) il résulte que
( r r )
+ α2m − α2m + α2m − α2m
P αm − xα/2 ≤ am ≤ αm + xα/2 ≈ P = 1 − α. (3.66)
n n

Nous voyons qu’en utilisant les moments α2m et αm de la loi empirique, et le fait qu’ils
sont asymptotiquement normalement distribués, nous sommes parvenus à construire pour
le moment am un intervalle de confiance (αm −ε; αm +ε) dont le coefficient de confiance est
approximativement égal à P = 1 − α. Dans la table 1 ci-dessous nous donnons les valeurs
+
de P = 1 − α les plus répandues dans la pratique et les valeurs xα/2 correspondantes, ce qui
permet facilement de calculer ε en utilisant la formule (65).
P = 1−α 0.90 0.95 0.99 0.995
+
xα/2 1.644854 1.959964 2.575829 2.807034 (3.67)

Table 1.
Exemple 3. Soit m = 1, c’est-à-dire que nous estimons la moyenne a = EX1 de la loi F(x).
Nous savons, d’après l’exemple 1, que α1 = X̄n , moyenne de la loi empirique, est un esti-
mateur sans biais de a, en outre, nous savons d’après (36) que
P {|X̄n − a| ≥ ε} → 0. (3.68)

179
Maintenant, en utilisant (57), nous obtenons que
à ! µ √ ¶
ε ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ p − 1 = 2Φ − 1, (3.69)
Var X̄n σ

car
σ2
Var X̄n = , où σ2 = Var X1 = a2 − a21 = a2 − a2 .
n

Dans (69) nous pouvons,p en utilisant l’exemple 2, estimer le paramètre inconnu σ = σ2
par la statistique Sn = Sn2 , sachant que ESn = σ . Dans ce cas, de (69) il résulte que
2 2

µ √ ¶
ε n
P {|X̄n − a| ≤ ε} ≈ 2Φ −1 (3.70)
Sn
et par conséquent on obtient un analogue de (66)
½ ¾
+ Sn + Sn
P X̄n − xα/2 √ ≤ a ≤ X̄n + xα/2 √ ≈ P = 1 − α, (3.71)
n n
+
en choisissant dans (67) le coefficient de confiance P = 1 − α et le quantile xα/2 de la loi
normale N(0, 1). Il est évident que dans (71) on aurait pu utiliser la statistique sn comme
estimateur de σ au lieu de Sn , où s2n est la variance de la loi empirique.

3.2 Médiane de la loi empirique.

1. Soit X = (X1 , . . . , Xn )T un échantillon et Xi suit une loi de fonction de répartition

F(x) = P(Xi < x).

Notons X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre associé au vecteur X. Par
définition, la médiane de la loi empirique est la statistique
½
X¡ , ¢ si n = 2k + 1,
µn = 1 (k+1)
2 X(k) + X(k+1) , si n = 2k.

On sait que si n est impair, n = 2k + 1, alors

P{µ2k+1 < x} = IF(x) (k + 1, k + 1), (3.1)

et on obtient
"µ ¶s #
1 2k + 2
P {µ2k+1 < x} = S2k+2 F(x) − , (3.2)
2 F(x)[1 − F(x)]

où S f (x) est la fonction de la répartittion de la loi de Student à f degrés de liberté. Dans le


cas où n est un nombre pair, n = 2k, la distribution de la statistique µ2k est beaucoup plus

180
compliquée. On remarque que d’habituellement, dans la pratique, lorsque n est assez grand,
on utilise le fait que µ ¶
¡√ ¢ 1
L n(µn − µ) → N 0, 2 , (3.3)
4 f (µ)
ou plus précisément :
µ ¶
© √ ª 1
P 2 n f (µ)(µn − µ) < y = Φ(y) + O √ ,
n
où µ est la médiane de la loi F(x), F(µ) = 0.5, et f (x) est la densité de cette loi, c’est-à-dire
que f (x) = F 0 (x). La précision de cette approximation normale n’est pas très bonne quand
n n’est pas assez grand. Par ailleurs, il est très naturel de s’attendre à ce que la distribution
de la statistique µ2k+1 soit plus proche de la distribution de la statistique µ2k , et justement
Bolshev (1963) a utilisé ce fait pour construire une approximation qui est meilleure que
l’approximation normale (3).
Soit n √ o
Fn (x) = P µn < x 2πt , (3.4)
où t = 1/(8[n/2] + 5). Bolshev (1963) a démontré que

F2k (x) − F2k+1 (x) = −8(π − 2)xϕ(x)t 2 + O(t 3 ), (3.5)

et
3x − (2π − 6)x3
F2k+1 (x) = Φ(x) + ϕ(x) t + O(t 2 ), (3.6)
6
d’où l’on peut déduire que la statistique
" Ã µ ¶2 !#
µn 1 µn
Yn = √ 1+ 3 − (2π − 6) √
2πt σ 2πt

est asymptotiquement normale de paramètres 0 et 1,

P {Yn < y} = Φ(y) + O(t 2 ).

Notons µn (P) le P-quantile (le quantile de niveau P) de la distribution de la statistique µn :

P {µn < µn (P)} = P.

Dans ce cas de (6) on déduit que

µ2k (P) = µ2k+1 (P)[1 + 8(π − 2)t 2 ] + O(t 2 )

donc
µ2k (P) ∼
= µ∗2k (P), (3.7)

µ∗2k (P) = µ2k+1 (P)[1 + 8(π − 2)t 2 ].
La formule (7) donne une bonne approximation, même pour les petites valeurs de n. Par
exemple si k = 1, alors la différence

D = P {µ2 < µ∗2 (P)} − P

181
prend les valeurs suivantes

−0.0001, −0.0002, 0.0000, 0.0004, 0.0012, 0.0011, 0.0000,

correspondant aux valeurs de P

0.0014, 0.0064, 0.0228, 0.0664, 0.1575, 0.3074, 0.5000.

2. Soit X = (X1 , . . . , Xn )T un échantillon, dont la fonction de la répartition F(x) appar-


tient à une famille F = (F) de fonctions de répartition continues. Comme précédemment,
on note f (x) la densité de F(x) :
Zx
F(x) = f (t) dt.
−∞

Dans ce cas, si µ = µ(F) est la médiane de la distribution, dont la fonction de répartition est
F(x), alors
µ(F)
Z
f (x) dx = F(µ(F)) = 0.5,
−∞
i.e.
P {Xi < µ(F)} = P {Xi ≥ µ(F)} = 0.5.
Notre but est de construire un intervalle de confiance pour µ(F).
Soit X (·) = (X(1) , . . . , X(n) )T le vecteur des statistiques d’ordre, construit en utilisant
l’échantillon X. Dans ce cas avec la probabilité 1

X(1) < X(2) < . . . < X(n) .

Comme intervalle de confiance, on peut choisir

(X(i) , X( j) ), i < j.

Il est très naturel de choisir cet intervalle symétrique en posant j = n − i − 1, puisque nous
nous sommes intéressés à l’obtention de conclusions statistiques qui sont indépendantes de
la distribution inconnue F. De la définition des statistiques d’ordre X(1) , ..., X(n) il s’ensuit
que © ª
P X(i) < µ(F) < X( j) |F =
© ª © ª
= 1 − P X(i) ≥ µ(F)|F − P X( j) ≤ µ(F)|F =
© ª © ª
= 1 − P F(X(i) ) ≥ F(µ(F))|F − P F(X( j) ) ≤ F(µ(F))|F =
= 1 − P(U(i) ≥ 0.5) − P(U( j) ≤ 0.5) =
i−1 µ ¶ µ ¶n n µ ¶ µ ¶n
n 1 n 1
= 1− ∑ −∑ ,
m=0
m 2 m= j
m 2
et on voit bien que cette probabilité ne dépend pas de F, c’est-à-dire qu’on a obtenu une
statistique "libre" comme on l’avait voulu. On note ici que comme d’habitude

U (·) = (U(1) , ...,U(n) )T

182
représente le vecteur des statistiques d’ordre associé à l’échantillon U = (U1 , ...,Un )T de la
loi uniforme sur (0,1).
Maintenant, considérons l’intervalle de confiance "symétrique", i.e. j = n − i + 1. Dans
ce cas on a
© ª i−1 µ ¶ µ ¶n
n 1
P X(i) < µ(F) < X(n−i+1) |F = 1 − 2 ∑ ,
m=0
m 2
car µ ¶ µ ¶n µ ¶ µ ¶n i−1 µ ¶ µ ¶n
n n
n 1 n 1 n 1
∑ m 2
= ∑
m 2
= ∑
m 2
.
m= j m=n−i+1 m=0

Donc quand n est grand, du Théorème de de Moivre-Laplace on déduit que


µ ¶
© ª i − 1 − n
+ 0.5
P X(i) < µ(F) < X(n−i+1) |F ∼ = 1 − 2Φ √2
=
0.5 n
µ ¶ µ ¶
2i − n − 1 n + 1 − 2i
= 1 − 2Φ √ = 2Φ √ − 1. (3.8)
n n
Comment trouver le numéro i dans (8) quand le coefficient de confiance P est donné
d’avance ? Pour cela il faut résoudre l’équation
µ ¶
n + 1 − 2i
2Φ √ −1 = P (3.9)
n

par rapport à i (on remarque que 0.5 < P < 1), d’où l’on obtient
µ ¶
n + 1 − 2i 1+P
√ =Ψ ,
n 2

où Ψ(z) = Φ−1 (z), et donc


· ½ µ ¶¾ ¸
√ 1+P
i = 0.5 n + 1 − nΨ +1 ,
2

où [a] dans la dernière formule est la partie entière du nombre a.

3.3 Théorème de Kolmogorov.



A.Kolmogorov (1933) a trouvé la distribution limite (n → ∞) de la statistique nDn
lorsque F(x) est une fonction continue.
Theoreme (de Kolmogorov). Si F(x) est continue, alors pour z > 0

©√ ª +∞

n→∞
lim P nDn ≤ z = K(z) = ∑ (−1) j exp(−2 j2 z2 ). (3.1)
j=−∞

On dit que K(z) est la fonction de répartition de Kolmogorov. Il y a des tables sta-
tistique (voir, par exemple, Smirnov (1939), Birnbaum (1952), Bolshev et Smirnov (1968),
Conover (1980)) des valeurs de la fonction de Kolmogorov K(z), mais en pratique pour

183
faire des calculs approximatifs, quand z > 2.5, on utilise souvent une simple approximation
évidente :
K(z) ∼
2
= 1 − 2e−2z .
Soit P un nombre fixé, 0.5 < P < 1, et soit zP le quantile de niveau P de la fonction de la
répartition de Kolmogorov, c’est-à-dire zP est la racine de l’équation K(z) = P :

K(zP ) = P.

Dans ce cas de (1) on tire que ©√ ª


P nDn ≤ zP =
½ ¾
1 1
= P Fn (x) − √ zP ≤ F(x) ≤ Fn (x) + √ zP → K(zP ) = P, (3.2)
n n
quand n → ∞. C’est-à-dire que si n est grand, alors avec la probabilité ∼
= P les valeurs F(x)
pour tout x satisfont les équations
1 1
Fn (x) − √ zP ≤ F(x) ≤ Fn (x) + √ zP . (3.3)
n n

Comme 0 ≤ F(x) ≤ 1, la dernière relation peut être s’écrire :


µ ¶ µ ¶
1 1
max 0, Fn (x) − √ zP ≤ F(x) ≤ min Fn (x) + √ zP , 1 .
n n

3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov


pour des lois discrètes.

Transformation de Smirnov pour une distribution continue. Soit X une variable


aléatoire dont la fonction de répartition F(x) = P{X ≤ x} est continue et croissante. Dans
ce cas, la statistique U = F(X) suit une loi uniforme sur [0, 1]. Pour prouver cette affirmation
on remarque tout d’abord que

P{U ≤ u} = 0 pour tout u≤0

et que
P{U ≤ u} = 1 pour tout u ≥ 1.
Soit u un nombre réel quelconque, 0 < u < 1. Dans ce cas comme F(x) est continue et
croissante on obtient
© ª © ª
P{U ≤ u} = P F −1 (U) ≤ F −1 (u) = P X ≤ F −1 (u) =

= F(F −1 (u)) = u, 0 < u < 1.


Transformation de Smirnov pour une distribution arbitraire. Soit X une variable
aléatoire quelconque et soit

F(x) = P{X ≤ x} et F− (x) = P{X < x}.

184
Il est évident que si X est une variable aléatoire continue

F(x) = F− (x).

Alors on peut démontrer (voir §V.1), que

P{F(X) ≤ z} ≤ z ≤ P{F− (X) < z}

pour tout z ∈ [0, 1].


Colloraire 1. Si la distribution de X est continue, dans ce cas

P{F(X) ≤ z} = P{F(X) < z} = z, z ∈ [0, 1].

Colloraire 2. Soit U une variable aléatoire qui suit la loi uniforme sur [0,1] et qui est
indépendante de X. Dans ce cas la statistique

Z = F− (X) +U [F(X) − F− (X)]

suit la loi uniforme sur [0,1],


P{Z ≤ z} = z
pour tout les z ∈ [0, 1].
Colloraire 3. Soient X1 , X2 , . . . , Xn des variables aléatoires indépendantes dont les fonctions
de répartition sont connues :

Fi (x) = P{Xi ≤ x}, Fi− (x) = P{Xi < x}, i = 1, 2, . . . , n.

De plus, soient U1 ,U2 , . . . ,Un des variables aléatoires indépendantes, qui suivent la même
loi uniforme sur [0,1] et qui sont indépendantes de X1 , X2 , . . . , Xn . Dans ce cas, d’après de
colloraire 2, les statistiques Z1 , Z2 , . . . , Zn , où

Zi = Fi− (Xi ) +Ui [Fi (Xi ) − Fi− (Xi )] ,

sont indépendantes et uniformément distribuées sur [0,1].


Le colloraire 3 nous donne la posibilité de construire les tests non paramétriques de Kol-
mogorov, de Smirnov, d’omega-carré de Von Mises etc., dans les situations où les données
X1 , X2 , . . . , Xn sont indépendantes et suivent des lois continues ou discrètes.

Applications statistiques.
Soient X1 , X2 , . . . , Xm des variables aléatoires indépendantes et nous avons à tester l’hy-
pothèse H0 selon laquelle
ni !
P {Xi = k} = pk (1 − pi )ni −k , i = 1, 2, . . . , m,
(ni − k)!k! i
où tout les pi et n1 , n2 , . . . , nm sont connus, 0 < pi < 1 ; k = 0, 1, . . . , ni . C’est-à-dire que, si
H0 est vrai, alors Xi suit une loi binomiale B(ni , pi ( de paramètres ni et pi , et donc

Fi (x) = P{Xi ≤ x} = I1−pi (ni − x, x + 1), x = 0, 1, . . . , ni ,

et
Fi− (x) = P{Xi < x} = P{Xi ≤ x − 1} = I1−pi (ni − x + 1, x),

185
où Ix (a, b) définie ci-dessous est la fonction béta-incomplète d’Euler, et par conséquent pour
appliquer le test de Kolmogorov, par exemple, pour tester H0 il ne reste qu’à construire
d’après le colloraire 3 les statistiques

Zi = I1−pi (ni − Xi + 1, Xi ) +Ui [I1−pi (ni − Xi , Xi + 1) − I1−pi (ni − Xi + 1, Xi )] ,

i = 1, 2, . . . , m.

Plus de détails on peut trouver dans Nikulin (1992), Huber et Nikulin (1993), Green-
wood et Nikulin (1996).
Récemment M.Hocine a fait les études intéressantes sur le comportement de ce test et
du test de type de omega-carré basées sur cette transformation de Smirnov.

3.4 Tests de Kolmogorov et Smirnov pour un échantillon.

Si la fonction de répartition de X1 est inconnue mais qu’on a fait l’hypothèse H0 , d’après


laquelle
P {X1 ≤ x} = F(x),
où F(x) est une fonction de répartition continue donnée, alors nous pouvons tester H0 , en
utilisant le théorème de Kolmogorov. Symboliquement l’hypothèse H0 peut être présentée
par la façon suivante :
H0 : EFn (x) ≡ F(x).
On détermine la statistique de Kolmogorov

Dn = sup |Fn (x) − F(x)|,


|x|<∞

qui est désignée pour tester H0 contre l’hypothèse bilatérale

H1 : sup |EFn (x) − F(x)| > 0,


|x|<∞

et on considère en outre, les statistiques de Smirnov

D+
n = sup (Fn (x) − F(x)) et Dn− = − inf (Fn (x) − F(x)) ,
|x|<∞ |x|<∞

qui sont utilisées pour tester H0 contre les alternatives unilatérales

H1+ : sup (EFn (x) − F(x))


|x|<∞

et
H1− : − inf (EFn (x) − F(x))
|x|<∞

186
respectivement.
Il est clair que Dn = max(D+ −
n , Dn ). En utilisant la transformation de Smirnov, on peut
montrer que
³m ´ µ ¶
+ − m−1
Dn = max − F(X(m) ) et Dn = max F(X(m) ) − . (3.1)
1≤m≤n n 1≤m≤n n
Il est clair aussi, que si H0 est vraie, alors
© ª © − ª
P D+ n ≤ x|H0 = P Dn ≤ x|H0 , (3.2)

c’est-à-dire que, D+ −
n et Dn suivent la même loi, quand H0 est vraie.
Comme a montré Smirnov (1944), pour tout x ∈ (0, 1)
µ ¶ µ ¶ µ ¶
© + ª [n(1−x)] n k k−1 k n−k
P Dn ≥ x|H0 = ∑ x x+ 1−x− , (3.3)
k=0
k n n

[a] - partie entière de a.


On peut montrer (Kolmogorov (1933), Smirnov (1944), Chernoff and Savage (1958),
Bolshev (1963), Huber, Nikulin (1993)), que si n → ∞ et x appartient au domaine
n o
x : 0 < ε ≤ x = O(n1/3 ) ,

alors
½ ¾ µ ¶
(6nD+n + 1)
2 ¡ −x
¢ 2x2 − 4x − 1 −x 1
P < x|H0 = 1−e + e +O √ , (3.4)
18n 18n n n
et ½ ¾
(6nDn + 1)2
P < x|H0 =
18n
µr ¶ µ ¶
x 1 ∞ £ ¤ 1
=K
2
− ∑ (−1) e
18 k=−∞
k −k2 x 4 2
Pk (x) + 2k x − k + O √ ,
n n
(3.5)

où · ¸
2 1 − (−1)k
Pk (x) = k − (1 − 2k2 x) + 2k2 x(k2 x − 3) =
2
£ ¤ (−1)k − 1
= k2 2k2 x2 − 2x(k2 + 3) + 1 + (1 − 2k2 x).
2
Comme χ22m = 2γm et

P{γ1 ≤ x} = 1 − e−x , pour tout x > 0,

de (4) et de (5) on déduit que pour les grandes valeurs de n la statistique


(6nD+
n + 1)
2

9n
est approximativement distribuée comme χ22 et que
½ ¾ µr ¶
(6nDn + 1)2 x
P <x ≈K .
18n 2

187
Ces deux approximations sont déja bonnes pour n ≥ 20, les erreurs de ces approximations
diminuent comme n1 .
Soit α le niveau du test de Kolmogorov (0 < α < 0.5), basé sur la statistique Dn , et
soient xα+ et xα , les valeurs critiques des tests basés sur D+
n et Dn , i.e.
© + ª
P Dn ≥ xα+ = α et P {Dn ≥ xα } = α.

D’après le test de Kolmogorov


on rejette H0 en faveur de l’hypothèse H1 si Dn ≥ xα .
De la même façon, d’après le test de Smirnov
on rejette H1 en faveur de l’hypothèse H1+ si D+n ≥ xα .
On remarque que pour les petites valeurs de α (0 < α ≤ 0.2) il y a une liaison entre les
+
valeurs critiques xα et xα/2 :
xα ∼ +
= xα/2 ,
et l’erreur dans cette égalité est inférieure à 0.0005 :
+
|xα − xα/2 | ≤ 0.0005.

On peut montrer que cette erreur diminue très vite quand α diminue. Par exemple, si α ≤ 0.1
, alors
+
|xα − xα/2 | ≤ 0.00005.
+
Si n ≥ 10 et 0.01 ≤ α ≤ 0.2, pour calculer xα et xα/2 il est recommandé d’utiliser les
approximations de Bolshev (1963) :
s µ ¶
1 2y 2 − 4y − 1 α
xα ∼
= y− , y = − ln
2n 18n 2
s µ ¶
+∼ 1 2y2 − 4y − 1
xα = y− , y = − ln α.
2n 18n
On peut remarquer que si n est assez grand, alors
s µ ¶ r
1 2y2 − 4y − 1 ∼ y
y− = .
2n 18n 2n

Dans la pratique ces formules donnent déjà de bons résultats dans le cas α > 0.001 pour
n ≥ 20.
Enfin, si
0.2 ≤ α ≤ 0.3 et 10 ≤ n ≤ 50,
alors en prenant pour y la racine de l’équation
µr ¶
y
K = 1 − α,
2
on obtient encore une approximation de Bolshev (1963)
s ½ ¾
1 1 1
xα ∼
= y− [(2y2 − 4y − 1) − α3 (3y2 − y + 0.5)] − .
2n 18n 6n

188
Dans le cas n ≥ 100 toutes ces approximations sont très bonnes pour calculer xα et xα+ pour
tout α tel que 0.0001 ≤ α ≤ 0.5.

3.5 Test de Kolmogorov-Smirnov pour deux échantillons.

Soient X = (X1 , . . . , Xn )T et Y = (Y1 , . . . ,Ym )T deux échantillons indépendants, et soit

F(x) = P{Xi < x} et G = P{Y j < y}

les fonctions de répartition continues de Xi et Y j respectivement. Nous pouvons construire


deux lois empiriques, qui correspondent aux deux échantillons donnés X et Y. Notons Fn (x)
et Gm (x) les fonctions de répartition de ces lois empiriques.
On utilise le test de Kolmogorov-Smirnov pour tester l’hypothèse

H0 : F(x) ≡ G(x), x ∈ R1 ,

qui peut s’écrire en fonction de Fn et Gm de la façon suivante :

H0 : EFn (x) ≡ EGm (x),

contre l’hypothèse bilatérale

H1 : sup |EGm (x) − EFn (x)| > 0,


|x|<∞

ou contre l’une de deux hypothèses unilatérales :

H1+ : sup (EGm (x) − EFn (x)) > 0


|x|<∞

ou
H1− : − inf (EGm (x) − EFn (x)) > 0
|x|<∞

respectivement. Pour tester H0 contre H1 on peut utiliser la statistique

Dm,n = sup |Gm (x) − Fn (x)|, (3.1)


|x|<∞

où Gm (x) et Fn (x) sont les fonctions empiriques, associées à Y et X.


Si on teste H0 contre H1+ où H1− , on utilise les statistiques

D+
m,n = sup (Gm (x) − Fn (x)) et D−
m,n = − inf (Gm (x) − Fn (x)) . (3.2)
|x|<∞ |x|<∞

Smirnov a montré (1939) que si l’hypothèse H0 est vraie, alors les statistiques D+ +
m,n , Dn,m ,
− −
Dm,n , Dn,m suivent la même loi. En pratique les valeurs des statistiques (1) et (2) sont cal-
culées d’après les formules suivantes :
³r ´ µ ¶
+ s−1
Dm,n = max − Fn (Y(r) ) = max Gm (X(s) ) − ,
1≤r≤m m 1≤s≤n n

189
µ ¶ ³s ´
r−1
D−
m,n = max Fn (Y(r) ) − = max − Gm (X(s) ) ,
1≤r≤m m 1≤s≤n n
Dm,n = max(D+ −
m,n , Dm,n ),

où X(i) et Y( j) sont les statistiques d’ordre, correspondant aux échantillons. On peut obtenir
ces formules en utilisant la transformation de Smirnov et les propriétés des statistiques
d’ordre de la loi uniforme sur [0, 1]. Smirnov (1939) a montré, que si min(m, n) → ∞, alors
pour tout y positif ½r ¾
mn + 2
lim P Dm,n < y|H0 = 1 − e−2y ,
m+n
½r ¾
mn
lim P Dm,n < y|H0 = K(y),
m+n
où K(z) est la fonction de Kolmogorov.

3.6 Test ω2 de Cramer-von Mises et statistiques associées


de Lehmann, Gini, Downton, Moran-Greenwood et Sher-
man.

Souvent pour tester l’hypothèse simple

H0 : EFn (x) ≡ F(x), |x| < ∞,

contre l’alternative
H1 : sup |EFn (x) − F(x)| > 0,
|x|<∞

au lieu d’utiliser le test de Kolmogorov, on construit le test ω2 de Cramer et Von Mises,


fondé sur la statistique
Z∞
ω2
= ω2n =n [Fn (x) − F(x)]2 dF(x).
−∞

La statistique ω2 est aussi très intéressante à cause de ses liaisons avec d’autres statistiques,
bien connues en statistique, par exemple, avec la statistique Ln de Lehmann, la statistique
G de Gini, la statistique "σ" de Downton, la statistique Mn de Moran et Greenwood (pour
plus de détails voir, par exemple, Kendall et Stewart, Cramer, Mises). Pour démontrer ces
propriétés de la statistique ω2 , on peut l’écrire sous une autre forme, beaucoup plus pratique
dans les applications :
n · ¸
2i − 1 2 1
ω = ∑ F(X(i) ) −
2
+ ,
i=1 2n 12n

où X(·) = (X(1) , X(2) , . . . , X(n) )T est le vecteur des statistiques d’ordre, associé à l’échantillon
X.

190
En fait, on a
X(i+1)· ¸2
Z∞ n Z
i
ω2n =n [Fn (x) − F(x)] dF(x) = n ∑
2
− F(x) dF(x) =
i=0 X n
−∞ (i)

X(i+1)
Z · ¸ · ¸ · ¸
n n i 3 n n i 3 i 3
= ∑ d F(x) − = ∑ F(X(i+1) ) − − F(X(i) ) − .
3 i=0 n 3 i=0 n n
X(i)

On suppose que :
© ª © ª
P F(X(n+1) ) = 1 = 1 et P F(X(0) ) = 0 = 0.

Comme
i i+1 1
F(x) − = F(x) − +
n n n
alors · ¸ · ¸ · ¸
i 3 i+1 3 3 i+1 2
F(X(i+1) ) − = F(X(i+1) ) − + F(X(i+1) ) − +
n n n n
· ¸
3 i+1 1
+ 2 F(X(i+1) ) − + 3,
n n n
on en déduit que
(
n+1 · ¸3 · ¸
n i 3 n+1 i 2
ω2n =
3 ∑ F(X(i) ) −
n
+ ∑ F(X(i) ) −
n i=1 n
+
i=1

· ¸ · ¸ )
3 n+1 i n+1 n i 3
+ 2 ∑ F(X(i) ) − + 3 ∑ F(X(i) ) − =
n i=1 n n i=1 n
(µ ¶ · ¸ µ ¶
n n+1 3 3 n i 2 3 n+1 2
= 1− + ∑ F(X(i) ) − + 1− +
3 n n i=1 n n n
· ¸ µ ¶ )
3 n i 2 3 n+1 n+1
+ ∑ F(X(i) ) − + 2 1− + 3 =
n i=1 n n n n
( (· ¸ · ¸ ) )
n 1 3 n i 2 1 i 1 1
= + ∑ F(X(i) ) − + F(X(i) ) − + 2 − 2 =
3 n2 n i=1 n n n 4n 4n
( · ¸ )
n 3 n 2i − 1 2 1
=
3 n i=1∑ F(X(i) ) −
2n
+ 2 =
4n
n · ¸
2i − 1 2 1
= ∑ F(X(i) ) − + .
i=1 2n 12n
Donc si les éléments Xi de l’échantillon X sont des variables continues, des propriétés de la
transformation de Smirnov il suit que la statistique U = (U1 , . . . ,Un )T , Ui = F(Xi ), repré-
sente un échantillon, où Ui suit la loi uniforme sur [0, 1]. Si nous notons U(·) = (U(1) ,U(2) , . . . ,U(n) )T

191
le vecteur des statistiques d’ordre, associé à la statistique U, alors en fonction de U(·) la sta-
tistique ω2 peut être présentée de façon suivante :
n · ¸
2i − 1 2 1
ω = ∑ U(i) −
2
+ .
i=1 2n 12n

Cette présentation de la statistique ω2 montre bien que sa distribution ne dépend pas de


F(x) si H0 est vraie. Il y a des tables statistiques de la loi limite (n → ∞) de la statistique
ω2 , qui a été étudiée par Smirnov (1944) et T.W.Anderson et D.A.Darling (1952).
Nous allons considérer maintenant une modification Ω2n de la statistique ω2n , qui d’un
côté est très liée avec les statistiques Ln de Lehmann, G de Gini, "σ" de Downton et Mn de
Moran et Greenwood, et d’un autre côté a une distribution asymptotique très simple sous
l’hypothèse H0 , quand n → ∞, voir, par exemple, Greenwood & Nikulin (1996).
Soit Σ −1 la matrice inverse de la matrice de covariance Σ du vecteur U(·) . On peut
facilement vérifier que
Σ−1 = kσi j k,
où 
 2(n + 1)(n + 2), si i = j,
σi j = −(n + 1)(n + 2), si |i − j| = 1,

0, si |i − j| ≥ 2.
Notons Ω2n la statistique
h iT h i
Ω2n = U(·) − EU(·) Σ−1 U(·) − EU(·) ,

que l’on peut écrire :


" #
n n−1
n
Ω2n = 2(n + 1)(n + 2) ∑ U(i)
2
− ∑ U(i)U(i+1) −U(n) + .
i=1 i=1 2(n + 1)

Nous savons que


· ¸T
(·) 1 2 n
EU = , ,...,
n+1 n+1 n+1
et que la matrice de covariance de U(·) est
³ ´³ ´T
E U(·) − EU(·) U(·) − EU(·) = Σ = kσi j k,



 i(n − j − 1)
µ ¶µ ¶  (n + 1)2 (n + 2) , si i ≤ j,

i j
σi j = σ ji = E U(i) − U( j) − =
n+1 n+1 
 j(n − i + 1)

 , si i ≥ j,
(n + 1)2 (n + 2)

En utilisant ces propriétés de la statistique U(·) , on peut montrer que


1 4n − 3
Eω2 = et Varω2 = ,
6 180

192
et qu’on a la représentation suivante pour la statistique ω2 :
1
ω2 = Ln + Ψn + ,
6(n + 1)
où µ ¶2
n
i ³ ´T ³ ´
Ln = ∑ U(i) − = U − EU(·) (·)
U − EU (·)
(·)
i=1 n+1
est la statistique de Lehmann (1973), Ψn étant une combinaison linéaire des statistiques
d’ordre : µ ¶
n
n − 2i + 1 i
Ψn = ∑ U(i) − .
i=1 n(n + 1) n+1
Par des calculs directs, on peut montrer (voir, par exemple, Nikulin et Osidze (1985)), que

n n2
ELn = , VarLn = ,
6(n + 1) 45(n + 1)2

(n − 1)(n + 3)
EΨn = 0, VarΨn = ,
180n(n + 1)3
s
n−1 n−1
Cov(Ln , Ψn ) = , Corr(Ln , Ψn ) = .
90(n + 1)2 n(n + 3)
De plus on peut facilement vérifier que Ψn est liée par la relation suivante
n−1 n−1
Ψn = G+
2(n + 1) 6(n + 1)
à la statistique G de Gini :
1 ¯ ¯
G= ∑
n(n − 1) i, j
¯U(i) −U( j) ¯ ,

qui à son tour est liée à la statistique "σ" de Downton :


π
”σ” = G,
2
et par conséquent on trouve que
n−1 n √ n−1 n
ω2 = L n + G+ = Ln + π ”σ” + .
2(n + 1) 6(n + 1) n+1 6(n + 1)

Nous allons considérer maintenant une modification Ω2n de la statistique ω2 . Soit Σ −1 la


matrice inverse de la matrice de covariance Σ du vecteur U(·) . On peut facilement vérifier
que
Σ−1 = kσi j k,
où 
 2(n + 1)(n + 2), si i = j,
σi j = −(n + 1)(n + 2), si |i − j| = 1,

0, si |i − j| ≥ 2.

193
Notons Ω2n la statistique omega-deux généralisée
h iT h i
Ω2n = U(·) − EU(·) Σ −1 U(·) − EU(·) ,

que l’on peut écrire de la manière suivante :


" #
n n−1
n
Ω2n = 2(n + 1)(n + 2) ∑ U(i)
2
− ∑ U(i)U(i+1) −U(n) + .
i=1 i=1 2(n + 1)

En utilisant cette représentation de la statistique Ω2n , on peut montrer que

4n(n + 1)2 £ ¤3 16n(n + 1)2 (5n − 2)


EΩ2n = n, VarΩ2n = , E Ω2n − n = .
(n + 3)(n + 4) (n + 3)(n + 4)(n + 5)(n + 6)

De plus de cette dernière présentation de la statistique Ω2n il suit que

Ω2n = (n + 1)(n + 2)Mn − (n + 2),


n £ ¤2
Mn = ∑ U(i+1) −U(i)
i=1
est la statistique de Moran-Greenwood (voir, par exemple, Moran (1947)). La liaison di-
recte entre les statistique Mn et Ω2n et leurs propriétés nous permet d’affirmer que
(sµ ¶µ ¶ 2 )
3 3 Ωn − n
lim P 1+ 1+ √ < x|H0 = Φ(x), x ∈ R1 .
n→∞ n n+1 2 n+1

Donc pour tester H0 on peut utiliser la normalité asymptotique de la statistique Ω2n .


Parlons maintenant de la statistique de Sherman (1950), qui est liée avec les statistiques
considérées dans ce paragraphe.
Soit U = (U1 , . . . ,Un )T un échantillon, où Ui suit la loi uniforme sur [0, 1]. Comme
précédemment, notons
U(·) = (U(1) , . . . ,U(n) )T (3.1)
le vecteur des statistiques d’ordre, associé à la statistique U.
Notons
U(0) ≡ 0 et U(n+1) ≡ 1. (3.2)
Nous déterminons la statistique de Sherman sn par la formule
¯ ¯
1 n+1 ¯¯ 1 ¯¯
sn = ∑ ¯Di − , (3.3)
2 i=1 n + 1¯


Di = U(i) −U(i−1) . (3.4)
On sait que
· ¸n+1
1
Esn = 1 − (3.5)
n+1

194
et · ¸
2nn+2 + n(n − 1)n+2 1 2(n+1)
Varsn = − 1− . (3.6)
(n + 2)(n + 1)n+2 n+1
En utilisant ces propriétés de la statistique sn , on déduit que
1 e−1
Esn → et Varsn → , n → ∞.
e e2
D’apres le théorème limite centrale, si n est assez grand,
½ ¾ µ ¶
esn − 1 1
P √ ≤ x = Φ(x) + O √ ,
e−1 n
ce qui signifie que la statistique de Sherman est asymptotiquement normale N(0, 1), et donc
la statistique
(esn − 1)2
X2 =
e−1
suit à la limite (n → ∞) la loi du chi-deux à un degré de liberté, et on peut utiliser ce résultat
pour tester l’hypothèse H0 selon laquelle Ui suit une loi uniforme sur [0, 1].

3.7 Les statistiques de Kolmogorov et Gihman.

Soit U = (U1 ,U2 , . . . ,Un )T un échantillon, Ui suit une loi uniforme sur [0, 1],

P{Ui ≤ x} = x, x ∈ [0, 1]. (3.1)

Notons U(·) = (U(1) , ...,U(n) )T le vecteur des statistiques d’ordre, associé à la statistique U :

0 ≡ U(0) ≤ U(1) ≤ · · · ≤ U(n−1) ≤ U(n) ≡ 1. (3.2)

Soit Fn (x) la fonction de répartition de la loi empirique associée à U :

1 n
Fn (x) = ∑ 1[Ui≤x],
n i=1
x ∈ [0, 1]. (3.3)

Il est facile de montrer (voir, par exemple §10) que pour tout x donné, x ∈ [0, 1], la statistique
nFn (x) suit la loi binomiale B(n, x) de paramètres n et x et par conséquent on a :

EFn (x) = x et nCov(Fn (x), Fn (y)) = x ∧ y − xy, 0 ≤ x, y ≤ 1;


(3.4)
Fn (x) → x avec la probabilité 1 pour tout x quand n → ∞.
Dans la pratique il faut avoir beaucoup d’observations pour utiliser la fonction empirique
Fn (x). Pour cette raison on peut raisonablement considerer la situation avec des données
groupées. Il est intéressant étudier la conduite de la fonction de répartition de la loi empi-
rique Gn (x), correspondant aux données groupées.
Soit p = (p1 , p2 , . . . , pr , pr+1 )T un vecteur de probabilités positives,

pi > 0, p1 + p2 + . . . + pr + pr+1 = 1, (3.5)

195
où r(n) ≥ 1. Posons x0 = 0, xr+1 = 1,

x j = p1 + p2 + . . . + p j , j = 1, . . . , r.

On obtient ainsi une partition de [0,1] en r + 1 intervalles

[0, x1 ], (x1 , x2 ], . . . , (xr−1 , xr ], (xr , xr+1 ]. (3.6)

Soit ν = (ν1 , ..., νr , νr+1 )T le vecteur des fréquences obtenues en regroupant U1 , ...,Un dans
les classes (6). Nous déterminons la fonction de répartition empirique Gn (x) associée au
vecteur ν par la formule :
½
0, x = x0 = 0,
Gn (x) = ν1 +ν2 +...+νi (3.7)
n , xi−1 < x ≤ xi , i = 1, 2, 3, . . . , r + 1.
Nous pouvons maintenant construire la statistique de Gihman

Zn = (Zn1 , . . . , Znr )T ,

où · ¸
√ √ ν1 + . . . + νi
Zni = n [Gn (xi ) − xi ] = n − (p1 + . . . + pi ) . (3.8)
n
Il est clair que
EZn = (0, . . . , 0)T = 0r et EZn ZTn = Σ , (3.9)
où ° ° ° °
° x1 x1 x1 · · · x1 ° ° x1 °
° ° ° °
° x1 x2 x2 · · · x2 ° ° °
° ° ° x2 °
° ° °
x3 · · · x3 ° − ° x3 °
Σ=° x1 x2 ° kx1 , x2 , . . . , xr k. (3.10)
° .. .. .. .. ° ° .. °
° . . . . ° ° °
° ° ° . °
° x1 x2 x3 · · · xr ° ° xr °
Nous allons étudier les propriétés asymptotiques de la statistique Zn quand n → ∞.
a) Supposons tout d’abord que

r = r(n) → ∞ quand n→∞ (3.11)

de façon que la longueur maximale des intervalles (6) de groupement des données aille vers
zéro assez vite, i.e., que
max npi → 0 si n → ∞. (3.12)
1≤i≤r+1
Notons √
D∗n = max |Zn,i | et Dn = sup n|Fn (x) − x|.
1≤i≤r 0≤x≤1
Théorème (Gihman, 1961). Si r → ∞ et que (12) est vérifiée quand n → ∞, alors les
statistiques Dn et D∗n sont asymptotiquement equivalentes :

lim P{D∗n ≤ z} = lim P{Dn ≤ z} = K(z), (3.13)


n→∞ n→∞

où K(z) est la fonction de répartition de Kolmogorov,


+∞

2 z2
K(z) = (−1) j e−2 j , 0 < z < ∞.
j=−∞

196
De ce théorème il suit que sous la condition (12) nous pouvons utiliser la statistique Zn
quand n est assez grand pour construire des tests bien connus comme ω2 de Smirnov, Wn2
de Anderson et Darling (1952) ou de Sherman (1950) etc.
b) Maintenant nous supposons que les intervalles (6) sont fixés, r + 1 ≥ 2. Dans ce cas de
(3), (4), (8) et du théorème limite central multidimensionnel on déduit que la loi limite de
{Zn } quand n → ∞ est la loi normale N(0r , Σ ) de paramètres donnés par (9). Comme le
rang de la matrice de covariance Σ est égale à r, on en déduit qu’il existe une matrice
Σ−1 = kσi j k
dont les éléments σi j sont donnés par la formule suivante :
 ij
 σ = 0, |i − j| ≥ 2,






 σ
 i,i+1 = − 1 1
xi+1 −xi = − pi+1 , i = 1, . . . , r − 1,
(3.14)

 σi,i−1 = − xi −x1 i−1 = − p1i , i = 1, . . . , r,






 ii
σ = −(σi,i−1 + σi,i+1 ) = 1
xi+1 −xi + xi −x1 i−1 , i = j.

Nous pouvons maintenant construire la statistique Yn2 en posant


Yn2 = ZTn Σ −1 Zn .
Grâce à la normalité asymptotique de la statistique Zn on obtient que
lim P{Yn2 ≤ x} = P{χ2r ≤ x}.
n→∞

Il est facile de vérifier que Yn2 est la statistique classique de Pearson :


r+1
(νi − npi )2
Yn2 = ∑ npi . (3.15)
i=1
c) Enfin nous considérons le cas
r = r(n) → −∞ quand n → −∞, (3.16)
de façon que
max pi → 0 et min npi → ∞. (3.17)
1≤i≤r+1 1≤i≤r+1
Théorème (Tumanian, 1956). Si r → ∞ et si les conditions (7) ont lieu quand n → ∞,
alors ¯ µ ¶¯
¯ x − r ¯
sup ¯¯P{Yn ≥ x} − 1 + Φ √
2 ¯ → 0, n → ∞. (3.18)
|x|<∞ 2r ¯

3.8 Test des signes.

Soit X = (X1 , X2 , . . . , Xn )T un échantillon. On suppose que la fonction de répartition


F(x) = P {Xi ≤ x} de Xi est continue, mais inconnue.
Soit µ la médiane inconnue, elle aussi de la loi F(x), c’est-à-dire que
F(µ) = 0.5,

197
et supposons que nous voulions tester l’hypothèse H0 : µ = µ0 , où µ0 est un nombre donné,
contre l’une des trois hypothèses suivantes :

H1+ : F(µ0 ) > 0.5, ce qui signifie que µ0 > µ;

H1− : F(µ0 ) < 0.5, ce qui signifie que µ0 < µ;


H1 : F(µ0 ) 6= 0.5, ce qui signifie que µ0 6= µ.
Le test des signes est fondé sur la statistique

νn = Y1 +Y2 + . . . +Yn ,

où ½
1, si Xi > µ0 ,
Yi =
0, si Xi ≤ µ0 .
Il est évident que
P {Yi = 1|H0 } = F(µ0 ) = 1 − F(µ0 ) = 0.5,
i.e. sous l’hypothèse H0 la statistique Yi suit une loi de Bernoulli de paramètre de succès
p = 0.5, et par conséquent la statistique νn sous l’hypothèse H0 suit une loi binomiale de
paramètres n et p = 0.5 :
m µ ¶
n
P{νn ≤ m|H0 } = W (m, n) = ∑ (0.5)n =
i=0
i

= I0.5 (n − m, m + 1) = 1 − I0.5 (m + 1, n − m). (3.1)


Donc pour avoir le test, il faut trouver des nombres entiers k et K tels que
½ ½
W (k, n) ≤ α, W (K − 1, n) ≥ 1 − α,
et (3.2)
W (k + 1, n) > α, W (K − 2, n) < 1 − α,

où α est une probabilité inférieure à 0.5, 0 < α < 0.5.


Il est évident que les valeurs critiques k = k(α, n) et K = K(α, n) sont des fonctions non
décroissantes de n, et que, si la fonction F(x) est continue, alors k + K = n. Si on teste H0
contre H1+ , alors on est obligé de rejeter H0 en faveur de H1+ , si

νn ≤ k(α, n), (3.3)

et dans ce cas on a le test des signes de niveau ≤ α. On procède de même si on teste H0


contre H1− , en rejetant H0 en faveur de H1− si

νn ≥ K(α, n) (3.4)

et le niveau de ce test est ≤ α. Dans le cas où on teste H0 contre l’alternative H1 , on est


obligé de rejeter H0 en faveur de H1 , si

min(νn , n − νn ) ≤ k(α, n), (3.5)

et le niveau de ce test est ≤ 2α.


Exemple 1. Pendant le premier jour, un compteur a enregistré 20021 impulsions, tandis
que le jour suivant il y en a eu seulement 19580. Peut-on dire que le second jour on a observé

198
une diminution de l’intensité d’arrivée des impulsions ? Pour répondre à cette question on
choisit le modèle statistique d’après lequel les nombres d’impulsions observées sont des
réalisations de deux variables indépendantes X et Y où X suit la loi de Poisson de paramètre
λ (λ > 0) et Y suit la loi de Poisson de paramètre µ (µ > 0). Dans ce modèle il est bien
naturel de considérer comme hypothèse H0 : λ = µ, et comme alternative H1 : λ > µ. Pour
tester H0 contre H1 on peut utiliser le test des signes.
Si notre modèle est bon, alors pour tout x, y ∈ {0, 1, 2, . . . ...}

λx −λ µy −y
P {X = x,Y = y} = e e =
x! y!
µ ¶x µ ¶y
(λ + µ)x+y −(λ+µ) (x + y)! λ λ
= e 1− ,
(x + y)! x!y! λ+µ λ+µ
et donc la loi conditionnelle de X, conditionnée par la somme X +Y = n, est binomiale de
paramètres n et p = λ/(λ + µ), et par conséquent on en tire que l’hypothèse H0 : λ = µ est
vraie si et seulement si la loi conditionnelle de X est binomiale de paramètres n et p = 0.5 :
µ ¶
n
P {X = x|X +Y = n, H0 } = (0.5)n ,
x

et il nous faut tester l’hypothèse H0 : p = 0.5 contre une alternative H1 : p > 0.5. On peut
montrer que c’est le test des signes qui est le plus puissant dans ce problème. D’après ce test
on doit rejeter H0 , si X ≥ K = K(α, n), où n = 20021 + 19580 = 39601. La valeur critique
K est déterminée comme étant la solution du système
½
P {X ≥ K|X +Y = 39601, p = 0.5} ≤ α,
P {X ≥ K − 1|X +Y = 39601, p = 0.5} > α.

Mais d’après le théorème de de Moivre-Laplace


µ ¶
K − 0.5n − 0.5
P {X ≥ K|X +Y = n, p = 0.5} ∼
=Φ √ ,
0.25n
donc ½
K ∗, si K ∗ est entier,
K=
[K + 1], si K ∗
∗ est nonentier,
où √
∗ n+1 n
K = + Ψ(1 − α) .
2 2
Dans notre cas, α = 0.05 et

∗ 39602 39601
K = + 1.645 = 19964.7,
2 2
par conséquent K = 19965. Comme

X = 20021 > 19965,

on prend l’hypothèse H1 , d’apres laquelle on observe diminution d’intensité.

199
Exemple 2. Soit Z = (Z1 , . . . , Zn )T un échantillon, Zi = (Xi ,Yi )T est un vecteur aléatoire
à deux dimensions dont la densité p(x, y) est inconnue. Supposons que pour tout i, Xi et Yi
soient indépendantes et qu’il faille tester l’hypothèse

H0 : p(x, y) = p(y, x). (3.6)

Comme les Xi sont indépendantes de Yi , la condition (6) signifie que Xi et Yi sont distribuées
d’après la même loi (inconnue), et par conséquent pour tester H0 on peut construire le test
des signes. En fait, soit

 1, si Xi −Yi > 0,
Vi = i = 1, 2, . . . , n. (3.7)

0, si Xi −Yi < 0,

Sous l’hypothèse H0 la distribution de Vi est symétrique par rapport à 0, et donc si nous


posons
νn = V1 +V2 + . . . +Vn ,
de (6) et (7) il s’ensuit que sous l’hypothèse H0 la statistique νn est distribuée selon la loi (1)
donc en utilisant (2)–(5) nous pouvons utiliser le test des signes pour tester cette hypothèse.

3.9 Test de Wilcoxon.

Soient X = (X1 , . . . , Xn )T et Y = (Y1 , . . . ,Ym )T deux échantillons indépendants, et soit


© ª
F(x) = P {Xi ≤ x} et G = P Y j ≤ y

les fonctions de répartition de Xi et Y j respectivement. Le test de Wilcoxon est utilisé pour


tester l’hypothèse
H0 : F(x) ≡ G(x), x ∈ R1 ,
contre l’hypothèse
H− : F(x) < G(x), x ∈ R1 ,
ou contre l’hypothèse
H+ : F(x) > G(x), x ∈ R1 ,
ou contre H− et H+ ensemble.
Ce test est fondé sur la statistique linéaire des rangs
m
W = Wn,m = ∑ Ri ,
i=1


R1 < R2 < R3 < · · · < Rm
sont les rangs des observations Y1 , . . . ,Ym dans l’échantillon unifié

Z = (X1 , . . . , Xn ,Y1 , . . . ,Ym )T

200
de taille n + m. Pour construire le vecteur RY = (R1 , R2 , . . . , Rm )T des rangs des observa-
tions Y j , il faut construire le vecteur Z(·) des statistiques d’ordre, associé à l’échantillon Z,
et déterminer les numéros des positions des variables aléatoires Y j . Si, par exemple, l’hypo-
thèse H− est vraie, on dit que les variables aléatoires Y j sont stochastiquement plus grandes
que les variables aléatoires Xi , ce qui signifie en pratique que les variables aléatoires Y j
ont tendance (sous l’hypothèse H− ) à prendre des positions à l’extrémité droite du vecteur
des statistiques d’ordre Z et par conséquent leurs rangs Ri ont tendance à avoir de grandes
valeurs, et par suite la statistique de Wilcoxon a tendance à prendre de grandes valeurs, ce
que l’on utilise pour tester H0 contre H− , en rejetant H0 en faveur de H− quand W > cα , où
cα est la valeur critique du test de Wilcoxon. On peut montrer que

n(n + 1)
W =U + ,
2

n m
U = Um,n = ∑ ∑ Vi j , (3.1)
i=1 j=1

est la statistique de Mann-Whitney,


½
1, si Y j > Xi ,
Vi j = (3.2)
0, si Y j < Xi .

Par des calcul directs (mais pas simples !) on peut montrer que

m(N + 1) mn(N + 1)
E {W |H0 } = et Var {W |H0 } = ,
2 12
où N = n + m. Les valeurs critiques cα de niveau α (0 < α < 0.5) de la statistique W sont
des nombres entiers, qui satisfont aux inégalités

P {W ≤ cα |H0 } ≤ α et P {W ≤ cα + 1|H0 } > α.

Pour les calculer on utilise, par exemple, les tables statistiques de Verdooren (1963) pour

m = 1(1)25, n = m(1)25 et α = 0.001, 0.005, 0.010, 0.025, 0.05, 0.1.

Comme la distribution de la statisique W est symétrique par rapport à son espérance ma-
thématique EW , pour calculer une valeur critique c1−α , 0 < α < 0.5, on utilise la relation
suivante :
c1−α = EW − cα .
Il est évident que le couple (cα , c1−α ) nous donne les valeurs critiques du test bilatéral de
Wilcoxon de niveau 2α, que l’on utilise pour tester H0 contre H+ et H− à la fois.
Si l’un des deux nombres n ou m est supérieur à 25, pour calculer les valeurs critiques du
test de Wilcoxon, on utilise l’approximation normale de Mann et Whitney (1947), d’après
laquelle ½ ¾
W − EW
P √ < w|H0 → Φ(w),
VarW
quand min(m, n) → ∞, |w| < ∞.

201
Fix et Hodges (1955) ont donné une autre approximation, qui donne déjà de bons résul-
tats quand min(m, n) ≥ 5. D’après cette approximation

N + N − mn 2
P {W ≤ w|H0 } ∼
= Φ(x) + ϕ(x)(x3 − 3x) ,
20mn(N + 1)

w − EW + 0.5
N = m+n et√ x= .
VarW
Ce résultat permet d’obtenir assez facilement des approximations normales pour des valeurs
critiques cα : Ã r !
m(N + 1) − 1 mn(N + 1)
cα ∼
= − Ψ(1 − α) ,
2 12
où [x] dénote la partie entière du nombre x. On remarque ici que tous ces résultats, liés
avec des approximations, sont valables si parmi les Xi et Y j il n’y a pas d’ex aequo. En
principe, on ne devrait
© pas enªavoir, puisque Xi et Y j sont des variables aléatoires continues
et par conséquent P Xi = Y j = 0. Mais à cause des erreurs d’arrondis, on obtient souvent
des observations égales. Dans ce cas on attribue aux observations qui sont des ex aequo,
un rang égal à la moyenne arithmétique des rangs que ces observations auraient eu avant
la procédure d’arrondissement. Notons W ∗ = Wn,m ∗ la statistique de Wilcoxon dans ce cas.

L’opération d’arrondissement ne change pas EW , EW = EW ∗ , mais elle change la variance.


Par des calculs directs, on peut montrer qu’alors :
 M

 ∑ ti (ti − 1 
2
∗ nm  i=1 ,
VarWn,m = (N + 1) 1 −
12 N(N 2 − 1) 

où ti est le nombre d’ex aequo dans le groupe numéro i et M est le nombre des groupes d’ex
aequo.
Demonstration.
Soient X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym des variables aléatoires continues, Xi suit une loi dont
la fonction de répartition est F(x) et Y j suit une loi dont la fonction de répartition est G(x)
avec, par exemple, G(x) = F(x − θ). Supposons que l’on teste l’hypothèse H0 , contre l’hy-
pothèse H− . Donc si H0 est vraie, alors les variables aléatoires

X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym

forment un échantillon
Z = (X1 , X2 , . . . , Xn ,Y1 ,Y2 , . . . ,Ym )T
de taille N = n + m. On remarque que
© ª
P Xi = Y j = 0,

car Xi et Y j sont continues, mais à cause des erreurs d’arrondi on a des ex aequo.
Tout d’abord, on remarque que comme
n(n + 1)
W = Wn,m = Un,m + ,
2

202
alors VarW = VarUn,m .
Supposons que le vecteur Z(·) des statistiques d’ordre ait au moins un groupe de statistiques
d’ordre qui soient égales et que les rangs de ces ex aequo dans ce groupe soient

k + 1, k + 2, . . . , k + t.

Soit µ le nombre des Xi de ce groupe, alors t − µ est le nombre des Y j parmi ces t ex-aequo.
Il est clair que µ suit la loi hypergéométrique :
µ ¶µ ¶
n m
x t −x
P {µ = x} = µ ¶ .
N
t

Pour k et t fixés posons


n m
U ∗ = Un,m

(µ) = ∑ ∑ Vi∗j , (3.3)
i=1 j=1

où 
 1, si Xi > Y j ,
Vi∗j = 0.5, si Xi = Y j , (3.4)

0, si Xi < Y j .
De (1) – (4) il résulte qu’en cas de présence d’un seul groupe d’ex aequo, on a l’identité par
rapport à µ :
∗ µ(t − µ)
Un,m (µ) +Uµ,t−µ − ≡ Wn,m . (3.5)
2
En cas de présence de M groupes d’ex aequo, la dernière identité peut être généralisée de
la façon suivante :
M µ ¶
µi (ti − µi )
Un,m (µ1 , µ2 , . . . , µM ) + ∑ Uµi ,ti −µi −

≡ Un,m , (3.6)
i=1 2

où ti est le nombre d’ex aequo dans le groupe de numéro i, µi le nombre des Xi dans ce
groupe. De (5) il suit que
© ∗ ª nm
E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = . (3.7)
2
Comme la partie droite de (7) ne dépend pas de µi , on en tire que
∗ nm
EUn,m = .
2
De la même façon, comme
nm nm(N + 1)
VarUn,m = (n + m + 1) = ,
2 2
on obtient que

© ∗ ª M 1
Var Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM + ∑ µi (ti − µi )(ti + 1) =
i=1 12

203
nm
= (n + m + 1).
12
Comme © © ∗ ªª nm
Var E Un,m (µ1 , µ2 , . . . , µM )|µ1 , µ2 , . . . , µM = Var = 0,
12
on en tire que © © ∗ ªª

VarUn,m = E Var Un,m |µ1 , µ2 , . . . , µM ,
donc on en déduit que

© ∗ ª M ti + 1 nm
Var Un,m (µ1 , µ2 , . . . , µM ) + ∑ E {µi (ti − µi )} = (n + m + 1).
i=1 12 12

Mais µ ¶µ ¶
n m
j ti − j ti (ti − 1)nm
E {µi (ti − µi )} = ∑ µ ¶ j(ti − j) = ,
j N N(N − 1)
tj
donc  
M
 ∑ ti (ti2 − 1) 
nm
∗  i=1  = VarW ∗ ,
VarU = (N + 1) 1 −
12 N(N 2 − 1) 

où N = n + m.

3.10 Estimation non paramétrique de la densité. Histo-


gramme. Estimateur de Rosenblatt. Le noyau de Par-
zen.

Le problème, que l’on désigne souvent par estimation non paramétrique de la densité,
est le suivant :
étant donné un échantillon X = (X1 , ..., Xn )T , issu d’une distribution continue et dont la
densité f est inconnue, construire un bon estimateur de f .
Soit {hn } une suite de nombres positives (tailles de fenêtre ) telle que hn > 0, hn ↓ 0,
nhn → 0, quand n → ∞. Pour tout n fixé nous pouvons construire une partition de R1
[
R1 = ]khn , (k + 1)hn ],
k∈Z

1
h i hn correspondante. Pour tout x ∈ R il existe un intervalle
en utilisant la taille de fenêtre
]khn , (k + 1)hn ], avec k = hxn , tel que x ∈]khn , (k + 1)hn ] et donc nous pouvons déterminer
une application aléatoire fn : R1 → R1+ par la formule :
n
1
fn (x) =
nhn ∑ 1]khn,(k+1)hn](X j ), x ∈ R1 . (3.1)
j=1

204
Définition 1. Nous disons que fn (x), x ∈ R1 , est la densité empirique, basée sur l’échan-
tillon X = (X1 , ..., Xn )T . Le graphe de fn (x) s’appelle histogramme.
De (1) il suit que pour tout x ∈]khn , (k + 1)hn ], k ∈ Z, on a
1 νk
fn (x) = [Fn ((k + 1)hn ) − Fn (khn )] = , (3.2)
nhn nhn

où Fn (x) est la fonction empirique, basée sur X = (X1 , ..., Xn )T , νk est le nombre de X j dans
l’intervalle ]khn , (k + 1)hn ]. Souvent on dit que fn (x) est un estimateur non paramétrique
classique de la densité f (x).
En 1956 M. Rosenblatt a proposé un estimateur de type noyau
µ ¶
1 n x − Xj
fn (x) = ∑ K hn ,
nhn j=1
(3.3)

où K(·), un noyau, est une fonction telle que


Z ∞ Z ∞
K(x)dx = 1 et k= K 2 (x)dx < ∞.
−∞ −∞

Le choix du noyau K dépend en général des propriétés de la densité f que l’on désire avoir.
Par exemple, Parzen (1962) a proposé de choisir le noyau
1
K(x) = 0.51[−1,1] (x), avec k= . (3.4)
2
Il est clair que si on choisit le noyau de Parzen, alors de (1), (2) et (4) on obtient l’estimateur
fn (x), appelé l’estimateur naïf de f(x) :
νk
fn (x) = ,
2nhn
où νk est le nombre de X j dans l’intervalle ]x − hn , x + hn ].
Souvent on utilise le noyau de Epanechnikov (1969)
2
K(x) = 0.72(1 − x2 )1[−1,1] (x), avec k = ,
3
voir aussi Bartlett (1963).
On donne ici encore quelques d’autres exemples :
le noyau de Gauss :
1 2 1
K(x) = √ e−x , avec k = √ ,
2π 2π
le noyau de Laplace :
1 1
K(x) = e−|x| , avec k = ,
2 2
le noyau de Cauchy :
1 1
K(x) = , avec k = ,
π(1 + x2 ) π

205
le noyau de Fejer :
µ ¶
1 sin 2x 1
K(x) = x , avec k= ,
2π 2 3π

le noyau de Tukey
15
K(x) = (1 − x2 )2 1[−1,1] (x).
16
Dans certains cas l’expression de K peut être plus compliquée. Les propriétées asympto-
tiques de fn ont été bien étudiées, voir par exemple, Deheuvels (1973, 1974), Devroye et
Györfi (1985), Watson et Leadbether (1963), Silverman (1986), Nikulin & Solev (2002),
etc.
Il est facile de montrer que pour l’estimateur classique (1) on a

|E fn (x) − f (x)| ≤ ω f (hn ),


ω f (h) = sup | f (x) − f (y)|,
|x−y|≤h

est le module de continuité de f , d’où on tire que si x est un point de continuité de f , alors

E fn (x) = f (x) + o(hn ), n→∞

et donc de la loi de grands nombres il suit que


P
fn (x) → f (x),

i.e. { fn (x)} est une suite consistante d’estimateurs fn (x) de f (x).


De la même façon comme pour l’estimateur non paramétrique classique on peut dé-
montrer, sous quelques conditions de régularité sur f et K, que pour l’estimateur de type
noyau on a :
Z µ ¶
1 ∞ x−y
E fn (x) = K f (y)dy → f (x), quand n → ∞,
hn −∞ hn

lim nhn Var fn (x) = k f (x), n → ∞,


P
i.e. fn (x) est un estimateur asymptotiquement sans biais pour f (x), et on en tire que fn (x) →
f (x), i.e. { fn (x)} est une suite consistante d’estimateurs fn (x) de f (x).
Enfin on remarque que à propos du choix de la taille de la fenêtre hn nous recomman-
dons regarder Devroue et Györfi (1985), Bretagnolle et Huber (1979), Freedman et Diaconis
(1981). Souvent pour choisir hn on pose
1 k
hn = R∞ [ R∞ ]2/5 .
[n −∞ ([ f (2) (x)]2 dx]1/5 −∞ x K 2 (x)dx
2

206
Chapitre 4

TESTS STATISTIQUES.

4.1 Principe des tests.

Soit X = (X1 , ..., Xn )T un vecteur aléatoire , X ∈ Rn . Faisons l’hypothèse H sur la distri-


bution de X dans Rn selon laquelle cette distribution appartient à une famille P = {Pθ , θ ∈
Θ} dans Rn , paramétrée par θ. On note H : θ ∈ Θ et l’ensemble Θ est appelé espace des
paramètres.
Définition 1. Soit Θ0 ⊂ Θ. Nous appelons H0 : θ ∈ Θ0 l’hypothèse nulle selon laquelle la
distribution de X appartient à la famille

P0 = {Pθ , θ ∈ Θ0 } ⊂ P = {Pθ , θ ∈ Θ}.


Définition 2. Si Θ = {θ} n’a qu’un seul élément θ, i.e. la distribution de X est Pθ , alors, on
dit que l’hypothèse H est simple, sinon H est composée (ou multiple).
T
Soient Θ0 ⊂ Θ et Θ1 ⊂ Θ telles que Θ0 Θ1 = 0. /
Définition 3. L’hypothèse H1 : θ ∈ Θ1 est appelée l’alternative de H0 .
Exemple 1. Soit

Θ = [θ0 , ∞[⊂ R1 , Θ0 = {θ0 }, Θ1 = {θ > θ0 }.

Dans ce cas l’hypothèse H0 : θ = θ0 , i.e. H0 : θ ∈ Θ0 , est simple, et l’alternative H1 : θ > θ0 ,


i.e. H1 : θ ∈]θ0 , ∞[, est composée. De même, si

Θ =] − ∞, θ0 ], Θ0 = {θ0 }, et Θ1 =] − ∞, θ0 [,

l’alternative H1 : θ < θ0 est composée. Dans ces deux cas les alternatives H1 : θ > θ0 ou
H1 : θ < θ0 sont unilatérales.
Exemple 2. Soit Θ =]θ1 , θ2 [⊂ R1 , Θ0 = {θ0 }, θ1 < θ0 < θ2 et
[
Θ1 = Θ \ Θ0 =]θ1 , θ0 [ ]θ0 , θ2 [.

Ici l’alternative H1 : θ 6= θ0 , i.e. H1 : θ ∈ Θ1 = Θ \ {θ0 }, est bilatérale (et composée).


Définition 4. On appelle modèle statistique paramétrique un modèle (Rn , Bn , P ) tel qu’il
existe k ∈ N :
P = {Pθ , θ ∈ Θ ⊂ Rk },

207
sinon on dit que le modèle (Rn , Bn , P ) est non paramétrique.
Exemple 3. Soit X un vecteur aléatoire et soit H0 l’hypothèse selon laquelle la fonction de
répartition de X est continue. Dans ce cas le modèle est non paramétrique.
Exemple 4. Soit X = (X1 , ..., Xn )T un échantillon, Xi suit une loi normale N(µ, σ2 ), i.e.
θ = (µ, σ2 )T ∈ Θ, Θ = {θ :| µ |< ∞, σ2 > 0}. Comme Θ ⊂ R2 , on a l’exemple d’un modèle
paramétrique.

Soient X = X = (X1 , ..., Xn )T un échantillon et x = (x1 , ..., xn )T ∈ Rn une réalisation de


X, reçue dans l’expérience.
Soit ϕ : Rn → [0, 1] une application borélienne qu’on appellera fonction critique.
Définition 5. On dit qu’une fonction critique ϕ détermine le test statistique pour tester
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 si l’on rejette H0 avec la probabilité ϕ(x) et on rejette H1
avec la probabilité 1 − ϕ(x).
Définition 6. La fonction
[
βϕ (θ) = Eθ ϕ(X), θ ∈ Θ0 Θ1 , (1)

est appellée la fonction de puissance du test, basé sur la fonction critique ϕ.


Définition 7. La fonction
βϕ (θ), θ ∈ Θ0
est appellée le risque de première espèce. C’est le risque de rejeter H0 à tort ; on constate
que le risque de première espèce est la restriction de la fonction de puissance à Θ0 .
Définition 8. La fonction
βϕ (θ), θ ∈ Θ1
est appellée la puissance du test, basé sur la fonction critique ϕ ; on costate que la puissance
est la restriction de la fonction de puissance βϕ (θ) à Θ1 .
Définition 9. La fonction
Z
1 − βϕ (θ) = E1 (1 − ϕ(X)) = 1 − ϕ(x)p1 (x)µ(dx), θ ∈ Θ1
X
est appellé le risque de deuxième espèce. C’est le risque d’accepter H0 à tort.
Si ϕ est de la forme ½
1, x ∈ K ⊂ Rn ,
ϕ(x) = (2)
0, x ∈ Rn \ K,
alors le test statistique, basé sur cette fonction critique, est appelé pur ou non randomisé,
sinon le test est randomisé.
L’ensemble K est appellé la région critique ou la zone de rejet de ce test : on y rejette
H0 (et on y accepte l’alternative H1 ) .
L’ensemble K̄ = Rn \ K est appelé la zone d’acceptation (de non rejet ) de H0 .
Soit ϕ : Rn → [0, 1] une fonction critique.
Il est évident qu’en cas de test non randomisé :
[
βϕ (θ) = Pθ (X ∈ K), θ ∈ Θ0 Θ1 , (3)

et donc βϕ (θ) nous donne la probabilité avec laquelle X tombe dans la région critique K si
la vraie valeur de paramètre est θ.
Donc dans le cas d’un test pur le risque de première espèce est la probabilité de rejeter à
tort l’hypothèse H0 quand θ ∈ Θ0 , lorsque l’hypothèse H0 est vraie. Le risque de deuxième

208
espèce est la probabilité d’accepter l’hypothèse H0 quand θ ∈ Θ1 , lorsque l’hypothèse H0
est fausse.
Le test ϕ est bon, si les erreurs sont petites. On ne peut pas les rendre simultanément
aussi petites que l’on veut, parce que, en augmentant K, l’erreur de 2-ème espèce diminue
mais l’erreur de 1-ère espèce augmente et vice versa, en diminuant K l’erreur de 1-ère
espèce diminue mais celle de 2-ème espèce augmente.
Soit H0 : θ ∈ Θ0 .
Le nombre
α = sup βϕ (θ), 0 < α < 1,
θ∈Θ0
est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la probabilité
de rejeter H0 à tort ne devra pas dépasser α.
Le test ϕ de niveau α est sans biais, si sa puissance est supérieure ou égale à α, i.e. si
βϕ (θ) ≥ α pour ∀θ ∈ Θ1 .
Le test ϕ est uniformément le plus puissant (UPP) de seuil α, si pour tout autre test ψ
on a
βϕ (θ) ≤ βψ (θ) ≤ α ∀θ ∈ Θ0 ,
βϕ (θ) ≥ βψ (θ) ∀θ ∈ Θ1 .
Considérons le cas de l’hypothèse H0 et de l’alternative H1 simples :
H0 : θ = θ0 , H1 : θ = θ1 .
Dans ce cas la puissance d’un test statistique non randomisé, destiné à tester H0 contre H1 ,
est la probabilité de rejeter H0 quand l’alternative H1 est vraie :
π = Pθ1 {X ∈ K} = βϕ (θ1 ),
et le niveau de signification est la probabilité de rejeter H0 à tort :
α = Pθ0 {X ∈ K} = βϕ (θ0 ).
C’est la probabilité d’erreur de première espèce. La probabilité β = 1 − π s’appelle la pro-
babilité d’erreur de deuxième espèce.

4.2 Test de Neyman-Pearson.

Supposons que P = {Pθ0 , Pθ1 } est dominée par une mesure σ-finie µ et notons f0 et f1
les densités de Pθ0 et Pθ1 par rapport à µ.
Lemme de Neyman-Pearson. Pour tout α ∈]0, 1[ il existe des constantes cα > 0 et γα ∈
[0, 1] telles, que le test, basé sur la fonction critique

 1, si p1 (x) > cα p0 (x),
ϕ(x) = γα , si p1 (x) = cα p0 (x),

0, sinon ,

209
a le niveau α et est le plus puissant parmi tous les tests ψ tels que Eθ0 ψ(X) ≤ α.
Démonstration.
1) On cherche des constantes cα et γα telles que Eθ0 ϕ(X) = α :

Eθ0 ϕ(X) = Pθ0 {p1 (X) > cα p0 (X)} + γα Pθ0 {p1 (X) = cα p0 (X)} = α. (1)

Posons ½ ¾
p1 (X)
F(c) = Pθ0 ≤c , c ≥ 0.
p0 (X)
F a un sens, puisque p0 (X) > 0 p.s., si X ∼ p0 (x).
Avec cette notation l’égalité (1) peut être écrite sous la forme

Eθ0 ϕ(X) = 1 − F(cα ) + γα [F(cα ) − F(cα − 0)] = α, (2)

puisque la fonction F est continue à droite.


a) S’il existe c : F(c) = 1 − α, on peut prendre cα = c, γα = 0 pour lesquelles on a l’égalité
qu’il nous faut :
Eθ0 ϕ(X) = α.
b) Sinon il existe c :
F(c − 0) ≤ 1 − α < F(c). (3)
On peut prendre cα = c et définir γ en résolvant l’équation

α = 1 − F(c) + γ[F(c) − F(c − 0)].

On obtient

F(c) − (1 − α)
γ = [α − 1 + F(c)]/[F(c) − F(c − 0)] = .
F(c) − F(c − 0)
Des inégalités (3) on tire

α − 1 + F(c) ≤ F(c) − F(c − 0) et F(c) + α − 1 = F(c) − (1 − α) > 0,

c’est pourquoi 0 < γ ≤ 1.


2) On montre que le test ϕ est le plus puissant. Supposons que ψ est un autre test, tel que
Eθ0 ψ(X) ≤ α. Alors
Eθ0 (ϕ(X) − ψ(X)) ≥ 0.
De la définition de ϕ on tire :
si p1 (x) − cα p0 (x) > 0, alors ϕ(x) = 1 ≥ ψ(x) et donc ϕ(x) − ψ(x) ≥ 0 ;
si p1 (x) − cα p0 (x) < 0, alors ϕ(x) = 0 ≤ ψ(x) et donc ϕ(x) − ψ(x) ≤ 0 ;
c’est pourquoi
(ϕ(x) − ψ(x))(p1 (x) − cα p0 (x)) ≥ 0 ∀x,
Z
(ϕ(x) − ψ(x))(p1 (x) − cα p0 (x))µ(dx) ≥ 0
X
et Z Z
(ϕ(x) − ψ(x))p1 (x)µ(dx) ≥ cα (ϕ(x) − ψ(x))p0 (x)µ(dx).
X X

210
La dernière inégalité peut s’écrire :

Eθ1 ϕ(X) − Eθ1 ψ(X) ≥ cα (Eθ0 ϕ(X) − Eθ0 ψ(X)) ≥ 0.

C’est pourquoi Eθ1 ϕ(X) ≥ Eθ1 ψ(X), et le test ϕ est plus puissant que ψ.

Exemple 1. Soit X = (X1 , ..., Xn )T un échantillon,

H : Xi ∼ f (x; θ) = θx (1 − θ)x , x ∈ X, θ ∈ Θ =]0, 1[,

i.e. on a le modèle statistique selon lequel Xi suit la loi de Bernoulli de paramètre θ, θ ∈ Θ.


Notre problème consiste à tester au niveau α = 0.05 l’hypothèse nulle H0 : θ = θ0 contre
l’alternative H1 : θ = θ1 > θ0 . On remarque que dans notre modèle H il existe une statistique
exhaustive minimale unidimensionnelle (scalaire)

µn = X1 + ... + Xn .

Si l’hypothèse H0 : θ = θ0 est vraie, alors :


µ ¶
n
Pθ0 {µn = x} = θx0 (1 − θ0 )n−x , x ∈ X0n = {0, 1, ..., n}. (1)
x

Si l’alternative H1 est vraie, alors :


µ ¶
n
Pθ1 {µn = x} = θx1 (1 − θ1 )n−x , x ∈ X0n = {0, 1, ..., n}. (2)
x

Donc le problème de tester H0 : θ = θ0 contre H1 : θ = θ1 revient au problème de tester l’hy-


pothèse que µn suit la loi Binomiale B(n, θ0 ) contre l’alternative que µn suit la loi binomiale
B(n, θ1 ), θ1 > θ0 .
En fonction de la statistique µn le rapport de vraisemblance est
µ ¶
n µ
θ1n (1 − θ1 )n−µn µ ¶µn µ ¶
µn θ1 1 − θ1 n−µn
L(µn ) = µ ¶ = .
n µn θ0 1 − θ0
θ0 (1 − θ0 ) n−µn
µn

On peut remarquer que


θ1 1 − θ1
>1 et < 1,
θ0 1 − θ0
et donc L(µn ) est monotone en µn , d’où on tire que le meilleur test (le test de Neyman-
Pearson) de niveau α pour H0 contre H1 est basé sur la statistique

 1, si µn > cα ,
ϕ(µn ) = γ, si µn = cα ,

0, sinon,

où les constantes cα ( la valeur critique) et γ = γ0.05 sont telles que

Eθ0 ϕ(µn ) = Pθ0 {µn > cα } + γ( 0.05)Pθ0 {µn = cα } = α = 0.05. (3)

211
Supposons que n = 10, θ0 = 0.25 = 1/4. Si l’on choisit K = K5 = {5, 6, 7, 8, 9, 10}, dans ce
cas on a
10 µ ¶
10
Pθ0 {µn ∈ K5 } = ∑ θx0 (1 − θ0 )10−x =
x=5
x
10 µ ¶ µ ¶x µ ¶10−x
10 1 3
∑ x 4 4
= 0.0781 > α = 0.05.
x=5

Si l’on choisit K = K6 = {6, 7, 8, 9, 10} , dans ce cas on a


10 µ ¶ µ ¶x µ ¶10−x
10 1 3
Pθ0 {µn ∈ K6 } = ∑ x 4 4
= 0.0197 < α = 0.05.
x=6

Donc on voit que

Pθ0 {µn ∈ K5 } = Pθ0 {µn ≥ 5} = 0.0781 et Pθ0 {µn ∈ K6 } = Pθ0 {µn ≥ 6} = 0.0197,

d’où on tire que

Pθ0 {µn = 5} = Pθ0 {µn ≥ 5} − Pθ0 {µn ≥ 6} = 0.0781 − 0.0197 = 0.0584.

On détermine à l’aide de (3) la probabilité γ :

α − 0.0197 0.05 − 0.0197


γ( 0.05) = = = 0.519,
0.0781 − 0.0197 0.0781 − 0.0197
et on obtient la fonction critique du meilleur test de Neyman-Pearson de niveau α :

 1, si µn ∈ K6 ,
ϕ(µn ) = 0.519, si µn = 5,

0, sinon .

On voit que
Eθ0 ϕ(µn ) = 1 · Pθ0 {µn ∈ K6 } + γ( 0.05)Pθ0 {µn = 5} =
= 0.0197 + 0.519 · 0.0584 = 0.050 = α.
La puissance de ce test randomisé quand θ = θ1 = 1
2 est égale à

π = Eθ1 {ϕ(µn )} = Pθ1 {µn ∈ K6 } + γ( 0.05)Pθ1 {µn = 5} =

10 µ ¶ µ ¶x µ ¶10−x µ ¶ µ ¶5 µ ¶5
10 1 1 10 1 1
∑ x 2 2
+ 0.519
5 2 2
=
x=6
= 0.3770 + 0.519 · 0.2461 = 0.5047.
Enfin on remarque que le risque de deuxième espèce β = 0.4953.
Exemple 2. Soit X = (X1 , . . . , X5 )T un échantillon. Trouver le plus puissant test de ni-
veau α = 0.1 vérifiant l’hypothèse H0 : U(−0.5; 0.5) contre l’alternative H1 : N(0; 0.009).
Vérifier l’hypothèse H0 si des réalisations de X sont

−0.114; −0.325; 0.196; −0.174; −0.460.

212
Solution. On cherche le test de Neyman-Pearson pur :
½
1, si L1 (X) > cL0 (X) ;
ϕ(X) =
0, sinon,


L0 (X) = 1{−0.5 ≤ X(1) ≤ X(5) ≤ 0.5},
½ ¾
1 1 5 2
L1 (X) = 5 exp − 2 ∑ Xi , σ2 = 0.009.
σ (2π)5/2 2σ i=1
L’inégalité L1 (X) > cL0 (X) est vraie si et seulement si
½ 5 ¾ ½ ¾ ½ ¾
∑ Xi2 < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 .
i=1

On cherche k de condition
(½ ¾ ½ ¾ ½ ¾) ½5 ¾
5
P0 ∑ Xi < k ∪ X(1) < −0.5 ∪ X(5) < 0.5 = P0 ∑ Xi < k = α,
2 2
i=1 i=1

où Z Z
... dx1 · · · dx5 = 0.1, (4.1)
5
∑ Xi2 <R2
i=1
−0.5<Xi <0.5

où k = R2 .
Si R ≤ 0.5, cette intégrale est égale à l’intégrale
Z Z
I= ... dx1 · · · dx5 . (4.2)
5
∑ Xi2 <R2
i=1

Dans l’intégrale (1) on fait le changément de variables

x1 = r cos ϕ1
x2 = r sin ϕ1 cos ϕ2
x3 = r sin ϕ1 sin ϕ2 cos ϕ3
x4 = r sin ϕ1 sin ϕ2 sin ϕ3 cos ϕ4
x5 = r sin ϕ1 sin ϕ2 sin ϕ3 sin ϕ4 .

Le Jacobien
J = r4 sin3 ϕ1 sin2 ϕ2 sin ϕ3 .
ZR Zπ Zπ Zπ Z2π
8π2 R5
I= r4 dr sin3 ϕ1 dϕ1 sin2 ϕ2 dϕ2 sin ϕ3 dϕ3 dϕ4 = .
15
0 0 0 0 0
Si R = 0.5,
π2 9 3
I= > = > 0.1,
60 60 20

213
donc (1) peut être vraie, si R < 0.5.
R satisfait l’équation
8π2 R5
= 0.1,
15
donc
3
R5 = .
16π2
On rejette l’hypothèse H0 si
5 µ ¶5/2
3
∑ Xi2 <
16π2
où X(1) < −0.5 ou X(5) > 0.5.
i=1

5
Dans notre cas ∑ Xi2 = 0.399, X(1) = −0.325, X(5) = 0.196. On a
i=1

µ ¶5/2
3
0.399 >
16π2

l’hypothèse est accepté.

4.3 Loi multinomiale et test du chi-deux de Pearson.

Loi multinomiale.
Considérons une suite de n épreuves indépendantes et supposons que dans chaque
épreuve il ne puisse se passer qu’un seul événement parmi k possibles E1 , E2 , . . . , Ek , dont
les probabilités,

p1 = P(E1 ), p2 = P(E2 ), ..., pk = P(Ek ),


sont positives et p1 + . . . + pk = 1.
Notons p = (p1 , . . . , pk )T et ν = (ν1 , . . . , νk )T , ou νi est la fréquence de Ei dans la suite
d’épreuves (i = 1, . . . , k). Il est évident que les valeurs prises par les νi sont des valeurs
entières ni , 0 ≤ ni ≤ n,

n1 + n2 + . . . + nk = n. (1)
Le vecteur ν suit la loi multinomiale de paramètres n et p :
n!
P {ν1 = n1 , . . . , νk = nk } = pn1 pn2 . . . pnk k , (2)
n1 ! . . . nk ! 1 2
pour tout n1 , . . . , nk entiers, satisfaisant aux conditions (1).
Par des calculs directs, on peut établir que le vecteur des espérances, Eν, et la matrice
de covariance,

Σ = Varν = E(ν − Eν)(ν − Eν)T ,

214
du vecteur ν sont égaux à

Eν = np, Σ = E(ν − np)(ν − np)T = n(P − ppT ), (3)


ou P est la matrice diagonale dont les éléments sur la diagonale principale sont p1 , . . . , pk .
Il est facile de vérifier que rang(Σ) = k − 1, à cause de la condition (1).
Test du chi-deux de Pearson.
Soit 1 = 1k = (1, . . . , 1)T ∈ Rk . Nous pouvons écrire que

pT 1k = 1, νT 1k = k.
Notons
p̃ = (p1 , . . . , pk−1 )T , ν̃ = (ν1 , . . . , νk−1 )T , 1̃ = 1k−1 ,
P̃ est la matrice que l’on obtient à partir de la matrice P, en enlevant la dernière ligne
et la dernière colonne, c’est-à-dire que P̃ est la matrice diagonale dont les éléments de la
diagonale principale sont p1 , .., pk−1 . De la même façon on obtient la matrice
¡ ¢T
Σ̃ = n P̃ − p̃p̃ .

Il est facile de vérifier que p̃T 1̃ = 1 − pk , rang(Σ̃) = k − 1 et que la matrice inverse Σ̃−1 de
Σ̃ est
µ ¶
−1 1 −1 1 T
Σ̃ = P̃ + 1̃1̃ , (4)
n pk
où P̃−1 est la matrice inverse de P̃.
Soit p0 = (p01 , p02 , . . . , p0k )T un vecteur arbitraire qui satisfait la condition

pT0 1 = 1,

tel que tous les p0i sont positifs, et supposons que le vecteur ν suive la loi multinomiale
(2) de paramètres n et p. Dans ce cas si n → ∞, alors d’après le théorème limite central
à plusieurs dimensions le vecteur √1n (ν̃ − p̃0 ) est asymptotiquement distribué selon la loi
normale à (k − 1) dimensions de paramètres

1
(p̃ − p̃0 ) et P̃ − p̃p̃T = Σ̃.
n
Par conséquent la forme quadratique de Pearson
µ ¶
1 −1 1 T
Xn = (ν̃ − np̃0 ) P̃ + 1̃1̃ (ν̃ − np̃0 )
2 T
(5)
n pk

est distribuée approximativement (quand n tend vers l’infini) comme la variable aléatoire
χ2k−1 (λn ), où
µ ¶
−1 1 T
λn = n (p̃ − p̃0 ) P̃ + 1̃1̃ (p̃ − p̃0 ) .
T
(6)
pk
Comme
k
(νi − np0i )2
(ν̃ − np̃0 )T P̃−1 (ν̃ − np̃0 ) = ∑ (7)
i=1 npi

215
et
1̃T (ν̃ − np̃0 ) = −(νk − np0k ), (8)
la statistique de Pearson Xn2 peut s’écrire :
k
(νi − np0i )2
Xn2 = ∑ . (9)
i=1 npi

Théorème 1. Soit {pn } une suite de vecteurs pn = (pn1 , pn2 , . . . , pnk )T tels que pTn 1 = 1 et
tous les pni soient positifs. Supposons que
k
(pni − p0i )2
λ̂n = n ∑ → λ, (λ > 0) (10)
i=1 p0i

quand n → ∞ . Dans ce cas la statistique de Pearson


k
(νi − npni )2
Xn2 =∑ (11)
i=1 npni

suit à la limite, quand n → ∞, la même loi que la variable aléatoire χ2k−1 (λ).
Supposons que nous ayons à tester l’hypothèse H0 : p = p0 . Soit x(α, k − 1), le quantile
supérieur de niveau α de la distribution du chi-deux à (k − 1) degrés de liberté , c’est-à-dire
que © ª
P χ2k−1 ≥ x(α, k − 1) = α. (12)
D’après le test du chi-deux de Pearson, fondé sur la statistique de Pearson Xn2 , on rejette
l’hypothèse H0 si

Xn2 ≥ cα = x(α, k − 1). (13)


Le nombre cα s’appelle la valeur critique du test. De (12),(13),(6) et (9) on déduit que
© ª
P Xn2 ≥ x(α, k − 1) | H0 → α, quand n → ∞. (14)

Par ailleurs si l’hypothèse H1n : p = pn est vraie, alors du Théorème 1 il résulte que
© ª © ª
P Xn2 ≥ x(α, k − 1) | H1n = P χ2k−1 (λ) ≥ x(α, k − 1) + o(1), (15)

si
k
(pni − p0i )2
n∑ → λ, quand n → ∞. (16)
i=1 p0i
Par exemple, si
δi
pni = p0i + √ , (17)
n

δ1 + δ2 + . . . + δk = 0,
δ2i
k
λn = λ = ∑ . (18)
i=1 p 0i

216
La probabilité
© ª © ª
βn = P Xn2 ≥ x(α, k − 1) | H1n ∼= P χ2k−1 (λn ) ≥ x(α, k − 1) (19)

s’appelle la puissance du test du chi-deux de Pearson .


Par ailleurs, la relation
© ª
P Xn2 ≤ x(α, k − 1) | H1n = 1 − βn (20)

nous donne la probabilité d’erreur de seconde espèce que l’on commet en prenant H0 à tort
parce que l’on a observé l’événement {Xn2 ≤ x(α, k − 1)}, tandis qu’en fait c’est l’hypothèse
H1n qui est vraie. On remarque ici que plus la puissance βn est grande, plus petite est la
probabilité de commettre l’erreur de prendre H0 à tort. Enfin, on note que pour calculer
1 − βn on peut utiliser l’approximation normale de la loi du chi-deux non centrale, d’après
laquelle
( )
© 2 ª x(α, k − 1) − (k − 1 + λn )
1 − βn = P Xn ≤ x(α, k − 1) | H1n ∼ =Φ p , (21)
2(k − 1 + 2λn )

et par conséquent on obtient


( )
k − 1 + λn − x(α, k − 1)
βn ∼
=Φ p , (22)
2(k − 1 + 2λn )

pourvu que k + λn soit assez grand, c’est-à-dire, en pratique, supérieur où égal à 30.
Supposons maintenant, que H1n soit telle que pn 6≡ p0 et
k
(pni − p0i )2
λn = n ∑ → ∞, (23)
i=1 p0i

quand n → ∞. Dans ce cas, de (20) il résulte que (1 − βn ) → 0 et donc βn → 1, quand n → ∞


, et on dit que le test est consistant.
Remarque sur la correction de continuité.
Si k = 2, alors

(ν1 − np01 )2 (ν2 − np02 )2 (ν1 − np01 )2


Xn2 = + = , (24)
np01 np02 np01 (1 − p01 )
car ν1 + ν2 = n. Supposons que l’hypothèse H0 soit vraie. Dans ce cas la fréquence ν1 suit
la loi binomiale de paramètres n et p01 et par conséquent du thèoreme de de Moivre-Laplace
il résulte que si n → ∞, alors pour tout m (1 ≤ m ≤ n)
( )
m + 0.5 − np01 1
P {ν1 ≤ m | H0 } = Φ p + O( √ ), (25)
np01 (1 − p01 ) n
d’où on tire
P {ν1 ≥ m | H0 } = 1 − P {ν1 ≤ m − 1 | H0 } =
( )
m − 0.5 − np01 1
=Φ p + O( √ ). (26)
np01 (1 − p01 ) n

217
De (25) et (26) il résulte que si nous voulons utiliser le test du chi-deux de Pearson, fondé
sur la statistique Xn2 du niveau de signification ∼
= α, nous devons rejeter H0 quand
( ) ( )
ν1 + 0.5 − np01 α ν1 − 0.5 − np01 α
Φ p ≤ où Φ − p ≤ . (27)
np01 (1 − p01 ) 2 np01 (1 − p01 ) 2

De (27) on déduit que l’on doit rejeter H0 si l’un des événements


ν − np01 α 1
p 1 ≤ Ψ( ) − p (28)
np01 (1 − p01 ) 2 np01 (1 − p01 )
ou
ν1 − np01 α 1
p ≥ −Ψ( ) + p (29)
np01 (1 − p01 ) 2 np01 (1 − p01 )
est apparu, où Ψ(y) est la fonction inverse de Φ(x). Donc on a montré que le test du chi-
deux de Pearson à 1 degré de liberté rejette H0 si
" #2
α 1
Xn2 ≥ Ψ(1 − ) + p (30)
2 2 np01 (1 − p01 )

(ici nous avons utilisé l’identité : Ψ(y) + Ψ(1 − y) ≡ 0, y ∈ [0, 1].)


De la formule (30) il résulte que si k = 2, alors la valeur critique cα du test du chi-deux doit
être égale à
" #2
α 1
cα = Ψ(1 − ) + p (31)
2 np01 (1 − p01 )
pour avoir le niveau du test ∼ =α.
Test du chi-deux pour des données de Mendel.
Dans ses expériences Mendel a observé 315 pois ronds et jaunes, 108 pois ronds et
verts, 101 pois ridés et jaunes, 32 pois ridés et verts. Au total Mendel a observé 556 pois.
D’après l’hypothèse H0 de Mendel les probabilités p1 , p2 , p3 , p4 d’observer un pois Rond et
Jaune, un pois Rond et vert, un pois ridé et Jaune, un pois ridé et vert sont proportionnelles
à 9,3,3 et 1 respectivement (voir Remarque 1). Peut-on dire que les données de Mendel sont
en accord avec son hypothèse H0 ?
Notons n le nombre total des pois (dans l’expérience de Mendel n = 556), et soit ν =
(ν1 , ν2 , ν3 , ν4 )T est le vecteur des fréquences des événements que Mendel a observés :

ν1 = 315, ν2 = 108, ν3 = 101, ν4 = 31.


Dans notre modèle le vecteur ν suit la loi multinomiale de paramètres n et p = (p1 , p2 , p3 , p4 )T ,

p1 + p2 + p3 + p4 = 1, pi > 0.
Si l’hypothèse de Mendel est vraie, alors
9 3 3 1
p1 = , p2 = , p3 = , p4 = .
16 16 16 16
Pour tester l’hypothèse de Mendel on peut utiliser le test du chi-deux de Pearson, fondé sur
la statistique de Pearson

218
4
(νi − npi )2
Xn2 = ∑ ,
i=1 npi
dont la distribution (sous l’hypothèse H0 ) est proche de la distribution du chi-deux à f =
4 − 1 = 3 degrés de liberté. Choisissons α = 0.05. Dans ce cas la valeur critique cα =
χ23 (α) = 7.81. Comme pour les données de Mendel

Xn2 = 0.470 < χ23 (0.05) = 7.81,


nous ne rejetons pas l’hypothèse H0 , considérant que les données de Mendel sont en bon
accord avec son hypothèse.
Remarque 1. On croise différentes variétés de petits pois. A la première génération, on
obtient les différentes catégories suivantes : Ronds et Jaunes, Ronds et verts, ridés et Jaunes,
ridés et verts, sachant que :
dans les caractères de formes
le dominant est rond (R), le récessif est ridé (r) ;
dans les caractères de couleurs
le dominant est jaune (J), le récessif est vert (v).
On obtient pour la deuxième génération le tableau suivant :

Parents RJ Rv rJ rv
RJ RJ RJ RJ RJ
Rv RJ Rv RJ Rv
rJ RJ RJ rJ rJ
rv RJ Rv rJ rv

Soit RJ, Rv, rJ et rv dans les proportions 9,3,3,1.


On vient de considérer le test de Pearson pour le cas où les probabilités pi sont connues,
ou, comme on dit, pour des hypothèses simples. La situation devient un peu plus compli-
quée, quand les pi sont inconnues ou dépendent d’un paramètre θ inconnu, pi = pi (θ). Il
y a des possibilités différentes pour tester H0 , dont on dit qu’elle est composée. Dans le
paragraphe suivant nous allons parler d’une solution de Fisher et Cramer.

219
4.4 Théorème de Fisher.

Conditions de Cramer et methode du minimum de chi-deux.


Soit X = (X1 , X2 , . . . , Xn )T un échantillon ; supposons que nous voulions tester l’hypo-
thèse H0 , selon laquelle les variables aléatoires indépendantes X1 , ..., Xn suivent la même
loi

P{Xi ≤ x} = F(x, θ), θ = (θ1 , . . . , θs )T ∈ Θ ⊂ Rs ,


où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x0 = −∞ et xk = ∞, notons ν = (ν1 , . . . , νk )T le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k ≥ s + 2)

(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ),


qui sont choisis d’avance. Il est évident que νT 1k = n, et si l’hypothèse H0 est vraie, alors
le vecteur ν suit la loi multinomiale de paramètres n et p, où

p = p(θ) = (p1 (θ), p2 (θ), . . . , pk (θ))T

et
Zxi Zxi
pi (θ) = P{X1 ∈ (xi−1 , xi ] | H0 } = dF(x, θ) = f (x, θ)dx,
xi−1 xi−1

où f (x, θ) est la densité de F(x, θ), si elle existe. Supposons que les conditions suivantes de
Cramer soient satisfaites :
1) il existe un nombre positif c (c > 0) tel que pour tout i = 1, . . . , k

pi (θ) > c, θ ∈ Θ;
∂2 pi (θ)
2) les fonctions ∂θ2j
sont continues sur Θ ;
3) le rang de la matrice d’information de Fisher J(θ) = B(θ)T B(θ),
° °
° 1 ∂pi (θ) °
B=° °
° √ pi ∂θ j ° ,
est égal à s.
Comme le paramètre θ est inconnu, Fisher a proposé de choisir pour estimateur de θ le θ̃n
qui rend minimum la variable aléatoire
k
[νi − npi (θ)]2
X (θ) = ∑
2
i=1 npi (θ)
i.e.

X 2 (θ̃n ) = min X 2 (θ).


θ∈Θ
On dit que θ̃n est l’estimateur du minimum de chi-deux. Comme Fisher l’a prouvé (1928),
si l’hypothèse H0 est vraie, alors pour tout x fixé

220
© ª
lim P X 2 (θ̃n ) ≤ x = P{χ2k−s−1 ≤ x}.
n→∞

Cramer a démontré plus tard (1946) que le résultat de Fisher reste valable si au lieu de
θ̃n on choisit l’estimateur de maximum de vraisemblance θ∗n = θ∗n (ν1 , ν2 , . . . , νk ), qui rend
maximum la fonction de vraisemblance :

l(θ∗n ) = sup l(θ),


θ∈Θ

n!
l(θ) = (p1 (θ))ν1 (p2 (θ))ν2 . . . (pk (θ))νk .
ν1 !ν2 !...νk !
On voit bien que l’estimateur θ∗n est obtenu à partir des données groupées, et, si la distri-
bution F(x, θ) est continue, alors la statistique ν = (ν1 , . . . , νk )T n’est pas exhaustive et par
conséquent l’estimateur θ∗n n’est pas le meilleur, mais comme on l’a déjà dit
© ª
lim X 2 (θ∗n ) ≤ x | H0 = P{χ2k−s−1 ≤ x}.
n→∞

Exemple 1. Il a été établi qu’au cours d’une épidémie de grippe, parmi les 2000 individus
contrôlés, 181 personnes sont tombées malades une seule fois et seulement 9 personnes
ont eu cette maladie deux fois. L’hypothèse H0 selon laquelle le nombre de fois où une
personne tombe malade est une variable aléatoire qui suit une loi binomiale de paramètres
p et n = 2 (0 < p < 1) est-t-elle vraisemlable ?
Soit X une variable aléatoire de loi binomiale B(2, p), c’est-à-dire que
µ ¶
2
P{X = i} = pi (1 − p)2−i , i = 0, 1, 2, 0 < p < 1.
i
Et soit ν = (ν0 , ν1 , ν2 )T le vecteur des fréquences observées, où νi est le nombre des indi-
vidus qui sont tombés malades i fois,

ν0 + ν1 + ν2 = n = 2000, ν0 = 1810, ν1 = 181, ν2 = 9.


Notons p la probabilité de tomber malade (0 < p < 1) et soit l(p) la fonction de vraisem-
blance :

n! n!2ν1
l(p) = [ (1 − p)2 ]ν0 [ 2p(1 − p) ]ν1 ( p2 )ν2 = (1 − p)2ν0 +ν1 p2ν2 +ν1 .
ν0 !ν1 !ν2 ! ν0 !ν1 !ν2 !

Il est facile de voir que les meilleurs estimateurs sans biais pour les probabilités

p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2

sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)

221
respectivement, dont les réalisations observées sont
199 · 198 4.9 199 · 3801 94.6
p̃0 = = , p̃1 = = ,
4000 · 3999 2000 4000 · 3999 200
3801 · 3800 1805.9
p̃2 = = ,
4000 · 3999 2000
d’où l’on tire que

n p̃0 = 4.9; 2n p̃1 = 189.2; n p̃3 = 1805.9.


Pour tester H0 on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X 2 qui
dans notre cas est distribuée approximativement (si l’hypothèse H0 est vraie) comme la
variable aléatoire χ2f avec f = 3 − 1 − 1 = 1 degrés de liberté. On a

2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃ i

(1810 − 1805.9)2 (181 − 189.2)2


= + + (9 − 4.9)2 4.9 =
1805.9 189.2
(4.1)2 (8.2)2 (4.1)2 ∼
= + + = 3.795 < χ21 (0.05) = 3.841,
1805.9 189.2 4.9
où χ21 (0.05) = 3.841 est le quantile du niveau 0.05 de la distribution du chi-deux à 1 degré
de liberté :

P{χ21 > χ21 (0.05)} = 0.05.


Comme X 2 est inférieur à la valeur critique 3.841, on ne rejette pas l’hypothèse H0 .
Exemple 2. Parmi 2020 familles ayant deux enfants on a enregistré 530 familles où les
deux enfants sont des garçons et 473 familles où les deux enfants sont des filles, et dans les
1017 familles restantes les enfants sont de sexe différent. Peut-on dire, avec le niveau de
signification α = 0.1, que le nombre des garçons dans une famille de deux enfants est une
variable aléatoire qui suit une loi binomiale ? Les probabilités de naissance d’un garçon et
d’une fille sont-elles égales ?
Soit X une variable aléatoire qui suit la loi binomiale B(2, p), c’est-à-dire que
µ ¶
2
P{X = i} = pi (1 − p)2−i , i = 0, 1, 2, 0 < p < 1.
i

De plus soit ν = (ν0 , ν1 , ν2 )T le vecteur des fréquences observées, où νi est le nombre de


familles où il y a i garçons, i = 0, 1, 2. Dans notre cas

ν0 + ν1 + ν2 = n = 2020, ν1 = 1017, ν0 = 473, ν2 = 530,


et donc si l’hypothèse de la binomialité est vraie, alors la fonction de la vraisemblance l(p)
peut s’écrire :
n! £ ¤ν ¡ ¢ν
l(p) = (1 − p)2 0 [2p(1 − p)]ν1 p2 2 ,
ν0 !ν1 !ν2 !
où p est la probabilité de naissance d’un garçon.

222
Comme on le sait, les meilleurs estimateurs sans biais pour les probabilités
p0 = p2 , p1 = p(1 − p) et p2 = (1 − p)2
sont
(ν1 + 2ν2 )(ν1 + 2ν2 − 1) (ν1 + 2ν2 )(ν1 + 2ν0 )
p̃0 = , p̃1 = ,
2n(2n − 1) 2n(2n − 1)
(ν1 + 2ν0 )(ν1 + 2ν0 − 1)
p̃2 =
2n(2n − 1)
respectivement, dont les réalisations observées sont
2077 · 2076 2077 · 1963 1963 · 1962
p̃0 = , p̃1 = , p̃2 =
4040 · 4039 4040 · 4039 4040 · 4039
d’où l’on tire que

n p̃0 ∼
= 533.8; 2n p̃1 = 1009.4; n p̃3 = 476.8.
Pour tester H0 on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X 2 qui
dans notre cas est distribuée approximativement (sous l’hypothèse H0 ) comme une variable
aléatoire χ2f à f = 3 − 1 − 1 = 1 degrés de liberté. On a
2
(νi − n p̃i )2
X2 = ∑ =
i=0 n p̃i

(473 − 476.8)2 1017 − 1009.4)2 (530 − 533.8)2


= + + =
476.8 1009.4 533.8
(3.8)2 (7.6)2 (3.8)2
= + + < 1 < χ21 (0.1) = 2.706,
476.8 1009.4 533.8
où χ21 (0.1) = 2.706 est le quantile du niveau 0.1 de la distribution de chi-deux à 1 degré de
liberté :
P{χ21 > χ21 (0.1)} = 0.10.
Comme X 2 est inférieur à la valeur critique 2.706, on constate que les données ne sont
pas en contradiction avec l’hypothèse H0 , d’après laquelle le nombre des garçons dans une
famille est une réalisation d’une variable aléatoire X, qui suit la loi binomiale B(2, p).
Si les probabilités de naissance d’un garçon et d’une fille sont égales, la probabilité p
est égale à 0.5 (l’hypothèse H1 ). Dans ce cas, d’après le théorème de de Moivre-Laplace,
on obtient
( )
4040
2077 − 0.5 −
P{ν1 + ν2 ≥ 2077 | p = 0.5} ∼ = 1−Φ √ 2
=
4040 ∗ 0.5 ∗ 0.5
n o ½ ¾
√ 113
= 1 − Φ 1132 1010 = 1 − Φ = 1 − Φ(1.778) = 1 − 0.9623 = 0.0377.
63.56
Pour tous les niveaux α ≥ 0.04 on est obligé de rejeter l’hypothèse H1 : p = 0.5 en faveur
de l’hypothèse H2 : p > 0.5. Comme nos calculs le montrent, le meilleur estimateur sans
biais de p est
2077
p̃ = = 0.514.
4040

223
4.5 Théorème de Chernoff-Lehmann.

Soit X = (X1 , X2 , . . . , Xn )T un échantillon ; supposons que nous voulions tester l’hypo-


thèse H0 , selon laquelle les variables aléatoires indépendantes X1 , ..., Xn suivent la même
loi
P{Xi ≤ x} = F(x, θ), θ = (θ1 , . . . , θs )T ∈ Θ ⊂ Rs ,
où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x0 = −∞ et xk = ∞, notons ν = (ν1 , . . . , νk )T le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k > 2)

(x0 , x1 ], (x1 , x2 ], . . . , (xk−1 , xk ),

qui sont choisis d’avance. Si l’hypothèse H0 est vraie, alors le vecteur ν suit la loi multino-
miale de paramètres n et p, où

p = p(θ) = (p1 (θ), p2 (θ), . . . , pk (θ))T ,


Zxi Zxi
pi (θ) = P{X1 ∈ (xi−1 , xi ] | H0 } = dF(x, θ) = f (x, θ)dµ(x),
xi−1 xi−1

où f (x, θ) est la densité de F(x, θ) par rapport à une mesure dominante µ.


Supposons que la matrice d’information de Fisher existe :

I(θ) = EΛi (θ)ΛTi (θ)

pour l’observation Xi , où
µ ¶T
∂ ln (Xi , θ) ∂ ln (Xi , θ) ∂ ln (Xi , θ)
Λi (θ) = , ,..., ,
∂θ1 ∂θ2 ∂θs
et que les conditions de Cramer 1)-3) du paragraphe précédent sont satisfaites. Dans ce
cas, il existe un estimateur θ̂n de maximum de vraisemblance basé sur les données initiales,
θ̂n =θ̂n (X1 , . . . , Xn ), qui maximise la fonction de vrasemblance

L(θ) = f (X1 , θ) f (X2 , θ) · · · f (Xn , θ) : L(θ̂n ) = sup L(θ).


θ∈Θ
Sous des conditions supposées de régularité sur la famille {F(x, θ)} on connait le compor-
tement asymptotique de la suite {θ̂n }, quand n → ∞ (voir, par exemple, Barra (1971), Rao
(1973)) :

√ 1 n
n(θ̂n − θ) = √ ∑ I−1 (θ)Λi (θ) + op (1s ),
n i=1

d’où on obtient immédiatement que le vecteur n(θ̂n − θ) a une distribution asymptotique-
ment normale N(0s , I−1 (θ)), quand n → ∞.
Théorème de Lehmann et Chernoff.
En utilisant ces propriétés de l’estimateur de maximum de vraisemblance θ̂n , Lehmann
et Chernoff ont montré (1954), que sous l’hypothèse H0

224
© ª © ª
lim P X 2 (θ) ≤ x = P χ2k−s−1 + λ1 (θ)ξ21 + . . . + λs (θ)ξ2s ≤ x ,
n→∞

où ξ1 , ξ2 , . . . , ξs , χ2k−s−1 sont des variables aléatoires indépendantes, ξi suit la loi normale


standard N(0, 1), et 0 < λi (θ) < 1.
Statistique Yn2 .
D’après ce résultat on constate qu’en général il est impossible d’utiliser la statistique
standard de Pearson X 2 (θ̂n ) pour tester des hypothèses composées, lorsqu’on utilise des
estimateurs de maximum de vraisemblaces θ̂n ou leurs équivalents. On peut tout de même
construire un test du chi-deux pour tester des hypothèses ¢ Notons Σ(θ) la matrice
¡ composées.
de covariance de la distribution limite du vecteur √n ν − np(θ̂n ) . On peut montrer (voir,
1

par exemple, Nikulin (1973), Nikulin et Greenwood (1990), Huber (1991)), que rangΣ =
k − 1. Notons Σ− (θ) la matrice inverse généralisée de Σ(θ) et soit

1¡ ¢T ¡ ¢
Yn2 = ν − np(θ̂n ) Σ− (θ̂n ) ν − np(θ̂n ) .
n
Par des calculs directs on peut vérifier que la statistique Yn2 est indépendante du choix de la
matrice Σ− . On peut utiliser la statistique Yn2 pour tester la validité de l’hypothèse H0 selon
laquelle la distribution des éléments Xi de l’échantillon X suit la loi F(x, θ). On a en effet
(voir, par exemple, Nikulin (1973), Greenwood et Nikulin (1996)) :
© ª © ª
lim P Yn2 ≤ x | H0 = P χ2k−1 ≤ x .
n→∞

Pour plus de détails sur la construction des tests du chi-deux, fondés sur la statistique Yn2 , on
se reportera aux articles de Nikulin (1973), (1979), (1990), (1991), Dzhaparidze et Nikulin
(1974), Nikulin et Voinov (1989), Greenwood et Nikulin (1996), Nikulin et Seddik-Ameur
(1991). On remarque enfin, que dans les cas de l’ existence de statistiques exhausives, on
peut utiliser aussi les meilleurs estimateurs sans biais pour construire un test du chi-deux
fondé sur la statistique Yn2 et en utilisant la technique exposée dans les articles que l’on vient
de mentionner.

4.6 Test du chi-deux pour une loi logistique.

La loi "logistique", qui a reçu son nom de Berkson et Reed (1929) est souvent utilisée.
(Entre autres, par Pearl et Reed (1920) pour le développement des levures, par Oliver (1964)
comme modèle de données agricoles et Grizzle (1961) dans le domaine de la santé Publique,
etc.)
Cette loi a une fonction de répartition dépendant de deux paramètres µ et σ > 0 :

1
F(x) = G ( x−µ
σ )= ¡ ¢ , x ∈ R. (1)
1 + exp{− √π3 x−µ
σ }

Un livre vient d’être publié par Balakrishnan (1992) sur la théorie, méthodologie et appli-
cations de cette loi. Ici nous allons suivre l’article de Aguirre et Nikulin (1994).

225
Soit X = (X1 , X2 , . . . , Xn )T - un échantillon et supposons que nous voulions tester l’hy-
pothèse H0 selon laquelle

P{Xi < x} = G ( x−µ


σ ). (2)
Dans cette situation nous nous proposons d’utiliser les résultats précédants pour construire
un test du chi-deux.
1. Notations.
0
Soit g(x) = G (x), et donc σ1 g ( x−µ
σ ) est la densité de Xi sous H0 ,

1 x−µ π exp{− π(x−µ)


√ }
σ 3
g( σ ) = √ h i2 . (3)
σ
σ 3 1 + exp{− π(x−µ)
√ }
σ 3

g est paire (g(−x) = g(x)).


2. Estimation de µ et σ.
Pour estimer θ =√(µ, σ)T on utilise l’estimateur θ̂n = (µ̂, σ̂2 )T du maximum de vraisem-
blance. On sait que n(θ̂n − θ) est asymptotiquement normal N(0, I−1 ), où

Z+∞h i2
1 g0 (x) π2
I = 2 kIi j ki, j=1,2 , I11 = g(x)dx =
σ g(x) 9
−∞

Z+∞ h i2
g0 (x)
I12 = I21 = x g(x)
g(x)dx = 0,
−∞

Z+∞ h i2
2 g0 (x) π2 + 3
I22 = x g(x)
g(x)dx − 1 = .
9
−∞
I12 = 0 car g est symétrique, et une integration par parties permet d’obtenir I11 et I22 .
3. Choix des intervalles sur lesquels on va comparer les fréquences observées et les
fréquences théoriques :
Supposons que l’on ait choisi un vecteur p = (p1 , p2 , . . . , pk )T de probabilités positives,
par exemple :


1 −1 i 3 k
p1 = . . . = pk = , yi = G ( )=− ln( − 1), i = 1, . . . , k − 1,
k k π i
et notons ν = (ν1 , . . . , νk )T le vecteur des effectifs que nous obtenons en regroupant les
variables aléatoires X1 , . . . , Xn sur les intervalles

(−∞, z1 ], (z1 , z2 ], . . . ., (zk−1 , +∞), où zi = µ̂ + σ̂yi .


4. Test de χ2 . Posons
1
a = (a1 , . . . , ak )T , b = (b1 , . . . , bk )T , w=− k a, b k, où
σ
π
ai = g(yi ) − g(yi−1 ) = √ (k − 2i + 1),
k2 3

226
· ¸
1 k−i+1 k−i
bi = yi g(yi ) − yi−1 g(yi−1 ) = 2 (i − 1)(k − i + 1) ln − i(k − i) ln ,
k i−1 i
" #
k
π k
α(ν) = k ∑ ai νi = √ (k + 1)n − 2 ∑ iνi ,
i=1 3k i=1

k
1 k−1 k−i
β(ν) = k ∑ bi νi = ∑ (νi+1 − νi )i(k − i) ln ,
i=1 k i=1 i
k
π2 k
λ1 = I11 − k ∑ a2i = 2, λ2 = I22 − k ∑ b2i .
i=1 9k i=1
Comme g est symétrique on remarque que
k k
∑ ai = ∑ bi = 0.
i=1 i=1

Notons B = D − pT p − WT I−1 W, où D est la matrice diagonale avec les éléments 1/k sur
la diagonale principale ( rangB = k − 1). Notons ˜ les matrices précédentes dans lesquelles
on supprime la dernière ligne pour W, p et ν et les dernières ligne et colonne de D et B.

Théorème 1. Sous l’hypothèse H0 , quand n → ∞ , le vecteur ν̃ est asymptotiquement


normalement distribué avec les paramètres

Eν̃ = np̃ + O(1) et E(ν̃ − np̃)T (ν̃ − np̃) = nB̃ + O(1).

Théorème 2. Sous l’hypothèse H0 la statistique

1 λ1 β2 (ν) + λ2 α2 (ν )
Yn2 = (ν̃ − np̃)T B̃−1 (ν̃ − np̃) = X 2 + ,
n nλ1 λ2

converge en loi quand n → ∞ vers une distribution de χ2k−1 .


Remarque. Considérons l’hypothèse Hη selon laquelle Xi suit la loi G( x−µ σ , η), où
G(x, η) est continue, | x |< ∞, η ∈ H et G(x, 0) = G(x), η = 0 est un point limite de H.
De plus, supposons qu’il existe

∂ ∂
G(x, y) = g(x, y) et g(x, η) |η=0 = Ψ(x),
∂x ∂η
∂2 g(x,η)
où g(x, 0) = g(x) = G0 (x). Dans ce cas si ∂η2
existe et est continue pour tout x au
voisinage de η = 0, alors

P{yi−1 < Xi ≤ yi | Hη } = pi + ηci + o(η),

Zyi
où ci = Ψ(x)dx, i = 1, ..., k,
yi−1

227
et donc
lim P{Y 2 ≥ x | Hη } = P{χ2k−1 (λ) ≥ x},
n→∞
k
c2i λ2 α2 (c) + λ1 β2 (c)
λ= ∑ + , c = (c1 , c2 , ..., ck )T .
i=1 p i λ 1 λ2

Plus de détails on peut trouver dans Aquirre (1993), Aquirre et Nikulin (1994).

4.7 Test du chi-deux dans un problème d’homogénéité.

On a k groupes de souris soumises à des traitements par différents médicaments . Les


souris d’un groupe, nommé "groupe de contrôle", ont reçu un médicament, dont les effets
ont déjà été étudiés. Pour savoir si d’autres médicaments sont meilleurs ou moins bons, on
compare les effets produit par ces médicaments à ceux du "groupe de contrôle". On vérifie
l’hypothèse d’homogénéité : cette hypothèse est vraie s’il n’y a pas de changement d’effet.
Autrement, l’hypothèse doit être rejetée. Dans ce cas, se pose le problème suivant : trouver
les groupes pour lesquels on a des effets différents de ceux du "groupe de contrôle".
Soient µ1 , .., µk des variables aléatoires indépendantes qui suivent la distribution binomiale
de paramètres (n1 , p1 ), . . . , (nk , pk ) respectivement :
ni −m
P {µi = m} = Cnmi pm
i (1 − pi ) , m ∈ {0, 1, . . . , ni }, i = 1, 2, . . . , k,
où les probabilités p1 , . . . , pk sont inconnues (0 < pi < 1; i = 1, . . . , k). Supposons que la
variable aléatoire µk soit donnée pour "le contrôle" ; notre but est alors de tester l’hypothèse
que toutes les probabilités p1 , .., pk−1 ou quelques-unes d’entre elles sont égales à pk . Ce
problème peut être résolu si l’on suppose que min (n1 , . . . , nk ) → ∞.
Soit ξi = µnii , i = 1, . . . , k. Alors du théorème de de Moivre-Laplace on peut tirer que
k· r ¸
ni
P {ξ1 ≤ x1 , ξ2 ≤ x2 , . . . , ξk ≤ xk } ∼ ∏ Φ (xi − pi ) ,
i=1 pi qi
si µ r ¶
ni
(xi − pi ) = O(1),
pi qi
où Φ(·) est la fonction de répartition de la loi normalle N(0, 1) et qi = 1 − pi , i = 1, . . . , k.
Soit ηi = ξi − ξk , et soit
pi qi
∆i = Eηi = pi − pk et σ2i = , i = 1, .., k.
ni
Il est clair que le vecteur aléatoire η = (η1 , . . . , ηk−1 )T a une distribution asymptotique
normale de paramètres

Eη = ∆ = (∆1 , . . . , ∆k−1 )T et E(η − ∆)(η − ∆)T = Σ,



Σ = diag(σ21 , σ22 , . . . , σ2k−1 )T + σ2k E,

228
diag(x1 , . . . , xn ) est la matrice diagonale ayant les éléments x1 , . . . , xn sur la diagonale prin-
cipale et E est la matrice d’ordre (k − 1) × (k − 1), dont tous les éléments sont égaux à 1.
Nous remarquons que la matrice Σ est non singulière et
à !−1
k
Σ−1 = diag(σ−2 −2 −2
1 , σ2 , . . . , σk−1 ) − ∑ σ−2
i kbi j k,
i=1

1
bi j = ; i, j = 1, . . . , k − 1.
σ2i σ2j
Du fait que le vecteur η a une distribution asymptotique normale, il s’ensuit que la forme
quadratique

Y2 = (η − ∆)T Σ−1 (η − ∆)
a à la limite, lorsque min(n1 , . . . , nk ) → ∞, une distribution du chi-deux à k − 1 degrés de
liberté.
Cette même forme quadratique peut être représentée sous une forme plus explicite :
à !−1 " #2
k−1 µ ¶2
ηi − ∆i 1 k k−1
ηi − ∆i
Y2 = ∑ σi
− ∑ 2 ∑ σi . (1)
i=1 i=1 σi i=1
D’après la théorie générale des tests du chi-deux (voir,par exemple, Greenwood et Nikulin
(1996), Nikulin (1991)) , la distribution limite de la forme quadratique Y2 sera la même si
tous les paramètres inconnus σ2i sont remplacés par leurs meilleurs estimateurs sans biais

(1 − ξi )
σ̂2i = ξi , i = 1, . . . , k.
(ni − 1)
Soit P un coefficient de confiance donné , 0.5 < P < 1, et soit x p le quantile de niveau© 2 P de ª
la distribution du chi-deux à k − 1 degrés de liberté. Dans ce cas, la probabilité P Y ≤ x p
est approximativement égale à P et toutes les valeurs du vecteur (∆1 , . . . , ∆k−1 )T , satisfaisant
l’inégalité Y 2 ≤ x p , donnent un intervalle de confiance dont le coefficient de confiance est
proche de P. Ceci peut être utilisé dans la solution du problème proposé.
Inférences statistiques.
On considère un ensemble d’hypothèses

Hr = Hr (i1 , .., ir ) : ∆i1 = ∆i2 = . . . = ∆ir = 0,


r = 1, 2, . . . , k − 1; 1 ≤ i1 < i2 < . . . < ir ≤ k − 1.
Nous dirons que l’hypothèse Hr (i1 , . . . , ir ) n’est pas contradictoire avec les données de l’ex-
périence s’il existe ∆∗i (i 6= i1 , . . . , ir ), pour lequel la valeur de la statistique Y 2 est infé-
rieure à x p . Autrement dit, l’hypothèse Hr (i1 , . . . , ir ) doit être acceptée si , dans l’espace
(∆1 , . . . , ∆k−1 ) de dimension k − 1, l’hyperplan défini par les équations

∆i1 = ∆i2 = . . . = ∆ir = 0

a une intersection non vide avec l’intérieur de l’ellipsoïde défini par l’inégalité Y 2 ≤ x p .
Le but final est de choisir un sous-ensemble d’hypothèses qui ne sont pas contradictoires
avec les données de l’expérience ; puisque certaines hypothèses sont des conséquences des

229
autres nous ne nous intéresserons dans ce sous-ensemble qu’aux éléments dont l’indice r
est maximal.
Considérons l’hypothèse Hr (1 ≤ r ≤ k − 1), et, sans restriction de généralité, supposons
que i1 = k − r, i2 = k − r + 1, . . . , ir = k − 1. Alors la statistique Y 2 aura la forme

" #
k−r−1 µ ¶2 µ ¶2
ηi − ∆i k−1
ηi k−r−1 k−1
Y2 = ∑ σi
+ ∑ σi
− ∑ c j (η j − ∆ j ) + ∑ c jη j , (2)
i=1 i=k−r j=1 j=k−r

où Ã !−1/2
k
c j = σ−2
j ∑ σ−2
i , j = 1, . . . , k − 1.
i=1

Il est facile de voir que la plus petite valeur de la statistique Y 2 est obtenue au point
à !−1
k−r−1 k−1
∆i = ∆∗i = ηi − ci σ̂2i 1− ∑ c2j σ2j ∑ c j η j , i = 1, . . . , k − 1,
j=1 j=k−r
et sa valeur minimale est
µ ¶2
k−1
µ ¶2 ∑ ci ηi
k−1
ηi

i=k−r
Y∗2 = − µ ¶ (3)
σ̂i k−r−1
i=k−r 1 + ∑ ci σ̂i
2 2
i=1
(si r = k − 1, alors le dénominateur de la fraction sera supposé à 1). Il est clair que l’hypo-
thèse Hr (i1 , . . . , ir ) doit être rejetée si Y 2 ≥ x p .
Exemple. Soit
k = 4 et n1 = n2 = n3 = n3 = 100, où µ1 = 20, µ2 = 50, µ3 = 60 et µ4 = 40.
Alors
ξ1 = 0.2, ξ2 = 0.5, ξ3 = 0.6, ξ4 = 0.4, η1 = −0.2, η2 = 0.1, η3 = 0.2.
Si on utilise le meilleur estimateur sans biais σ̂2i = ξi (1 − ξi )/ni pour estimer le paramètre
inconnu σ2i , i = 1, . . . , 4, on obtient

σ̂21 = 0.0016, σ̂22 = 0.0025, σ̂23 = 0.0024 et σ̂24 = 0.0024;


d’où
22.300
σ̂−2 −2 −2 −2
1 + σ̂2 + σ̂3 + σ̂4 = ,
12
et
r r r
3 3 250 3
c1 = 125 , c2 = 80 , c3 = .
223 223 3 223
Puisque la statistique Y 2 a ici approximativement une distribution du chi-deux à trois degrés
de liberté, pour P = 0.95 la valeur critique correspondante x p est x0.95 = 7.815. Nous allons
tester l’hypothèse Hr .

230
A. Test de l’hypothèse H3 (1, 2, 3). En utilisant (3), nous avons
0.04 0.01 0.04
Y∗2 = + + −
0.0016 0.0025 0.0024
à r r r !2
3 3 250 3
− −125 × 0.2 + 80 × 0.1 + × 0.2 = 45.665,
223 223 3 223
© ¢
et comme P χ23 > 45.665 < 10−7 , l’hypothèse H3 (1, 2, 3) doit être rejetée par tous les
tests du chi-deux dont le niveau de signification n’est pas inférieur à 10−7 .
B1 .Test de l’hypothèse H2 (2, 3).Dans ce cas
0.01 0.04
Y∗2 = + −
0.0025 0.0024
à r r !2 µ ¶
3 250 3 125 × 125 × 3 16 −1
− 80 × 0.1 + × 0.2 1+ × =
223 3 223 223 10.00
= 14.541.
© 2 ª
Comme P χ3 > 14.541 = 0.00225, l’hypothèse H2 (2, 3) doit être rejetée par tous les tests
du chi-deux dont le niveau de signification n’est pas inférieur à 0.00225.
B2 .Test de l’hypothèse H2 (1, 3). Comme
0.04 0.04
Y∗2 = + −
0.0016 0.0024
à r r !2 µ ¶−1
3 250 3 80 × 80 × 3 25
− −125 × 0.2 + × 0.2 1+ × =
223 3 223 223 10.000
= 40.898,
l’hypothèse H2 (1, 3) doit être rejetée
© par tousª les tests du chi-deux dont le niveau de signi-
fication n’est pas inférieur à P χ23 > 40.898 < 10−7 .
B3 . Test de l’hypothèse H2 (1, 2). Dans ce cas
0.04 0.01
Y∗2 = + −
0.0016 0.0025
à r r !2 µ ¶−1
3 3 250 × 250 × 3 24
− −125 × 0.2 + 80 × 0.1 1+ × =
223 223 3 × 3 × 223 10.000
= 25.824.
Puisque la valeur minimale Y∗2 de la statistique Y 2 dépasse la valeur critique x0.95 = 7.815,
l’hypothèse H2 (1, 2) doit ausi être rejetée.
C1 . Test de l’hypothèse H1 (1). Comme

à r !2 µ ¶
2 0.04 3 48 50 −1
Y∗ = − −125 × 0.2 1+ + == 19.159 > 7.815,
0.0016 223 223 223

cette hypothèse doit être rejetée aussi.

231
C2 . Test de l’hypothése H1 (2). Ici la plus petite valeur de la statistique Y 2 est égale à
à r !2 µ ¶−1
0.01 3 75 50
Y∗2 = − 80 × 0.1 1+ + = 3.448,
0.0025 223 223 223
ce qui est sensiblement plus petit que la valeurs critique choisie x0.95 , c’est pourquoi l’hy-
pothèse H1 (2) n’est pas rejetée ; nous obtenons les estimateurs nouveaux

r r µ ¶
3 3 75 50 −1
∆∗1 = −0.2 − 80 × 0.1 × 125 × 0.0016 1 − − =
223 223 223 223

= −0.249,
et

r r µ ¶
3 250 3 75 50 −1
∆∗3 = −0.2 − 80 × 0.1 × × 0.0024 1 − − =
223 3 223 223 223

= 0.151.
C3 . Test de l’hypothése H1 (3). Puisque
à r !2 µ ¶−1
0.04 250 3 75 48
Y∗2 = − × 0.2 1+ + = 14.258,
0.0024 3 223 223 223
alors la plus petite valeur dépasse la valeur critique et l’hypothése H1 (3) est rejetée.
Conclusion : seule l’hypothèse H1 (2) peut-être acceptée d’après les résultats de l’expé-
rience, d’où il s’ensuit que ∆2 = p2 − p4 = 0, i.e. p2 = p4 . Si cette hypothèse est vraie , il est
raisonnable de prendre comme estimateur de p4 la valeur de la statistique (µ2 + µ4 )/(n2 +
n4 ) ; dans l’exemple présent cette quantité est égale à (ξ2 + ξ4 )/2 = 0.45. Puisque

p1 − p4 ≈ ∆∗1 = −0.249 et p3 − p4 ≈ ∆∗3 = 0.151,

nous avons p1 ≈ 0.201 et p3 ≈ 0.601.


Remarque. Pour utiliser cette approche, dans le cas général on doit tester
k−1
∑ Ck−1
r
= 2k−1 − 1
r=1

hypothèses. Dans la pratique pourtant il suffit de tester k − 1 hypothèses. Pour cela, il est
nécessaire de calculer les relations

η21 η2k−1
, . . . ,
σ̂21 σ̂2k−1

et de les ranger en une suite non décroissante


µ ¶2 µ ¶2 µ ¶2
η1 η2 ηk−1
≥ ≥ ... ≥
σ̂1 σ̂2 σ̂k−1

232
(les numéros peuvent être donnés après le rangement). Alors on teste successivement les
hypothèses Hr = Hr (k − r, k − r + 1, . . . , k − 1) avec r = k − 1, k − 2, . . . . Si, en agissant de
cette façon, on trouve que
µ ¶2 µ ¶ µ ¶ µ ¶
ηm ηm+1 2 ηm+t 2 ηm+t+1 2
> = ... = >
σm σm+1 σm+t σm+t+1
et qui l’hypothèse Hk−m est rejetée, alors il faut tester ensuite l’hypothèse Hk−m−t et non
Hk−m−1 .
On remarque enfin que Bolshev et Nikulin (1975) ont considéré la solution d’un pro-
blème de homogénéité plus général pour des distributions dépendant de paramètres de trans-
lation et d’échelle.

4.8 Test du χ2 d’homogénéité pour des lois multinomiales.

Observons I vecteurs aléatoires indépendents

µ1 = (µ11 , . . . , µ1r )T , µ2 = (µ21 , . . . , µ2r )T , . . . , µI = (µI1 , . . . , µIr )T ,


avec l’hypothèse H :

µi ∼ Mr (ni , pi ), (1)
où n1 , n2 , . . . , nI sont des entiers positifs, pi = (pi1 , . . . , pir )T ∈ Rr ,
pi1 + pi2 + . . . + pir = 1, i = 1, 2, . . . , I. (2)
Puisque les vecteurs µ1 , . . . , µI sont indépendants, alors, sous l’hypothèse H, la fonction de
vraisemblance L(p1 , . . . , pI ) est

n1 !n2 ! · · · nI ! µ µ µ µ µ µ
L(p1 , . . . , pI ) = p1111 · · · p1r1r p2121 · · · p2r2r · · · pI1I1 · · · pIrIr . (3)
µ11 ! · · · µ1r !µ21 ! · · · µIr !
Si nous supposons que toutes les probabilités pi j sont connues, alors, d’après le théorème
de Pearson, la statistique
2
(µi j − ni pi j )
I r
X =∑∑
2
(4)
i=1 j=1 ni pi j

a pour distribution limite lorsque n → ∞ la distribution du χ2 avec f = I(r − 1) degrés de


liberté :
lim P{X 2 ≤ x | H} = P{χ2I(r−1) ≤ x}.
n→∞
Supposons maintenant que tous les vecteurs pi sont inconnus. Dans ce cas, nous devons
estimer I(r − 1) paramètres pi j . Sous l’hypothèse H, les estimateurs de vraisemblance des
pi j sont
µi j
p̂i j = , j = 1, 2, . . . , r; i = 1, 2, . . . , I, (4)
N

233
où N = n1 + n2 + . . . + nI . Supposons qu’on fasse l’hypothèse H0 :

p1 = p2 = . . . = pI = p, (5)

cela signifie que, sous cette hypothèse H0 toutes les distributions multinomiales (2) des
vecteurs aléatoires µi ont le même vecteur de probabilités p = (p1 , . . . , pr )T qu’on a besoin
d’estimer, si nous voulons faire de l’inférence statistique . Il est évident que sous l’hypo-
thèse H0 , on a seulement besoin d’estimer r − 1 paramètres p1 , p2 , . . . , pr−1 , puisque

p1 + p2 + . . . + pr = 1.

Pour tester H0 on peut construire le test d’homogeneité du χ2 bien connu, basé sur la
variable aléatoire de Pearson (le paramète p est inconnu !), qui sous H0 peut s’écrire :
I r
(µi j − ni p j )2
X2 = ∑ ∑ ni p j . (6)
i=1 j=1

Tout d’abord reécrivons la fonction de vraissemblance L(p) de nos données sous H0 . En


utilisant (3) et en posant

ν = (ν1 , . . . , νr )T = µ1 + . . . + µI , (7)

I
ν j = ∑ µi j , j = 1, 2, . . . , r and ν1 + ν2 + . . . + νr = N, (8)
i=1
on obtient d’après (3), (5) et (8) que

N!
L(p) = pν1 pν2 · · · pνr r . (9)
ν1 !ν2 ! . . . νr ! 1 2
Pour trouver l’estimateur de maximum de vraissemblance p̂ de p sous H0 , on considère :
r
ln L(p) = ln (const) + ∑ νi ln pi , (10)
i=1

d’où nous obtenons le système

∂ ν j νr
L(p) = − = 0, j = 1, 2, . . . , r − 1, (11)
∂p j p j pr
pour lequel la solution est p̂ = ( p̂1 , p̂2 , . . . , p̂r )T , p̂r = 1 − p̂1 − p̂2 − . . . − p̂r−1 , où
νj
p̂ j = , j = 1, 2, . . . , r. (12)
N
Par suite, de (12) on obtient :

pr ν j = νr p j , j = 1, 2, . . . , r, (13)
ce qui implique

234
r r
pr ∑ ν j = νr ∑ p j , (14)
j=1 j=1

d’où
νr
p̂r = . (15)
N
En substituant (15) dans (13) on obtient (12).
Nous pouvons maintenant, pour tester H0 , utiliser la statistique de Pearson :
à !
I r (µ − n p̂ )2 I r µ2
X 2 (p̂) = ∑ ∑ =N ∑ ∑
ij i j ij
−1 . (16)
i=1 j=1 n i p̂ j i=1 j=1 n i ν j

D’après le théorème de Cramer,

lim P{X 2 (p̂) ≤ x | H0 } = P{χ2(I−1)(r−1) ≤ x}, (17)


n→∞
puisque le nombre de paramètres estimés est r − 1, d’où

f = I(r − 1) − (r − 1) = (I − 1)(r − 1), (18)


et f est le nombre de degrés de liberté de la distribution limite du χ2 .
Exemple 1. Supposons que deux groupes de 300 étudiants chacun passent le même examen.
Dans le 1er groupe 144 étudiants obtiennent une très bonne note, 80 une bonne note, 43
une note passable, et 33 une mauvause note. Pour le second groupe, la distribution est
la suivante : 154 trés bonnes notes, 72 bonnes, 35 moyennes et 39 mauvaises. Pouvons
nous dire que les 2 groupes sont homogènes, ce qui signifie que nous avons observé les
réalisations de 2 vecteurs aléatoires ayant la même distribution discrète ?
On peut présenter les données à l’aide du tableau suivant :

i µi1 µi2 µi3 µi4


1 144 80 43 33 (19)
2 154 72 35 39
Soient µi = (µi1 , µi2 , µi3 , µi4 )T (i = 1, 2) les 2 vecteurs aléatoires dont les réalisations sont
présentées dans le tableau et soit H0 l’hypothèse nulle selon laquelle µ1 and µ2 ont la
même distribution multinomiale M4 (300, p), où p est un vecteur inconnu de probabilités
p = (p1 , p2 , p3 , p4 )T , avec p1 + p2 + p3 + p4 = 1. Sous l’hypothèse H0 , l’estimateur de
maximum de vraissemblance de p est p̂ = ( p̂1 , p̂2 , p̂3 , p̂4 )T , où

298 152 78 72
p̂1 = , p̂2 = , p̂3 = , p̂4 = , (20)
600 600 600 600
puisque dans l’exemple :

N = n1 + n2 = 300 + 300 = 600,


ν1 = µ11 + µ21 = 298, ν2 = µ12 + µ22 = 152,
ν3 = µ13 + µ23 = 78, ν4 = µ14 + µ24 = 72,

235
et p̂i = νi /N. Pour tester H0 on peut construire un test du χ2 , basé sur la statistique (16).
D’après nos données nous avons :

(¡ ¢2 ¡ ¢ ¡ ¢2 ¡ ¢ )
72 78 2 298 2
33 − 300 600 43 − 300 600 80 − 300 152 144 − 300
X 2 (p̂) = 2 + + 600
+ 600
=
36 39 76 149

µ ¶ µ ¶
9 16 16 25 1 1 1 1
=2 + + + <2 + + + = 2.4 < χ23 (0.05) = 7.815.
36 39 76 149 4 2 4 5
Puisque

X 2 (p̂) < χ23 (0.05) = 7.815, (21)

on peut accepter H0 , si on prend α = 0.05.

4.9 Test du χ2 pour l’indépendance dans une table de


contingence.

Supposons que les données sont telles que chacune des n observations peut être clas-
sée dans une des K = I · J, (nombre fini) de catégories possibles suivant deux attributs
Ai , B j (i = 1, 2, . . . , I; j = 1, 2, . . . , J). Dans ce cas les données peuvent être présentées dans
un tableau de contingence à I lignes et J colonnes. On notera pi j la probabilité pour une
observation d’être classée à la i-ème ligne et j-ème colonne du tableau, ce qui signifie que
cette observation possède les attributs Ai et B j . Notons νi j le nombre des observations pla-
cées à la i-ème ligne et j-ème colonne. On a alors

I J I J
∑ ∑ νi j = n and ∑ ∑ pi j = 1. (1)
i=1 j=1 i=1 j=1

Soit pi· la probabilité marginale que l’observation soit à la i-ème ligne et soit p· j la proba-
bilité marginale que l’observation soit à la j-ème colonne du tableau. Il est clair que

J I
pi· = ∑ pi j and p· j = ∑ pi j . (2)
j=1 i=1

Nous avons bien sûr :

I J
∑ pi· = ∑ p· j = 1. (3)
i=1 j=1

236
On peut présenter le modèle avec les deux tableaux :

B1 ··· Bj ··· BJ
A1 p11 ··· p1 j ··· p1J p1·
Ai pi1 ··· pi j ··· piJ pi·
AI pI1 ··· pI j ··· pIJ pI·
p·1 ··· p· j ··· p·J 1

Tab. 1

B1 ··· Bj ··· BJ
A1 ν11 ··· ν1 j ··· ν1J ν1·
Ai νi1 ··· νi j ··· νiJ νi·
AI νI1 ··· νI j ··· νIJ νI·
ν·1 ··· ν· j ··· ν·J n
Tab. 2
Si on connait les véritables probabilités pi j , alors la statistique
2
(νi j − ni pi j )
I J
X =∑∑
2
(4)
i=1 j=1 ni pi j

a pour distribution limite lorsque min ni → ∞ une distribution du χ2 avec f degrés de liberté,

f = K − 1 = I · J − 1, (5)

lim P{X 2 ≤ x | H0 } = P{χIJ−1 ≤ x}. (6)


n→∞
Si les pi j sont inconnus, nous devons les estimer. Supposons que nous nous intéressons à
l’hypothèse H0 d’après laquelle les classements dans les lignes et les colonnes sont indé-
pendants, i.e.,

P{Ai B j } = pi j = P{Ai }P{B j } = pi· p· j . (7)


Dans notre modèle, la fonction de vraissemblance est :
I J
n! n! ν
L(p) =
ν11 ! · · · νIJ !
pν1111 · · · pνi jIJ = ∏ ∏
ν11 ! · · · νIJ ! i=1 j=1
pi ji j . (8)

Sous l’hypothèse H0 nous avons


I J
n! ν
L(p) = ∏ ∏
ν11 ! · · · νIJ ! i=1 j=1
pi ji j

à !à !
I J I J
n! ν ν
=
ν11 ! · · · νIJ ! ∏∏ pi·i j ∏∏ p· ji j
i=1 j=1 i=1 j=1

237
à !à !
I J
n! ν
=
ν11 ! · · · νIJ ! ∏ pνi·i· ∏ p· j· j , (9)
i=1 j=1


J I
νi· = ∑ νi j and ν· j = ∑ νi j , (10)
j=1 i=1

et en prenant les logarithmes, on obtient


I J
ln L(p) = const + ∑ νi· ln pi· + ∑ ν· j ln p· j .
i=1 j=1

Pour trouver le vecteur informant Λ(p) nous dérivons ln L(p) par rapport à pi· et p· j :
µ ¶T
∂ ∂ ln L(p) ∂ ln L(p) ∂ ln L(p) ∂ ln L(p)
Λ(p) = ln L(p) = ,..., , ,..., , (12)
∂p ∂p1· ∂pI· p·1 ∂p·J

∂ ln L(p) νi· νI·


= − , i = 1, 2, . . . , I − 1; (12)
∂pi· pi· pI·
et
∂ ln L(p) ν· j ν·J
= − , j = 1, 2, . . . , J − 1. (13)
∂p· j p· j p·J
En utilisant
I−1 J−1
pI· = 1 − ∑ pi· and p·J = 1 − ∑ p· j , (14)
i=1 j=1

de (12)-(13) on tire les estimateurs de maximum de vraisemblance de pi· and p· j :


νi· ν· j
p̂i· =
and p̂· j = , (15)
n n
d’où les estimateurs de maximum de vraissemblance des probabilités pi j sont
νi· ν· j
p̂i j = p̂i· · p̂· j = . (16)
n n
Dans ce cas, d’après le théorème de Fisher, sous l’hypothèse H0 la statistique de Pearson
à !
I J (ν − n p̂ p̂ )2 I J ν 2
X2 = ∑ ∑ =n ∑ ∑
ij i· · j ij
−1 (17)
i=1 j=1 n p̂ i· p̂· j i=1 j=1 ν i· ν · j

a pour distribution limite lorsque n → ∞, la distribution du χ2 à f degrés de liberté,

f = IJ − (I − 1) − (J − 1) − 1 = (I − 1)(J − 1)
et donc

lim P{X 2 ≤ x | H0 } = P{χ2(I−1)(J−1) ≤ x}. (18)


n→∞

238
On peut utiliser ce résultat pour construire un test du χ2 pour l’hypothèse H0 au seuil de
signification α. D’après ce test on doit rejeter H0 si

X 2 > χ2f (α),

où χ2f (α) est le α-quantile supérieur (0 < α < 0.5) de la distribution du χ2 à f = (I −


1)(J − 1) degrés de liberté.
Considérons le cas I = J = 2. Alors au lieu du tableau 2 nous avons le tableau connu
comme le tableau 2 × 2.

ν11 ν12 ν1·


ν21 ν22 ν2·
ν·1 ν·2 n
Tab. 3

De façon evidente, sous l’hypothèse H0 , au lieu du tableau 1, nous aurons le tableau 4,

B1 B2
A1 pP qP P
A2 pQ qQ Q
p q

Tab. 4

P = P(A1 ), Q = P(A2 ) = 1 − P, p = P(B1 ), q = P(B2 ) = 1 − p.


On peut vérifer qu’après quelques manipulations, la statistique de Pearson (17) peut s’écrire

n(ν11 ν22 − ν21 ν12 )2


X2 = , (19)
ν1· ν2· ν·1 ν·2
et d’après (18) il s’ensuit

lim P{X 2 ≤ x | H0 } = P{χ21 ≤ x}. (20)


n→∞

Exemple 1. Considérons un groupe de 300 étudiants qui ont passé un examen partiel en
mathématiques. Parmi eux, 97 ont obtenu une très bonne note : A et les 203 autres une note
inférieure : B. A la fin de l’année, ces étudiants passent l’examen final de mathématiques
et cette fois-ci 48 d’entre eux obtiennent une très bonne note A et parmi eux 18 seulement
ont obtenu une très bonne note au partiel. Cela signifie que 18 étudiants ont obtenu une très
bonne note à la fois à l’examen partiel et à l’examen terminal.
En utilisant ces données nous pouvons construire un test du χ2 au niveau de signification
α = 0.1, pour tester l’hypothesis H0 de l’indépendance d’obtention d’une très bonne note à
chacun des 2 examens.
Tout d’abord, présentons les données dans le tableau 2 × 2 suivant :

239
exam partiel Total
A B
exam A 18 30 48
f inal B 79 173 252

Total 97 203 300

Tab. 5

exam partiel Total


A B
exam A pP qP P
f inal B pQ qQ Q

Total p q 1

Tab. 6

Les estimateurs de maximum de vraisemblance de p et P sont

ν·1 97 ν1. 48
p̂ = = et P̂ = = .
n 300 n 300

La valeur de la statistique de Pearson X 2 donnée par (17), peut être évaluée en utilisant la
formule (19) selon laquelle

¡ ¢2 ¡ ¢2 ¡ ¢2 ¡ ¢2
2 18 − 48·97
300 30 − 48·203
300 79 − 252·97
300 173 − 252·203
300
X = 48·97
+ 48·203
+ 252·97
+ 252·203
=
300 300 300 300

300(18 · 173 − 30 · 79)2 100(248)2


= =
97 · 203 · 48 · 252 97 · 203 · 64 · 7

200 93 31
= · · < 1.
203 97 42

Sous l’hypothèse H0 la statistique X 2 de Pearson est distribuée approximativement comme


χ21 , et donc on accepte H0 , puisque la valeur observée de X 2 est inférieure à χ21 (0.1) = 2.706.

240
4.10 Test du Chauvenet pour la détection des observa-
tions aberrantes.

Le test de Chauvenet est une règle ancienne destinée à détecter au moins une valeur
aberrante dans une série de mesures et à l’éliminer. Cette règle est basée sur unr propriété
simple de l’espérance mathématique. Ici nous allons suivre l’idée de L.Bolshev (1961) sur
la présentation du test de Chauvenet (voir aussi Voinov et Nikulin (1996)).
Considérons n variables aléatoires indépendantes Y1 , ...,Yn , n ≥ 3, de même loi et soit y
un nombre réel donné.
Soit
n
N= ∑ 1[y,+∞[(Y j )
j=1

La statistique N suit une loi binomiale de moyenne :

E(N) = nP(Y1 ≥ y) = np,

où p = P{Y1 ≥ y}. Pour avoir l’égalité E(N) = α, α > 0, il faut choisir y = y(α) comme la
solution de l’équation
α
P {Y1 > y} = . (1)
n
Dans ce cas il est facile de vérifier que
½ ¾
β = P max Yi > y(α) = 1 − {1 − P{Y1 ≥ y(α)}}n =
1≤i≤n
³ α ´n
1− 1− = 1 − e−α + o(1) (n → ∞),
n
et donc si α est suffisamment petit,
½ ¾
P max Yi > y(α) ' α.
1≤i≤n

Notons que Chauvenet lui-même a suggéré de choisir α = 1/2n. Considérons l’hypothèse


H0 selon laquelle
P{Yi ≤ y} = F(y), ∀i ∈ [1, n],
où F est une fonction de repartition donnée, et H1 est alternative d’après laquelle
1
P{Yi ≤ y} = (1 − ε)F(y) + εG(y), i = 1, ..., n, (0 < ε < ),
2
où G est une fonction de répartition telle que G(y) < F(y) pour tout y.
Dans ce cas la région critique déterminée pour la règle de Chauvenet est :
½ ¾
{N ≥ 1} ⇔ max Yi > y(α).
1≤i≤n

Le niveau de signification du test (pour n grand et α petit) est approximativement α. On


peut même, en utilisant l’inégalité de Bonferroni, estimer l’erreur relative entre le seuil du
test et α, et ce pour tout α et pour tout n.

241
242
Chapitre 5

REGRESSION

5.1 Régression linéaire

5.1.1 Modèle de la régression linéaire


On considère le problème de la prédiction d’une ou plusieurs caractéristiques d’une
variable aléatoire Y à l’aide de variables explicatives (covariables) x1 , ..., xm . Par exemple,
on considère la prédiction de l’espérance du prix Y d’une voiture d’une certaine marque
lorsqu’on connaît l’âge x1 , la puissance x2 et le kilométrage x3 de cette voiture.
Même si les valeurs de x1 , ..., xm sont fixées, la variable aléatoire Y peut prendre des
valeurs différentes, parce qu’il y a souvent d’autres facteurs qui interviennent. Par exemple,
les prix de voitures qui ont le même âge, la même puissance et le même kilométrage ne sont
pas forcément les mêmes, à cause de facteurs tels que le nombre des pannes, la présence ou
l’absence de garage spécifique, le régime de travail, les conditions climatiques, le lieu de
vente, etc.

Notons
x = (x0 , x1 , ..., xm )T , x0 = 1, M(x) = E(Y |x).
La fonction M(x) est appelée la fonction de régression. On suppose que M(x) est une com-
binaison linéaire des covariables xi :

M(x) = β0 + β1 x1 + ... + βm xm = βT x, (1)

où β = (β0 , ..., βm )T est un paramètre inconnu.


Pour faire l’estimation on effectue n expériences. La i-ème expérience a lieu sous la
covariable x(i) = (xi0 , ..., xim ), xi0 = 1.

On observe des valeurs de la variable dépendante ( ou expliquée) Yi . Donc on a un


échantillon
(x(1) ,Y1 ), ..., (x(n) ,Yn ).

Le modèle de la régression linéaire

243
Yi = β0 + β1 xi1 + ... + βm xim + ei ,
où e1 , ..., en sont des variables aléatoires i.i.d.,

E(ei ) = 0, Var (ei ) = σ2 , i = 1, ..., n.

Donc on a
Yi = M(x(i) ) + ei , i = 1, ..., n,
où M(x) est donné par la formule (1). Si m = 1, on a le modèle de régression linéaire simple,
et si m > 1, on a le modèle de régression linéaire multiple.
Notons
 
1 x11 · · · x1m
X =  ··· ··· ··· ···  , e = (e1 , ..., en )T , Y = (Y1 , ...,Yn )T .
1 xn1 · · · xnm n×(m+1)

Alors le modèle peut être écrit

Y = Xβ + e, où E(e) = 0n , Var (e) = σ2 In . (2)

Dans ce modèle le vecteur e est interprèté comme le vecteur des erreurs.

5.1.2 Codage des covariables


Si la j-ème variable explicative x j dans (1) est dicrète et mesurée sur une échelle nomi-
nale, par exemple la couleur, la race, etc., et prend k j valeurs différentes, on peut utiliser ,
au lieu de x j , le vecteur z j = (z j,1 , ..., z j,k j −1 ) des codes, qui prend k j valeurs différentes :
(0) (1) (2) (k j −1)
z j = (0, ..., 0), z j = (1, 0, ..., 0), z j = (0, 1, 0, ..., 0), ...., z j = (0, ...., 0, 1)

et le modèle (1) est modifié :


k j −1
M(x) = β0 + β1 x1 + ... + ∑ β jiz ji + ... + βmxm. (3)
i=1

On note que
k j −1
∑ β jiz ji = βTj z j
i=1

où βTj = (β j1 , ..., β j,k j −1 ). Si, par exemple, x j est la couleur qui prend 3 valeurs (noir, bleu,
blanc), on considère le vecteur z j = (z j1 , z j2 ) qui prend les valeurs
(0) (1) (2)
z j = (0, 0) - (noir), z j = (1, 0) - (bleu), z j = (0, 1) - (blanc).

Si x j est le sexe (masculin, féminin), on considère la variable z j qui prend les valeurs
(0) (1)
z j = 0 (masculin) et z j = 1 (féminin).

Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1), etc.

244
5.1.3 Interprétation des coefficients β.
(1) (2)
Notons que lorsqu’on prend deux valeurs x j et x j de x j dans (1), alors

(2) (1) (2) (1)


β j (x j − x j ) = M(x1 , ..., x j , ..., xm ) − M(x1 , ..., x j , ..., xm ).

Donc
(2) (1)
β j (x j − x j )
(2) (1)
(soit β j , si x j − x j = 1) représente le changement de la valeur moyenne de la variable
(1) (2)
expliquée Y quand x j passe de x j à x j tandis que toutes les autres covariables restent les
mêmes.

Il faut souligner que dans le modèle (1) le changement de la moyenne de Y est le même
pour n’importe quelles valeurs fixées des autres covariables xl (l 6= j), c’est à dire qu’ il n’y
a pas d’interaction entre les covariables.
Si x j est discrète et mesurée sur une échelle nominale, alors
(i) (0)
β ji = M(x1 , ..., z j , ..., xm ) − M(x1 , ..., z j , ..., xm ).

Donc β ji représente le changement de la moyenne de la variable dépendante Y quand z j


(0) (i)
passe de z j à z j tandis que toutes les autres covariables gardent les mêmes valeurs. Par
exemple, si x j est la couleur (noire, blanche ou bleue), β j2 représente le changement de
(0)
la moyenne de Y qui correspond au changement de x j de la couleur noire (z j = z j ) à la
(2)
couleur blanche (z j = z j ).

5.1.4 Modèle avec interactions


Si l’effet du changement de la valeur de la covariable x j est différent pour des valeurs
différentes des autres covariables, c’est qu’on a une interaction entre x j et ces covariables.
Alors le modèle (1) peut être modifié pour mettre en lumière l’effet de cette interaction. Par
exemple, dans le cas de deux covariables, on a le modèle

M(x) = β0 + β1 x1 + β2 x2 + β3 x1 x2 , (4)

et dans le cas de trois covariables :

M(x) = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x1 x2 + β5 x1 x3 + β6 x2 x3 + β7 x1 x2 x3 . (5)

S’il y a une interaction dans le cas m = 2 par exemple, alors


(2) (1) (2) (1)
M(x1 , x2 ) − M(x1 , x2 ) = (β1 + β3 x2 )(x1 − x1 ),
(2) (1)
donc la moyenne de Y dépend non seulement de la différence x1 − x1 mais aussi de la
valeur de la deuxième covariable x2 .

245
Si, par exemple, Y est le prix (en Frs.), x1 est l’âge (en années), x2 est la puissance (
en cm3 ), d’une voiture d’une certaine marque et s’il y a une interaction entre l’âge et la
puissance, il est évident que la valeur de la voiture diminue annuellement mais cette baisse
du prix est différente pour des voitures de différentes puissances. Pour la voiture ayant la
puissance x2 cm3 la baisse du prix annuelle est de β1 + β3 x2 (Euros.). Voir aussi la section
Décomposition orthogonale de Fisher.

5.1.5 Estimateurs des moindres carrés


On cherche l’estimateur β̂ qui minimise la somme des carrés
n
SS = ∑ (Yi − β0 − β1 xi1 − ... − βm xim )2 = (Y − Xβ)T (Y − Xβ).
i=1

En dérivant SS par rapport à β j on a


∂SS n
= −2 ∑ xi j (Yi − β0 − ... − βm xim ), ( j = 0, ..., m),
∂β j i=1

d’où on obtient le système de (m + 1) équations linéaires (j=0,...,m) :


n n n n
β0 ∑ xi j xi0 + β1 ∑ xi j xi1 + ... + βm ∑ xi j xim = ∑ αi jYi , (6)
i=1 i=1 i=1 i=1
ou
X T Xβ = X T Y .
Si la matrice A(m+1)×(m+1) = X T X n’est pas dégénérée, alors on a

L’estimateur des moindres carrés de β :

β̂ = (X T X)−1 X T Y . (7)
Si x = (1, x1 , ..., xm )T est un vecteur de covariables donné,
M(x) = E(Y |x) = βT x,
alors on obtient
L’estimateur de l’espérance M(x) = E(Y |x) est :
T
M̂(x) = β̂ x = β̂0 + β̂1 x1 + ... + β̂m xm .
Notons
1 n
∑ Yi.
T
Ŷi = M̂(x(i) ) = β̂ x(i) , Ŷ = (Ŷ1 , ..., Ŷn )T , ê = (ê1 , ..., ên )T , Ȳ =
n i=1

Les variables aléatoires Ŷi et Yi sont appelées respectivement les valeurs prédites et
observées des Yi ,et les êi = Yi − Ŷi sont les résidus estimés @ù des erreurs apparentes . On
a
Ŷ = X β̂, ê = Y − Ŷ = Y − X β̂ = e + X(β − β̂). (8)

246
5.1.6 Propriétés des estimateurs
.
Notons

B = B(m+1)×n = (X T X)−1 X T , H = H n×n = In − X(X T X)−1 X T .

Alors
β̂ = BY , ê = HY . (9)
Il faut remarquer que

HH = H, H T = H, BBT = B, BH = 0(m+1)×n . (10)

Lemme 1. Si det(X T X) 6= 0, alors

T
a) X T H = 0m×n , X T e = 0m+1 , Ŷ e = 0, (11)

T
b) Y T Y = Ŷ Ŷ + êT ê, ⇔ kY k2 = kŶ k2 + kêk2 , (12)

c) ∑nj=1 (Y j − Ȳ )2 = ∑nj=1 (Ŷ j − Ȳ )2 + ∑nj=1 (Y j − Ŷ j )2 , (13)

d) ∑ni=1 Yi = ∑ni=1 Ŷi , (14)

e) eT e = êT ê + (Ŷ − Xβ)T (Ŷ − Xβ). (15)

Démonstration.
a) On a
X T H = X T − X T X(X T X)−1 X T = 0n×n ,
donc
T T
X T ê = X T HY = 0m+1 , Ŷ ê = β̂ X T ê = 0.
b) D’après (11)
T T T
Y T Y = (Ŷ + ê)T (Ŷ + ê) = Ŷ Ŷ + Ŷ ê + êT Y + êT ê = Ŷ Ŷ + êT ê.

c) L’égalité (12) peut être écrite sous la forme

∑ Y j2 = ∑ Ŷ j2 + ∑(Y j − Ŷ j )2.
Alors
n n n
∑ Y j2 − nȲ 2 = ∑ Ŷ j2 − nȲ 2 + ∑ (Y j − Ȳ j )2
j=1 j=1 j=1

247
et donc
n n n
∑ (Y j − Ȳ ) 2
= ∑ (Ŷ j − Ȳ ) 2
+ ∑ (Y j − Ŷ j )2 .
j=1 j=1 j=1

d) La première ligne de X T est 1n = (1, ..., 1)T , donc l’égalité X T ê = 0m+1 , démontrée dans
a), implique
n n n
1Tn ê = ∑ êi = 0 et donc ∑ Yi = ∑ Ŷi.
i=1 i=1 i=1
e) D’après (2) et (11) on a

eT e = (Y − Xβ)T (Y − Xβ) =

(Y − Ŷ + Ŷ − Xβ)T (Y − Ŷ + Ŷ − Xβ) =
(ê + Ŷ − Xβ)T (ê + Ŷ − Xβ) =
êT ê + 2êT (Ŷ − Xβ) + (Ŷ − Xβ)T (Ŷ − Xβ) =
êT ê + (Ŷ − Xβ)T (Ŷ − Xβ).
Le lemme est démontré.

Théorème 1. Gauss-Markov. Si det (X T X) 6= 0, alors

a). E(β̂) = β, Var (β̂) = σ2 (X T X)−1 ,

b). E(ê) = 0, Var (ê) = σ2 H,


c). Cov (β̂, ê) = 0,
d). E(êT ê) = (n − m − 1)σ2 .
Démonstration.
a) On a
E(β̂) = (X T X)−1 X T E(Y ) = (X T X)−1 X T Xβ = β,
Var (β̂) = (X T X)−1 X T σ2 In X(X T X)−1 = σ2 (X T X)−1 .
b)
E(ê) = E(Y − X β̂) = Xβ − Xβ = 0n .
Var (ê) = Var (HY ) = Hσ2 In H = σ2 H.
c)
Cov (β̂, ê) = Cov (BY , HY ) = Bσ2 In H = σ2 BH = 0(m+1)×n .
d) Notons
A = X T X = (ai j ), A−1 = (ai j ), (i, j = 0, ..., m).
Alors
E((Ŷ − Xβ)T (Ŷ − Xβ)) = E((β̂ − β)T A(β̂ − β)) =
m m m m
∑ ∑ ai j E((β̂i − βi)(β̂ j − β j )) = σ2 ∑ ∑ ai j ai j =
i=0 j=0 i=0 j=0

σ2 Tr(AA−1 ) = σ2 Tr(Im+1 ) = σ2 (m + 1).

248
On a
n n
E(e e) = ∑
T
Ee2i = ∑ Var ei = nσ2 .
i=1 i=1
L’égalité (15) implique que
E(êT ê) = (n − m − 1)σ2 .
Le théorème 1 est démontré.

Corollaire.
SSR
β̂ et σ̂2 =
n−m−1
des estimateurs sans biais de β et de σ2 respectivement, et

Cov (β̂, σ̂2 ) = 0;

On a déjà vu que les paramètres qu’il est le plus important d’estimer et qui sont en
même temps ceux dont l’interprétation est la plus évidente sont :
a) la moyenne M(x) de la variable expliquée Y sous n’importe quelle valeur de la cova-
riable x ;
b) chacun des paramètres β j , qui caractérise le changement de la moyenne de Y corres-
pondant au changement de la covariable x j (modèle sans interaction) ;
c) les combinaisons linéaires des paramètres β j , qui caractérisent le changement de la
moyenne de Y correspondant au changement d’une covariable sous des valeurs spécifiées
des autres covariables (le modèle avec interactions). Par exemple, dans le modèle (4 ) la
combinaison linéaire β1 + β3 x2 caractérise le changement de la moyenne de Y correspon-
dant au changement de la covariable x1 sous des valeurs spécifiées de x2 .
Donc dans tous les cas l’estimation des combinaisons linéaires du type lT β, où l =
(l0 , ..., lm )T , est importante.

Un estimateur de lT β est appelé linéaire, s’il a la forme

cT Y , c = (c1 , ..., cn )T .

L’estimateur cT Y de lT β est appelé sans biais si

E(cT Y ) = lT β pour tout β ∈ Rm+1 ,

i.e. pour le modèle de type (2) avec n’importe quel β ∈ Rm+1 , l’espérance de cT Y est égale
à la vraie valeur de lT β.
Notons Gl la classe des estimateurs linéaires sans biais de lT β.

Théorème 2. (Gauss-Markov). Si det (X T X) 6= 0, alors lT β̂ est l’unique estimateur de


variance minimale dans la classe Gl .

Démonstration. Si cT Y ∈ Gl , alors

lT β = E(cT Y ) = E(cT Y − lT β̂ + lT β̂) = (cT X − lT )β + lT β,

249
donc
(cT X − lT )β = 0 pour tout β ∈ Rm+1
et
cT X − lT = 0Tm+1 . (16).
On a
Var (cT Y ) = Var (cT Y − lT β̂ + lT β̂) =
Var (cT Y − lT β̂) + Var (lT β̂) + 2Cov (cT Y − lT β̂, lT β̂).
L’égalité (16) et le Lemme 1 impliquent que

Cov (cT Y − lT β̂, lT β̂) = Cov ((cT − lT B)Y , lT BY )) =

(cT − lT B)σ2 In BT l =
σ2 (cT X(X T X)−1 − lT (X T X)−1 X T X(X T X)−1 )l =
σ2 (cT X − lT )(X T X)−1 l = 0,
donc
Var (cT Y ) = Var (lT β̂) + Var (cT − lT B)Y =
Var (lT β̂) + σ2 (cT − lT B)(cT − lT B)T .
On a Var (cT Y ) ≥ Var (lT β̂) et l’égalité est vérifiée si et seulement si cT = lT B.

Le théorème est démontré.


T
Corollaire. Les estimateurs M̂(x) = β̂ x et β̂ j de la moyenne M(x) et du paramètre β j ,
respectivement, sont les estimateurs de variance minimale dans la classe des estimateurs
linéaires sans biais de M(x) et β j .

Il s’ensuit par exemple que l’estimateur β̂1 + β̂3 x2 de β1 +β3 x2 est le meilleur estimateur
dans la classe des estimateurs linéaires sans biais de β1 + β3 x2 (modèle (4)).

5.1.7 Décomposition des sommes de carrés


.

Le lemme 1 implique l’égalité

∑(Yi − Ȳ )2 = ∑(Ŷi − Ȳ )2 + ∑(Yi − Ŷi)2.


La somme
n
SSR = ∑ (Yi − Ŷi )2
i=1
caractérise la différence entre les valeurs prédites et observées et est appelée la somme des
carrés résiduelle. La somme
n
SSE = ∑ (Ŷi − Ȳ )2
i=1

250
est appelée la somme des carrés expliquée par régression. La somme
n
SST = ∑ (Yi − Ȳ )2
i=1

est appelée la somme des carrés totale. D’après le lemme 1

SST = SSR + SSE .

La somme SST mesure la variabilié des valeurs de Y , la somme SSE mesure la partie de
cette variabilité expliquée par la régression. Si le modèle de régression linéaire donne une
bonne prédiction, c’est à dire si les Ŷi sont proches des Yi , la somme SSE est proche de
SST . Donc SSE explique une grande part de la variabilité des valeurs Yi autour de Ȳ . Si la
prédiction est mauvaise, la somme SSE est petite par rapport à SST et SSE n’explique pas
beaucoup la variabilité des valeurs de Yi autour de Ȳ . La somme des carrés résiduelle SSR
est ce qui reste de la variabilité totale après la soustraction de SSE . D’où le nom de SSR .

Lemme 2.
1 n n T ( j)
E(SST ) = (n − 1)σ2 + ∑ ∑ [β (x − x(i))]2.
n2 i=1
(17)
j=1

Démonstration. Notons M j = E(Y j ) = βT x( j) . Alors


n n
E(SST ) = E ∑ (Yi − Ȳ ) = E( ∑ (Yi − Mi + Mi − Ȳ )2 ) =
2
i=1 i=1

n n n
E( ∑ (Yi − Mi ) ) − 2E( ∑ (Yi − Mi )(Ȳ − Mi )) + E( ∑ (Ȳ − Mi )2 ) =
2
i=1 i=1 i=1
n n n n
2 1
nσ2 − E( ∑ ∑ (Yi − Mi )(Y j − Mi )) + 2 ∑ E( ∑ (Y j − Mi ))2 =
n i=1 j=1 n i=1 j=1

1 n n
(n − 2)σ2 + ∑ ∑ E(Y j − Mi)2 =
n2 i=1 j=1

1 n n £ ¤2
(n − 2)σ2 + ∑ ∑
n2 i=1 j=1
E (Y j − M j + M j − Mi ) =

1 n n £ 2 ¤
(n − 2)σ + 2 ∑ ∑ E σ + (M j − Mi )2 =
2
n i=1 j=1

1 n n
(n − 2)σ + σ + 2 ∑ ∑ (M j − Mi )2 =
2 2
n i=1 j=1

1 n n h T ( j) i2
(n − 1)σ + 2 ∑ ∑ β (x − x ) .
2 (i)
n i=1 j=1
Le lemme 2 est démontré.
D’après le théorème 1 et le lemme 2 on a

E(SSR ) = (n − m − 1)σ2 ,

251
1 n n h T ( j) i2
E(SST ) = (n − 1)σ2 + ∑∑
n2 i=1
β (x − x (i)
) , (18)
j=1
E(SSE ) = E(SST ) − E(SSR ).
Corollaire.
E(SSR ) = E(SST ) et E(SSE ) = 0,
si l’hypothèse H0 : β1 = ... = βm = 0 est vérifiée, c’est-à-dire sous le modèle sans régression
Yi = β0 + ei , i = 1, ..., n.
E(SSE ) = E(SST ) et E(SSR ) = 0,
si σ2 = 0, c’est-à-dire le modèle de régression linéaire prédit sans erreur les valeurs de Y .

5.1.8 Le coefficient de détermination.

La variable aléatoire
SSR SSE
R2 = 1 − = (19)
SST SST
est appelée le coefficient de détermination.
R2 prend ses valeurs dans le segment [0, 1]. Il représente la proportion de la variabilité
des Yi expliquée par la régression.
Si la prédiction est idéale, i.e. Ŷi = Yi , alors SSR = 0 et R2 = 1. S’il n’y a pas de régres-
sion, i.e. pour tous les x(i) la prédiction de la moyenne M(x(i) ) est la même : Ŷi = Ȳ , alors
SSR = SST et R2 = 0. Donc R2 caractérise la qualité de la prédiction.
La variable aléatoire √
RY (12...m) = R2
est appelée le coefficient de corrélation empirique multiple.

Proposition. Le coefficient de corrélation empirique multiple est égal au coefficient de


corrélation empirique simple entre les valeurs observées Yi et les valeurs prédites Ŷi :
∑ni=1 (Ŷi − Ŷ¯ )(Yi − Ȳ )
RY (12...m) = rY Ŷ = q ,
¯
∑i=1 (Ŷi − Ŷ ) ∑i=1 (Yi − Ȳ )
n 2 n 2

où Ŷ¯ = 1n ∑ni=1 Ŷi .

Démonstration. D’après le lemme 1 on a : Ŷ e = 0, Ŷ¯ = Ȳ donc


T

n n
∑ (Ŷi − Ŷ¯ )ei = ∑ Ŷiei = Ŷ
T
e = 0,
i=1 i=1
n n n
¯ )(Y − Ȳ ) = (Y − Ȳ¯ˆ )(e + Ŷ − Ŷ¯ ) = (Ŷ − Ŷ¯ )2
∑ i
(Ŷ − Ŷ i ∑ i i i ∑ i
i=1 i=1 i=1
et s s
∑ni=1 (Ŷi − Ŷ¯ )2 ∑ni=1 (Ŷi − Ȳ )2
rY Ŷ = = = RY (12...m) .
∑ni=1 (Yi − Ȳ )2 ∑ni=1 (Yi − Ȳ )2
La proposition est démontrée.

252
5.1.9 Régression linéaire simple

Dans le cas d’une seule variable explicative (m = 1) , on a le modèle de régression


linéaire simple :
Yi = β0 + β1 xi + ei , (20)
où e1 , ..., en sont les variables aléatoires i.i.d., E(ei ) = 0, Var (ei ) = σ2 .
On a un échantillon
(x1 ,Y1 ) · · · (xn ,Yn ). (21)
La réalisation de l’échantillon consiste en n paires de nombres réels qui peuvent être re-
présentés dans le plan comme “un nuage”de points. Ces points sont dispersés autour de la
droite de régression
y = β0 + β1 x (22)
puisque E(Yi ) = β0 + β1 x. Si la variance σ2 est petite, la plupart des points (xi ,Yi ) sont
proches de cette droite. La droite (22) est inconnue parce que les paramètres β0 et β1 sont
inconnus. La droite
y = β̂0 + β̂1 x (23)
est la droite de régression estimée. Si on dispose de la réalisation de l’échantillon (21), la
droite (23) peut être dessinée. Les points (xi ,Yi ) sont dispersés autour de cette droite.
Dans le cas de la régression linéaire simple, le système d’équations (6) devient
n n
β0 n + β1 ∑ xi = ∑ Yi ,
i=1 i=1

n n
β0 ∑ xi + β1 ∑ xi2 = ∑ xiYi ,
i=1 i=1
donc
∑ni=1 (xi − x̄)(Yi − Ȳ )
β̂1 = , β̂0 = Ȳ − β̂1 x̄.
∑ni=1 (xi − x̄)2
Si on note
∑n (xi − x̄)(Yi − Ȳ )
rxY = p n i=1
∑i=1 (xi − x̄)2 ∑ni=1 (Yi − Ȳ )2
le coefficient empirique de corrélation de x et Y et

1 n 1 n
s2x = ∑ (xi − x̄)2,
n i=1
sY2 = ∑ (Yi − Ȳ )2
n i=1

les variances empiriques de x et Y , alors


sY
β̂1 = rxY , β̂0 = Ȳ − β̂1 x̄.
sx
Les matrices X T et X T X sont
µ ¶ µ ¶
T 1 ··· 1 T n ∑ni=1 xi
X = , X X= .
x1 · · · xn ∑ni=1 xi ∑ni=1 xi2
D’après le théorème 1 ,

253
E(β̂) = β,
µ ¶
Var (β̂0 ) Cov (β̂0 , β̂1 )
Var (β̂) = =
Cov (β̂0 , β̂1 ) Var (β̂1 )
µ n 2 ¶
−1 σ2 ∑i=1 xi − ∑ni=1 xi
σ (X X) =
2 T
,
n ∑ni=1 (xi − x̄)2 − ∑ni=1 xi n
l’estimateur sans biais de σ2 est
SSR ∑n (Yi − Ŷi )2
σ̂2 = = i=1
n−2 n−2
et
Cov (β̂, σ̂2 ) = 0.
D’après le théorème de Gauss-Markov les estimateurs

M̂(x) = β̂0 + β̂1 x, β̂0 et β̂1

sont de variance minimale dans la classes des estimateurs linéaires sans biais de M(x) =
E(Y |x), β0 et β1 respectivement,

E(M̂(x)) = M(x), Var (M̂(x)) = Var (β̂0 ) + 2xCov (β̂0 , β̂1 ) + x2 Var (β̂1 ).

Si x passe de x(1) à x(2) , alors le changement de la moyenne de Y est estimé par β̂1 (x(2) −
x(1) ).
Notons que dans le cas de la régression linéaire simple

Ŷi = β̂0 + β̂1 xi , Ŷ¯ = Ȳ = β̂0 + β̂1 x̄

et donc
[∑ni=1 (Ŷi − Ŷ¯ )(Yi − Ȳ )]2
R2 = =
∑n (Ŷ − Ŷ¯ )2 ∑n (Y − Ȳ )2
i=1 i i=1 i

[∑ni=1 (xi − x̄)(Yi − Ȳ )]2 2


= rxY .
∑ni=1 (xi − x̄)2 ∑ni=1 (Yi − Ȳ )2
Le coefficient de détermination est égal au carré du coefficient de corrélation empirique
des xi et des Yi : R2 = rxY
2 . Le coefficient de corrélation empirique multiple est égal à la

valeur absolue du coefficient de corrélation empirique simple : RY (1) = |rxY |.

5.1.10 Régression normale

On a jusqu’à présent supposé seulement l’existence des deux premiers moments de Yi


dans le modèle (2). Si l’on veut obtenir des intervalles de confiance pour l’espérance m(x),
pour les paramètres βi , pour des combinaisons linéaires lT β,ou si l’on veut vérifier des
hypothèses sur les valeurs des paramètres inconnus, ou construire des tests d’ajustement,
on doit faire des hypothèses supplémentaire, par exemple supposer que la répartition des Yi
appartient à une certaine classe de répartitions, la plus usuelle étant celle des lois normales.

254
On suppose par la suite dans ce chapitre que la loi des Yi est normale, donc

Y = Xβ + e, e ∼ N(0, σ2 In ). (24)

Certains cas où la loi de Y est différente de la loi normale sont considérés dans le chapitre
sur la “régression log-linéaire”.

5.1.11 Estimateurs du maximum de vraisemblance


La fonction de vraisemblance sous le modèle (24) a la forme

1 1 n
L(β, σ2 ) =
(2πσ2 )n/2
exp{− ∑ (Yi − βT X (i))2}.
2σ2 i=1

Pour n’importe quel σ2 > 0 la maximisation de L est équivalente à la minimization de


n
SS = ∑ (Yi − βT x(i) )2 .
i=1

Donc les estimateurs du maximum de vraisemblance de β coincident avec l’estimateur des


moindres carrés β̂. Notons que
SSR n
ln L(β̂, σ2 ) = − 2
− (ln (2π) + ln (σ2 )),
2σ 2
∂ SSR n
ln L(β̂, σ2 ) = 4 − 2
∂(σ )
2 2σ 2σ
et donc l’estimateur du maximum de vraisemblance pour σ2 est :
1
σ̃2 = SSR .
n
Cet estimateur est biaisé :
n−m−1 2
E(σ̃2 ) = σ
n
est asymptotiquement (n → ∞) équivalent à l’estimateur

σ̂2 = SSR /(n − m − 1),

considéré dans le corollaire du théorème 1.

5.1.12 Lois des estimateurs β̂ et σ̂2 .

Considérons le théorème essentiel de la régression normale.

Théorème 2. Si det(X T X) 6= 0, alors


1. Les variables aléatoires β̂ et SSR sont indépendantes ;

255
2. Les variables aléatoires SSR et SS − SSR sont indépendantes ;
3. β̂ ∼ N(β, σ2 (X T X)−1 ), SSR
σ2
∼ χ2n−m−1 , SS−SSR
σ2
∼ χ2m .

Démonstration. D’après (11) on a X T H = 0 et

SSR = êT ê = Y T H T HY = Y T HY = (Y T − βT X T )HY =

(Y T − βT X T )H(Y − Xβ) = eT He.

On a Y = Xβ + e, donc

β̂ − β = (X T X)−1 XY − β = β + (X T X)−1 Xe − β =

(X T X)−1 Xe = Be,

SSR /σ2 = ẽT H ẽ, (β̂ − β)/σ = Bẽ,

où ẽ = e/σ ∼ N(0, In ). D’après (10) BH = 0. Donc le lemme 1 (annexe) implique que les
variables aléatoires SSR et β̂ − β sont indépendantes. D’après l’égalité (15) la différence

SS − SSR = eT e − êT ê = (Ŷ − Xβ)T (Ŷ − Xβ) = (β̂ − β)T X T X(β̂ − β)

est une fonction de β̂. Donc les variables aléatoires SSR et SS − SSR sont aussi indépen-
dantes.
Le vecteur β̂ est une fonction linéaire du vecteur normal Y . Donc

β̂ ∼ N(β, σ2 (X T X)−1 ).

Le vecteur (β̂ − β)/σ ∼ N(0, (X T X)−1 ). De plus, rang(X T X) = m donc d’après le théo-
rème 1 (annexe)
SS − SSR 1
= 2 (β̂ − β)T X T X(β̂ − β)
σ 2 σ
suit la loi χ2m .
On a obtenu
SSR = ẽT H ẽ, ẽ ∼ N(0, In ).

La matrice H est idempotente et

Tr(H) = TrIn − Tr(X T (X T X)−1 X)

= n − Tr(XX T (X T X)−1 ) = n − TrIm+1 = n − m − 1.

D’après le lemme 2 (annexe), SSR ∼ χ2n−m−1 . Le théorème est démontré.

256
5.1.13 Test de l’hypothèse H0 : βk+1 = ... = βm = 0

Supposons qu’on ait le modèle de régression multiple

Yi = β0 + β1 x1i + ... + βm x1m + ei (i = 1, ..., n),

ou
Y = Xβ + e, (25)
où  
1 x11 · · · x1m
X =  ··· ··· ··· ··· , β = (β1 , ..., βm )T , e = (e1 , ..., en )T .
1 xn1 · · · xnm
Considérons le problème de la vérification de l’hypothèse

Hk : βk+1 = ... = βm = 0,

où k est un nombre fixé, k = 0, ..., m − 1. Sous Hk les covariables xk+1 , ..., xm n’améliorent
pas la prédiction de la variable expliquée. Donc si Hk est vérifiée, on peut exclure ces
covariables du modèle. Dans le cas k = 0 on a l’hypothèse

H0 : β1 = ... = βm = 0.

On n’a pas de régression. La connaissance des valeurs des covariables ne dit rien sur les
valeurs de Y .
Considérons le modèle réduit

Yi = β0 + β1 xi1 + ... + βk x1k + ei (i = 1, ..., n)

ou
Y = X (k) β(k) + e, (26)
où  
1 x11 · · · x1k
X (k) =  · · · · · · · · · · · ·  , β(k) = (β1 , ..., βk )T .
1 xn1 · · · xnk
Notons
(k) (k) (k)
SSR = ê(k)T ê(k) = (Y − X (k) β̂ )T (Y − X (k) β̂ ),
(n)
SSR = êT ê = (Y − X β̂)T (Y − X β̂)
les sommes résiduelles des carrés pour le modèle (25) et (26).

Théorème 1. Si l’hypothèse Hk est vérifiée, det (X T X) 6= 0, m + 2 ≤ n, alors


(m) (k) (m)
1. SSR et SSR − SSR sont indépendantes.
(m) (k) (m)
2. SSR ∼ σ2 χ2 (n − m − 1), SSR − SSR ∼ σ2 χ2 (m − k).

257
Démonstration. Notons que
(m) (k)
SSR = eT He, SSR = eT H (1) e,


H = In − X(X T X)−1 X T , H (1) = In − X (1) (X (1)T X (1) )−1 X (1)T .
Notons X 0 , ..., X m les colonnes de la matrice X. Considérons la suite des vecteurs orthonor-
maux d’ordre n
V 0 = Xl0 , ...,V m = Xlm
qui sont des combinaisons linéaires des X 0 , ..., X m et sont obtenus par la méthode d’ortho-
gonalisation de Gram-Schmidt ; ici

l0 = (l00 , 0, ..., 0)T , l1 = (l10 , l11 , 0, ..., 0)T , ..., lk = (lk0 , ..., lkk , 0, ..., 0)T ,

lm = (lm0 , ..., lmm )T , li j ∈ R.


On a
V Ti V i = 1, V Ti V j = 0 (i 6= j).
Notons V m+1 , ...,V n−1 les vecteurs orthonormaux d’ordre n qui sont orthogonaux à
V 0 , ...,V m .
Chaque vecteur V i (i = 0, ..., m) est un vecteur propre de la matrice H correspondant à
la valeur propre 0 : pour i = 0, ..., m on a

HV i = V i − X(X T X)−1 X T V i =

V i − X(X T X)−1 X T Xli = V i − Xli = 0.


Le vecteur V i (i = m + 1, ..., n − 1) est un vecteur propre de H correspondant à la valeur
propre 1 : pour i = m + 1, ..., n − 1 le vecteur V i est orthogonal aux colonnes de la matrice
X, donc X T V i = 0 et
HV i = V i − X(X T X)−1 X T V i = V i .
La décomposition spectrale de H est
n−1
H= ∑ V iV Ti ,
i=m+1

donc
n−1 n−1
∑ ∑
(m)
SSR = eT He = eT V iV Ti e = z2i ,
i=m+1 i=m+1

où zi = V Ti e. Il faut remarquer que

Ezi = 0, Var zi = σ2V Ti V i = σ2 ,

Cov (zi , z j ) = EeT V Ti V j e = 0 (i 6= j).


Les variables aléatoires zm+1 , ..., zn−1 sont indépendantes et zi ∼ N(0, σ2 ), (i = m+1, ..., n−
(m)
1). Donc SSR /σ2 ∼ χ2 (n − m + 1).

258
Notons que pour i = 0, ..., k on a V i = Xli = X (k) l∗i , où l∗i = (li0 , ..., lii , 0, ..., 0) est le
vecteur d’ordre k + 1, et donc
H (k)V i = H (k) Xli = H (k) X (k) l∗i = 0.
Pour i = k + 1, ..., n − 1 on a X (k)T V i = 0, donc
H (k)V i = V i − X (k) (X (k)T X (k) )−1 X (k)T V i = V i .
Par conséquent, V 0 , ...,V k ,V k+1 , ...,V n−1 sont des vecteurs propres de H (k) de valeurs propres
respectives 0, ..., 0, 1, ..., 1 .
La décomposition spectrale de H (k) est
n−1
H (k)
= ∑ V iV Ti ,
i=k+1

donc
n−1

(k)
SSR = eT V iV Ti ei ∼ σ2 χ2 (n − k − 1),
i=k+1
m

(k)
SSR − SSR = eT V iV Ti ei ∼ σ2 χ2 (m − k)
i=k+1
(k)
et les vecteurs SSR et SSR − SSR sont indépendants.

Corollaire. Sous les hypothèses du théorème, la variable aléatoire


(k) (m)
(SSR − SSR )/(m − k)
F= (m)
SSR /(n − m − 1)
suit la loi de Fisher à m − k et n − k − 1 degrés de liberté.
(m) (k)
Les sommes SSR et SSR caractérisent les différences entre les valeurs observées et les
valeurs prédites. Sous l’hypothèse H k la différence
(k) (m)
SSR − SSR
ne doit pas être grande. Si H k n’est pas vérifiée, alors les covariables xk+1 , ..., xm améliorent
(k) (m)
la prédiction et la différence SSR − SSR doit être plus grande. Donc on rejette H si
F > F1−α (m − k, n − k − 1),
où F1−α est le (1 − α) quantile de la loi de Fisher.
L’hypothèse la plus intéressante de point de vue pratique est
Hm−1 : βm = 0.
Elle signifie que le modèle avec m − 1 covariantes x1 , ..., xm−1 donne la même prédiction
que le modèle avec m covariates x1 , ..., xm , i.e. la covariante xm peut être exclue du modèle.
La statistique de test pour cette hypothèse est
(m−1) (m)
SSR − SSR
F= (m)
.
SSR /(n − m − 1)

259
L’hypothèse est rejettée avec le niveau de signification α, si

F > F1−α (1, n − m).

Notons que dans le cas de l’hypothèse H0 on a


n
SSR = ∑ (Yi − Ȳ )2 = SST ,
(0) (0) (m) (m)
SSR − SSR = SSE ,
i=1

(m)
où SST et SSE sont la somme des carrés totalle et la somme des carrés expliquée par la
régression , respectivement, dans le modèle (25). La statistique de test pour H0 est
SSE /m
F= ∼ Fm,n−m−1 .
SSR /(n − m − 1)
Donc l’hypothèse H0 sur l’absence de la régression est rejettée avec le niveau de significa-
tion α, si
F > F1−α (m, n − m − 1).
Dans le cas du modèle linéaire simple cette hypothèse est équivalente à l’hypothèse

H0 : β1 = 0

et la statistique de test
SSE
F= ∼ F1,n−2 .
SSR /(n − 2)
L’hypothèse est rejettée avec le niveau de signification α, si

F > F1−α (1, n − 2).

En utilisant la relation entre la loi de Fisher de 1 et (n − 2) degrés de liberté et la loi de


Student de (n − 2) degrés de liberté, la région critique peut être écrite en forme équivalente :

t > t1−α (n − 2),



où t = F et t1−α (n − 2) est la (1 − α) quantile de la loi de Student de (n − 2) degrés de
liberté.

5.1.14 Les coefficients empiriques de la correlation partielles

Considérons la statistique
(k) (m) (m) (k)
SSR − SSR SSE − SSE
RY2 (Xk+1 ...Xm )(1...k) = (k)
= (k)
.
SSR SST − SSE
(m) (k)
La somme des carrés SSE et SSE mesurent les parties de variabilité des valeurs Yi expli-
quées par la régression dans les modèles (25) et (26), respectivement, donc la statistique
(m) (k)
SSE − SSE

260
mesure la partie de variabilité des valeurs de Yi , expliqué par l’inclusion des covariables
xk+1 , ..., xm complémentaires à x1 , ..., xk .
La statistique
(k) (k)
SSR = SST − SSE
mesure la variabilité résiduelle des Yi , i.e. la variabilité qui n’est pas expliquée par le modèle
(26). Donc R2 est la proportion de la variabilité résiduelle du modèle (26) expliquée par
introduction des nouvelles covariables xk+1 , ..., xm .
Notons que
(m) (k)
SSR = SST (1 − RY2 (1...m) ), SSR = SST (1 − RY2 (1...k) ),
donc
RY2 (1...m) − RY2 (1...k)
RY2 (Xk+1 ...Xm )(1...k) = .
1 − RY2 (1...k)
La statistique q
RY (Xk+1 ...Xm )(1...k) = RY2 (X
k+1 ...Xm )(1...k)

est appelée le coefficient empirique de correlation partiel de Y et Xk+1 , ..., Xm . Il mesure la


correlation entre Y et (Xk+1 ...Xm ) après l’élimination de leur dépendance de X1 ...Xk .
RY2 Xm (1...k) est la proportion de la variabilité résiduelle du modèle avec (m − 1) cova-
riables x1 , ..., xm−1 expliquée par introduction de la m-ème covariable xm . On a
RY2 (1...m) − RY2 (1...m−1)
RY2 Xm (1...m−1) = . (27)
1 − RY2 (1...m−1)

La statistique q
RY Xm (1...m−1) = RY2 Xm (1...m−1)
est appelée le coefficient empirique de correlation partielle de Y et Xm . Il mesure la cor-
relation entre Y et Xm après l’élimination de leur dépendance de X1 ...Xm−1 . L’égalité (27)
implique ³ ´³ ´
1 − RY2 (1...m) = 1 − RY2 Xm (1...m−1) 1 − RY2 (1...m−1) .

5.1.15 Intervalles de confiance pour les coefficients β et leur combi-


naisons linéaires

Considérons le modèle de régression multiple (25). Le théorème 1 implique que dans le


cas normale
β̂ ∼ Nm+1 (β, σ2 (X T X)−1 ), SSR /σ2 ∼ χ2 (n − m − 1)
et les variables aléatoires β̂ et SSR sont indépendantes. Notons sii les éléments diagonaux
de la matrice (X T X)−1 = (si j ). Alors

β̂i − βi SSR
∼ N(0, 1), ∼ χ2 (n − m − 1)
σsii σ2

261
et donc
β̂i − βi
t=q ∼ St(n − m − 1),
Var (β̂i )
ˆ


ˆ (β̂i ) = sii σ̂2 = sii MSR .
Var
Le γ = 1 − α intervalle de confiance pour βi est
p
β̂i ± sii MSRt1−α/2 (n − m − 1),

où t1−α/2 (n − m − 1) est le (1 − α/2) quantile de la loi de Student de n − m − 1 degrés de


liberté.
Si on considère le modèle avec interactions, alors certaines combinaisons linéaires des
paramètres β0 , ..., βm ont le sens pratique. Le paramètre
m
c = ∑ li βi = lT β
i=0

est estimé par la statistique ĉ = eT β̂, donc

Var (ĉ) = lT Var (β̂)l = σ2 lT (X T X)−1 l

et
ĉ − c
t=p ∼ St(n − m − 1).
lT (X T X)−1 lMSR
Le (1 − α) intervalle de confiance pour c est
q
ĉ ± lT (X T X)−1 lMSRt1−α/2 (n − m − 1).(28)

5.1.16 Intervalles de confiance pour les valeurs de la fonction de ré-


gression m(x)

Fixons la valeur x0 du vecteur des covariables. Considérons la valeur

m(x0 ) = E(Y | x0 ) = β0 + β1 x01 + ... + βm xm = xT0 β̂

de la fonction de régression.
La formule (28) implique que (1 − α) intervalle de confiance pour m(x0 ) est
q
x0 β̂ ± xT0 (X T X)−1 x0 MSRt1−α/2 (n − m − 1).
T

262
5.1.17 Prédiction de la nouvelle observation

Supposons que x0 = (1, x01 , ..., x0m )T est un vecteur des covariables fixé et Yn+1 (x0 ) est
la (n + 1) observation de la variable dépendante.
Intervalle aléatoire (U1 ,U2 ) tel que

P{U1 < Yn+1 (x0 ) < U2 } = 1 − α

est appelé la (1 − α) intervalle de prédiction pour Yn+1 (x0 ).


Les variables aléatoires Yn+1 (x0 ) et xT0 β̂ sont indépendantes et

Yn+1 (x0 ) ∼ N(xT0 β, σ2 ), xT0 β̂ ∼ N(xT0 β, σ2 xT0 (X T X)−1 x0 ),

donc
Yn+1 (x0 ) − xT0 β̂ ∼ N(0, σ2 (1 + xT0 (X T X)−1 xT0 ).
La statistique
Yn+1 (x0 ) − xT0 β̂
t=q ∼ St(n − m − 1),
MSR (1 + xT0 (X T X)−1 x0 )
donc le (1 − α) intervalle de prédiction pour Yn+1 (x0 ) est
q
x0 β̂ ± MSR (1 + xT0 (X T X)−1 x0 )F1−α/2 (n − m − 1).
T

Il est plus large que l’intervalle de confiance pour la moyenne m(x0 ) = xT0 β.
Prédiction de la nouvelle observation Yn+1 (x0 ) est plus incertaine que la prédiction de
la moyenne de Y (x0 ).
Le chapitre n’est pas achevé. Les problèmes de diagnostique, step by step régression,
liaison avec ANOVA, etc, sont à ajouter.

5.1.18 Analyse des résidus

Avant de faire inférences il est necessaire de vérifier si le modèle est bien ajusté aux
données réeles. Les suppositions principales du modèle de régression linéaire sont :
a). l’égalité des variances des variables aléatoires ei = Yi − βT x ;
b). l’indépendance des ei ;
c). la linéarité de la fonction de régression M(x) = E(Y (x)) ;
d). la normalité des variables aléatoires ei (si l’on construit les intervalles de confiance
ou vérifie des hypothèses).
Considérons des méthodes non formels de vérification des suppositions du modèle.
Dans le cas du modèle de régression linéaire simple des nuages des points (xi ,Yi )
peuvent être considérés. Si ces points sont dispersés autour d’une certaine courbe, qui n’est
pas une droite, on peut supposer que le modèle n’est pas bien choisi.
Dans le cas m > 1 des résidus êi peuvent être considérés. Notons que

ê = HY , E(ê) = 0, Var (ê) = σ2 H,

263

H = I n − X(X T X)−1 X T = (hi j ),
et donc µ ¶

Var √i = 1.
σ hii
La variance est estimée par

∑ni=1 (Yi − Ŷi )2


σ̂2 = MSR = .
(n − m + 1)
Notons
êi
ẽi = √ .
MSR hii
On a E(ẽi ) ≈ 0, Var (ẽi ) ≈ 1. Les variables aléatoires ẽi sont appelées les résidus stan-
dardisés.
Si on considère le plan avec l’axe des abscisses Y et l’axe des ordonnées e, les points
(Ŷi , êi ), (i = 1, ..., n), sont dispersés autour de la droite horizontale avec l’axe de symmetrie
e = 0. Si les variances des ei ne sont pas égales, on dit qu’on a heterodescasité. Si le modèle
pour M(x) est bien choisi mais il y a heterodescasité, alors les points (Ŷi , êi ), sont dispersés
aussi autour de la droite e = 0, mais la largeur de la bande n’est pas constante. Par exemple,
si la variance augmente avec augmentation de Ŷi , alors la bande s’élargisse.
Si les points (Ŷi , êi ) sont dispersés autour d’une autre courbe différente de e = 0, le
modèle pour M(x) n’est pas bien choisi.
Au lieu des points (Ŷi , êi ) on peut considérer les points (xi j , êi ), (i = 1, ..., n) pour j fixé.
Si le modèle est bien choisi, ces points doivent être dans la bande horizontale avec l’axe
de symmetrie e = 0. Sinon on peut supposer que la j-ème covariable n’influence pas M(x)
linéairement ou il faut inclure plus de covariables dans le modèle.
Par exemple, si le vrai modèle est

Yi = β0 + β1 xi + β2 xi2 + ei

mais on a choisi le modèle


Yi0 = β00 + β01 xi + e0i ,
alors
êi = Yi − Ŷi0 = β0 − β̂00 + (β1 − β̂01 )xi + β2 xi2 + ei
et donc les points (xi , êi ) seront dispersés autour d’une parabole.
Si le vrai modèle est
Yi = β0 + β1 xi1 + β2 xi2 + ei
mais on a choisi
Yi0 = β00 + β01 xi1 + e0i ,
alors
êi = β0 − β̂00 + (β1 − β̂01 )xi1 + β2 xi2 + ei
et les points (xi1 , êi ), (i = 1, ..., n) (ainsi que les points (xi2 , êi ), (i = 1, ..., n) ) ne seront pas
dispersés autour de la ligne horizontale e = 0.
Si les plots des résidus indiquent que le modèle est mal choisi, il suffit souvent de faire
des transformations simples des xi et Yi pour obtenir le bon modèle.

264
Par exemple, si Yi ∼ LN(β0 +β1 ln xi , σ2 ), alors lnYi = β0 +β1 ln xi +ei , où ei ∼ N(0, σ2 ).
Si on fait des transformations Yi0 = lnYi , xi0 = ln xi , alors on a le modèle linéaire simple
Yi0 = β0 + β1 xi0 + ei . Notons que dans ce cas les variances

Var (Yi ) = xi 1 eσ (eσ − 1)


2β 2 +2β 2
0

ne sont pas constants, mais les variances Var (lnYi ) = σ2 sont constantes.
Considérons plusieurs exemples des transformations pour les modèles de régression à
une covariable. Notons y = M(x). On a
1. si y = αxβ , alors y0 = ln y, x0 = ln x et y0 = ln α + βx0 ;
2. si y = αeβx , alors y0 = ln y et y0 = ln α + βx ;
3. si y = x
αx−β , alors y0 = 1/y, x0 = 1/x et y0 = α − βx0 ;
4. si y = α + β ln x, alors x0 = ln x et y = α + βx0 ;
5. si y = eα+βx /(1 + eα+βx ), alors y0 = ln 1−y
y
et y0 = α + βx.

Si Y compte le nombre de certains événements, la transformation Y 0 = Y stabilise
souvent la variance.
Considérons les méthodes non formels de vérification de la normalité des résidus. Si
ei ∼ N(0, σ2 ), alors ê = HY ∼ N(0, σ2 H) et ẽi ∼ N(0, 1). Souvent les correlations entre ẽi
sont petites et on considère ẽ1 , ..., ẽn comme i.i.d. N(0, 1).
Pour tester la normalité grossièrement on peut faire l’hystogramme des ẽi . On peut aussi
faire des plots suivants :
soient ẽ(1) ≤ ... ≤ ẽ(n) les statistiques d’ordre de ẽ1 , ..., ẽn . Si Z( j) est la j-ème statistique
d’ordre de la loi N(0, 1), ( j = 1, ..., n), alors notons m( j) = E(Z(i j) ). Les espérances m( j)
ne dépendent pas des paramètres inconnus. Si ẽ(i) sont des statistiques d’ordre de la loi
N(0, 1), alors les points (ẽ(i) , m(i) ) doivent être dispersés autour de la droite e = m dans le
plan (0em).
On peut utiliser une autre méthode : mettre sur le plan (0eq) les points (ẽ(i) , q(i) ), où
³ ´ ³ ´
q(i) = Φ −1 i−1/2
n sont des i−1/2
n -quantiles de la loi N(0, 1). Alors ces points doivent
être dispersés autour de la droite e = q.
Indépendance des variables aléatoires ei peut être vérifiée en utilisant le test de Durbin-
Watson.
Considérons la statistique

∑ni=2 (êi−1 − ê)(


¯ êi − ê)
¯ ∑ni=2 êi−1 êi
r1 = = ,
∑ni=1 (êi − ê)
¯ 2 ∑ni=1 ê2i

appelée la première autocorrelation des (ê1 , ê2 ), (ê2 , ê3 ), ... , (ên−1 , ên ) ; ici ê¯ = ∑ni=1 êi . Elle
est très proche au coefficient de correlation empirique linéaire de ces pairs. Alors la statis-
tique
∑ni=2 (êi − êi−1 )2
d= ≈ 2(1 − r1 )
∑ni=1 ê2i
est appelée la statistique de Durbin-Watson. r1 est proche à zéro, si les variables aléatoires
êi sont indépendantes. Alors la statistique d est proche à 2 dans ce cas. La loi de d ne dépend
pas des paramètres inconnus et les valeurs critiques di et ds de d sont tabulées. On rejette
l’hypothèse d’indépendance, si d < di ou d > ds .

265
Même si le modèle est bien choisi, l’estimation peut être mauvaise, si parmi les points
(xi ,Yi ) il y a des valeurs aberrantes, i.e. les points avec grands résidus êi = Yi − Ŷi . La va-
leur aberrante est influente si son retrait change beaucoup la valeur de l’estimateur de β.
L’influence de (xi ,Yi ) peut être mesurée à l’aide de la distance de Cook. Pour calculer cette
distance, on calcule la valeur prédite ajustée Ŷia qui est déterminée comme Ŷi , utilisant
seulement les points

(x1 ,Y1 ), ..., (xi−1 ,Yi−1 ), (xi+1 ,Yi+1 ), ..., (xn ,Yn ).

La distance de Cook est déteminée par la formule suivante :

∑ni=1 (Ŷia − Ŷi )2


Ci2 = .
(m + 1)MSR

La règle pratique : si Ci2 > 1, le point est influent.

5.2 Annexe

Soit X = (X1 , ..., Xn ) un échantillon, Xi ∼ N(0, 1). On considère la forme linéaire bT X,


b = (b1 , ..., bn )T et les formes quadratiques X T AX, X T BX, où A et B sont des matrices sy-
métriques.

Lemme .
a) Si bT A = 0, alors X T AX et bT X sont indépendantes ;
b) Si AB = 0, alors les formes quadratiques X T AX et X T BX sont indépendantes.

Démonstration. a). On suppose que rang(A) = r. Comme A est une matrice symétrique,
on peut