P. 1
Cours de que que

Cours de que que

|Views: 89|Likes:
Publié parcheria2010

More info:

Published by: cheria2010 on Oct 30, 2011
Droits d'auteur :Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

04/26/2013

pdf

text

original

UNIVERSITE VICTOR SEGALEN BORDEAUX 2

U.F.R. "Sciences et Modélisation"
COURS de STATISTIQUE MATHEMATIQUE
Modèles, Méthodes, Applications
à
l’usage des étudiants de DEUG, Licence et Master
M. Nikulin
V. Bagdonaviˇ cius
C. Huber
V. Nikoulina
BORDEAUX
2004/2005
1
2
Table des matières
0 LOIS USUELLES. APPROXIMATIONS. 11
0.1 Lois discrètes. Approximations normale et de Poisson. Théorème limite
central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
0.2 Approximations normales et de Poisson . . . . . . . . . . . . . . . . . . . 14
0.3 Lois continues. Liaisons entre des lois . . . . . . . . . . . . . . . . . . . . 15
0.4 Epreuves de Bernoulli et marches aléatoires. . . . . . . . . . . . . . . . . 22
0.5 Représentation d’une suite d’épreuves de Bernoulli indépendante . . . . . 22
0.6 Probabilités associées à une marche aléatoire reliant 2 points du treillis S . 23
0.7 Frontière absorbante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.8 Marches aléatoires et distributions discrètes . . . . . . . . . . . . . . . . . 24
1 QUELQUES PROBLÈMES CLASSIQUES DE LA STATISTIQUE MATHE-
MATIQUE. 31
1.1 Problèmes d’estimation et de comparaison des probabilités de succès. . . . 31
1.2 Modèle probabiliste de l’erreur de mesure. . . . . . . . . . . . . . . . . . 41
1.3 Méthode de Monte-Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2 ELEMENTS DE LA THEORIE DE L’ESTIMATION PONCTUELLE. 55
2.1 Modèle statistique. Fonction de vraisemblance. . . . . . . . . . . . . . . . 55
2.2 Statistique. Échantillon. Loi empirique. . . . . . . . . . . . . . . . . . . . 56
2.3 Estimateur ponctuel. Consistance. Estimateur invariant . . . . . . . . . . . 62
2.4 Fonction de perte, fonction de risque. . . . . . . . . . . . . . . . . . . . . 64
2.5 Statistiques exhaustives, nécessaires, minimales et complètes. . . . . . . . 65
2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet. Théorème de Rao-
Blackwell-Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7 Méthode des moments. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.8 Méthode des moindres carrés. Modèle de Gauss de la théorie des erreurs. . 81
2.9 Régions, intervalles, limites de confiance. . . . . . . . . . . . . . . . . . . 86
2.10 Méthode de Bolshev de construction des limites de confiance. . . . . . . . 88
2.11 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.12 Intervalle de confiance pour la moyenne d’une loi normale . . . . . . . . . 100
2.13 Intervalle de confiance pour la variance d’une loi normale . . . . . . . . . 105
2.14 Intervalle de confiance pour la différence des moyennes de deux lois normales112
2.15 Intervalle de confiance pour le quotient des variances de deux lois normales. 117
2.16 La loi de Thompson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17 Méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . 121
2.18 Propriétés asymptotiques du rapport de vraisemblance . . . . . . . . . . . 132
3
2.19 Decomposition orthogonale de Fisher . . . . . . . . . . . . . . . . . . . . 151
2.20 Modèle d’analyse des variances à 2 facteurs. . . . . . . . . . . . . . . . . 154
2.21 Modèle exponentiel. Analyse statistique. . . . . . . . . . . . . . . . . . . 163
3 ELEMENTS DE LA STATISTIQUE NON PARAMETRIQUE. 169
3.1 La loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.2 Médiane de la loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . 180
3.3 Théorème de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrètes. . . . . . . . . . . . . . . . . . . . . . . . . 184
3.4 Tests de Kolmogorov et Smirnov pour un échantillon. . . . . . . . . . . . 186
3.5 Test de Kolmogorov-Smirnov pour deux échantillons. . . . . . . . . . . . 189
3.6 Test ω
2
de Cramer-von Mises et statistiques associées de Lehmann, Gini,
Downton, Moran-Greenwood et Sherman. . . . . . . . . . . . . . . . . . . 190
3.7 Les statistiques de Kolmogorov et Gihman. . . . . . . . . . . . . . . . . . 195
3.8 Test des signes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.9 Test de Wilcoxon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.10 Estimation non paramétrique de la densité. Histogramme. Estimateur de
Rosenblatt. Le noyau de Parzen. . . . . . . . . . . . . . . . . . . . . . . . 204
4 TESTS STATISTIQUES. 207
4.1 Principe des tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
4.2 Test de Neyman-Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . 209
4.3 Loi multinomiale et test du chi-deux de Pearson. . . . . . . . . . . . . . . 214
4.4 Théorème de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
4.5 Théorème de Chernoff-Lehmann. . . . . . . . . . . . . . . . . . . . . . . 224
4.6 Test du chi-deux pour une loi logistique. . . . . . . . . . . . . . . . . . . . 225
4.7 Test du chi-deux dans un problème d’homogénéité. . . . . . . . . . . . . . 228
4.8 Test du χ
2
d’homogénéité pour des lois multinomiales. . . . . . . . . . . . 233
4.9 Test du χ
2
pour l’indépendance dans une table de contingence. . . . . . . . 236
4.10 Test du Chauvenet pour la détection des observations aberrantes. . . . . . . 241
5 REGRESSION 243
5.1 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.1.1 Modèle de la régression linéaire . . . . . . . . . . . . . . . . . . . 243
5.1.2 Codage des covariables . . . . . . . . . . . . . . . . . . . . . . . 244
5.1.3 Interprétation des coefficients β. . . . . . . . . . . . . . . . . . . . 245
5.1.4 Modèle avec interactions . . . . . . . . . . . . . . . . . . . . . . 245
5.1.5 Estimateurs des moindres carrés . . . . . . . . . . . . . . . . . . . 246
5.1.6 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . 247
5.1.7 Décomposition des sommes de carrés . . . . . . . . . . . . . . . . 250
5.1.8 Le coefficient de détermination. . . . . . . . . . . . . . . . . . . . 252
5.1.9 Régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . 253
5.1.10 Régression normale . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.1.11 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 255
5.1.12 Lois des estimateurs
ˆ
β et ˆ σ
2
. . . . . . . . . . . . . . . . . . . . . . 255
5.1.13 Test de l’hypothèse H
0
: β
k+1
= ... = β
m
= 0 . . . . . . . . . . . . 257
5.1.14 Les coefficients empiriques de la correlation partielles . . . . . . . 260
4
5.1.15 Intervalles de confiance pour les coefficients β et leur combinaisons
linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.1.16 Intervalles de confiance pour les valeurs de la fonction de régres-
sion m(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
5.1.17 Prédiction de la nouvelle observation . . . . . . . . . . . . . . . . 263
5.1.18 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.2 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
5.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6 ELEMENTS D’ANALYSEDES DONNEES CENSUREES ETTRONQUEES.281
6.1 Distribution de survie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6.2 Risque de panne ou taux de défaillance. . . . . . . . . . . . . . . . . . . . 284
6.3 Modèles paramétriques de survie. . . . . . . . . . . . . . . . . . . . . . . 289
6.4 Modèles nonparamétriques . . . . . . . . . . . . . . . . . . . . . . . . . . 298
6.5 Types de censure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
6.6 Troncature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6.7 Estimateur de Kaplan-Meier. . . . . . . . . . . . . . . . . . . . . . . . . . 316
6.8 Modèle de Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
6.9 Sur l’estimation semiparamétrique pour le modèle de Cox . . . . . . . . . 323
6.10 Processus de comptage et l’estimation non paramétrique . . . . . . . . . . 328
6.11 Estimation dans des expériences accélérées . . . . . . . . . . . . . . . . . 336
6.11.1 Modèles de vie accélérée . . . . . . . . . . . . . . . . . . . . . . 336
6.11.2 Estimation paramétrique . . . . . . . . . . . . . . . . . . . . . . . 341
6.11.3 Estimation semiparamétrique . . . . . . . . . . . . . . . . . . . . 350
7 INFERENCE BAYESIENNE 357
7.1 La règle Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
7.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
7.3 Approche bayesienne empirique . . . . . . . . . . . . . . . . . . . . . . . 370
7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
7.4.1 La loi beta et ses propriétés . . . . . . . . . . . . . . . . . . . . . 370
7.5 Résultats principaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
7.6 Aproximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
8 EXERCICES. 375
9 SOLUTIONS. 383
5
6
AVANT PROPOS
Ce fascicule est destiné tout d’abord aux étudiants de
l’UFR "Sciences et Modélisation"
(ancienne l’UFR MI2S) de l’Université Victor Segalen Bordeaux 2, qui veulent apprendre
les notions fondamentales de la statistiques mathématiques. Le contenu de ce fascicule est
une synthèse des des cours de statistique que j’ai donné à l’Université Bordeaux 2, l’Univer-
sité Bordeaux 1 et l’Univrsité Bordeaux 4 dans les années 1992-2002. Il est supposé que les
étudiants aient la connaissance avec des notions fondamentalles de la théorie de probabilité
pour apprendre la première partie de cours et de la théorie des processus stochastiques pour
la deuxième partie, exposées par exemple, dans le fascicule
"Calcul des Probabilités et Introduction aux Processus Aléatoires", 2000/2001, UFR
MI2S, (V.Bagdonaviˇ cius, V.Nikoulina et M.Nikulin). Il y a une corrélation forte positive
entre ces deux cours.
Il faut remarquer qu’à la base de cet ouvrage se trouvent les mêmes idées statistiques
qui étaient exposées dans les deux polycopies de C.Huber et M.Nikulin :
"Transformations des variables aléatoires. Applications au choix et à la réduction d’un
modèle statistique", (1991), UFR "Etudes Médicales et Biologiques", Université Paris 5,
et "Applications Statistiques des Transformations des Variables Aléatoires", (1993), UFR
MI2S, Université Bordeaux 2.
Pour traiter bien les données, c’est-à-dire pour mener à bien les estimations et les tests
classiques, paramétriques ou non paramétriques, on transforme les observations brutes en
calculant des statistiques bien choisies qui doivent avoir les propriétés suivantes :
1. Perdre le moins d’information possible, éventuellement pas du tout et c’est le cas des
statistiques exhaustives, tout en réduisant au minimum le volume initial des observations.
2. Etre calculable ou avoir une bonne approximation. Par exemple s’il s’agit d’un esti-
mateur obtenu par la méthode de maximum de vraisemblance, il se peut que l’on ne puisse
en obtenir aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins
bon.
3. Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur.
Ce qui suit donne, grâce à des transformations appropriées des observations, des statis-
tiques qui ont ces propriétés et aussi de bonnes approximations des lois usuelles et permet
ainsi de n’utiliser essentiellement que deux tables : celle de la loi normale standard et celle
des lois gamma (ou chi-deux). Des exemples illustrent l’application de ces méthodes, qui
donnent des approximations meilleures ( vitesse de convergence plus rapide) que les ap-
proximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-
7
blèmes concrets, en particulier pour les ingénieurs, mais aussi, et c’est moins connu, dans
les domaines de la médecine, de la biologie et de la sociologie.
De plus cette approche nous permet de considérer "les transformations des variables
aléatoires" comme le synonyme d’une partie de "la statistique mathématique", qui est basée
sur la théorie de la probabilité. Ce point de vue sur le rôle des transformations des variables
aléatoires dans la statistique a été exprimé tres nettement par Professeur L.N. Bolshev dans
ces articles, voir, par exemple, (1959), (1963) etc.
Dans cette optique C.Huber, T.Smith and M.Nikulin ont préparé le manuscript "Intro-
duction to the Theory of Statistical Inference",(1992), Departement of Mathematics and
Statistics, Queen’s University, Kingston, Canada. Ce manuscrit a été largement utilisé pour
créer la base du cours de la statistique que j’ai donné à Queen’s University en 1991-1992,
ainsi que les cours de statistiques donnés au sein de l’UFR MI2S à l’Université Bordeaux
2.
Il faut noter que pour préparer le cours actuel nous avons utilisé aussi les livres suivants :
V. Bagdonaviˇ cius & M.Nikulin, "Accelerated Life Models", 2002,
Chapman&Hall/CRC : Boca Raton,
C.Huber, "Statistique au PCEM",1992, Masson, Paris,
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.1 : Univa-
riate Case" 1993, Kluwer Academic Publishers, Dortrecht),
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.2 : Multiva-
riate Case", 1996, Kluwer Academic Publishers, Dortrecht,
P.E.Greenwood & M.Nikulin, "A Guide to Chi-Squared Testing", 1996, John Wiley and
Sons, New-York,
Encyclopaedia of Mathematics, 1994, (Editor : M.Hasewinkel), Kluwer Academic Pu-
blishers, v. 1-10,
Probability & Mathematical Statistics : Encyclopaedia, 1999, (Ed. : Yu.V.Prokhorov),
Big Russian Encyclopaedia,Moscow,
d’où était tiré la plupart des exemples, définitions, remarques, exercises et démonstrations
des résultats à caractère théorique pour construire les cours de statistique que nous avons
donné à l’Université Bordeaux 2 (DEUG, Licence et Maîtrise de la filère MASS, DESS et
DEA de la filière Sciences Cognitive à l’UFR MI2S, DESS de Statistique Appliquée aux
Sciences Sociales et de Santé de l’ISPED. Ce cours est lié avec d’autres cours de statis-
tiques donnés à l’Université Bordeaux 2 ( les UFR’s STAPS, Sciences de la Vie, Sciences
Pharmaceutiques, l’ISPED) et peut-être bien utilisé comme le support de base dans l’en-
seignement des cours de statistiques de niveau de DESS et DEA orientés vers le milieu
biomédicale, ainsi que pour les sciences sociales et économiques. En particulier, il est bien
adapté pour le DESS "Statistique Appliquée aux Sciences Sociales et de la Santé" et DEA
d’Epidémiologie (Option Biostatistique) à l’Institut de Santé Publique, d’Epidémiologie et
de Développement. Cet ouvrage est tres lié avec notre ouvrage précident "Statistique ma-
thématique : Théorie, Méthodes and Applications", (2000/2001).
Dans ces cours nous avons essayé d’exposer les idées et les notions fondamentales de
la statistique mathématique en termes de définitions, exemples et remarques et d’introduire
les techniques des transformations des données et les méthodes statistiques que l’on utilise
souvent dans les applications. Tout cela ensemble permet d’apprendre les bases fondamen-
tales de la statistique mathématique, d’apprendre à travailler avec des logiciels et des tables
statistiques, de construire des modèles probabilistes et de faire des inférences statistiques,
et par conséquent, à être pret de travailler dans les différents domaines d’applications des
8
modèles et méthodes de la statistique mathématique. Il est évident que ce cours de statis-
tique reflète des intérets statistiques des auteurs et que nous avons traité plus profondément
les thèmes qui sont proches aux thèmes de recherches, développés au sein du Laboratoire
"Statistique Mathématiques et ses Applications" de l’Université Bordeaux 2. Il faut noter
que parallelement à l’Université Bordeaux 2 on fait d’autres cours de statistiques, qui sont
plus appliqués et où on considère des méthodes d’analyse des données, de la statistique
multivariée, de l’analyse des régressions et surtout de l’analyse de survie dans le cadre des
cours de statistiques de l’ISPED.
Vu l’importance d’applications des modèles semiparamétriques avec des covariables dé-
pendant du temps dans l’analyse de survie, en fiabilité, dans l’économie etc., nous avons mis
quelques résultas récents, liés avec la théorie des épreuves accélérées. Plus d’informations
on peut voir, par exemple, dans nos monographies avec V.Bagdonaviˇ cius “Semiparametric
Models in Accelerated Life Testing”, (1995), et "Additive and Multiplicative Semiparame-
tric Models in Accelerated Life Testing and Survival Analysis", (1998).
A la fin il faut ajouter que nos cours de statistiques sont accompagnés des travaux pra-
tiques en Statistiques avec l’utilisation de SPSS.
Je remercie mes collegues des Universités Bordeaux 1, 2 et 4, de l’Université Paris
5, et tous les participants au Séminaire Statistique des Universités de Bordeaux et du Sé-
minaire Européan "Mathematical Methods in Survival Analysis and Reliability", avec les-
quels nous avons discuté sur les problèmes d’enseignement de la statistique. Les discus-
sions ont été très intéressantes et très utiles pour nous, et surtout avec A.Alioum„ Ch.Bulot,
D.Commenges, V.Couallier, L.Gerville-Réache, H.Lauter, M.Mesbah, J.Poix, V.Solev, V.Voinov.
Mikhail Nikouline
9
10
Chapitre 0
LOIS USUELLES.
APPROXIMATIONS.
0.1 Lois discrètes. Approximations normale et de Poisson.
Théorème limite central
Ici nous allons exposer des lois probabilistes que l’on utilise souvent en applications sta-
tistiques, des liaison entre elles et des approximations utiles. Plus d’information à ce sujet
on peut trouver dans les publications de L.Bolshev (1963), C.Huber et M.Nikulin (1993),
où, en particulier, est exposé la théorie des transformations asymptotique de Pearson, dé-
veloppée par L.Bolshev, voir aussi, L.Bolshev et N.Smirnov (1968), M.Nikulin (1984),
Bagdonavi¸ vuis et Nikulin (2002).
Définition 1. On dit qu’une variable aléatoire discrète X suit la loi de Bernoulli de
paramètre p, p ∈ [0, 1], si X ne prend que 2 valeurs 1 et 0 avec les probabilités
p = P¦X = 1¦ et q = 1−p = P¦X = 0¦,
i.e.
P¦X = x¦ = p
x
(1−p)
1−x
, x ∈ ¦0, 1¦. (1)
Il est clair que
EX = p, VarX = EX
2
−(EX)
2
= pq ≤
1
4
.
On remarque que
VarX
EX
= q < 1.
Définition 2. Soient X
1
, ..., X
n
des variables aléatoires indépendantes et qui suivent la
même loi de Bernoulli (1) de paramètre p. Dans ce cas on dit que la statistique
µ
n
=
n

i=1
X
i
suit la loi binomiale B(n, p) de paramètres n et p, 0 ≤ p ≤1, et on note µ
n
∼B(n, p).
11
Il est facile de montrer que
P¦µ
n
= k¦ =
_
n
k
_
p
k
(1−p)
n−k
, k ∈ ¦0, 1, ..., n¦, (2)

n
= np, Varµ
n
= np(1−p) = npq.
La fonction de répartition de µ
n
est
P¦µ
n
≤m¦ =
m

k=0
_
n
k
_
p
k
(1−p)
n−k
= 1−I
p
(m+1, n−m) =
I
1−p
(n−m, m+1), 0 ≤m ≤n, (3)

I
x
(a, b) =
1
B(a, b)

x
0
u
a−1
(1−u)
b−1
du, 0 < u < 1, (4)
est la fonction Béta incomplète de Euler (a > 0, b > 0),
B(a, b) =

1
0
u
a−1
(1−u)
b−1
du (5)
la fonction Béta de Euler.
Exemple 1. Soit X
1
, ..., X
n
une suite de variables aléatoires, qui suivent la même loi de
Bernoulli de paramètre p = 0.5 :
P¦X
i
= 1¦ = P¦X
i
= 0¦ = 0.5.
Notons
S
n
= X
1
+... +X
n
et τ = min¦k : S
k
> a¦,
où a est une constante positive.
Construisons des variables aléatoires
Y
n
= S
τ+n
−S
τ+(n−1)
, n = 1, 2, ....
Il est facile de montrer que Y
1
,Y
2
, ...,Y
n
, ... forment une suite de variables aléatoires indé-
pendantes, ayant la même loi de Bernoulli de paramètre p = 0.5 :
P¦Y
n
= 1¦ = P¦Y
n
= 0¦ = 0.5.
Définition 3. On dit qu’une variable aléatoire X suit la loi uniforme discrète sur l’en-
semble ¦1, 2, ..., N¦, si
P¦X = k¦ =
1
N
, ∀k ∈ ¦1, 2, ..., N¦.
Il est facile de montrer que
EX =
N+1
2
, VarX =
N
2
−1
12
.
12
Définition 4. On dit que la variable aléatoire discrète X suit la loi géométrique de
paramètre p, 0 < p < 1, si
P¦X = k¦ = p(1−p)
k
, ∀k ∈ ¦0, 1, 2, ...¦.
On peut montrer que
EX =
1−p
p
, VarX =
1−p
p
2
,
et la fonction de répartition de X est
P¦X ≤n¦ =
n

k=0
p(1−p)
k
= 1−P¦X ≥n+1¦ =
1−I
1−p
(n+1, 1) = I
p
(1, n+1), n ∈ ¦0, 1, ...¦.
On remarque que
VarX
EX
=
1
p
> 1.
Définition 5. On dit que la variable aléatoire discrète X suit la loi de Poisson de para-
mètre λ, λ > 0, si
P¦X = k¦ =
λ
k
k!
e
−λ
, k ∈ ¦0, 1, 2, ...¦.
Il est facile de montrer que
EX = VarX = λ,
et donc
VarX
EX
= 1.
La fonction de répartition de X est
P¦X ≤m¦ =
m

k=0
λ
k
k!
e
−λ
= 1−I
λ
(m+1),

I
x
( f ) =
1
Γ( f )

x
0
t
f −1
e
−t
dt, x > 0,
est la fonction Gamma incomplète de Euler avec f degrés de liberté, f > 0.
Pour les calculs très approximatifs quand les valeurs de λ sont assez grandes on peut
utiliser l’approximation normale simple :
P¦X ≤m¦ = Φ
_
m+0.5−λ

λ
_
+O
_
1

λ
_
, λ →∞.
13
0.2 Approximations normales et de Poisson
Théorème Limite Central de Moivre-Laplace. Soit ¦X
n
¦

n=1
¦ une suite de variables
aléatoires indépendantes de même loi de Bernoulli de paramètre p, 0 < p < 1 :
P¦X
i
= 1¦ = p, P¦X
i
= 0¦ = q = 1−p,
µ
n
= X
1
+... +X
n
, F
n
(x) = P
_
µ
n
−np

npq
≤x
_
, x ∈ R
1
.
Alors, uniformément par rapport à x, x ∈ R
1
,
F
n
(x) →Φ(x) =
1

x
−∞
e
−t
2
/2
dt, n →∞.
Du théorème limite central il suit que pour les grands valeurs de n
P
_
µ
n
−np

npq
≤x
_
≈Φ(x).
Souvent on utilise cette approximation avec la correction de continuité 0.5 :
P
_
µ
n
−np+0.5

npq
≤x
_
≈Φ(x),
voir, par exemple, Greenwood & Nikulin (1996).
Théorème de Poisson.
Soit ¦µ
n
¦ une suite de variables binomiales, µ
n
∼B(n, p
n
), 0 < p
n
< 1, telle que
np
n
→λ, quand n →∞, où λ > 0.
Alors
lim
n→∞
P¦µ
n
= m¦ =
λ
m
m!
e
−λ
.
En pratique cela signifie que pour n “grand” et p “petit” on obtient l’approximation de
Poisson de la loi binomiale B(n, p) par une loi de Poisson de paramètre λ = np :
P¦µ
n
= m¦ ≈
λ
m
m!
e
−λ
.
On peut montrer (J.L. Hodges et L. Le Cam, 1968) que
sup
x
[
x

m=0
_
n
m
_
p
m
(1−p)
n−m

x

m=0
λ
m
m!
e
−λ
[ ≤
C

n
, avec C ≤3

λ.
Théorème Limite Central de Lévy.
Soit ¦X
n
¦

n=1
une suite de variables aléatoires indépendantes de même loi telle que
EX
i
= µ et VarX
i
= σ
2
14
existent. Notons S
n
= X
1
+...X
n
. Alors, uniformément par rapport à x ∈ R
1
P
_
S
n
−nµ
σ

n
≤x
_
→Φ(x), n →∞.
Corrolaire 1. Dans les conditions du Théorème de Lévy on a : quelque soit ε > 0
P¦[
1
n
n

j=1
X
j
−µ[ ≥ε¦ = P

¸
¸
¸
S
n
−nµ
σ

n
¸
¸
¸
¸
>
ε

n
σ
_
≈2Φ
_

ε

n
σ
_
.
Par exemple, si ε = 3σ/

n, alors
P¦[
1
n
n

j=1
X
j
−µ[ ≤ε¦ ≈0.997,
si ε = 2σ/

n, alors
P¦[
1
n
n

j=1
X
j
−µ[ ≤ε¦ ≈0.965.
0.3 Lois continues. Liaisons entre des lois
Définition 1. On dit qu’une variable aléatoire U suit la loi uniforme sur [a, b], si la
densité de probabilité de U est donnée par la formule :
f (x; a, b) =
1
b−a
1
[a,b]
(x), x ∈ R
1
.
La fonction de répartition de U est
F(x; a, b) = P¦U ≤x¦ =
x −a
b−a
1
[a,b]
(x) +1
]b,+∞[
(x), x ∈ R
1
.
Il est facile de vérifier que
EU =
a+b
2
, VarU =
(b−a)
2
12
.
Remarque 1. Soit X une variable aléatoire continue. Notons F(x) sa fonction de répar-
tition. Il est facile de vérifier que la variable aléatoire U = F(X) suit la loi uniforme sur
[0, 1]. Souvent on dit que pour obtenir U on a appliquée la transformation de Smirnov.
Définition 2. On dit qu’une variable aléatoire Z suit la loi normale standard N(0, 1) ou
réduite, si la densité de probabilité ϕ(x) de Z est donnée par la formule
ϕ(x) =
1


e
−x
2
/2
, x ∈ R
1
. (1)
15
La fonction de répartition correspondante joue un rôle important dans la suite. Aussi lui
donne-t-on un nom particulier, on l’appelle Φ :
Φ(x) = P¦Z ≤x¦ =
1

x
−∞
e
−z
2
/2
dz, x ∈ R
1
. (2)
De (2) on déduit que
Φ(x) +Φ(−x) ≡1, x ∈ R
1
. (3)
Soit x un nombre quelconque fixé et soit
p = Φ(x), 0 < p < 1. (4)
Si nous notons Ψ(y) = Φ
−1
(y) la fonction inverse de y = Φ(x), 0 < y < 1, de (3) et (4) il
résulte que
Φ[Ψ(p)] ≡ p et Φ[Ψ(1−p)] ≡1−p (5)
pour tout p, 0 < p < 1. De plus comme
Φ(−x) = 1−Φ(x) = 1−p et −x = Ψ(1−p),
quand x = Ψ(p), on en déduit que
Ψ(p) +Ψ(1−p) ≡0, 0 < p < 1. (6)
Il est connu que EZ = 0, VarZ = 1.
Soit X = σZ +µ, où Z ∼ N(0, 1), [µ[ < ∞, σ > 0. Dans ce cas on dit que X suit la
loi normale N(µ, σ
2
) de paramétres
µ = EX et σ
2
= VarX. (7)
La densité de X est
1
σ
ϕ
_
x −µ
σ
_
=
1

2πσ
exp
_

(x −µ)
2

2
_
, x ∈ R
1
, (8)
et la fonction de répartition est
P¦X ≤x¦ = Φ
_
x −µ
σ
_
, x ∈ R
1
. (9)
Définition 3. On dit qu’une variable aléatoire χ
2
f
suit la loi de chi-deux à f degrés de
liberté, f > 0, si sa densité de probabilité est donnée par la formule
q
f
(x) =
1
2
f
2
Γ
_
f
2
_x
f
2
−1
e
−x/2
1
]0,∞[
(x), x ∈ R
1
, (10)

Γ(a) =


0
t
a−1
e
−t
dt, a > 0 (11)
est la fonction Gamma de Euler.
16
Nous allons noter Q
f
(x) = P¦χ
2
f
≤ x¦ la fonction de répartition de χ
2
f
. Par des calculs
directs il est facile de montrer que

2
f
= f et Varχ
2
f
= 2 f . (12)
Cette définition de la loi du chi-deux n’est pas constructive. Pour construire une variable
aléatoire χ
2
n
, n ∈ N

, il suffit de prendre n variables aléatoires indépendantes Z
1
, ..., Z
n
, qui
suivent la même loi normale standard N(0, 1) et construire la statistique
Z
2
1
+... +Z
2
n
.
On peut montrer que P¦Z
2
1
+... +Z
2
n
≤x¦ = Q
n
(x), i.e.,
Z
2
1
+... +Z
2
n
= χ
2
n
(13)
suit la loi de chi-deux à n degrés de liberté. Souvent (13) on prend pour la définition de χ
2
n
.
Nous allons suivre aussi cette tradition.
D’après le Théorème Limite Central il résulte que si n est assez grand alors on a l’ap-
proximation normale :
P
_
χ
2
n
−n

2n
≤x
_
= Φ(x) +O
_
1

n
_
.
On utilise aussi souvent pour la loi du χ
2
l’approximation normale de Fisher, d’après la-
quelle

_

2
n


2n−1 ≤x¦ = Φ(x) +O
_
1

n
_
, n →∞.
Les meilleurs résultats donne l’approximation normale de Wilson-Hilferty :
P¦χ
2
n
≤x¦ = Φ
_
_
3
_
x
n
−1+
2
9n
_
_
9n
2
_
+O
_
1
n
_
, n →∞.
Définition 4. On dit qu’une variable aléatoire γ
f
suit la loi Gamma à f degrés de liberté
( f > 0), si pour tout x > 0
P¦γ
f
≤x¦ = I
x
( f ), (14)

I
x
( f ) =
1
Γ( f )

x
0
t
f −1
e
−t
dt (15)
est la fonction Gamma incomplète de Euler.
Il est facile de vérifier que
1
2
χ
2
2 f
= γ
f
. (16)
En effet, ∀x > 0 on a

1
2
χ
2
2 f
≤x¦ = P¦χ
2
2 f
≤2x¦ = Q
2f
(2x) =
1
2
f
Γ( f )

2x
0
t
f −1
e
−t/2
dt.
En faisant le changement de variable t = 2u, on trouve que

1
2
χ
2
2f
≤x¦ =
1
Γ( f )

x
0
u
f −1
e
−u
du = I
x
( f ) = P¦γ
f
≤x¦,
17
où γ
f
est une variable aléatoire qui suit la loi gamma à f degrés de liberté. En utilisant la
relation (16) on trouve que

f
= E
1
2
χ
2
2 f
= f , Varγ
f
= Var
1
2
χ
2
2 f
=
1
4
Varχ
2
2 f
= f .
Si f = 1, alors de (14) on déduit
P¦γ
1
≤x¦ =

x
0
e
−t
dt = 1−e
−x
, x > 0, (17)
c’est-à-dire que la variable aléatoire γ
1
suit la loi exponentielle standard. De cette propriété
et de (16) on tire que
1
2
χ
2
2
suit la loi exponentielle standard aussi.
Théorème 1 Soient X
1
, ..., X
n
des variables aléatoires indépendantes, qui suivent la
même loi exponentielle (17). Alors leur somme suit la loi gamma à n degrés de liberté, i.e.
X
1
+... +X
n
= γ
n
. (18)
Remarque 2. Soit X une variable aléatoire qui suit la loi de Poisson de paramètre λ,
λ > 0. Il est facile de montrer que pour tout m ∈ N
P¦X ≤m¦ = P¦γ
m+1
≥λ¦ = P¦χ
2
2m+2
≥2λ¦ =
1−P¦χ
2
2m+2
≤2λ¦ = 1−Q
2m+2
(2λ). (19)
En effet, soit γ
m
une variable aléatoire qui suit la loi gamma de paramètre m. Dans ce cas la
fonction de survie de γ
m
est
P¦γ
m
≥λ¦ =
1
Γ(m)


λ
x
m−1
e
−x
dx =
1
Γ(m+1)


λ
e
−x
dx
m
= P¦γ
m+1
≥λ¦−
1
Γ(m+1)
e
−λ
λ
m
,
i.e. on a reçu que
P¦γ
m+1
≥λ¦ = P¦γ
m
≥λ¦+
λ
m
m!
e
−λ
,
d’où par la récurrence il résulte que pour tout m ∈ ¦0, 1, 2, ...¦
P¦X ≤m¦ =
m

k=0
λ
k
k!
e
−λ
= P¦γ
m+1
≥λ¦ =
1
Γ(m+1)


λ
x
m
e
−x
dx.
Supposons maintenant que λ est grand (en pratique cela signifie que λ ≥25). Comme
EX = VarX = λ
de l’inégalité de Tchebyshev il suit que nous pouvons compter que
m−λ = o(λ), λ →∞,
parce que pour chaque m, qui ne vérifie pas cette condition, la probabilité P¦X ≤m¦ coin-
cide pratiquement avec 0 ou avec 1. De l’autre côté, de la relation (19) et de l’approxima-
tion normale pour la loi du chi-deux on obtient l’approximation normale de Bolshev (1963),
d’après laquelle
P¦X ≤m¦ = 1−P
_
χ
2
2m+2
−(2m+2)

4m+4

2λ−2m−2

4m+4
_
=
18
1−Φ
_
λ−m−1

m+1
_
+O
_
1

λ
_
= Φ
_
m−λ+1

m+1
_
+O
_
1

λ
_
, λ →∞.
On remarque que en utilisant l’approximation normale de Fisher pour la loi de chi-deux on
obtient facilement une autre approximation normale de Bolshev :
P¦X ≤m¦ = P¦χ
2
2m+2
≥2λ¦ ≈1−Φ(

4λ−

4m+3) =
Φ(

4m+3−2

λ) = Φ(
_
4(m+0.5) +1−2

λ), λ →∞.
Le nombre 0.5 dans la dernière formule peut être considéré comme la correction de conti-
nuité dans cette approximation.
En pratique cela signifie que
P¦X ≤m¦ ≈Φ
_

4m+1−2

λ
_
≈Φ(2

m−2

λ), λ →∞,
i.e., si λ ≥25, alors la statistique

4X +1 suit approximativement la loi normale N(2

λ, 1).
Les meilleurs résultats on obtient en utilisant l’approximation de Wilson-Hilferty, voir, par
exemple, Bolshev (1963), Huber et Nikulin (1993), Nikulin (1984), d’après laquelle
P¦X ≤m¦ = P¦χ
2m+2
≥2λ¦ ≈Φ
_
3

m+1
_
1−
3
_
λ
m+1

4
9(m+1)
__
.
Définition 5. On dit que la variable aléatoire β = β
a,b
suit la loi Béta de paramètres a
et b (a > 0, b > 0), si la densité de β est
f (x; a, b) =
1
B(a, b)
x
a−1
(1−x)
b−1
1
]0,1[
(x), (20)

B(a, b) =

1
0
t
a−1
(1−t)
b−1
dt =
Γ(a)Γ(b)
Γ(a+b)
(21)
est la fonction Béta de Euler.
En notant
I
x
(a, b) =
1
B(a, b)

x
0
t
a−1
(1−t)
b−1
dt (22)
la fonction incomplète Béta de Euler, on voit que
P¦β ≤x¦ = I
x
(a, b), 0 < x < 1, (23)
et
P¦β > x¦ = 1−I
x
(a, b) = I
1−x
(b, x), 0 < x < 1.
Il est facile de vérifier que
Eβ =
a
a+b
, Varβ =
ab
(a+b)
2
(a+b+1)
. (24)
Remarque 4. Soit µ
n
une variable aléatoire Binomiale de paramétres n et p. Il est facile
de montrer que pour m = 0, 1, ..., n
P¦µ
n
≤m¦ =
m

k=0
_
n
k
_
p
k
(1−p)
n−k
= I
1−p
(n−m, m+1). (25)
19
Remarque 5. Soit γ
n
et γ
m
sont indépendantes. Il est utile de remarquer que les statis-
tiques
β =
γ
n
γ
n

m
γ
n+m
= γ
n

m
sont indépendantes, β suit la loi béta de paramètres a = n et b = m, γ
n+m
suit la loi gamma
à n+m degrés de liberté.
Définition 6. Soit
χ
2
m
=
1
2
γ
m
2
et χ
2
n
=
1
2
γ
n
2
indépendantes. Dans ce cas on dit que la statistique
F
m,n
=
1
m
χ
2
m
1
n
χ
2
n
=

m/2

n/2
=
1
F
n,m
(26)
la loi de Fisher à n et m degrés de liberté (m > 0, n > 0).
La fonction de répartition de F
m,n
est
P¦F
m,n
≤x¦ = I
mx
n+mx
(
m
2
,
n
2
), x > 0. (27)
On peut montrer que si n > 2, alors
EF
m,n
=
n
n−2
et si n > 4, alors
VarF
m,n
=
2n
2
(n+m+2)
m(n−2)
2
(n−4)
.
Posant
F
m,∞
=
1
m
χ
2
m
,
on en tire l’approximation de Fisher, d’après laquelle pour tout m fixé
P¦F
m,n
≤x¦ = P¦χ
2
m
≤mx¦+O
_
1

n
_
, n →∞.
Si m = 1, on en déduit que
P¦F
1,∞
≤x¦ = P¦χ
2
1
≤x¦ = 2Φ(

x) −1.
Cette relation nous permet de calculer les valeurs de Φ(x) en utilisant les tables statistiques
de la loi F. La relation suivante
F
1,n
=
χ
2
1
1
n
χ
2
n
=t
2
n
(28)
nous montre que F
1,n
représente le carré de la variable aléatoire t
n
de Student à n degrés de
liberté, d’où on tire que pour chaque x ∈ R
1
P¦F
1,n
≤x
2
¦ = P¦t
2
n
≤x
2
¦ = I
x
2
n+x
2
(
1
2
,
n
2
) = 2S
n
([x[) −1, (29)
20

S
n
(x) = P¦t
n
≤x¦ =
1

πn
Γ
_
n+1
2
_
Γ
_
n
2
_

x
−∞
_
1+
u
2
n
_

n+1
2
du (30)
est la fonction de répartition de la variable aléatoire t
n
de Student à n degrés de liberté. La
variable aléatoire t
n
peut être construite par la façon suivante.
Soit X = (X
1
, ..., X
n
)
T
un échantillon normale, X
i
∼N(µ, σ
2
). On construit deux statis-
tiques
¯
X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
,
représentant les meilleurs estimateurs sans biais pour µ et σ
2
. Alors la variable aléatoire
t
n
=

n−1
¯
X
n
−µ
S
n
(31)
suit la loi de Student à n degrés de liberté :
P¦t
n
≤x¦ = S
n
(x), x ∈ R
1
.
De (28) on tire que, si n →∞, alors, puisque
1
n
χ
2
n
P
→1, (32)
on a
S
n
(x) = Φ(x) +O
_
1

n
_
, x ∈ R
1
,
i.e. pour les grandes valeurs de n la loi de Student est approximée par la loi normale stan-
dard.
Par contre, si dans (28)-(30) on pose n = 1, on en tire que la variable aléatoire t
1
suit la
loi de Student à 1 degré de liberté
P¦t
1
≤x¦ = S
1
(x) =
1
π

x
−∞
dt
1+t
2
, x ∈ R
1
. (33)
Cette loi est plus connue sous le nom de la loi standard de Cauchy ou tout simplement de
Cauchy. Cette loi nous donne un très simple exemple d’une variable aléatoire t
1
, dont l’es-
pérance mathématique n’existe pas. Un autre exemple intéressant lié avec la loi de Cauchy
est le suivant.
Soit X = (X
1
, ..., X
n
)
T
un échantillon de la loi de Cachy de densité
1
π[1+(x −µ)
2
]
, x ∈ R
1
,
avec le paramètre de translation µ, [µ[ < ∞. Dans ce cas la statistique
¯
X
n
=
1
n
n

i=1
X
i
suit la même loi de Cauchy que X
i
et donc
¯
X
n
ne converge pas en probabilité vers µ.
21
Exercices 1. Soit X suit la loi standard de Cauchy . Montrer que les statistiques
1
X
,
2X
1−X
2
,
3X −X
2
1−3X
2
suivent la même loi de Cauchy.
Exercices 2. Soient X et Y deux variables aléatoires standards normales indépendantes.
Trouver la loi de Z = X/Y.
Exercices 3. Soit X = (X
1
, ..., X
n
) un échantillon,
P¦X
i
= k¦ =
1
k!
e
−1
, k ∈ N,
i.e. X
i
suit la loi de Poisson de paramètre λ = 1. Considérons la statistique
S
n
= X
1
+... +X
n
, n = 1, 2, ....
1. Montrer que S
n
suit la loi de Poisson de paramètre λ = n :
P¦S
n
= k¦ =
n
k
k!
e
−n
, k ∈ N,
en particulier
p
n
= P¦S
n
= n¦ =
n
n
n!
e
−n
, n ∈ N

.
2. En utilisant le théorème limite central montrer que
p
n
≈Φ
_
1
2

n
_
−Φ
_

1
2

n
_

1

n
ϕ(0) =
1

2πn
, (n →∞),
où Φ() est la fonction de répartition de la loi normale standard, ϕ(x) = Φ
/
(x).
3. En utilisant 1) et 2) obtenir la formule asymptotique de Stirling
n! ≈

2πnn
n
e
−n
, (n →∞).
0.4 Epreuves de Bernoulli et marches aléatoires.
0.5 Représentation d’une suite d’épreuves de Bernoulli
indépendante
Considérons une suite d’épreuves de Bernoulli indépendantes avec la probabilité de
succès p (0 < p < 1).
On peut représenter l’ensemble des résultats possibles de cette expérience à l’aide de la
marche aléatoire d’une particule se déplaçant sur un treillis S dans le plan (xOy)
S =¦(x, y); x ∈ N; y ∈ N¦. (voir fig. 1)
22
Donc, un résultat de l’expérience sera représenté par un chemin dans le treillis S.
Si, après une épreuve, la particule se trouve au point de coordonnées (x, y), après l’épreuve
suivante elle se trouvera soit au point (x, y +1) avec la probabilité p s’il y a eu succès, soit
au point (x+1, y) avec la probabilité q =1−p s’il y a eu échec parce qu’il n’y a pas d’autre
possibilité.
Nous supposerons que le point de départ de la particule est l’origine des axes O(0, 0). Soit
A
0
, A
1
, , A
n
, la suite des points obtenus à l’issue de l’expérience, A
0
= O(0, 0). Un
chemin dans S peut être représenté par une ligne brisée reliant ces points (fig. 1).
On peut associer à cette expérience la suite X
1
, X
2
, , X
n
, des variables aléatoires indé-
pendantes de Bernoulli,
X
i
=
_
1, s’il y a eu succès à la i-ème epreuve,
0, s’il y a eu échec à la i-ème epreuve.
Ces variables aléatoires sont idépendantes par construction et
P¦X
i
= 1¦ = p et P¦X
i
= 0¦ = q.
0.6 Probabilités associées à une marche aléatoire reliant
2 points du treillis S
Soient A
x
et A
X
les points de S dont les coordonnées sont (x, y) et (X,Y) respectivement
(0 ≤x ≤X; 0 ≤y ≤Y).
23
Un chemin reliant A
x
à A
X
comporte (X −x) déplacements horizontaux et (Y −y) déplace-
ments verticaux, chaque combinaison différente définissant un chemin différent ; le nombre
de chemins possibles relient A
x
à A
X
sera donc :
_
X −x +Y −y
X −x
_
=
_
X −x +Y −y
Y −y
_
. (1)
Il est évident que chacun de ces chemins a la même probabilité de réalisation égale à
p
Y−y
(1−p)
X−x
, (2)
donc la probabilité d’arriver au point A
X
en étant parti du point A
x
est
_
X −x +Y −y
X −x
_
p
Y−y
(1−p)
X−x
. (3)
En particulier, si on part de l’origine A
0
, la probabilité d’arriver en A
X
est
_
X +Y
X
_
p
Y
(1−p)
X
. (4)
Remarque 1. De façon évidente, on déduit des formules précédentes que le nombre de
chemins possibles pour aller de A
x
(x, y) à A
U
(u, v) en passant par A
X
(X,Y) est égal au
produit du nombre de chemins allant de A
x
à A
X
par le nombre de chemins allant de A
U
à
A
X
.
0.7 Frontière absorbante
Nous allons nous intéresser aux expériences pour lesquelles la réalisation de la marche
aléatoire est limitée (avec la probabilité 1) par une frontière absorbante B (B ⊂ S). Cela
signifie que l’expérience s’arrête dès que la particule a atteint la frontière. Un point b ∈ B
est appelé point limite ou point frontière. Si un chemin atteint ce point, il s’arrête. On dit
que b est une réalisation de la statistique temps d’arrêt.
Nous verrons plus tard que pour certaines expériences, la seule connaissance des coordon-
nées du point de la frontière où le chemin s’arrête nous permet d’estimer de la meilleure
façon le paramétre p lorsque celui-ci est inconnu.
La frontière B est généralement définie par une équation de la forme y = f (x). Nous allons
étudier différentes frontières et leur associer des variables aléatoires connues.
0.8 Marches aléatoires et distributions discrètes
Loi de Bernoulli (fig. 2)
Considérons une marche aléatoire à 1 pas dans un treillis limité par la frontière B donné
par l’équation :
x +y = 1.
24
Dans ce cas il existe seulement 2 points limites. Si nous considérons la variable aléatoire
X qui prend la valeur 1 lorsque le chemin se termine en A
1
(0, 1) et la valeur 0 lorsqu’il se
termine en A
/
1
(0, 1) nous obtenons :
P¦X = 1¦ = p et P¦X = 0¦ = 1−p, 0 < p < 1.
La variable X suit une distribution de Bernoulli de paramètre p : X ∼B(1, p) = B(p).
X représente le résultat d’une unique épreuve de Bernoulli.
On peut par exemple associer à cette épreuve un contrôle de qualité :
on contrôle un article dans une production et on lui affecte la note 1 s’il est deféctueux, 0
s’il est bon.
Loi Binomiale (fig. 3)
Considérons une marche aléatoire dans le treillis S commençant à l’origine et limitée par
la frontière B d’équation x +y = n (le nombre de points frontières est n+1). Cette marche
comporte n pas. Nous pouvons associer à cette marche n variables aléatoires de Bernoulli
indépendantes de paramètres p : X
1
, X
2
, , X
n
.
Considérons la statistique :
T
n
=
n

i=1
X
i
.
Elle représente le nombre de succès au cours des n épreuves ou bien le nombre d’articles
défectueux dans un échantillon de taille n si on s’intéresse à un probléme de contrôle de
qualité.
Pour tout k = 0, 1, , n l’événement ¦T
n
= k¦ est équivalent à une marche aléatoire se
terminant au point b de B de coordonnées (n−k, k). Par suite d’après (4)
P¦T
n
= k¦ = (
n
k
)p
k
(1−p)
n−k
, k = 0, 1, , n,
25
et donc la loi de T
n
est une loi binomiale de paramètres n et p, T
n
∼B(n, p).
Loi géométrique (fig. 4)
Supposons maintenant que la frontière B a pour équation y = 1. Cela siginifie que la
marche aléatoire s’arrête dès qu’on a obtenu le premier succès. Les points limites sont dans
ce cas les points de coordonnées (x, 1), x ∈ N, et la probabilité d’arriver au point (x, 1)
par un chemin issu de l’origine est
p(1−p)
x
.
Nous pouvons associer à cette marche la variable aléatoire Z : rang du premier succès" ou
"rang du premier article défectueux" rencontré dans le lot.
L’événement ¦Z = k¦, k ∈ N

, est équivalent à une marche aléatoire se terminant au point
de B de coordonnées (k −1, 1) et par suite
P¦Z = k¦ = p(1−p)
k−1
.
On dit que Z suit la loi géométrique de paramètre p : Z ∼G(p).
On peut montrer que
EZ =
1
p
et VarZ =
1−p
p
2
.
Loi binomiale négative (fig. 5)
On choisit la frontière B donné par l’équation y = r. Cela signifie que l’expérience
cesse dès qu’on a obtenu le r-ème succès. Si la marche considérée comporte k étapes,
26
r ≤ k k ∈ N, on doit avoir k −r déplacements horizontaux et r déplacements verticaux
mais le dernier pas est obligatoirement un déplacement vertical : le point (k −r, r) n’est
accessible qu’à partir du point (k −r, r −1) et ce passage se fait avec la probabilité p.
Considérons la statistique S
r
, rang du r-ème succès.
Alors
P¦S
r
= k¦ =
_
k −1
r −1
_
p
r−1
(1−p)
k−r
p, k = r, r +1, .
On dit que S
r
suit la loi binomiale négative de paramètres r et p, S
r
∼NB(r, p).
Remarques
1. Si r = 1, on retrouve la loi géométrique de paramètre p : G(p).
2. Soient Z
1
, Z
2
, , Z
r
r variables aléatoires indépendantes de même loi géométrique
de paramètre p Z
i
∼G(p). Alors la statistique
S
r
=
r

i=1
Z
i
suit de façon évidente la loi binomiale négative de paramètres r et p et on en déduit
que
ES
r
=
r
p
et VarS
r
=
r(1−p)
p
2
.
3. De la même façon, on constate que si Z
1
, Z
n
sont n variables aléatoires indépen-
dantes, Z
i
∼NB(r
i
, p), alors la statistique :
U
n
=
n

i=1
Z
i
suit la loi binomiale négative de paramètres r = ∑
n
i=1
r
i
et p.
Loi de Polya (fig. 6)
27
On choisit la frontière B donnée par l’équation y = x +r, r ∈ N

. Cela signifie qu’on
arrête l’expérience dès que le nombre de succès est supérieur de r au nombre d’échecs (ou
que le nombre d’articles défectueux dépasse de r le nombre d’articles bons).
Une marche issue de l’origine O et s’arrêtant au point frontière de coordonnées
(k, r +k), k ∈ N, comporte donc (k, k +r) étapes mais le point(k +r, k) n’est accessible
qu’à partir du point M(k, k +r −1) par un chemin qui ne doit pas avoir encore rencontré
la frontière. Le nombre de chemins allant de O à M et qui touchent ou coupent la frontière
peut être calculé de la façon suivante : lorsque le chemin touche la frontière B pour la
première fois on prend son symétrique par rapport à B : c’est un chemin qui arrive au point
M
/
(k −1, k +r) (symétrique de M par rapport à B). Le nombre de chemins reliant O à M
/
est égale à
_
2k +r −1
k −1
_
et le nombre de chemins reliant O à M est égale à
_
2k +r −1
k
_
,
d’où on déduit donc que le nombre de réalisations possibles de la marche considérée est
égale à
_
2k +r −1
k
_

_
2k +r −1
k −1
_
=
(2k +r −1)!
k!(k +r)!
(k +r −k) =
r
2k +r
_
2k +r
k
_
.
Si nous associons à cette marche la variable V
r
: rang de l’épreuve pour laquelle le nombre
de succès est pour la première fois supérieur de r au nombre d’échecs, alors l’événement
¦V
r
= v¦ est équivalent à une marche partant de l’origine et comportant v étapes :
v −r/2 déplacements horizontaux et v −r/2 déplacements verticaux.
De façon évidente on doit avoir v ≥r et v −r ∈ 2N, c’est-à-dire v = 2k +r, k ∈ N.
Dans ce cas, pour r > 0 on a :
P¦V
r
= v¦ = P¦V
r
= 2k +r¦ =
r
2k +r
_
2k +r
k
_
p
k+r
(1−p)
k
.
Examinons le cas r = 0. Nous devons dans ce cas considérer les chemins partant non plus
de l’origine O mais du point A
1
(1, 0).
Un raisonnement analogue du précédent nous montre alors que
P¦V
0
= 2k¦ =
__
2k −2
k −1
_

_
2k −2
k
__
[p(1−p)]
k
=
2(k −1)
_
2k −1
k
_
[p(1−p)]
k
.
Loi hypergéométrique (fig. 7)
28
Soient N et M deux entiers positifs fixés et 0 ≤M ≤N.
Considérons une marche aléatoire dans le treillis S limitée par la frontière B : x +y = N.
Nous nous intéressons plus particulièrement à la marche aléatoire partant de l’origine et
atteignant le point B de coordonnées (N−M, M). Soit
T
n
=
n

i=1
X
i
, où X
i
∼B(p),
les X
i
étant indépendantes, et donc T
n
∼B(n, p). Nous savions que T
N
= M et il est intéres-
sant de savoir comment cette information influe sur la distribution de la statistique T
n
, n <N.
C’est-à-dire que, sachant que la marche a atteint le point (N −M, M), nous allons évaluer
la probabilité pour qu’après n pas elle soit à un point donné de la frontière
β : x +y = n.
Nous cherchons donc la probabilité :
P¦T
n
= k[T
N
= M¦ =
P¦T
n
= k; T
N
= M¦
P¦T
N
= M¦
,

Max(0, n+M−N) ≤k ≤Min(n, M).
On sait que :
P¦T
n
= k; T
N
= M¦ =
_
n
k
__
N−n
M−k
_
p
k
(1−p)
n−k
.p
N−k
(1−p)
N−n
=
=
_
n
k
__
N−n
M−k
_
p
M
(1−p)
N−M
et
P¦T
N
= M¦ =
_
N
M
_
p
M
(1−p)
N−M
.
Par suite, la probabilité cherchée est égale à
P¦T
n
= k[T
N
= M¦ =
_
n
k
__
N−n
M−k
_
_
N
M
_ =
_
N−M
n−k
__
M
k
_
_
N
n
_ ,

1 ≤n ≤N, 1 ≤M ≤N, Max(0, n+M−N) ≤k ≤Min(n, M).
Cette loi conditionnelle de T
n
est la loi hypergéométrique H(N, M, n) de paramètres N, M
et n. On peut remarquer qu’elle ne dépend pas du paramètre p .
On peut montrer que si X suit une loi H(N, M, n), alors
EX =
nM
N
et VarX =
n(N−n)M(N−M)
N
2
(N−1)
.
29
30
Chapitre 1
QUELQUES PROBLÈMES
CLASSIQUES DE LA STATISTIQUE
MATHEMATIQUE.
1.1 Problèmes d’estimation et de comparaison des proba-
bilités de succès.
Exemple 1. Estimation de la probabilité dans le schéma d’expériences de Bernoulli.
On a coutume de considérer l’hypothèse H
0
: p = 0.5 selon laquelle la probabilité de la
naissance d’un garçon est la même que celle d’une fille. On possède beaucoup de données
statistiques pour sa vérification. Nous utiliserons ceux qui ont été données sur la Suisse :
entre 1871 et 1900 naquirent en Suisse n = 2644757 enfants et parmi eux
µ
n
= 1359671 garçons et n−µ
n
= 1285086 filles.
Est-ce que ces données confirment l’hypothèse H
0
: p = 0.5 ?
Nommons succès ( !) la naissance d’un garçon et posons la question autrement en uti-
lisant le schéma d’expériences de Bernoulli avec la probabilité de succès p. L’hypothèse
H
0
: p = 0.5 concorde-t-elle avec le fait que dans la série de n = 2644757 expériences la
fréquence de “succès” soit égale à
µ
n
n
=
1359671
2644757
= 0.5141?
Il est évident que si au lieu de l’hypothèse H
0
: p =0.5 on avait pris une autre hypothèse
H
1
: p = 0.1, par exemple, alors cette hypothèse H
1
serait rejetée par tous comme une
hypothèse peu probable (ou même impossible). La question est : sur quoi est basée cette
décision ?
La réponse peut être donnée puisqu’on sait que l’estimateur
ˆ p
n
=
µ
n
n
31
de la probabilité p, p ∈]0, 1[, est basé sur la statistique µ
n
qui suit une loi binomiale B(n, p)
P¦µ
n
= k[p¦ = P
p
¦µ
n
= k¦ =
_
n
k
_
p
k
(1−p)
n−k
, k = 0, 1, . . . , n,
d’où on tire que
E
p
µ
n
= np, Varµ
n
= np(1−p),
et par conséquent pour tout p ∈]0, 1[
E
p
µ
n
n
= p et Var
µ
n
n
=
p(1−p)
n
.
De l’inégalité de Tchebyshev il suit que pour tout ε > 0
P
p
¦[ ˆ p
n
−p[ > ε¦ →0, quand n →∞. (1)
Nous disons que ¦ ˆ p
n
¦ est une suite consistante (cohérente) d’estimateurs sans biais du
paramètre p, puisque
E
p
ˆ p
n
= p et ˆ p
n
P
p
→p.
La relation (1) on peut préciser, notamment, pour tout λ > 0 on a :
P
p
¦[ ˆ p
n
−p[ < λ
_
p(1−p)
n
¦ ≥1−
1
λ
2
.
En particulier, si λ = 2, on en tire que
P
p
¦[ ˆ p
n
−p[ <
1

n
¦ ≥0.75.
En utilisant l’approximation normale, basée sur le théorème limite central de de Moivre-
Laplace, on a
lim
n→∞
P
p
_
_
_
µ
n
n
−p
_
p(1−p)
n
≤x
_
_
_
= Φ(x) pour tout x ∈ R
1
, (2)

Φ(x) =
1

x
−∞
e
−t
2
/2
dt, −∞ < x < ∞. (3)
En prenant α assez petit, 0 <α < 0.5 ), ( on va appeler ce nombre α le niveau de significa-
tion, on peut affirmer, par exemple, que
P
p
_
−¯ x
α/2

_
n
p(1−p)
(
µ
n
n
−p) ≤ ¯ x
α/2
_
≈1−α, (4)
où le nombre ¯ x
α/2
est donné par
Φ( ¯ x
α/2
) = 1−α/2. (5)
La quantité ¯ x
α/2
s’appelle quantile supérieur de niveau α/2 de la loi normale standard.
32
Par exemple,
¯ x
α/2
= 3 est le quantile supérieur de niveau α/2 = 0.00135,
P
p

¸
¸
¸
_
n
p(1−p)
(
µ
n
n
−p)
¸
¸
¸
¸
> 3
_
≈0.0027 = α,
tandis que
le quantile ¯ x
α/2
= 4 correspond déjà à α/2 = 0.00003167 (= 0.0000),
d’oú on tire que
P

¸
¸
¸
_
n
p(1−p)
(
µ
n
n
−p)
¸
¸
¸
¸
> 4
_
≈0.000063,
(en pratique cette probabilité = 0.000) et
P

¸
¸
¸
_
n
p(1−p)
(
µ
n
n
−p)
¸
¸
¸
¸
≤4
_
≈0.999937
(en pratique cette probabilité = 1).
Revenons à nos données et à l’hypothèse H
0
. L’hypothèse H
0
suppose que p = 0.5 et
donc sous H
0
on a :
_
n
p(1−p)
_
µ
n
n
−p
_
= 2

n
_
µ
n
n

1
2
_
.
Tout d’abord on remarque qu’il y a 3 contrehypothèses naturelles pour H
0
:
H
1
: p ,= 0.5, H
+
1
: p > 0.5, H

1
: p < 0.5
qui sont en concurence avec H
0
. Il est naturel de dire que l’intervalle
S = [−¯ x
α/2
, ¯ x
α/2
] ⊂R
1
représente l’ensemble des valeurs de la statistique
T
n
= T(µ
n
) = 2

n
_
µ
n
n

1
2
_
,
qui sont favorable à l’hypothèse H
0
, tandis que l’ensemble
K = R
1
¸S = K

1

K
+
1
=] −∞, −¯ x
α/2
[

] ¯ x
α/2
, ∞[,
appelé la région critique pour H
0
, représente l’ensemble des valeurs de la statistique T
n
, qui
sont favorable à H
1
. Par contre, l’ensemble S s’appelle la région d’acceptation de l’hypo-
thèse H
0
.
On remarque que
P¦T
n
∈ S [ H
0
¦ ≈1−α, P¦T
n
∈ K[H
0
¦ ≈α.
Il est clair que l’événement
¦T
n
∈ K

1
¦ ⊂¦T
n
∈ K¦
33
est favorable à H

1
, et l’événement
¦T
n
∈ K
+
1
¦ ⊂¦T
n
∈ K¦
est favorable à H
+
1
, et que
P¦T
n
∈ K

1
[H
0
¦ = P¦T
n
∈ K
+
1
[H
0
¦ ≈
α
2
.
Dans notre cas pour les données de Suisse nous constatons que
T
n
= T(µ
n
) = 2

n
_
µ
n
n

1
2
_
=
_
2644757
0.5 0.5
(0.5141−0.5) = 45.86 > 4,
i.e. l’événement ¦T
n
> 4¦ est apparu. La valeur observée de T
n
est très supérieure à la
valeur critique ¯ x
α/2
= 4, correspondant au niveau de signification α/2 = 0.00003167, qui
est égal pratiquement à 0, et donc ce phenomène doit être considéré comme impossible sous
l’hypothèse H
0
: p = 0.5. Que devons nous faire ? Il faut évidemment rejeter l’hypothèse
H
0
: p = 0.5 en faveur de H
1
, puisque T
n
∈ K. Nous disons que l’hypothèse H
0
ne concorde
pas avec les données observées. En plus comme dans l’expérience on a observé l’événement
¦T
n
∈ K
+
1
¦, il est raisonable d’accepter l’hypothèse H
+
1
. Comme estimateur de la valeur
inconnue de p sous l’hypothèse H
+
1
il est recommandé de prendre ˆ p
n
= 0.514.
Enfin de (4) on tire que

µ
n
n
− ¯ x
α/2
_
p(1−p)
n
≤ p ≤
µ
n
n
+ ¯ x
α/2
_
p(1−p)
n
¦ ≈1−α,
c’est-à-dire pour les grandes valeurs de n on obtient l’intervalle de confiance pour p avec
le coefficient de confiance P ≈1−α :

µ
n
n
− ¯ x
α/2
1
2

n
≤ p ≤
µ
n
n
+ ¯ x
α/2
1
2

n
¦ ≈1−α (= 0.9973 si ¯ x
α/2
= 3).
Si, par exemple,
α
2
= 0.00135 i.e. α = 0.0027,
dans ce cas ¯ x
α/2
= 3 et d’après nos données on obtient la réalisation de l’intervalle de
confiance
0.5141−0.0003¯ x
α/2
≤ p ≤0.5141+0.0003¯ x
α/2
,
i.e.
0.5132 ≤ p ≤0.5150.
Remarque 1. On remarque que
Φ(0) = 0.500000, Φ(1) = 0.841345, Φ(1.6) = 0.945201, Φ(2) = 0.97725,
Φ(2.6) = 0.995339, Φ(3) = 0.998650, Φ(4) = 0.999968,
où Φ(x) est donnée par (3), i.e.
0 = ¯ x
0.5
, 1 = ¯ x
0.158655
, 1.6 = ¯ x
0.054799
, 2 = ¯ x
0.02275
, ...
34
Exemple 2. K. Pearson a jeté une pièce symétrique n = 24000 fois et a observé
µ
n
= 12012
succès. On sait que
ˆ p
n
=
µ
n
n
est un bon estimateur pour la probabilité de succès p = 0.5 (on a supposé que la pièce est
symétrique c’est-à-dire l’hypothèse H
0
: p =0.5). Dans notre cas ˆ p
n
=0.5005. Nous savons
que
E ˆ p
n
= 0.5 et Var ˆ p
n
=
1
4n
.
En étudiant le résultat de l’expérience de K. Pearson, nous pouvons constater que la statis-
tique µ
n
a pris une valeur très proche de sa moyenne Eµ
n
= np = 12000. Est-ce vraisem-
blable ou non ? On note que sous l’hypothèse H
0
: p = 0.5 on a
Varµ
n
= np(1−p) =
n
4
,
et comme l’écart-type de µ
n
est
_
Varµ
n
=
_
np(1−p) = 77.5,
on pourrait donner plusieurs raisons à l’apparition de l’événement
_

n

n
2
[ > 77.5
_
=¦[µ
n
−12000[ > 77.5¦
Mais dans son expérience K. Pearson a obtenu

n
−12000[ = 12 ¸77.5.
On pourrait penser que c’est trop beau pour être vrai. Quelle est donc la probabilité d’ob-
server l’événement ¦[µ
n

n
2
[ ≤12¦ sous l’hypothèse H
0
?
On a
P¦[µ
n

n
2
[ ≤12[H
0
¦ = P
_

n

n
2
[

n0.5 0.5

12
77.5
¸
¸
¸
¸
H
0
_

≈Φ(0.155) −Φ(−0.155) ≈0.124 =
1
8
.
Il est évident que cet événement est bien probable, donc K. Pearson pouvait observer ce
résultat.
Exemple 3. Supposons que nous avons un générateur de nombres aléatoires et que ce géné-
rateur nous fournit les “nombres aléatoires” x
1
, x
2
, ..., x
n
qu’on peut considérer (hypothèse
H
0
) comme des réalisations de variables aléatoires indépendantes
X
1
, X
2
, ..., X
n
,
ayant chacune la distribution discrète uniforme sur l’ensemble S =¦0, 1, ..., 9¦ i.e.,
P¦X
j
= i [ H
0
¦ = 0.1, i ∈ S. (6)
35
Considérons maintenant un échantillon X = (X
1
, X
2
, ..., X
n
)
T
de taille n = 10 000, associé
au générateur de nombres aléatoires mentionné précédemment. Nous désirons tester l’hypo-
thèse H
0
que l’échantillon Xest issu de la distribution uniforme (1) si dans notre échantillon
on a observé seulement 4999 fois x
i
ne dépassant pas 4. Quel niveau de signification doit
on avoir pour rejeter H
0
?
Solution. Soit
µ
n
= #¦X
i
≤4¦. (7)
On remarque que
P¦X
i
≤4[H
0
¦ = 0.5.
D’après nos données :
ˆ p
n
=
µ
n
n
=
4999
10000
qui est très voisin de 0.5. Par ailleurs, sous l’hypothèse H
0
, la statistique µ
n
suit une distri-
bution binomiale B(n, p) de paramètres n = 10000, p = 0.5 et donc sous H
0

n
= np = 5000 and Varµ
n
= np(1−p) = 2500. (8)
D’où pour tout x = 1, 2, ..., d’après le théorème de de Moivre-Laplace, nous avons (avec la
correction de continuité de 0.5)
P¦[ µ
n
−np [≤x [ H
0
¦ = P
_
n
2
−x ≤µ
n

n
2
+x[H
0
_

Φ
_
0.5n+x +0.5−0.5n

n 0.5 0.5
_
−Φ
_
0.5n−x −0.5−0.5n

n 0.5 0.5
_
= 2Φ
_
2x +1

n
_
−1. (9)
Notons α le niveau de signification du test (0 < α < 0.5) avec la région critique :

¸
¸µ
n

n
2
¸
¸
¸ ≤ ¯ x
α/2
_
=
_
n
2
− ¯ x
α/2
≤µ
n

n
2
+ ¯ x
α/2
_
. (10)
Alors, à la valeur critique ¯ x
α/2
, correspond le niveau de signification α :
α ≈2Φ
_
2¯ x
α/2
+1

n
_
−1, (n = 10000). (11)
En particulier, si ¯ x
α/2
= 1, alors
α ≈2Φ
_
3

n
_
−1 = 2Φ(0.03) −1 = 2 0.512−1 = 0.024.
Inférence statistique : d’après le test statistique, basé sur la région critique :
¦[ µ
n
−5000 [≤1¦,
l’hypothèse H
0
sera rejetée avec le niveau de signification α ≈0.025, puisque
P¦[µ
n
−5000[ ≤1[H
0
¦ ≈0.024 < α = 0.025.
(Voir, aussi, Cuadras C., Nikulin (1993)).
Exemple 4. Le problème du Chevalier de Méré. D’abord on considère l’épreuve sui-
vante : on jette 4 fois un dé.
Soit A l’événement :
A = {obtenir au moins une fois le 1 au cours de cette expérience}.
36
Considérons ensuite la deuxième expérience qui consiste à jeter 24 fois 2 dés.
Soit B l’événement :
B = {obtenir au moins une fois le (1,1) au cours de cette expérience}.
Le Chevalier de Méré ayant supposé que
p
1
= P(A) < p
2
= P(B)
avait misé sur B. Avait-il raison ?
On remarque que
p
1
= P(A) = 1−
_
5
6
_
4
= 0.5177,
p
2
= P(B) = 1−
_
35
36
_
24
= 0.4914.
Mais Méré ne pouvait pas faire ces calculs. Par contre, il aurait pu faire une expérience pour
résoudre ce problème par des méthodes statistiques, basées sur la loi des grands nombres.
Soient µ
(1)
n
= µ
n
(A) et µ
(2)
n
= µ
n
(B) les résultats de la modélisation de ces expériences
lorsqu’on les a répété n = 25, 50, 100, 250 fois chacune.
n 25 50 100 250
µ
n
(A) 18 27 52 121
µ
n
(B) 14 24 47 126
Ici µ
n
(A) et µ
n
(B) représentent les nombres de succès dans la première et la seconde expé-
riences respectivement.
D’après la loi des grands nombres
ˆ p
1n
=
µ
(1)
n
n
P
→p
1
ˆ p
2n
=
µ
(2)
n
n
P
→p
2
, (n →∞),
c’est-à-dire il y a la consistance de deux suites d’estimateurs ¦ ˆ p
1n
¦ et ¦ ˆ p
2n
¦ de paramètres
p
1
et p
2
. En plus on sait que
E ˆ p
1n
=
1
n

(1)
n
= p
1
, E ˆ p
2n
=
1
n

(2)
n
= p
2
,
donc pour tout n ∈N

ˆ p
1n
et ˆ p
2n
sont les estimateurs sans biais pour p
1
et p
2
respectivement.
Enfin, on remarque, que quand n →∞
Var ˆ p
1n
=
p
1
(1−p
1
)
n
→0, Var ˆ p
2n
=
p
2
(1−p
2
)
n
→0.
En utilisant les résultats de modélisation du jeu on obtient une nouvelle table
n 25 50 100 250
µ
(1)
n
n
0.72 0.54 0.52 0.484
µ
(2)
n
n
0.56 0.48 0.47 0.504
37
Il faut noter que bien que p
1
soit supérieur à p
2
l’expérience nous donne ici
µ
(1)
n
= 121 < µ
(2)
n
= 126 pour n = 250,
et donc
µ
(1)
n
n
= 0.484 <
µ
(2)
n
n
= 0.504 pour n = 250.
Si on arrête “le jeu” à n = 250, on aura une conclusion erronée que p
1
< p
2
. On va évaluer
P¦µ
(1)
n
< µ
(2)
n
¦
la probabilité d’événement ¦µ
(1)
n
< µ
(2)
n
¦. Notons
X
n
=
µ
(1)
n
−np
1
_
np
1
(1−p
1
)
, Y
n
=
µ
(2)
n
−np
2
_
np
2
(1−p
2
)
, n ∈ N

.
Pour tout n les variables aléatoires X
n
et Y
n
sont indépendantes, et
EX
n
= EY
n
= 0, VarX
n
= VarY
n
= 1.
En plus, du théorème de de Moivre-Laplace il suit que pour tout x ∈ R
1
lim
n→∞
P¦X
n
≤x¦ = lim
n→∞
P¦Y
n
≤x¦ = Φ(x),

Φ(x) =
1


x

−∞
e
−t
2
/2
dt.
De ce résultat il suit que
X
n
−Y
n
_
Var(X
n
−Y
n
)
=

(1)
n
−µ
(2)
n
) +n(p
2
−p
1
)
_
np
1
(1−p
1
) +np
2
(1−p
2
)
est aussi asymptotiquement normale quand n →∞,
P
_
X
n
−Y
n
_
Var(X
n
−Y
n
)
≤x
_
≈Φ(x), x ∈ R
1
.
Maintenant nous somme capable d’évaluer la probabilité de l’événement ¦µ
(1)
n
< µ
(2)
n
¦.
En effet,
P¦µ
(1)
n
< µ
(2)
n
¦ = P¦µ
(1)
n
−µ
(2)
n
< 0¦ =
P
_
µ
(1)
n
−µ
(2)
n
+n(p
2
−p
1
)
_
np
1
(1−p
1
) +np
2
(1−p
2
)
<

n(p
2
−p
1
)
_
p
1
(1−p
1
) + p
2
(1−p
2
)
_

≈Φ
_

n(p
2
−p
1
)
_
p
1
(1−p
1
) + p
2
(1−p
2
)
_
→0, n →∞, si p
2
< p
1
.
38
On remarque qu’en utilisant les tables statistiques on peut calculer cette probabilité pour
n = 25, 50, 100, 250 et 1000 et pour p
1
= 0.5177 et p
2
= 0.4914 :
n 25 50 100 250 1000
P¦µ
(1)
n
< µ
(2)
n
¦ 0.42 0.39 0.35 0.18 0.12
On constate que même pour n assez grand (n = 1000) on a 12 pour cent de chances de faire
une conclusion erronnée, et on comprend le trouble du Chevalier.
Exemple 5. Comparaison de deux probabilités. On veut comparer la qualité de pro-
duction de deux usines qui produisent le même article. Soit p
1
(respectivement p
2
) la pro-
babilité qu’un article de la 1
ère
usine (respectivement de la 2
ème
) soit défectueux. Pour
effectuer le contrôle on a prélevé n
1
articles dans la première usine et n
2
articles de la
seconde. Soit µ
n
1
(respectivement µ
n
2
) le nombre d’articles défectueux pour la première
(respectivement pour la seconde) usine. Supposons que nous voulions tester l’hypothèse
d’homogénéité
H
0
: p
1
= p
2
= p, p ∈]0, 1[.
Sous l’hypothèse H
0
on a
E
µ
n
1
n
1
= E
µ
n
2
n
2
= p,
Var
µ
n
1
n
1
=
p(1−p)
n
1
→0, (n
1
→∞),
Var
µ
n
2
n
2
=
p(1−p)
n
2
→0, (n
2
→∞).
Donc, sous l’hypothèse H
0
on a deux suites consistantes ¦ ˆ p
1n
¦ et ¦ ˆ p
2n
¦ d’estimateurs sans
biais pour le paramètre p. On remarque que quels que soient n
1
et n
2
les estimateurs ˆ p
1n
et
ˆ p
2n
sont indépendants.
En général, même si l’hypothèse H
0
est vraie, dans l’expérience on observe l’événement
_
µ
n
1
n
1
,=
µ
n
2
n
2
_
.
Il est évident que pour tester H
0
contre l’alternative H
1
: p
1
,= p
2
il est raisonnable d’utiliser
la statistique
¸
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
¸
comme l’estimateur de [p
1
−p
2
[ et rejeter H
0
si
¸
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
¸
≥c
α
,
où il faut choisir la valeur critique c
α
de façon que
P

¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
¸
≥c
α
¸
¸
¸
¸
H
0
_
≥α, 0 < α < 0.5.
Par contre, si
¸
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
¸
< c
α
,
39
on accepte H
0
. On remarque que
P

¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
¸
< c
α
¸
¸
¸
¸
H
0
_
≥1−α.
Comment trouver la valeur critique c
α
, correspondant au niveau de signification α? Pour
n
1
et n
2
suffisamment grands on peut s’attendre à ce que la variable aléatoire
µ
n
1
n
1

µ
n
2
n
2
_
p(1−p)
_
1
n
1
+
1
n
2
_
soit approximativement normale, puisque
lim
min(n
1
,n
2
)→∞
P
_
¸
¸
_
¸
¸
_
µ
n
1
n
1

µ
n
2
n
2
_
p(1−p)
_
1
n
1
+
1
n
2
_
≤x
¸
¸
¸
¸
¸
¸
¸
¸
H
0
_
¸
¸
_
¸
¸
_
= Φ(x).
Donc, en choisissant c
α
= ¯ x
α/2
on a
P
_
¸
¸
_
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
_
p(1−p)
_
1
n
1
+
1
n
2
_
¸
¸
¸
¸
¸
¸
¸
¸
≥ ¯ x
α/2
¸
¸
¸
¸
¸
¸
¸
¸
H
0
_
¸
¸
_
¸
¸
_
≈α,
et, par conséquent, on rejette H
0
en faveur de H
1
, si
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
¸
¸
¸
_
µ
n
n
_
1−
µ
n
n
_
_
1
n
1
+
1
n
2
_
≥ ¯ x
α/2
,

µ
n
n
=
µ
n
1

n
2
n
1
+n
2
= ˆ p
n
est le meilleur estimateur sans bias pour p sous l’hypothèse H
0
.
Il est évident que
P
_
¸
¸
_
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
µ
n
1
n
1

µ
n
2
n
2
_
µ
n
n
_
1−
µ
n
n
_
_
1
n
1
+
1
n
2
_
¸
¸
¸
¸
¸
¸
¸
¸
> ¯ x
α/2
¸
¸
¸
¸
¸
¸
¸
¸
H
0
_
¸
¸
_
¸
¸
_
≈α,
quand n
1
et n
2
sont sufisamment grands.
Remarque 1. Il est clair que si nous voulons tester l’hypothèse H
0
: p
1
= p
2
contre
l’hypothèse unilatérale H
+
1
: p
1
> p
2
, dans ce cas il faut choisir c
α
= ¯ x
α
et rejeter H
0
si
µ
n
1
n
1

µ
n
2
n
2
_
µ
n
n
_
1−
µ
n
n
_
_
1
n
1
+
1
n
2
_
≥ ¯ x
α
,
40
où Φ( ¯ x
α
) = 1−α. Le niveau de ce test unilatéral ≈α.
Remarque 2. Si nous voulons tester H
0
: p
1
= p
2
contre l’alternative H

1
: p
1
< p
2
, qui
est unilatérale, il faut rejeter H
0
si
µ
n
1
n
1

µ
n
2
n
2
_
µ
n
n
_
1−
µ
n
n
_
_
1
n
1
+
1
n
2
_
<−¯ x
α
.
Le niveau de ce test unilatéral ≈α.
1.2 Modèle probabiliste de l’erreur de mesure.
Tout résultat d’observation provenant de quelque façon que ce soit de mesures engendre
des erreurs d’origines diverses.
Les erreurs se divisent en trois groupes : erreurs grossières, erreurs systématiques et
erreurs aléatoires.
Les erreurs grossières :
Les erreurs grossières sont souvent appelées en statistique observations aberrantes (aber-
rations) ; elles proviennent de mauvais calculs, de lectures incorrectes sur l’appareil de me-
sure etc ... ; cela induit donc une donnée erronée. En général ces résultats de mesures qui
contiennent des erreurs grossières diffèrent sensiblement des autres résultats et sont ainsi
faciles à identifier.
Les erreurs systématiques
Les erreurs systématiques surestiment ou sousestiment toujours les résultats de me-
sures, et sont dues à différentes raisons (mauvaise installation de l’équipement, effet de
l’environnement, etc ...). Elles affectent systématiquement toutes les mesures et les altèrent
dans une seule direction.
Les erreurs aléatoires :
Les erreurs aléatoires ont un effet imprévisible sur les mesures, à la fois en surestimant
certaines et en sousestimant d’autres résultats.
Considérons maintenant le modèle probabiliste (appelé le modèle de l’erreur de mesure)
utilisé dans la pratique, lorsque nous avons à mesurer une certaine quantité µ. Selon ce mo-
dèle, tout résultat de l’expérience destinée à estimer la quantité inconnue µ, sera considéré
comme la réalisation d’une variable aléatoire X. Dans ce cas, la variable aléatoire :
δ = X −µ (1.1)
est appelée erreur de mesure ou erreur vraie.
41
De (1) il s’ensuit que
X = µ+δ, (1.2)
et puisque µ est une constante, on en tire
EX = µ+Eδ et VarX = Varδ. (1.3)
Notons
b = Eδ et σ
2
= Varδ (1.4)
l’espérance mathématique et la variance de l’erreur vraie δ.
Alors on a
X = µ+b+(δ−b). (1.5)
La quantité b = Eδ est appelée erreur systématique ou biais de la procédure de mesure.
La variable aléatoire
ξ = δ−b (1.6)
est appelée erreur aléatoire de la procédure de mesure. De (2), (5) et (6) il s’ensuit que la
variable aléatoire X peut être représentée par la façon suivante
X = µ+b+ξ, (1.7)

Eξ = 0 et Varξ = σ
2
(1.8)
Nous obtenons donc pour notre modèle :
EX = µ+b, VarX = σ
2
. (9)
Souvent on dit que σ
2
est la précision de la méthode ou de l’instrument qu’on utilise
pour faire les mesures. Traditionellement, en statistique mathématique on dit que X est un
estimateur sans biais de µ+b.
Si le biais b = 0, alors X est un estimateur sans biais de µ.
Nous avons maintenant une décomposition très intéressante (7) de la variable aléatoire
X dont nous utiliserons la réalisation pour estimer la quantité inconnue µ.
Selon notre modèle, l’observation X est la somme de la vraie (mais inconnue) valeur µ,
du biais b qui est la valeur de l’erreur systématique de l’instrument de mesure et de l’er-
reur aléatoire ξ, qui satisfait (8) et dont la variance donne donc la mesure de l’imprécision
et décrit la dispersion ou la variation des données si nous avons besoin de plusieurs mesures.
42
De façon évidente, la mesure parfaite serait celle pour laquelle b = 0 et σ
2
= 0 mais
on ne peut l’obtenir dans la pratique. Par contre, on peut organiser l’expérience de façon
à avoir b = 0 et en même temps à minimiser σ
2
, c’est-à-dire à augmenter la précision des
mesures ou de l’appareil qu’on utilise pour obtenir ces mesures.
Si b = 0, alors EX = µ ce qui signifie l’absence d’erreur systématique. Dans ce cas δ
représente l’erreur aléatoire et nous dirons comme nous l’avons vu plus haut que X est un
estimateur sans biais pour µ.
Pour estimer la taille de l’erreur de mesure δ = X −µ d’un estimateur X d’une quantité
inconnue µ, on utilise souvent l’erreur quadratique moyenne (le risque quadratique ) ou
l’erreur absolue moyenne (le risque absolu) qui sont respectivement définies par
E(X −µ)
2
et E[X −µ[. (10)
Dans notre modèle nous utiliserons l’erreur quadratique moyenne pour caractériser la
performance de l’estimateur X de µ. Dans ce cas, de (10), on déduit :
E(X −µ)
2
= E[(X −EX) +(EX −µ)]
2
= E(X −EX)
2
+b
2
= σ
2
+b
2
.
Nous avons donc montré que l’erreur quadratique moyenne peut se décomposer en la
somme b
2

2
du carré du biais b de la procédure de mesure et de la variance σ
2
de l’erreur
aléatoire ξ.
Remarque 1. Souvent dans la pratique, le coefficient
k =
1
_
2(σ
2
+b
2
)
est appelé précision de l’estimateur X.
Dans le cas d’absence d’erreur systématique (b = 0)
k =
1


2
=
1
σ

2
.
Lorsque la déviation standard σ et le biais b sont petits, nous avons une haute préci-
sion et dans ce cas l’erreur quadratique moyenne est petite ; d’où une erreur quadratique
moyenne petite signifie une précision plus grande.
Exemple 1. Supposons que l’on cherche à déterminer le poids µ
1
d’un objet à l’aide d’une
balance. On utilise un modèle Gaussien pour l’erreur de mesure en représentant le résultat
d’une mesure comme la réalisation de la variable aléatoire
X = µ
1
+δ, (14)
où δ est l’erreur de mesure, δ ∼N(0, σ
2
), et σ
2
ne dépend pas de µ
1
. Il est évident que si σ
2
est connu et que nous voulons avoir une précision σ
2
/N, alors nous devons faire N mesures
et prendre comme estimateur ˆ µ
1
de µ
1
, la réalisation de la statistique :
ˆ µ
1
=
¯
X
N
=
1
N
(X
1
+X
2
+. . . +X
N
), (15)
43
moyenne des N mesures. De (14) il s’ensuit que
¯
X
N
∼N(µ
1
,
σ
2
N
). (16)
Supposons maintenant que nous voulions déterminer les poids µ
1
et µ
2
de deux objets. De
combien de mesures avons nous besoin pour obtenir des estimateurs ˆ µ
1
et ˆ µ
2
pour µ
1
et
µ
2
respectivement, chacun avec la précision σ
2
/N ? Il est évident qu’on peut peser chaque
objet N fois et de cette façon obtenir les estimateurs
ˆ µ
1
=
1
N
(X
11
+X
12
+. . . +X
1N
)
et
ˆ µ
2
=
1
N
(X
21
+X
22
+. . . +X
2N
) (17)
pour µ
1
et µ
2
. Puisque
ˆ µ
1
∼N(µ
1
,
σ
2
N
) et ˆ µ
2
∼N(µ
2
,
σ
2
N
), (18)
notre but est atteint mais au prix de 2N mesures.
Nous allons maintenant montrer comment on peut obtenir la même précision avec seule-
ment N mesures.
On peut remarquer qu’avec une balance et 2 objets, on peut faire plusieurs choses :
1) on peut déterminer le poids de chaque objet séparément.
2) on peut les peser tous les 2 ensemble ;
3) on peut déterminer la différence entre les 2.
En tenant compte de cette remarque, on peut représenter aussi les résultats de ces mesures :
X
1i
= µ
1

1i
, i = 1, 2, . . . , n
1
,
X
2i
= µ
2

2i
, i = 1, 2, . . . , n
2
,
X
3i
= µ
1

2

3i
, i = 1, 2, . . . , n
3
,
X
4i
= µ
1
−µ
2

4i
, i = 1, 2, . . . , n
4
,
où ¦δ
ki
¦ sont des variables aléatoires indépendantes identiquement distribuées :
δ
ki
∼N(0, σ
2
), i = 1, ..., n
k
, k = 1, 2, 3, 4. (19)
Par symétrie, il est naturel de prendre
n
1
= n
2
, n
3
= n
4
.
Il est évident que les statistiques
¯
X
1
=
1
n
1
n
1

i=1
X
1i
,
¯
X
2
=
1
n
2
n
2

i=1
X
2i
,
¯
X
3
=
1
n
3
n
3

i=1
X
3i
,
¯
X
4
=
1
n
4
n
4

i=1
X
4i
, (20)
sont indépendantes et
¯
X
1
∼N(µ
1
,
σ
2
n
1
),
¯
X
2
∼N(µ
2
,
σ
2
n
1
), (n
1
= n
2
)
44
et
¯
X
3
∼N(µ
1

2
,
σ
2
n
3
),
¯
X
4
∼N(µ
1
−µ
2
,
σ
2
n
3
), (n
3
= n
4
) (21)
d’où on déduit que
ˆ µ
1
=
¯
X
1
et ˆ µ
2
=
¯
X
2
sont des estimateurs sans biais pour µ
1
et µ
2
ayant chacun pour précision σ
2
/n
1
. Construi-
sons les statistiques
µ

1
=
1
2
(
¯
X
3
+
¯
X
4
) et µ

2
=
1
2
(
¯
X
3

¯
X
4
). (22)
Il est clair que
µ

1
∼N(µ
1
,
σ
2
2n
3
) et µ

2
∼N(µ
2
,
σ
2
2n
3
), (23)
d’où il s’ensuit que µ

1
et µ

2
sont aussi des estimateurs sans biais de µ
1
et µ
2
. De l’autre
côté, on peut remarquer que si n
1
= n
3
, alors la variance de µ

1
est 2 fois plus petite que la
variance de ˆ µ
1
. De même pour µ

2
et ˆ µ
2
. En posant n
1
= N/2, notre but est atteint :
Varµ

2
=
1
2
Varˆ µ
2
. (24)
Exemple 2. (suite). Supposons maintenant que l’on a 3 objets dont on veut déterminer les
poids, en les pesant sur une balance non calibrée. Dans ce cas, les mesures pour ces trois
objets peuvent être représentés de la façon suivante :
X
1
= µ
1
+b+δ
1
, X
2
= µ
2
+b+δ
2
, X
3
= µ
3
+b+δ
3
, (25)
respectivement, où b est l’erreur systématique ou le biais (supposé inconnu) de la procédure
de mesure due au fait que la balance n’est pas calibrée et δ
i
est l’erreur aléatoire, δ
i

N(0, σ
2
). Puisque
EX
i
= µ
i
+b, (26)
pour estimer µ
i
, nous avons besoin du biais. Cela demande une lecture sans aucun objet sur
la balance, c’est-à-dire qu’on obtient
X
4
= b+δ
4
, δ
4
∼N(0, σ
2
). (27)
Puisque
EX
4
= b, (28)
on peut utiliser X
4
comme estimateur de b.
Considérons les statistiques
ˆ µ
i
= X
i
−X
4
, i = 1, 2, 3. (29)
Puisque toutes les mesures sont indépendantes, on peut dire que δ
1
, δ
2
, δ
3
, δ
4
sont des va-
riables aléatoires i.i.d.,
δ
i
∼N(0, σ
2
), i = 1, . . . , 4,
et puisque
ˆ µ
i
= X
i
−X
4
= µ
i
+b+δ
i
−b−δ
4
= µ
i

i
−δ
4
(30)
45
des propriétées de δ
1
, δ
2
, δ
3
, δ
4
, on déduit que
ˆ µ
i
∼N(µ
i
, 2σ
2
), i = 1, 2, 3. (31)
Puisque
Eˆ µ
i
= µ
i
, (32)
on peut dire que ˆ µ
i
est un estimateur sans biais pour µ
i
. On remarque que
Varˆ µ
i
= 2σ
2
, i = 1, 2, 3. (33)
On peut représenter notre expérience à l’aide de la matrice d’expérience
Σ
1
=
_
_
_
_
_
_
_
_
_
_
µ
1
µ
2
µ
3
b
1 0 0 1
0 1 0 1
0 0 1 1
0 0 0 1
_
_
_
_
_
_
_
_
_
_
.
Considérons une autre représentation d’expérience donnée par la matrice :
Σ
2
=
_
_
_
_
_
_
_
_
_
_
µ
1
µ
2
µ
3
b
1 0 0 1
0 1 0 1
0 0 1 1
1 1 1 1
_
_
_
_
_
_
_
_
_
_
.
Dans cette expérience les 3 premiers mesures sont comme précédemment (dans Σ
1
) mais la
quatrième détèrmine le poids des 3 articles ensemble, c’est à dire :
X
4
= µ
1

2

3
+b+δ
4
.
Il est évident que :
X
4
∼N(µ
1

2

3
+b, σ
2
),
EX
4
= µ
1

2

3
+b, VarX
4
= Varδ
4
= σ
2
.
Considérons maintenant les statistiques
Y
1
= X
1
+X
4
−X
2
−X
3
, Y
2
= X
2
+X
4
−X
1
−X
3
, Y
3
= X
3
+X
4
−X
1
−X
2
.
Alors :
EY
1
= 2µ
1
, EY
2
= 2µ
2
, EY
3
= 2µ
3
,
d’où on déduit que
µ

i
=
1
2
Y
i
, i = 1, 2, 3
sont des estimateurs sans biais pour µ
1
, µ
2
, µ
3
respectivement, c’est à dire


i
= µ
i
, i = 1, 2, 3.
46
De plus les variables aléatoires δ
1
, δ
2
, δ
3
, δ
4
sont indépendantes, δ
i
∼ N(0, σ
2
), d’où nous
obtenons
Varµ

i
=
1
4
VarY
i
=

2
4
= σ
2
.
Ainsi, si nous organisons l’expérience selon la matrice Σ
2
, nous pouvons obtenir les mêmes
résultats qu’avec une balance calibrée sans erreur systématique.
Enfin on remarque que si, par exemple, il nous faut déterminer les poids µ
1
, . . . , µ
4
de
4 objets et que la balance est calibrée, alors dans ce cas au lieu d’utiliser le plan avec la
matrice
Σ
3
=
_
_
_
_
_
_
_
_
_
_
µ
1
µ
2
µ
3
µ
4
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
_
_
_
_
_
_
_
_
_
_
,
d’après lequel on a
X
i
= ˆ µ
i
∼N(µ
i
, σ
2
),
il est évident qu’il est mieux de choisir le plan avec la matrice
Σ
4
=
_
_
_
_
_
_
_
_
_
_
µ
1
µ
2
µ
3
µ
4
1 1 0 0
1 −1 0 0
0 0 1 1
0 0 1 −1
_
_
_
_
_
_
_
_
_
_
.
Dans ce cas on obtient les estimateurs
ˆ
ˆ µ
i
∼N(µ
i
,
σ
2
2
), i = 1, . . . , 4.
Example 3. Supposons que nous observons un objet A qui se déplace uniformément avec
une vitesse constante et inconnue θ, θ > 0. Soit s(t) la distance parcourue par cet objet A
entre les temps t = 0 et t, t > 0. En supposant que s(0) = 0, on a
s(t) = θt, pour tout t ≥0.
Pour estimer θ on mesure les distances
s
1
= s(t
1
), s
2
= s(t
2
), . . . , s
n
= s(t
n
)
aux moments t
1
<t
2
< . . . <t
n
, on suppose que s
0
= s(0) = 0.
Par ailleurs on sait que la précision de mesure de s
i
est égale à k
i
σ
2
, où les constantes k
i
sont données, i = 1, . . . , n; σ
2
> 0. Dans ces conditions on propose souvent comme valeur
expérimentale pour θ le nombre
ˆ
θ =
n

i=1
ˆ c
i
s
i
,

ˆ c
i
=
t
i
αk
i
et α =
n

i=1
t
2
i
k
i
.
47
On remarque que les coefficients ˆ c
i
sont choisis de facon que
ˆ c
T
t = 1, où ˆ c = ( ˆ c
1
, . . . , ˆ c
n
)
T
et t = (t
1
, . . . , t
n
)
T
.
Construire un modèle probabiliste permettant de donner des explications raisonnables sur
l’origine et l’optimalité dans un certain sens de cette procédure d’estimation.
Solution. Supposons que s = (s
1
,s
2
, . . . , s
n
)
T
est une réalisation d’un vecteur aléatoire
S = (S
1
, . . . , S
n
)
T
dont les coordonnées S
i
sont des variables aléatoires indépendantes telles
que
ES
i
= θt
i
et σ
2
i
= VarS
i
= k
i
σ
2
= σ
2
i
, i = 1, . . . , n.
Dans ce cas nous pouvons dire que
S
i
= θt
i

i
, i = 1, . . . , n;

i
= 0, Varδ
i
= k
i
σ
2
= σ
2
i
, i = 1, . . . , n.
Nous supposons que t
i
et k
i
sont donnés, mais le paramètre θ et la variance σ
2
ne sont
pas connus. Notre but est de montrer que
ˆ
θ est une réalisation du meilleur estimateur (de
variance minimale) sans biais dans la classe ∆
θ
de tous les estimateurs linéaires sans biais
θ

n
pour θ :

θ
=¦θ

n
= θ

n
(S) : θ

n
=
n

i=1
c
i
S
i
, E
θ
θ

n
= θ¦.
Pour montrer cela nous considérons en plus la classe
∆ =¦θ

n
= θ

n
(S) : θ

n
=
n

i=1
c
i
S
i
¦
de toutes les statistiques linéaires. Il est évident que ∆
θ
⊂∆.
Soit θ

n
une statistique linéaire, θ

n
∈ ∆. Puisque
E
θ
θ

n
=
n

i=1
c
i
ES
i
=
n

i=1
c
i
θt
i
= θ
n

i=1
c
i
t
i
,
on en tire que θ

n
∈ ∆
θ
si et seulement si
n

i=1
c
i
t
i
= c
T
t = 1.
Comme on l’a déja remarqué, le choix des coefficiens ˆ c
i
a été fait de façon à satisfaire cette
condition, et donc la statistique
ˆ
θ
n
=
n

i=1
ˆ c
i
S
i
appartient à notre classe ∆
θ
des estimateurs linéaires sans biais. Montrons que
ˆ
θ
n
a la va-
riance minimale dans la classe ∆
θ
:
Var
ˆ
θ
n
= min
θ

n
∈∆
θ
Varθ

n
.
Pour tout θ

n
∈ ∆
θ
on a :
48
Varθ

n
=
n

i=1
c
2
i
VarS
i
= σ
2
n

i=1
k
i
c
2
i
.
Il nous faut construire l’estimateur
ˆ
θ
n
,
ˆ
θ
n
∈ ∆
θ
, tel que
Var
ˆ
θ
n
= min
θ

n
∈∆
θ
Varθ

n
.
Cela signifie qu’il nous faut minimiser la fonction
n

i=1
k
i
c
2
i
à condition que
c
T
t =
n

i=1
c
i
t
i
= 1.
En utilisant la méthode de Lagrange nous pouvons trouver ce minimum lié. Soit λ un mul-
tiplicateur de Lagrange. Nous voulons minimiser la fonction de Lagrange
Φ(c, λ) =

c
2
i
k
i
−2λ(

c
i
t
i
−1),
donc il nous faut résoudre l’équation
gradΦ(c, λ) = 0, 0 ∈ R
r+1
,
ce qui est équivalent à résoudre le système de n+1 équations
∂Φ(c, λ)
∂c
i
= 2c
i
k
i
−2λt
i
= 0, i = 1, 2, . . . , n,
et
∂Φ(c, λ)
∂λ
=

c
i
t
i
−1 = 0.
On trouve que
c
i
= λt
i
/k
i
, i = 1, . . . , n.
Pour trouver λ il faut mettre les valeurs trouvées de c
i
dans la dernière équation du système,
d’où on obtient que
λ =
1
n

i=1
t
2
i
k
i
,
et donc
ˆ c
i
=
t
i
k
i
n

i=1
t
2
i
k
i
=
t
i
αk
i
, i = 1, . . . , n.
Ces valeurs de c
i
nous donnent justement l’estimateur
ˆ
θ
n
sans biais,
ˆ
θ
n
∈ ∆
θ,
dont la va-
riance est minimale :
ˆ
θ
n
=
n

i=1
ˆ c
i
S
i
=
n

i=1
t
i
αk
i
S
i
.
49
Puisque les statistiques S
i
sont indépendantes, par des calculs directs on trouve que
Var
ˆ
θ
n
= Var
n

i=1
ˆ c
i
S
i
=
n

i=1
( ˆ c
i
)
2
VarS
i
= σ
2
n

i=1
k
i
( ˆ c
i
)
2
=
σ
2
α
−2
n

i=1
t
2
i
k
i
= σ
2
_
n

=1
t
2
i
k
i
_
−1
=
1
α
σ
2
.
1.3 Méthode de Monte-Carlo.
Considérons le problème d’évaluation d’un intégrale multidimensionnelle
I
n
=

1
0

1
0
f
n
(x
1
, ..., x
n
)dx
1
...dx
n
=

K
n
f (x)dx, (1)

x = (x
1
, ..., x
n
)
T
∈ K
n
= [0, 1] [0, 1] ... [0, 1] = [0, 1]
n
,
¦f
n
()¦ est une suite de fonctions données, f
n
() : K
n
→R
1
, n ∈ N.
Il est connu que le problème d’évaluation d’intégrales de ce type devient compliqué
avec l’augmentation de n.
Supposons que nous pouvons construire un èchantiiilon X
1
= (X
11
, ..., X
1n
)
T
de taille
n, formé des variables aléatoires indépendantes suivant la même loi uniforme U([0, 1]) sur
[0, 1]. Dans ce cas le vecteur X
1
suit une loi uniforme U(K
n
) sur le cube K
n
.
Supposons en plus que nous pouvons construire un échantillon X = (X
1
, ..., X
N
)
T
de
taille N quelque soit N ∈ N des vecteurs aléatoires indépendants, ayant la même loi uni-
forme U(K
n
) sur le cube K
n
, c’est-à-dire nous pouvons construire nN variables aléatoires
indépendantes X
i j
uniformément distribuées sur [0, 1]. On remarque que de la construction
des variables aléatoires X
i j
il suit que
Ef
n
(X
i
) =

K
n
f
n
(x)dx = I
n
, (2)
i.e. la valeur numérique de l’intégrale n’est que la moyenne Ef
n
(X
i
) de la variable aléa-
toire f
n
(X
i
). Dans ce cas pour estimer la moyenne Ef
n
(X
i
) = I
n
nous avons la possibilité
d’utiliser la loi faible des grands nombres de Bernoulli d’après laquelle
1
N
N

i=1
f
n
(X
i
)
P
→I
n
, N →∞, (3)
i.e. pour tout ε > 0
P¦[
1
N
N

i=1
f
n
(X
i
) −I
n
[ > ε¦ →0, si N →∞, (4)
50
ou
P¦[
1
N
N

i=1
f
n
(X
i
) −I
n
[ ≤ε¦ →1, si N →∞, (5)
d’où on tire que pour les grandes valeurs de N avec une probabilité proche à 1 on a
I
n

1
N
N

i=1
f
n
(X
i
) (6)
De (4) et du Théorème Limite Central on tire que pour les grandes valeurs de N
P¦[
1
N
N

i=1
f
n
(X
i
) −I
n
[ ≥ε¦ ≈2Φ
_

ε

N
σ
n
_
(7)
et donc
P¦[
1
N
N

i=1
f
n
(X
i
) −I
n
[ ≤ε¦ ≈1−2Φ
_

ε

N
σ
n
_

σ
2
n
= Var f
n
(X
i
) = E[ f
n
(X
i
) −I
n
]
2
=

K
n
[ f
n
(x −I
n
]
2
dx (8)
est la variance de f
n
(X
i
). (On suppose que Var f
n
(X
i
) existe). Donc si nous voulons que la
probabilité dans (7) soit proche à 0.997, par exemple, il faut choisir ε de façon que
ε

N
σ
n
= 3
i.e.
ε =

n

N
,
d’où on tire que la précision ε d’approximation de I
n
, donnée par (7), est de l’ordre de
N
−1/2
. Il est important de noter que la précision de l’approximation ne dépend que de la
variance σ
2
n
de f
n
(X
i
). Donc pour évaluer l’intégrale I
n
avec la précision

n

N
il suffit de
modeliser N vecteurs aléatoires X
i
et calculer N valeurs f
n
(X
i
).
Comparons ce résultat avec la méthode classique du calcul des intégrales en utilisant
une approximation par les sommes.
Si n = 1, la méthode de Simpson avec N noeuds d’interpolation donne (pour une fonc-
tion f régulière ) la précision
1
N
4
. Mais pour n > 1 l’utilisation de cette méthode pour
chacune des variables même seulement avec 10 noeuds d’interpolation exige 10
n
calculs
des valeurs de la fonction f
n
(x) = f
n
(x
1
, ..., x
n
). Alors avec augmentation de n le calcul de
l’intégral I
n
par cette méthode devient pratiquement impossible à cause de cumulation des
erreurs de calcul. Méthode de Monte-Carlo dans les mêmes conditions exige nN modelisa-
tions des variables aléatoires X
i j
et N calculs des valeurs de la fonction f
n
(X
i
) au lieu de
10
n
dans la méthode de Simpson. Il est clair que pour n grand la méthode de Monte-Carlo
est uniquement possible. Mais il est raisonable bien sûr de trouver un estimateur supérieur
de la variance σ
2
n
.
Exercice 1. Soit f une fonction continue périodique de période T = 1 sur R
1
:
f (x +T) = f (x), x ∈ R
1
.
51
Considérons une suite des variables aléatoires indépendantes ¦X
n
¦, uniformément distri-
buées sur [0, 1], X
i
∼U([0, 1]). Montrer que
1
n
n

k=1
f (x +X
k
)
P

1
0
f (x)dx.
Exercice 2. Soit f continue sur [0, 1]. Montrer que
lim
n→∞

1
0

1
0
f
_
x
1
+x
2
+... +x
n
n
_
dx
1
dx
2
...dx
n
= f (
1
2
).
Exercice 3. Calculer
lim
n→∞

1
0

1
0
cos
2m
π
2n
(x
1
+x
2
+... +x
n
)dx
1
dx
2
...dx
n
, m ∈ N.
Exercice 4. Soient g continue et bornée sur R
1
et
¦X
n
¦
P
→X.
Montrer que
a) lim
n→∞
Eg(X
n
) = Eg(X) ( la suite du théorème de Lebesgue) ;
b) lim
n→∞
E[g(X
n
−g(X)[
r
= 0, r > 0.
Exercice 5. Soit f continue sur [0, 1]. Montrer que
lim
n→∞

1
0

1
0
f (
n

x
1
...x
n
)dx
1
...dx
n
= f (
1
e
).
Exercice 6. Soient f et g continues sur [0, 1] et telles que pour tout x ∈]0, 1[
0 ≤ f (x) < cg(x), c > 0.
Montrer que
lim
n→∞

1
0

1
0
f (x
1
) +... + f (x
n
)
g(x
1
) +... +g(x
n
)
dx
1
...dx
n
=

1
0
f (x)dx

1
0
g(x)dx
.
Exercice 7. Montrer que
lim
n→∞

1
0

1
0
x
2
1
+... +x
2
n
x
1
+... +x
n
dx
1
...dx
n
=
2
3
.
Exercice 8. Soit f telle que f
//
est continue sur [0, 1]. Montrer que
lim
n→∞
n

1
0

1
0
_
f
_
x
1
+... +x
n
n
_
− f
_
1
2
__
dx
1
...dx
n
=
f
//
_
1
2
_
24
.
Exercice 9. Montrer que
a)
lim
n→∞

...

0≤x
i
≤1, x
2
1
+...+x
2
n


n
dx
1
...dx
n
= 0;
52
b)
lim
n→∞

...

0≤x
i
≤1, x
2
1
+...+x
2
n

n
4
dx
1
...dx
n
= 0;
c)
lim
n→∞

...

0≤x
i
≤1, x
2
1
+...+x
2
n

n
2
dx
1
...dx
n
= 1.
Exercice 10. Calculer
a)
lim
n→∞

...

¦x
2
1
+...+x
2
n
≤n¦
f (x
1
)... f (x
n
)dx
1
...dx
n
;
b)
lim
n→∞

...

¦∑
n
k=1
x
2
k
≤an¦
f (x
1
)... f (x
n
)dx
1
...dx
n
(a < σ
2
);
c)
lim
n→∞

...

¦∑
n
k=1
x
2
k
≤an¦
f (x
1
)... f (x
n
)dx
1
...dx
n
(a > σ
2
);
si f satisfait aux condition
1 =


−∞
f (x)dx, σ
2
=


−∞
x
2
f (x)dx < ∞.
Exercice 11. On dit qu’une suite de nombres ¦a
n
¦, n ∈ N

, a
n
∈ [0, 1] est uniformément
distribuée au sens de H.Weyl sur [0, 1] si pour toute fonction continue f , intégrable sur
[0, 1] au sens de Riemann
lim
n→∞
1
n
n

k=1
f (a
k
) =

1
0
f (x)dx.
Soit ¦X
n
¦ une suite de variables aléatoires indépendantes uniformément distribuées sur
[0, 1]. Montrer que avec probabilité égale à 1 ¦X
n
¦ est uniformément distribuée au sens
de Weyl sur [0, 1].
Remark 1. On rappele que

b
a
f (x)dx =

u(b)
u(a)
f (u
−1
(t)
u
/
(u
−1
(t))
dt,
en faisant le changement de variables t = u(x). En statistique on utilise souvent les trans-
formations en choisissant :
u(x) = e
−x
, u(x) = 1/x, u(x) = x/(1+x).
53
54
Chapitre 2
ELEMENTS DE LA THEORIE DE
L’ESTIMATION PONCTUELLE.
2.1 Modèle statistique. Fonction de vraisemblance.
Soient (Ω, A, P) un espace probabilisé et (R
n
, B
n
) un espace borélien.
Définition 1. Une application
X = X(ω) = (X
1
(ω), X
2
(ω), . . . , X
n
(ω))
T
: Ω→R
n
de l’ensemble Ω=¦ω¦ de tous les événements élémentaires dans R
n
est appelée un vecteur
aléatoire si
X
−1
(B) ∈ A, pour tout B ∈ B
n
. (1)
Définition 2. Soit P
X
une mesure sur (R
n
, B
n
), déterminée par la formule suivante :
P
X
(B) = P¦ω : X(ω) ∈ B¦ = P¦X
−1
(B)¦ = P¦X ∈B¦. (2)
La mesure P
X
, déterminée sur la σ-algèbre borélienne B
n
par l’égalité (2), s’appelle la
distribution (la répartition) de X dans R
n
.
Supposons que la distribution P
X
de X appartienne à une famille
P =¦P
θ
, θ ∈ Θ¦.
Définition 3. On appelle modèle statistique le triplet (R
n
, B
n
, P).
Souvent au lieu de (R
n
, B
n
, P) on écrit (R
n
, B
n
, P
θ
, θ ∈ Θ) pour indiquer l’espace des
paramètres Θ.
Définition 4. Un modèle (R
n
, B
n
, P
θ
, θ ∈ Θ) est dit dominé par une mesure σ-finie µ dans
R
n
, si la famille P =¦P
θ
, θ ∈ Θ¦ est absolumemt continue par rapport à µ :
P
θ
¸µ, ∀θ ∈ Θ.
Autrement dit, le modèle (R
n
, B
n
, P
θ
, θ ∈ Θ) est dominé par µ, si pour tout θ ∈ Θ il
existe une fonction non négative B
n
- mesurable p(x; θ) telle que
P
θ
(B) =

B
p(x; θ)dµ(x)
55
pour tout B ∈ B
n
. La fonction p(x; θ) = p
θ
(x) est appelée la dérivée de Radon-Nikodym de
la mesure P
θ
par rapport à la σ-mesure µ, et on note souvent
p(x; θ) =
dP
θ

(x) ou dP
θ
(x) = p(x; θ)dµ(x).
Considérons le modèle :
H
0
: X ∼ p(x; θ), θ ∈ Θ, x ∈ R
n
,
d’après lequel la densité d’un vecteur aléatoire X = X(ω) de dimension n appartient à une
famille des densités
¦p(x; θ), θ ∈ Θ¦, x = (x
1
, x
2
, . . . , x
n
)
T
∈ R
n
.
Définition 5. Si Θ est un ensemble ΘΘΘ de R
m
, on dit que le modèle H
0
est paramétrique,
sinon le modèle H
0
s’appelle non paramétrique.
Définition 6. La variable aléatoire
L(θ) = L(X, θ) = p(X; θ), θ ∈ ΘΘΘ⊂R
m
, (3)
est appelée la fonction de vraisemblance de X.
Remarque 1. On appelle L(θ) ainsi car la fonction de vraisemblence L(θ), sachant la réali-
sation x du vecteur aléatoire X, nous permet de comparer les paramètres θ
1
∈ ΘΘΘ et θ
2
∈ ΘΘΘ.
Si
L(θ
1
) > L(θ
2
),
il est plus probable que X = x pour θ = θ
1
.
Avec cette optique il est très naturel de considérer
ˆ
θ
n
=
ˆ
θ
n
(X) = arg
θ
maxL(θ), i.e. L(
ˆ
θ
n
) = max
θ∈ΘΘΘ
L(θ),
comme un estimateur de θ, appelé l’estimateur de maximum de vraisemblance.
2.2 Statistique. Échantillon. Loi empirique.
Définition 1. Soit T = T(x) une application de (R
n
, B
n
) dans un espace E muni d’une σ-
algèbre borélienne E , T : R
n
→ E. On dit que T est une application borélienne si pour
tout ensemble borélien B de l’espace (E, E), B ∈ E, T
−1
(B) est un ensemble borélien dans
(R
n
, B
n
), i.e.
¦x : T(x) ∈ B¦ = T
−1
(B) ∈ B
n
, pour tout B ∈ E.
Définition 2. Soient X = X(ω) un vecteur aléatoire sur (Ω, A, P), X : Ω→R
n
, et T(x), une
application borélienne de R
n
dans un espace mesurable (E, E),
T : R
n
→E.
56
Dans ce cas on dit que T(X) = T(X(ω)) est une statistique et l’application T elle-même
s’appelle une fonction de décision.
En d’autres termes n’importe quelle transformation du vecteur d’observations X ne dé-
pendant pas du paramètre inconnu θ est une statistique.
Définition 3. Soit X(ω) = (X
1
(ω), X
2
(ω), . . . , X
n
(ω))
T
un vecteur aléatoire. Considérons un
modèle H
0
d’après lequel les variables aléatoires X
1
, . . . , X
n
sont indépendantes et suivent
la même loi. Dans ce cas on dit que X est un échantillon de taille n et on écrit X au lieu de
X.
Remarque 1. Soit X = (X
1
, . . . , X
n
)
T
un échantillon de taille n, X : Ω →R
n
. Considérons
un modèle paramétrique
H
0
: X ∼ p(x; θ), θ ∈ ΘΘΘ, x ∈ R
n
.
Soit f (x
i
; θ) la densité de X
i
: R
1
ΘΘΘ→R
1
. Dans ce cas pour tout x ∈ R
n
p(x; θ) =
n

i=1
f (x
i
; θ), θ ∈ ΘΘΘ,
et la fonction de vraisemblance de l’échantillon X est
L(θ) = p(X; θ) =
n

i=1
f (X
i
; θ), θ ∈ ΘΘΘ.
Exemple 1. Statistiques d’ordre. Vecteur des rangs. Soit X= (X
1
, ..., X
n
)
T
un échantillon,
X ∈ X ⊂ R
n
. A toute réalisation x = (x
1
, ..., x
n
)
T
∈ X de X on peut associer le vecteur
x
(n)
= (x
(1)
, ..., x
(n)
)
T
obtenu en ordonnant les x
i
par ordre croissant
x
(1)
≤x
(2)
≤... ≤x
(n)
.
La statistique correspondante X
(n)
= (X
(1)
, ..., X
(n)
)
T
est appelée le vecteur des statistiques
d’ordre et X
(i)
est la i-ème statistique d’ordre dans A ⊂R
n
:
A =¦x = (x
1
, ..., x
n
)
T
∈ R
n
: x
1
≤x
2
≤... ≤x
n
¦.
Si de plus on associe à X le vecteur R = (R
1
, ..., R
n
)
T
des rangs R
i
des X
i
(i = 1, ..., n), dans
X
(n)
, avec
R
i
=
n

j=1
1
¦X
j
≤X
i
¦
et on suppose que
P¦X
(1)
< X
(2)
< < X
(n)
¦ = 1,
alors dans ce cas la correspondence entre X et la statistique (X
(n)
, R) est bijective. En gé-
néral, R est à valeurs dans l’ensemble σ
n
des permutations des n premier entiers, avec
répétition car il peut y avoir des ex aequo parmi les composantes de X. Cependant, si la
probabilité pour qu’au moins deux des composants de X soient égales est nulle, R est à
valeurs dans l’ensemble σ
n
des permutations de ¦1, 2, ..., n¦. Cela se produit en particulier
si la loi de X admet une densité p(x) par rapport à la mesure de Lebesgue sur R
n
. Parfois,
au lieu de X
(n)
on utilise le signe X
()
.
57
La statistique J
n
= (J
1
, ..., J
n
)
T
, oú
J
k
=
n

j=1
j1
¦R
j
=k¦
, k = 1, 2, ..., h,
est connue comme le vecteur des antirangs.
Soit F(x) = P¦X
1
≤x¦ la fonction de répartition de X
1
. Dans ce cas on a, par exemple,
P¦X
(n)
≤x¦ = F
n
(x), P¦X
(1)
≤x¦ = 1−[1−F(x)]
n
,
P¦X
(r)
≤x¦ = n!
n

k=r
F
k
(x)(1−F(x))
n−k
k!(n−k)!
,
puisque
P¦X
(r)
≤x < X
(r+1)
¦ =
n!
r!(n−r)!
(F(x))
r
[1−F(x)]
n−r
.
Donc si la loi F de X
1
est absolument continue, i.e. s’il existe la densité f (x) telle que
F(x) =

x

f (u)du, x ∈ R
1
,
alors la loi de X
(r)
est absolument continue aussi et sa densité est donnée par la formule
f
X
(r)
(x) =
n!
(r −1)!(n−r)!
(F(x)
r−1
[1−F(x)]
n−r
, r = 1, ..., n.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un échantillon. Dans ce cas les statistiques
T
1
=
n

i=1
X
i
, T
2
=
n

i=1
X
2
i
,
¯
X
n
=
T
1
n
, s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
,
T
3
= X
(1)
, T
4
= X
(n)
, T
5
= X
(n)
−X
(1)
, V
n
=
s
n
¯
X
n
donnent des exemples simples de statistiques scalaires, tandis que
T = (T
1
, T
2
)
T
et U = (
¯
X
n
, s
2
n
)
T
sont deux statistiques vectorielles de dimension deux. La statistique V
n
s’appelle le coeffi-
cient de variabilité, T
5
est l’étendu de l’échantillon, T
3
et T
4
sont les statistiques extrémales.
Exemple 3. La loi empirique. Soit X = (X
1
, ..., X
n
)
T
un échantillon, F(x) = P¦X
i
≤ x¦
est la fonction de répartition de X
i
. Ayant la réalisation x = (x
1
, ..., x
n
)
T
de la statistique
X = (X
1
, ..., X
n
)
T
, nous pouvons construire la fonction
F
n
(x) = F
n
(x; x
1
, ..., x
n
) =
1
n
n

i=1
1
]−∞,x]
(x
i
) =
1
n
n

i=1
1
]−∞,x]
(x
(i)
), x ∈ R
1
,
dont la valeur F
n
(x) en n’importe quel point x, x ∈ R
1
, représente la réalisation de la statis-
tique
F
n
(x) =F
n
(x; X
1
, ..., X
n
) =
1
n
n

i=1
1
]−∞,x]
(X
i
) =
1
n
n

i=1
1
]−∞,x]
(X
(i)
),
58
calculée au point choisi x.
Par construction, la fonction F
n
(x), x ∈ R
1
, a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une variable aléatoire discrète, disons X, dont la loi conditionnelle,
conditionnée par X = x, est donnée par la fonction F
n
(x), c’est-à-dire
F
n
(x) = P¦X ≤x [ X = x¦ = P¦X ≤x [ X
1
= x
1
, ..., X
n
= x
n
¦, x ∈ R
1
,
et par conséquent
F
n
(x) = P¦X ≤x [ X¦, x ∈ R
1
.
Cette formule détermine la fonction de répartition aléatoire et, par tradition, on l’appelle la
fonction de répartition empirique. Par conséquent, la loi conditionnelle de la variable aléa-
toire X, conditionnée par X, s’appelle la loi empirique. La loi empirique est la loi discrète
de X telle que
P¦X = X
i
[ X¦ =
1
n
pour tout i = 1, 2, ..., n et F
n
(x) est la fonction de répartition de cette loi.
Les statistiques
¯
X
n
et s
2
n
représentent la moyenne et la variance de la loi empirique. Par
définition la statistique
ˆ x
P
= X
([nP]+1)
représente P- quantile de la loi empirique, et par conséquant, ˆ x
0.5
= X
([
n
2
]+1)
est la médiane
de la loi empirique.
Remarque 2. Soit X = (X
1
, . . . , X
n
)
T
un vecteur aléatoire, X ∈R
n
, dont la densité est p
X
(x),
x = (x
1
, . . . , x
n
)
T
.
Considérons une statistique Y = f (X), où f : R
n
→R
n
est une application dérivable.
Notons
y = f (x), i.e. y = (y
1
, . . . , y
n
)
T
, où y
j
= f
j
(x), x ∈ R
n
.
Le Jacobien de f est une application
Df : R
n
→R
1
,
donnée par la formule :
Df (x) = det
_
_
_
_
∂ f
j
(x)
∂x
i
_
_
_
_
,
i.e. Df (x) est le déterminant de la matrice Jacobienne.
Si Df (x) ,= 0 au voisinage d’un point x, x ∈ R
n
, dans ce cas f
−1
(y) existe au voisinage
du point y = f (x) avec
Df
−1
( f (x))Df (x) = 1, (1)
ou
Df
−1
(y)Df (x) = 1, y = f (x).
Si f
−1
existe, alors d’après une propriété connue en analyse, pour toute fonction integrable
ϕ de R
n
on a

A
ϕ(y)dy =

f
−1
(A)
ϕ( f (x))[Df (x)[ dx (2)
59
pour tout A, borelien de R
n
. C’est la formule de changement de variables dans une intégrale.
Lemme 1. Soient Y = f (X) et p
X
(x) la densité de X, X ∈ R
n
, où f est telle que f
−1
existe.
Dans ce cas la densité p
Y
(y) de la statistique Y est donnée par la formule
p
Y
(y) = p
X
( f
−1
(y))[Df
−1
(y)[. (3)
Démonstration. D’après (2) pour tout B borélien, B ∈ B
n
, on a :
P¦Y ∈ B¦ =

B
p
Y
(y)dy = P¦X ∈ f
−1
(B)¦ =
=

f
−1
(B)
p
X
(x)dx =

B
p
X
( f
−1
(y))[Df
−1
(y)[ dy,
et donc
p
Y
(y) = p
X
( f
−1
(y))[Df
−1
(y)[ (4)
et vice-versa
p
X
(x) = p
Y
( f (x))[Df (x)[. (5)
Théorème 1. Soit X = (X
1
, ..., X
n
)
T
. Dans ce cas la densité de X
1
est
p
X
1
(x
1
) =

R
n−1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
.
Démonstration. Pour tout A borélien dans R
1
, A ∈ B, on a
P¦X
1
∈ A¦ = P¦X
1
∈ A, −∞ < X
2
< +∞, ..., −∞ < X
n
< +∞¦ =

A

R
n−1
p
X
(x)dx
1
dx
n
=

A
_
_
_

R
n−1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
_
_
_
dx
1
,
et donc
X
1
∼ p
X
1
(x
1
) =

R
n−1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
.
Exemple 4. Soit X = (X
1
, X
2
)
T
, Y
1
= X
1
+X
2
. Trouvons la densité de la statistique Y
1
.
Considérons la statistique Y = (Y
1
,Y
2
)
T
= f (X), où
Y
1
= X
1
+X
2
= f
1
(X), Y
2
= f
2
(X) = X
2
,
i.e.
f (x) = (y
1
, y
2
) = ( f
1
(x), f
2
(x))
T
,
f
1
(x) = x
1
+x
2
, f
2
(x) = x
2
.
Dans ce cas
∂ f
1
(x)
∂x
1
= 1,
∂ f
1
(x)
∂x
2
= 1,
∂ f
2
(x)
∂x
1
= 0,
∂ f
2
(x)
∂x
2
= 1
60
et donc
Df (x) = det
_
_
_
_
1 1
0 1
_
_
_
_
= 1, Df
−1
(y) = 1,
où x = (x
1
, x
2
)
T
= f
−1
(y) est donnée par les formules :
x
1
= f
−1
1
(y) = y
1
−y
2
,
x
2
= f
−1
2
(y) = y
2
,
et donc
∂ f
−1
1
(y)
∂y
1
= 1,
∂ f
−1
1
(y)
∂y
2
=−1,
∂ f
−1
2
(y)
∂y
1
= 0,
∂ f
−1
2
(y)
∂y
2
= 1,
Df
−1
(y) = det
_
_
_
_
_
∂ f
−1
j
(y)
∂y
i
_
_
_
_
_
= 1.
D’après (4) on a
p
Y
(y) = p
X
( f
−1
(y)) [ Df
−1
(y) [= p
X
(y
1
−y
2
, y
2
) (6)
et, par conséquant, on en déduit que (avec l’aide du Théorème 1)
p
Y
1
(y
1
) =

−∞
p
Y
(y)dy
2
=

−∞
p
X
(y
1

2
, y
2
)dy
2
. (7)
Théorème 2. Si la densité p
X
(x) du vecteur X ∈ R
n
est présentée par la formule
p
X
(x) =
n

i=1
p
X
i
(x
i
),
où p
X
i
(x
i
) est la densité de X
i
, dans ce cas les variables aléatoires X
1
, X
2
, . . . , X
n
sont
indépendantes.
Démonstration. Soient A
i
1
, A
i
2
, ..., A
i
k
des ensembles boréliens dans R
1
. Dans ce cas
P¦X
i
1
∈ A
i
1
, X
i
2
∈ A
i
2
, ... X
i
k
∈ A
i
k
¦ = P¦X
i
j
∈ A
i
j
, j = 1, ..., k; X
i
∈ R
1
, i ,= j¦ =

A
i
1

A
i
2

A
i
k

R
n−k
p
X
i1
(x
i1
)...p
X
ik
(x
ik
)dx
i
1
dx
i
k ∏
i,=i
j
p
X
i
(x
i
)dx
i
=
k

j=1

A
i j
p(x
i
j
)dx
i
j
=
k

j=1
P¦X
i j
∈ A
i j
¦.
Remarque 3. Soit X = (X
1
, X
2
)
T
un vecteur aléatoire, dont les componentes sont indépen-
dantes. Dans ce cas
p
X
(x) = p
X
(x
1
, x
2
) = p
X
1
(x
1
)p
X
2
(x
2
), (8)
et donc la densité de la statistique Y
1
= X
1
+X
2
est donnée par la formule
p
Y
1
(y
1
) =

p
Y
1
(y
1
−y
2
)p
X
2
(y
2
)dy
2
=

p
X
1
(y
2
)p
X
2
(y
1
−y
2
)dy
2
. (9)
61
En effet, de (7) on trouve que
p
Y
1
(y
1
) =

−∞
p
X
(y
1
−y
2
, y
2
)dy
2
=

−∞
p
X
1
(y
1
−y
2
)p
X
2
(y
2
)dy
2
(on a utilisé l’indépendance de X
1
et X
2
et (8)).
2.3 Estimateur ponctuel. Consistance. Estimateur inva-
riant
Considérons le modèle paramétrique H
0
d’après lequel
X ∼ p(x; θ), x ∈ R
n
, θ ∈ Θ⊂R
m
, 1 ≤m ≤n.
Définition 1. Soit T = T(X) une statistique telle que
T : R
n
→ΘΘΘ⊂R
m
, m ≤n.
Dans ce cas la statistique Ts’appelle un estimateur statistique ponctuel ou, tout simplement,
un estimateur pour θ = (θ
1
, . . . , θ
m
)
T
.
Si la vraie valeur du paramètre θ est inconnue, alors la réalisation
θ

= T(x), θ

∈ Θ⊂R
n
,
de l’estimateur T(X) est considérée comme une approximation expérimentale pour θ,
θ

= θ

= T(x).
On dit que c’est l’estimation ponctuelle de θ.
Remarque 1. Parfois, pour souligner qu’on travaille avec un vecteur d’observations X
d’ordre n, on ecrit θ

n
au lieu de θ

.
Définition 2. On appelle biais de l’estimateur T = T(X) de θ, θ ∈ ΘΘΘ ⊂ R
m
, la fonction
b : ΘΘΘ→R
m
,
b(θ) = E
θ
(T−θ), θ ∈ ΘΘΘ.
Si
b(θ) ≡0
m
, θ ∈ ΘΘΘ
on dit que l’estimateur T est sans biais.
Remarque 2. Soient θ

n
et
¯
θ
n
deux estimateurs scalaires sans biais pour θ ∈ Θ⊂R
1
:
E
θ
θ

n
= E
θ
¯
θ
n
, θ ∈ Θ.
Dans ce cas
˜
θ
n
= E
θ


n
[
¯
θ
n
) est aussi un estimateur sans bias pour θ :
E
θ
˜
θ
n
= E
θ
¦E
θ


n
[
¯
θ
n
)¦ ≡θ, θ ∈ Θ.
Supposons Var
θ
¯
θ
n
et Var
θ
θ

n
existent. Alors, comme
Var
θ
θ

n
= E
θ
¦Var
θ


n
[
¯
θ
n
)¦+Var
θ
¦E
θ


n
[
¯
θ
n
)¦,
62
et
E
θ
¦Var
θ


n
[
¯
θ
n
)¦ ≥0,
on en tire que
Var
θ
˜
θ
n
= Var
θ
¦E
θ


n
[
¯
θ
n
)¦ ≤Var
θ
θ

n
.
Il est évident que par symétrie on obtient également que
Var
θ
˜
θ
n
≤Var
θ
¯
θ
n
.
Définition 3. ¦T
n
¦ est une suite d’estimateurs asymptotiquement sans biais pour le para-
mètre θ, θ ∈ ΘΘΘ, si pour tout θ ∈ ΘΘΘ
b
n
(θ) = E
θ
(T
n
−θ) →0
m
,
lorsque n →∞.
Définition 4. Soit ¦θ

n
¦ une suite d’estimateurs ponctuels pour θ, θ

n
= θ

n
(X). On dit que
¦θ

n
¦ est une suite consistante ou cohérante pour θ, si ¦θ

n
¦ converge en probabilité vers θ,
i.e. si pour tout ε > 0
P
θ
¦|θ

n
−θ| > ε¦ →0, quand n →∞.
Critère de consistance. Soit T
n
une suite d’estimateurs asymptotiquement sans biais pour
le paramètre scalaire θ, θ ∈ Θ⊂R
1
, telle que Var
θ
T
n
→0, lorsque n →∞. Alors θ

n
P
→θ.
En effet, de l’inégalité de Tchebychev, on tire que pour tout ε > 0
P
θ
¦[ T
n
−θ [> ε¦ ≤
E
θ
(T
n
−θ)
2
ε
2
=
Var
θ
T
n
ε
2
+
b
2
n
(θ)
ε
2
→0,
lorsque n →∞, puisque b
n
(θ) = E
θ
T
n
→0 quand n →∞, et donc la suite ¦T
n
¦ est consis-
tante.
Définition 5. Soit θ

n
= θ

n
(X
1
, ..., X
n
) un estimateur de paramètre θ. On dit que θ

n
est inva-
riant par rapport au paramètre de translation C, C ∈ R
1
, si
θ

n
(X
1
+C, X
2
+C, ..., X
n
+C) = θ

n
(X
1
, ..., X
n
).
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon, X
i
∼N(µ, σ
2
). Dans ce cas la statistique
µ

n
(X
1
, ..., X
n
) =
¯
X
n
n’est pas un estimateur invariant pour µ par rapport au paramètre de
translation C, parce que
µ

n
(X
1
+C, ..., X
n
+C) =C+
¯
X
n
,= µ

n
(X
1
, ..., X
n
).
Par contre la statistique
s
2
n
= s
2
n
(X
1
, ..., X
n
) =
1
n
n

j=1
(X
j

¯
X
n
)
2
est un estimateur invariant pour σ
2
par rapport au paramètre de translation C, parce que
s
2
n
(X
1
+C, ..., X
n
+C) = s
2
n
(X
1
, ..., X
n
).
63
2.4 Fonction de perte, fonction de risque.
Définition 1. (Fonction de perte). Soit T = T(X) : R
n
→Θ un estimateur ponctuel du
paramètre θ, θ ∈ Θ⊂R
1
. Toute fonction non négative l(t, θ) : ΘΘ→R
1
+
convexe en t
est appelée fonction de perte de l’estimateur T.
Les fonctions de perte servent à mesurer la qualité d’un estimateur ; cela suppose donc
que la valeur observée l(t, θ) de la fonction l(T(X), θ), représente la perte pour chaque θ
qui résulte de l’utilisation de la valeur de T au lieu de θ. Il est naturel de supposer que
l(θ, θ) = 0. On utilise le plus souvent la fonction
l(T(X), θ) = (T(X) −θ)
2
, θ ∈ Θ,
comme fonction de perte (fonction de perte quadratique). Mais on peut aussi prendre
l(T(X), θ) =[ T(X) −θ [, l(T(X), θ) =
_
1−
T(X)
θ
_
2
ou
l(T(X), θ) =
T
θ
−ln
_
T
θ
_
−1.
Il est intéressant aussi d’utiliser des fonctions convexes et de choisir
l(T(X), θ) = g(T(X) −θ), θ ∈ Θ,
où g est une fonction convexe non négative.
Définition 2. (Fonction de risque). On appelle fonction de risque ou risque de l’estimateur
T par rapport à la fonction de perte l l’espérance mathématique de la fonction de perte
R
l
(T, θ) = E
θ
¦l(T, θ)¦, θ ∈ Θ.
Cette fonction représente manifestement la perte moyenne lorsqu’on utilise l’estimateur
T(X) quand la vraie valeur du paramètre est θ.
Par exemple, si
l(T, θ) =
_
1, [ T −θ [≥ε,
0, [ T −θ [< ε,
alors la fonction de risque est
R
l
(T, θ) = E
θ
¦l(T, θ)¦ = P
θ
¦[ T −θ [≥ε¦, θ ∈ Θ.
Cette définition nous permet d’introduire une relation d’ordre partiel sur les estimateurs
de θ. Il est logique d’admettre que l’estimateur T
1
est préférable à l’estimateur T
2
par rapport
à la fonction de perte l, si
R
l
(T
1
, θ) ≤R
l
(T
2
, θ), θ ∈ Θ.
Remarque 1. Lorsque la fonction de perte choisie est la fonction de perte quadratique,
le risque-associé est appelé risque quadratique. Dans le cas d’un estimateur sans biais, le
risque quadratique correspond à la variance de l’estimateur.
Remarque 2. Dans le cas où le paramètre θ = (θ
1
, ..., θ
m
)
T
est un élément de ΘΘΘ⊂R
m
, alors
les produits sont des produits scalaires et les variances sont des matrices de covariance.
64
Plus d’information et des exemples on peut trouver, par exemple, dans Voinov& Nikulin
(1993), (1996).
2.5 Statistiques exhaustives, nécessaires, minimales et com-
plètes.
Considérons le modèle
H
0
: X ∼ p(x; θ), θ ∈ ΘΘΘ ⊂R
m
, x ∈ R
n
,
où la densité du vecteur X = X(ω) de dimension n, X : Ω →R
n
, appartient à une famille
des densités
¦p(x; θ), θ ∈ ΘΘΘ¦, x = (x
1
, x
2
, . . . , x
n
)
T
∈ R
n
.
Définition 1. Exhaustivité. On dit qu’une statistique
T = T(X), T : R
n
→R
k
, m ≤k ≤n,
est exhaustive pour le paramètre θ ou pour la famille des densités
¦p(x; θ), θ ∈ ΘΘΘ¦,
si la loi conditionnelle de X, sachant T,
P
θ
¦X ≤x [ T = t¦
ne dépend pas de θ, i.e.
P
θ
¦X ≤x [ T = t¦ = P¦X ≤x [ T = t¦.
Remarque 1. Le fait que la loi conditionnelle de X, sachant T, ne dépende pas de θ signifie
que T contient toute l’information sur le paramètre inconnu θ.
Remarque 2. En pratique, il est très difficile de répondre à la question s’il existe une sta-
tistique exhaustive ou non en utilisant cette definition. Mais, ce qui est plus ennuyeux c’est
que cette definition ne donne aucune méthode pour construire des statistiques exhaustives.
Il est donc très important d’avoir un critère simple qui permettrait de trouver des statistiques
exhaustives.
Théorème. (Critère de factorisation de Neyman-Fisher).
Une statistique T = T(X) est exhaustive pour θ si et seulement si la fonction de vrai-
semblance L(θ) de X peut être factorisée de la façon suivante :
L(θ) = g(T; θ)W(X), (1)
65
où le premier facteur ne dépend que de T et θ, et le second ne dépend que de X.
Démonstration. On va donner la démonstration de ce théorème dans le cas où
i) X =X = (X
1
, . . . , X
n
)
T
est un échantillon,
X
i
∼ f (x
i
; θ), x
i
∈ X
i
=X ⊂R
n
, θ ∈ ΘΘΘ;
ii) l’espace des réalisations X de X
i
est fini ou infini dénombrable,
et donc la distribution de X est discrète dans
X
n
=X
1
X
2
X
n
=X X X, X
n
⊂R
n
;
i.e.
X ∼ p(x; θ) = P
θ
¦X = x¦ > 0, x = (x
1
, , x
n
)
T
∈ X
n
, θ ∈ ΘΘΘ,

p(x; θ) =
n

i=1
f (x
i
; θ)
est la densité de X. On suppose aussi que X ne dépend pas de θ.
Tout d’abord on démontre que si T = T(X) est une statistique qui verifie (1), elle est
exhaustive.
Soit T une statistique T : X
n
→T telle que (1) ait lieu, où T = ¦t¦ ⊂ R
k
est l’espace des
réalisations de T, i.e.
P
θ
¦T =t¦ > 0, t ∈ T .
Notons
X
t
=¦x = (x
1
, . . . , x
n
)
T
: T(x) =t, x ∈ X
n
⊂R
n
¦
l’orbite, correspondant à la valeur t, t ∈ T , de la statistique T. Il est évident que X
n
=

t∈T
X
t
.
Comme ¦T(X) =t¦ =¦X ∈ X
t
¦ on a
P
θ
¦X = x[T(X) =t¦ =
P
θ
¦X = x, T(X) =t¦
P
θ
¦T(X) =t¦
=
=
_
_
_
P
θ
¦X = x¦
P
θ
¦T =t¦
, si x ∈ X
t
,
0, sinon,
car
P
θ
¦X = x, T(X) =t¦ =
_
P
θ
¦X = x¦, si T(X) =t,
0, sinon.
On remarque que d’après (1) on a
P
θ
¦X = x¦ = p(x; θ) =
_
g(t; θ)W(x), x ∈ X
t
,
0, sinon.
Par ailleurs pour tout t ∈ T on a
P
θ
¦T(X) =t¦ =

x∈X
t
P
θ
¦X = x¦ =
66
=

x∈X
t
g(T(x); θ)W(x) =

x∈X
t
g(t; θ)W(x) = g(t; θ)

x∈X
t
W(x),
d’où on tire que
P
θ
¦X = x[T(X) =t¦ =
_
_
_
W(x)

x∈X
t
W(x)
, x ∈ X
t
,
0, sinon.
Comme x est arbitraire, x ∈ X
n
, et X
t
ne dépend pas de θ, donc
P
θ
¦X = x[T(X) =t¦ = p(x[t)
ne dépend pas de θ, i.e. T est une statistique exhaustive.
Réciproquement, si
P
θ
¦X = x[T(X) =t¦ = P¦X = x[T(X) =t¦ = p(x[t)
ne dépend pas de θ, alors d’après le théorème de multiplication des probabilités, on a
p(x; θ) = P
θ
¦X = x¦ = P
θ
¦X = x[T(X) =t¦P
θ
¦T(X) =t¦ =
= p(x[t)g(t; θ) = g(t; θ)W(x), x ∈ X
n
=

X
t
,
où W(x) = p(x[t) = p(x[T(x)), i.e. on obient (1), et donc le théorème est démontré.
Remarque 3. Il faut noter que, en principe, une statistique exhaustives, comme n’importe
quelle statistique, n’est pas un estimateur du paramètre inconnu. On a vu que la définition de
statistique est plus large que la définition d’estimateur. Evidemment, certaines statistiques
exhaustives peuvent être des estimateurs mais, en général, ce n’est pas le cas. L’idée d’uti-
liser des statistiques exhaustives permet de réduire les données expérimentales sans perdre
l’information. Chercher des estimateurs est l’étape suivante du traitement des observations.
Cela signifie que il est recommandé de chercher les estimateurs statistiques en termes des
statistiques exhaustives, si elles existent.
Définition 2. Soit T une statistique exhaustive. Dans ce cas U = U(T) est appelée une
statistique nécessaire.
Pour que la statistique nécéssaire U =U(T) soit exhaustive il suffit que U() soit inver-
sible.
Définition 3. Soit Ul’ensemble de toutes les statistiques exhaustives pour la famille ¦P
θ
, θ ∈
ΘΘΘ¦. Une statistique exhaustive U, U ∈ U, est dite minimale si elle est nécessaire par rap-
port à toute autre statistique exhaustive T, T ∈ U, i.e. pour chaque T ∈ U il existe une
application U : U = U(T).
On dit aussi que U est une réduction de toute statistique exhaustive T (d’où le nom de
minimale). Cela signifie que U est une réduction de T si de l’égalite T(x
1
) = T(x
2
) il suit
l’égalité U(x
1
) =U(x
2
), x
1
, x
2
∈ X
n
.
Donc, une statistique exhaustive minimale U est la statistique exhaustive la plus gros-
sière, et donc elle “réduit” au maximum l’espace des observations sans perdre l’information
sur θ. Soit V = H(U). Si H est inversible, c’est-à-dire H est une application bijective bime-
surable, alors V est elle aussi exhaustive, sinon V n’est plus exhaustive. Si H est inversible,
V ∼U,
67
et dans ce sens U est unique (classe d’équivalence).
Remarque 4. Soient T = T(X) une statistique exhaustive,
L(X; θ) = g(T; θ)W(X), T : X
n
→T ,
et S = S(X) une autre statistique, telle que
S = S(X) =U(T(X)), S : X
n
→J ,
où U() est une fonction inversible i.e., si U : T →J , alors il existe
R =U
−1
: J →T ,
telle que
T(X) = R(S) = R(S(X)).
On peut affirmer que S est elle aussi exhaustive ; en effet
L(X; θ) = g(T; θ)W(X) = g(R(S(X)); θ)W(X) =
= g

(S(X); θ)W(X) = g

(S; θ)W(X).
Nous dirons que T et S sont équivalentes, T ∼S, si elles sont inverses l’une de l’autre. On
dit souvent aussi que W(X) est une statistique auxiliaire ou complémentaire.
Définition 4. On dit que la famille de densités ¦ f (x; θ), θ ∈ ΘΘΘ ⊂ R
m
¦ est complète si la
seule fonction T, T : R
1
→R
1
, qui vérifie l’équation intégrale
+∞

−∞
T(x) f (x; θ)dx = 0 pour tout θ ∈ ΘΘΘ
est telle que T(x) = 0 presque partout.
Remarque 5. Si X ∼ f (x; θ), θ ∈ ΘΘΘ ⊂R
m
, la complétude de la famille ¦ f (x; θ)¦ signifie
que le seul estimateur sans biais de 0 est une statistique T(X) qui est nulle presque partout.
Définition 5. Soit T = T(X) une statistique, T : R
n
→R
k
,
T ∼g(t; θ), θ ∈ ΘΘΘ, t ∈ R
k
.
On dit que la statistique T est complète, si la famille ¦g(t; θ)¦ est complète.
Remarque 6. Pour mener à bien les estimations et les tests classiques, paramétriques ou
non paramétriques, on transforme les observations brutes en calculant des statistiques bien
choisies qui doivent avoir les propriétés suivantes :
1) Perdre le moins d’information possible, éventuellement pas du tout (et c’est le cas des
statistiques exhaustives) tout en réduisant au minimum le volume initial des observations.
2) Etre calculables ou avoir une bonne approximation. Par exemple, s’il s’agit d’un
estimateur obtenu par maximum de vraisemblance, il se peut que l’on ne puisse en obtenir
aisément qu’une valeur approchée au premier pas à partir d’un estimateur moins bon.
3) Leurs lois doivent être, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire à la fois simple à calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur. Ce qui suit donne, grâce à des transformations appropriées des
observations, des statistiques qui ont ces propriétés et aussi de bonnes approximations par
des lois usuelles et permet ainsi de n’utiliser essentiellement que deux tables : celle de la loi
68
normale standard et celle des lois gamma (ou chi-deux). Des exemples illustrent l’applica-
tion de ces méthodes qui donnent des approximations meilleures (de vitesse de convergence
plus rapide) que les approximations usuelles.
Ces techniques sont très utiles pour tous les statisticiens qui travaillent sur des pro-
blèmes concrets, en particulier chez les ingénieurs, mais aussi, dans les domaines de la
médecine et de la biologie.
Il y a plusieurs méthodes d’estimation d’un paramètre θ, par exemple :
1
0
. La méthode des moments ( basée sur la loi empirique) ;
2
0
. la méthode des moindres carrés (basée sur la méthode de Gauss) ;
3
0
. La méthode de minimum du chi-deux ;
4
0
. La méthode du maximum de vraisemblance, etc.
En général, ces méthodes sont différentes et par conséquant les propriétés des
estimateurs obtenus par ces méthodes sont différentes.
2.6 Information de Fisher. Inégalité de Rao-Cramer-Fréchet.
Théorème de Rao-Blackwell-Kolmogorov.
Considérons un modèle paramétrique ; on a vu qu’une statistique exhaustive conserve
toute “ l’information” du modèle.
Pour mesurer l’information contenue dans une statistique, Fisher a défini la quantité
d’information.
Considérons la famille des densités :
¦ f (x; θ) : θ ∈ Θ¦, x ∈ R
1
, Θ⊂R
1
.
Supposons que cette famille est régulière. C’est-à-dire :
i) il existe

∂θ
f (x, θ) pour tout θ ∈ Θ;
ii) l’ensemble des x pour lesquels f (x, θ) = 0 est indépendant de θ ( le support X de f
ne dépend pas du paramètre θ)
iii) on peut dériver sous l’intégrale par rapport à θ la quantité

R
1
f (x, θ)dx =

X
f (x, θ)dx = 1. (1)
Soit X = (X
1
, ..., X
n
)
T
un n-échantillon où
X
i
∼ f (x
i
; θ), θ ∈ Θ ⊂R
1
, x
i
∈ R
1
.
Alors, la quantité
λ(X
j
; θ) =
∂ln f (X
j
; θ)
∂θ
(2)
est appelé informant de l’observation X
j
et la quantité suivante
Λ(X, θ) =

∂θ
lnL(θ) (3)
est appelé informant de l’échantillon X; (L(θ) est la fonction de vraisemblance de X).
69
Puisque
lnL(θ) =
n

j=1
ln f (X
j
; θ)
on en tire que
Λ(X; θ) =
n

j=1
λ(X
j
; θ). (4)
Définition 1. On appelle information de Fisher dans X par rapport à θ la quantité :
I
n
(θ) = Var
θ
Λ(X, θ), (5)
si elle existe.
Remarque 1. Puisque
E
θ
Λ(X; θ) = 0, θ ∈ Θ, (6)
on a
I
n
(θ) = E
θ
Λ
2
(X, θ). (7)
Remarque 2. Si (1) peut être dérivée deux fois par rapport à θ sous le signe d’intégration,
alors on peut montrer que
I
n
(θ) =−E
θ

∂θ
Λ(X, θ). (8)
Remarque 3. Puisque
L(θ) = p(X; θ) =
n

i=1
f (X
i
, θ),
on pourra écrire :
I
n
(θ) = ni(θ), (9)

i(θ) = E
θ
λ
2
(X
j
; θ) (10)
représente l’information d’une des composantes, par exemple X
j
, du vecteur X. Nous en
déduisons que le vecteur X contient n fois plus d’information que chacune de ses compo-
santes. On remarque que si (1) peut être dérivée deux fois par rapport à θ, alors
i(θ) =−E
θ

∂θ
λ(X
1
, θ). (11)
L’inégalité de Rao-Cramer-Fréchet. Si T = T(X) un estimateur sans biais du paramètre
θ, alors sous les conditions i)-iii)
Var
θ
T ≥
1
I
n
(θ)
, θ ∈ Θ. (12)
Démonstration. Soit τ la classe de tous les estimateurs T = T(X) sans biais pour le para-
mètre θ :
τ =¦T : E
θ
T ≡θ¦.
Dans ce cas pour tout T ∈ τ on a
E
θ
T =

X
n
T(x)p(x; θ)dx ≡θ, θ ∈ Θ,
70
et donc des conditions i)-iii) on tire que

∂θ

X
n
T(x)p(x; θ)dx =

X
n
T(x)

∂θ
p(x; θ)dx ≡1,
i.e. on a
1 ≡

X
n
T(x)

∂θ
p(x; θ)dx =

X
n
T(x)
_

∂θ
ln p(x; θ)
_
p(x; θ)dx =

X
n
T(x)Λ(θ)p(x; θ)dx = E
θ
¦T(X)Λ(θ)¦, θ ∈ Θ,
où Λ(θ) est l’informant du vecteur d’observation X. Comme
E
θ
T ≡θ et E
θ
Λ(θ) ≡0
nous pouvons écrire que
E
θ
¦T(X)Λ(θ)¦ = E
θ
¦(T −θ)Λ¦ = Cov
θ
(T, Λ) ≡1, θ ∈ Θ,
et donc de cette identité et de l’inégalité de Cauchy-Schwarz-Bounjakovsky on tire que
1 ≡Cov
2
θ
(T, Λ) ≤Var
θ
T Var
θ
Λ = Var
θ
TI
n
(θ),
d’où on obtient l’inégalité (12), connue sous le nom d’inégalité de Rao-Cramer-Fréchet.
Remarque 4. Si T =T(X) est un estimateur sans biais de la fonction différentiable g(θ), θ ∈
Θ, alors on peut montrer que dans le cas régulier :
Var
θ
T ≥
[g
/
(θ)]
2
I
n
(θ)
, θ ∈ Θ. (13)
Par exemple, soit E
θ
T = g(θ) = θ+b(θ), i.e. b(θ) est le biais de l’estimateur T. Dans ce
cas de (13) on tire que
Var
θ
T ≥
[1+b
/
(θ)]
2
I
n
(θ)
.
Remarque 5. 1/I
n
(θ) n’est plus la borne inférieure de la variance d’un estimateur avec
biais.
Définition 2. Un estimateur sans biais T = T(X) du paramètre θ sera efficace si
Var
θ
T =
1
I
n
(θ)
. (14)
Un estimateur efficace est donc un estimateur sans biais pour lequel la borne inférieure de
l’inégalité de Rao-Cramer Fréchet est atteinte.
Remarque 6. En reprenant la remarque 4 on dira de la même façon que T est un estimateur
efficace de g(θ) si
Var
θ
T =
[g
/
(θ)]
2
I
n
(θ)
, θ ∈ Θ. (15)
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼ f (x
i
; p) = p
x
i
(1−p)
1−x
i
, p ∈]0, 1[, x
i
∈ X =¦0, 1¦,
71
i.e. X
i
suit une loi de Bernoulli de paramètre p. Dans ce cas la fonction de vraisemblance
est
L(p) =
n

i=1
f (X
i
; p) = p
n

i=1
X
i
(1−p)
n−
n

i=1
X
i
, p ∈]0, 1[
et donc
µ
n
=
n

i=1
X
i
est une statistique exhaustive pour p. Il est évident que la statistique µ
n
suit la loi binomiale
B(n, p). On sait que :

n
= np et Varµ
n
= np(1−p),
donc la statistique
ˆ p
n
=
¯
X
n
=
µ
n
n
est un estimateur sans biais pour p,
E ˆ p
n
= E
¯
X
n
= p et Var ˆ p
n
=
p(1−p)
n
, p ∈]0, 1[. (16)
Pour montrer que ˆ p
n
est le meilleur estimateur sans biais pour p, calculons la borne infé-
rieure dans l’inégalité de Rao-Cramer-Fréchet. Comme
lnL(p) = µ
n
ln p+(n−µ
n
)ln(1−p),
de (7) et (8) on déduit que
Λ(p) =

∂p
lnL(p) =
µ
n
p

n−µ
n
1−p
, (17)
d’où on tire que
I
n
(p) = EΛ
2
(p) =−E

∂p
Λ(p) =
n
p(1−p)
, p ∈]0, 1[, (18)
on voit donc que ˆ p
n
est un estimateur efficace, puisque
I
n
(p) =
1
Var ˆ p
n
. (19)
On va prouver maintenant qu’il y a un seul estimateur sans biais ˆ p
n
pour p, exprimé en
termes de la statistique exhaustive µ
n
, c’est-à-dire qu’on va montrer que µ
n
est une statis-
tique exhaustive complète.
Supposons qu’il existe un autre estimateur p

n
= p

n

n
) sans biais pour p,
E
p
p

n

n
) = p.
Dans ce cas δ(µ
n
) = ˆ p
n
−p

n
est un estimateur sans biais pour 0 :
E
p
δ(µ
n
) = E
p
( ˆ p
n
−p

n
) = 0, p ∈]0, 1[,
72
i.e.,
n

m=0
δ(m)
_
n
m
_
p
m
(1−p)
n−m
= 0, p ∈]0, 1[,
d’où on tire que δ(m) ≡0, m∈¦0, 1, ..., n¦, puisque le système des fonctions ¦1, t, t
2
, ..., t
n
, ...¦
forme une base complète. Puisque la statistique µ
n
est complète, on en déduit que ˆ p
n
est
unique, que c’est et donc le meilleur estimateur sans biais pour p et qu’il est efficace.
Supposons qu’il nous faille estimer p
2
. Comme
Varµ
n
= Eµ
2
n
−(Eµ
n
)
2
= np−np
2
,
on trouve que

2
= np+n
2
p
2
−np
2
,
et donc
E
µ
2
n
n(n−1)
=
p
n−1
+ p
2
.
Comme Eµ
n
= np, on obtient que la statistique
µ
n

n
−1)
n(n−1)
(20)
est le meilleur estimateur sans biais pour p
2
, puisqu’il est exprimé en termes de la statistique
exhaustive complète. De la même façon on peut montrer que
E
_
µ
n

n
−1) (µ
n
−k +1)
n(n−1) (n−k +1)
_
= p
k
pour tous les k = 1, 2, ..,n.
Example 2. Soit X = (X
1
, . . . , X
n
)
T
un échantillon,
X
i
∼ f (x
i
; θ) =
θ
x
i
x
i
!
e
−θ
, x
i
∈ X =¦0, 1, 2, . . .¦, θ > 0,
i.e. X
i
suit une loi de Poisson de paramètre θ.
Comme
L(θ) =
n

i=1
f (X
i
; θ) = e
−nθ
θ
n

i=1
X
i
_
n

i=1
X
i
_
−1
, θ > 0,
du critère de factorisation on déduit que la statistique
T =
n

i=1
X
i
est exhaustive pour θ, et comme la famille ¦ f (x; θ)¦ est complète, on en déduit que T est la
statistique exhaustive minimale.
On remarque que dans ce modèle la statistique
W(X) =
_
n

i=1
X
i
_
−1
73
est auxiliaire.
Il est facile de démontrer par des calculs directs que
P
θ
¦X = x[T =t¦, x = (x
1
, . . . , x
n
)
T
∈ X
n
,
ne dépend pas de θ. En effet :
P
θ
¦X = x[T =t¦ =
P
θ
¦X
1
= x
1
, . . . , X
n
= x
n
, T =t¦
P
θ
¦T =t¦
=
=
_
_
_
P
θ
¦X = x¦
P
θ
¦T =t¦
, si x ∈ X
t
,
0, sinon.
Soit x ∈ X
t
=¦x : ∑x
i
=t¦. Dans ce cas pour ∀t ∈ X
P
θ
¦X = x[T =t¦ =
P
θ
¦X = x¦
P
θ
¦T =t¦
=
θ
x
1
x
1
!
e
−θ

θ
x
n
x
n
!
e
−θ
(nθ)
t
t!
e
−nθ
=
=
t!
x
1
!x
2
! x
n
!
_
1
n
_
t
.
Donc, la loi conditionnelle de X, sachant T = t, est la loi multinomiale uniforme, qui ne
dépend pas de θ, quelle que soit la valeur observée t de la statistique exhaustive T =
n

i=1
X
i
.
On considère maintenant le problème de l’estimation du paramètre θ. Pour estimer θ on
appliquera la méthode du maximum de vraisemblance. Pour trouver
ˆ
θ
n
= arg
θ
maxL(θ),
il nous faut résoudre l’équation du maximum de vraisemblance Λ(θ) = 0, puisque
Λ(θ) =

∂θ
lnL(θ).
Comme
lnL(θ) =−nθ+T lnθ+lnW(X),
on doit résoudre l’équation
Λ(θ) =−n+
T
θ
= 0,
dont la solution
ˆ
θ
n
est
ˆ
θ
n
=
1
n
T =
1
n
n

i=1
X
i
=
¯
X
n
.
Comme T suit une loi de Poisson de paramètre nθ, on obtient immédiatement que
E
θ
ˆ
θ
n
= θ et Var
θ
ˆ
θ
n
=
θ
n
,
i.e. ¦
ˆ
θ
n
¦ est une suite consistante d’estimateurs sans biais du paramètre θ. On va montrer
que
ˆ
θ
n
est un estimateur efficace, c’est-à-dire qu’on a l’égalité :
Var
ˆ
θ
n
=
1
I
n
(θ)
.
74
En effet,
I
n
(θ) =−E
θ

∂θ
Λ(θ),
et comme

∂θ
Λ(θ) =−
T
θ
2
,
on trouve que l’information de Fisher sur θ dans X est égale à
I
n
(θ) =−E
θ

∂θ
Λ(θ) =
1
θ
2
E
θ
T =
n
θ
,
d’où on tire que
Var
ˆ
θ
n
=
1
I
n
(θ)
=
θ
n
,
et donc
ˆ
θ
n
est un estimateur efficace pour θ. Comme la famille des densités
_
θ
x
x!
e
−θ
, θ > 0
_
est complète, on en déduit que
ˆ
θ
n
est un estimateur sans biais unique dans la classe des
estimateurs sans biais, exprimés en termes de la statistique exhaustive T et
ˆ
θ
n
est donc le
meilleur estimateur sans biais pour θ.
Remarque 7. Soit X= (X
1
, ..., X
n
)
T
un vecteur aléatoire ayant une distribution discrète dans
R
n
. Notons X =¦x = (x
1
, ..., x
n
)
T
¦ l’espace des réalisations de X dans R
n
, c’est-à-dire que ;
P¦X = x¦ = p
X
(x) = p(x) > 0, ∀x ∈ X ⊂R
n
et

x∈X
P¦X = x¦ = P¦X ∈ X¦ = 1,
où X est fini ou infini dénombrable, puisque X suit une loi discrète.
Soit T = T(X) une statistique arbitraire, T(x) : X →τ, où τ = ¦t¦ est l’espace des
réalisations de T,
P¦T = t¦ > 0 pour ∀t ∈ τ.
Pour toute valeur possible t de la statistique T, t ∈ τ, on détermine son orbite X
t
dans X :
X
t
=¦x : T(x) = t, x ∈ X¦.
Il est évident que ¦X
t
¦ est une partition de X :

t∈τ
X
t
=X et X
t

X
t
/ ,= 0, t, t
/
∈ τ, t ,= t
/
. (21)
La loi conditionnelle de X sachant que T=t est l’ensemble des probabilités conditionnelles
¦p(x [ t)¦ étant donné t fixé :
p(x [ t) = P¦X = x [ T(X) = t¦ =
_
_
_
P¦X=x,T(X)=t¦
P¦T(X)=t¦
=
p(x)

x∈X
t
p(x)
, si x ∈ X
t
,
0, sinon ,
(22)
75
puisque
P¦X = x, T = t¦ =
_
P¦X = x¦ = p(x), si x ∈ X
t
,
0, sinon .
La famille des probabilités (22) est finie ou infinie dénombrable, et on choisit t dans (22)
de façon que P¦T = t¦ > 0, i.e. t ∈ τ.
Soit U = U(X) une autre statistique, U(x) : X →U, telle que EU existe. D’après la
définition :
EU = EU(X) =

x∈X
U(x)p(x). (23)
On détermine l’espérence conditionnelle E¦U [ T = t¦ sachant que T = t en termes de la
distribution conditionnelle (22) :
E¦U [ T = t¦ =

x∈X
t
U(x)p(x [ t) =

x∈X
t
U(x)p(x)

x∈X
t
p(x)
. (24)
Nous pouvons considerer E¦U[ T=t¦ comme une réalisation de la variable aléatoire E¦U[
T¦ quand T = t. Il est facile de prouver que
E¦E¦U [ T¦¦ = EU.
De (21) et (24) il suit que
E¦E¦U [ T¦¦ =

t∈τ
E¦U [ T = t¦P¦T = t¦ =

t∈τ
E¦U [ T = t¦

x∈X
t
p(x) =

t∈τ

x∈X
t
U(x)p(x) =

x∈X
U(x)p(x) = EU,
puisque ¦X
t
¦ est une partition de X. On a donc montré que
E¦E¦U [ T¦¦ = EU, (25)
et par conséquent pour calculer EUon peut tout d’abord calculer E¦U[ T=t¦ puis E¦E¦U[
T¦¦.
Soit X un vecteur aléatoire, X ∈ R
n
, X ∼ F, F ∈ F , où F = ¦F¦ est une famille de
fonctions de répartitions dans R
n
. Soient ψ = ψ(X) et ϕ = ϕ(X) deux statistiques, ψ :
R
n
→R
k
, ϕ : R
n
→R
k
, telles que
Eψ, Eϕ, Eψψ
T
, Eϕϕ
T
existent.
Considérons la statistique
ΨΨΨ = ΨΨΨ(ϕ) = E¦ψ[ϕ¦, ΨΨΨ∈ R
k
.
76
Il est évident que
EΨΨΨ = E¦E¦ψ[ϕ¦¦ = Eψ,
ce qui signifie que ΨΨΨ est un estimateur sans biais de Eψ.
Théorème 1 (Rao-Blackwell-Kolmogorov)
Pour tout z ∈ R
k
z
T
E¦(ΨΨΨ−Eψ)(ΨΨΨ−Eψ)
T
¦z ≤z
T
E¦(ψ−Eψ)(ψ−Eψ)
T
¦z. (26)
Démonstration. Notons
∆ = [ψ−ΨΨΨ]
T
z = [(ψ−Eψ) −(ΨΨΨ−Eψ)]
T
z.
Puisque E∆ = 0, nous obtenons
Var∆ = E∆
2
= E∆
T
∆ ≥0. (27)
Mais

2
= ∆
T
∆ = z
T
¦(ψ−Eψ)(ψ−Eψ)
T
−(ψ−Eψ)(ΨΨΨ−Eψ)
T

−(ΨΨΨ−Eψ)(ψ−Eψ)
T
+(ΨΨΨ−Eψ)(ΨΨΨ−Eψ)
T
¦z,
et par suite de (27), on peut tirer que
0 ≤E∆
2
= z
T
(Varψ)z −z
T
Cov(ψ, ΨΨΨ)z−
−z
T
Cov(ΨΨΨ, ψ)z +z
T
(VarΨΨΨ)z.
(28)
Puisque
Cov(ψ, ΨΨΨ) = E¦(ψ−Eψ)(ΨΨΨ−Eψ)
T
¦ =
= E¦E¦(ψ−Eψ)(ΨΨΨ−Eψ)
T
[ϕ¦¦ = E¦E¦(ψ−Eψ)[ϕ¦(ΨΨΨ−Eψ)
T
¦ =
= E¦(ΨΨΨ−Eψ)(ΨΨΨ−Eψ)
T
¦ = VarΨΨΨ, (29)
alors de (27), (28) et (29) on déduit que
0 ≤E∆
2
= z
T
(Varψ)z −z
T
(VarΨΨΨ)z,
ce qu’il nous fallait démontrer.
Remarque 8. Si ψ = ψ(X) est un estimateur sans biais d’une fonctionnelle g(F), F ∈ F ,
alors
ΨΨΨ = E¦ψ[ϕ¦
est aussi un estimateur sans biais pour g(F), dont le risque quadratique n’est pas plus grand
que celui de ψ. Ce théorème est très intéressant lorsque ϕ est une statistique exhaustive.
Exemple 1. Soit X = (X
1
, . . . , X
n
)
T
un échantillon,
X ∼ p(x; θ), θ ∈ ΘΘΘ⊂R
m
.
Supposons qu’il existe une statistique exhaustive
T = T(X), T : R
n
→R
k
, m ≤k ≤n,
77
dont la densité est g(t; θ), t ∈ R
k
. Notons q(x, t; θ) la densité conjointe de X et T, p(x [ t)
la densité conditionnelle de X sachant T = t. Dans ce cas pour tout x fixé, x ∈ R
n
, p(x[T)
est un estimateur sans biais pour p(x; θ). En effet,
Ep(x[T) =

R
k
p(x[t)g(t; θ)dt =

R
k
q(x, t; θ)dt = p(x; θ).
2.7 Méthode des moments.
La fonction de répartition F
n
(x) de la loi empirique associée à un échantillon X =
(X
1
, ..., X
n
)
T
est un bon estimateur de la fonction de répartition F(x) :
EF
n
(x) = F(x) = P¦X
i
≤x¦, x ∈ R
1
,
et pour tout ε > 0
P¦[ F
n
(x) −F(x) [> ε¦ →0, x ∈ R
1
lorsque n →∞ quel que soit x fixé. En pratique cela signifie que F
n
(x) ≈ F(x) pour tout x
fixé, quand n est assez grand.
Il est donc naturel de choisir les moments
α
m
=
1
n
n

i=1
X
m
i
=
+∞

−∞
x
m
dF
n
(x)
de la loi empirique F
n
comme estimateurs des moments
a
m
= EX
m
=
+∞

−∞
x
m
dF(x)
de la loi F, puisque α
m
≈a
m
, si F
n
(x) ≈F(x).
Supposons que la fonction de répartition
F(x; θ) = P
θ
¦X
i
≤x¦, [ x [< ∞
dépende d’un paramètre inconnu
θ = (θ
1
, ..., θ
s
)
T
∈ Θ ⊂R
s
et qu’existent les moments
a
r
(θ) =
+∞

−∞
x
r
dF(x; θ), r = 1, 2, ..., s.
On cherche un estimateur du paramètre θ = (θ
1
, ..., θ
s
)
T
en résolvant le système d’équa-
tions :
a
m
(θ) = α
m
, (m = 1, 2, ..., s) (1)
78
par rapport à θ
1
, ..., θ
s
. La solution
˜
θ
n
= (
˜
θ
1
, ...,
˜
θ
n
)
T
de cette équation,
˜
θ
1
=
˜
θ
1

1
, ..., α
s
),

˜
θ
s
=
˜
θ
s

1
, ..., α
s
),
s’appelle l’estimateur par la méthode des moments de θ.
Si les fonctions (1) déterminent une application bijective, leurs dérivées partielles existent
et sont continues et les moments a
k
(θ) (k = 1, 2, ..., 2s) existent ; donc les estimateurs ob-
tenus par la méthode des moments sont cohérents et de distributions asymptotiquement nor-
males. Des propriétés asymptotiques d’estimateurs, obtenus par la mèthode des moments,
serons considérées dans le chapitre III.
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon lognormalle LN(µ, σ
2
),
X
i
∼ p(x; µ, σ
2
) =
1



e

1

2
(lnx−µ)
2
1
]0,∞[
(x), µ ∈ R
1
, σ
2
> 0.
Remarqons que lnX
i
suit une loi normale N(µ, σ
2
). On peut montrer que
a
1
= EX
1
= e
µ+σ
2
/2
, a
2
= EX
2
1
= e
2µ+2σ
2
.
D’après la méthode des moments pour estimer µ et σ
2
il faut résoudre le système
_
e
µ+σ
2
/2
=
¯
X
n
= α
1
,
e
2µ+2σ
2
=
1
n

n
i=1
X
2
i
= α
2
,
ce qui est équivalent à
_
µ+σ
2
/2 = lnα
1
,
µ+2σ
2
= lnα
2
,
d’où on trouve les estimateurs ˜ σ
2
n
et ˜ µ
n
:
˜ σ
2
n
= lnα
2
−lnα
2
1
= ln
_
s
2
n
¯
X
2
n
+1
_
, ˜ µ
n
= ln
¯
X
2
n
_
s
2
n
+
¯
X
2
n
,

s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
est la variance de la loi empirique.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼ p(x; θ) =
1
θ
_
2
π
exp¦−
x
2

2
¦1
]0,∞[
(x), x ∈ R
1
, θ ∈ Θ =]0, ∞[.
On peut montrer que
EX
1
= θ
_
2
π
, EX
2
1
= θ
2
, VarX
2
1
= θ
2
π−2
π
.
Pour estimer θ par la méthode des moments on considère l’équation
θ
_
2
π
=
¯
X
n
,
79
d’où on obtient l’estimateur
˜
θ
n
=
_
π
2
¯
X
n
.
Il est claire que E
˜
θ
n
= θ, i.e.
˜
θ
n
est un estimateur sans biais pour θ, et comme
Var
¯
X
n
=
θ
2
n
_
1−
2
π
_
,
on en tire que
Var
˜
θ
n
=
π
2
Var
¯
X
n
=
θ
2
n
_
π
2
−1
_
=
θ
2
n
π−2
2
=
π−2
I
n
(θ)
>
1
I
n
(θ)
,

I
n
(θ) =
2n
θ
2
=−nE

2
∂θ
2
ln p(X
1
; θ) = nE
_
3
θ
4
X
2
1

1
θ
2
_
=
2n
θ
2
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur
˜
θ
n
n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires

n(
˜
θ
n
−θ)
θ
_
π−2
2
=

n(
¯
X
n

_
2
π
θ)
θ
_
1−
2
π
, n = 1, 2, ...
est asymptotiquement normale N(0, 1), quand n →∞, i.e. pour les grandes valeurs de n
P
_
_
_

n(
˜
θ
n
−θ)
θ
_
π−2
π
≤x
_
_
_
≈Φ(x), x ∈ R
1
.
Du théorème de Slutsky on tire que les variables aléatoires

n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
sont asymptotiquement normales N(0, 1) aussi, i.e.
P
_
_
_

n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
≤x
_
_
_
≈Φ(x), x ∈ R
1
,
si les valeurs de n sont assez grandes.
Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
P
_
_
_
−¯ x
α/2


n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
≤ ¯ x
α/2
_
_
_
≈1−α,
80
où ¯ x
α/2
est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
P
_
−¯ x
α/2
_
π−2
2n

_
1−
θ
˜
θ
n
_
≤ ¯ x
α/2
_
π−2
2n
_
≈1−α
et donc
P
_
˜
θ
n
_
1− ¯ x
α/2
_
π−2
2n
_
≤θ ≤
˜
θ
n
_
1+ ¯ x
α/2
_
π−2
2n
__
≈1−α,
si n est assez grand.
2.8 Méthode des moindres carrés. Modèle de Gauss de la
théorie des erreurs.
Supposons qu’on cherche à mesurer une constante µ ; pour cela on fait n mesures di-
rectes x
1
, x
2
, . . . , x
n
de µ, indépendantes les unes des autres, de même précision, sans erreur
systématique. De chaque résultat d’expérience on tire que
µ

= x
i
, i = 1, 2, . . . , n. (1)
On obtient un système de n équations, qui sont en général incompatibles si les x
i
ne sont
pas tous égaux. Pour cette raison il est logique de traiter x
i
−µ comme une erreur, commise
au cours de la i-ème mesure de µ, et x−µ1
n
comme le vecteur des erreurs que l’on a fait au
cours des n expériences organisées pour déterminer µ ; donc
|x−µ1
n
|
2
= (x−µ1
n
)
T
(x−µ1
n
) =
n

i=1
(x
i
−µ)
2
(2)
repésente le carré de la longueur du vecteur des erreurs x−µ1
n
.
Compte tenu du fait que toutes les mesures sont faites dans les mêmes conditions, et que par
suite les n équations ont toutes la même validité pour l’expérimentateur, Legendre a posé le
problème de la détermination d’une valeur µ

, µ

∈R
1
, qui est meilleure que chaque résultat
individuel x
i
et en même temps est en meilleur accord, dans un certain sens avec tous les x
i
,
c’est-à-dire, avec le système d’équations (1) qui représente les résultats d’expériences de
mesures du paramètre µ.
Pour déterminer µ

, Legendre a proposé le principe des moindres carrés, d’après lequel
la valeur de µ, la plus en accord avec l’expérience est donnée par la valeur µ

, qui minimise
|x−µ1
n
|
2
, le carré de la longueur du vecteur des erreurs (x−µ1
n
) , i.e.
(x−µ

1
n
)
T
(x−µ

1
n
) = min
µ∈R
1
(x−µ1
n
)
T
(x−µ1
n
). (3)
Ceci justifie le nom de la méthode, que l’on appelle la méthode des moindres carrés. Par
tradition on dit aussi que µ

est un estimateur des moindres carrés pour µ.
Plus tard Gauss a donné une justification logique de la méthode des moindres carrés,
en utilisant un modèle classique d’erreurs de mesures, qui est connu aujourd’hui sous le
81
nom de modèle de Gauss. D’après ce modèle le résultat x
i
de la i-ème mesure représente la
réalisation de la variable aléatoire
X
i
= µ+δ
i
, i = 1, . . . , n, (4)
où δ
i
est l’erreur aléatoire de la i-ème mesure,
δ
i
∈ N(0, σ
2
), (5)
puisque Eδ
i
= 0 par convention (absence d’erreur systématique) et σ
2
= Varδ
i
> 0 est une
constante ne dépendant pas de i, car chaque mesure a été faite avec la même précision.
Gauss a proposé de considérer chaque δ
i
comme une variable aléatoire de loi normale ; en
effet selon la théorie des erreurs, développée par Gauss, toute erreur δ
i
représente la somme
d’un grand nombre de petites erreurs , qu’on peut supposer indépendantes ; par suite, on
peut supposer que leur somme est normale, ce qui peut s’expliquer dans le cadre du théo-
rème limite central. De plus on a l’indépendance des mesures, d’où on déduit que dans
le modèle de Gauss on peut supposer que δ
1
, . . . , δ
n
sont des variables aléatoires indépen-
dantes, et donc que X= (X
1
, . . . , X
n
)
T
est un échantillon normal ; cela signifie que X
1
, . . . , X
n
sont des variables aléatoires indépendantes qui suivent la même loi normale de paramètres
µ et σ
2
:
X
i
∈ N(µ, σ
2
), i = 1, . . . , n; (6)
donc dans le cadre de ce modèle le résultat de l’expérience x = (x
1
, . . . , x
n
)
T
est une réa-
lisation d’un vecteur aléatoire X, de loi normale de dimension n et de paramètres µ1
n
et
σ
2
I
n
, X ∼N
n
(µ1
n
, σ
2
I
n
),
EX = µ1
n
et VarX = E(X−µ1
n
)(X−µ1
n
)
T
= σ
2
I
n
, (7)
où σ
2
est une constante positive, qui exprime la précision des mesures. Nous supposerons
d’abord que σ
2
est connu.
Dans le modèle de Gauss le vecteur des observations X peut se représenté comme la
somme
X = µ1
n
+δ, (8)
d’un terme déterministe, mais inconnu, et d’un terme aléatoire
δ = (δ
1
, . . . , δ
n
)
T
=X−µ1
n
, (9)
qui suit la loi normale de dimension n et de paramètres
Eδ = 0
n
= (0, . . . , 0)
T
et Eδδ
T
= σ
2
I
n
, (10)
et ce vecteur δ est le vecteur des erreurs aléatoires. Le problème principal dans la théo-
rie des erreurs, élaborée par Gauss, est la construction du meilleur (en un sens à préciser)
estimateur de µ en utilisant la réalisation x du vecteur des observations X. Pour trouver ce
meilleur estimateur pour µ, Gauss a proposé d’utiliser la méthode du maximum de vraisem-
blance, d’après laquelle la valeur qui rend maximum la fonction de vraisemblance L(µ),
liée au vecteur des observations X, est l’estimateur du paramètre inconnu µ. D’après le mo-
dèle que l’on a choisi, le vecteur X suit une loi normale de dimension n et de paramètres
(7) ; donc la fonction de vraisemblance L(µ) est donnée par la formule
82
L(µ) = (σ

2π)
−n
exp
_

1

2
(X−µ1
n
)
T
(X−µ1
n
)
_
=
= (σ

2π)
−n
exp
_

1

2
δ
T
δ
_
= (σ

2π)
−n
exp
_

1
2
χ
2
n
_
, µ ∈ R
1
, (11)
car
δ
T
δ = σ
2
χ
2
n
. (12)
On remarque ici que maximiser la fonction de vraisemblance L(µ), µ ∈ R
1
, revient à
minimiser la fonction (X−µ1
n
)
T
(X−µ1
n
) qui représente la fonction de la formule (2),
mais en d’autres termes, en termes d’observations. C’est-à-dire que dans ce cas la méthode
de Legendre et la méthode de Gauss sont équivalentes. Donc L(µ), µ ∈ R
1
, atteint son
maximum, X étant donné, pour le point µ

, qui rend minimum la forme quadratique
(X−µ1
n
)
T
(X−µ1
n
) = δ
T
δ,
i.e. l’estimateur statistique µ

est la solution du problème extrêmal :
(X−µ

1
n
)
T
(X−µ

1
n
) = min
µ∈R
1
(X−µ1
n
)
T
(X−µ1
n
), (13)
obtenue pour la valeur µ = µ

, qui vérifie l’équation
(1
T
n
1
n
)µ = 1
T
n
X, (14)
d’où on tire que
µ

=
¯
X
n
=
1
n
(X
1
+X
2
+. . . +X
n
) =
1
n
1
T
n
X. (15)
L’estimateur statistique µ

=
¯
X
n
s’appelle l’estimateur des moindres carrés ou estima-
teur de Gauss pour µ. On remarque que
L(µ) = (σ

2π)
−n
exp¦−
n

2
_
(
¯
X
n
−µ)
2
+
1
n
n

i=1
(X
i

¯
X
n
)
2
_
¦ =
exp¦−
n
σ
2
(
¯
X
n
−µ)
2
¦W(X);
donc
¯
X
n
est une statistique exhaustive pour µ. Comme
¯
X
n
∈ R
1
et µ ∈ R
1
, la statistique
exhaustive
¯
X
n
est minimale. De (6) et (7) il suit que
¯
X
n
suit la loi normale N(µ, σ
2
/n) de
paramètres
E
¯
X
n
= µ et Var
¯
X
n
= E(
¯
X
n
−µ)
2
=
σ
n
2
. (16)
Puisque la famille des loi normale N(µ, σ
2
) est complète, on en tire que
¯
X
n
est une statistique
exhaustive minimale et complète.
¯
X
n
est un estimateur efficace pour µ.
Souvent la variance σ
2
est elle aussi inconnue ; dans ce cas outre l’estimateur
¯
X
n
pour µ
il est très important d’obtenir un estimateur statistique pour σ
2
. Notons
θ = (µ, σ
2
)
T
, θ ∈ ΘΘΘ =¦θ :[ µ [< ∞, σ
2
> 0¦ ⊂R
2
.
83
Pour estimer θ on considère la statistique
∆ =X−µ

1
n
= (X−
¯
X
n
1
n
) = (X−µ1
n
) +(µ−µ

)1
n
= δ+(µ−µ

)1
n
, (17)
qui s’appelle le vecteur des erreurs apparentes. Il est évident que la statistique ∆ suit la loi
normale N
n
(0
n
, σ
2
D
n
), qui est dégénérée et où
D
n
= I
n

1
n
1
n
1
T
n
, (18)
avec I
n
, matrice identité d’ordre n. On remarque que D
n
est une matrice idempotente,
puisque
rangD
n
= n−1 et D
T
n
D
n
= D
n
D
T
n
= D
n
. (19)
De (9) et (17) on tire l’égalité
δ = (µ

−µ)1
n
+∆, (20)
que l’on appelle la décomposition orthogonale du vecteur des erreurs aléatoires δ en termes
de µ

et ∆. On remarque que
δ
T
δ = ∆
T
∆+(µ

−µ)1
T
n
1
n


−µ) = ∆
T
∆+n(
¯
X
n
−µ)
2
=
=
n

i=1
(X
i

¯
X
n
)
2
+n(
¯
X
n
−µ)
2
= n[s
2
n
+(
¯
X
n
−µ)
2
], (21)
où la statistique s
2
n
est déterminée par la formule
s
2
n
=
1
n
X
T
D
n
X =
1
n
n

i=1
(X
i

¯
X
n
)
2
. (22)
Comme θ = (µ, σ
2
)
T
, il vaut mieux écrire que la fonction de vraisemblance de X est L(θ) =
L(µ, σ
2
). En utilisant (11),(13), (21) et (22), nous pouvons présenter L(µ, σ
2
) en termes des
statistiques s
2
n
et
¯
X
n
par la formule suivante
L(X; µ, σ
2
) = (σ

2π)
−n
exp
_

1

2
δ
T
δ
_
=
= (σ

2π)
−n
exp
_

n

2
[s
2
n
+(
¯
X
n
−µ)
2
]
_
, (23)
d’où on tire que la statistique T =
_
¯
X
n
, s
2
n
_
T
est exhaustive. On peut montrer que T est
minimale et complète.
Pour étudier les propriétés de T on considère, par exemple, la transformation linéaire
Y = CX de Helmert, déterminée par la matrice orthogonale C,
C
T
C = CC
T
= I
n
, C
T
= C
−1
,
C =
_
_
_
_
_
_
_
_
_
_
_
_
_
1

12
−1

12
0 0 0 0
1

23
1

23
−2

23
0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1

(n−1)n
1

(n−1)n
1

(n−1)n
1

(n−1)n

1

(n−1)n
−(n−1)

(n−1)n
1

n
1

n
1

n
1

n

1

n
1

n
_
_
_
_
_
_
_
_
_
_
_
_
_
.
84
D’après cette transformation Y = (Y
1
, ...,Y
n
)
T
, où
Y
1
=
1

12
(X
1
−X
2
),
Y
2
=
1

23
(X
1
+X
2
−2X
3
),
.
.
.
Y
n−1
=
1

(n−1)n
(X
1
+X
2
+... +X
n−1
−(n−1)X
n
),
Y
n
=
1

n
(X
1
+X
2
+... +X
n
) =

n
¯
X
n
,
et comme C est orthogonale on a
n

i=1
X
2
i
=
n

i=1
Y
2
i
; (24)
la fonction de vraisemblance de Y est donc donnée par la formule :
L(Y; µ, σ
2
) =
_
σ


_
−n
exp¦−
1

2
_
n−1

i=1
Y
2
i
+(Y
n
−µ

n)
2
_
¦ =
1
σ


exp¦−
1

2
_
Y
n
−µ

n
_
2
¦
_
1
σ


_
n−1
n−1

i=1
exp¦−
1

2
Y
2
i
¦,
puisque
p
Y
(y) = p
X
(C
−1
y)[ det C
−1
[ = p
X
(C
−1
y) =
=
1
(

2πσ)
n
exp
_

1

2
(C
T
y−µ1
n
)
T
(C
T
y−µ1
n
)
_
=
=
1
(

2πσ)
n
exp
_

1

2
(|y|
2
−2µy
n

n+nµ
2
)
_
=
=
1
(

2πσ)
n
exp
_

1

2
_
n−1

i=1
y
2
i
+(y
n
−µ

n)
2
__
,
C1
n
= (0, ..., 0,

n)
T
et µy
T
C1
n
= µy
n

n,
d’où on tire que Y
1
,Y
2
, ...,Y
n
sont indépendantes et
Y
i
∼N(0, σ
2
), i = 1, ..., n−1; (25)
Y
n
∼N(µ

n, σ
2
). (26)
Notons que de (24) il suit que
ns
2
n
=
n

i=1
(X
i

¯
X
n
)
2
=
n−1

i=1
Y
2
i
,
donc s
2
n
ne dépend pas de Y
n
=

n
¯
X
n
, et par conséquent, s
2
n
et
¯
X
n
sont indépendantes. En
plus , de (24), (25) et (26) on tire que
¯
X
n
∼N(µ,
σ
2
n
) et
ns
2
n
σ
2
= χ
2
n−1
, (27)
85
donc que la statistique s
2
n
est distribuée comme σ
2
χ
2
n−1
/n, où χ
2
f
est une variable aléatoire
qui suit la loi du chi-deux à f dégrés de liberté, f > 0, i.e. pour tout x ≥0
P¦χ
2
f
≤x¦ =
2
−f /2
Γ
_
f
2
_
x

0
t
f
2
−1
e
−t/2
dt.
Comme

2
f
= f et Varχ
2
f
= 2f , (28)
de (27) et (28) on tire que
Es
2
n
= σ
2
_
1−
1
n
_
et Vars
2
n
=

4
(n−1)
n
2
. (29)
On peut vérifier que dans notre problème l’estimateur de maximum de vraisemblance
ˆ
θ
n
pour θ est
ˆ
θ
n
= T = (
¯
X
n
, s
2
n
)
T
.
En effet, on a
lnL(X; µ, σ
2
) =−nln

2π−
n
2
lnσ
2

n

2
s
2
n

n

2
(
¯
X
n
−µ)
2
,
∂lnL
∂µ
=
n
σ
2
(
¯
X
n
) −µ) et
∂lnL
∂σ
2
=−
n

2
+
ns
2
n

4
+
n

4
(
¯
X
n
−µ)
2
,
donc pour trouver ˆ µ
n
et ˆ σ
2
n
, il faut résoudre le système
_
∂lnL
∂µ
= 0,
∂lnL
∂σ
2
= 0.
De la première équation du système on tire que
ˆ µ
n
=
¯
X
n
,
et de la deuxième on tire que
ˆ σ
2
n
= s
2
n
,
d’où on obtient que
ˆ
θ
n
= (
¯
X
n
, s
2
n
)
T
est l’estimateur de maximum de vraisemblance pour
θ = (µ, σ
2
)
T
.
D’un autre côté comme de (29) on tire que
S
2
n
=
n
n−1
s
2
n
=
1
n−1
n

i=1
(X
i

¯
X
n
)
2
(30)
est un estimateur sans biais pour σ
2
.
On peut montrer que la statistique
˜
θ
n
= (
¯
X
n
, S
2
n
)
T
est le meilleur estimateur sans biais
(au sens de minimum de variance) pour θ = (µ, σ
2
)
T
.
2.9 Régions, intervalles, limites de confiance.
Dans ce paragraph nous allons suivre les articles de Bolshev (1965) et de Bagdona-
viˇ cius, Nikoulina & Nikulin (1997).
86
Soit X = (X
1
, . . . , X
n
)
T
un échantillon, dont les réalisations x = (x
1
, . . . , x
n
)
T
appar-
tiennent à X ⊆R
n
, x ∈ X ⊆R
n
,
H
0
: X
i
∼ f (x; θ), θ = (θ
1
, . . . , θ
k
)
T
∈ ΘΘΘ⊆R
k
.
On s’intéresse à un problème d’estimation de la vraie valeur b = b(θ) d’une fonction b() :
ΘΘΘ⇒B ⊆R
m
au point θ, θ ∈ ΘΘΘ. Notons B
0
l’intérieur de B.
Définition 1. On appelle région de confiance pour b = b(θ) de coefficient de confiance
γ (0.5 < γ < 1) ou γ-région de confiance tout court, un ensemble aléatoire C(X), C(X) ⊆
B ⊆R
m
, tel que
inf
θ∈ΘΘΘ
P
θ
¦C(X) ÷ b(θ)¦ = γ.
De cette définition on tire
P
θ
¦C(X) ÷ b(θ)¦ ≥γ,
pour tous θ ∈ ΘΘΘ.
Dans le cas où b(θ) ∈ B ⊆R
1
la région de confiance est souvent un intérvalle dans R
1
,
C(X) =]b
i
(X), b
s
(X)[ ⊆B ⊆R
1
,
et on parle de l’intervalle de confiance du coefficient de confiance γ pour b, si
inf
θ∈ΘΘΘ
P
θ
¦b
i
(X) < b < b
s
(X)¦ = γ.
Il est évident que
P
θ
¦b
i
(X) < b < b
s
(X)¦ ≥γ
pour tous θ ∈ ΘΘΘ. Les statistiques b
i
(X) et b
s
(X) sont appelées les limites de l’intervalle de
confiance C(X). On remarque que
P
θ
¦b
i
(X) ≤b
s
(X)¦ = 1.
Remarque 1. Supposons qu’on prenne un grand nombre d’échantillons X
1
, . . . , X
N
et que
chaque fois on construise un intervalle de confiance ]b
i
(X
i
), b
s
(X
i
)[ du coefficient de confiance
γ. Soit ]b
i
(x
i
), b
s
(x
i
)[ une réalisation de ]b
i
(X
i
), b
s
(X
i
)[; i = 1, . . . , N. Dans ce cas la vraie
valeur b sera recouverte par ces intervalles ]b
i
(x
i
), b
s
(x
i
)[ au moins dans 100γ% des cas.
Souvent on prend γ ≥0.9.
Definition 2. Une statistique b
i
(X)(b
s
(X)) est appelée la limite inférieure (supérieure) de
confiance pour b = b(θ) de coefficient de confiance γ
1

2
), si
inf
θ∈ΘΘΘ
P
θ
¦b
i
(X) < b¦ = γ
1
_
inf
θ∈ΘΘΘ
P
θ
¦b
s
(X) > b¦ = γ
2
_
, 0.5 < γ
j
< 1.
Les statistiques b
i
(X) et b
s
(X) sont appelées aussi γ
1
- limite inférieure et γ
2
- limite su-
périeure tout court. Si les coefficients de confiance de b
i
(X) et b
s
(X) sont égaux à γ
1
et
γ
2
respectivement, dans ce cas ]b
i
(X), b
s
(X)[ est l’intervalle de confiance du coefficient de
confiance
γ = γ
1
−(1−γ
2
) = γ
1

2
−1
87
pour la vraie valeur de b = b(θ).
Définition 3. Les intervalles
]b
i
(X), +∞[ et ] −∞, b
s
(X)[
sont appelés intervalles de confiance supérieur et inférieur pour b. Tous les deux sont des
intervalles unilatéraux.
2.10 Méthode de Bolshev de construction des limites de
confiance.
Lemme (Bolshev (1965)) Soit G(t) la fonction de répartition d’une variable aléatoire T.
Dans ce cas pour tout z ∈ [0, 1]
P¦G(T) ≤z¦ ≤z ≤P¦G(T −0) < z¦. (1)
Si T est continue, alors
P¦G(T) ≤z¦ = z, 0 ≤z ≤1.
Démonstration. On va d’abord montrer que
P¦G(T) ≤z¦ ≤z, 0 ≤z ≤1. (2)
Si z = 1, on a P¦G(T) ≤1¦ ≤1. Fixons z ∈ [0, 1) et pour cette valeur de z on considère les
situations différentes.
1) Il existe une solution y de l’équation G(y) = z. Notons
y
0
= sup¦y : G(y) = z¦.
On peut avoir :
a)G(y
0
) = z. Dans ce cas on a
P¦G(T) ≤z¦ ≤P¦T ≤y
0
¦ = G(y
0
) = z.
b) G(y
0
) > z. Dans ce cas on a
P¦G(T) ≤z¦ ≤P¦T < y
0
¦ = G(y
0
−0) ≤z.
2) Il n’existe pas de solution pour l’equation G(y) = z. Mais dans ce cas il existe y tel que
G(y) > z et G(y −0) < z,
d’où on tire que
P¦G(T) ≤z¦ ≤P¦T < y¦ = G(y −0) < z.
Donc l’inégalité (2) est démontrée.
Démontrons maintenant la seconde inégalité dans (1) :
88
z ≤P¦G(T −0) < z¦, 0 ≤z ≤1. (3)
Considérons la satistique −T. Sa fonction de répartition est
G

(y) = P¦−T ≤y¦ = P¦T ≥−y¦ = 1−G(−y −0¦.
Appliquons l’inégalité (2) en remplaçant
T, z, G par −T, 1−z et G

respectivement :
P¦G

(−T) ≤1−z¦ ≤1−z, 0 ≤z ≤1,
d’où on obtient que
P¦1−G(T −0) ≤1−z¦ ≤1−z,
P¦G(T −0) ≥z¦ ≤1−z,
P¦G(T −0) < z¦ ≥z, 0 ≤z ≤1.
Si T est continue, dans ce cas G(t −0) = G(t), et donc (2) et (3) nous donnent P¦G(T) ≤
z¦ = z pour tout z ∈ [0, 1].
Le Lemme de Bolshev est démontré.
Théoreme. Supposons que l’on ait une variable aléatoire T = T(X, b), b ∈ B, telle que sa
fonction de répartition
G(t, b) = P
θ
¦T ≤t¦
ne dépende que de b pour tous t ∈ R et que les fonctions
I(b, x) = G(T(x, b) −0, b) et S(b, x) = G(T(x, b), b)
soient décroissantes et continues par rapport à b pour tout x fixé, x ∈ X. Dans ce cas 1) la
statistique b
i
(X),
b
i
= b
i
(X) = sup¦b : I(b, X) ≥γ, b ∈ B¦, si le supremum existe,
sinon
b
i
= b
i
(X) = inf B
est la limite inférieure de confiance pour b ∈ B
0
du coefficient de confiance supérieur où
égal à γ ;
2) la statistique b
s
(X) est une limite supérieure de confiance pour b ∈ B
0
du coefficient de
confiance supérieur où égale à γ :
b
s
= b
s
(X) = inf ¦b : S(b, X) ≤1−γ, b ∈ B¦, si le infimum existe,
sinon
b
s
= b
s
(X) = supB,
89
3) si x, x ∈ X, est telle que les fonctions I(b, x) et S(b, x) sont strictement décroissantes par
rapport à b, alors b
i
(x) et b
s
(x) sont les racines des équations
I(b
i
(x), x) = γ et S(b
s
(x), x) = 1−γ.
Démonstration. Notons D = D(X) l’événement suivant
D =¦il existe btel que I(b, X) ≥γ¦.
Alors pour la vrai valeur b ∈ B
0
on a
P¦b
i
< b¦ = P¦(b
i
< b)

D¦+P¦(b
i
< b)

¯
D¦ =
P¦((supb

: I(b

, X) ≥γ, b

∈ B) < b)

D¦+P
_
(inf B < b)

¯
D
_
=
= P¦(I(b, X) < γ)

D¦+P¦
¯
D¦ ≥P¦(I(b, X) < γ)

D¦+P¦(I(b, X) < γ)

¯
D¦ =
= P¦I(b, X) < γ¦ ≥γ,
d’après le Lemme de Bolshev. Le théorème est démontré.
Remarque 1. Si θ est unidimensionnel, les variables al’eatoires X
i
sont continues et la
fonction F(x; θ) est monotone et continue en θ, on peut prendre
T(X; θ) =−2
n

i=1
lnF(X
i
; θ).
D’après le lemme de Bolshev F(X
i
; θ) ∼U(0; 1), donc
−2lnF(X
i
; θ) = χ
2
2
, i = 1, . . . , n,
et comme X
1
, . . . , X
n
sont indépendantes
T(X; θ) = χ
2
2n
.
Notons G
2n
(x) = P¦χ
2
2n
≤x¦. Alors,
I(θ; X) = S(θ; X) = G
2n
(T(X; θ)) = G
2n
_
−2
n

i=1
lnF(X
i
; θ)
_
.
Si les fonctions I et S sont strictement décroissantes (ou croissantes) en θ, alors d’après
le théorème de Bolshev on a
−2
n

i=1
lnF(X
i
; θ) = χ
2
γ
(2n) (ou χ
2
1−γ
(2n)),
−2
n

i=1
lnF(X
i
; θ) = χ
2
1−γ
(2n) (ou χ
2
γ
(2n)).
Remarque 2. Soit ¦θ

n
¦, n ∈ N

, une suite d’estimations, θ

n
: R
n
→Θ, du paramètre θ =

1
, . . . , θ
m
)
T
∈ Θ⊂R
m
, telle que

n(θ

n
−θ)
L
−→N(0
m
, ΣΣΣ), n →∞.
90
Soit g une fonction borélienne, g : R
m
→R
1
, differentiable en θ. Alors

n[g(θ

n
) −g(θ)]
L
−→N(0, grad
T
θ
ΣΣΣ grad
θ
g), n →∞.
En particulier, si m = 1, θ

n
: R
n
→Θ ⊂R
1
, et g : R
1
→R
1
,

n[g(θ

n
) −g(θ)]
L
−→N(0, σ
2
[g
/
(θ)]
2
), n →∞,
alors

n[g(θ

n
) −g(θ)]
L
−→N(0, σ
2
[g
/
(θ)]
2
), n →∞.
On emploie très souvent des méthodes asymptotiques pour la construction des inter-
valles de confiance.
Remarque 3. Soit X = (X
1
, . . . , X
n
)
T
un échantillon,
F(x; θ) = P¦X
i
≤x¦, θ = (θ
1
, . . . , θ
m
)
T
∈ Θ⊂R
m
.
Sous des conditions très générales l’estimateur de maximumde vraisemblance
ˆ
θ
n
= (
ˆ
θ
1
, . . . ,
ˆ
θ
n
)
est asymptotiquement efficace et normal avec les parametres θ et I(θ) :
ˆ
θ
n
∼AN(θ, I
−1
(θ)),
où I(θ) est la matrice d’information de Fisher de X.
Soit b : R
m
→R
1
une fonction differentiable, alors
ˆ
b
n
= b(
ˆ
θ
n
) = b(
ˆ
θ
1
, . . . ,
ˆ
θ
m
) un esti-
mateur de paramètre b = b(θ
1
, . . . , θ
m
), et
ˆ
b
n
∼AN(b, σ
2
b
(θ)), où
σ
2
b
(θ) = [grad
θ
b(θ)]
T
I
−1
(θ) grad
θ
b(θ),
i.e.
(
ˆ
b
n
−b)/σ
2
b
(
ˆ
θ
n
) ∼AN(0, 1).
Donc on peut prendre
T(b, X) = (
ˆ
b
n
−b)/σ
2
b
(
ˆ
θ
n
).
Les fonctions
I(b; X) = S(b; X) = Φ((
ˆ
b
n
−b)/σ
2
b
(
ˆ
θ
n
))
sont décroissantes en b et d’après le théorème de Bolshev les égalités
Φ((
ˆ
b
n
−b)/σ
2
b
(
ˆ
θ
n
)) = γ, Φ((
ˆ
b
n
−b)/σ
2
b
(
ˆ
θ
n
)) = 1−γ
implique
b =
ˆ
b
n
−z
γ
σ
2
b
(
ˆ
θ
n
); b =
ˆ
b
n
+z
γ
σ
2
b
(
ˆ
θ
n
),
où z
γ
est γ-quantile de la loi normale standard. On peut noter que asymptotiquement (b, b)
est le plus court intervalle de confiance de niveau donné.
91
2.11 Théorème de Fisher.
Dans ce paragraph nous alons résumer les propriétés principales des estimateurs
¯
X
n
, S
2
n
et s
2
n
.
Théorème de Fisher. Soit X = (X
1
, ..., X
n
)
T
un échantillon normal de paramètres µ et σ
2
:
X
i
∼N(µ, σ
2
). Dans ce cas la statistique
˜
θ
n
= (
¯
X
n
, S
2
n
)
T
est exhaustive minimale et complète,
¯
X
n
et S
2
n
sont indépendantes,
¯
X
n
∼N
_
µ,
σ
2
n
_
,
(n−1)
σ
2
S
2
n
= χ
2
n−1
,
et la variable aléatoire

n
¯
X
n
−µ
S
n
=t
n−1
suit la loi de Student à n −1 degré de liberté. L’estimateur
˜
θ
n
est le meilleur estimateur
sans biais pour θ = (µ, σ
2
)
T
.
Remarque 1. On note qu’une variable aléatoire t
f
suit la loi de Student à f degrées de
liberté, f > 0, si pour tout x ∈ R
1
S
f
(x) = P¦t
f
≤x¦ =
Γ
_
f +1
2
_

πf Γ
_
f
2
_
x

−∞
_
1+
t
2
f
_

f +1
2
dt =

t
−∞
s
f
(t)dt.
Exemple 1. Etudions ici quelques propriétés de la statistiques
˜
θ
n
= (
¯
X
n
, S
2
n
)
T
. On sait que
E
˜
θ
n
= θ = (µ, σ
2
)
T
, où
¯
X
n
et S
2
n
sont les estimateurs sans biais de µ et σ
2
respectivement.
Nous savons aussi que
¯
X
n
∼N(µ,
σ
2
n
), (1)
par suite
E
θ
¯
X
n
= µ, Var
θ
¯
X
n
=
σ
2
n
. (2)
D’autre part on a
n−1
σ
2
S
2
n
= χ
2
n−1
, (3)
E
θ
S
2
n
= σ
2
, Var
θ
S
2
n
=

4
n−1
. (4)
˜
θ
n
est-il un estimateur efficace pour θ = (µ, σ
2
)
T
?
La fonction de vraisemblance de X
j
est :
L
j
(θ) =
1
σ
ϕ
_
X
j
−µ
σ
_
=
1

2πσ
exp
_

(X
j
−µ)
2

2
_
(5)
et le vecteur informant λ
j
(θ) de l’observation X
j
est :
λ
j
(θ) =
_
∂lnL
j
(θ)
∂µ
,
∂lnL
j
(θ)
∂σ
2
_
T
=
_
X
j
−µ
σ
2
,
(X
j
−µ)
2

4

1

2
_
T
. (6)
92
Nous pouvons donc en déduire l’information de Fisher i(θ) sur θ pour une observation X
j
:
i(θ) = Eλ
j
(θ)λ
T
j
(θ) =
= E
θ
_
_
_
_
_
_
_
_
(X
j
−µ)
2
σ
4
(X
j
−µ)
3

6

X
j
−µ

4
(X
j
−µ)
3

6

X
j
−µ

4
(X
j
−µ)
4

8

(X
j
−µ)
2

6
+
1

4
_
_
_
_
_
_
_
_
=
=
_
_
_
_
_
_
_
1
σ
2
0
0
3

4

1

4
+
1

4
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
1
σ
2
0
0
1

4
_
_
_
_
_
_
_
. (7)
L’information de Fisher I
n
(θ) sur θ dans X est :
I
n
(θ) = ni(θ) =
_
_
_
_
_
_
_
n
σ
2
0
0
n

4
_
_
_
_
_
_
_
, (8)
par suite
I
−1
n
(θ) =
_
_
_
_
_
_
_
_
σ
2
n
0
0

4
n
_
_
_
_
_
_
_
_
. (9)
On doit donc avoir (d’après l’inégalité de Rao-Cramer-Frechet) pour tous les estimateurs
sans biais µ

et σ
∗2
de µ et σ
2
:
Var
θ
µ


σ
2
n
et Var
θ
σ
∗2


4
n
. (10)
On voit que l’estimateur ˆ µ
n
=
¯
X
n
est efficace pour µ . Par contre :
Var
θ
S
2
n
=

4
n−1
>

4
n
, (11)
donc σ
∗2
= S
2
n
n’est pas efficace pour σ
2
, donc
˜
θ
n
= (ˆ µ
n
, S
2
n
)
T
n’est pas un estimateur ef-
ficace du paramètre θ = (µ, σ
2
)
T
. Nous allons cependant montrer que
˜
θ
n
= (ˆ µ
n
, S
2
n
)
T
est le
meilleur estimateur sans biais pour θ, parce que c’est celui de variance minimum parmi tous
les estimateurs sans biais de θ. Pour le montrer il suffit de montrer qu’il n’y a pas d’aure
estimateur sans biais de σ
2
meilleur que S
2
n
. Supposons qu’on ait ˜ σ
2
= ˜ σ
2
(X) estimateur
sans biais de σ
2
, E
θ
˜ σ
2
≡σ
2
. Soit δ = ˜ σ
2
−S
2
n
. Il est clair que
E
θ
δ ≡0, (12)
δ = δ(X) est un autre estimateur sans biais de 0. Puisque
˜
θ
n
est exhaustive, on peut écrire
l’égalité précédente sous la forme :
1
(

2πσ)
n

R
n
δ(X)exp
_

1

2
_
n(
¯
X
n
−µ)
2
+(n−1)S
2
n
¸
_
dX
1
dX
2
dX
n
≡0. (13)
93
En dérivant (13) par rapport à µ, on a
1
(

2πσ)
n

R
n
δ(X)exp
_

1

2
_
n(
¯
X
n
−µ)
2
+(n−1)S
2
n
¸
_

n
σ
2
(
¯
X
n
−µ)dX
1
dX
2
dX
n
≡0,
puis à nouveau en dérivant par rapport à µ, on obtient :
1
(

2πσ)
n

R
n
δ(X)exp
_

1

2
_
n(
¯
X
n
−µ)
2
+(n−1)S
2
n
¸
_

_
n
2
σ
4
(
¯
X
n
−µ)
2

n
σ
2
_
dX
1
dX
2
dX
n
≡0,
i.e.,
E
θ
δ(X)(X
n
−µ) ≡0, (14)
et donc δ(X) et
¯
X
n
−µ ne sont pas correlées. De la même façon on peut montrer que
E
θ
_
δ(X)S
2
n
_
≡0, (15)
i.e., δ(X) et S
2
n
ne sont pas correlées non plus. Mais par ailleurs :
˜ σ
2
= δ+S
2
n
, (16)
d’oú
Var
θ
˜ σ
2
= Var
θ
δ+Var
θ
S
2
n
≥Var
θ
S
2
n
. (17)
Cela signifie que la variance de S
2
n
est minimale dans la classe de tous les estimateurs sans
biais de σ
2
, et donc S
2
n
est le meilleur estimateur de σ
2
dans ce sens.
On peut obtenir le même résultat sur la complétude de
˜
θ
n
en utilisant le théorème de
Lehmann-Scheffé.
Example 2. Soit X
n
= (X
1
, ..., X
n
)
T
un échantilon,
X
i
∼N(µ, 1), [ µ [< ∞,
i.e. X
i
suit une loi normale de paramètres
µ = EX
i
et 1 = VarX
i
.
Comme X
1
, . . . , X
n
sont indépendantes, on peut aussi dire que X
n
suit la loi normale de
dimension n :
X
n
∼N
n
(µ1
n
, I
n
),
où 1
n
= (1, . . . , 1)
T
∈ R
n
, I
n
est la matrice identité d’ordre n, et
EX
n
= µ1
n
, VarX
n
= I
n
.
La densité de X
n
est
p
X
n
(x; µ) =
1
(2π)
n/2
exp
_

1
2
(x −µ1
n
)
T
(x −µ1
n
)
_
=
94
=
1
(2π)
n/2
exp
_

1
2
n

i=1
(x
i
−µ)
2
_
, x = (x
1
, . . . , x
n
)
T
∈ R
n
, (18)
et donc la fonction de vraisemblance L(µ) de X
n
est
L(µ) =
1
(2π)
n/2
exp
_

1
2
n

i=1
(X
i
−µ)
2
_
, µ ∈ R
1
.
Considérons la statistique
¯
X
n
=
1
n
n

i=1
X
i
=
1
n
1
T
n
X
n
.
Comme
L(µ) =

n


exp
_

n
2
(
¯
X
n
−µ)
2
_
1

n(2π)
(n−1)/2
exp
_

1
2
n

i=1
(X
i

¯
X
n
)
2
_
, (19)
du critère de factorisation de Neyman-Fisher il suit que
¯
X
n
est une statistique exhaustive
minimale pour µ. Il est evident que
¯
X
n
∼N(µ,
1
n
). Soit
W
n
= (X
1

¯
X
n
, X
2

¯
X
n
, . . . , X
n

¯
X
n
)
T
=X
n

¯
X
n
1
n
=
X
n
−1
n
¯
X
n
=X
n

1
n
1
n
1
T
n
X
n
= (I
n

1
n
1
n
1
T
n
)X
n
= D
n
X
n
, (20)

D
n
= I
n

1
n
1
n
1
T
n
.
On note que la matrice D
n
est idempotente, c.a.d. :
D
T
n
D
n
= D
n
D
T
n
= D
2
n
= D
n
,
et que D
n
1
n
= 0
n
. La formule (20) montre que la statistique W
n
est le résultat d’une trans-
formation linéaire de X
n
, W
n
= D
n
X
n
, et donc on constate que la statistique W
n
suit une
loi normale dans R
n
dont la fonction caractéristique est
f
W
n
(t) = exp¦−
1
2
t
T
D
n
t¦, t ∈ R
n
, (21)
puisque
EW
n
= D
n
EX
n
=
_
I
n

1
n
1
n
1
T
n
_
µ1
n
= µ1
n
−µ1
n
= 0
n
et
VarW
n
= EW
n
W
T
n
= E¦D
n
X
n
X
T
n
D
T
n
¦ = D
n
[I
n

2
1
n
1
T
n
]D
T
n
=
= D
n
I
n
D
T
n
= D
n
D
T
n
= D
n
,
On peut remarquer que la loi de la statistique W
n
ne dépend pas de paramètre µ. C’est la
raison pour laquelle on dit que W
n
est une statistique libre, ce qui signifie que W
n
n’apporte
pas d’information sur µ. Toute information sur µ conserve la statistique exhaustive minimale
¯
X
n
.
95
Nous allons montrer que les statistiques
¯
X
n
et W
n
sont indépendantes. Pour cela il nous
faudra étudier plus attentivement la répartition de W
n
. Notons
W
i
= X
i

¯
X
n
, i = 1, . . . , n.
Il est facile de vérifier que detD
n
= 0, d’où on déduit que la loi de W
n
est dégénérée, ce qui
explique la dépendance linéaire entre W
1
, ...,W
n
:
n

i=1
W
i
= 0, donc W
n
=−(W
1
+ +W
n−1
).
Considérons maintenant la statistique U
n−1
= (W
1
, ...,W
n−1
)
T
. On remarque que
EU
n−1
= 0
n−1
,
et sa matrice de covariance B
n−1
est la matrice D
n
sans la dernière ligne ni la dernière
colonne. Par un calcul direct, on peut montrer que
detB
n−1
=
1
n
, i.e. rangB
n−1
= rangD
n
= n−1,
et donc avec une probabilité 1 la répartition de W
n
est concentrée dans R
n−1
.
On remarque que
B
−1
n−1
=
_
_
_
_
_
_
_
_
_
_
_
2 1 1 . . . 1
1 2 1 . . . 1
1 1 2 . . . 1
.
.
.
1 1 1 . . . 2
_
_
_
_
_
_
_
_
_
_
_
n−1,n−1
et detB
−1
n−1
= n. De ces résultats il suit que la statistique U
n−1
= (W
1
, . . . ,W
n−1
)
T
suit une
loi normale N
n−1
(0
n−1
, B
n−1
), dont la densité
p
U
n−1
(u), u = (u
1
, . . . , u
n−1
)
T
∈ R
n−1
,
est donnée par la formule
p
U
n−1
(u) =
1

det B
n−1
(2π)
(n−1)/2
exp
_

1
2
u
T
B
−1
n−1
u
_
=
=

n
(2π)
(n−1)/2
exp
_
_
_

1
2
_
_
n−1

i=1
u
2
i
+
_
n−1

i=1
u
i
_
2
_
_
_
_
_
, u ∈ R
n−1
. (22)
Maintenant, il est facile de montrer que U
n−1
et
¯
X
n
sont indépendantes. En effet, considé-
rons la statistique
Y = (Y
1
,Y
2
, . . . ,Y
n−1
,Y
n
)
T
=CX
n
,

C =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1−
1
n

1
n

1
n

1
n

1
n

1
n
1−
1
n

1
n

1
n

1
n

1
n

1
n
1−
1
n

1
n

1
n
.
.
.

1
n

1
n

1
n
1−
1
n

1
n
1
n
1
n
1
n

1
n
1
n
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
,
96
et donc
Y
n
=
¯
X
n
, et Y
j
=W
j
= X
j

¯
X
n
, j = 1, . . . , n−1, (23)
d’où il suit que
X =C
−1
Y, où C
−1
=
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0 1
0 1 0 . . . 0 1
.
.
.
0 0 0 . . . 1 1
−1 −1 −1 . . . −1 1
_
_
_
_
_
_
_
_
_
_
_
et donc
X
i
=Y
i
+Y
n
, i = 1, . . . , n−1,
et
X
n
= nY
n

n−1

i=1
X
i
=Y
n

n−1

i=1
Y
i
.
Pour trouver la densité p
Y
(y; µ) de la statistique Y on remarque que et
J = detC
−1
= det
_
_
_
_
∂x
i
∂y
j
_
_
_
_
= n,
et donc de (18) on obtient que
p
Y
(y; µ) = p
X
n
(C
−1
y; µ)[detC
−1
[ =

n


exp
_

n
2
(y
n
−µ)
2
_


n
(2π)
(n−1)/2
exp
_
_
_

1
2
_
_
n−1

i=1
y
2
i
+
_
n−1

i=1
y
i
_
2
_
_
_
_
_
. (24)
De (19) et (24) il suit que
¯
X
n
et U
n−1
= (X
1

¯
X
n
, . . . , X
n−1

¯
X
n
)
T
sont indépendantes.
Comme
1
T
n
W
n
=
n

i=1
(X
i

¯
X
n
) = 0,
on tire que
X
n

¯
X
n
=−
n−1

i=1
(X
i

¯
X
n
),
i.e. X
n

¯
X
n
est une statistique de U
n−1
, qui est indépendante de
¯
X
n
, et donc
¯
X
n
et W
n
=
(X
1

¯
X
n
, X
2

¯
X
n
, . . . , X
n

¯
X
n
)
T
sont indépendantes.
On remarque qu’on peut obtenir le même résultat par calcul direct de la fonction carac-
téristique ϕ
V
(t), t ∈ R
n+1
, de la statistique
V = (W
n
,
¯
X
n
) = (X
1

¯
X
n
, ..., X
n

¯
X
n
,
¯
X
n
)
T
ϕ
V
(t) = Eexp
_
i
_
n

i=1
t
i
(X
i

¯
X
n
) +t
n+1
¯
X
n
__
.
97
Exemple 3. Soit X = (X
1
, ..., X
n
)
T
un échantilon,
X
i
∼N(µ, σ
2
), [ µ [< ∞, σ
2
> 0.
La fonction de vraisemblance L(µ, σ
2
) de X est
L(µ, σ
2
) = p(X; µ, σ
2
) =
1
σ
n
(2π)
n/2
exp¦−
1

2
n

i=1
(X
i
−µ)
2
¦ =
1
σ
n
(2π)
n/2
exp¦−
1

2
_
n

i=1
X
2
i
−2µ
n

i=1
X
i
+nµ
2
_
¦. (25)
On voit que la statistique
T = T(X) =
_
n

i=1
X
i
,
n

i=1
X
2
i
_
T
est exhaustive et minimale pour (µ, σ
2
)
T
.
Soit
X
t
=¦x : T(x) = t = (t
1
, t
2
)
T
, x ∈ R
n
¦.
Notons c
t
= c
t
(µ, σ
2
) la valeur de la densité p(x; µ, σ
2
) sur cet ensemble. Dans ce cas la loi
conditionnelle de X sachant T(X) = t est uniforme sur X
t
. En effet, pour tout x ∈ X
t
on a
p
X
(x [ T(X) = t; µ, σ
2
) =
p
X
(x; µ, σ
2
)

X
t
p
X
(x; µ, σ
2
)dx
=
c
t
c
t
mesX
t
=
1
mesX
t
= const. (26)
Considérons la statistique Z
n
= (Z
1
, ..., Z
n
)
T
, où
Z
j
=
X
j

¯
X
n
S
n
, j = 1, ..., n, (27)
¯
X
n
=
1
n
n

i=1
X
i
, S
2
n
=
1
n−1
X
T
D
n
X =
1
n−1
n

i=1
(X
i

¯
X
n
)
2
. (28)
Comme les statistiques T et U = (
¯
X
n
, S
2
n
)
T
sont équivalentes, on remarque que de (26) et
(28) il suit que si U est fixée, dans ce cas X suit la loi uniforme sur l’intersection de deux
surfaces données par les équations :
1
S
2
n
n

i=1
(X
i

¯
X
n
)
2
= n−1 et
1
S
n
n

i=1
(X
i

¯
X
n
) = 0,
ce qui représente la sphère de dimension n −1 avec le centre au point
¯
X
n
1
n
et de rayon

n−1S
n
dans R
n
, et par conséquent on en tire que si U est fixé, la loi de Z
n
est uniforme
sur l’intersection des deux surfaces données par les équations :
n

i=1
Z
2
i
= n−1 et
n

i=1
Z
i
= 0,
98
ce qui représente la sphère de dimension de n−1 de rayon

n−1 dans R
n
dont la surface
ne dépend pas de U et par conséquent, on obtient que la loi conditionnelle de Z
n
ne dépend
pas de U = (
¯
X
n
, S
2
n
), donc les statistiques Z
n
et (
¯
X
n
, S
2
n
) sont indépendantes. Comme
¯
X
n
et
S
2
n
sont indépendantes il s’ensuit que les trois statistiques Z
n
,
¯
X
n
et S
2
n
sont indépendantes.
Exemple 4. Supposons qu’aux moments t = 0, 1, ..., n nous observons un objet A qui se dé-
place uniformément avec une vitesse constante et inconnue µ, µ > 0. Soit s(t) la distance
parcourue par cet objet A aux moments t = 0, 1, ..., n; n ≥1. Si toutes les mesures étaient
correctes on aurait
s(k) = µk, pour tout k = 0, 1, 2, ..., n,
(on suppose que s(0) = 0).
Supposons que l’expérience soit organisée de manière qu’il n’y ait pas d’erreurs systéma-
tiques ; il y a cependant des erreurs de mesure qui sont normales et indépendantes et qui
s’accumulent à chaque moment de mesure.
En supposant que toutes les erreurs de mesure ont la même variance σ
2
, trouvons les
meilleurs estimateurs sans biais pour µ et σ
2
.
Tout d’abord supposons que
s = (s
0
, s
1
, ..., s
n
)
T
, où s
0
= s(0), s
1
= s(t
1
), ..., s
n
= s(t
n
),
est une réalisation d’un vecteur aléatoire S = (S
0
, S
1
, ..., S
n
)
T
dont les coordonnées S
i
selon
le modèle physique sont des variables aléatoires telles que
S
0
= δ
0
, S
1
= µ+δ
1
, S
2
= 2µ+δ
1

2
, ..., S
n
= nµ+δ
1
+... +δ
n
,
où toutes les erreurs de mesures δ
0
, δ
1
, ..., δ
n
sont indépendantes et suivent la même loi
normale N(0, σ
2
). Dans ce cas la fonction de vraisemblance du vecteur des erreurs δ =

0
, δ
1
, ..., δ
n
)
T
est
L(δ; µ, σ
2
) = (2π)
−(n+1)/2
σ
−(n+1)
exp
_

1

2
n

i=0
δ
2
i
_
.
Soit
L
i−1
= S
i
−S
i−1
(i = 1, 2, ..., n), où S
0
= δ
0
.
Alors
δ
i
= L
i−1
−µ pour i = 1, 2, ..., n,
et la fonction de vraisemblance de la statistique S est
L(S; µ, σ
2
) = (2π)
−(n+1)/2
σ
−(n+1)
exp
_

1

2
δ
2
0

1

2
n

i=1
(L
i−1
−µ)
2
_
=
= (2π)
−(n+1)/2
σ
−(n+1)
exp
_

1

2
_
δ
2
0
+
n

i=1
(L
i−1

¯
L
n
)
2
+n(
¯
L
n
−µ)
2
__
,

¯
L
n
=
1
n
n

i=1
L
i−1
,
99
on en tire donc que
U =
_
¯
L
n
, δ
2
0
+
n

i=1
(L
i−1

¯
L
n
)
2
_
T
est une statistique exhaustive pour (µ, σ
2
)
T
. Il est évident, que la statistique
T
n
= δ
2
0
+
n

i=1
(L
i−1

¯
L
n
)
2
est distribuée comme la variable aléatoire σ
2
χ
2
n
, et on en déduit que
E
_
T
n
n
_
= σ
2
et E
¯
L
n
= µ.
Comme la famille des distributions normales est complète, la statistique exhaustive U est
donc complète et on en déduit que
¯
L
n
=
1
n
n

i=1
L
i−1
=
1
n
n

i=1
(S
i
−S
i−1
)
et
T
n
n
=
1
n
_
S
2
0
+
n

i=1
[(S
i
−S
i−1
) −
¯
L
n
]
2
_
sont les estimateurs sans biais uniques qui s’expriment en fonction de la statistique exhaus-
tive U et par conséquent ils sont les meilleurs estimateurs sans biais pour µ et σ
2
.
2.12 Intervalle de confiance pour la moyenne d’une loi
normale
Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼N(µ, σ
2
), [µ[ < ∞, σ
2
> 0.
Considérons ici le problème d’estimation des paramètres µ et σ
2
par intervalles. Nous sa-
vons que la variable aléatoire
t
n−1
=

n
¯
X
n
−µ
S
n
=

n−1
¯
X
n
−µ
s
n
suit la loi de Student à f = n−1 degrés de liberté
P¦t
f
≤t¦ = S
f
(t).
On donne ici quelques valeurs de S
f
(t) :
f 3 4 6 8 16 52
t 2.3534 2.1318 1.9432 1.8595 2.1199 2.0024
S
f
(t) 0.9500 0.9500 0.9500 0.9500 0.9750 0.9750
100
Nous pouvons trouver pour chaque α, 0 <α < 0.5, les valeurs t
n−1
(α) et t
n−1
(α) telles
que
_
P¦t
n−1
≤t
n−1
(α)¦ = S
n−1
(t
n−1
(α)) = α,
P¦t
n−1
≤t
n−1
(α)¦ = S
n−1
(
¯
t
n−1
(α)) = 1−α,
(1)
et donc
P¦t
n−1
(α) ≤t
n−1
≤t
n−1
(α)¦ = 1−2α. (2)
t
n−1
(α) est souvent appelé α−quantile supérieur où (1−α)−quantile de la loi de Student
avec f = n −1 degrées de liberté et t
n−1
(α) est appelé α−quantile inférieur de la loi de
Student avec f = n −1 degrées de liberté. De la symétrie par rapport à zéro de la densité
s
n−1
(x) nous avons
t
n−1
(α) =−t
n−1
(α), (3)
et donc (2) peut être présentée
P¦−t
n−1
(α) ≤t
n−1
≤t
n−1
(α)¦ = 1−2α. (4)
Les quantiles t
f
(α) pour différentes valeurs de f et α peuvent être trouvés dans des tables
statistiques.
Maintenent en utilisant (4) et le Theoreme de Fisher nous pouvons construire l’intervalle
de confiance ou l’estimateur par intervalle pour la moyenne µ de la loi normale N(µ, σ
2
).
Nous disons que l’intervalle aléatoire
l(X) ≤µ ≤L(X) (5)
est l’intervalle de confiance de niveau (1−α) ou l’estimateur par intervalle avec le coeffi-
cient de confiance (1−α) pour la moyenne inconnue µ si
P¦l(X) ≤µ ≤L(X)¦ = 1−α. (6)
Les statistiques l(X) et L(X) s’appellent limites de confiance inférieure et supérieure res-
pectivement pour µ.
Fixons α (0 < α < 0.5) et choisissons les quantiles
t
n−1
(α/2) et t
n−1
(α/2) =−t
n−1
(α/2),
alors du Théorème de Fisher et de (4) on tire que
P
_
−t
n−1
(α/2) ≤

n
¯
X
n
−µ
S
n
≤t
n−1
(α/2)
_
= 1−α, (7)
ou, ce qui est équivalent,
P
_
¯
X
n

S
n

n
t
n−1
(α/2) ≤µ ≤
¯
X
n
+
S
n

n
t
n−1
(α/2)
_
= 1−α. (8)
Donc l’intervalle aléatoire
_
¯
X
n

S
n

n
t
n−1
(α/2) ≤µ ≤
¯
X
n
+
S
n

n
t
n−1
(α/2)
_
(9)
101
est l’intervalle de confiance de niveau (1−α) pour µ. La limite inférieure de confiance de
cet intervalle est
l(X) =
¯
X
n

S
n

n
t
n−1
(α/2),
et la limite supérieure de confiance est
L(X) =
¯
X
n
+
S
n

n
t
n−1
(α/2).
Exercice 1. La charge d’un électron est e = µ10
−10
. Miliken a obtenu expérimentale-
ment 58 mesures de µ. Les résultats de Miliken sont présentés dans le tableau suivant :
4.781 4.764 4.777 4.809 4.761 4.769
4.795 4.776 4.765 4.790 4.792 4.806
4.769 4.771 4.785 4.779 4.758 4.779
4.792 4.789 4.805 4.788 4.764 4.785
4.779 4.772 4.768 4.772 4.810 4.790
4.775 4.789 4.801 4.791 4.799 4.777
4.772 4.764 4.785 4.788 4.799 4.749
4.791 4.774 4.783 4.783 4.797 4.781
4.782 4.778 4.808 4.740 4.790
4.767 4.791 4.771 4.775 4.747
On considère un modèle H
0
où ces résultats sont traités comme des réalisations des variables
aléatoires indépendantes X
1
, X
2
, ..., X
n
(n =58) qui suivent la même loi normale N(µ, σ
2
).
a. Trouver la statistique exhaustive minimale pour θ = (µ, σ
2
)
T
.
b. Trouver l’estimateur de maximum de vraisemblance
ˆ
θ
n
de θ.
c. Montrer que le meilleure (le plus court) intérvalle de confiance de niveau P=1−α=0.95
pour µ, sachant que t
0.025
(57) = 2.0025,
¯
X
n
= 4.7808 et S
2
n
= 23383 10
−8
, est
4.7768 < µ < 4.7848.
Exercice 2. Soit x une réalisation observée de la somme des carrés des erreurs de mesures
dans une expérience. Nous supposons que le nombre de mesures f est inconnu et que l’ex-
périence est organisée de façon que toutes les mesures puissent être considérées comme des
erreurs normales faites dans les même conditions et indépendamment les unes des autres en
l’absence d’erreur systématique.
a) Trouver le meilleur estimateur sans biais
ˆ
f pour f .
b) Supposons que l’expérience donne x=407.41. En utilisant la distribution asympto-
tique de
ˆ
f et l’approximation normale de Fisher construire ≈0.9-limites de confiance pour
f .
Solution. Le nombre x peut-être observé comme la réalisation de la variable aléatoire
f

i=1
X
2
i
=
ˆ
f ,
102
où X = (X
1
, ..., X
f
)
T
un échantillon de taille f , X
i
∼ N(0, σ
2
). Ici X
i
est une erreur de la
i-ème mesure. Il est clair que
ˆ
f suit la loi de chi-deux à f degrées de liberté, i.e.

ˆ
f ≤x¦ = P¦
f

i=1
X
2
i
≤x¦ = P¦χ
2
f
≤x¦ = Q
f
(x), x ≥0.
Comme Eχ
2
f
= f , la statistique
ˆ
f est l’estimateur sans biais de f. On sait que la variable
aléatoire
_
2
ˆ
f −
_
2 f −1 =
_

2
f

_
2 f −1
est asymptotiquement normale (approximation de Fisher), quand f →∞, i.e. pour tout z
fixé

_
2
ˆ
f −
_
2f −1 ≤z¦ ≈Φ(z),
pour les grandes valeurs de f . De cette égalité on déduit
P¦−1.28 ≤
_
2
ˆ
f −
_
2 f −1 ≤1.28¦ ≈0.8,
puisque Φ
−1
(0.9) = ¯ x
0.1
= 1.28, et donc on obtient l’intervalle de confiance pour f

1
2
+
1
2
_
_
2
ˆ
f −1.28
_
2
≤ f ≤
1
2
+
1
2
_
_
2
ˆ
f +1.28
_
2
¦ ≈0.8.
Comme
ˆ
f = 407.81,
_
2
ˆ
f = 28.54, on en tire que
373 ≤ f ≤445.
Il est utile de remarquer que pour avoir l’estimateur par intervalle de confiance (9) avec
le coefficient de confiance 1 −α nous devons choisir les quantiles de niveau α/2. Il faut
remarquer encore que la longueur L
n
de cette intervalle est une variable aléatoire
L
n
= 2
S
n

n
t
n−1
(α/2) (10)
et puisque
ES
n
=
_
2
n−1
Γ
_
n
2
_
Γ
_
n−1
2
_σ,
(voir, par exemple, Voinov & Nikulin (1993) ), on en tire que
EL
n
= 2σt
n−1
(α/2)
¸
2
n(n−1)
Γ
_
n
2
_
Γ
_
n−1
2
_. (11)
D’un autre côté nous savons que pour chaque x ∈ R
1
S
f
(x) = P¦t
f
≤x¦ →Φ(x), quand f →∞,
et en plus (voir, par exemple, Huber et Nikulin (1992)),
S
f
(x) −Φ(x) = O(1/
_
f )
103
uniformément par rapport à x, x ∈ R
1
, et donc de (11) il suit que pour grandes valeurs de n
EL
n
=


n
x(α/2) +O
_
1
n
3/2
_
(12)
où x(α/2) =x
α/2
est le quantile supérieur de niveau α/2 de la loi standard normale. Puisque
S
2
n
est un estimateur sans biais de σ
2
, ES
2
n
= σ
2
, alors de (10) il suit que
EL
2
n
=

2
n
t
2
n−1
(α/2),
et donc
VarL
n
= EL
n
−(EL
n
)
2
=

2
n
t
2
n−1
(α/2)
_
1−
2
n−1
Γ
2
_
n
2
_
Γ
2
_
n−1
2
_
_
. (13)
Puisque
1−
2
n−1
Γ
2
_
n
2
_
Γ
2
_
n−1
2
_ =
1
2n
+O
_
1
n
2
_
, (n →∞)
de (13) il suit que pour les grandes valeurs de n
VarL
n
=

2
n
2
x
2
(α/2) +O
_
1
n
3
_
, (14)
et donc on peut dire que L
n
est pratiquement constante, L
n
≈EL
n
. En pratique cela signifie
que
L
n
=


n
x(α/2), (15)
quand n est assez grand.
Supposons maintenent que la variance σ
2
est connue. Comment cette information change
l’intervalle de confiance pour µ ? Si σ
2
est donné, dans ce cas
¯
X
n
est une statistique exhaus-
tive pour paramètre µ et, comme il est bien connu,
¯
X
n
est le meilleur estimateur sans biais
pour µ et suit la loi normal N(µ, σ
2
/n), [µ[ < ∞. Donc la variable aléatoire
Z =

n
¯
X
n
−µ
σ
suit la loi normal standard N(0, 1).
Il s’en suit que lorsqu’on choisit x(α/2), 0 < α < 0.5, comme le quantile supérieur de
niveau α/2 de la loi normale standard, alors on a
P¦−x(α/2) ≤Z ≤x(α/2)¦ = 1−α
ou, ce qui est la même chose,
P¦−x(α/2) ≤

n
¯
X
n
−µ
σ
≤x(α/2)¦ = 1−α,
d’où on obtient l’intervalle de confiance de longueur minimale avec le coefficient de confiance
(1−α) pour µ :

¯
X
n

σ

n
x(α/2) ≤µ ≤
¯
X
n
+
σ

n
x(α/2)¦ = 1−α, (16)
104
Par exemple, si
α = 0.05, alors 1−α = 0.95, α/2 = 0.025, x(0.025) = 1.96
et donc dans ce cas particulier on obtient

¯
X
n
−1.96
σ

n
≤µ ≤
¯
X
n
+1.96
σ

n
¦ = 0.95, (17)
et on dit que avec la probabilité 0.95 l’intervalle aléatoire
_
¯
X
n
−1.96
σ

n
≤µ ≤
¯
X
n
+1.96
σ

n
_
inclu ou couvre la vraie (mais inconnue !) valeur de µ.
La longueur L
n
de l’intervalle de confiance (16) est
L
n
=


n
x(α/2) (18)
et comme on le voit de (15) il coincide avec la longueur moyenne de l’intervalle de confiance
pour µ quand σ
2
est inconnu et il n’est pas aléatoire !
2.13 Intervalle de confiance pour la variance d’une loi
normale
Nous voulons maintenant construire l’intervalle de confiance de niveau (1−α) pour la
variance σ
2
de la loi normale N(µ, σ
2
). Considérons d’abord le cas où µ est aussi inconnue.
Le Théorème de Fisher nous dit que
n−1
σ
2
S
2
n
= χ
2
n−1
, (1)

S
2
n
=
1
n−1
n

i=1
(X
i

¯
X
n
)
2
(2)
est un meilleur estimateur sans biais de σ
2
. Pour chaque α fixé, 0 <α<0.5 , on peut trouver
des tables statistiques des quantiles
χ
2
n−1
(α/2) et ¯ χ
2
n−1
(α/2)
tels que
P¦χ
2
n−1
≤χ
2
n−1
(α/2)¦ =
α
2
et P¦χ
2
n−1
≤ ¯ χ
2
n−1
(α/2)¦ = 1−
α
2
, (3)
c’est-à-dire
P¦χ
2
n−1
(α/2) ≤χ
2
n−1
≤ ¯ χ
2
n−1
(α/2)¦ = 1−α. (4)
105
De (1) et (4) on a
P¦χ
2
n−1
(α/2) ≤
n−1
σ
2
S
2
n
≤ ¯ χ
2
n−1
(α/2)¦ = 1−α
et donc
P
_
(n−1)S
2
n
¯ χ
2
n−1
(α/2)
≤σ
2

(n−1)S
2
n
χ
2
n−1
(α/2)
_
= 1−α. (5)
Voila pourquoi l’intervalle aléatoire
(n−1)S
2
n
¯ χ
2
n−1
(α/2)
≤σ
2

(n−1)S
2
n
χ
2
n−1
(α/2)
(6)
est appellé l’intervale de confiance de niveau (1−α) ou l’estimateur par intervalle avec le
coefficient de confiance (1−α) pour la variance σ
2
de la loi normale N(µ, σ
2
) quand µ est
inconnue. La longueur L
n
de cet intervalle est égale à
L
n
= (n−1)S
2
n
_
1
χ
2
n−1
(α/2)

1
¯ χ
2
n−1
(α/2)
_
.
Il faut remarquer ici qu’à l’aide de (5) on peut construire l’intervalle de confiance de
niveau (1−α) pour σ.
Ici nous donnons quelques valeurs de la fonction de répartition Q
f
(x) de χ
2
f
:
Q
f
(x) = P¦χ
2
f
≤x¦ =
1
2
f
2
Γ
_
f
2
_

x
0
y
f
2
−1
e
−y/2
dy, x ≥0.
f 1 1 3 4 4 4 57 57
x 3.844 2.706 7.815 9.488 7.779 0.711 79.572 38.027
Q
f
(x) 0.950 0.900 0.950 0.950 0.900 0.050 0.975 0.025
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon de taille n = 5, X
i
∼ N(µ, σ
2
), et µ et
σ
2
sont inconnus. On va construire le plus court intervalle de confiance de niveau (1 −α)
pour µ, quand α = 0.1 et
X
1
= 2.96, X
2
= 3.07, X
3
= 3.02, X
4
= 2.98, X
5
= 3.06.
D’après (10.9) l’intervalle le plus court de confiance de niveau (1−α) pour µ est
¯
X
n

¯
t
n−1
_
α
2
_
S
n

n
≤µ ≤
¯
X
n
+
¯
t
n−1
_
α
2
_
S
n

n
.
Dans notre cas
¯
X
n
=
¯
X
5
= 3.018, S
2
n
= S
2
5
= 0.00232,
S
2
5
5
= 0.000464,
S
5

5
= 0.046,
α/2 = 0.05,
¯
t
n−1
_
α
2
_
=
¯
t
4
(0.05)2.132
106
et donc le plus court intervalle pour µ
2.972 ≤µ ≤3.064.
Construisons maintenant l’intervalle de confiance de niveau (1 −α) pour σ
2
, si α =
0.01. D’après (11.6) l’intervalle de confiance de niveau 0.90 pour σ
2
est
4S
2
5
¯ χ
2
4
(0.05)
≤σ
2

4S
2
5
χ
2
4
(0.05)
.
Puisque dans notre cas
S
2
5
= 0.00232, ¯ χ
2
4
(0.05) = 0.711 and χ
2
4
(0.05) = 9.488
nous obtenons la réalisation de l’intervalle de confiance de niveau 0.9 pour σ
2
:
0.00098 ≤σ
2
≤0.0131.
Supposons maintenant que µ est connu et il nous faut estimer σ
2
. Il est évident que dans
ce cas la statistique
˜ s
2
n
=
1
n
n

i=1
(X
i
−µ)
2
(7)
est le meilleur estimateur sans biais de σ
2
:
E˜ s
2
n
= σ
2
, (8)
et comme X
1
, ..., X
n
sont indépendants et (X
i
−µ)/σ suit la loi normale standard N(0, 1), on
trouve que
n
˜ s
2
n
σ
2
= χ
2
n
. (9)
Pour chaque fixé α, 0 < α < 0.5, on peut trouver des tables statistiques les quantilles
χ
2
n
(α/2) et ¯ χ
2
n
(α/2)
tels que
P¦χ
2
n
≤χ
2
n
(α/2)¦ =
α
2
et P¦χ
2
n
≤ ¯ χ
2
n
(α/2)¦ = 1−
α
2
, (10)
i.e.
P¦χ
2
n
(α/2) ≤χ
2
n
≤ ¯ χ
2
n
(α/2)¦ = 1−α. (11)
De (9) et (11) nous obtenons
P¦χ
2
n
(α/2) ≤
n˜ s
2
n
σ
2
≤ ¯ χ
2
n
(α/2)¦ = 1−α. (12)
et donc
P
_
n˜ s
2
n
¯ χ
2
n
(α/2)
≤σ
2

n˜ s
2
n
χ
2
n
(α/2)
_
= 1−α. (13)
107
C’est pourquoi l’intervalle aléatoire
ns
2
n
¯ χ
2
n
(α/2)
≤σ
2

ns
2
n
χ
2
n
(α/2)
(14)
est appellé l’intervalle de confiance ou l’estimateur par intervalles avec le coefficient de
confiance 1−α pour la variance σ
2
de la loi normale N(µ, σ
2
), quand µ est connu.
En pratique on choisit souvent pour le coefficient de confiance 1−α = 0.90 ou 0.95, ou
0.99, ce qui correspond à α égale à 0.1, 0.05 ou 0.01 respectivement.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un échantillon de taille n = 201, X
i
∼ N(µ, σ
2
), et
soit
S
2
201
=
1
200
201

i=1
(X
i

¯
X
n
)
2
un meilleur estimateur sans biais pour σ
2
. Il faut évaluer la probabilité
P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦.
Solution. Comme nous savons
200
σ
2
S
2
201
= χ
2
200
et donc
P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦ = P¦160 <
200
σ
2
S
2
201
< 240¦ = P¦160 < χ
2
200
< 240¦.
Pour calculer cette probabilité on peut utiliser l’approximation normale simple pour la loi
chi-deux, d’après laquelle pour chaque x ∈ R
1
P
_
χ
2
f
− f

2 f
< x
_
→Φ(x), quand f →∞,
et donc
P¦160 < χ
2
200
< 240¦ = P
_

40
20
<
χ
2
200
−200
20
<
40
20
_
=
P
_
−2 <
χ
2
200
−200
20
< 2
_
≈2Φ(2) −1 = 2 0.9772−1 = 0.9544,
c’est-à-dire
P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦ ≈0.9544.
Meilleure approximation pour P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦ peut être obtenue à partir de l’ap-
proximation normale de Fisher, d’après laquelle pour chaque x ∈ R
1

_

2
f

_
2f −1 < x¦ →Φ(x), quand f →∞.
En utilisant cette approximation, nous avons
P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦ = P¦4

10 < χ
200
< 4

15¦ =
108
P¦8

5−20 <
_

2
200


400 < 4

30−20¦
= P¦−2.112 <
_

2
200


400 < 1.908¦
≈Φ(1.908) +Φ(−2.112) = 0.9718+0.9827−1 = 0.9545.
Il faut remarquer ici que la valeur exacte (avec 5 chiffres décimaux) est
P¦0.8σ
2
≤S
2
201
≤1.2σ
2
¦ = P¦160 < χ
2
200
< 240¦
= 0.98292−0.02796 = 0.95496 ≈0.9550.
Exemple 3. Soit X= (X
1
, ..., X
n
)
T
un échantillon de taille n = 16, X
i
∼N(µ, σ
2
). Calculons
la probabilié
P¦[
¯
X
n
−µ[ <
3

n
S
n
¦,

¯
X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n−1
n

i=1
(X
i

¯
X
n
)
2
sont les meilleurs estimateurs sans biais pour µ et σ
2
.
D’après le Théorème de Fisher la variable aléatoire
t
n−1
=

n
¯
X
n
−µ
S
n
suit la loi de Student avec f = n−1 = 15 degrées de liberté et donc nous avons
P¦[
¯
X
n
−µ[ <
3

n
S
n
¦ = P¦[t
15
[ < 3¦ =

3
−3
s
15
(x)dx
= 2

3
0
s
15
(x)dx = 2S
15
(3) −1 = 0.991,
où s
15
(x) est la densité de la loi de Student à 15 degrée de liberté et S
15
(x) sa fonction de
répartition. On peut remarquer que si l’on utilise l’approximation normale pour l’estimation
de la même probabilité, on aura
P¦[
¯
X
n
−µ[ <
3

n
S
n
¦ ≈0.9973 > 0.991
pour chaque n.
Exemple 4. Soit X = (X
1
, ..., X
n
)
T
un échantillon, dont X
i
∼ N(µ, σ
2
). On va chercher,
en utilisant l’approximation normale, la plus petite valeur de n = n(ε) pour lequel
P
_
[S
2
n
−σ
2
[
σ
2
< ε
_
≥0.9,
quand ε = 0.5 et ε = 0.05. Du Théorème de Fisher il suit que
P
_
[S
2
n
−σ
2
[
σ
2
< ε
_
= P
_
(n−1)(1−ε) < (n−1)
S
2
n
σ
2
< (n−1)(1+ε)
_
=
109
P
_
(n−1)(1−ε) < χ
2
n−1
< (n−1)(1+ε)
_
.
Du Théorème limite central il suit que χ
2
f
est asymptotiquement normale pour les grandes
valeurs de f et donc en utilisant l’approximation normale on obtient
P
_
[S
2
n
−σ
2
[
σ
2
< ε
_
= P
_
(n−1)(1−ε) < χ
2
n−1
< (n−1)(1+ε)
_
=
P
_
−ε
_
n−1
2
<
χ
2
n−1
−(n−1)
_
2(n−1)
< ε
_
n−1
2
_

Φ
_
ε
_
n−1
2
_
−Φ
_
−ε
_
n−1
2
_
= 2Φ
_
ε
_
n−1
2
_
−1,
d’où il suit que

_
ε
_
n−1
2
_
−1 ≥0.9,
si
Φ
_
ε
_
n−1
2
_
≥0.95,
et comme Φ est croissante, la dernière inégalité est équivalante à la suivante :
ε
_
n−1
2
≥Φ
−1
(0.95) = 1.645,
d’où on tire que la plus petite valeur de n = n(ε) vérifie la relation suivante :
ε
_
n−1
2
≈1.6,
i.e.
n ≈1+5.2/ε
2
.
Par exemple, si ε = 0.5, alors n ≈21, et par calculs directs on obtient que
P¦10 < χ
2
20
< 30¦ = 0.8973 < 0.9,
mais pour n = 22 on a
P¦10.5 < χ
2
21
< 31.5¦ = 0.901 > 0.9,
et donc pour ε = 0.5 la plus petite valeur de n = n(0.5) = 22. Dans le cas ε = 0.05 nous
pouvons résoudre le problème asymptotiquement et nous aurons
n ≈1+2
2.6
ε
2
= 1+2
2.6
0.0025
= 2080.
Exemple 5. Soit X = (X
1
, ..., X
n
)
T
un échantillon, X
i
∼N(µ, σ
2
), où µ et σ
2
sont incon-
nus. Notre but est de construire un intervalle de prédiction pour une nouvelle observation
X
n+1
, X
n+1
∼N(µ, σ
2
), qui est indépendante de X.
110
Comme X est un échantillon normale N(µ, σ
2
), nous pouvons travailler avec la statis-
tique exhaustive minimale
U = (
¯
X
n
, S
2
n
)
T
,

¯
X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n−1
n

i=1
(X
i

¯
X
n
)
2
sont les meilleurs estimateurs sans biais pour µ et σ
2
,
¯
X
n
∼N(µ,
σ
2
n
),
n−1
σ
2
S
2
n
= χ
2
n−1
,
¯
X
n
et S
2
n
sont indépendantes. Puisque X
n+1
et X sont indépendants, alors X
n+1
est indépen-
dante de
¯
X
n
et S
2
n
, et donc
X
n+1

¯
X
n
∼N
_
0,
n+1
n
σ
2
_
,
i.e. la variable aléatoire
Z =
X
n+1

¯
X
n
σ
_
1+
1
n
suit la loi normale standard, Z ∼N(0, 1). Il est évident que Z est indépendante de S
2
n
et donc
la statistique
τ =
Z
_
S
2
n

2
=
X
n+1

¯
X
n
S
n
_
1+
1
n
suit la loi de Student avec n−1 degrés de liberté. c’est-à-dire
P¦τ ≤t¦ = S
n−1
(t).
Par conséquent
P
_
_
_

¯
t
n−1
_
α
2
_

X
n+1

¯
X
n
S
n
_
1+
1
n

¯
t
n−1
_
α
2
_
_
_
_
= 1−α
d’où il suit que
P
_
¯
X
n
−S
n
_
1+
1
n
¯
t
n−1
_
α
2
_
≤X
n+1

¯
X
n
+S
n
_
1+
1
n
¯
t
n−1
_
α
2
_
_
= 1−α.
L’intervalle
¯
X
n
−S
n
_
1+
1
n
¯
t
n−1
_
α
2
_
≤X
n+1

¯
X
n
+S
n
_
1+
1
n
¯
t
n−1
_
α
2
_
est connu sous le nom du plus court intervalle de prédiction de niveau de confiance 1 −α
pour une seule nouvelle observation X
n+1
, X
n+1
∼N(µ, σ
2
).
111
Par exemple, supposons que n = 5, et
X
1
=−0.79, X
2
=−0.89, X
3
= 0.32, X
4
= 0.50, X
5
=−0.20.
Dans ce cas
¯
X
5
=−0.212, S
2
5
= 0.3960,
S
n
_
1+
1
n
= S
5
_
1+
1
5
=

0.47517 = 0.689,
et puisque
¯
t
4
(0.025) = 2.776, l’intervalle de prédiction pour X
6
est
−2.125 ≤X
6
≤1.701.
Exemple 6. Soit X = (X
1
, ..., X
n
)
T
un échantillon, X
i
∼ N(µ, 1), où µ est inconnu, et il
nous faut construire l’intervalle de prédiction pour une nouvelle observation X
n+1
, X
n+1

N(µ, 1), qui est indépendante de X. Il est claire que dans ce cas la variable aléatoire
Z =
X
n+1

¯
X
n
_
1+
1
n
suir la loi normale standard et donc
P
_
_
_
¸
¸
¸
¸
¸
¸
X
n+1

¯
X
n
_
1+
1
n
¸
¸
¸
¸
¸
¸
< ¯ x(α/2)
_
_
_
= 1−α,
où ¯ x(α/2) est α/2−quantille supérieur de la loi normale standard. Par exemple, si α=0.05,
alors pour les données de l’exemple 4 nous avons
¯ x(α/2) = ¯ x(0.025) = 1.96
et par conséquent l’intervalle de prédiction pour X
6
est
[X
6
+0.212[ < 1.96

1.2 = 1.96 1.095 = 2.15,
ou
−2.36 < X
6
< 1.94.
2.14 Intervalle de confiance pour la différence des moyennes
de deux lois normales
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux échantillons,
X
i
∼N(µ
X
, σ
2
X
), Y
j
∼N(µ
Y
, σ
2
Y
).
112
Supposons que X et Y sont indépendants. Notre but est d’estimer µ
X
−µ
Y
. D’abord on
étudie le cas quand σ
2
Y
et σ
2
X
sont connues. Dans notre problème la statistique T = (
¯
X
m
,
¯
Y
n
)
T
est exhaustive pour µ = (µ
X
, µ
Y
)
T
, où
¯
X
m
=
1
m
m

i=1
X
i
,
¯
Y
n
=
1
n
n

j=1
Y
j
(1)
sont les meilleurs estimateurs sans biais pour µ
X
, et µ
Y
, et comme on le sais déjà bien
¯
X
m
∼N
_
µ
X
,
σ
2
X
m
_
et
¯
Y
n
∼N
_
µ
Y
,
σ
2
Y
m
_
. (2)
Par conséqent, la statistique
¯
X
m

¯
Y
n
est le meilleur estimateur sans biais pour µ
X
−µ
Y
et
¯
X
m

¯
Y
n

_
µ
X
−µ
Y
,
σ
2
X
m
+
σ
2
Y
m
_
. (3)
Il suit de (3) que la variable aléatoire
Z =
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
_
σ
2
X
m
+
σ
2
Y
n
(4)
suit la loi normale standard, Z ∼N(0, 1), et donc
P
_
_
_
−¯ x(α/2) ≤
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
_
σ
2
X
m
+
σ
2
Y
m
≤ ¯ x(α/2)
_
_
_
= 1−α, (5)
ou, ce qui est équivalent,
P
_
_
_
¯
X
m

¯
Y
n
− ¯ x(α/2)
¸
σ
2
X
m
+
σ
2
Y
n
≤µ
X
−µ
Y

¯
X
m

¯
Y
n
+ ¯ x(α/2)
¸
σ
2
X
m
+
σ
2
Y
n
_
_
_
= 1−α.
(6)
Cette formule donne le plus court intervalle de confiance de niveau (1 −α) pour la diffé-
rence µ
X
−µ
Y
quand les variancea σ
2
X
et σ
2
Y
sont connues.
§15. Intervalle de confiance pour la différence des moyennes
de deux lois normales quand les variances sont inconnues.
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux échantillons normales indépendants,
X
i
∼N(µ
X
, σ
2
X
), Y
j
∼N(µ
Y
, σ
2
Y
), (1)
et on s’intéresse à l’estimation de µ
X
−µ
Y
, quand µ
X
et µ
Y
sont inconnues et
σ
2
Y
= σ
2
X
= σ
2
,
où σ
2
est aussi inconnue. Il est évident que
T =
_
¯
X
m
,
¯
Y
n
, S
2
X
, S
2
Y
_
T
(2)
113
est une statistique exhaustive pour θ = (µ
X
, µ
Y
, σ
2
)
T
, où
¯
X
m
=
1
m
m

i=1
X
i
∼N(µ
X
,
σ
2
m
),
¯
Y
n
=
1
n
n

j=1
Y
j
∼N(µ
Y
,
σ
2
n
), (3)
(m−1)S
2
X
σ
2
= χ
2
m−1
et
(n−1)S
2
Y
σ
2
= χ
2
n−1
(4)
sont des variables aléatoires indépendantes. La statistique T n’est pas une statistique mini-
male exhaustive pour θ = (µ
X
, µ
Y
, σ
2
)
T
. Dans ce problème la statistique minimale exhaus-
tive est
U = (
¯
X
m
,
¯
Y
n
, S
2
)
T
, (5)
où S
2
est l’estimateur de σ
2
appellé l’estimateur unifié sans biais :
S
2
=
m−1
n+m−2
S
2
X
+
n−1
n+m−2
S
2
Y
. (6)
De (4) et (6) il suit que
n+m−2
σ
2
S
2
= χ
2
m+n−2
, (7)
et donc
ES
2
= σ
2
et VarS
2
=

4
m+n−2
. (8)
Il est clair que des composantes
¯
X
m
,
¯
Y
n
, S
2
de la statistique minimale exhaustive U sont des
variables aléatoires indépendantes. L’estimateur unifié S
2
est une moyenne pondérée de S
2
X
et S
2
Y
. On peut voir que le poids plus grand sera donné à celui des estimateurs de σ
2
qui
correspond au échantillon de taille max(m, n). Si n = m alors S
2
est une moyenne ordinaire
de S
2
X
et S
2
Y
. Il faut remarquer que de (6), (7) et (8) il suit que
VarS
2
=

4
n+m−2
<
_
VarS
2
X
=

4
m−1
,
VarS
2
Y
=

4
n−1
,
(9)
et on voit que l’estimateur unifié S
2
est meilleur que S
2
X
ou S
2
Y
.
Puisque
¯
X
m
et
¯
Y
n
sont les meilleurs estimateur sans biais pour µ
X
et µ
Y
respectivement,
on en déduit immédiatement que
¯
X
m

¯
Y
n
est le meilleur estimateur sans biais pour µ
X
−µ
Y
,
et de (3) il suit que
¯
X
m

¯
Y
n
∼N
_
µ
X
−µ
Y
,
σ
2
m
+
σ
2
n
_
. (10)
Par conséquent, la variable eléatoire
Z =
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
σ
_
1
m
+
1
n
(11)
suit la loi normale standard. Comme la statistique S, donnée par (6) est indépendante de
¯
X
m

¯
Y
n
, et grace à la relation (7), du Théorème de Fisher il résulte que la variable aléatoire
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
S
_
1
m
+
1
n
=t
n+m−2
(12)
114
suit la loi de Student avec m+n−2 degrés de liberté, et donc
P
_
[(µ
X
−µ
Y
) −(
¯
X
m

¯
Y
n
)[ ≤
¯
t
m+n−2
_
α
2
_
S
_
1
m
+
1
n
_
= 1−α, (13)
c’est-à-dire
¯
X
m

¯
Y
n

¯
t
m+n−2
_
α
2
_
S
_
1
m
+
1
n
≤µ
X
−µ
Y

¯
X
m

¯
Y
n
+
¯
t
m+n−2
_
α
2
_
S
_
1
m
+
1
n
(14)
est le plus court intervalle de confiance de niveau (1−α) pour la différence µ
X
−µ
Y
de deux
moyennes des lois normales possédant la même variance inconnue.
Remarque 1. Supposons que σ
2
X
et σ
2
Y
sont inconnues, mais leur quotient σ
2
X

2
Y
est
donné, par exemple,
σ
2
X

2
Y
= k, k > 0, (15)
et il faut construire le plus court intervalle de confiance de niveau 1−α pour la différence
µ
X
−µ
Y
, où µ
X
et µ
Y
sont aussi inconnues. Le cas k = 1 vient d’être considéré. So l’on note
σ
2
Y
= σ
2
, alors σ
2
X
= kσ
2
et au lieu de (3) et (4) nous aurons
¯
X
m
∼M
_
µ
X
,

2
m
_
et
¯
Y
n
∼N
_
µ
Y
,
σ
2
n
_
, (16)
(m−1)S
2
X

2
= χ
2
m−1
et
(n−1)S
2
Y
σ
2
= χ
2
n−1
, (17)
et au lieu de (10) on a
¯
X
m

¯
Y
n
∼N
_
µ
X
−µ
Y
,

2
m
+
σ
2
n
_
, (18)
d’où il vient que la variable aléatoire
Z =
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
σ
_
k
m
+
1
n
(19)
suit la loi normale standard. D’autre côté, puisque
(m−1)S
2
X

2
+
(n−1)S
2
Y
σ
2
= χ
2
m−1

2
n−1
= χ
2
m+n−2
, (20)
de (17) il suit que l’estimateur unifié sans biais pour σ
2
est
S
2
=
1
m+n−2
_
m−1
k
S
2
X
+(n−1)S
2
Y
_
. (21)
Comme
m+n−2
σ
2
S
2
= χ
2
m+n−2
, (22)
et S
2
est indépendante de Z, donnée par (19), du Théorème de Fisher on déduit que la
variable aléatoire
¯
X
m

¯
Y
n
−(µ
X
−µ
Y
)
S
_
k
m
+
1
n
=t
m+n−2
(23)
115
suit la loi de Student avec m+n−2 degrés de liberté, et donc
P
_
[(µ
X
−µ
Y
) −(
¯
X
m

¯
Y
n
)[ ≤
¯
t
m+n−2
_
α
2
_
S
_
k
m
+
1
n
_
= 1−α, (24)
c’est-à-dire
¯
X
m

¯
Y
n

¯
t
m+n−2
_
α
2
_
S
_
k
m
+
1
n
≤µ
X
−µ
Y

¯
X
m

¯
Y
n
+
¯
t
m+n−2
_
α
2
_
S
_
k
m
+
1
n
(25)
est le plus court intervalle de confiance de niveau (1 −α) pour la différence µ
X
−µ
Y
de
deux moyennes des lois normales possédant le qoutient donné k = σ
2
X

2
Y
des variances
inconnues σ
2
X
et σ
2
Y
.
Exemple 1. Pour mesurer un angle A il étaient effectuées deux expériments indépen-
dants. Dans le premier étaient reçues deux valeurs
21
0
.76 et 20
0
.98, (26)
et dans le second il’en avait 6
21
0
.64, 21
0
.54, 22
0
.32, 20
0
.56, 21
0
.43, 21
0
.07. (27)
Nous supposons que toutes les erreurs de mesures sont des réalisatios des variables aléa-
toires normales indépendantes, et dans le deuxième expériment on utilise un instrument
de mesure dont la précision est 4 fois meilleur que celui du premier expériment. Il faut
construire le plus court intervalle de confiance de niveau (1−α) pour la différence b
X
−b
Y
des erreurs systématiques b
X
et b
Y
des instruments utilisés dans le premier et second expé-
riments (α = 0.01).
Solution. Suivant la théorie des erreurs de Gauss nous pouvons supposer que les données
(26) représentent la réalisation d’un échantillon normale
X = (X
1
, X
2
)
T
, X
i
∼N(µ
X
, σ
2
X
), (28)
et les données (27) représentent la réalisation d’un échantillon normale
Y = (Y
1
, ...,Y
6
)
T
, Y
j
∼N(µ
X
, σ
2
), (29)
où σ
2
X
= 4σ
2
, car k = 4. Dans ce cas la statistique exhaustive est
(
¯
X
m
, S
2
X
,
¯
Y
n
, S
2
Y
)
T
,
avec
¯
X
m
=
¯
X
2
= 21.37,
¯
Y
n
=
¯
Y
6
= 21.42, S
2
X
= 0.3042, S
2
Y
= 0.3445. (30)
De (21) il suit que l’estimateur unifié pour σ
2
est
S
2
=
1
m+n−2
_
m−1
k
S
2
x
+(n−1)S
2
Y
_
=
1
6
_
1
4
S
2
X
+5S
2
Y
_
. (31)
Puisque
_
k
m
+
1
n
=
_
13
6
et
¯
t
6
(0.05) = 1.943, (32)
116
et comme
µ
X
−µ
Y
= b
X
−b
Y
,
de (25) on a
P
_
[(b
X
−b
Y
) −(
¯
X
m

¯
Y
n
)[ ≤
¯
t
6
(0.05)S
_
1
m
+
1
n
_
= 1−α, (33)
et donc de (30)-(32) nous obtenons que la différence systématique b
X
−b
Y
appartient à
l’intervalle
[(b
X
−b
Y
) −(−0.05)[ ≤1.57,
c’est-à-dire
−1
0
.62 ≤b
X
−b
Y
≤1
0
.52.
2.15 Intervalle de confiance pour le quotient des variances
de deux lois normales.
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux échantillons indépendantes,
X
i
∼N(µ
X
, σ
2
X
) et Y
j
∼N(µ
Y
, σ
Y
)
T
.
D’après le théorèm de Fisher nous avons
(m−1)S
2
X
σ
2
X
= χ
2
m−1
et
(n−1)S
2
Y
σ
2
Y
= χ
2
n−1
(1)

S
2
X
=
1
m−1
m

i=1
(X
i

¯
X
m
)
2
et S
2
Y
=
1
n−1
n

i=1
(Y
j

¯
Y
n
)
2
(2)
sont les meilleurs estimateurs sans biais pour σ
2
X
et σ
2
Y
, et
¯
X
m
=
1
m
m

i=1
X
i
et
¯
Y
n
=
1
n
n

i=1
Y
i
(3)
sont des meilleurs estimateurs sans biais pour µ
X
et µ
Y
. Puisque les échantillons X et Y sont
indépendantes , les statistiques S
2
X
et S
2
Y
sont indépendantes aussi, et donc nous obtenons
Théorème 1. La variable aléatoire
F =
S
2
X

2
X
S
2
Y

2
Y
= F
m−1,n−1
(4)
suit la loi F avec m−1 et n−1 degrés de liberté.
117
Nous allons utiliser ce théorème pour construire l’intervalle de confiance pour le quo-
tient σ
2
Y

2
X
. En utilisant (4) et la table de F-répartition on peut trouver deux quantilles
F
m−1,n−1
(α/2) =
1
¯
F
n−1,m−1
(α/2)
et
¯
F
m−1,n−1
(α/2)
tels que
P¦F
m−1,n−1
(α/2) ≤F
m−1,n−1

¯
F
m−1,n−1
(α/2)¦ = 1−α. (5)
Dans ce cas de (4)et (5) nous avons
P
_
F
m−1,n−1
(α/2) ≤
σ
2
Y
σ
2
X
S
2
X
S
2
Y

¯
F
m−1,n−1
(α/2)
_
= 1−α (6)
ou
P
_
F
m−1,n−1
(α/2)
S
2
Y
S
2
X

σ
2
Y
σ
2
X

S
2
Y
S
2
X
¯
F
m−1,n−1
(α/2)
_
= 1−α. (7)
Puisque
¯
F
m−1,n−1
(α/2) =
1
F
n−1,m−1
(α/2)
, (8)
nous obtenons l’intervalle de confiance de niveau (1−α) pour le quotient σ
2
Y

2
X
:
P
_
1
¯
F
n−1,m−1
(α/2)
S
2
Y
S
2
X

σ
2
Y
σ
2
X

S
2
Y
S
2
X
¯
F
m−1,n−1
(α/2)
_
= 1−α. (9)
De (9) il suit immédiatement que l’intervalle de confiance de niveau (1−α) pour le quotient
σ
2
X

2
Y
est
P
_
1
¯
F
m−1,n−1
(α/2)
S
2
X
S
2
Y

σ
2
X
σ
2
Y

S
2
X
S
2
Y
¯
F
n−1,m−1
(α/2)
_
= 1−α. (10)
Par conséquent, (9) et (10) nous donnent deux intervalles de confiance de niveau (1 −α)
pour σ
2
Y

2
X
et σ
2
X

2
Y
respectivement.
Exemple 1. Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux échantillons indépen-
dantes,
X
i
∼N(µ
X
, σ
2
X
) et Y
j
∼N(µ
Y
, σ
Y
)
T
.
Nous supposons que un experiment pour m = 25 et n = 14 on a obtenu
S
2
X
= 74 10
−6
et S
2
Y
= 20 10
−6
.
En utilisant (10) nous construisons l’intervallle de confiance de niveau (1 −α) pour le
quotient des variances σ
2
X

2
Y
. Prenons α = 0.1. Puisque S
2
X
/S
2
Y
= 3.70,
¯
F
n−1,m−1
_
α
2
_
=
¯
F
13,24
(0.05) = 2.13
et
1/
¯
F
m−1,n−1
_
α
2
_
=
1
¯
F
24,13
_
α
2
_ = 1/2.35 = 0.426,
on a que
1.58 <
σ
2
X
σ
2
Y
< 7.88,
avec le coefficient de confiance 0.9.
118
2.16 La loi de Thompson.
Soit X = (X
1
, . . . , X
n
)
T
un échantillon normal, X
i
∼N(µ, σ
2
). Notons
η
j
=
X
j

¯
X
n
s
n
=
_
n
n−1
Z
j
, j = 1, 2, . . . , n, (2.1)
où Z
j
est donné par (8.57),
¯
X
n
=
1
n
n

i=1
X
i
, s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
.
Dans ce cas pour tout j la statistique η
j
suit la loi de Thompson à n−2 degrées de liberté,
P
_
η
j
≤x
_
= T
n−2
(x) =
Γ
_
n−1
2
_
_
π(n−1)Γ
_
n−2
2
_
x



n−1
_
1−
t
2
n−1
_
n−4
2
dt, (2.2)
pour [x[ <

n−1.
Soit τ
m
une variable aléatoire qui suit la loi de Thompson à m degrés de liberté,
P¦τ
m
≤x¦ = T
m
(x).
On sait que la statistique
t
m
= τ
m
_
m
m+1−τ
2
m
(2.3)
suit la distribution de Student à m degrés de liberté,
P¦t
m
≤x¦ = S
m
(x).
On voit de (3) que
τ
m
=t
m
¸
m+1
m+t
2
m
(2.4)
et par conséquent il en résulte que les quantiles τ(α, m) de la loi de Thompson à m degrés
de liberté (de niveau α) s’expriment en fonction des quantiles correspondants t(α, m) de la
loi de Student à m degrées de liberté par la formule
τ(α, m) =t(α, m)
¸
m+1
m+t
2
(α, m)
. (2.5)
On sait que si n →∞, alors
S
m
(x) →Φ(x) (2.6)
et par conséquent de (3) à (5) on déduit une approximation normale pour le loi de Thomp-
son, en utilisant la liaison qui existe entre les variables aléatoires τ
m
et β = β
m
2
,
m
2
:
β =
τ
m
+

m+1
2

m+1
, (2.7)
119
ce qui est équivalent à
P¦τ
m
≤x¦ = P
_
β
m
2
,
m
2

x +

m+1
2

m+1
_
= I
x+

m+1
2

m+1
_
m
2
,
m
2
_
, (2.8)
oùβ
α,β
est une variable aléatoire qui suit la loi béta de paramètres α et β.
Remarque 1. (Coefficient de correlation d’un échantillon normale dans R
2
).
Soit
_
X
1
Y
1
_
,
_
X
2
Y
2
_
, . . . ,
_
X
n
Y
n
_
un échantillon d’une loi normale de dimension 2, i.e. pour tout (x, y) ∈ R
2
P¦X
i
≤x,Y
i
≤y¦ =
1

_
1−ρ
2
x−µ
x
σ
x

−∞
y−µ
y
σ
y

−∞
exp
_

1
2(1−ρ
2
)
(u
2
−2ρuv +v
2
)
_
dudv,

µ
x
= EX
i
, µ
y
= EY
i
, σ
2
x
= VarX
i
, σ
2
y
= VarY
i
,
ρ =
1
σ
x
σ
y
E(X
i
−µ
x
)(Y
i
−µ
y
).
On peut montrer que les statistiques
¯
X
n
=
1
n
n

i=1
X
i
,
¯
Y
n
=
1
n
n

i=1
Y
i
, s
2
x
=
1
n
n

i=1
(X
i

¯
X
n
)
2
,
s
2
y
=
1
n
n

i=1
(Y
i

¯
Y
n
)
2
, ˆ ρ
n
=
s
xy
s
x
s
y
sont les estimateurs de maximum de vraisemblance pour les paramètres µ
x
, µ
y
, σ
2
x
, σ
2
y
et ρ
respectivement, où
s
xy
=
1
n
n

i=1
(X
i

¯
X
n
)(Y
i

¯
Y
n
).
On peut montrer sous l’hypothèse H
0
: ρ = 0 la densité p
n
(r), n ≥3, de la statistique ˆ ρ
n
est
donnée par la formule :
p
n
(r) =
1

π
Γ
_
n−1
2
_
Γ
_
n−2
2
_(1−r
2
)
n−4
2
, [r[ < 1, (2.9)
d’où on tire que si l’hypothése H
0
est juste , alors
ˆ ρ
2
n
= β1
2
,
n−2
2
et t
n−2
= ˆ ρ
n
¸
n−2
1− ˆ ρ
2
n
. (2.10)
120
2.17 Méthode du maximum de vraisemblance.
Supposons que’on a un échantillon
X ∼P
θ
, θ = (θ
1
, . . . , θ
m
)
T
∈ Θ⊂R
m
et que P
θ
est absolument continue par rapport à une mesure σ-finie µ. Notons par f (x; θ) la
densité de X.
Soit
L(θ) = L(X, θ) = f (X; θ), θ ∈ ΘΘΘ⊂R
m
,
la fonction de vraisemblance de X.
On appelle L(X, θ) ainsi car, sachant une réalisation x du vecteur aléatoire X, la va-
leur L(x, θ) = f (x, θ) de L(X, θ) nous permet de trouver les plus vraisemblables valeurs du
paramètre θ.
En effet, soit V(x) un voisinage infiniment petit de x. Alors
P
θ
(X ∈V(x)) ≈ f (x, θ) µ(V(x)) (1)
(dans le cas discret on a une égalité). Les valeurs de θ plus vraisemblables sont telles qui
maximisent la probabilité que X prend la valeur observée x (ou prend la valeur dans un
infiniment petit voisinage de x, si telles probabilités sont égales à zero), donc d’ après (1)
maximisent la realisation L(x, θ) = f (x, θ) de la fonction de vraisemblance L(X, θ) par
rapport à θ.
Définition 1. Une statistique
ˆ
θ
n
=
ˆ
θ
n
(X) est appellée estimateur de maximum de vrai-
semblance (EMV) du paramètre θ, si µ-p.s.
L(X,
ˆ
θ
n
) = sup
θ∈ΘΘΘ
L(X, θ). (2)
Si g : ΘΘΘ →R
k
est une fonction mésurable, k ≤ m, alors ˆ g
n
= g(
ˆ
θ
n
) est appellé estimateur
de maximum de vraisemblance de g = g(θ).
Rémarque 1. Si T =T(X) est une statistique exhaustive, alors le critère de factorisation
L(X, θ) = g(T(X), θ)h(X) implique que l’EMV est une fonction de T.
Générallement on cherche l’EMV en maximisant la fonction lnL(X, θ) par rapport à θ,
car cette fonction atteint le maximum dans le même point que L et dans la plupart des cas
concrets est plus simple.
Si la fonction lnL(X, θ) est dérivable par rapport à θ, alors l’EMV vérifie le système
d’équations de vraisemblance
U(θ) = 0,

U(θ) =
_
∂lnL(X, θ)
∂θ
_
T
=
_
∂lnL(X, θ)
∂θ
1
, . . . ,
∂lnL(X, θ)
∂θ
m
_
T
(3)
est la fonction score.
La forme de la fonction de vraisemblance dépend de la structure de l’échantillon.
121
Exemple 1. Si X = (X
1
, . . . , X
n
)
T
est un échantillon simple, X
i
∼ p(x, θ), θ ∈ ΘΘΘ ⊂R
m
,
alors
L(X, θ) =
n

i=1
p(X
i
, θ), lnL(X, θ) =
n

i=1
ln p(X
i
, θ),
and
U(θ) =
_
n

i=1
∂ln p(X
i
, θ)
∂θ
_
T
. (4)
Exemple 2. Censure du premier type. On fixe le temps t de l’expérience et on observe
n sujets. Les durées de vie T
1
, . . . , T
n
de sujets sont des v.a. i.i.d. de la fonction de répartition
F(t, θ), θ ∈ ΘΘΘ⊂R
m
et de la densité p(t, θ) par rapport à la mesure de Lebesque . La valeur
t
i
de la variable aléatoire T
i
n’est pas observée, si t
i
> t. Les moments t
(1)
≤. . . ≤t
(d(t))
de
d(t) décès, (d(t) ≤ n), sont observés pendant l’expérience, si d(t) > 0. Si d(t) = 0, t
(i)
ne
sont pas observés. Le vecteur
(t
(1)
, . . . , t
(d(t))
, d(t))
T
est une réalisation d’un vecteur aléatoire
(T
(1)
, . . . , T
(D(t))
, D(t))
T
.
Cherchons la densité de ce vecteur :
f
T
(1)
,...,T
(D(t))
,D(t)
(t
1
, . . . , t
d
, d)
= lim
h
1
,...,h
d
↓0
1
h
1
. . . h
d
P¦t
1
< T
(1)
≤t
1
+h
1
, . . . , t
d
< T
(d)
≤t
d
+h
d
, D(t) = d¦
= lim
h
1
,...,h
d
↓0
1
h
1
. . . h
d
P¦D(t
1
) = 0, D(t
1
+h
1
) −D(t
1
) = 1, . . . , D(t
d
+h
d
) −D(t
d
) = 1,
D(t) −D(t
d
) = 0, D(∞) −D(t) = n−d¦ =
n!
(n−d)!
[1−F(t, θ]
n−d
p(t
1
, θ). . . p(t
d
, θ),
si t
1
<t
2
< . . . t
d
, d = 1, 2, . . .).
Donc la fonction de vraisemblance est
L(θ) =
n!
(n−D(t))!
[1−F(t, θ]
n−D(t)
p(T
(1)
, θ). . . p(T
(D(t))
, θ), (5)
si D(t) = 1, 2, . . ., et
L(θ) = [1−F(t, θ]
n
, (6)
si D(t) = 0.
La même fonction de vraisemblance (avec une constante près) peut être obtenu diffé-
rament. Posons
X
i
= min(T
i
, t), δ
i
= 1
¦T
i
≤t¦
.
Sachant les paires
(X
1
, δ
1
), . . . , (X
n
, δ
n
),
122
on peut trouver T
(1)
, . . . , T
(D(t))
: il faut ordonner les X
i
, qui corresponent à δ
i
= 1. Les
vecteurs aléatoirs (X
i
, δ
i
) sont i.i.d., donc cherchons la loi de (X
1
, δ
1
). On a
F
X
1

1
(x, 1; θ) = P
θ
(X
1
≤x, δ
1
= 1) = P
θ
(T
1
≤x, T
1
≤t) =
F
T
i
(min(x, t)) =

x
0
p(u, θ)1
¦u≤t¦
du,
F
X
1

1
(x, 0; θ) = P
θ
(X
1
≤x, δ
1
= 0) = P
θ
(t ≤x, T
1
>t) =
1
¦t≤x¦
(1−F(t, θ)).
Considérons la mesure µ sur R
+
¦0, 1¦ suivante :
µ([0, x] ¦1¦) =

x
0
1
¦u≤t¦
du, µ([0, x] ¦0¦) = 1
¦t≤x¦
.
Alors
F
X
1

1
(x, k; θ) =

x
0
p
k
(u, θ)[1−F(t, θ)]
1−k
µ(du, k),
et donc la densité de (X
i
, δ
i
) par rapport à µ est
p
X
i

i
(x
i
, k
i
; θ) = p
k
i
(x
i
, θ)[1−F(t, θ)]
1−k
i
.
Donc la fonction de vraisemblance est
L(X
1
, δ
1
, . . . , X
n
, δ
n
; θ) =
n

i=1
p
δ
i
(X
i
, θ)[1−F(X
i
, θ)]
1−δ
i
. (7)
Notons que cette fonction est ´ gale à la fonction donnèe par (5) et (6) à la constante près :
L(X
1
, δ
1
, . . . , X
n
, δ
n
; θ) =
D(t)

i=1
p(T
(i)
, θ)[1−F(t, θ)]
n−D(t)
, si D(t) > 0
ou
L(X
1
, δ
1
, . . . , X
n
, δ
n
; θ) = [1−F(t, θ)]
n
,
si D(t) = 0.
Des censures de plusieurs types sont considérée dans les chapitres suivants.
Exemple 3. (Données groupés) Soit Z
n
= (Z
n1
, . . . , Z
nN
) vecteur aléatoire qui suit la loi
multinomiale M
N
(n, p(θ)), où p(θ) = (p
1
(θ), . . . , p
N
(θ))
T
, θ ∈ ΘΘΘ ⊂R
m
.
Par exemple, si la région X des valeurs des v.a. i.i.d. X
i
∼ F(x, θ), θ ∈ ΘΘΘ ⊂ R
m
(i =
1, . . . , n) est divisé en N intervalles I
1
, . . . , I
N
, alors Z
nj
peut être interpreté comme le nombre
aléatoire des X
i
, qui appartiennent à I
j
:
Z
nj
=
n

i=1
1
¦X
i
∈I
j
¦
et p
i
(θ) = P
θ
(X
i
∈ I
j
).
Donc
P
θ
(Z
n
= z
n
) = P¦Z
n1
= k
1
, . . . , Z
nN
= k
N
¦ =
n!
k
1
! . . . k
N
!
p
k
1
1
(θ)p
k
2
2
(θ). . . p
k
N
N
(θ).
123
Supposons que n’observe que les v.a. Z
nj
. Alors la fonction de vraisemblance est
L(Z
n
, θ) =
n!
Z
n1
! . . . Z
nN
!
p
Z
n1
1
(θ)p
Z
n2
2
(θ). . . p
Z
nN
N
(θ).
19. Propriétés asymptotiques des estimateurs de maximum de vraisemblance
On va démontrer que sous conditions générales des estimateurs de maximum de vrai-
semblance sont consistants et asymptotiquement efficaces.
Soit
X = (X
1
, . . . , X
n
),
un échantillon, où X
1
, . . . , X
n
sont des vecteurs aléatoires indépendants,
X
i
∼ p
i
(x
i
, θ), θ ∈ ΘΘΘ⊂R
m
,
où p
i
(x
i
, θ) est la densité du vecteur r
i
-dimensionnel X
i
par rapport à une mesure σ-fini µ.
La fonction de vraisemblance a la forme
L(X, θ) =
n

i=1
p
i
(X
i
, θ).
On a vu que sous des conditions générales la matrice d’information de Fisher a la forme
I
n
(θ) = E
θ
ˆ
I
n
(X, θ), où
ˆ
I
n
(X, θ) =−

2
∂θ
2
lnL(X, θ).
Si X
1
, . . . , X
n
sont des vecteurs aléatoires i.i.d. de la même dimension r (en cas r = 1 on a
un échantillon simple), alors p
i
= p, I
n
(θ) = nI
1
(θ), où
I
1
(θ) = E
θ
ˆ
I
1
(X
1
, θ),
ˆ
I
1
(X
1
, θ) =

2
∂θ
2
p(X
1
, θ).
Théorème. Supposons que les vecteurs aléatoires X
1
, . . . , X
n
sont i.i.d. et
1) ΘΘΘ est ouvert ;
2) presque pour tout y ∈ R
r
la densité p(y, θ) est deux fois continument dérivable par
rapport à θ dans un voisinage V
ρ
=¦θ :[[ θ−θ
0
[[≤ρ¦ de la vraie valeur θ
0
du paramètre
θ ;
3) on peut dériver deux fois sous le signe de l’integrale :

R
r

∂θ
p(y, θ)dy =

∂θ

R
r
p(y, θ
0
)dy = 0,

R
r

2
∂θ
2
p(y, θ
0
)dy =

∂θ

R
r

∂θ
p(y, θ
0
)dy = 0;
4) la matrice d’information de Fisher I
1

0
) est définie positive ;
5) il existent des fonctions non-negatives h et b, telles que pour presque tous y ∈ R
r
et
tous θ ∈V
ρ
[[
ˆ
I
1
(y, θ) −
ˆ
I
1
(y, θ
0
) [[≤h(y)b(θ), E
θ
0
¦h(X
1
)¦ < ∞, b(θ
0
) = 0,
la fonction b est continue au point θ
0
.
124
Alors il existe une suite des estimateurs ¦
ˆ
θ
n
¦ telle que
P(U(X,
ˆ
θ
n
) = 0) →1,
ˆ
θ
n
P
→θ
0
, (1)
et

n(
ˆ
θ
n
−θ
0
)
d
→N
m
(0, I
−1
1

0
)). (2)
Démonstration. Soit c > 0 une constante et
B
n
c
=¦θ : (θ−θ
0
)
T
I
n

0
)(θ−θ
0
) ≤c
2
¦ =¦θ : [[ I
1/2
n

0
)(θ−θ
0
) [[≤c¦ (3)
un voisinage de θ
0
. Notons par ∂V
ρ
= ¦θ :[[ θ−θ
0
[[= ρ¦ la frontière de V
ρ
. La condition
4) implique que
inf
θ:θ∈∂V
ρ
(θ−θ
0
)
T
I
1

0
)(θ−θ
0
) > 0,
donc il existe N = N(ρ) > 0 tel que B
n
c
∩∂V
ρ
= / 0, quand n > N et donc B
n
c
⊂V
ρ
. Il est
evident aussi que B
n
c
→θ
0
, i.e. sup
θ∈B
n
c
[[ θ−θ
0
[[→0 quand n →∞.
On va montrer que
P
θ
0
_
sup
θ∈∂B
n
c
lnL(θ) −lnL(θ
0
) < 0
_
→1, quand n →∞. (4)
Pour tout θ ∈ ∂B
n
c
écrivons la formule de Taylor :
lnL(θ) −lnL(θ
0
) =U
T

0
)(θ−θ
0
) −
1
2
(θ−θ
0
)
T
ˆ
I
n


)(θ−θ
0
), (5)
où θ

= θ

(X) est un point sur la ligne entre θ et θ
0
.
On va montrer d’abord que
1
n
ˆ
I
n


) =
1
n
I
n

0
) +o
P
(1). (6)
La condition 5) implique que
E
θ
0
[[
1
n
(
ˆ
I
n


) −
ˆ
I
n

0
)) [[≤E
θ
0
[[
ˆ
I
1


) −
ˆ
I
1

0
)) [[≤
sup
θ∈B
n
c
b(θ) E
θ
0
h(X
1
) →0.
Cette convergence implique que
1
n
ˆ
I
n


) −
1
n
ˆ
I
n

0
)
L
1
→0 =⇒
1
n
ˆ
I
n


) −
1
n
ˆ
I
n

0
)
P
→0. (7)
La loi de grands nombres implique que
1
n
ˆ
I
n

0
) =−
1
n
n

i=1

2
∂θ
2
ln p(X
i
, θ
0
)
P
→I
1

0
), (8)
125
car
ˆ
I
n

0
) est la somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la variance I
1

0
).
Donc on a
1
n
ˆ
I
n


) =
1
n
ˆ
I
n

0
) +o
P
(1) = I
1

0
) +o
P
(1) =
1
n
I
n

0
) +o
P
(1). (9)
Cette égalité, l’égalité (5) et la définition de ∂B
n
c
(voir (3)) impliquent que uniformément
sur ∂B
n
c
lnL(θ) −lnL(θ
0
) =U
T

0
)(θ−θ
0
) −
1
2
(θ−θ
0
)
T
I
n

0
)(θ−θ
0
) +o
P
(1)
=U
T

0
)(θ−θ
0
) −
c
2
2
+o
P
(1). (10)
Donc
P
θ
0
_
sup
θ∈∂B
n
c
lnL(θ) −lnL(θ
0
) < 0
_

P
θ
0
_
sup
θ∈∂B
n
c
U
T

0
)(θ−θ
0
) + sup
θ∈∂B
n
c
[ o
P
(1) [<
c
2
2
_
≥P
θ
0
_
sup
θ∈∂B
n
c
U
T

0
)(θ−θ
0
) <
c
2
4
, [ o
P
(1) [<
c
2
4
_

1−P
θ
0
_
sup
θ∈∂B
n
c
U
T

0
)(θ−θ
0
) ≥
c
2
4
_
−P
θ
0
_
[ o
P
(1) [≥
c
2
4
_
. (11)
Notons que sup
µ∈R
m
,[[µ[[=1
a
T
µ =[[ a [[ pour tout a ∈ R
m
, donc
sup
θ∈∂B
n
c
U
T

0
)(θ−θ
0
) = c sup
θ∈∂B
n
c
U
T

0
)I
−1/2
n

0
)I
1/2
n

0
)(θ−θ
0
)/c
≤c sup
µ∈R
m
,[[µ[[=1
U
T

0
)I
−1/2
n

0
)µ = c [[ U
T

0
)I
−1/2
n

0
) [[ . (12)
L’inégalité de Tchebyshev-Bienaimé implique que
P
θ
0
_
[[ U
T

0
)I
−1/2
n

0
) [[≥
c/4) ≤(4/c)
2
E
θ
0
([[ U
T

0
)I
−1/2
n

0
) [[
2
)
= (4/c)
2
E
θ
0
U(θ
0
)I
−1
n

0
)U(θ
0
) = (4/c)
2
m. (13)
Pour tout δ > 0 on peut trouver c > 0 tel que (4/c)
2
≤δ/2. Fixons un tel c. Alors
P
θ
0
_
sup
θ∈∂B
n
c
U
T

0
)(θ−θ
0
) ≥
c
2
4
_
< δ/2. (14)
On peut trouver N = N(δ) > 0 tel que pour tous n ≥N
P
θ
0
_
[ o
P
(1) [≥
c
2
4
_
< δ/2. (15)
126
L’inégalités (11)-(15) impliquent la convergence (4).
La fonction lnL(θ) est continument dérivable sur V
ρ
⊃ B
n
c
, donc cette convergence im-
plique qu’il existe une suite d’estimateurs ¦
ˆ
θ
n
¦ telle que
P
θ
0
_
U(
ˆ
θ
n
) = 0, (
ˆ
θ
n
−θ
0
)
T
I
n

0
)(
ˆ
θ
n
−θ
0
) ≤c
2
_
→1,
donc pour tout ε > 0 la relation
P
θ
0
_
U(
ˆ
θ
n
) = 0, [[
ˆ
θ
n
−θ
0
[[≤ε
_
→1
implique la suivante
P
θ
0
_
U(
ˆ
θ
n
) = 0
_
→1,
ˆ
θ
n
P
→θ
0
.
Démontrons la normalité asymptotique des estimateurs
ˆ
θ
n
. En intégrant la gauche et la
droite de l’égalité

∂t
U¦θ
0
+t(
ˆ
θ
n
−θ
0
)¦ =

∂θ
U(¦θ
0
+t(
ˆ
θ
n
−θ
0
)¦(
ˆ
θ
n
−θ
0
) =

ˆ
I
n
¦θ
0
+t(
ˆ
θ
n
−θ
0
)¦(
ˆ
θ
n
−θ
0
)
par rapport à t, on obtient
−U(θ
0
) =U(
ˆ
θ
n
) −U(θ
0
) =−

1
0
ˆ
I
n

0
+t(
ˆ
θ
n
−θ
0
))dt (
ˆ
θ
n
−θ
0
). (15)
Montrons que le deuxième integrale est asymptotiquement equivalent à I
n

0
). La condition
5) implique
1
n
[[

1
0
ˆ
I
n

0
+t(
ˆ
θ
n
−θ
0
))dt −
ˆ
I
n

0
) [[

1
n
n

i=1

1
0
[[

2
∂θ
2
ln p(X
i
, θ
0
+t(
ˆ
θ
n
−θ
0
)) −

2
∂θ
2
ln p(X
i
, θ
0
) [[ dt

1
n
n

i=1
h(X
i
)

1
0
b(θ
0
+t(
ˆ
θ
n
−θ
0
))dt. (17)
Le premier facteur à la droite est la moyenne de v.a. i.i.d. de l’espérance fini, donc la loi de
grands nombres implique que
1
n
n

i=1
h(X
i
)
P
→E
θ
0
h(X
1
). (18)
Montrons que le deuxième facteur tend en probabilité vers 0. La continuité de la fonction
b en θ
0
et la condition b(θ
0
) = 0 impliquent que pour tout ε > 0 il existe ∆ = ∆(ε) tel que
b(θ) < ε, si [[ θ−θ
0
[[< ∆. Si [[
ˆ
θ
n
−θ
0
[[< ∆, alors pour tout t ∈ [0, 1]
b(θ
0
+t(
ˆ
θ
n
−θ
0
)) < ε ⇒

1
0
b(θ
0
+t(
ˆ
θ
n
−θ
0
))dt < ε.
Donc
P
θ
0
_

1
0
b(θ
0
+t(
ˆ
θ
n
−θ
0
))dt ≥ε
_
≤P
θ
0
([[
ˆ
θ
n
−θ
0
[[≥∆) →0. (19)
127
Les convergences (18) et (19) et l’inégalité (16) impliquent
1
n

1
0
ˆ
I
n

0
+t(
ˆ
θ
n
−θ
0
))dt =
1
n
ˆ
I
n

0
) +o
P
(1) =
1
n
I
n

0
) +o
P
(1). (20)
L’égalités (16) et (20) impliquent
1

n
U(θ
0
) =
_
1
n
ˆ
I
n

0
) +o
p
(1)
_

n(
ˆ
θ
n
−θ
0
) =
(I
1

0
) +o
p
(1))

n(
ˆ
θ
n
−θ
0
) (21)
La v.a. U(θ
0
) est une somme de vecteurs aléatoires i.i.d. de l’espérance 0 et de la matrice
de covariance I
1

0
). Le théorème limite centrale implique que
1

n
U(θ
0
)
d
→N
m
(0, I
1

0
)). (22)
Cette convergence, l’égalité (21) et le théorème de Slutsky impliquent que

n(
ˆ
θ
n
−θ
0
)
d
→N
m
(0, I
−1
1

0
)I
1

0
))I
−1
1

0
)) = N
m
(0, I
−1
1

0
)).
Corollaire. Sous les hypothèses du Théorème
(
ˆ
θ
n
−θ
0
)
T
ˆ
I
n
(
ˆ
θ
n
)(
ˆ
θ
n
−θ
0
)
d
→χ
2
m
. (23)
Démonstration. Le résultat du théorème implique que
(
ˆ
θ
n
−θ
0
)
T
I
1

0
)(
ˆ
θ
n
−θ
0
)
d
→χ
2
m
. (24)
La condition 5) du Théorème implique
E
θ
0
[[
1
n
ˆ
I
n
(X,
ˆ
θ
n
) −
ˆ
I
n
(X, θ
0
) [[≤
E
θ
0
[[
ˆ
I
1
(X
1
,
ˆ
θ
n
) −
ˆ
I
1
(X
1
, θ
0
) [[≤E
θ
0
h(X
1
)b(
ˆ
θ
n
) →0,
donc
1
n
ˆ
I
n
(
ˆ
θ
n
) = I
1

0
) +o
P
(1). (25)
(23) et (24) impliquent (22).
Corollaire. Sous les hypothèses du Théorème
U
T

0
)I
−1
n

0
)U(θ
0
)
d
→χ
2
m
et
U
T

0
)
ˆ
I
−1
n
(
ˆ
θ
n
)U(θ
0
)
d
→χ
2
m
. (26)
Corollaire. Si la fonction g : ΘΘΘ →G ⊂ R
k
a des dérivés partielles du premier ordre
continues, les hypothèses du Théorème sont vérifiées, ˆ g
n
= g(θ) est l’EMV de g = g(θ),
alors

n(ˆ g
n
−g
0
)
d
→N
k
(0, G(θ
0
)I
−1
1

0
))G
T

0
),
128
où g
0
est la vraie valeur de g et
G(θ
0
) =
_
∂g
i

0
)
∂θ
j
_
km
.
Ce résultat est impliqué par la méthode delta.
Corollaire. Sous les hypothèses du Corollaire
(ˆ g
n
−g
0
)
T
_
G(
ˆ
θ
n
)
ˆ
I
−1
n
(
ˆ
θ
n
)G
T
(
ˆ
θ
n
)
_
−1
(ˆ g
n
−g
0
)
d
→χ
2
k
.
Démonstration. Corollaire implique

n(ˆ g
n
−g
0
)
T
_
G(θ
0
)I
−1
n

0
)G
T

0
)
_
−1

n(ˆ g
n
−g
0
)
d
→χ
2
k
. (27)
La fonction G est continue, donc
G(
ˆ
θ
n
) = G(θ
0
) +o
P
(1). (28)
ce qui implique le résultat.
Le cas important est g = (θ
l
1
, . . . , θ
l
k
), où 1 ≤l
1
≤. . . ≤l
k
≤m. Dans ce cas g
i j
(θ) = 1,
si j = l
i
, et g
i j
(θ) = 0, sinon. Donc
A
i
1
...i
k
= G(
ˆ
θ
n
)
ˆ
I
−1
n
(
ˆ
θ
n
)G
T
(
ˆ
θ
n
)
est la sous-matrice de
ˆ
I
−1
n
(
ˆ
θ
n
) étante sur intersection de i
1
, . . . , i
k
-èmes lignes et i
1
, . . . , i
k
-
èmes colognes. Donc
(
ˆ
θ
l
1
−θ
0l
1
, . . . ,
ˆ
θ
l
k
−θ
0l
k
)
T
A
−1
i
1
...i
k
(
ˆ
θ
l
1
−θ
0l
1
, . . . ,
ˆ
θ
l
k
−θ
0l
k
)
d
→χ
2
k
. (29)
Généralisons le théorème pour le cas, quand les vecteurs X
i
ne sont pas nécéssairement
identiquement distribués.
Théorème. Supposons que
1) ΘΘΘ est ouvert ;
2) presque pour tout x
i
∈ R
r
i
(r
i
≤ r) la densité p
i
(x
i
, θ) est deux fois continument
dérivable par rapport à θ dans un voisinage V
ρ
=¦θ :[[ θ−θ
0
[[≤ρ¦ ;
3) on peut dériver deux fois par rapport à θ sous le signe des intégrales :

R
r
i

∂θ
p(x
i
, θ)dx
i
=

∂θ

R
r
i
p(x
i
, θ
0
)dx
i
= 0,

R
r
i

2
∂θ
2
p(x
i
, θ
0
)dx
i
=

∂θ

R
r
i

∂θ
p(x
i
, θ
0
)dx
i
= 0;
4) la matrice lim
n→∞
1
n
I
n

0
) = I
n

0
) est définie positive.
5) existent des fonctions non-negatives h
i
et b, telles que pour presque tous x
i
∈ R
r
i
et
tous θ ∈V
ρ
[[

2
∂θ
2
ln p
i
(x
i
, θ) −

2
∂θ
2
ln p
i
(x
i
, θ
0
) [[≤h
i
(x
i
)b(θ),
129
E
θ
0
¦sup
i
h(X
i
)¦ < ∞, b(θ
0
) = 0,
la fonction b est continue en θ
0
.
6) il existe un nombre positif δ > 0, tel que
lim
n→∞
1
n
1+δ
n

i=1
E
θ
0
[[

2
∂θ
2
ln p
i
(X
i
, θ
0
) [[
1+δ
= 0.
Alors il existe une suite des estimateurs ¦
ˆ
θ
n
¦ telle que
P(U(X,
ˆ
θ
n
) = 0) →1,
ˆ
θ
n
P
→θ
0
. (30)
Supposons, de plus, que
7) E
θ
0
sup
i
[[ f rac∂∂θln p
i
(X
i
, θ
0
) [[
2+δ
< ∞.
Alors

n(
ˆ
θ
n
−θ
0
)
d
→N
m
(0, I
−1

0
)). (31)
Démonstration. Soit B
n
c
un voisinage de θ
0
défini par (3). De même que dans le théorème
précedant la condition 4) implique que B
n
c
→θ
0
et que B
n
c
⊂V
ρ
, si n est grand.
Pour tout θ ∈ ∂B
n
c
écrivons le development (5). La condition 5) implique
E
θ
0
[[
1
n
(
ˆ
I
n


) −
ˆ
I
n

0
)) [[≤
E
θ
0
[[

2
∂θ
2
ln p
i
(X
i
, θ

) −

2
∂θ
2
ln p
i
(X
i
, θ
0
) [[≤
E
θ
0
sup
i
h
i
(X
i
) sup
θ∈B
n
c
b(θ) →0,
donc la convergence (7) a lieu.
La condition 6) et la loi de grands nombres impliquent
1
n
(
ˆ
I
n
(X, θ
0
) −I
n

0
)) =

1
n
n

i=1
_

2
∂θ
2
ln p
i
(X
i
, θ
0
) −E
θ
0
_

2
∂θ
2
ln p
i
(X
i
, θ
0
)
__
P
→0.
Cette convergence et la convergence (7) impliquent
1
n
ˆ
I
n


) =
1
n
I
n

0
) +o
P
(1).
Le reste de démonstration de la consistence est le même comme dans Théorème.
Démontrons la normalité asymptotique. On écrit l’égalité (16). La condition 5) implique
que
1
n
[[

1
0
ˆ
I
n

0
+t(
ˆ
θ
n
−θ
0
))dt −
ˆ
I
n

0
) [[≤
130
sup
i
h
i
(X
i
)

1
0
b(θ
0
+t(
ˆ
θ
n
−θ
0
))dt
P
→0.
Donc
1

n
U(θ
0
) =
_
1
n
I
n

0
) +o
p
(1)
_

n(
ˆ
θ
n
−θ
0
).
Notons
Y
i
=

∂θ
ln p
i
(X
i
, θ
0
).
Soit a ∈ R
m
¸0. Alors
a
T
U(θ
0
) =
n

i=1
a
T
Y
i
, E(a
T
Y
i
) = 0,
Var
θ
0
(a
T
U(θ
0
)) = a
T
I
n

0
)a.
Alors
a
T
U(θ
0
)
a
T
I
n

0
)a
d
→N(0, 1),
si la condition de Liapunov

n
i=1
E [ a
T
Y
i
[
2+δ
(a
T
I
n

0
)a)
1+δ/2
→0
est vérifiée. Mais l’inégalité
E [ a
T
Y
i
[
2+δ
≤[[ a [[
2+δ
Esup
i
[[ Y
i
[[
2+δ
implique que

n
i=1
E [ a
T
Y
i
[
2+δ
(a
T
I
n

0
)a)
1+δ/2

n
−δ
[[ a [[
2+δ
(a
T
1
n
I
n

0
)a)
1+δ/2
Esup
i
[[ Y
i
[[
2+δ
→0,
car l’espérance à la droite est finie d’après la condition 7), la matrice I(θ
0
) est définie
positive et donc
a
T
1
n
I
n

0
)a →a
T
I(θ
0
)a > 0,
d’où on tire que pour tout a ∈ R
m
¸0
1

n
a
T
U(θ
0
)
d
→N
m
(0, a
T
I(θ
0
)a)
et donc
1

n
I
−1

0
)U(θ
0
)
d
→N(0, I
−1

0
)),
1

n
_
1
n
I
n

0
)
_
−1
U(θ
0
)
d
→N(0, I
−1

0
)),
d’où on tire que

n(
ˆ
θ
n
−θ
0
) =
131
1

n
_
1
n
I
n

0
) +o
P
(1)
_
−1
U(θ
0
)
d
→N
m
(0, I
−1

0
)).
2.18 Propriétés asymptotiques du rapport de vraisemblance
Théorème. Sous les conditions du théorème on a
−2ln
L(X, θ
0
)
L(X,
ˆ
θ
n
)
d
→χ
2
(m).
Démonstration. D’apré la formule de Taylor
lnL(X, θ
0
) −lnL(X,
ˆ
θ
n
) =U
T
(X,
ˆ
θ
n
)(θ
0

ˆ
θ
n
)−
1
2
(
ˆ
θ
n
−θ
0
)
T
ˆ
I
n
(X, θ

(X))(
ˆ
θ
n
−θ
0
) =

1
2

n(
ˆ
θ
n
−θ
0
)
T
1
n
ˆ
I
n
(X, θ

(X))

n(
ˆ
θ
n
−θ
0
)
où θ

(X) est un point sur la ligne entre
ˆ
θ
n
et θ
0
et
[[ θ

(X) −θ
0
[[≤[[
ˆ
θ
n
−θ
0
[[
P
→0,
donc θ

(X)
P
→θ
0
.
Comme dans la démonstration du théorème (voir) , on a
1
n
ˆ
I
n


) −
1
n
ˆ
I
n

0
)
P
→0. (1)
Donc
1
n
ˆ
I
n


) =
1
n
ˆ
I
n

0
) +o
P
(1) = I
1

0
) +o
P
(1).
et
−2(lnL(X, θ
0
) −lnL(X,
ˆ
θ
n
)) =

n(
ˆ
θ
n
−θ
0
)
T
I
1

0
)

n(
ˆ
θ
n
−θ
0
) +o
P
(1).
La convergence

n(
ˆ
θ
n
−θ
0
)
d
→Z =∼N
m
(0, I
−1
1

0
))
implique que
−2(lnL(X, θ
0
) −lnL(X,
ˆ
θ
n
))
d
→Z
T
I
1

0
)Z ∼χ
2
(m).
Soit
φ = (φ
1
, φ
2
) : ΘΘΘ →G =G
1
G
2
⊂R
k
R
m−k
une bijection continument dérivable. Notons par ψ : G
1
G
2
→ΘΘΘ la fonction inverse.
Soient g
10
un point dans G
1
et ΘΘΘ
0
un sous-ensemble de ΘΘΘ, défini par
ΘΘΘ
0
=¦θ : φ
1
(θ) = g
10
¦ =¦θ : θ = ψ(g
10
, g
2
), g
2
∈ G
2
¦ ⊂ΘΘΘ. (2)
Exemple 1. Soit
φ
1
(θ) = θ
1
= (θ
1
, . . . , θ
k
), φ
2
(θ) = θ
2
= (θ
k+1
. . . , θ
m
)
132
des projection de
θ = (θ
1
, . . . , θ
m
), θ
1
∈ ΘΘΘ
1
, θ
2
∈ ΘΘΘ
2
, ΘΘΘ = ΘΘΘ
1
ΘΘΘ
2
.
Alors φ(θ) = θ, ψ(θ) = θ et
ΘΘΘ
0
=¦θ : θ
1
= θ
10
¦ =¦θ : θ = (θ
10
, θ
2
), θ
2
∈ ΘΘΘ
2
¦,
où g
10
= θ
10
est une valeur de θ
1
fixée.
Exemple 2. Soit k = 1,
φ
1
(θ) = lnθ
1
, φ
2
(θ) = θ
2
= (θ
2
, . . . , θ
m
).
Alors
φ(θ) = (lnθ
1
, θ
2
), ψ(g
1
, θ
2
) = (e
g
1
, θ
2
)
et
ΘΘΘ
0
=¦θ : lnθ
1
= g
10
¦ =¦θ : θ = (e
g
10
, θ
2
), θ
2
∈ ΘΘΘ
2
¦.
Exemple 3. Soit k = 1,
φ
1
(θ) = θ
1
−θ
2
, φ
2
(θ) = θ
2
.
Alors
φ(θ) = (θ
1
−θ
2
, θ
2
), ψ(g
1
, θ
2
) = (g
1

2
, θ
2
)
et
ΘΘΘ
0
=¦θ : θ
1
−θ
2
= g
10
¦ =¦θ : θ = (g
10

2
, θ
2
), θ
2
∈ ΘΘΘ
2
¦.
Exemple 4. Soit k = 1,
φ
1
(θ) = θ
1

2
, φ
2
(θ) = θ
2
.
Alors
φ(θ) = (θ
1

2
, θ
2
), ψ(g
1
, θ
2
) = (g
1
θ
2
, θ
2
)
et
ΘΘΘ
0
=¦θ : θ
1

2
= g
10
¦ =¦θ : θ = (g
10
θ
2
, θ
2
), θ
2
∈ ΘΘΘ
2
¦.
Théorème Supposons que les conditions du Théorème précédent sont vérifiés et ΘΘΘ
0
est
l’ensemble défini par (2). Si θ
0
∈ ΘΘΘ
0
alors
R(X, g
10
) =−2ln
sup
θ∈ΘΘΘ
0
L(X, θ)
sup
θ∈ΘΘΘ
L(X, θ)
=−2ln
sup
θ:φ
1
(θ)=g
10
L(X, θ)
L(X,
ˆ
θ
n
)
d
→χ
2
(k),
i.e. pour tout x ∈ R
P
θ
0
(R(X, g
10
) ≤x) →F
χ
2
k
(x).
133
Démonstration. On a
sup
θ∈ΘΘΘ
0
L(θ) = sup
θ:θ=ψ(g
10
,g
2
),g
2
∈G
2
L(θ)
= sup
g
2
:g
2
∈G
2
L(ψ(g
10
, g
2
)) = sup
g
2

2
∈G
2
L

(g
2
),
où L

(g
2
) = L(ψ(g
10
, g
2
)). La v.a. L

(X, g
2
) est la fonction de vraisemblance pour le mo-
dèle statistique
X ∼ f

(x, g
2
), g
2
∈ G
2
,
où f

(x, g
2
) = f (x, ψ(g
10
, g
2
)).
La consistance de
ˆ
θ
n
implique que
I
1

0
)

n(
ˆ
θ
n
−θ
0
) =
1

n
U(θ
0
) +o
P
(1), (3)
donc

n(
ˆ
θ
n
−θ
0
) = I
−1
1

0
)
1

n
U(θ
0
) +o
P
(1). (4)
Ce résultat implique que
2(lnL(X,
ˆ
θ
n
) −lnL(X, θ
0
)) =

n(
ˆ
θ
n
−θ
0
)
T
I
1

0
)

n(
ˆ
θ
n
−θ
0
) +o
P
(1)
=
1

n
U
T

0
)I
−1
1

0
)I
1

0
)I
−1
1

0
)
1

n
U(θ
0
) +o
P
(1)
=
1

n
U
T

0
)I
−1
1

0
)
1

n
U(θ
0
) +o
P
(1). (5)
De même, notant
˜ g
2
n
= ˜ g
2
n
(g
10
, X)
l’EMV de g
2
sous notre modèle, on a
2(lnL

(X, ˜ g
2n
) −lnL

(X, g
20
))
=
1

n
(U

)
T
(g
20
)(I

1
)
−1
(g
20
)
1

n
U

(g
20
) +o
P
(1). (6)
La fonction score est
U

(g
2
) =
∂lnL

(g
2
)
g
2
=
∂lnL(ψ(g
10
, g
2
))
∂g
2
=
∂ψ(g
10
, g
2
)
∂g
2
U(ψ(g
10
, g
2
)) =
A(g
0
)U(ψ(g
10
, g
2
)), (7)

A(g
10
, g
2
) =
∂ψ(g
10
, g
2
)
∂g
2
.
En particulier,
U

(g
20
) = A(g
0
)U(θ
0
), (8)
134
La matrice d’information de Fisher en g
20
est
I

1
(g
20
) = E
θ
0
U

(g
20
)(U

)
T
(g
20
) =
A(g
0
)E
θ
0
U(θ
0
)U
T

0
)A(g
0
)
T
= A(g
0
)I
1

0
)A(g
0
)
T
. (9)
Les égalités (7) et (9) impliquent
2(lnL(X,
ˆ
θ
n
) −lnL

(X, ˜ g
2n
)) =
1

n
U
T

0
)¦I
−1
1

0
) −A
T
(g
0
)(I

1
)
−1
(g
20
)A(g
0

1

n
U(θ
0
). (10)
La convergence
1

n
U(θ
0
)
d
→Z ∼N(0, I
1

0
))
implique que
2(lnL(X,
ˆ
θ
n
) −lnL

(X, ˜ g
2n
))
d
→Z
T
¦I
−1
1
−A
T
(I

1
)
−1
A¦Z. (11)
La v.a. limite est une forme quadratique des v.a. normales. On va utiliser le résultat (voir)
qui dit que si
Y ∼N(0, Σ)etBΣB = B, tr(BΣ) = k,
alors Y
T
BY ∼χ
2
k
. Dans notre cas
(I
−1
1
−A
T
(I

1
)
−1
A)I
1
(I
−1
1
−A
T
(I

1
)
−1
A) =
I
−1
1
−A
T
(I

1
)
−1
A−A
T
(I

1
)
−1
A
+A
T
(I

1
)
−1
AI
1
A
T
(I

1
)
−1
A = I
−1
1
−A
T
(I

1
)
−1
A, (12)
car AI
1
A
T
= I

1
. Le rang
tr((I
−1
1
−A
T
(I

1
)
−1
A)I
1
) =
tr(E
m
−A
T
(I

1
)
−1
AI
1
) = m−tr((I

1
)
−1
AI
1
A
T
) = m−tr(E
m−k
) = k. (13)
D’où le résultat du théorème.
Corollaire. Sous les hypothèses du théorème
U
T
(ψ(g
10
, ˜ g
2n
))
ˆ
I
−1
n
(ψ(g
10
, ˜ g
2n
))U(ψ(g
10
, ˜ g
2n
))
d
→χ
2
k
. (14)
Démonstration. Notons que
1

n
U(ψ(g
10
, ˜ g
2n
)) =
1

n
U(ψ(g
10
, g
20
)) +o
P
(1) =
1

n
U(θ
0
) +o
P
(1), (15)
n
ˆ
I
−1
n
(ψ(g
10
, ˜ g
2n
)) = nI
−1
n
(ψ(g
10
, ˜ g
2n
)) +o
P
(1)
= I
−1
1
(ψ(g
10
, ˜ g
2n
)) +o
P
(1) = I
−1
1

0
) +o
P
(1). (16)
135
L’égalité U

(˜ g
2n
) = 0, les égalités (15) et (16) impliquent
U
T
(ψ(g
10
, ˜ g
2n
))
ˆ
I
−1
n
(ψ(g
10
, ˜ g
2n
))U(ψ(g
10
, ˜ g
2n
))
=
1

n
U
T
(ψ(g
10
, ˜ g
2n
))I
−1
1
(ψ(g
10
, ˜ g
2n
))
1

n
U(ψ(g
10
, ˜ g
2n
))−
1

n
U
∗T
(˜ g
2n
)(I

1
)
−1
(˜ g
2n
)
1

n
U

(˜ g
2n
) +o
P
(1) =
1

n
U
T
(ψ(g
10
, ˜ g
2n
))¦I
−1
1
(ψ(g
10
, ˜ g
2n
))−
A
T
(˜ g
2n
)(I

1
)
−1
(˜ g
2n
)A(˜ g
2n

1

n
U(ψ(g
10
, ˜ g
2n
)) +o
P
(1) =
1

n
U
T

0
)¦I
−1
1

0
) −A
T
(g
0
)(I

1
)
−1
(g
20
)A(g
0

1

n
U(θ
0
) +o
P
(1)
d
→χ
2
k
.
Le cas particulier important est, quand
g
1
(θ) = θ
(1)
= (θ
l
1
, . . . , θ
l
k
) et g
2
(θ) = θ
(2)
= (θ
s
1
, . . . , θ
s
m−k
)
où (l
1
, . . . l
k
, s
1
, . . . s
m−k
) est une permutation de (1, . . . , m),
1 ≤l
1
≤. . . ≤l
k
≤m, 1 ≤s
1
≤. . . ≤s
m−k
≤m.
. Dans ce cas
A =
_
∂θ
∂θ
(2)
_
= [a
i j
]
(m−k)m
,

a
i j
=
_
1, si (i, j) = (l, s
l
) (l = 1, . . . , m−k),
0, sinon.
Notons que les s
1
, . . . , s
m−k
composantes de U(θ
(1)
0
,
˜
θ
(2)
n
) sont égales à zero, car
0 =U

(
˜
θ
(2)
n
) = AU(θ
(1)
0
,
˜
θ
(2)
n
) = (U
s
1

(1)
0
,
˜
θ
(2)
n
), . . . ,U
s
m−k

(1)
0
,
˜
θ
(2)
n
))
T
.
Posons
U
l
1
,...,l
k

(1)
0
,
˜
θ
(2)
n
) = (U
l
1

(1)
0
,
˜
θ
(2)
n
), . . . ,U
l
k

(1)
0
,
˜
θ
(2)
n
))
T
et A
i
1
...i
k

(1)
0
,
˜
θ
(2)
n
) la sous-matrice de
ˆ
I
−1
n

(1)
0
,
˜
θ
(2)
n
)
étante sur intersection de l
1
, . . . , l
k
-èmes lignes et l
1
, . . . , l
k
-èmes colognes. Donc
U
T
l
1
,...,l
k

(1)
0
,
˜
θ
(2)
n
)A
i
1
...i
k

(1)
0
,
˜
θ
(2)
n
)U
T
l
1
,...,l
k

(1)
0
,
˜
θ
(2)
n
)
d
→χ
2
k
.
21. Exemples et remarques
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon lognormalle LN(µ, σ
2
),
X
i
∼ p(x; µ, σ
2
) =
1



e

1

2
(lnx−µ)
2
1
]0,∞[
(x), µ ∈ R
1
, σ
2
> 0.
136
Remarqons que lnX
i
suit une loi normale N(µ, σ
2
). On peut montrer que
a
1
= EX
1
= e
µ+σ
2
/2
, a
2
= EX
2
1
= e
2µ+2σ
2
.
D’après la méthode des moments pour estimer µ et σ
2
il faut résoudre le système
_
e
µ+σ
2
/2
=
¯
X
n
= α
1
,
e
2µ+2σ
2
=
1
n

n
i=1
X
2
i
= α
2
,
ce qui est équivalent à
_
µ+σ
2
/2 = lnα
1
,
µ+2σ
2
= lnα
2
,
d’où on trouve les estimateurs ˜ σ
2
n
et ˜ µ
n
:
˜ σ
2
n
= lnα
2
−lnα
2
1
= ln
_
s
2
n
¯
X
2
n
+1
_
, ˜ µ
n
= ln
¯
X
2
n
_
s
2
n
+
¯
X
2
n
,

s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
est la variance de la loi empirique.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼ p(x; θ) =
1
θ
_
2
π
exp¦−
x
2

2
¦1
]0,∞[
(x), x ∈ R
1
, θ ∈ Θ =]0, ∞[.
On peut montrer que
EX
1
= θ
_
2
π
, EX
2
1
= θ
2
, VarX
2
1
= θ
2
π−2
π
.
Pour estimer θ par la méthode des moments on considère l’équation
θ
_
2
π
=
¯
X
n
,
d’où on obtient l’estimateur
˜
θ
n
=
_
π
2
¯
X
n
.
Il est claire que E
˜
θ
n
= θ, i.e.
˜
θ
n
est un estimateur sans biais pour θ, et comme
Var
¯
X
n
=
θ
2
n
_
1−
2
π
_
,
on en tire que
Var
˜
θ
n
=
π
2
Var
¯
X
n
=
θ
2
n
_
π
2
−1
_
=
θ
2
n
π−2
2
=
π−2
I
n
(θ)
>
1
I
n
(θ)
,
137

I
n
(θ) =
2n
θ
2
=−nE

2
∂θ
2
ln p(X
1
; θ) = nE
_
3
θ
4
X
2
1

1
θ
2
_
=
2n
θ
2
est l’information de Fisher sur θ dans X. De la dernière inégalité on voit bien que l’estima-
teur
˜
θ
n
n’est pas éfficace.
Remarque 1. Du théorème limite central il suit que la suite des variables aléatoires

n(
˜
θ
n
−θ)
θ
_
π−2
2
=

n(
¯
X
n

_
2
π
θ)
θ
_
1−
2
π
, n = 1, 2, ...
est asymptotiquement normale N(0, 1), quand n →∞, i.e. pour les grandes valeurs de n
P
_
_
_

n(
˜
θ
n
−θ)
θ
_
π−2
π
≤x
_
_
_
≈Φ(x), x ∈ R
1
.
Du théorème de Slutsky on tire que les variables aléatoires

n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
sont asymptotiquement normales N(0, 1) aussi, i.e.
P
_
_
_

n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
≤x
_
_
_
≈Φ(x), x ∈ R
1
,
si les valeurs de n sont assez grandes.
Nous pouvons utiliser ce résultat pour estimer θ par intervalle, puisque
P
_
_
_
−¯ x
α/2


n(
˜
θ
n
−θ)
˜
θ
n
_
π−2
2
≤ ¯ x
α/2
_
_
_
≈1−α,
où ¯ x
α/2
est le quantile supérieur de niveau α/2 pour la loi standard normale, 0 < α < 0.5,
d’où on tire que
P
_
−¯ x
α/2
_
π−2
2n

_
1−
θ
˜
θ
n
_
≤ ¯ x
α/2
_
π−2
2n
_
≈1−α
et donc
P
_
˜
θ
n
_
1− ¯ x
α/2
_
π−2
2n
_
≤θ ≤
˜
θ
n
_
1+ ¯ x
α/2
_
π−2
2n
__
≈1−α,
si n est assez grand.
Exemple 3. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼ f (x; θ) =
1
θ
1
[0,θ]
(x), θ ∈ Θ =]0, ∞[,
138
i.e. X
i
suit la loi uniforme sur [0, θ]. Dans ce cas la fonction de vraisemblance est
L(θ) = L(X; θ) =
n

j=1
1
θ
1
[0,θ]
(X
j
) =
1
θ
n
1
[0,θ]
(X
(n)
),
puisque P¦0 ≤ X
(1)
≤ X
(n)
≤ θ¦ = 1, d’où on tire que X
(n)
est une statistique exhaustive
minimale. Il est évident que
ˆ
θ
n
= X
(n)
.
Donc, pour estimer θ, nous pouvons utiliser la statistique
ˆ
θ
n
= X
(n)
comme estimateur
ponctuel.
Par ailleurs, comme EX
i
= θ/2 on en déduit que la statistique
θ

n
= 2
¯
X
n
=
2
n
n

i=1
X
i
peut être considérée comme un autre estimateur sans biais de θ, puisque
E
θ
θ

n
= θ.
On va comparer les deux estimateurs
ˆ
θ
n
et θ

n
. Comme VarX
i
= θ
2
/12, il s’ensuit que
Varθ

n
= Var
_
2
n
n

i=1
X
i
_
=
4
n
2
n

i=1
VarX
i
=
θ
2
3n
= O
_
1
n
_
→0, (n →∞),
et donc du critère de consistance on tire que ¦θ

n
¦ converge en probabilité vers θ, i.e. ¦θ

n
¦
est une suite consistante d’estimateurs sans biais de θ. De plus d’après le théorème central
limite on obtient que pour tout x ∈ R
1
P
θ
_
θ

n
−Eθ

n
_
Varθ

n
≤x
_
= P
θ
_

3n(θ

n
−θ)
θ
≤x
_
→Φ(x), n →∞, (1)
i.e. ¦θ

n
¦ est une suite d’estimateurs asymptotiquement normale de paramètres θ et θ/

3n.
Étudions maintenant la statistique
ˆ
θ
n
= X
(n)
, qui est l’estimateur de maximum de vrai-
semblance de θ. Tout d’abord, on remarque que
P
θ
¦0 ≤X
(n)
≤θ¦ = 1, θ > 0.
Pour tout t ∈ [0, θ] on a
P
θ
¦X
(n)
≤t¦ = P
θ
¦X
1
≤t, ..., X
n
≤t¦ =
_
t
θ
_
n
= G(t; θ), (2)
la densité g(t; θ) = G
/
(t, θ) de X
(n)
est donc donnée par :
g(t; θ) = G
/
(t; θ) =
n
θ
_
t
θ
_
n−1
1
[0,θ]
(t),
d’où on tire que
E
θ
X
(n)
= E
θ
ˆ
θ
n
=
n
θ
θ

0
t
_
t
θ
_
n−1
dt =
n
n+1
θ,
139
E
θ
X
2
(n)
=
n
θ
θ

0
t
2
_
t
θ
_
n−1
dt =
n
n+2
θ
2
,
donc
Var
θ
X
(n)
=
n
n+2
θ
2

n
2
(n+1)
2
θ
2
=
n
(n+2)(n+1)
2
θ
2
= O
_
1
n
2
_
→0, n →∞.
On remarque que ¦
ˆ
θ
n
¦ est une suite consistante d’estimateurs asymptotiquement sans biais
du paramètre θ, car pour tout n ∈ N

le biais b
n
(θ) de l’estimateur
ˆ
θ
n
est
b
n
(θ) = E
θ
(
ˆ
θ
n
−θ) =
n
n+1
θ−θ =−
θ
n+1
→0 (n →∞).
Le risque quadratique R(
ˆ
θ
n
, θ) de
ˆ
θ
n
est égal à
R(
ˆ
θ
n
, θ) = Var
ˆ
θ
n
+b
n
(θ)
2
=

2
(n+1)(n+2)
.
Soit
θ
∗∗
n
=
n+1
n
ˆ
θ
n
, n ∈ N.
Comme
E
θ
θ
∗∗
n
= θ et Var
θ
θ
∗∗
n
=
(n+1)
2
n
2
Var
θ
ˆ
θ
n
=
θ
2
n(n+2)
= O
_
1
n
2
_
,
on voit que ¦θ
∗∗
n
¦ est une suite consistante d’estimateurs sans biais du paramètre θ.
Pour trouver la loi limite de X
(n)
=
ˆ
θ
n
on remarque que pour les grandes valeurs de n,
VarX
(n)
·
θ
2
n
2
et donc pour tout x > 0
P
θ
_
0 ≤
θ−X
(n)
θ/n
≤x
_
= P
θ
_
X
(n)
≥θ
_
1−
x
n
__
=
1−P
θ
_
X
(n)
≤θ
_
1−
x
n
__
= 1−
_
1−
x
n
_
n
→1−e
−x
, (n →∞). (3)
Choisissons un coefficient de confiance P = 1 −α, où 0 < α < 0.5, et donc 0.5 < P < 1,
et, en utilisant (1) et (3), trouvons les deux quantiles ¯ xα
2
et y
α
tels que :
P
θ
_
[ θ

n
−θ [≤
¯ xα
2
θ

3n
_
≈1−2Φ(−¯ xα
2
) =P = 1−α,
P
θ
_
ˆ
θ
n
≤θ ≤
ˆ
θ
n
_
1−
y
α
n
_
_
≈1−e
−y
α
=P = 1−α.
On a donc construit 2 intervalles de confiance de niveaux de confiance ≈P = 1−α pour la
valeur inconnue θ, basés sur les estimateurs θ

n
et
ˆ
θ
n
:
θ

n
_
1+
¯ xα
2

3n
_
−1
≤θ ≤θ

n
_
1−
¯ xα
2

3n
_
−1
140
et
ˆ
θ
n
≤θ ≤
ˆ
θ
n
_
1−
y
α
n
_
−1
de longueurs
l

n
= l(θ

n
) ≈2θ

n
¯ xα
2
/

3n et
ˆ
l
n
= l(
ˆ
θ
n
) ≈
ˆ
θ
n
y
α
/n
respectivement, d’où on tire que
l

n
ˆ
l
n


n
2¯ xα
2

3y
α
(n →∞),
car θ

n
/
ˆ
θ
n
est très proche de 1 avec une grande probabilité. Par exemple, si α = 0.05, soit
P = 0.95, on a ¯ xα
2
= 1.96, y
α
= 2.99 et dans ce cas
l

n
ˆ
l
n
≈0.76

n.
Remarque 2. On voit que
R(θ

n
, θ) = Varθ

n
=
θ
2
3n
, R(
ˆ
θ
n
, θ) =

2
(n+1)(n+2)
,
R(θ
∗∗
n
, θ) = Varθ
∗∗
n
=
θ
2
n(n+2)
,
d’où on tire que θ

n
et
ˆ
θ
n
sont des estimateurs inadmissibles pour θ par rapport à la fonction
de perte quadratique, puisque
R(θ
∗∗
n
, θ) < R(θ

n
, θ), θ ∈ Θ,
et pour tout n ≥2
R(θ
∗∗
n
, θ) < R(
ˆ
θ
n
, θ), θ ∈ Θ.
Exemple 4. Changeons un peu le problème. Supposons que dans les conditions de l’exemple
1 on ait :
f (x; θ) =
1
θ
1
]0,θ[
(x), θ > 0,
i.e. X
i
suit la loi uniforme sur ]0, θ[. Alors,
L(θ) =
n

j=1
1
θ
n
1
]0,θ[
(X
j
) =
1
θ
n
1
]0,θ[
(X
(n)
), θ ∈ Θ =]0, ∞[.
Donc, X
(n)
est une statistique exhaustive, mais L(θ) n’a pas de maximum et donc, il n’existe
pas de l’estimateur du maximum de vraisemblance pour θ.
On sait d’après la définition d’un estimateur, θ

n
: R
n
→Θ, qu’il faut qu’il prenne ces
valeurs dans Θ, mais ici X
(n)
n’appartient pas à Θ (X
(n)
est toujour plus petit que θ) ; par
conséquent dans cet exemple l’estimateur de maximum de vraisemblance n’existe pas. On
peut choisir θ très proche de X
(n)
, mais pas égal à X
(n)
.
Exemple 5. Donnons maintenant un exemple de non unicité de l’estimateur de maximum
de vraisemblance lié avec une loi uniforme.
141
Soit X = (X
1
, ..., X
n
)
T
,
H
0
: X
i
∼ f (x; θ) = 1
[θ,θ+1]
(x), θ ∈ Θ = R
1
.
La fonction de vraisemblance est
L(θ) = 1
[θ,θ+1]
(X
(1)
)1
[θ,θ+1]
(X
(n)
) = 1
[X
(n)
−1,X
(1)
]
, θ ∈ Θ = R
1
.
et donc T = (X
(1)
, X
(n)
)
T
est une statistique exhaustive minimale. On remarque que T ∈ R
2
,
tandis que θ ∈ Θ = R
1
. N’importe quel θ dans l’intervalle [X
(n)
−1, X
(1)
] ⊂ Θ peut-être
considéré comme estimateur de maximum de vraisemblance ; en particulier
ˆ
θ
1
= X
(1)
ou
ˆ
θ
2
= X
(n)
−1.
On note que ni
ˆ
θ
1
ni
ˆ
θ
2
ne sont des statistiques exhaustives, mais ce sont des statistiques
nécessaires.
On remarque que c’est justement en ces deux points
ˆ
θ
1
= X
(1)
et
ˆ
θ
2
= X
(n)
−1,
que L(θ) a des ruptures (des sauts). Pour construire estimateur sans biais pour θ on peut
prendre, par exemple, la statistique
θ

n
=
1
2
(
ˆ
θ
1
+
ˆ
θ
2
) =
X
(1)
+X
(n)
−1
2
, Eθ

n
= θ. (4)
On peut montrer que
Varθ

n
=
1
2(n+1)(n+2)
.
Remarque 3. En présence d’une statistique exhaustive T pour θ l’estimateur de maximum
de vraisemblance
ˆ
θ
n
=
ˆ
θ
n
(T) est donc une statistique nécessaire.
Remarque 4. Soit X = (X
1
, X
2
, . . . , X
n
)
T
un échantillon, dont la réalisation observée est
x = (x
1
, x
2
, . . . , x
n
)
T
. Notre problème est de construire une loi empirique, en utilisant le
vecteur des données x et le principe du maximum de vraisemblance. Comme les éléments
X
i
de l’échantillon X sont indépendants, on peut écrire que
¦X
1
= x
1
, X
2
= x
2
, . . . , X
n
= x
n
¦ =
n

i=1
¦X
i
= x
i
¦,
donc
P¦X
1
= x
1
, X
2
= x
2
, . . . , X
n
= x
n
¦ = P
_
n

i=1
¦X
i
= x
i
¦
_
=
n

i=1
P¦X
i
= x
i
¦.
Pour construire une loi empirique il faut choisir les probabilités
p
i
= P¦X
i
= x
i
¦ ≥0, i = 1, 2, . . . , n,
telles que
p
1
+ p
2
+. . . + p
n
= 1, p
i
≥0.
142
Le principe du maximum de vraisemlance nous dit qu’il faut choisir les p
i
de façon que le
produit
n

i=1
p
i
soit maximal. Comme
_
n

i=1
p
i
_
1/n

1
n
n

i=1
p
i
et
n

i=1
p
i
≤1,
on en déduit que
_
n

i=1
p
i
_
1/n

1
n
,
et donc
n

i=1
p
i

_
1
n
_
n
,
d’où on trouve que notre solution est
p
1
= p
2
= . . . = p
n
=
1
n
,
et c’est donc la loi empirique classique qui donne la meilleure solution au sens du principe
de maximum de vraisemblance.
Remarque 5. (Principe d’invariance de l’estimateur de maximum de vraisemblance).
Soit
ˆ
θ
n
l’estimateur de maximum de vraisemblance de θ, θ ∈ ΘΘΘ ⊂ R
n
. Supposons que
nous voulions estimer la valeur g(θ) d’une application g : ΘΘΘ→G ⊂R
1
. Dans ce cas
ˆ g = g(
ˆ
θ
n
) (5)
est l’estimateur de maximum de vraisemblance pour g(θ) .
Par exemple, si
s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
est l’estimateur du maximum de vraisemblance pour la variance σ
2
de la loi normale
N(µ, σ
2
), quand µ et σ
2
sont inconnus, alors
s
n
=
¸
1
n
n

i=1
(X
i

¯
X
n
)
2
est l’estimateur de maximum de vraisemblance pour σ.
Pour démontrer (29), notons
ΘΘΘ
g
=¦θ : θ ∈ ΘΘΘ, g(θ) = g¦, g ∈ G,
143
i.e. ΘΘΘ
g
est l’orbite de l’application g(θ), correspondant à une valeur g de g(θ). Il est évident
que ¦ΘΘΘ
g
¦ est une partition de ΘΘΘ,

g∈G
ΘΘΘ
g
= ΘΘΘ, ΘΘΘ
g
/ ∩ΘΘΘ
g
= / 0.
Soit
L
g
= sup
θ∈ΘΘΘ
g
L(θ), g ∈ G.
Il est évident que
L(
ˆ
θ
n
) = sup
θ∈ΘΘΘ
L(θ) = sup
g∈G
sup
θ∈ΘΘΘ
g
L(θ) = sup
g∈G
L
g
.
Choisissons
ˆ g = g(
ˆ
θ
n
), ˆ g ∈ G,
et considérons l’orbite ΘΘΘ
ˆ g
,
ˆ
θ
n
∈ ΘΘΘ
ˆ g
.
Comme pour tout g ∈ G
sup
g∈G
L
g
≥L
g
et, en particulier,
sup
g∈G
L
g
≥L
ˆ g
= sup
θ∈ΘΘΘ
ˆ g
L(θ) = L(
ˆ
θ
n
),
on en tire que L(
ˆ
θ
n
) = L
ˆ g
, et donc (29) est démontrée.
Exemple 5. Soit X = (X
1
, . . . , X
n
)
T
un échantillon
X
i
∼ f (x
i
; θ) = θ
x
i
(1−θ)
1−x
i
, x
i
∈ X =¦0, 1¦, 0 < θ < 1.
Supposons que nous voulions estimer g(θ) = 1/θ. Kolmogorov a montré que parmi les
fonctions de θ, seuls les polynômes
u
m
(θ) =
m

k=1
a
k
θ
k
, θ ∈ Θ =]0, 1[, 1 ≤m ≤n,
de degré m ≤ n, sont estimables, c’est-à-dire peuvent être estimés à l’aide d’estimateurs
sans biais en termes de la statistique exhaustive µ
n
=
n

i=1
X
i
. Comme g(θ) = 1/θ n’est pas
un polynome, il n’existe pas d’estimateur sans biais pour 1/θ. Mais comme l’estimateur de
maximum de vraisemblance
ˆ
θ
n
= µ
n
/n existe pour θ, du principe du maximum de vraisem-
blance on tire que
T
n
= g(
ˆ
θ
n
) =
n
µ
n
est l’estimateur de maximum de vraisemblance pour 1/θ. On remarque que E
θ
T
n
n’existe
pas puisque
P
θ
¦µ
n
= 0¦ = (1−θ)
n
> 0.
Par ailleurs, comme nous estimons g(θ) = 1/θ, la borne inférieure dans l’inégalité de Rao-
Cramer-Fréchet est égale à
[g
/
(θ)]
I
n
(θ)
=
θ(1−θ)
θ
4
n
=
1−θ

3
,
144
et donc
T
n
∼AN
_
1
θ
,
1−θ

3
_
,
i.e. pour tout x ∈ R
1
P
θ
_
_
_
¸

3
1−θ
_
n
µ
n

1
θ
_
≤x
_
_
_
→Φ(x).
Exemple 6. Soit X = (X
1
, ..., X
n
)
T
un échantillon normale,
X
i
∼N(θ, θ), θ ∈ Θ =]0, ∞[.
Considérons le problème d’estimation du paramètre θ dans ce modèle. On remarque que
θ = EX
i
= VarX
i
.
Dans ce cas la fonction de vraisemblance est
L(θ) = L(X, θ) =
1
(2πθ)
n/2
n

i=1
exp
_

1

(X
i
−θ)
2
_
=
1
(2πθ)
n/2
exp
_

1

n

i=1
X
2
i
+
n

i=1
X
i


2
_
=
1
(2πθ)
n/2
exp
_

1

n

i=1
X
2
i


2
_
exp¦
n

i=1
X
i
¦,
d’où on tire que la statistique
T
n
=
n

i=1
X
2
i
est exhaustive et minimale pour θ. Il est intéressant de noter que la statistique
n

i=1
X
i
= n
¯
X
n
n’est pas une statistique exhaustive dans notre problème ! Puisque L(θ) >0 pour tout θ ∈Θ
et
lim
θ↓0
L(θ) = lim
θ→∞
L(θ) = 0,
on en tire que l’estimateur du maximum de vraisemblance
ˆ
θ
n
de θ est la racine positive de
l’équation du maximum de vraisemblance Λ(θ) = 0, où
Λ(θ) =

∂θ
lnL(θ) =−
n

+
T
n

2

n
2
.
Donc
ˆ
θ
n
est la racine positive de l’équation
θ
2
+θ−
1
n
T
n
= 0,
145
i.e.
ˆ
θ
n
=−
1
2
+
_
1
4
+
1
n
T
n
.
Il est facile de vérifier que ¦
ˆ
θ
n
¦
P
→θ. En effet, d’après la loi des grands nombres
1
n
T
n
P
→E
θ
X
2
1
= Var
θ
X
1
+(E
θ
X
1
)
2
= θ+θ
2
,
d’où, en utilisant le théorème de Slutsky, on tire que
ˆ
θ
n
P
→−
1
2
+
_
1
4
+θ+θ
2
=−
1
2
+
1
2
+θ = θ.
Remarque 6. Soit X= (X
1
, X
2
, . . . , X
n
)
T
un échantillon, X
i
suit la loi, dont la densité f (x; θ)
appartient à la famille F =¦ f (x; θ)¦, où
f (x; θ) = h(x)exp
_
n

k=1
θ
k
x
k
+V(θ)
_
, x ∈ X, (2.7)
θ = (θ
1
, θ
2
, . . . , θ
s
)
T
∈ Θ ⊂ R
s
, X est un ensemble borelien en R
1
. La famille (6) est tres
riche. Par exemple, la famille des disributions normales N(µ, σ
2
), θ = (µ, σ
2
)
T
, appartient à
F , la famille des distributions de Poisson appartient à F aussi etc. Comme il est connu la
statistique
U
n
=
_
n

i=1
X
i
,
n

i=1
X
2
i
, . . . ,
n

i=1
X
s
i
_
T
est exhaustive pour la famille (6).
Supposons que
1) l’ensemble X ne dépend pas de paramètre θ ;
2) la matrice de Hessen

_
_
_
_

2
∂θ
i
∂θ
j
V(θ)
_
_
_
_
ss
de la fonction V(θ) est positivement définie sur Θ;
3) il existe le moment a
s
= E
θ
X
s
1
.
Dans ce cas
−gradV(θ) = a(θ) = (a
1
(θ), a
2
(θ), . . . , a
s
(θ))
T
,
et donc la statistique T =
1
n
U
n
est le meilleur estimateur sans biais pour a(θ), i.e.
E
θ
T
n
= a(θ),
ce qui nous permet d’estimer θ (trouver l’estimateur θ

n
par la méthode des moments de
façon unique de l’équation T
n
= a(θ) dans les termes de la statistique exhaustive U
n
).
De l’autre coté les conditions 1)–3) sont suffisantes (voir, par exemple, Zacks, 1971) pour
l’existence de l’estimateur du maximum de vraisemblance
ˆ
θ
n
:
L(
ˆ
θ) = sup
θ∈Θ
L(θ), où L(θ) =
n

i=1
f (X
i
, θ),
146
et pour la famille (6) l’estimateur
ˆ
θ
n
est la racine unique de la même équation T
n
= a(θ),
et donc de ce fait on tire que pour la famille exponentielle (6) la méthode du maximum
de vraisemblance et la méthode des moments donnent le même estimateur θ

n
=
ˆ
θ
n
pour le
paramètre θ.
Exemple 7. Soit X = (X
1
, . . . , X
n
)
T
un échantillon, X
i
suit la loi normale N(µ, σ
2
), θ =
(µ, σ
2
)
T
. Dans ce cas la statistique
ˆ
θ
n
=
_
¯
X
n
, s
2
n
_
T
est l’estimateur du maximum de vraisemblance pour θ et elle-même nous donne l’estima-
teur par la méthode des moments.
Exemple 8. Soit X= (X
1
, . . . , X
n
)
T
un échantillon, X
i
suit la loi de Poisson de paramètre
θ, θ ∈ Θ =] −∞, +∞[ :
P
θ
¦X
i
= k¦ =
θ
k
k!
e
−θ
, k = 0, 1, 2, . . . .
Dans ce cas la statistique
n

i=1
X
i
est exhaustive pour le paramètre θ et donc la moyenne
¯
X
n
de la loi empirique est le meilleur estimateur sans biais pour θ et en même temps
¯
X
n
est
l’estimateur du maximum de vraisemblance pour θ.
Exemple 9. On a n expériences indépendantes de Bernoulli avec trois états possibles
E
1
, E
2
, E
3
, E
1

E
2

E
3
= Ω, E
i

E
j
= / 0, dont les probabilités sont
_
_
_
P(E
1
) = p
1
(θ) = θ,
P(E
2
) = p
2
(θ) = 2θ,
P(E
3
) = p
3
(θ) = 1−3θ,
où 0 < θ < 1/3. Trouver l’estimateur du maximum de vraisemblance
ˆ
θ
n
pour θ.
Solution. Soit ν = (ν
1
, ν
2
, ν
3
)
T
le vecteur des fréquences observées, n = ν
1

2

3
- le
nombre des épreuves. Comme la distribution du vecteur ν est trinomiale des paramètres n
et p = (p
1
, p
2
, p
3
)
T
, p
i
= p
i
(θ), la fonction de vraisemblance L(θ) est
L(θ) =
n!
ν
1

2

3
!
p
ν
1
1
p
ν
2
2
p
ν
3
3
=
n!
ν
1

2

3
!
θ
ν
1
(2θ)
ν
2
(1−3θ)
ν
3
, (7)
et donc
lnL(θ) = const +(ν
1

2
)lnθ+ν
3
ln(1−3θ).
Par conséquent l’équation de vraisemblance
Λ(θ) =
d lnL(θ)

= 0 (8)
s’écrit de la façon suivante :
Λ(θ) =
d lnL(θ)

=
ν
1

2
θ


3
1−3θ
= 0,
d’où l’on tire l’équation
ν
1

2
θ
=

3
1−3θ
,
147
dont la racine
ˆ
θ
n
est
ˆ
θ
n
=
ν
1

2
3n
.
On a trouvé l’estimateur du maximum de vraisemblance
ˆ
θ et donc
_
_
_
ˆ p
1
= p
1
(
ˆ
θ
n
) =
ˆ
θ
n
,
ˆ p
2
= p
2
(
ˆ
θ
n
) = 2
ˆ
θ
n
,
ˆ p
3
= p
3
(
ˆ
θ
n
) = 1−3
ˆ
θ
n
,
sont les estimateurs du maximum de vraisemblance de p
i
(θ), i = 1, 2, 3.
En général p
i
= p
i
(θ) sont des fonctions de θ plus compliqées et dans ce cas l’équation de
vraisemblance (8) n’est pas si facile à résoudre. Par exemple, dans notre cas, que l’on vient
de considérer, on a
Λ(θ) =
d lnL(θ)

= ν
1
p
/
1
(θ)
p
1
(θ)

2
p
/
2
(θ)
p
2
(θ)

3
p
/
3
(θ)
p
3
(θ)
= 0. (9)
Comme
p
1
(θ) + p
2
(θ) + p
3
(θ) ≡1,
on a
p
/
1
(θ) + p
/
2
(θ) + p
/
3
(θ) ≡0 et p
//
1
(θ) + p
//
2
(θ) + p
//
3
(θ) ≡0,
et de (1) on tire que
d
2

2
lnL(θ) =
ν
1
_
p
//
1
(θ)
p
1
(θ)

_
p
/
1
(θ)
p
1
(θ)
_
2
_

2
_
p
//
2
(θ)
p
2
(θ)

_
p
/
2
(θ)
p
2
(θ)
_
2
_

3
_
p
//
3
(θ)
p
3
(θ)

_
p
/
3
(θ)
p
3
(θ)
_
2
_
.
Pour trouver une bonne aproximation de la racine
ˆ
θ
n
de l’équation (9), nous pouvons appli-
quer la procédure suivante (the scoring method of Fisher). Soit
ˆ p
i
=
ν
i
n
, i = 1, 2, 3, (10)
les estimateurs de maximum de vraisemblance pour des probabilités p
i
(θ). Parmi ces trois
équations p
i
(θ) = ˆ p
i
(par rapport à θ) on choisit la plus simple d’où l’on tire la solution
ˆ
θ
0n
, que l’on peut prendre comme approximation initiale pour l’estimateur du maximum de
vraisemblance
ˆ
θ
n
. Comme dans notre cas l’information de Fisher
I
n
(θ) =−E
_
d
2

2
lnL(θ)
_
est égale à
I
n
(θ) = n
_
(p
/
1
(θ))
2
p
1
(θ)
+
(p
/
2
(θ))
2
p
2
(θ)
+
_
p
/
3
(θ)
_
2
p
3
(θ)
_
,
on trouve une nouvelle approximation
ˆ
θ
1n
, qui est donnée par la formule suivante :
ˆ
θ
1n
=
ˆ
θ
0n
+
1
I
n
(
ˆ
θ
0n
)
d lnL(θ)

¸
¸
¸
¸
θ=
ˆ
θ
0n
. (11)
148
On peut montrer que l’estimateur
ˆ
θ
1n
est asymptotiquement équivalent à l’estimateur du
maximum de vraisemblance
ˆ
θ
n
, c’est-à-dire si n →∞, alors
_
I
n
(θ)
_
ˆ
θ
1n
−θ
_
suit dans la limite la loi normale de paramètre 0 et 1,
lim
n→∞
_
_
I
n
(θ)
_
ˆ
θ
1n
−θ
_
< x
_
= Φ(x).
Par exemple, soit p = (p
1
, p
2
, p
3
, p
4
)
T
, où
_
¸
¸
_
¸
¸
_
p
1
= p
1
(θ) = 2θ,
p
2
= p
2
(θ) = 0.5−4θ,
p
3
= p
3
(θ) = 0.5+θ,
p
4
= p
4
(θ) = θ.
Il est clair que 0 ≤θ ≤1/8. Comme la fonction de vraisemblance L(θ) est égale à
L(θ) =
n!
ν
1

2

3

4
!
p
ν
1
1
p
ν
2
2
p
ν
3
3
p
ν
4
4
=
n!
ν
1

2

3

4
!
(2θ)
ν
1
(0.5−4θ)
ν
2
(0.5+θ)
ν
3
θ
ν
4
=
n!2
ν
1
ν
1

2

3

4
!
θ
ν
1

4
(0.5−4θ)
ν
2
(0.5+θ)
ν
3
et donc on trouve que la statistique T = (ν
1

4
, ν
2
, ν
3
)
T
est exaustive pour le paramètre
θ. Supposons que n = 1000 et que l’on ait observé
ν
1
= 195, ν
2
= 110, ν
3
= 590, ν
4
= 105.
Notons
q
1
= p
1
+ p
4
, q
2
= p
2
, q
3
= p
3
et µ
1
= ν
1

4
, µ
2
= ν
2
, µ
3
= ν
3
.
Avec ces notations la fonction de vraisemblance L(θ) peut s’écrire de la manière suivante :
L(θ) = const(3θ)
µ
1
(0.5−4θ)
µ
2
(0.5+θ)
µ
3
,
d’où l’on déduit
lnL(θ) = ln(const) +µ
1
lnθ+µ
2
ln(0.5−4θ) +µ
3
ln(0.5+θ),
d lnL(θ)

=
µ
1
θ


2
0.5−4θ
+
µ
3
0.5+θ
et donc on obtient l’équation du maximum de vraisemblance
µ
1
(0.5−4θ)(0.5+θ) −4µ
2
θ(0.5+θ) +µ
3
θ(0.5−4θ) = 0,
qui est équivalente à la suivante :
160θ
2
+15θ−3 = 0,
149
dont les solutions θ
1
et θ
2
sont données par les formules suivantes :
θ
1
=
−15+

225+160∗12
320
et θ
1
=
−15−

225+160∗12
320
.
Comme 0 < θ < 1/8, on en déduit que l’estimateur du maximum de vraisemblance
ˆ
θ
n
est
égale à θ
1
et donc on obtient que
ˆ
θ
n
= θ
1
=
−15+46.31
320

= 0.0978.
Comme
d
2

2
lnL(θ) =−
µ
1
θ
2

16µ
2
(0.5−4θ)
2

µ
3
(0.5+θ)
2
,
et Eµ
i
= nq
i
, on trouve que
I
n
(θ) =−E
_
d
2

2
lnL(θ)
_
= n
_

θ
2
+
16
0.5−4θ
+
1
0.5+θ
_
=
n
_
3
θ
+
32
1−8θ
+
2
1+2θ
_
.
Comme on l’a déjà noté la variable aléatoire
ˆ
θ
n
−θ
_
1
I
n
(θ)
=
_
I
n
(θ)(
ˆ
θ
n
−θ)
suit à la limite quand n →∞ la loi normale N(0, 1). Du théorème de Cramer on déduit que
ˆ
θ
n
−θ
_
1
I
n
(
ˆ
θ
n
)
=
_
I
n
(
ˆ
θ
n
)(
ˆ
θ
n
−θ)
suit aussi à la limite la loi normale N(0, 1).
Nous pouvons aussi utiliser le scoring méthode de Fisher pour trouver un estimateur de
θ. Si on prend
ˆ
θ
0

= 0.1 comme approximation initiale, on trouve
I
n
(
ˆ
θ
0
) =
1150000
6
et donc en utilisant la formule (35)
ˆ
θ
1n
=
ˆ
θ
0
+
1
I
n
(
ˆ
θ
0
)
d lnL(θ)

¸
¸
¸
¸
θ=
ˆ
θ
0
,
on trouve que
ˆ
θ
1n
= 0.1+
6
1150000
_
300−
440
0.1
+
590
0.6
_
= 0.1−0.0022 = 0.0978 =
ˆ
θ
n
.
Admettons que quelqu’un suppose θ = 0.11. Avec quelle certitude peut-on affirmer
d’après les données observées que θ = 0.11 ?
150
Comme nous le savons
P
_
_
I
n
(
ˆ
θ
n
)[
ˆ
θ
n
−θ[ > 0.0121
_
I
n
(
ˆ
θ
n
)
_

= 2
_
1−Φ
_
0.0121
_
I
n
(
ˆ
θ
n
)
__
=
2[1−Φ(5.297)] = 5 10
−7
,
ce qui nous permet d’affirmer l’invraisemblance que θ = 0.11.
2.19 Decomposition orthogonale de Fisher
Supposons que les résultas d’une expérience soient présentés par la matrice
A =|a
i j
|, i ∈ I =¦1, . . . , I¦; j ∈ J =¦1, . . . , J¦.
Les valeurs observées a
i j
nous pouvons considérer comme les valeurs a(i, j) d’une
fonction a(, ), déterminée sur l’ensemble I J. On peut poser une question : est ce que
la fonction a(, ) est constante,
a(i, j) = a
i j
= const = a
..
, (1)
ou peut-être c’est une fonction d’une variable, par exemple i,et qui prend les valeurs a
i.
:
a(i, j) = a
i.
= a
..

i.
, (2)

α
i.
= a
i.
−a
..
, (3)
ou peut-être c’est une fonction présentée comme la somme de deux fonctions d’une variable
chacune
a(i, j) = a
i j
= a
i.
+a
. j
−a
..
= a
..

i.

. j
,
avec α
. j
= (a
. j
−a
..
), ou peut-être c’est une fonction de deux variables avec une interaction
entre les arguments i et j :
a(i, j) = a
i j
= a
..

i.

. j

i j
, (4)

α
i j
= a
i j
−a
i.
−a
. j
+a
..
. (5)
Toutes ces questions sont importantes si nous voulons construire une approximation pour la
fonction a(, ) et suivant l’information que nous avons nous pouvons proposer la meilleur
approximation dans un certain sense.
Nous pouvons toujours compter que nous avons une fonction qui est présentée par la
formule (’) et donc il nous faut faire le meilleur choix des constantes, en utilisant des don-
nées.
Si nous avons la fonction de deux variables, alors il se peut qu’il soit intéressant de
l’approximer par une fonction d’une variable ou par la somme de deux fonctions d’une
151
variable chacune, avec ou sans interactions. On cherchera l’approximation dans le sens de
moindres carrés :
I

i=1
J

j=1
(a
i j
−α)
2
→min. (6)
Le premier à avoir considéré ce problème en statistique est Sir R.Fisher qui a proposé de
choisir les constantes suivantes :
a
i.
=
1
J
J

j=1
a
i j
, a
. j
=
1
I
I

i=1
a
i j
, (7)
a
..
=
1
IJ
I

i=1
J

j=1
a
i j
=
1
J
J

j=1
a
. j
=
1
I
I

i=1
a
i.
. (8)
Donc dans le cas où nous cherchons la meilleure approximation par la fonction d’une va-
riable, par exemple qui ne dépend que de i, d’après Fisher il faut choisir α = a
i.
. Si nous
cherchons une approximation par la somme de deux fonction d’une variable chacune sans
leurs interactions, alors il nous faut choisir
α = a
i.
+a
. j
−a
..
= a
..
+(a
i.
−a
..
) +(a
. j
−a
..
), (9)
etc. On fait ce problème de la même façon dans le cas continue. Par exemple, on peut
introduire
a
..
=
1
IJ
I

0
J

0
a(i, j)did j, a
i.
=
1
I
J

0
a(i, j)d j, (10)
i ∈ I = [0, I], j ∈ J = [0, J].
On peut généraliser les résultats de Fisher pour le cas de l’espace de plus haute dimen-
sion. Notons
[a
i j
] = (a
11
, a
12
, ..., a
1J
, a
21
, ..., a
2J
, ..., a
I1
, ..., a
IJ
)
T
le vecteur-colonne de dimension IJ, [a
i j
] ∈ R
IJ
, c’est-à-dire tous les éléments de la ma-
trice A sont présentés en forme d’un vecteur de R
IJ
, et soit [a
..
] le vecteur de même espace
R
IJ
, dont tous les éléments sont égaux à a
..
. Nous pouvons dire que
[a
..
] = a
..
1
IJ
, où 1
IJ
= (1, 1, . . . , 1)
T
∈ R
IJ
. (11)
Dans ce cas nous pouvons écrire que
[a
i j
] = [a..] +[a
i j
−a
..
], where [a
i j
−a
..
] = [a
i j
] −[a
..
]. (12)
Soit L
1
est le sousespace linéaire engendré par le vecteur [a
..
], L
1
⊂ R
IJ
. Par les calcules
directes on peut montrer, en utilisant les formules (6) et (7), que les vecteurs [a
..
] et [a
i j
−a
..
]
sont orthogonaux, c’est-à-dire
[a
..
]
T
[a
i j
−a
..
] = 0, (13)
et donc le vecteur [a
i j
−a
..
] ∈ L
IJ−1
et le sousespace
L
IJ−1
= R
IJ
¸L
1
est ortogonale à L
1
,
R
IJ
= L
1
⊕L
IJ−1
, (14)
152
et de cette façon on a montré que la fonction a
..
donne la meilleure (dans le sens (6))
approximation de notre fonction a(i, j) par la constante.
Maintenant on considère le second problème : quelle fonction d’une variable, par exemple
i, donne la meilleure approximation pour [a
i j
−a
..
] ∈ L
IJ−1
. On a l’identité
[a
i j
−a
..
] = [a
i.
−a
..
] +[a
i j
−a
i.
], (15)
d’où on déduit que si nous voulons construire une approximation qui ne dépend que de j,
par exemple, alors on revient de nouveau au problème précédent, car les vecteurs
[a
i.
−a
..
] = [a
i.
] −[a
..
] et [a
i j
−a
i.
] = [a
i j
] −[a
i.
] (16)
sont orthogonaux :
[a
i.
−a
..
]
T
[a
i j
−a
i.
] = 0. (17)
On note que
[a
i.
] = (a
1.
, ..., a
1.
, a
2.
, ..., a
2.
, ..., a
I.
, ..., a
I.
)
T
∈ R
IJ
and
[a
. j
] = (a
.1
, ..., a
.1
, a
.2
, ..., a
.2
, ..., a
.J
, ..., a
.J
)
T
∈ R
IJ
.
On remarque que
I

i=1
(a
i.
−a
..
) = 0,
J

j=1
(a
. j
−a
..
) = 0.
Puisque pour tout i fixé, i ∈ I,
J

j=1
(a
i j
−a
i.
) = 0, (18)

a
i.
=
1
J
J

j=1
a
i j
,
on en déduit que
[a
i.
−a
..
] ∈ L
I−1
et [a
i j
−a
i.
] ∈ L
IJ−I
= L
I(J−1)
, (19)
et que les sousespaces L
I−1
et L
I(J−I)
sont orthogonaux :
L
I−1
⊕L
I(J−1)
= L
IJ−1
, (20)
et que
L
1
⊕L
I−1
⊕L
I(J−1)
= R
IJ
(21)
Si nous avançons plus loin de la même façon on obtient sur le pas suivant l‘identité
[a
i j
−a
i.
] = [a
. j
−a
..
] +[a
i j
−a
i.
−a
. j
+a
..
], (22)

[a
. j
−a
..
] ∈ L
J−1
(23)
et
[a
. j
−a
..
]
T
[a
i j
−a
i.
−a
. j
+a
..
] = 0. (24)
153
Mais comme
[a
i j
−a
i.
−a
. j
+a
..
] ∈ L
IJ−I−J+1
= L
(I−1)(J−1)
, (25)
de (6), (9), (14)-(17) et (19) on déduit que
R
IJ
= L
1
⊕L
I−1
⊕L
J−1
⊕L
(I−1)(J−1)
, (26)
c’est-à-dire on a reçu la décomposition de R
IJ
en somme directe de quatre sousespaces
orthogonaux, et donc la décomposition de Fisher n’est que la projection du vecteur des
données [a
i j
] ∈ R
IJ
sur ces sousespaces. De plus nous pouvons dire que la décomposition
orthogonale de Fisher
[a
i j
] = [a
..
] +[a
i.
−a
..
] +[a
. j
−a
..
] +[a
i j
−a
i.
−a
. j
+a
..
], (i = 1, . . . , I; j = 1, . . . , J)
ne dépend que de IJ coefficients, et non pas de 1 +I +J +IJ. En plus du Théorème de
Pythagore on obtient l’identité suivante :
|[a
i j
]|
2
=|[a
..
]|
2
+|[a
i.
−a
..
]|
2
+|[a
. j
−a
..
]|
2
+|[a
i j
−a
i.
−a
. j
+a
..
]|
2
,
d’où on tire l’identité de Fisher :
I

i=1
J

j=1
a
2
i j
= IJa
2
..
+J
I

i=1
(a
i.
−a
..
)
2
+I
J

j=1
(a
. j
−a
..
)
2
+
I

i=1
J

j=1
(a
i j
−a
i.
−a
. j
+a
..
)
2
.
On utilise ce fait pour faire un analyse de variances.
2.20 Modèle d’analyse des variances à 2 facteurs.
Suposons que sous l’hypothèse H
0
on a le modèle de régression d’après lequel
on a I J K observation sont indépendantes
Y
i jk
= µ+α
i

j

i j

i jk
,
i = 1, 2, ..., I; j = I, 2, ..., J; k = 1, 2, ..., K,
où µ, α
i
, β
j
, γ
i j
sont des constantes inconnues, et
δ
i jk
∼N(0, σ
2
).
On note Y = (Y
111
, ...,Y
IJK
)
T
le vecteur d’observation, Y ∈ R
IJK
. On suppose que I ≤ J.
Dans le cadre de ce modèle il faut estimer les paramètres suivants :
µ, α = (α
1
, ..., α
I
)
T
, β = (β
1
, ..., β
J
)
T
, γ =[[γ
i j
[[
IJ
and σ
2
.
On note
α
.
=
1
I
I

i=1
α
i
, β
.
=
1
J
J

j=1
β
j
,
154
γ
i.
=
1
J
J

j=1
γ
i j
, ( j = 1, 2, ..., J); γ
. j
=
1
I
I

i=1
γ
i j
, ( j = 1, 2, ..., J);
γ
..
=
1
IJ
J

j=1
I

i=1
γ
i j
.
On suppose sans perdre la gènèralitè que
α
.
= β
.
= γ
i.
= γ
. j
= γ
..
= 0, (i = 1, 2, ..., I; j = 1, 2, ..., J).
Pour tout i et pour tout j on note
X
i j
=Y
i j.
=
1
K
K

k=1
Y
i jk
= (1
T
1)
−1
1
T
Y
i j
,

Y
i j
= (Y
i j1
, ...,Y
i jK
)
T
, 1 = 1
K
= (1, 1, ..., 1)
T
∈ R
K
.
Notons
X = (X
11
, ..., X
IJ
)
T
, X ∈ R
IJ
,
où X
i j
=Y
i j.
, (i = 1, 2, ..., I; j = 1, 2, ..., J). Il est claire que sous H
0
X
i j
= µ+α
i

j

i j

i j.
, δ
i j.
∼N(0,
σ
2
K
),
parce que
EY
i jk
= µ+α
i

j

i j
, k = 1, 2, ..., K,
et donc sous H
0
pour tout k fixè la fonction de vraisemblance p
k
(µ, α, β, γ, σ
2
) du vector
(Y
11k
, ...,Y
IJk
)
T
est donnée par la formule suivante :
p
k
(µ, α, β, γ, σ
2
) =
1
(2πσ
2
)
IJ/2
exp
_

J

j=1
I

i=1
(Y
i jk
−µ−α
i
−β
j
−γ
i j
)
2

2
_
.
Puisque sous H
0
les variables δ
i jk
sont indèpendantes et suivent la même loi normale
N(0, σ
2
) on en tire que la fonction de vraisemblance du vector d’observations Y est
L(µ, α, β, γ, σ
2
) =
1
(2πσ
2
)
IJK/2
exp
_

J

j=1
I

i=1
K

k=1
(Y
i jk
−µ−α
i
−β
j
−γ
i j
)
2

2
_
=
1
(2πσ
2
)
IJK/2
exp
_
−SC
int

2
_
exp
_
−K

2
J

j=1
I

i=1
(X
i j
−µ−α
i
−β
j
−γ
i j
)
2
_
,

SC
int
=
J

j=1
I

i=1
K

k=1
(Y
i jk
−X
i j
)
2
=
J

j=1
I

i=1
K

k=1
(Y
i jk
−Y
i j.
)
2
.
On voit que la statistique (SC
int
, X)
T
est exhaustive pour (µ, α, β, γ, σ
2
)
T
, et que SC
int
et
X = (X
11
, ..., X
IJ
)
T
sont indèpendantes. Il est èvident que sous H
O
SC
int
σ
2
= χ
2
(K−1)IJ
et X
i j
∼N(µ+α
i

j

i j
;
σ
2
K
).
155
En utilisant la dècomposition orthogonale de Fisher on a
X
i j
= X
..
+(X
i.
−X
..
) +(X
. j
−X
..
) +(X
i j
−X
i.
−X
. j
+X
..
)
et
|X|
2
=|[X
i j
]|
2
=|[X
..
]|
2
+|[X
i.
−X
..
]|
2
+|[X
. j
−X
..
]|
2
+|[X
i j
−X
i.
−X
. j
+X
..
]|
2
,
d’où on tire l’identité de Fisher Phytagore :
I

i=1
J

j=1
X
2
i j
= IJX
2
..
+J
I

i=1
(X
i.
−X
..
)
2
+I
J

j=1
(X
. j
−X
..
)
2
+
I

i=1
J

j=1
(X
i j
−X
i.
−X
. j
+X
..
)
2
.
Maintenant nous pouvons prèsenter L(µ, α, β, γ, σ
2
) par la façon suivante :
L(µ, α, β, γ, σ
2
) =
1
(2πσ
2
)
IJK/2
exp
_
−SC
int

2
_

exp
_
−K

2
_
IJ(X
..
−µ)
2
+J
I

i=1
(X
i.
−X
..
−α
i
)
2
+I
J

j=1
(X
. j
−X
..
−β
j
)
2
+
I

i=1
J

j=1
(X
i j
−X
i.
−X
. j
+X
..
−γ
i j
)
2
__
,
d’où on obtient les meilleurs estimateurs sans biais (au sens du minimum de risk quadra-
tique) pour µ, α
i
, β
j
, γ
i j
:
ˆ µ = X
..
, ˆ α
i
= X
i.
−X
..
,
ˆ
β
j
= X
. j
−X
..
, ˆ γ
i j
= X
i j
−X
i.
−X
. j
+X
..
.
Pour estimer σ
2
il faut utiliser la relation
SC
int
σ
2
= χ
2
(K−1)IJ
,
qui nous donne l’estimateur
ˆ σ
2
=
1
IJ(K−1)
SC
int
=
1
IJ(K−1)
J

j=1
I

i=1
K

k=1
(Y
i jk
−X
i j
)
2
.
Comme nous avons dit nous avons construit MVUE’s (voir, Voinov and Nikulin (1996))
puisque
Eˆ µ = EX
..
= µ, Eˆ α
i
= α
i
, E
ˆ
β
j
= β
j
,
Eˆ γ
i j
= γ
i j
, Eˆ σ
2
= σ
2
.
On considère ici les sommes de carrés suivantes :
SC
entα
= KJ
I

i=1
(X
i.
−X
..
)
2
, SC
entβ
= KI
J

j=1
(X
. j
−X
..
)
2
,
SC
inter
= K
I

i=1
J

j=1
(X
i j
−X
i.
−X
. j
+X
..
)
2
.
156
On note aussi
SC
tot
=
J

j=1
I

i=1
K

k=1
(Y
i jk
−Y
...
)
2
=
J

j=1
I

i=1
K

k=1
(Y
i jk
−X
..
)
2
,

Y
...
= X
..
=
1
IJK
J

j=1
I

i=1
K

k=1
Y
i jk
.
Dans ce cas on a la relation suivante entre ces sommes de carrés :
SC
tot
= SC
int
+SC
entα
+SC
entβ
+SC
inter
.
On remarque que les statistiques SC
int
, SC
entα
, SC
entβ
, SC
inter
sont indépendantes.
On considère les trois hypoth` ses suivantes :
H

: α
1
= α
2
= ... = α
I
= 0,
H

: β
1
= β
2
= ... = β
J
= 0,
H

: γ
1
= γ
2
= ... = γ
IJ
= 0.
On remarque que
si H

est vraie, alors
SC
entα
σ
2
= χ
2
I−1
,
si H

est vraie, alors
SC
entβ
σ
2
= χ
2
J−1
,
si H

est vraie, alors
SC
inter
σ
2
= χ
2
(I−1)(J−1)
.
Pour tester H

on calcule la statistique
IJ(K−1)SC
entα
(I −1)SC
int
= F
I−1,IJ(K−1)
.
Pour tester H

on calcule la statistique
IJ(K−1)SC
entβ
(J −1)SC
int
= F
J−1,IJ(K−1)
.
Pour tester H

on calcule la statistique
IJ(K−1)SC
inter
(I −1)(J −1)SC
int
= F
(I−1)(J−1),IJ(K−1)
.
Exemple 1. Analyse de variance à un facteur. On suppose que l’on a mesuré les
diamètres de 5 billes. Pour chaque bille on a répété 5 fois les mesures. On considère l’hy-
pothèse H
0
selon laquelle
157
1) les 5 valeurs (inconnues) des diamètres de ces 5 billes sont des réalisations de 5
variables aléatoires qui sont indépendantes et suivent la même loi normale N(a, σ
2
o
).
2) toutes les mesures sont indépendantes, de même précision et sans biais.
3) les erreurs aléatoires de ces mesures suivent la même loi normale N(0, σ
2
), dont la
variance σ
2
est inconnue.
La Table nous donne les résultats suivants pour des mesures (en mm). On note x
i j
la
j-ème mesure de la bille avec le numéro i, et x
i.
la valeur moyenne des mesures pour ce
sujet.
Numéro SUJETS
des mesures 1 2 3 4 5
1 12.093 11.996 12.017 12.023 11.900
2 12.097 11.995 12.012 12.026 11.893
3 12.096 11.990 12.014 12.028 11.896
4 12.094 11.991 12.017 12.028 11.899
5 12.100 11.998 12.010 12.021 11.898
Table 1
Il nous faut trouver les meilleurs estimateurs sans biais des valeurs inconnues des dia-
mètres des billes, de a, σ
2
o
et σ
2
, et aussi des surfaces des sections de ces 5 billes.
Tout d’abord il faut construire la fonction de vraisemblance. Il est clair, que nous pou-
vons considérer le résultat x
i j
de la j-ème mesure de la bille i comme la réalisation d’une
variable aléatoire X
i j
, où
X
i j
= a+δ
i

i j
, i = 1, 2, . . . , I; j = 1, 2, . . . , J. (1)
Les éléments δ
1
, δ
2
, . . . , δ
I
du vecteur δ = (δ
1
, δ
2
, . . . , δ
I
)
T
et δ
i j
de la matrice ∆ = |δ
i j
|
sont indépendants, δ
i
suit la loi normale N(0, σ
2
o
), δ
i j
suit la loi normale N(0, σ
2
), les
paramètres a, σ
2
o
et σ
2
sont inconnus.
Notons
X
i.
=
1
J
J

j=1
X
i j
, X
..
=
1
IJ
I

i=1
J

j=1
X
i j
=
1
I
I

i=1
X
i.
, (2)
On remarque que dans notre cas
X
1.
= 12.0960, X
2.
= 11.9920, X
3.
= 12.0140,
X
4.
= 12.0252, X
5.
= 11.8972, X
..
= 12.00488.
De plus notons
δ
i.
=
1
J
J

j=1
δ
i j
, δ
..
=
1
IJ
I

i=1
J

j=1
δ
i j
, δ
.
=
1
I
I

i=1
δ
i
. (3)
Dans ce cas, l’observation X
i j
peut-être représentée comme
X
i j
= X
..
+(X
i.
−X
..
) +(X
i j
−X
i.
) (4)
et nous pouvons remarquer que
X
i.
= a+δ
i

i.
,
X
..
= a+δ
.

..
,
158
et que
X
i j
−X
i.
= δ
i j
−δ
i.
,
X
i.
−X
..
= (δ
i
−δ
.
) +(δ
i.

..
), (5)
X
..
−a = δ
.

..
.
Comme toutes les variables δ
1
, δ
2
, . . . , δ
I
, δ
11
, . . . , δ
IJ
sont indépendantes et normales, on a

i
−δ
.
), δ
.
, δ
i j
sont indépendantes,

i
−δ
.
), δ
.
, (δ
i j
−δ
i.
), δ
i.
sont indépendantes, (6)

i
−δ
.
), δ
.
, (δ
i j
−δ
i.
), (δ
i.
−δ
..
), δ
..
sont indépendantes
et de plus la variable aléatoire
δ
.

..
suit la loi normale N(0,
σ
2
o
I
+
σ
2
IJ
). (7)
La variable aléatoire
I

i=1
[(δ
i
−δ
.
) +(δ
i.
−δ
..
)]
2
=
I

i=1
[(δ
i

i.
) −(δ
.
+δ..)]
2
est distribuée comme

2
o
+
1
J
σ
2

2
I−1
,
c’est-à-dire que
1

2
o
+
1
J
σ
2
)
I

i=1
[(δ
i
−δ
.
) +(δ
i.
−δ
..
)]
2
= χ
2
I−1
, (8)
et il est évident, que
1
σ
2

i, j

i j
−δ
i.
)
2
= χ
2
I(J−1)
. (9)
Par conséquent, de (6)-(9) on déduit que

.

..
)
2
σ
2
o
I
+
σ
2
IJ
+
I

i=1
[(δ
i
−δ.) +(δ
i.
−δ
..
)]
2
σ
2
o
+
1
J
σ
2
+
1
σ
2

i, j

i j
−δ
i.
)
2
= χ
2
IJ
,
ce qui est équivalent à
(X
..
−a)
2
1
I

2
o
+
σ
2
J
)
+
I

i=1
(X
i.
−X
..
)
2
σ
2
o
+
σ
2
J
+
I

i=1
J

j=1
(X
i j
−X
..
)
2
σ
2
= χ
2
IJ
. (10)
On trouve maintenant la fonction de vraisemblance L(a, σ
2
o
, σ
2
) de notre échantillon
(X
11
, . . . , X
IJ
)
T
. L’expression (10) est proportionnelle, à un terme additif près, à lnL(a, σ
2
0
, σ
2
).
Pour le montrer on remarque que
1
σ
o


−∞
1
(2π)
J/2
σ
J
exp
_

1
2
_
1
σ
2
J

i=1
(x
i j
−a−y
i
)
2
+
y
2
i
σ
2
o
__
dy
i
=
159
1
σ
o
(2π)
(J+1)/2
σ
J

−∞
exp
_

1
2
_
1
σ
2
J

j=1
(x
i j
−a)
2

2y
i
σ
2
J

j=1
(x
i j
−a)+
_
1
σ
2
o
+
J
σ
2
_
y
2
i
__
dy
i
=
1
σ
o
(2π)
J/2
σ
J
(
1
σ
2
o
+
J
σ
2
)
1/2
exp
_

1

2
J

j=1
(x
i j
−a)
2
_

−∞
_
exp
_
y
i
σ
2
J

j=1
(x
i j
−a)
_
1


_
1
σ
2
o
+
J
σ
2
_
1/2
exp
_
−1/2
_
1
σ
2
o
+
J
σ
2
_
y
2
i
_
_
dy
i
. (11)
De l’autre côtè on sait que si une variable aléatoire ζ suit la loi normale N(Eζ, Varζ) de
paramètres Eζ et Varζ, alors
Ee
itζ
= exp¦itEζ−
t
2
2
Varζ¦. (12)
représente la fonction caractéristique de ζ. Dans notre cas
ζ = δ
.

..
= X
..
−a,
Eζ = 0, Varζ =
1
1
σ
2
o
+
J
σ
2
, it =
1
σ
2
J

j=1
(x
i j
−a)
2
, (13)
et par conséquent de (12)-(13) on déduit que l’integrale en (11) est égale à
exp
_
_
_
1

4
(
1
σ
2
o
+
J
σ
2
)
_
J

i=1
(x
i j
−a)
_
2
_
_
_
(14)
et donc
L(a, σ
2
o
, σ
2
) =
1
(2π)
IJ/2
σ
IJ
σ
I
o
_
1
σ
2
o
+
J
σ
2
_
I/2

exp
_
_
_

1

2
I

i=1
J

j=1
(X
i j
−a)
2
+
1
2(
σ
4
σ
2
o
+Jσ
2
)
I

i=1
_
J

j=1
(X
i j
−a)
_
2
_
_
_
, (15)
d’où l’on tire que
lnL(a, σ
2
o
, σ
2
) = ln(const) −
1

2
I

i=1
J

j=1
(X
i j
−a)
2
+
1
2
_
σ
4
σ
2
o
+Jσ
2
_
I

i=1
_
J

j=1
(X
i j
−a)
2
_
2
. (16)
Mais par ailleurs, de (2)-(5) on déduit
X
i j
−a = (X
..
−a) +(X
i.
−X
..
) +(X
i j
−X
i.
),
J

j=1
(X
i j
−a) = J(X
..
−a) +J(X
i.
−X
..
),
160
I

i=1
_
J

j=1
(X
i j
−a)
_
2
= IJ
2
(X
..
−a)
2
+J
2
I

i=1
(X
i.
−X
..
)
2
, (17)
(X
i j
−a)
2
= (X
..
−a)
2
+(X
i.
−X
..
)
2
+(X
i j
−X
i.
)
2
+
2[(X
..
−a)(X
i.
−X
..
) +(X
..
−a)(X
i j
−X
i.
) +(X
i.
−X
..
)(X
i j
−X
i.
)],
I

i=1
J

j=1
(X
i j
−a)
2
= IJ(X
..
−a)
2
+J
I

i=1
(X
i.
−X
..
)
2
+
I

i=1
J

i=1
(X
i j
−X
i.
)
2
,
et par conséquent de (16) et (17) il résulte que
−2lnL(a, σ
2
o
, σ
2
) =−2ln(const) +
IJ
σ
2
(X
..
−a)
2
+
J
σ
2
I

i=1
(X
i.
−X
..
)
2
+
1
σ
2
I

i=1
J

j=1
(X
i j
−X
i.
)
2

IJ
2
σ
4
σ
2
o

2
J
(X
..
−a)
2

J
2
σ
4
σ
2
o

2
J
I

i=1
(X
i.
−X
..
)
2
=
−2ln(const) +
(X
..
−a)
2
1
I

2
o
+
σ
2
J
)
+
I

i=1
(X
i.
−X
..
)
2
σ
2
o
+
σ
2
J
+
I

i=1
J

j=1
(X
i j
−X
..
)
2
σ
2
=
=−2ln(const) +χ
2
IJ
, (18)
comme on le voit à partir de (11). De (18) on déduit que
T =
_
X
..
,
I

i=1
(X
i.
−X
..
)
2
,
I

i=1
J

j=1
(X
i j
−X
i.
)
2
_
T
(19)
est une statistique exhaustive. Il est évident que les meilleurs estimateurs sans biases pour
a, σ
2
et σ
2
o

2
/J sont
ˆ a = X
..
,
ˆ
σ
2
=
1
I(J −1)
I

i=1
J

j=1
(X
i j
−X
i.
)
2
, (20)
ˆ
σ
2
o
+
ˆ
σ
2
J
=
1
I −1
I

i=1
(X
i.
−X
..
)
2
, (21)
et par conséquent, on trouve
ˆ a = 12.00488,
ˆ
σ
2
= 0.00000918,
_
ˆ
σ
2
= 0.00303, (22)
ˆ
σ
2
o
+
ˆ
σ
2
J
= 0.0051400,
ˆ
σ
2
o
= 0.0051382,
_
ˆ
σ
2
o
= 0.07168. (23)
Comme
(X
..
−a)
2
σ
2
o
I
+
σ
2
IJ
I

i=1
(X
i.
−X
..
)
2
(I−1)(σ
2
o
+
σ
2
J
)
=
I(X
..
−a)
2
1
I−1
I

i=1
(X
i.
−X
..
)
2
=
χ
2
1
1
I−1
χ
2
I−1
= F
1,I−1
=t
2
I−1
,
161
on a
P
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_

I
[X
..
−a[
¸
1
I−1
I

i−1
(X
i.
−X
..
)
2

_
F
1,I−1
(P)
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
= P, (24)
où F
1,I−1
(P) est le quantile de niveau P (P > 0.5) de la distribution F à 1 et I −1 degrés de
liberté, dont on rapelle la définition :
P¦F
1,I−1
≤F
1,I−1
(P)¦ = P. (25)
Par exemple, si P = 0.95, alors F
1,4
(0.95) = 7.7086. De (24) et (25) on déduit l’intervalle
de confiance
[a−X
..
[ ≤
¸
1
I
F
1,I−1
(P)
1
I −1
I

i=1
(X
i.
−X
..
)
2
(26)
de coefficient de confiance P. Par conséquent, on trouve l’intervalle de confiance pour le
paramètre a :
11.9159 < a < 12.0939
En continuant les calculs, liés à la table 1 des données initiales, on obtient la table suivante :
i
1
4
J

i=1
(X
i j
−X
i.
)
2
75∗10
−7
115∗10
−7
95∗10
−7
97∗10
−7
77∗10
−7
Table 2.
De plus, on a
I

i=1
(X
i.
−X
..
)
2
= 0.020559808,
1
4

i=2
I(X
i.
−X
..
)
2
= 0.005139952,
¸
1
4
I

i=1
(X
i.
−X
..
)
2
= 0.071693458557946,
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 0.0001836,
1
20
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 0.00000918,
¸
¸
¸
_
1
20
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 0.003029851481508,
1
4
I

i=1
(X
i.
−X
..
)
2

1
100
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 0.005138116,
¸
¸
¸
_
1
4
I

i=1
(X
i.
−X
..
)
2

1
100
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 0.071680652898814,
1
4
I

i=1
(X
i.
−X
..
)
2
1
20
I

i=1
J

j=1
(X
i j
−X
i.
)
2
= 559.9076252723311.
162
La surface de section de la bille de numéro i est égale à
π
4
(a+δ
i
)
2
,
et l’espérance de la section de n’importe quelle bille est égale à
π
4
E(a+δ
i
)
2
=
π
4
(a
2
+Eδ
2
i
) =
π
4
(a
2

2
o
),
car Eδ
i
= 0 et Varδ
i
= Eδ
2
i
. Mais comme
EX
2
..
= VarX
..
+(EX
..
)
2
=
σ
2
o
I
+
σ
2
IJ
+a
2
,
on obtient l’estimateur sans biais de
π
4
(a
2

2
o
) :
π
4
_
X
2
..

ˆ
σ
2
o
I

ˆ
σ
2
IJ

ˆ
σ
2
o
_
=
π
4
[(12.00488)
2
+0.00514−
0.00514
5
] = 113.1926.
Par ailleur, on a
a+δ
i

= X
i.
, E¦X
i.

i
¦ = a+δ
i
et donc
Var¦X
i.

i
¦ =
σ
2
J
, E¦X
2
i.

i
¦ = Var¦X
i.

i
¦+(a+δ
i
)
2
,
et donc l’estimateur sans biais pour la surface de la section de la bille de numéro i est
π
4
_
X
2
i.

ˆ
σ
2
J
_
=
π
4
_
X
2
i.
−0.0000018
_
.
Les valeurs numériques de ces estimateurs pour les billes de numéros 1,2,3,4,5 sont
114.91413, 112.32974, 113.36138, 113.57284, 111.16790
respectivement (la moyenne arithmétique est égale à 113.06920). Enfin, on remarque que
σ
2
< 0.007926σ
2
o
et σ
2
> 0.00127
avec le coefficient de confiance P = 0.98.
2.21 Modèle exponentiel. Analyse statistique.
Soit X = (X
1
, . . . , X
n
)
T
un échantillon d’une loi exponentielle E(µ, σ), i.e.
X
i
∼ f (x; θ), θ ∈ ΘΘΘ =¦θ = (µ, σ)
T
: [µ[ < ∞, σ > 0¦,
163

f (x; θ) =
_
_
_
1
σ
exp
_

x −µ
σ
_
, x ≥µ,
0, sinon.
Il est évident que
f (x; θ) =
1
σ
exp
_

x −µ
σ
_
H(x −µ), (2.1)
H(x) =
_
1, si x ≥0,
0, si x < 0.
On sait que
EX
i
= µ+σ et VarX
i
= σ
2
. (2.2)
Notons X
(n)
= (X
(1)
, X
(2)
, . . . , X
(n)
)
T
le vecteur des statistiques d’ordre associé au vecteur
de observation X,
P¦X
(1)
< X
(2)
< < X
(n)
¦ = 1. (2.3)
Il est facile de montrer que T = (X
(1)
, S)
T
est une statistique exhaustive pour le paramètre
θ, où
X
(1)
= min(X
1
, X
2
, . . . , X
n
) et S =
n

i=2
(X
(i)
−X
(1)
). (2.4)
En effet, la fonction de vraisemblance de X est
L(X; θ) =
n

i=1
f (X
i
; θ) =
1
σ
n
exp
_

1
σ
n

i=1
(X
i
−µ)
_
H(X
(1)
−µ) =
=
1
σ
n
exp
_

1
σ
n

i=1
(X
(i)
−µ)
_
H(X
(1)
−µ). (2.5)
Comme
n

i=1
X
i
=
n

i=1
X
(i)
=
n

i=2
(X
(i)
−X
(1)
) +nX
(1)
=
n

i=2
(X
(i)
−X
(1)
) +nX
(1)
,
on en tire que la statistique T = (X
(1)
, S)
T
est exhaustive minimale pour θ = (µ, σ)
T
. Il est
connu que X
(n)
est une statistique exhaustive pour θ, mais X
(n)
n’est pas intéressante parce
qu’elle a la même dimension n que le vecteur X, c’est-à-dire que X
(n)
ne réduit pas des
données. Le vecteur
U = (X
(1)
,
n

i=2
X
(i)
)
T
est aussi une statistique exhaustive minimale pour θ. Il est facile de montrer que la densité
de X
(1)
est donnée par la formule
n
σ
exp
_

n
σ
(x
(1)
−µ)
_
H(x
(1)
−µ), (2.6)
i.e., X
(1)
suit une loi exponentielle E(µ, σ/n),
EX
(1)
= µ+
σ
n
et VarX
(1)
=
σ
2
n
2
. (2.7)
164
Nous pouvons donc dire que la statistique nX
(1)
∼E(nµ, σ), et de (2) et (7) on obtient que
E¦nX
(1)
¦ = nµ+σ et Var¦nX
(1)
¦ = σ
2
. (2.8)
Maintenant nous alons montrer que X
(1)
et S sont indépendantes. Tout d’abord on remarque
que la densité de X
()
est
g(x
()
; θ) = n!
n

i=1
f (x
(i)
; θ) =
n!
σ
n
exp
_

1
σ
n

i=1
(x
(i)
−µ)
_
H(x
(1)
−µ) =
=
n
σ
exp
_

n
σ
(x
(1)
−µ)
_
H(x
(1)
−µ)
(n−1)!
σ
n−1

exp
_

1
σ
n

i=2
(x
(i)
−x
(1)
)
_
H(x
(2)
−x
(1)
), (2.9)

x
()
= (x
(1)
, . . . , x
(n)
)
T
∈ B
µ
=¦x ∈ R
n
: µ ≤x
1
≤x
2
≤ ≤x
n
¦, (2.10)
d’où on tire que
(n−1)!
σ
n−1
exp
_

1
σ
n

i=2
(x
(i)
−x
(1)
)
_
, x
(1)
≤x
(2)
≤ ≤x
(n)
, (2.11)
représente la densité conditionnelle de
(X
(2)
, X
(3)
, . . . , X
(n)
)
T
sachant que X
(1)
= x
(1)
.
On constate que cette loi conditionnelle ne dépend pas de µ. En plus de (4) et (9) on dé-
duit que si la valeur x
(1)
de la statistique X
(1)
est fixée, X
(1)
= x
(1)
, alors la statistique
(X
(2)
, X
(3)
, . . . , X
(n)
)
T
représente le vecteur des statistiques d’ordre obtenu à partir d’un
échantillon de dimension n−1, dont les éléments suivent la loi exponentielle
1
σ
exp
_

x −x
(1)
σ
_
H(x −x
(1)
).
Maintenant on va chercher la densité conjointe q(y; θ),
y = (y
1
, . . . , y
n
)
T
∈ B
µ
=¦x ∈ R
n
: µ ≤y
1
, 0 ≤y
2
≤ ≤y
n
¦,
des statistiques
X
(1)
et (X
(2)
−X
(1)
, . . . , X
(n)
−X
(1)
)
T
,
c’est-à-dire la densité de la statistique
Y = (Y
1
,Y
2
, . . . ,Y
n
)
T
,

Y
1
= X
(1)
, Y
j
= X
( j)
−X
(1)
, j = 2, . . . , n. (2.12)
On constate que la statistique Y est le résultat d’une transformation linéaire la statistique
X
(n)
:
Y = BX
(n)
,
165

B =
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0
−1 1 0 . . . 0
−1 0 1 . . . 0
.
.
.
−1 0 0 . . . 1
_
_
_
_
_
_
_
_
_
_
_
,
et donc
X
(n)
= B
−1
Y,

B
−1
=
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0
1 1 0 . . . 0
1 0 1 . . . 0
.
.
.
1 0 0 . . . 1
_
_
_
_
_
_
_
_
_
_
_
.
Comme det B = 1, de (9) on tire
q(y; θ) = g(B
−1
y; θ)[ det B
−1
[ = g(y
1
, y
1
+y
2
, . . . , y
1
+y
n
; θ) =
=
n
σ
exp
_

n
σ
(y
1
−µ)
_
H(y
1
−µ)
(n−1)!
σ
n−1
_

1
σ
n

i=2
y
i
_
, y ∈ B
µ
⊂R
n
, (2.13)
d’où on tire que la densité conjointe de X
(1)
et (X
(2)
−X
(1)
, . . . , X
(n)
−X
(1)
)
T
est le produit
de deux densités et donc les statistiques X
(1)
et (X
(2)
−X
(1)
, . . . , X
(n)
−X
(1)
)
T
sont indépen-
dantes, d’où on tire que X
(1)
et
n

i=2
(X
(i)
−X
(1)
) sont indépendantes.
En plus de (13) il suit que
n

i=2
(X
(i)
−X
(1)
)
suit une loi gamma dont la densité est
1
σ
n−1
Γ(n−1)
y
n−2
e
−y/σ
H(y),
parce que
(n−1)!
σ
n−1
exp¦−
1
σ
n

i=2
y
i
¦, 0 ≤y
2
≤y
3
≤. . . y
n
,
représente la densité conjointe du vecteur des statistiques d’ordre de dimension (n −1),
associé avec une loi exponentielle
1
σ
exp
_

1
σ
y
_
H(y),
i.e. avec une loi exponentielle E(0, σ), et donc la variable aléatoire
1
σ
n

i=2
Y
i
=
1
σ
n

i=2
(X
(i)
−X
(1)
) = γ
n−1
166
est distribuée comme la somme de (n−1) variables aléatoires indépendantes, qui forment
un échantillon de volume (n−1) d’une loi exponentielle E(0, 1), i.e., S suit une loi gamma
avec (n−1) degrés de liberté et de paramètre d’échelle σ.
S =
n

i=2
Y
i
=
n

i=2
(X
(i)
−X
(1)
) = σγ
n−1
, (2.14)
et donc
ES = E¦σγ
n−1
¦ = (n−1)σ, VarS = Var¦σγ
n−1
¦ = σ
2
(n−1). (2.15)
Dans ce cas la statistique
¯ σ
n
=
1
n−1
n

i=2
(X
(i)
−X
(1)
) =
n
n−1
(
¯
X
n
−X
(1)
) (2.16)
est le meilleur estimateur sans biais pour σ. De (15) on tire que
Var ¯ σ
n
=
σ
2
n−1
. (2.17)
Enfin, en utilisant (7) et (16) nous pouvons construire le meilleur estimateur sans biais ¯ µ
n
pour µ :
¯ µ
n
= X
(1)

¯ σ
n
n
= X
(1)

1
n(n−1)
n

i=2
(X
(i)
−X
(1)
) = X
(1)

1
n−1
(
¯
X
n
−X
(1)
). (2.18)
Comme les statistique X
(1)
et S sont indépendantes, les statistiques X
(1)
et ¯ σ
n
sont aussi
indépendantes et par conséquent
Var ¯ µ
n
= VarX
(1)
+
1
n
2
Var ¯ σ
n
=
σ
2
n
2
+
σ
2
(n−1)n
2
=
σ
2
n(n−1)
. (2.19)
Corollaire 1. Comme
n

i=2
(X
(i)
−X
(1)
) =
n

i=2
Y
i
=
n

i=2
(n−i −1)[X
(i)
−X
(i−1)
], (2.20)
de (9) et (12) il suit que les statistiques
nX
(1)
, (n−1)[X
(2)
−X
(1)
], . . . , (n−i −1)[X
(i)
−X
(i−1)
], . . . , X
(n)
−X
(n−1)
sont indépendantes et
nX
(1)
∼E(nµ, σ), i.e. n(X
(1)
−µ) ≈E(0, σ), (2.21)
(n−i −1)[X
(i)
−X
(i−1)
] ∼E(0, σ), i = 2, 3, . . . , n. (2.22)
Il est évident que toutes ces propriétés importantes d’un échantillon X d’une loi exponen-
tielle sont dûes à l’indépendance temporelle de la distribution exponentielle (une loi expo-
nentielle est sans mémoire).
167
Remarque 1. (Méthode des moments). Comme
EX
i
= µ+σ et VarX
i
= σ
2
pour estimer θ = (µ, σ)
T
nous pouvons utiliser la méthode des moments. D’après cette
méthode en qualité d’estimateurs ˜ µ
n
et ˜ σ
n
de µ et σ il faut choisir la solution du système
_
µ+σ =
¯
X
n
,
σ
2
= s
2
n
,
puisque
¯
X
n
et s
2
n
sont l’espérance et la variance de le loi empirique correspondant à l’échan-
tillon X = (X
1
, . . . , X
n
)
T
, d’où on obtient que
˜
θ
n
= (˜ µ
n
, ˜ σ
n
)
T
,

˜ µ
n
=
¯
X
n
−s
n
=
¯
X
n

¸
1
n
n

i=1
(X
i

¯
X
n
)
2
,
˜ σ
n
= s
n
=
¸
1
n
n

i=1
(X
i

¯
X
n
)
2
.
Remarque 2. (Méthode du maximum de vraisemblance). De (5) on a
L(X; θ) = L(X; µ, σ) =
1
σ
n
exp
_

1
σ
n

i=1
(X
i
−µ)
_
H(X
(1)
−µ),
d’où on tire immédiatement que
ˆ µ
n
= X
(1)
.
Puisque
∂lnL(X; θ)
∂σ
=−
n
σ
+
1
σ
2
n

i=1
(X
i
−µ),
on en tire que ˆ σ
n
est la solution de l’équation

n
σ
+
1
σ
2
n

i=1
(X
i

¯
X
n
) = 0,
i.e.,
ˆ σ
n
=
1
n
n

i=1
(X
i

¯
X
n
) =
¯
X
n
−X
(1)
,
et donc
ˆ
θ
n
= (ˆ µ
n
, ˆ σ
n
)
T
.
On remarque que les meilleurs estimateurs sans biais pour µ et σ sont
¯ µ
n
=
n
n−1
_
ˆ µ
n

1
n
¯
X
n
_
et ¯ σ
n
=
n−1
n
ˆ σ
n
.
168
Chapitre 3
ELEMENTS DE LA STATISTIQUE
NON PARAMETRIQUE.
3.1 La loi empirique.
Soit l’hypothèse H
0
selon laquelle les éléments X
1
, X
2
, . . . , X
n
de l’échantillon X =
(X
1
, X
2
, . . . , X
n
)
T
suivent une loi donnée, dont la fonction de répartition est F(x), i.e. pour
tout x ∈ R
1
P¦X
i
≤x[H
0
¦ = F(x), i = 1, 2, . . . , n, (3.1)
et X
1
, X
2
, . . . , X
n
sont indépendantes. Supposons en outre que la fonction de répartition
F(x), x ∈ R
1
, soit telle que le moment a
2k
existe,
a
2k
= EX
2k
1
=
+∞

−∞
x
2k
dF(x). (3.2)
On sait que dans ce cas tous les moments a
j
, 1 ≤ j ≤2k, existent ainsi que les moments
centraux m
j
,
m
j
= E(X
1
−EX
1
)
j
= E(X
1
−a)
j
, j = 1, 2, .., 2k, (3.3)
où a = a
1
= EX
1
. Notons aussi
σ
2
= VarX
1
= m
2
= E(X
1
−a)
2
. (3.4)
Ayant la réalisation x = (x
1
, . . . , x
n
)
T
de la statistique X = (X
1
, X
2
, . . . , X
n
)
T
, nous pouvons
construire la fonction
F
n
(x) = F
n
(x; x
1
, . . . , x
n
) =
1
n
n

i=1
1
(−∞,x]
(x
i
), x ∈ R
1
, (3.5)
dont la valeur F
n
(x) en n’importe quel point x, x ∈ R
1
, représente la réalisation de la
statistique
169
F
n
(x) =F
n
(x; X
1
, . . . , X
n
) =
1
n
n

i=1
1
(−∞,x]
(X
i
), (3.6)
calculée au point choisi x.
Par construction, la fonction F
n
(x), x ∈ R
1
, a toutes les propriétés d’une fonction de
répartition, car elle est croissante de 0 à 1 et continue à droite, et pour cette raison nous
pouvons introduire une vaiable aleatoire, disons X, dont la loi conditionnelle, conditionnée
par X = x, est donnée par la fonction F
n
(x), c’est-à-dire
P¦X ≤x[X = x¦ = P¦X ≤x[X
1
= x
1
, . . . , X
n
= x
n
¦ = F
n
(x), x ∈ R
1
, (3.7)
et par conséquent de (6) et (7) il résulte que
F
n
(x) = P¦X ≤x[X¦, x ∈ R
1
, (3.8)
c’est-à-dire que (8) détermine une fonction de répartition aléatoire, qu’on appelle fonction
de répartition empirique. Par conséquent, la loi conditionelle de la variable aléatoire X,
conditionnée par X, s’appelle la loi empirique. De (5)–(8) il résulte que la loi empirique est
la loi discrète d’après laquelle
P¦X = X
i
[X¦ =
1
n
pour tout i = 1, 2, . . . , n, (3.9)
c’est-à-dire que la loi empirique affecte le même poids 1/n à chaque élément X
i
de l’échan-
tillon X = (X
1
, X
2
, . . . , X
n
)
T
, et F
n
(x) est la fonction de répartition de cette loi. Soit α
m
le
moment d’ordre m de la loi empirique. Alors de (6), (8) et (9) on déduit
α
m
= E¦X
m
[X¦ =
1
n
n

i=1
X
m
i
, (3.10)
et, par conséquent, on obtient la moyenne α
1
de la loi empirique :
α
1
= E¦X[X¦ =
1
n
n

i=1
X
i
=
¯
X
n
. (3.11)
De même, la variance de la loi empirique s’exprime par la formule
E¦(X −α
1
)
2
[X¦ = E¦(X −
¯
X
n
)
2
[X¦ = α
2
−α
2
1
=
1
n
n

i=1
(X
i

¯
X
n
)
2
= s
2
n
. (3.12)
La loi empirique (9) et sa fonction de répartition F
n
(x), x ∈R
1
, jouent un rôle très important
dans la statistique mathématique ; c’est pour cela que nous allons parler un peu plus en détail
de ses propriétés et qualités.
Premièrement, on remarque que pour tout x fixé, x ∈ R
1
,
E1
]−∞,x]
(X
i
) = P¦X
i
≤x¦ = F(x), (3.13)
c’est-à-dire que la statistique 1
]−∞,x]
(X
i
) est un estimateur sans biais de F(x). On remarque
ici que 1
]−∞,x]
(X
i
) est la fonction de répartition empirique construite avec une seule obser-
vation X
i
. Il est facile de vérifier que
170
Var1
]−∞,x]
(X
i
) = F(x)[1−F(x)], (3.14)
car pour tout x fixé la statistique 1
]−∞,x]
(X
i
) représente la variable aléatoire de Bernoulli de
paramétre p = F(x), puisque
_
P¦1
]−∞,x]
(X
i
) = 1¦ = P¦X
i
≤x¦ = F(x) = p,
P¦1
]−∞,x]
(X
i
) = 0¦ = P¦X
i
> x¦ = 1−F(x) = 1−p = q.
(3.15)
D’autre part nous avons
F
n
(x) =
1
n
n

i=1
1
]−∞,x]
(X
i
) =
1
n
ν
n
(x), (3.16)

ν
n
(x) =
n

i=1
1
]−∞,x]
(X
i
). (3.17)
Comme les variables aléatoires X
1
, X
2
, . . . , X
n
sont indépendantes et suivent la même loi
F(x), i.e. P¦X
i
≤x¦ = F(x), de (13)-(17) il s’ensuit que pour tout x fixé
P¦ν
n
(x) = k¦ =C
k
n
p
k
(1−p)
n−k
, k = 0, 1, . . . , n, (3.18)
où p = F(x). Comme

n
(x) = np = nF(x), Varν
n
(x) = npq = nF(x)[1−F(x)], (3.19)
on a
EF
n
(x) = F(x) et VarF
n
(x) =
1
n
F(x)[1−F(x)]. (3.20)
De (20) il déduit que si n →∞
VarF
n
(x) →0
pour tout x fixé, x ∈ R
1
; par conséquent, de l’inégalité de Tchebyschev, il résulte que pour
tout ε > 0
P¦[F
n
(x) −F(x)[ ≥ε¦ ≤
VarF
n
(x)
ε
2
=
F(x)[1−F(x)]
ε
2
→0, (3.21)
quand n →∞. Ainsi de (20) et (21) résulte le
Théorème 1. Si P¦X
i
≤x¦ = F(x), alors
_
1) EF
n
(x) = F(x),
2) P¦[F
n
(x) −F(x)[ > ε¦ →0, quand n →∞,
(3.22)
quel que soit x fixé, x ∈ R
1
.
Remarque 1. Le théorème 1 nous dit que ¦F
n
(x)¦
n∈N
est une suite cohérente d’es-
timateurs sans biais de F(x) pour tout x fixé, x ∈ R
1
. Cela signifie que si la taille n de
171
l’échantillon X= (X
1
, . . . , X
n
)
T
est grande, alors la valeur de la fonction F
n
(x) en un point x
la réalisation de la fonction de répartition empirique F
n
(x) en ce point, peut-être considérée
comme une bonne approximation de la valeur F(x). Cela veut dire que si F est inconnue,
on pourra supposer que
F
n
(x)

= F(x) (3.23)
pour tout x et cette approximation est d’autant meilleure que le nombre n des observations,
c’est-à-dire notre information sur F, est plus grand.
Remarque 2. Du théorème 1 il résulte que
P¦X ≤x¦ = EP¦X ≤x[X¦ = EF
n
(x) = F(x),
c’est-à-dire que la loi déconditionnée de la variable aléatoire X est la même que celle de X
i
,
élément de l’échantillon X,
P¦X ≤x¦ = P¦X
i
≤x¦ = F(x).
Le théorème 1 peut-être affiné en considérant la fonction de répartition empirique F
n
(x), x ∈
R
1
, dans son ensemble et non pas pour chaque x pris séparément. On va s’intéresser au
maximum de l’écart entre F
n
(x) et F(x), que l’on notera D
n
:
D
n
= D
n
(X) = sup
[x[<∞
[F
n
(x) −F(x)[. (3.24)
La statistique D
n
s’appelle la statistique de Kolmogorov (1933).
Théorème 2. (Glivenko-Cantelli)
P
_
lim
n→∞
D
n
= 0
_
= 1. (3.25)
Le théorème de Glivenko-Cantelli nous dit que la suite ¦F
n
(x)¦ des fonctions de répar-
tition empiriques converge presque sûrement vers F(x) uniformément par rapport à x quand
n →∞. La réalisation
D
n
= sup
[x[<∞
[F
n
(x) −F(x)[
de la statistique de Kolmogorov D
n
nous donne la déviation maximale observée sur l’axe
réel de la fonction de répartition empirique F
n
(x) et de la fonction de répartition F(x) de
la variable aléatoire X
1
. Du théorème de Glivenko-Cantelli il résulte que pour tout x, avec
la probabilité 1, cette déviation devient plus petite que tout nombre positif ε arbitrairement
petit, ce qui justifie encore une fois l’approximation (23).
Théorème 3. (Donsker) Si n →∞, alors

n(F
n
(x) −F(x))
L
→W(x), x ∈ R
1
,
où W(x) est un processus gaussien, EW(x) ≡0, dont la fonction de covariance est
k(x, y) = F(x) ∧F(y) −F(x)F(y), (x, y) ∈ R
1
R
1
.
172
Théorème 4. Si F(x) est continue, alors
P¦limsup
n→∞
_
_
2n
lnlnn
sup
x
[ F
n
(x) −F(x) [
_
= 1¦ = 1.
Remarque 3. Pour avoir une idée de la conduite de F(x) on construit souvent le graphe
de la fonction F
n
(x), réalisation de la fonction de répartition empirique F
n
(x). Pour construire
le graphe de F
n
(x) on utilise le vecteur
X
()
= (X
(1)
, . . . , X
(n)
)
T
des statistiques d’ordre, construit à partir de l’échantillon X. Soit x
()
= (x
(1)
, ..., x
(n)
)
T
,
la réalisation de la statistique X
()
. Comme on le sait le vecteur x
()
s’obtient à partir de
x = (x
1
, . . . , x
n
)
T
en ordonnant les x
i
par ordre croissant, c’est-à-dire que l’on a
x
(1)
≤x
(2)
≤. . . ≤x
(n)
. (3.26)
De (26) il résulte que les statistiques d’ordre X
(1)
, X
(2)
, . . . , X
(n)
sont liées (avec la probabilité
1) par les inégalités :
X
(1)
≤X
(2)
≤. . . X
(n)
. (3.27)
Supposons pour l’instant qu’il n’y ait pas d’ex-aequo, ce qui a lieu avec la probabilité 1 si
F n’a pas de saut. En utilisant (26), (27) de (5), (6) et (9) on obtient que
F
n
(x) =
_
_
_
0, si x < X
(1)
,
i
n
, si X
(i)
≤x < X
(i+1)
,
1, si x ≥X
(n)
,
(3.28)
par conséquent on a
F
n
(x) =
_
_
_
0, si x < x
(1)
,
i
n
, si x
(i)
≤x < x
(i+1)
,
1, si x ≥x
(n)
.
(3.29)
De (29) on déduit que F
(n)
(x) a des sauts aux points x
(i)
. Ces sauts sont égaux à 1/n. Dans
le cas général, F peut avoir des sauts et donc, parmi les x
(i)
, il peut y avoir des ex-aequo.
Pour construire le graphe de F
n
(x), notons
_
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
_
e
1
= x
(1)
= min¦x
1
, x
2
, . . . , x
n
¦,
e
2
= min¦x
(i)
: x
(i)
> x
(1)
= e
1
¦,
.
.
.
e
j
= min¦x
(i)
: x
(i)
> e
j−1
¦,
.
.
.
e
k
= x
(n)
= max¦x
1
, x
2
, . . . , x
n
¦
(3.30)
les différentes valeurs prises par les x
i
. Le nombre k des différentes valeurs
e
1
< e
2
< . . . < e
k
, (3.31)
173
prises par x
1
, x
2
, . . . , x
n
, peut être strictement inférieur à n s’il y a des ex-aequo. Notons ν
j
la fréquence de la valeur e
j
, j = 1, 2, . . . , k. Il est évident que
ν
1

2
+. . . +ν
k
= n.
En utilisant les valeurs observées e
1
, e
2
, . . . , e
k
et leurs fréquences ν
1
, ν
2
, . . . , ν
k
on peut fa-
cilement obtenir une autre représentation de la réalisation F
n
(x) de la fonction de répartition
empirique F
n
(x) en termes des fréquences ν
1
, ν
2
, . . . , ν
k
des valeurs e
1
, e
2
, . . . , e
k
:
F
n
(x) =
_
¸
¸
_
¸
¸
_
0, si x < e
1
,
1
n
i

j=1
ν
j
, si e
j
≤x < e
i+1
,
1, si x ≥e
k
.
(3.32)
La fonction F
n
(x) est aussi appellé la fonction cumulative, parce que on "accumule" les
fréquences ν
1
, ν
2
, . . . , ν
k
en partant de la plus petite valeur e
1
= x
(1)
vers la plus grande
e
k
= x
(n)
.
On voit que la fonction cumulative F
n
(x) est croissante de 0 à 1, qu’elle est continue à
droite et qu’elle a des sauts de hauteurs ν
i
/n en tout point e
i
, i = 1, 2, . . . , k, tout en restant
constante entre deux valeurs observées e
i
et e
i+1
consécutives.
Remarque 4. (Loi empirique et méthode des moments) Maintenant que nous savons que
la fonction de répartition F
n
(x) de la loi empirique est un bon estimateur de la fonction de
répartition F(x) de X
i
au sens des théorèmes 1 et 2, il est très naturel de choisir les moments
(10)
α
m
= E¦X
m
[X¦ =
1
n
n

i=1
X
m
i
, m = 1, 2, . . . , 2k
de la loi empirique (9) comme estimateurs des moments a
m
= EX
m
1
de la loi F. Comme

m
= E¦E¦X
m
[X¦¦ =
1
n
E
_
n

i=1
X
m
i
_
= a
m
, m = 1, 2, . . . , 2k, (3.33)
on voit que le moment α
m
de la loi empirique est un estimateur sans biais de a
m
. On re-
marque ici que tous les moments α
m
, m = 1, 2, . . ., de la loi empirique (9) existent, tandis
que la loi F n’a d’après notre hypothèse (2), que les moments a
1
, . . . , a
2k
. Si nous prenons
m ≤k, alors nous pouvons calculer la variance de la statistique α
m
, car
Varα
m
= Var
_
1
n
n

i=1
X
m
i
_
=
1
n
VarX
m
1
=
=
1
n
_
EX
2m
1
−(EX
m
1
)
2
_
=
1
n
(a
2m
−a
2
m
). (3.34)
De cette formule on déduit que la variance, Varα
m
, de l’estimateur α
m
existe si m ≤ k.
De plus on en déduit que Varα
m
→0 quand n →∞, et par conséquent de l’inégalité de
Tchebyschev il résulte que pour tout ε > 0
P¦[α
m
−a
m
[ > ε¦ = P¦[α
m
−Eα
m
[ > ε¦ ≤
Varα
m
ε
2
=
a
2m
−a
2
m

2
→0, (3.35)
quand n →∞. Ainsi de (33) et (35) il résulte que ¦α
m
¦ est une suite consistante (cohérente)
d’estimateurs sans biais de a
m
(m = 1, 2, . . . , k). On peut remarquer que pour estimer la
174
précision de l’estimateur α
m
du moment a
m
on a eu besoin d’utiliser le moment α
2m
d’ordre
2m.
Exemple 1. Soient a = EX
1
et σ
2
= VarX
1
et supposons que nous voulions estimer a.
Comme nous l’avons dit, nous pouvons prendre la moyenne
α
1
=
1
n
n

i=1
X
i
=
¯
X
n
de la loi empirique comme estimateur de a = a
1
, moyenne de la loi F.
D’après (33) on a
E
¯
X
n
= a = EX
1
et de (34) on déduit
Var
¯
X
n
=
1
n
VarX
1
=
σ
2
n
=
1
n
(a
2
−a
2
),
et, par conséquent, de (35) on déduit que pour tout ε > 0
P¦[
¯
X
n
−a[ ≥ε¦ ≤
σ
2
εn
→0, n →∞, (3.36)
c’est-à-dire que ¦
¯
X
n
¦, n ∈N, est une suite consistante d’estimateurs sans biais de la moyenne
a de la loi F , si σ
2
< ∞.
Remarque 5. (Théorème de Khinchine.) On peut montrer que pour que la suite ¦
¯
X
n
¦,
n ∈ N, soit cohérente il suffit que EX
1
existe.
Example 2. Supposons que nous voulions estimer
σ
2
= VarX
1
= a
2
−a
2
1
= a
2
−a
2
. (3.37)
Comme nous l’avons dit, nous pouvons prendre la variance
s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
= α
2
−α
2
1
(3.38)
de la loi empirique comme estimateur de σ
2
. De (38) on déduit
Es
2
n
= Eα
2
−Eα
2
1
= a
2

_
Varα
1
+a
2
¸
=
= a
2
−a
2

a
2
−a
2
n
= σ
2

σ
2
n
=
n−1
n
σ
2
,
i.e. s
2
n
est un estimateur de σ
2
qui a un biais b
n
,
b
n
= E(s
2
n
−σ
2
) =−
σ
2
n
. (3.39)
Si nous prenons la statistique
S
2
n
=
1
n−1
n

i=1
(X
i

¯
X
n
)
2
=
n
n−1
s
2
n
(3.40)
comme estimateur de σ
2
, alors on aura un estimateur sans biais de σ
2
, car de (40) on déduit :
ES
2
n
= E
_
n
n−1
s
2
n
_
=
n
n−1
Es
2
n
= σ
2
. (3.41)
175
Pour calculer la variance Vars
2
n
de la statistique s
2
n
,
Vars
2
n
= E(s
2
n
)
2
−(Es
2
n
)
2
= E(s
2
n
)
2

_
n−1
n
2
σ
4
_
, (3.42)
il nous faut savoir calculer E(s
2
n
)
2
. Pour faire cela on remarque que la statistique (X
i

¯
X
n
)
2
est invariante par rapport à la moyenne a = EX
1
de la loi F. Cela veut dire que si nous
posons Y
i
= X
i
−c (i = 1, 2, . . . , n), où c est un nombre arbitraire et si
¯
Y
n
=
1
n
n

i=1
Y
i
,
alors on voit que
Y
i

¯
Y
n
= X
i
−c −(
¯
X
n
−c) = X
i

¯
X
n
, (3.43)
donc pour calculer E(s
2
n
)
2
nous pouvons admettre que a = EX
1
= 0. Dans ce cas m
j
= a
j
et
nous pouvons écrire :
s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
=
1
n
n

i=1
X
2
i

1
n
2
_
n

i=1
X
i
_
2
=
=
n−1
n
2
n

i=1
X
2
i

2
n

i<j
X
i
X
j
, (3.44)
d’où, comme EX
1
= 0 par hypothèse et de l’indépendence de X
i
et X
j
, on déduit
E(s
2
n
)
2
= E
_
(n−1)
2
n
4

i<j
X
2
i
X
2
j
+
4
n
4

i<j
X
2
i
X
2
j
_
=
=
(n−1)
2
n
3
m
4
+
(n−1)
2
+2
n
3
(n−1)σ
4
. (3.45)
De (42) et (45) il résulte que
VarS
2
n
=
(n−1)
2
n
3
_
m
4

n−3
n−1
σ
4
_
, (3.46)
et par conséquent, on en déduit que
Vars
2
n
→0 quand n →∞.
De (46) il est facile de déduire la variance VarS
2
n
de la statistique S
2
n
, qui est le meilleur
estimateur sans biais de σ
2
(41). On a
VarS
2
n
= Var
_
n
n−1
s
2
n
_
=
n
2
(n−1)
2
Vars
2
n
=
1
n
_
m
4

n−3
n−1
σ
4
_
, (3.47)
et on voit que VarS
2
n
tend aussi vers 0 quand n →∞. Comme pour tout ε > 0
P

¸
S
2
n
−σ
2
¸
¸
≥ε
_
= P

¸
S
2
n
−ES
2
n
¸
¸
≥ε
_

VarS
2
n
ε
2
→0, (3.48)
176
quand n →∞, nous pouvons dire que ¦S
2
n
¦ est une suite cohérente d’estimateurs sans biais
de la variance σ
2
de la loi F(x). On remarque ici, que de (47) on déduit
Vars
2
n
< VarS
2
n
,
i.e. le risque quadratique de s
2
n
est plus petit de celui de S
2
n
, mais l’estimateur s
2
n
a le biais
b
n
=−σ
2
/n.
Nous avons montré (35) que le moment
α
m
=
1
n
n

i=1
X
m
i
d’ordre m (m = 1, 2, . . . , k) de la loi empirique est un bon estimateur du moment
a
m
= EX
m
1
=

−∞
x
m
dF(x),
de la loi F(x) en ce sens que

m
= a
m
et Varα
m
=
1
n
(a
2m
−a
2
m
) →0, quand n →∞.
Que pouvons nous dire de plus ? La statistique
α
m
=
1
n
n

i=1
X
m
i
, m = 1, . . . , k,
est la somme des variables indépendantes X
m
1
, ..., X
m
n
, puisque les variables aléatoires X
1
, . . . , X
n
sont indépendantes et que de plus elles suivent la même loi. En outre, nous savons que la
variance
VarX
m
i
= a
2m
−a
2
m
existe pour tout m = 1, 2, . . . , k. Par conséquent du théorème central limite il résulte que
P
_
α
m
−a
m

Varα
m
_
= P
_

n
α
m
−a
m
_
a
2m
−a
2
m
< x
_
→Φ(x) quand n →∞, (3.49)
c’est-à-dire que la suite ¦α
m
¦
m∈N
∗ est asymptotiquement normalement distribuée de para-
mètres a
m
et (a
2m
−a
2
m
)/n, ce que nous écrivons de la manière suivante :
α
m
est AN
_
a
m
,
a
2m
−a
2
m
n
_
, (3.50)
ou la suivante :

n
α
m
−a
m
_
a
2m
−a
2
m
est AN(0, 1). (3.51)
D’après (35) nous savons que si n →∞ alors pour tout ε > 0
P¦[α
m
−a
m
[ ≥ε¦ →0. (3.52)
177
En utilisant l’approximation normale (49) nous pouvons estimer la probabilité de l’événe-
ment ¦[α
m
−a
m
[ ≥ε¦. On a
P¦[α
m
−a
m
[ ≥ε¦ = P
_

m
−a
m
[

Varα
m

ε

Varα
m
_
. (3.53)
Si n est assez grand alors de (49) et (53) il résulte que
P¦[α
m
−a
m
[ ≥ε¦ ≈2Φ
_

ε

n
_
a
2m
−a
2
m
_
, (3.54)

Φ(x) =
1


x

−∞
e
−y
2
/2
dy
est la fonction de répartition de la loi normale N(0, 1), qui satisfait l’identité suivante :
Φ(x) +Φ(−x) ≡1, [x[ < ∞. (3.55)
Notons ici, que si Z est une variable aléatoire qui suit la loi normale N(0, 1),
P¦Z ≤x¦ = Φ(x), x ∈ R
1
,
alors de (55) il résulte que
P¦[Z[ ≤x¦ = 2Φ(x) −1, (3.56)
ce qui a déjà été utilisé pour obtenir (54) à partir de (49). Ainsi, de (53)-(56) il résulte que
P¦[α
m
−a
m
[ ≤ε¦ ≈1−2Φ
_

ε

n
_
a
2m
−a
2
m
_
= 2Φ
_
ε

n
_
a
2m
−a
2
m
_
−1, (3.57)
i.e. pour tout ε > 0 on a
P¦α
m
−ε ≤a
m
≤α
m
+ε¦ ≈2Φ
_
ε

n
_
a
2m
−a
2
m
_
−1, (3.58)
quand n est assez grand.
Nous devons constater que nous ne pouvons pas utiliser (58) directement pour savoir
avec quelle probabilité l’intervalle

m
−ε; α
m
+ε] (3.59)
"couvre" la valeur inconnue de a
m
, ou, comme on dit, avec quelle probabilité a
m
appartient
à l’intervalle [α
m
−ε; α
m
+ε], que l’on appelle un intervalle de confiance. Pour avoir la
possibilité d’utiliser (58) pour estimer
P¦a
m
∈ [α
m
−ε; α
m
+ε]¦
nous devons substituer aux paramètres inconus a
2m
et a
2
m
dans la partie droite de (58) leurs
estimateurs α
2m
et α
2
m
et de cette manière nous aurons pour n assez grand la relation sui-
vante :
P¦α
m
−ε ≤a
m
≤α
m
+ε¦ ≈2Φ
_
ε

n
_
α
2m
−α
2
m
_
(3.60)
178
Maintenant nous allons utiliser l’approximation (60) pour construire l’intervalle de confiance
(59) tel que
P¦a
m
∈ [α
m
−ε; α
m
+ε]¦ ≈P = 1−α, (3.61)
où la probabilité P = 1−α, appelée le coefficient de confiance, est choisie d’avance, 0.5 <
P <1, 0 <α<0.5. Ayant choisi un coefficient de confiance P =1−α, il nous faut résoudre
l’équation

_
ε

n
_
α
2m
−α
2
m
_
−1 = P = 1−α (3.62)
pour trouver ε qui satisfait à (61).
Soit α une probabilité telle que 0 < α < 0.5. Notons z
+
α
et z

α
les quantiles de seuils α
et 1−α respectivement, c’est-à-dire que z
+
α
et z

α
satisfont aux relations :
Φ(z

α
) = α et Φ(z
+
α
) = 1−α, 0 < α < 0.5.
De (55) il résulte que z
+
α
=−z

α
. En utilisant les notations de (62) on a
Φ
_
ε

n
_
α
2m
−α
2
m
_
=
1+P
2
= 1−
α
2
(3.63)
d’où l’on obtient
x
+
α/2
=
ε

n
_
α
2m
−α
2
m
= Φ
−1
_
1−
α
2
_
(3.64)
et par conséquent on trouve que
ε =
x
P

n
_
α
2m
−α
2
m
=
1

n
x
+
α/2
_
α
2m
−α
2
m
. (3.65)
De (60)–(62) et (65) il résulte que
P
_
α
m
−x
+
α/2
_
α
2m
−α
2
m
n
≤a
m
≤α
m
+x
+
α/2
_
α
2m
−α
2
m
n
_
≈P = 1−α. (3.66)
Nous voyons qu’en utilisant les moments α
2m
et α
m
de la loi empirique, et le fait qu’ils
sont asymptotiquement normalement distribués, nous sommes parvenus à construire pour
le moment a
m
un intervalle de confiance (α
m
−ε; α
m
+ε) dont le coefficient de confiance est
approximativement égal à P = 1 −α. Dans la table 1 ci-dessous nous donnons les valeurs
de P = 1−α les plus répandues dans la pratique et les valeurs x
+
α/2
correspondantes, ce qui
permet facilement de calculer ε en utilisant la formule (65).
P = 1−α 0.90 0.95 0.99 0.995
x
+
α/2
1.644854 1.959964 2.575829 2.807034
Table 1.
(3.67)
Exemple 3. Soit m = 1, c’est-à-dire que nous estimons la moyenne a = EX
1
de la loi F(x).
Nous savons, d’après l’exemple 1, que α
1
=
¯
X
n
, moyenne de la loi empirique, est un esti-
mateur sans biais de a, en outre, nous savons d’après (36) que
P¦[
¯
X
n
−a[ ≥ε¦ →0. (3.68)
179
Maintenant, en utilisant (57), nous obtenons que
P¦[
¯
X
n
−a[ ≤ε¦ ≈2Φ
_
ε
_
Var
¯
X
n
_
−1 = 2Φ
_
ε

n
σ
_
−1, (3.69)
car
Var
¯
X
n
=
σ
2
n
, où σ
2
= VarX
1
= a
2
−a
2
1
= a
2
−a
2
.
Dans (69) nous pouvons, en utilisant l’exemple 2, estimer le paramètre inconnu σ =

σ
2
par la statistique S
n
=
_
S
2
n
, sachant que ES
2
n
= σ
2
. Dans ce cas, de (69) il résulte que
P¦[
¯
X
n
−a[ ≤ε¦ ≈2Φ
_
ε

n
S
n
_
−1 (3.70)
et par conséquent on obtient un analogue de (66)
P
_
¯
X
n
−x
+
α/2
S
n

n
≤a ≤
¯
X
n
+x
+
α/2
S
n

n
_
≈P = 1−α, (3.71)
en choisissant dans (67) le coefficient de confiance P = 1 −α et le quantile x
+
α/2
de la loi
normale N(0, 1). Il est évident que dans (71) on aurait pu utiliser la statistique s
n
comme
estimateur de σ au lieu de S
n
, où s
2
n
est la variance de la loi empirique.
3.2 Médiane de la loi empirique.
1. Soit X = (X
1
, . . . , X
n
)
T
un échantillon et X
i
suit une loi de fonction de répartition
F(x) = P(X
i
< x).
Notons X
()
= (X
(1)
, . . . , X
(n)
)
T
le vecteur des statistiques d’ordre associé au vecteur X. Par
définition, la médiane de la loi empirique est la statistique
µ
n
=
_
X
(k+1)
, si n = 2k +1,
1
2
_
X
(k)
+X
(k+1)
_
, si n = 2k.
On sait que si n est impair, n = 2k +1, alors
P¦µ
2k+1
< x¦ = I
F(x)
(k +1, k +1), (3.1)
et on obtient
P¦µ
2k+1
< x¦ = S
2k+2
_
_
F(x) −
1
2
_
¸
2k +2
F(x)[1−F(x)]
_
, (3.2)
où S
f
(x) est la fonction de la répartittion de la loi de Student à f degrés de liberté. Dans le
cas où n est un nombre pair, n = 2k, la distribution de la statistique µ
2k
est beaucoup plus
180
compliquée. On remarque que d’habituellement, dans la pratique, lorsque n est assez grand,
on utilise le fait que
L
_√
n(µ
n
−µ)
_
→N
_
0,
1
4f
2
(µ)
_
, (3.3)
ou plus précisément :
P
_
2

nf (µ)(µ
n
−µ) < y
_
= Φ(y) +O
_
1

n
_
,
où µ est la médiane de la loi F(x), F(µ) = 0.5, et f (x) est la densité de cette loi, c’est-à-dire
que f (x) = F
/
(x). La précision de cette approximation normale n’est pas très bonne quand
n n’est pas assez grand. Par ailleurs, il est très naturel de s’attendre à ce que la distribution
de la statistique µ
2k+1
soit plus proche de la distribution de la statistique µ
2k
, et justement
Bolshev (1963) a utilisé ce fait pour construire une approximation qui est meilleure que
l’approximation normale (3).
Soit
F
n
(x) = P
_
µ
n
< x

2πt
_
, (3.4)
où t = 1/(8[n/2] +5). Bolshev (1963) a démontré que
F
2k
(x) −F
2k+1
(x) =−8(π−2)xϕ(x)t
2
+O(t
3
), (3.5)
et
F
2k+1
(x) = Φ(x) +ϕ(x)
3x −(2π−6)x
3
6
t +O(t
2
), (3.6)
d’où l’on peut déduire que la statistique
Y
n
=
µ
n

2πt
_
1+
1
σ
_
3−(2π−6)
_
µ
n

2πt
_
2
__
est asymptotiquement normale de paramètres 0 et 1,
P¦Y
n
< y¦ = Φ(y) +O(t
2
).
Notons µ
n
(P) le P-quantile (le quantile de niveau P) de la distribution de la statistique µ
n
:
P¦µ
n
< µ
n
(P)¦ = P.
Dans ce cas de (6) on déduit que
µ
2k
(P) = µ
2k+1
(P)[1+8(π−2)t
2
] +O(t
2
)
donc
µ
2k
(P)

= µ

2k
(P), (3.7)

µ

2k
(P) = µ
2k+1
(P)[1+8(π−2)t
2
].
La formule (7) donne une bonne approximation, même pour les petites valeurs de n. Par
exemple si k = 1, alors la différence
D = P¦µ
2
< µ

2
(P)¦−P
181
prend les valeurs suivantes
−0.0001, −0.0002, 0.0000, 0.0004, 0.0012, 0.0011, 0.0000,
correspondant aux valeurs de P
0.0014, 0.0064, 0.0228, 0.0664, 0.1575, 0.3074, 0.5000.
2. Soit X = (X
1
, . . . , X
n
)
T
un échantillon, dont la fonction de la répartition F(x) appar-
tient à une famille F = (F) de fonctions de répartition continues. Comme précédemment,
on note f (x) la densité de F(x) :
F(x) =
x

−∞
f (t)dt.
Dans ce cas, si µ = µ(F) est la médiane de la distribution, dont la fonction de répartition est
F(x), alors
µ(F)

−∞
f (x)dx = F(µ(F)) = 0.5,
i.e.
P¦X
i
< µ(F)¦ = P¦X
i
≥µ(F)¦ = 0.5.
Notre but est de construire un intervalle de confiance pour µ(F).
Soit X
()
= (X
(1)
, . . . , X
(n)
)
T
le vecteur des statistiques d’ordre, construit en utilisant
l’échantillon X. Dans ce cas avec la probabilité 1
X
(1)
< X
(2)
< . . . < X
(n)
.
Comme intervalle de confiance, on peut choisir
(X
(i)
, X
( j)
), i < j.
Il est très naturel de choisir cet intervalle symétrique en posant j = n−i −1, puisque nous
nous sommes intéressés à l’obtention de conclusions statistiques qui sont indépendantes de
la distribution inconnue F. De la définition des statistiques d’ordre X
(1)
, ..., X
(n)
il s’ensuit
que
P
_
X
(i)
< µ(F) < X
( j)
[F
_
=
= 1−P
_
X
(i)
≥µ(F)[F
_
−P
_
X
( j)
≤µ(F)[F
_
=
= 1−P
_
F(X
(i)
) ≥F(µ(F))[F
_
−P
_
F(X
( j)
) ≤F(µ(F))[F
_
=
= 1−P(U
(i)
≥0.5) −P(U
( j)
≤0.5) =
= 1−
i−1

m=0
_
n
m
__
1
2
_
n

n

m=j
_
n
m
__
1
2
_
n
,
et on voit bien que cette probabilité ne dépend pas de F, c’est-à-dire qu’on a obtenu une
statistique "libre" comme on l’avait voulu. On note ici que comme d’habitude
U
()
= (U
(1)
, ...,U
(n)
)
T
182
représente le vecteur des statistiques d’ordre associé à l’échantillon U = (U
1
, ...,U
n
)
T
de la
loi uniforme sur (0,1).
Maintenant, considérons l’intervalle de confiance "symétrique", i.e. j = n−i +1. Dans
ce cas on a
P
_
X
(i)
< µ(F) < X
(n−i+1)
[F
_
= 1−2
i−1

m=0
_
n
m
__
1
2
_
n
,
car
n

m=j
_
n
m
__
1
2
_
n
=
n

m=n−i+1
_
n
m
__
1
2
_
n
=
i−1

m=0
_
n
m
__
1
2
_
n
.
Donc quand n est grand, du Théorème de de Moivre-Laplace on déduit que
P
_
X
(i)
< µ(F) < X
(n−i+1)
[F
_

= 1−2Φ
_
i −1−
n
2
+0.5
0.5

n
_
=
= 1−2Φ
_
2i −n−1

n
_
= 2Φ
_
n+1−2i

n
_
−1. (3.8)
Comment trouver le numéro i dans (8) quand le coefficient de confiance P est donné
d’avance ? Pour cela il faut résoudre l’équation

_
n+1−2i

n
_
−1 = P (3.9)
par rapport à i (on remarque que 0.5 < P < 1), d’où l’on obtient
n+1−2i

n
= Ψ
_
1+P
2
_
,
où Ψ(z) = Φ
−1
(z), et donc
i =
_
0.5
_
n+1−


_
1+P
2
__
+1
_
,
où [a] dans la dernière formule est la partie entière du nombre a.
3.3 Théorème de Kolmogorov.
A.Kolmogorov (1933) a trouvé la distribution limite (n →∞) de la statistique

nD
n
lorsque F(x) est une fonction continue.
Theoreme (de Kolmogorov). Si F(x) est continue, alors pour z > 0
lim
n→∞
P
_√
nD
n
≤z
_
= K(z) =
+∞

j=−∞
(−1)
j
exp(−2 j
2
z
2
). (3.1)
On dit que K(z) est la fonction de répartition de Kolmogorov. Il y a des tables sta-
tistique (voir, par exemple, Smirnov (1939), Birnbaum(1952), Bolshev et Smirnov (1968),
Conover (1980)) des valeurs de la fonction de Kolmogorov K(z), mais en pratique pour
183
faire des calculs approximatifs, quand z > 2.5, on utilise souvent une simple approximation
évidente :
K(z)

= 1−2e
−2z
2
.
Soit P un nombre fixé, 0.5 < P < 1, et soit z
P
le quantile de niveau P de la fonction de la
répartition de Kolmogorov, c’est-à-dire z
P
est la racine de l’équation K(z) = P :
K(z
P
) = P.
Dans ce cas de (1) on tire que
P
_√
nD
n
≤z
P
_
=
= P
_
F
n
(x) −
1

n
z
P
≤F(x) ≤F
n
(x) +
1

n
z
P
_
→K(z
P
) = P, (3.2)
quand n →∞. C’est-à-dire que si n est grand, alors avec la probabilité

= P les valeurs F(x)
pour tout x satisfont les équations
F
n
(x) −
1

n
z
P
≤F(x) ≤F
n
(x) +
1

n
z
P
. (3.3)
Comme 0 ≤F(x) ≤1, la dernière relation peut être s’écrire :
max
_
0, F
n
(x) −
1

n
z
P
_
≤F(x) ≤min
_
F
n
(x) +
1

n
z
P
, 1
_
.
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrètes.
Transformation de Smirnov pour une distribution continue. Soit X une variable
aléatoire dont la fonction de répartition F(x) = P¦X ≤ x¦ est continue et croissante. Dans
ce cas, la statistique U =F(X) suit une loi uniforme sur [0, 1]. Pour prouver cette affirmation
on remarque tout d’abord que
P¦U ≤u¦ = 0 pour tout u ≤0
et que
P¦U ≤u¦ = 1 pour tout u ≥1.
Soit u un nombre réel quelconque, 0 < u < 1. Dans ce cas comme F(x) est continue et
croissante on obtient
P¦U ≤u¦ = P
_
F
−1
(U) ≤F
−1
(u)
_
= P
_
X ≤F
−1
(u)
_
=
= F(F
−1
(u)) = u, 0 < u < 1.
Transformation de Smirnov pour une distribution arbitraire. Soit X une variable
aléatoire quelconque et soit
F(x) = P¦X ≤x¦ et F

(x) = P¦X < x¦.
184
Il est évident que si X est une variable aléatoire continue
F(x) = F

(x).
Alors on peut démontrer (voir §V.1), que
P¦F(X) ≤z¦ ≤z ≤P¦F

(X) < z¦
pour tout z ∈ [0, 1].
Colloraire 1. Si la distribution de X est continue, dans ce cas
P¦F(X) ≤z¦ = P¦F(X) < z¦ = z, z ∈ [0, 1].
Colloraire 2. Soit U une variable aléatoire qui suit la loi uniforme sur [0,1] et qui est
indépendante de X. Dans ce cas la statistique
Z = F

(X) +U [F(X) −F

(X)]
suit la loi uniforme sur [0,1],
P¦Z ≤z¦ = z
pour tout les z ∈ [0, 1].
Colloraire 3. Soient X
1
, X
2
, . . . , X
n
des variables aléatoires indépendantes dont les fonctions
de répartition sont connues :
F
i
(x) = P¦X
i
≤x¦, F
i−
(x) = P¦X
i
< x¦, i = 1, 2, . . . , n.
De plus, soient U
1
,U
2
, . . . ,U
n
des variables aléatoires indépendantes, qui suivent la même
loi uniforme sur [0,1] et qui sont indépendantes de X
1
, X
2
, . . . , X
n
. Dans ce cas, d’après de
colloraire 2, les statistiques Z
1
, Z
2
, . . . , Z
n
, où
Z
i
= F
i−
(X
i
) +U
i
[F
i
(X
i
) −F
i−
(X
i
)] ,
sont indépendantes et uniformément distribuées sur [0,1].
Le colloraire 3 nous donne la posibilité de construire les tests non paramétriques de Kol-
mogorov, de Smirnov, d’omega-carré de Von Mises etc., dans les situations où les données
X
1
, X
2
, . . . , X
n
sont indépendantes et suivent des lois continues ou discrètes.
Applications statistiques.
Soient X
1
, X
2
, . . . , X
m
des variables aléatoires indépendantes et nous avons à tester l’hy-
pothèse H
0
selon laquelle
P¦X
i
= k¦ =
n
i
!
(n
i
−k)!k!
p
k
i
(1−p
i
)
n
i
−k
, i = 1, 2, . . . , m,
où tout les p
i
et n
1
, n
2
, . . . , n
m
sont connus, 0 < p
i
< 1 ; k = 0, 1, . . . , n
i
. C’est-à-dire que, si
H
0
est vrai, alors X
i
suit une loi binomiale B(n
i
, p
i
( de paramètres n
i
et p
i
, et donc
F
i
(x) = P¦X
i
≤x¦ = I
1−p
i
(n
i
−x, x +1), x = 0, 1, . . . , n
i
,
et
F
i−
(x) = P¦X
i
< x¦ = P¦X
i
≤x −1¦ = I
1−p
i
(n
i
−x +1, x),
185
où I
x
(a, b) définie ci-dessous est la fonction béta-incomplète d’Euler, et par conséquent pour
appliquer le test de Kolmogorov, par exemple, pour tester H
0
il ne reste qu’à construire
d’après le colloraire 3 les statistiques
Z
i
= I
1−p
i
(n
i
−X
i
+1, X
i
) +U
i
[I
1−p
i
(n
i
−X
i
, X
i
+1) −I
1−p
i
(n
i
−X
i
+1, X
i
)] ,
i = 1, 2, . . . , m.
Plus de détails on peut trouver dans Nikulin (1992), Huber et Nikulin (1993), Green-
wood et Nikulin (1996).
Récemment M.Hocine a fait les études intéressantes sur le comportement de ce test et
du test de type de omega-carré basées sur cette transformation de Smirnov.
3.4 Tests de Kolmogorov et Smirnov pour un échantillon.
Si la fonction de répartition de X
1
est inconnue mais qu’on a fait l’hypothèse H
0
, d’après
laquelle
P¦X
1
≤x¦ = F(x),
où F(x) est une fonction de répartition continue donnée, alors nous pouvons tester H
0
, en
utilisant le théorème de Kolmogorov. Symboliquement l’hypothèse H
0
peut être présentée
par la façon suivante :
H
0
: EF
n
(x) ≡F(x).
On détermine la statistique de Kolmogorov
D
n
= sup
[x[<∞
[F
n
(x) −F(x)[,
qui est désignée pour tester H
0
contre l’hypothèse bilatérale
H
1
: sup
[x[<∞
[EF
n
(x) −F(x)[ > 0,
et on considère en outre, les statistiques de Smirnov
D
+
n
= sup
[x[<∞
(F
n
(x) −F(x)) et D

n
=− inf
[x[<∞
(F
n
(x) −F(x)),
qui sont utilisées pour tester H
0
contre les alternatives unilatérales
H
+
1
: sup
[x[<∞
(EF
n
(x) −F(x))
et
H

1
: − inf
[x[<∞
(EF
n
(x) −F(x))
186
respectivement.
Il est clair que D
n
= max(D
+
n
, D

n
). En utilisant la transformation de Smirnov, on peut
montrer que
D
+
n
= max
1≤m≤n
_
m
n
−F(X
(m)
)
_
et D

n
= max
1≤m≤n
_
F(X
(m)
) −
m−1
n
_
. (3.1)
Il est clair aussi, que si H
0
est vraie, alors
P
_
D
+
n
≤x[H
0
_
= P
_
D

n
≤x[H
0
_
, (3.2)
c’est-à-dire que, D
+
n
et D

n
suivent la même loi, quand H
0
est vraie.
Comme a montré Smirnov (1944), pour tout x ∈ (0, 1)
P
_
D
+
n
≥x[H
0
_
=
[n(1−x)]

k=0
_
n
k
_
x
_
x +
k
n
_
k−1
_
1−x −
k
n
_
n−k
, (3.3)
[a] - partie entière de a.
On peut montrer (Kolmogorov (1933), Smirnov (1944), Chernoff and Savage (1958),
Bolshev (1963), Huber, Nikulin (1993)), que si n →∞ et x appartient au domaine
_
x : 0 < ε ≤x = O(n
1/3
)
_
,
alors
P
_
(6nD
+
n
+1)
2
18n
< x[H
0
_
=
_
1−e
−x
_
+
2x
2
−4x −1
18n
e
−x
+O
_
1
n

n
_
, (3.4)
et
P
_
(6nD
n
+1)
2
18n
< x[H
0
_
=
= K
__
x
2
_

1
18


k=−∞
(−1)
k
e
−k
2
x
_
P
k
(x) +2k
4
x −k
2
¸
+O
_
1
n

n
_
, (3.5)

P
k
(x) =
_
k
2

1−(−1)
k
2
_
(1−2k
2
x) +2k
2
x(k
2
x −3) =
= k
2
_
2k
2
x
2
−2x(k
2
+3) +1
¸
+
(−1)
k
−1
2
(1−2k
2
x).
Comme χ
2
2m
= 2γ
m
et
P¦γ
1
≤x¦ = 1−e
−x
, pour tout x > 0,
de (4) et de (5) on déduit que pour les grandes valeurs de n la statistique
(6nD
+
n
+1)
2
9n
est approximativement distribuée comme χ
2
2
et que
P
_
(6nD
n
+1)
2
18n
< x
_
≈K
__
x
2
_
.
187
Ces deux approximations sont déja bonnes pour n ≥ 20, les erreurs de ces approximations
diminuent comme
1
n
.
Soit α le niveau du test de Kolmogorov (0 < α < 0.5), basé sur la statistique D
n
, et
soient x
+
α
et x
α
, les valeurs critiques des tests basés sur D
+
n
et D
n
, i.e.
P
_
D
+
n
≥x
+
α
_
= α et P¦D
n
≥x
α
¦ = α.
D’après le test de Kolmogorov
on rejette H
0
en faveur de l’hypothèse H
1
si D
n
≥x
α
.
De la même façon, d’après le test de Smirnov
on rejette H
1
en faveur de l’hypothèse H
+
1
si D
+
n
≥x
α
.
On remarque que pour les petites valeurs de α (0 < α ≤ 0.2) il y a une liaison entre les
valeurs critiques x
α
et x
+
α/2
:
x
α

= x
+
α/2
,
et l’erreur dans cette égalité est inférieure à 0.0005 :
[x
α
−x
+
α/2
[ ≤0.0005.
On peut montrer que cette erreur diminue très vite quand α diminue. Par exemple, si α≤0.1
, alors
[x
α
−x
+
α/2
[ ≤0.00005.
Si n ≥ 10 et 0.01 ≤ α ≤ 0.2, pour calculer x
α
et x
+
α/2
il est recommandé d’utiliser les
approximations de Bolshev (1963) :
x
α

=
¸
1
2n
_
y −
2y
2
−4y −1
18n
_
, y =−ln
α
2
x
+
α

=
¸
1
2n
_
y −
2y
2
−4y −1
18n
_
, y =−lnα.
On peut remarquer que si n est assez grand, alors
¸
1
2n
_
y −
2y
2
−4y −1
18n
_

=
_
y
2n
.
Dans la pratique ces formules donnent déjà de bons résultats dans le cas α > 0.001 pour
n ≥20.
Enfin, si
0.2 ≤α ≤0.3 et 10 ≤n ≤50,
alors en prenant pour y la racine de l’équation
K
__
y
2
_
= 1−α,
on obtient encore une approximation de Bolshev (1963)
x
α

=
¸
1
2n
_
y −
1
18n
[(2y
2
−4y −1) −α
3
(3y
2
−y +0.5)]
_

1
6n
.
188
Dans le cas n ≥100 toutes ces approximations sont très bonnes pour calculer x
α
et x
+
α
pour
tout α tel que 0.0001 ≤α ≤0.5.
3.5 Test de Kolmogorov-Smirnov pour deux échantillons.
Soient X = (X
1
, . . . , X
n
)
T
et Y = (Y
1
, . . . ,Y
m
)
T
deux échantillons indépendants, et soit
F(x) = P¦X
i
< x¦ et G = P¦Y
j
< y¦
les fonctions de répartition continues de X
i
et Y
j
respectivement. Nous pouvons construire
deux lois empiriques, qui correspondent aux deux échantillons donnés Xet Y. Notons F
n
(x)
et G
m
(x) les fonctions de répartition de ces lois empiriques.
On utilise le test de Kolmogorov-Smirnov pour tester l’hypothèse
H
0
: F(x) ≡G(x), x ∈ R
1
,
qui peut s’écrire en fonction de F
n
et G
m
de la façon suivante :
H
0
: EF
n
(x) ≡EG
m
(x),
contre l’hypothèse bilatérale
H
1
: sup
[x[<∞
[EG
m
(x) −EF
n
(x)[ > 0,
ou contre l’une de deux hypothèses unilatérales :
H
+
1
: sup
[x[<∞
(EG
m
(x) −EF
n
(x)) > 0
ou
H

1
: − inf
[x[<∞
(EG
m
(x) −EF
n
(x)) > 0
respectivement. Pour tester H
0
contre H
1
on peut utiliser la statistique
D
m,n
= sup
[x[<∞
[G
m
(x) −F
n
(x)[, (3.1)
où G
m
(x) et F
n
(x) sont les fonctions empiriques, associées à Y et X.
Si on teste H
0
contre H
+
1
où H

1
, on utilise les statistiques
D
+
m,n
= sup
[x[<∞
(G
m
(x) −F
n
(x)) et D

m,n
=− inf
[x[<∞
(G
m
(x) −F
n
(x)). (3.2)
Smirnov a montré (1939) que si l’hypothèse H
0
est vraie, alors les statistiques D
+
m,n
, D
+
n,m
,
D

m,n
, D

n,m
suivent la même loi. En pratique les valeurs des statistiques (1) et (2) sont cal-
culées d’après les formules suivantes :
D
+
m,n
= max
1≤r≤m
_
r
m
−F
n
(Y
(r)
)
_
= max
1≤s≤n
_
G
m
(X
(s)
) −
s −1
n
_
,
189
D

m,n
= max
1≤r≤m
_
F
n
(Y
(r)
) −
r −1
m
_
= max
1≤s≤n
_
s
n
−G
m
(X
(s)
)
_
,
D
m,n
= max(D
+
m,n
, D

m,n
),
où X
(i)
et Y
( j)
sont les statistiques d’ordre, correspondant aux échantillons. On peut obtenir
ces formules en utilisant la transformation de Smirnov et les propriétés des statistiques
d’ordre de la loi uniforme sur [0, 1]. Smirnov (1939) a montré, que si min(m, n) →∞, alors
pour tout y positif
limP
__
mn
m+n
D
+
m,n
< y[H
0
_
= 1−e
−2y
2
,
limP
__
mn
m+n
D
m,n
< y[H
0
_
= K(y),
où K(z) est la fonction de Kolmogorov.
3.6 Test ω
2
de Cramer-von Mises et statistiques associées
de Lehmann, Gini, Downton, Moran-Greenwood et Sher-
man.
Souvent pour tester l’hypothèse simple
H
0
: EF
n
(x) ≡F(x), [x[ < ∞,
contre l’alternative
H
1
: sup
[x[<∞
[EF
n
(x) −F(x)[ > 0,
au lieu d’utiliser le test de Kolmogorov, on construit le test ω
2
de Cramer et Von Mises,
fondé sur la statistique
ω
2
= ω
2
n
= n

−∞
[F
n
(x) −F(x)]
2
dF(x).
La statistique ω
2
est aussi très intéressante à cause de ses liaisons avec d’autres statistiques,
bien connues en statistique, par exemple, avec la statistique L
n
de Lehmann, la statistique
G de Gini, la statistique "σ" de Downton, la statistique M
n
de Moran et Greenwood (pour
plus de détails voir, par exemple, Kendall et Stewart, Cramer, Mises). Pour démontrer ces
propriétés de la statistique ω
2
, on peut l’écrire sous une autre forme, beaucoup plus pratique
dans les applications :
ω
2
=
n

i=1
_
F(X
(i)
) −
2i −1
2n
_
2
+
1
12n
,
où X
()
= (X
(1)
, X
(2)
, . . . , X
(n)
)
T
est le vecteur des statistiques d’ordre, associé à l’échantillon
X.
190
En fait, on a
ω
2
n
= n

−∞
[F
n
(x) −F(x)]
2
dF(x) = n
n

i=0
X
(i+1)

X
(i)
_
i
n
−F(x)
_
2
dF(x) =
=
n
3
n

i=0
X
(i+1)

X
(i)
d
_
F(x) −
i
n
_
3
=
n
3
n

i=0
_
F(X
(i+1)
) −
i
n
_
3

_
F(X
(i)
) −
i
n
_
3
.
On suppose que :
P
_
F(X
(n+1)
) = 1
_
= 1 et P
_
F(X
(0)
) = 0
_
= 0.
Comme
F(x) −
i
n
= F(x) −
i +1
n
+
1
n
alors
_
F(X
(i+1)
) −
i
n
_
3
=
_
F(X
(i+1)
) −
i +1
n
_
3
+
3
n
_
F(X
(i+1)
) −
i +1
n
_
2
+
+
3
n
2
_
F(X
(i+1)
) −
i +1
n
_
+
1
n
3
,
on en déduit que
ω
2
n
=
n
3
_
n+1

i=1
_
F(X
(i)
) −
i
n
_
3
+
3
n
n+1

i=1
_
F(X
(i)
) −
i
n
_
2
+
+
3
n
2
n+1

i=1
_
F(X
(i)
) −
i
n
_
+
n+1
n
3
n

i=1
_
F(X
(i)
) −
i
n
_
3
_
=
=
n
3
_
_
1−
n+1
n
_
3
+
3
n
n

i=1
_
F(X
(i)
) −
i
n
_
2
+
3
n
_
1−
n+1
n
_
2
+
+
3
n
n

i=1
_
F(X
(i)
) −
i
n
_
2
+
3
n
2
_
1−
n+1
n
_
+
n+1
n
3
_
=
=
n
3
_
1
n
2
+
3
n
n

i=1
_
_
F(X
(i)
) −
i
n
_
2
+
1
n
_
F(X
(i)
) −
i
n
_
+
1
4n
2
_

1
4n
2
_
=
=
n
3
_
3
n
n

i=1
_
F(X
(i)
) −
2i −1
2n
_
2
+
1
4n
2
_
=
=
n

i=1
_
F(X
(i)
) −
2i −1
2n
_
2
+
1
12n
.
Donc si les éléments X
i
de l’échantillon X sont des variables continues, des propriétés de la
transformation de Smirnov il suit que la statistique U = (U
1
, . . . ,U
n
)
T
, U
i
= F(X
i
), repré-
sente un échantillon, oùU
i
suit la loi uniforme sur [0, 1]. Si nous notons U
()
= (U
(1)
,U
(2)
, . . . ,U
(n)
)
T
191
le vecteur des statistiques d’ordre, associé à la statistique U, alors en fonction de U
()
la sta-
tistique ω
2
peut être présentée de façon suivante :
ω
2
=
n

i=1
_
U
(i)

2i −1
2n
_
2
+
1
12n
.
Cette présentation de la statistique ω
2
montre bien que sa distribution ne dépend pas de
F(x) si H
0
est vraie. Il y a des tables statistiques de la loi limite (n →∞) de la statistique
ω
2
, qui a été étudiée par Smirnov (1944) et T.W.Anderson et D.A.Darling (1952).
Nous allons considérer maintenant une modification Ω
2
n
de la statistique ω
2
n
, qui d’un
côté est très liée avec les statistiques L
n
de Lehmann, G de Gini, "σ" de Downton et M
n
de
Moran et Greenwood, et d’un autre côté a une distribution asymptotique très simple sous
l’hypothèse H
0
, quand n →∞, voir, par exemple, Greenwood & Nikulin (1996).
Soit ΣΣΣ
−1
la matrice inverse de la matrice de covariance ΣΣΣ du vecteur U
()
. On peut
facilement vérifier que
Σ
−1
=|σ
i j
|,

σ
i j
=
_
_
_
2(n+1)(n+2), si i = j,
−(n+1)(n+2), si [i − j[ = 1,
0, si [i − j[ ≥2.
Notons Ω
2
n
la statistique

2
n
=
_
U
()
−EU
()
_
T
Σ
−1
_
U
()
−EU
()
_
,
que l’on peut écrire :

2
n
= 2(n+1)(n+2)
_
n

i=1
U
2
(i)

n−1

i=1
U
(i)
U
(i+1)
−U
(n)
+
n
2(n+1)
_
.
Nous savons que
EU
()
=
_
1
n+1
,
2
n+1
, . . . ,
n
n+1
_
T
et que la matrice de covariance de U
()
est
E
_
U
()
−EU
()
__
U
()
−EU
()
_
T
= ΣΣΣ =|σ
i j
|,

σ
i j
= σ
ji
= E
_
U
(i)

i
n+1
__
U
( j)

j
n+1
_
=
_
¸
¸
¸
_
¸
¸
¸
_
i(n− j −1)
(n+1)
2
(n+2)
, si i ≤ j,
j(n−i +1)
(n+1)
2
(n+2)
, si i ≥ j,
En utilisant ces propriétés de la statistique U
()
, on peut montrer que

2
=
1
6
et Varω
2
=
4n−3
180
,
192
et qu’on a la représentation suivante pour la statistique ω
2
:
ω
2
= L
n

n
+
1
6(n+1)
,

L
n
=
n

i=1
_
U
(i)

i
n+1
_
2
=
_
U
()
−EU
()
_
T
_
U
()
−EU
()
_
est la statistique de Lehmann (1973), Ψ
n
étant une combinaison linéaire des statistiques
d’ordre :
Ψ
n
=
n

i=1
n−2i +1
n(n+1)
_
U
(i)

i
n+1
_
.
Par des calculs directs, on peut montrer (voir, par exemple, Nikulin et Osidze (1985)), que
EL
n
=
n
6(n+1)
, VarL
n
=
n
2
45(n+1)
2
,

n
= 0, VarΨ
n
=
(n−1)(n+3)
180n(n+1)
3
,
Cov(L
n
, Ψ
n
) =
n−1
90(n+1)
2
, Corr(L
n
, Ψ
n
) =
¸
n−1
n(n+3)
.
De plus on peut facilement vérifier que Ψ
n
est liée par la relation suivante
Ψ
n
=
n−1
2(n+1)
G+
n−1
6(n+1)
à la statistique G de Gini :
G =
1
n(n−1)

i, j
¸
¸
U
(i)
−U
( j)
¸
¸
,
qui à son tour est liée à la statistique "σ" de Downton :
”σ” =
π
2
G,
et par conséquent on trouve que
ω
2
= L
n
+
n−1
2(n+1)
G+
n
6(n+1)
= L
n
+

π
n−1
n+1
”σ” +
n
6(n+1)
.
Nous allons considérer maintenant une modification Ω
2
n
de la statistique ω
2
. Soit ΣΣΣ
−1
la
matrice inverse de la matrice de covariance ΣΣΣ du vecteur U
()
. On peut facilement vérifier
que
ΣΣΣ
−1
=|σ
i j
|,

σ
i j
=
_
_
_
2(n+1)(n+2), si i = j,
−(n+1)(n+2), si [i − j[ = 1,
0, si [i − j[ ≥2.
193
Notons Ω
2
n
la statistique omega-deux généralisée

2
n
=
_
U
()
−EU
()
_
T
ΣΣΣ
−1
_
U
()
−EU
()
_
,
que l’on peut écrire de la manière suivante :

2
n
= 2(n+1)(n+2)
_
n

i=1
U
2
(i)

n−1

i=1
U
(i)
U
(i+1)
−U
(n)
+
n
2(n+1)
_
.
En utilisant cette représentation de la statistique Ω
2
n
, on peut montrer que
EΩ
2
n
= n, VarΩ
2
n
=
4n(n+1)
2
(n+3)(n+4)
, E
_

2
n
−n
¸
3
=
16n(n+1)
2
(5n−2)
(n+3)(n+4)(n+5)(n+6)
.
De plus de cette dernière présentation de la statistique Ω
2
n
il suit que

2
n
= (n+1)(n+2)M
n
−(n+2),

M
n
=
n

i=1
_
U
(i+1)
−U
(i)
¸
2
est la statistique de Moran-Greenwood (voir, par exemple, Moran (1947)). La liaison di-
recte entre les statistique M
n
et Ω
2
n
et leurs propriétés nous permet d’affirmer que
lim
n→∞
P
_
¸
_
1+
3
n
__
1+
3
n+1
_

2
n
−n
2

n+1
< x[H
0
_
= Φ(x), x ∈ R
1
.
Donc pour tester H
0
on peut utiliser la normalité asymptotique de la statistique Ω
2
n
.
Parlons maintenant de la statistique de Sherman (1950), qui est liée avec les statistiques
considérées dans ce paragraphe.
Soit U = (U
1
, . . . ,U
n
)
T
un échantillon, où U
i
suit la loi uniforme sur [0, 1]. Comme
précédemment, notons
U
()
= (U
(1)
, . . . ,U
(n)
)
T
(3.1)
le vecteur des statistiques d’ordre, associé à la statistique U.
Notons
U
(0)
≡0 et U
(n+1)
≡1. (3.2)
Nous déterminons la statistique de Sherman s
n
par la formule
s
n
=
1
2
n+1

i=1
¸
¸
¸
¸
D
i

1
n+1
¸
¸
¸
¸
, (3.3)

D
i
=U
(i)
−U
(i−1)
. (3.4)
On sait que
Es
n
=
_
1−
1
n+1
_
n+1
(3.5)
194
et
Vars
n
=
2n
n+2
+n(n−1)
n+2
(n+2)(n+1)
n+2

_
1−
1
n+1
_
2(n+1)
. (3.6)
En utilisant ces propriétés de la statistique s
n
, on déduit que
Es
n

1
e
et Vars
n

e −1
e
2
, n →∞.
D’apres le théorème limite centrale, si n est assez grand,
P
_
es
n
−1

e −1
≤x
_
= Φ(x) +O
_
1

n
_
,
ce qui signifie que la statistique de Sherman est asymptotiquement normale N(0, 1), et donc
la statistique
X
2
=
(es
n
−1)
2
e −1
suit à la limite (n →∞) la loi du chi-deux à un degré de liberté, et on peut utiliser ce résultat
pour tester l’hypothèse H
0
selon laquelle U
i
suit une loi uniforme sur [0, 1].
3.7 Les statistiques de Kolmogorov et Gihman.
Soit U = (U
1
,U
2
, . . . ,U
n
)
T
un échantillon, U
i
suit une loi uniforme sur [0, 1],
P¦U
i
≤x¦ = x, x ∈ [0, 1]. (3.1)
Notons U
()
= (U
(1)
, ...,U
(n)
)
T
le vecteur des statistiques d’ordre, associé à la statistique U :
0 ≡U
(0)
≤U
(1)
≤ ≤U
(n−1)
≤U
(n)
≡1. (3.2)
Soit F
n
(x) la fonction de répartition de la loi empirique associée à U :
F
n
(x) =
1
n
n

i=1
1
[U
i
≤x]
, x ∈ [0, 1]. (3.3)
Il est facile de montrer (voir, par exemple §10) que pour tout x donné, x ∈[0, 1], la statistique
nF
n
(x) suit la loi binomiale B(n, x) de paramètres n et x et par conséquent on a :
EF
n
(x) = x et nCov(F
n
(x), F
n
(y)) = x ∧y −xy, 0 ≤x, y ≤1;
F
n
(x) →x avec la probabilité 1 pour tout x quand n →∞.
(3.4)
Dans la pratique il faut avoir beaucoup d’observations pour utiliser la fonction empirique
F
n
(x). Pour cette raison on peut raisonablement considerer la situation avec des données
groupées. Il est intéressant étudier la conduite de la fonction de répartition de la loi empi-
rique G
n
(x), correspondant aux données groupées.
Soit p = (p
1
, p
2
, . . . , p
r
, p
r+1
)
T
un vecteur de probabilités positives,
p
i
> 0, p
1
+ p
2
+. . . + p
r
+ p
r+1
= 1, (3.5)
195
où r(n) ≥1. Posons x
0
= 0, x
r+1
= 1,
x
j
= p
1
+ p
2
+. . . + p
j
, j = 1, . . . , r.
On obtient ainsi une partition de [0,1] en r +1 intervalles
[0, x
1
], (x
1
, x
2
], . . . , (x
r−1
, x
r
], (x
r
, x
r+1
]. (3.6)
Soit ν = (ν
1
, ..., ν
r
, ν
r+1
)
T
le vecteur des fréquences obtenues en regroupant U
1
, ...,U
n
dans
les classes (6). Nous déterminons la fonction de répartition empirique G
n
(x) associée au
vecteur ν par la formule :
G
n
(x) =
_
0, x = x
0
= 0,
ν
1

2
+...+ν
i
n
, x
i−1
< x ≤x
i
, i = 1, 2, 3, . . . , r +1.
(3.7)
Nous pouvons maintenant construire la statistique de Gihman
Z
n
= (Z
n1
, . . . , Z
nr
)
T
,

Z
ni
=

n[G
n
(x
i
) −x
i
] =

n
_
ν
1
+. . . +ν
i
n
−(p
1
+. . . + p
i
)
_
. (3.8)
Il est clair que
EZ
n
= (0, . . . , 0)
T
= 0
r
et EZ
n
Z
T
n
= ΣΣΣ, (3.9)

ΣΣΣ =
_
_
_
_
_
_
_
_
_
_
_
x
1
x
1
x
1
x
1
x
1
x
2
x
2
x
2
x
1
x
2
x
3
x
3
.
.
.
.
.
.
.
.
.
.
.
.
x
1
x
2
x
3
x
r
_
_
_
_
_
_
_
_
_
_
_

_
_
_
_
_
_
_
_
_
_
_
x
1
x
2
x
3
.
.
.
x
r
_
_
_
_
_
_
_
_
_
_
_
|x
1
, x
2
, . . . , x
r
|. (3.10)
Nous allons étudier les propriétés asymptotiques de la statistique Z
n
quand n →∞.
a) Supposons tout d’abord que
r = r(n) →∞ quand n →∞ (3.11)
de façon que la longueur maximale des intervalles (6) de groupement des données aille vers
zéro assez vite, i.e., que
max
1≤i≤r+1
np
i
→0 si n →∞. (3.12)
Notons
D

n
= max
1≤i≤r
[Z
n,i
[ et D
n
= sup
0≤x≤1

n[F
n
(x) −x[.
Théorème (Gihman, 1961). Si r →∞ et que (12) est vérifiée quand n →∞, alors les
statistiques D
n
et D

n
sont asymptotiquement equivalentes :
lim
n→∞
P¦D

n
≤z¦ = lim
n→∞
P¦D
n
≤z¦ = K(z), (3.13)
où K(z) est la fonction de répartition de Kolmogorov,
K(z) =
+∞

j=−∞
(−1)
j
e
−2 j
2
z
2
, 0 < z < ∞.
196
De ce théorème il suit que sous la condition (12) nous pouvons utiliser la statistique Z
n
quand n est assez grand pour construire des tests bien connus comme ω
2
de Smirnov, W
2
n
de Anderson et Darling (1952) ou de Sherman (1950) etc.
b) Maintenant nous supposons que les intervalles (6) sont fixés, r +1 ≥ 2. Dans ce cas de
(3), (4), (8) et du théorème limite central multidimensionnel on déduit que la loi limite de
¦Z
n
¦ quand n →∞ est la loi normale N(0
r
, ΣΣΣ) de paramètres donnés par (9). Comme le
rang de la matrice de covariance ΣΣΣ est égale à r, on en déduit qu’il existe une matrice
Σ
−1
=|σ
i j
|
dont les éléments σ
i j
sont donnés par la formule suivante :
_
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
_
σ
i j
= 0, [i − j[ ≥2,
σ
i,i+1
=−
1
x
i+1
−x
i
=−
1
p
i+1
, i = 1, . . . , r −1,
σ
i,i−1
=−
1
x
i
−x
i−1
=−
1
p
i
, i = 1, . . . , r,
σ
ii
=−(σ
i,i−1

i,i+1
) =
1
x
i+1
−x
i
+
1
x
i
−x
i−1
, i = j.
(3.14)
Nous pouvons maintenant construire la statistique Y
2
n
en posant
Y
2
n
= Z
T
n
ΣΣΣ
−1
Z
n
.
Grâce à la normalité asymptotique de la statistique Z
n
on obtient que
lim
n→∞
P¦Y
2
n
≤x¦ = P¦χ
2
r
≤x¦.
Il est facile de vérifier que Y
2
n
est la statistique classique de Pearson :
Y
2
n
=
r+1

i=1

i
−np
i
)
2
np
i
. (3.15)
c) Enfin nous considérons le cas
r = r(n) →−∞ quand n →−∞, (3.16)
de façon que
max
1≤i≤r+1
p
i
→0 et min
1≤i≤r+1
np
i
→∞. (3.17)
Théorème (Tumanian, 1956). Si r →∞ et si les conditions (7) ont lieu quand n →∞,
alors
sup
[x[<∞
¸
¸
¸
¸
P¦Y
2
n
≥x¦−1+Φ
_
x −r

2r

¸
¸
¸
→0, n →∞. (3.18)
3.8 Test des signes.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un échantillon. On suppose que la fonction de répartition
F(x) = P¦X
i
≤x¦ de X
i
est continue, mais inconnue.
Soit µ la médiane inconnue, elle aussi de la loi F(x), c’est-à-dire que
F(µ) = 0.5,
197
et supposons que nous voulions tester l’hypothèse H
0
: µ = µ
0
, où µ
0
est un nombre donné,
contre l’une des trois hypothèses suivantes :
H
+
1
: F(µ
0
) > 0.5, ce qui signifie que µ
0
> µ;
H

1
: F(µ
0
) < 0.5, ce qui signifie que µ
0
< µ;
H
1
: F(µ
0
) ,= 0.5, ce qui signifie que µ
0
,= µ.
Le test des signes est fondé sur la statistique
ν
n
=Y
1
+Y
2
+. . . +Y
n
,

Y
i
=
_
1, si X
i
> µ
0
,
0, si X
i
≤µ
0
.
Il est évident que
P¦Y
i
= 1[H
0
¦ = F(µ
0
) = 1−F(µ
0
) = 0.5,
i.e. sous l’hypothèse H
0
la statistique Y
i
suit une loi de Bernoulli de paramètre de succès
p = 0.5, et par conséquent la statistique ν
n
sous l’hypothèse H
0
suit une loi binomiale de
paramètres n et p = 0.5 :
P¦ν
n
≤m[H
0
¦ =W(m, n) =
m

i=0
_
n
i
_
(0.5)
n
=
= I
0.5
(n−m, m+1) = 1−I
0.5
(m+1, n−m). (3.1)
Donc pour avoir le test, il faut trouver des nombres entiers k et K tels que
_
W(k, n) ≤α,
W(k +1, n) > α,
et
_
W(K−1, n) ≥1−α,
W(K−2, n) < 1−α,
(3.2)
où α est une probabilité inférieure à 0.5, 0 < α < 0.5.
Il est évident que les valeurs critiques k = k(α, n) et K = K(α, n) sont des fonctions non
décroissantes de n, et que, si la fonction F(x) est continue, alors k +K = n. Si on teste H
0
contre H
+
1
, alors on est obligé de rejeter H
0
en faveur de H
+
1
, si
ν
n
≤k(α, n), (3.3)
et dans ce cas on a le test des signes de niveau ≤ α. On procède de même si on teste H
0
contre H

1
, en rejetant H
0
en faveur de H

1
si
ν
n
≥K(α, n) (3.4)
et le niveau de ce test est ≤ α. Dans le cas où on teste H
0
contre l’alternative H
1
, on est
obligé de rejeter H
0
en faveur de H
1
, si
min(ν
n
, n−ν
n
) ≤k(α, n), (3.5)
et le niveau de ce test est ≤2α.
Exemple 1. Pendant le premier jour, un compteur a enregistré 20021 impulsions, tandis
que le jour suivant il y en a eu seulement 19580. Peut-on dire que le second jour on a observé
198
une diminution de l’intensité d’arrivée des impulsions ? Pour répondre à cette question on
choisit le modèle statistique d’après lequel les nombres d’impulsions observées sont des
réalisations de deux variables indépendantes X et Y où X suit la loi de Poisson de paramètre
λ (λ > 0) et Y suit la loi de Poisson de paramètre µ (µ > 0). Dans ce modèle il est bien
naturel de considérer comme hypothèse H
0
: λ = µ, et comme alternative H
1
: λ > µ. Pour
tester H
0
contre H
1
on peut utiliser le test des signes.
Si notre modèle est bon, alors pour tout x, y ∈ ¦0, 1, 2, . . . ...¦
P¦X = x,Y = y¦ =
λ
x
x!
e
−λ
µ
y
y!
e
−y
=
=
(λ+µ)
x+y
(x +y)!
e
−(λ+µ)
(x +y)!
x!y!
_
λ
λ+µ
_
x
_
1−
λ
λ+µ
_
y
,
et donc la loi conditionnelle de X, conditionnée par la somme X +Y = n, est binomiale de
paramètres n et p = λ/(λ+µ), et par conséquent on en tire que l’hypothèse H
0
: λ = µ est
vraie si et seulement si la loi conditionnelle de X est binomiale de paramètres n et p = 0.5 :
P¦X = x[X +Y = n, H
0
¦ =
_
n
x
_
(0.5)
n
,
et il nous faut tester l’hypothèse H
0
: p = 0.5 contre une alternative H
1
: p > 0.5. On peut
montrer que c’est le test des signes qui est le plus puissant dans ce problème. D’après ce test
on doit rejeter H
0
, si X ≥K = K(α, n), où n = 20021+19580 = 39601. La valeur critique
K est déterminée comme étant la solution du système
_
P¦X ≥K[X +Y = 39601, p = 0.5¦ ≤α,
P¦X ≥K−1[X +Y = 39601, p = 0.5¦ > α.
Mais d’après le théorème de de Moivre-Laplace
P¦X ≥K[X +Y = n, p = 0.5¦

= Φ
_
K−0.5n−0.5

0.25n
_
,
donc
K =
_
K

, si K

est entier,
[K

+1], si K

est nonentier,

K

=
n+1
2
+Ψ(1−α)

n
2
.
Dans notre cas, α = 0.05 et
K

=
39602
2
+1.645

39601
2
= 19964.7,
par conséquent K = 19965. Comme
X = 20021 > 19965,
on prend l’hypothèse H
1
, d’apres laquelle on observe diminution d’intensité.
199
Exemple 2. Soit Z = (Z
1
, . . . , Z
n
)
T
un échantillon, Z
i
= (X
i
,Y
i
)
T
est un vecteur aléatoire
à deux dimensions dont la densité p(x, y) est inconnue. Supposons que pour tout i, X
i
et Y
i
soient indépendantes et qu’il faille tester l’hypothèse
H
0
: p(x, y) = p(y, x). (3.6)
Comme les X
i
sont indépendantes de Y
i
, la condition (6) signifie que X
i
et Y
i
sont distribuées
d’après la même loi (inconnue), et par conséquent pour tester H
0
on peut construire le test
des signes. En fait, soit
V
i
=
_
_
_
1, si X
i
−Y
i
> 0,
i = 1, 2, . . . , n.
0, si X
i
−Y
i
< 0,
(3.7)
Sous l’hypothèse H
0
la distribution de V
i
est symétrique par rapport à 0, et donc si nous
posons
ν
n
=V
1
+V
2
+. . . +V
n
,
de (6) et (7) il s’ensuit que sous l’hypothèse H
0
la statistique ν
n
est distribuée selon la loi (1)
donc en utilisant (2)–(5) nous pouvons utiliser le test des signes pour tester cette hypothèse.
3.9 Test de Wilcoxon.
Soient X = (X
1
, . . . , X
n
)
T
et Y = (Y
1
, . . . ,Y
m
)
T
deux échantillons indépendants, et soit
F(x) = P¦X
i
≤x¦ et G = P
_
Y
j
≤y
_
les fonctions de répartition de X
i
et Y
j
respectivement. Le test de Wilcoxon est utilisé pour
tester l’hypothèse
H
0
: F(x) ≡G(x), x ∈ R
1
,
contre l’hypothèse
H

: F(x) < G(x), x ∈ R
1
,
ou contre l’hypothèse
H
+
: F(x) > G(x), x ∈ R
1
,
ou contre H

et H
+
ensemble.
Ce test est fondé sur la statistique linéaire des rangs
W =W
n,m
=
m

i=1
R
i
,

R
1
< R
2
< R
3
< < R
m
sont les rangs des observations Y
1
, . . . ,Y
m
dans l’échantillon unifié
Z = (X
1
, . . . , X
n
,Y
1
, . . . ,Y
m
)
T
200
de taille n +m. Pour construire le vecteur R
Y
= (R
1
, R
2
, . . . , R
m
)
T
des rangs des observa-
tions Y
j
, il faut construire le vecteur Z
()
des statistiques d’ordre, associé à l’échantillon Z,
et déterminer les numéros des positions des variables aléatoires Y
j
. Si, par exemple, l’hypo-
thèse H

est vraie, on dit que les variables aléatoires Y
j
sont stochastiquement plus grandes
que les variables aléatoires X
i
, ce qui signifie en pratique que les variables aléatoires Y
j
ont tendance (sous l’hypothèse H

) à prendre des positions à l’extrémité droite du vecteur
des statistiques d’ordre Z et par conséquent leurs rangs R
i
ont tendance à avoir de grandes
valeurs, et par suite la statistique de Wilcoxon a tendance à prendre de grandes valeurs, ce
que l’on utilise pour tester H
0
contre H

, en rejetant H
0
en faveur de H

quand W > c
α
, où
c
α
est la valeur critique du test de Wilcoxon. On peut montrer que
W =U +
n(n+1)
2
,

U =U
m,n
=
n

i=1
m

j=1
V
i j
, (3.1)
est la statistique de Mann-Whitney,
V
i j
=
_
1, si Y
j
> X
i
,
0, si Y
j
< X
i
.
(3.2)
Par des calcul directs (mais pas simples !) on peut montrer que
E¦W[H
0
¦ =
m(N+1)
2
et Var¦W[H
0
¦ =
mn(N+1)
12
,
où N = n+m. Les valeurs critiques c
α
de niveau α (0 < α < 0.5) de la statistique W sont
des nombres entiers, qui satisfont aux inégalités
P¦W ≤c
α
[H
0
¦ ≤α et P¦W ≤c
α
+1[H
0
¦ > α.
Pour les calculer on utilise, par exemple, les tables statistiques de Verdooren (1963) pour
m = 1(1)25, n = m(1)25 et α = 0.001, 0.005, 0.010, 0.025, 0.05, 0.1.
Comme la distribution de la statisique W est symétrique par rapport à son espérance ma-
thématique EW, pour calculer une valeur critique c
1−α
, 0 < α < 0.5, on utilise la relation
suivante :
c
1−α
= EW −c
α
.
Il est évident que le couple (c
α
, c
1−α
) nous donne les valeurs critiques du test bilatéral de
Wilcoxon de niveau 2α, que l’on utilise pour tester H
0
contre H
+
et H

à la fois.
Si l’un des deux nombres n ou m est supérieur à 25, pour calculer les valeurs critiques du
test de Wilcoxon, on utilise l’approximation normale de Mann et Whitney (1947), d’après
laquelle
P
_
W −EW

VarW
< w[H
0
_
→Φ(w),
quand min(m, n) →∞, [w[ < ∞.
201
Fix et Hodges (1955) ont donné une autre approximation, qui donne déjà de bons résul-
tats quand min(m, n) ≥5. D’après cette approximation
P¦W ≤w[H
0
¦

= Φ(x) +ϕ(x)(x
3
−3x)
N
2
+N−mn
20mn(N+1)
,

N = m+n et x =
w−EW +0.5

VarW
.
Ce résultat permet d’obtenir assez facilement des approximations normales pour des valeurs
critiques c
α
:
c
α

=
_
m(N+1) −1
2
−Ψ(1−α)
_
mn(N+1)
12
_
,
où [x] dénote la partie entière du nombre x. On remarque ici que tous ces résultats, liés
avec des approximations, sont valables si parmi les X
i
et Y
j
il n’y a pas d’ex aequo. En
principe, on ne devrait pas en avoir, puisque X
i
et Y
j
sont des variables aléatoires continues
et par conséquent P
_
X
i
=Y
j
_
= 0. Mais à cause des erreurs d’arrondis, on obtient souvent
des observations égales. Dans ce cas on attribue aux observations qui sont des ex aequo,
un rang égal à la moyenne arithmétique des rangs que ces observations auraient eu avant
la procédure d’arrondissement. Notons W

=W

n,m
la statistique de Wilcoxon dans ce cas.
L’opération d’arrondissement ne change pas EW, EW =EW

, mais elle change la variance.
Par des calculs directs, on peut montrer qu’alors :
VarW

n,m
=
nm
12
(N+1)
_
_
_
_
1−
M

i=1
t
i
(t
2
i
−1
N(N
2
−1)
_
_
_
_
,
où t
i
est le nombre d’ex aequo dans le groupe numéro i et M est le nombre des groupes d’ex
aequo.
Demonstration.
Soient X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
des variables aléatoires continues, X
i
suit une loi dont
la fonction de répartition est F(x) et Y
j
suit une loi dont la fonction de répartition est G(x)
avec, par exemple, G(x) = F(x −θ). Supposons que l’on teste l’hypothèse H
0
, contre l’hy-
pothèse H

. Donc si H
0
est vraie, alors les variables aléatoires
X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
forment un échantillon
Z = (X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
)
T
de taille N = n+m. On remarque que
P
_
X
i
=Y
j
_
= 0,
car X
i
et Y
j
sont continues, mais à cause des erreurs d’arrondi on a des ex aequo.
Tout d’abord, on remarque que comme
W =W
n,m
=U
n,m
+
n(n+1)
2
,
202
alors VarW = VarU
n,m
.
Supposons que le vecteur Z
()
des statistiques d’ordre ait au moins un groupe de statistiques
d’ordre qui soient égales et que les rangs de ces ex aequo dans ce groupe soient
k +1, k +2, . . . , k +t.
Soit µ le nombre des X
i
de ce groupe, alors t −µ est le nombre des Y
j
parmi ces t ex-aequo.
Il est clair que µ suit la loi hypergéométrique :
P¦µ = x¦ =
_
n
x
__
m
t −x
_
_
N
t
_ .
Pour k et t fixés posons
U

=U

n,m
(µ) =
n

i=1
m

j=1
V

i j
, (3.3)

V

i j
=
_
_
_
1, si X
i
>Y
j
,
0.5, si X
i
=Y
j
,
0, si X
i
<Y
j
.
(3.4)
De (1) – (4) il résulte qu’en cas de présence d’un seul groupe d’ex aequo, on a l’identité par
rapport à µ :
U

n,m
(µ) +U
µ,t−µ

µ(t −µ)
2
≡W
n,m
. (3.5)
En cas de présence de M groupes d’ex aequo, la dernière identité peut être généralisée de
la façon suivante :
U

n,m

1
, µ
2
, . . . , µ
M
) +
M

i=1
_
U
µ
i
,t
i
−µ
i

µ
i
(t
i
−µ
i
)
2
_
≡U
n,m
, (3.6)
où t
i
est le nombre d’ex aequo dans le groupe de numéro i, µ
i
le nombre des X
i
dans ce
groupe. De (5) il suit que
E
_
U

n,m

1
, µ
2
, . . . , µ
M
)[µ
1
, µ
2
, . . . , µ
M
_
=
nm
2
. (3.7)
Comme la partie droite de (7) ne dépend pas de µ
i
, on en tire que
EU

n,m
=
nm
2
.
De la même façon, comme
VarU
n,m
=
nm
2
(n+m+1) =
nm(N+1)
2
,
on obtient que
Var
_
U

n,m

1
, µ
2
, . . . , µ
M
)[µ
1
, µ
2
, . . . , µ
M
_
+
M

i=1
1
12
µ
i
(t
i
−µ
i
)(t
i
+1) =
203
=
nm
12
(n+m+1).
Comme
Var
_
E
_
U

n,m

1
, µ
2
, . . . , µ
M
)[µ
1
, µ
2
, . . . , µ
M
__
= Var
nm
12
= 0,
on en tire que
VarU

n,m
= E
_
Var
_
U

n,m

1
, µ
2
, . . . , µ
M
__
,
donc on en déduit que
Var
_
U

n,m

1
, µ
2
, . . . , µ
M
)
_
+
M

i=1
t
i
+1
12
E¦µ
i
(t
i
−µ
i
)¦ =
nm
12
(n+m+1).
Mais
E¦µ
i
(t
i
−µ
i
)¦ =

j
_
n
j
__
m
t
i
− j
_
_
N
t
j
_ j(t
i
− j) =
t
i
(t
i
−1)nm
N(N−1)
,
donc
VarU

=
nm
12
(N+1)
_
_
_
_
1−
M

i=1
t
i
(t
2
i
−1)
N(N
2
−1)
_
_
_
_
= VarW

,
où N = n+m.
3.10 Estimation non paramétrique de la densité. Histo-
gramme. Estimateur de Rosenblatt. Le noyau de Par-
zen.
Le problème, que l’on désigne souvent par estimation non paramétrique de la densité,
est le suivant :
étant donné un échantillon X = (X
1
, ..., X
n
)
T
, issu d’une distribution continue et dont la
densité f est inconnue, construire un bon estimateur de f .
Soit ¦h
n
¦ une suite de nombres positives (tailles de fenêtre ) telle que h
n
> 0, h
n
↓ 0,
nh
n
→0, quand n →∞. Pour tout n fixé nous pouvons construire une partition de R
1
R
1
=

k∈Z
]kh
n
, (k +1)h
n
],
en utilisant la taille de fenêtre h
n
correspondante. Pour tout x ∈ R
1
il existe un intervalle
]kh
n
, (k +1)h
n
], avec k =
_
x
h
n
_
, tel que x ∈]kh
n
, (k +1)h
n
] et donc nous pouvons déterminer
une application aléatoire f
n
: R
1
→R
1
+
par la formule :
f
n
(x) =
1
nh
n
n

j=1
1
]kh
n
,(k+1)h
n
]
(X
j
), x ∈ R
1
. (3.1)
204
Définition 1. Nous disons que f
n
(x), x ∈ R
1
, est la densité empirique, basée sur l’échan-
tillon X = (X
1
, ..., X
n
)
T
. Le graphe de f
n
(x) s’appelle histogramme.
De (1) il suit que pour tout x ∈]kh
n
, (k +1)h
n
], k ∈ Z, on a
f
n
(x) =
1
nh
n
[F
n
((k +1)h
n
) −F
n
(kh
n
)] =
ν
k
nh
n
, (3.2)
où F
n
(x) est la fonction empirique, basée sur X= (X
1
, ..., X
n
)
T
, ν
k
est le nombre de X
j
dans
l’intervalle ]kh
n
, (k +1)h
n
]. Souvent on dit que f
n
(x) est un estimateur non paramétrique
classique de la densité f (x).
En 1956 M. Rosenblatt a proposé un estimateur de type noyau
f
n
(x) =
1
nh
n
n

j=1
K
_
x −X
j
h
n
_
, (3.3)
où K(), un noyau, est une fonction telle que


−∞
K(x)dx = 1 et k =


−∞
K
2
(x)dx < ∞.
Le choix du noyau K dépend en général des propriétés de la densité f que l’on désire avoir.
Par exemple, Parzen (1962) a proposé de choisir le noyau
K(x) = 0.51
[−1,1]
(x), avec k =
1
2
. (3.4)
Il est clair que si on choisit le noyau de Parzen, alors de (1), (2) et (4) on obtient l’estimateur
f
n
(x), appelé l’estimateur naïf de f(x) :
f
n
(x) =
ν
k
2nh
n
,
où ν
k
est le nombre de X
j
dans l’intervalle ]x −h
n
, x +h
n
].
Souvent on utilise le noyau de Epanechnikov (1969)
K(x) = 0.72(1−x
2
)1
[−1,1]
(x), avec k =
2
3
,
voir aussi Bartlett (1963).
On donne ici encore quelques d’autres exemples :
le noyau de Gauss :
K(x) =
1


e
−x
2
, avec k =
1


,
le noyau de Laplace :
K(x) =
1
2
e
−[x[
, avec k =
1
2
,
le noyau de Cauchy :
K(x) =
1
π(1+x
2
)
, avec k =
1
π
,
205
le noyau de Fejer :
K(x) =
1

_
sin
x
2
x
2
_
, avec k =
1

,
le noyau de Tukey
K(x) =
15
16
(1−x
2
)
2
1
[−1,1]
(x).
Dans certains cas l’expression de K peut être plus compliquée. Les propriétées asympto-
tiques de f
n
ont été bien étudiées, voir par exemple, Deheuvels (1973, 1974), Devroye et
Györfi (1985), Watson et Leadbether (1963), Silverman (1986), Nikulin & Solev (2002),
etc.
Il est facile de montrer que pour l’estimateur classique (1) on a
[Ef
n
(x) − f (x)[ ≤ω
f
(h
n
),

ω
f
(h) = sup
[x−y[≤h
[ f (x) − f (y)[,
est le module de continuité de f , d’où on tire que si x est un point de continuité de f , alors
Ef
n
(x) = f (x) +o(h
n
), n →∞
et donc de la loi de grands nombres il suit que
f
n
(x)
P
→ f (x),
i.e. ¦ f
n
(x)¦ est une suite consistante d’estimateurs f
n
(x) de f (x).
De la même façon comme pour l’estimateur non paramétrique classique on peut dé-
montrer, sous quelques conditions de régularité sur f et K, que pour l’estimateur de type
noyau on a :
Ef
n
(x) =
1
h
n


−∞
K
_
x −y
h
n
_
f (y)dy → f (x), quand n →∞,
limnh
n
Var f
n
(x) = k f (x), n →∞,
i.e. f
n
(x) est un estimateur asymptotiquement sans biais pour f (x), et on en tire que f
n
(x)
P

f (x), i.e. ¦ f
n
(x)¦ est une suite consistante d’estimateurs f
n
(x) de f (x).
Enfin on remarque que à propos du choix de la taille de la fenêtre h
n
nous recomman-
dons regarder Devroue et Györfi (1985), Bretagnolle et Huber (1979), Freedman et Diaconis
(1981). Souvent pour choisir h
n
on pose
h
n
=
1
[n


−∞
([ f
(2)
(x)]
2
dx]
1/5
[
k


−∞
x
2
K
2
(x)dx
]
2/5
.
206
Chapitre 4
TESTS STATISTIQUES.
4.1 Principe des tests.
Soit X = (X
1
, ..., X
n
)
T
un vecteur aléatoire , X∈ R
n
. Faisons l’hypothèse H sur la distri-
bution de Xdans R
n
selon laquelle cette distribution appartient à une famille P =¦P
θ
, θ ∈
Θ¦ dans R
n
, paramétrée par θ. On note H : θ ∈ Θ et l’ensemble Θ est appelé espace des
paramètres.
Définition 1. Soit Θ
0
⊂ Θ. Nous appelons H
0
: θ ∈ Θ
0
l’hypothèse nulle selon laquelle la
distribution de X appartient à la famille
P
0
=¦P
θ
, θ ∈ Θ
0
¦ ⊂P =¦P
θ
, θ ∈ Θ¦.
Définition 2. Si Θ=¦θ¦ n’a qu’un seul élément θ, i.e. la distribution de X est P
θ
, alors, on
dit que l’hypothèse H est simple, sinon H est composée (ou multiple).
Soient Θ
0
⊂Θ et Θ
1
⊂Θ telles que Θ
0

Θ
1
= / 0.
Définition 3. L’hypothèse H
1
: θ ∈ Θ
1
est appelée l’alternative de H
0
.
Exemple 1. Soit
Θ = [θ
0
, ∞[⊂R
1
, Θ
0
=¦θ
0
¦, Θ
1
=¦θ > θ
0
¦.
Dans ce cas l’hypothèse H
0
: θ =θ
0
, i.e. H
0
: θ ∈Θ
0
, est simple, et l’alternative H
1
: θ >θ
0
,
i.e. H
1
: θ ∈]θ
0
, ∞[, est composée. De même, si
Θ =] −∞, θ
0
], Θ
0
=¦θ
0
¦, et Θ
1
=] −∞, θ
0
[,
l’alternative H
1
: θ < θ
0
est composée. Dans ces deux cas les alternatives H
1
: θ > θ
0
ou
H
1
: θ < θ
0
sont unilatérales.
Exemple 2. Soit Θ =]θ
1
, θ
2
[⊂R
1
, Θ
0
=¦θ
0
¦, θ
1
< θ
0
< θ
2
et
Θ
1
= Θ¸Θ
0
=]θ
1
, θ
0
[


0
, θ
2
[.
Ici l’alternative H
1
: θ ,= θ
0
, i.e. H
1
: θ ∈ Θ
1
= Θ¸¦θ
0
¦, est bilatérale (et composée).
Définition 4. On appelle modèle statistique paramétrique un modèle (R
n
, B
n
, P) tel qu’il
existe k ∈ N :
P =¦P
θ
, θ ∈ Θ⊂R
k
¦,
207
sinon on dit que le modèle (R
n
, B
n
, P) est non paramétrique.
Exemple 3. Soit X un vecteur aléatoire et soit H
0
l’hypothèse selon laquelle la fonction de
répartition de X est continue. Dans ce cas le modèle est non paramétrique.
Exemple 4. Soit X = (X
1
, ..., X
n
)
T
un échantillon, X
i
suit une loi normale N(µ, σ
2
), i.e.
θ = (µ, σ
2
)
T
∈ Θ, Θ =¦θ :[ µ [< ∞, σ
2
> 0¦. Comme Θ⊂R
2
, on a l’exemple d’un modèle
paramétrique.
Soient X =X = (X
1
, ..., X
n
)
T
un échantillon et x = (x
1
, ..., x
n
)
T
∈ R
n
une réalisation de
X, reçue dans l’expérience.
Soit ϕ : R
n
→[0, 1] une application borélienne qu’on appellera fonction critique.
Définition 5. On dit qu’une fonction critique ϕ détermine le test statistique pour tester
H
0
: θ ∈ Θ
0
contre H
1
: θ ∈ Θ
1
si l’on rejette H
0
avec la probabilité ϕ(x) et on rejette H
1
avec la probabilité 1−ϕ(x).
Définition 6. La fonction
β
ϕ
(θ) = E
θ
ϕ(X), θ ∈ Θ
0

Θ
1
, (1)
est appellée la fonction de puissance du test, basé sur la fonction critique ϕ.
Définition 7. La fonction
β
ϕ
(θ), θ ∈ Θ
0
est appellée le risque de première espèce. C’est le risque de rejeter H
0
à tort ; on constate
que le risque de première espèce est la restriction de la fonction de puissance à Θ
0
.
Définition 8. La fonction
β
ϕ
(θ), θ ∈ Θ
1
est appellée la puissance du test, basé sur la fonction critique ϕ; on costate que la puissance
est la restriction de la fonction de puissance β
ϕ
(θ) à Θ
1
.
Définition 9. La fonction
1−β
ϕ
(θ) = E
1
(1−ϕ(X)) = 1−

X
ϕ(x)p
1
(x)µ(dx), θ ∈ Θ
1
est appellé le risque de deuxième espèce. C’est le risque d’accepter H
0
à tort.
Si ϕ est de la forme
ϕ(x) =
_
1, x ∈ K ⊂R
n
,
0, x ∈ R
n
¸K,
(2)
alors le test statistique, basé sur cette fonction critique, est appelé pur ou non randomisé,
sinon le test est randomisé.
L’ensemble K est appellé la région critique ou la zone de rejet de ce test : on y rejette
H
0
(et on y accepte l’alternative H
1
) .
L’ensemble
¯
K = R
n
¸K est appelé la zone d’acceptation (de non rejet ) de H
0
.
Soit ϕ : R
n
→[0, 1] une fonction critique.
Il est évident qu’en cas de test non randomisé :
β
ϕ
(θ) = P
θ
(X ∈ K), θ ∈ Θ
0

Θ
1
, (3)
et donc β
ϕ
(θ) nous donne la probabilité avec laquelle X tombe dans la région critique K si
la vraie valeur de paramètre est θ.
Donc dans le cas d’un test pur le risque de première espèce est la probabilité de rejeter à
tort l’hypothèse H
0
quand θ ∈ Θ
0
, lorsque l’hypothèse H
0
est vraie. Le risque de deuxième
208
espèce est la probabilité d’accepter l’hypothèse H
0
quand θ ∈ Θ
1
, lorsque l’hypothèse H
0
est fausse.
Le test ϕ est bon, si les erreurs sont petites. On ne peut pas les rendre simultanément
aussi petites que l’on veut, parce que, en augmentant K, l’erreur de 2-ème espèce diminue
mais l’erreur de 1-ère espèce augmente et vice versa, en diminuant K l’erreur de 1-ère
espèce diminue mais celle de 2-ème espèce augmente.
Soit H
0
: θ ∈ Θ
0
.
Le nombre
α = sup
θ∈Θ
0
β
ϕ
(θ), 0 < α < 1,
est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la probabilité
de rejeter H
0
à tort ne devra pas dépasser α.
Le test ϕ de niveau α est sans biais, si sa puissance est supérieure ou égale à α, i.e. si
β
ϕ
(θ) ≥α pour ∀θ ∈ Θ
1
.
Le test ϕ est uniformément le plus puissant (UPP) de seuil α, si pour tout autre test ψ
on a
β
ϕ
(θ) ≤β
ψ
(θ) ≤α ∀θ ∈ Θ
0
,
β
ϕ
(θ) ≥β
ψ
(θ) ∀θ ∈ Θ
1
.
Considérons le cas de l’hypothèse H
0
et de l’alternative H
1
simples :
H
0
: θ = θ
0
, H
1
: θ = θ
1
.
Dans ce cas la puissance d’un test statistique non randomisé, destiné à tester H
0
contre H
1
,
est la probabilité de rejeter H
0
quand l’alternative H
1
est vraie :
π = P
θ
1
¦X ∈ K¦ = β
ϕ

1
),
et le niveau de signification est la probabilité de rejeter H
0
à tort :
α = P
θ
0
¦X ∈ K¦ = β
ϕ

0
).
C’est la probabilité d’erreur de première espèce. La probabilité β = 1−π s’appelle la pro-
babilité d’erreur de deuxième espèce.
4.2 Test de Neyman-Pearson.
Supposons que P =¦P
θ
0
, P
θ
1
¦ est dominée par une mesure σ-finie µ et notons f
0
et f
1
les densités de P
θ
0
et P
θ
1
par rapport à µ.
Lemme de Neyman-Pearson. Pour tout α ∈]0, 1[ il existe des constantes c
α
> 0 et γ
α

[0, 1] telles, que le test, basé sur la fonction critique
ϕ(x) =
_
_
_
1, si p
1
(x) > c
α
p
0
(x),
γ
α
, si p
1
(x) = c
α
p
0
(x),
0, sinon ,
209
a le niveau α et est le plus puissant parmi tous les tests ψ tels que E
θ
0
ψ(X) ≤α.
Démonstration.
1) On cherche des constantes c
α
et γ
α
telles que E
θ
0
ϕ(X) = α :
E
θ
0
ϕ(X) = P
θ
0
¦p
1
(X) > c
α
p
0
(X)¦+γ
α
P
θ
0
¦p
1
(X) = c
α
p
0
(X)¦ = α. (1)
Posons
F(c) = P
θ
0
_
p
1
(X)
p
0
(X)
≤c
_
, c ≥0.
F a un sens, puisque p
0
(X) > 0 p.s., si X ∼ p
0
(x).
Avec cette notation l’égalité (1) peut être écrite sous la forme
E
θ
0
ϕ(X) = 1−F(c
α
) +γ
α
[F(c
α
) −F(c
α
−0)] = α, (2)
puisque la fonction F est continue à droite.
a) S’il existe c : F(c) = 1−α, on peut prendre c
α
= c, γ
α
= 0 pour lesquelles on a l’égalité
qu’il nous faut :
E
θ
0
ϕ(X) = α.
b) Sinon il existe c :
F(c −0) ≤1−α < F(c). (3)
On peut prendre c
α
= c et définir γ en résolvant l’équation
α = 1−F(c) +γ[F(c) −F(c −0)].
On obtient
γ = [α−1+F(c)]/[F(c) −F(c −0)] =
F(c) −(1−α)
F(c) −F(c −0)
.
Des inégalités (3) on tire
α−1+F(c) ≤F(c) −F(c −0) et F(c) +α−1 = F(c) −(1−α) > 0,
c’est pourquoi 0 < γ ≤1.
2) On montre que le test ϕ est le plus puissant. Supposons que ψ est un autre test, tel que
E
θ
0
ψ(X) ≤α. Alors
E
θ
0
(ϕ(X) −ψ(X)) ≥0.
De la définition de ϕ on tire :
si p
1
(x) −c
α
p
0
(x) > 0, alors ϕ(x) = 1 ≥ψ(x) et donc ϕ(x) −ψ(x) ≥0 ;
si p
1
(x) −c
α
p
0
(x) < 0, alors ϕ(x) = 0 ≤ψ(x) et donc ϕ(x) −ψ(x) ≤0 ;
c’est pourquoi
(ϕ(x) −ψ(x))(p
1
(x) −c
α
p
0
(x)) ≥0 ∀x,

X
(ϕ(x) −ψ(x))(p
1
(x) −c
α
p
0
(x))µ(dx) ≥0
et

X
(ϕ(x) −ψ(x))p
1
(x)µ(dx) ≥c
α

X
(ϕ(x) −ψ(x))p
0
(x)µ(dx).
210
La dernière inégalité peut s’écrire :
E
θ
1
ϕ(X) −E
θ
1
ψ(X) ≥c
α
(E
θ
0
ϕ(X) −E
θ
0
ψ(X)) ≥0.
C’est pourquoi E
θ
1
ϕ(X) ≥E
θ
1
ψ(X), et le test ϕ est plus puissant que ψ.
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
H : X
i
∼ f (x; θ) = θ
x
(1−θ)
x
, x ∈ X, θ ∈ Θ =]0, 1[,
i.e. on a le modèle statistique selon lequel X
i
suit la loi de Bernoulli de paramètre θ, θ ∈ Θ.
Notre problème consiste à tester au niveau α = 0.05 l’hypothèse nulle H
0
: θ = θ
0
contre
l’alternative H
1
: θ =θ
1

0
. On remarque que dans notre modèle H il existe une statistique
exhaustive minimale unidimensionnelle (scalaire)
µ
n
= X
1
+... +X
n
.
Si l’hypothèse H
0
: θ = θ
0
est vraie, alors :
P
θ
0
¦µ
n
= x¦ =
_
n
x
_
θ
x
0
(1−θ
0
)
n−x
, x ∈ X
n
0
=¦0, 1, ..., n¦. (1)
Si l’alternative H
1
est vraie, alors :
P
θ
1
¦µ
n
= x¦ =
_
n
x
_
θ
x
1
(1−θ
1
)
n−x
, x ∈ X
n
0
=¦0, 1, ..., n¦. (2)
Donc le problème de tester H
0
: θ =θ
0
contre H
1
: θ =θ
1
revient au problème de tester l’hy-
pothèse que µ
n
suit la loi Binomiale B(n, θ
0
) contre l’alternative que µ
n
suit la loi binomiale
B(n, θ
1
), θ
1
> θ
0
.
En fonction de la statistique µ
n
le rapport de vraisemblance est
L(µ
n
) =
_
n
µ
n
_
θ
µ
n
1
(1−θ
1
)
n−µ
n
_
n
µ
n
_
θ
µ
n
0
(1−θ
0
)
n−µ
n
=
_
θ
1
θ
0
_
µ
n
_
1−θ
1
1−θ
0
_
n−µ
n
.
On peut remarquer que
θ
1
θ
0
> 1 et
1−θ
1
1−θ
0
< 1,
et donc L(µ
n
) est monotone en µ
n
, d’où on tire que le meilleur test (le test de Neyman-
Pearson) de niveau α pour H
0
contre H
1
est basé sur la statistique
ϕ(µ
n
) =
_
_
_
1, si µ
n
> c
α
,
γ, si µ
n
= c
α
,
0, sinon,
où les constantes c
α
( la valeur critique) et γ = γ
0.05
sont telles que
E
θ
0
ϕ(µ
n
) = P
θ
0
¦µ
n
> c
α
¦+γ
(
0.05)P
θ
0
¦µ
n
= c
α
¦ = α = 0.05. (3)
211
Supposons que n = 10, θ
0
= 0.25 = 1/4. Si l’on choisit K = K
5
=¦5, 6, 7, 8, 9, 10¦, dans ce
cas on a
P
θ
0
¦µ
n
∈ K
5
¦ =
10

x=5
_
10
x
_
θ
x
0
(1−θ
0
)
10−x
=
10

x=5
_
10
x
__
1
4
_
x
_
3
4
_
10−x
= 0.0781 > α = 0.05.
Si l’on choisit K = K
6
=¦6, 7, 8, 9, 10¦ , dans ce cas on a
P
θ
0
¦µ
n
∈ K
6
¦ =
10

x=6
_
10
x
__
1
4
_
x
_
3
4
_
10−x
= 0.0197 < α = 0.05.
Donc on voit que
P
θ
0
¦µ
n
∈ K
5
¦ = P
θ
0
¦µ
n
≥5¦ = 0.0781 et P
θ
0
¦µ
n
∈ K
6
¦ = P
θ
0
¦µ
n
≥6¦ = 0.0197,
d’où on tire que
P
θ
0
¦µ
n
= 5¦ = P
θ
0
¦µ
n
≥5¦−P
θ
0
¦µ
n
≥6¦ = 0.0781−0.0197 = 0.0584.
On détermine à l’aide de (3) la probabilité γ :
γ
(
0.05) =
α−0.0197
0.0781−0.0197
=
0.05−0.0197
0.0781−0.0197
= 0.519,
et on obtient la fonction critique du meilleur test de Neyman-Pearson de niveau α :
ϕ(µ
n
) =
_
_
_
1, si µ
n
∈ K
6
,
0.519, si µ
n
= 5,
0, sinon .
On voit que
E
θ
0
ϕ(µ
n
) = 1 P
θ
0
¦µ
n
∈ K
6
¦+γ
(
0.05)P
θ
0
¦µ
n
= 5¦ =
= 0.0197+0.519 0.0584 = 0.050 = α.
La puissance de ce test randomisé quand θ = θ
1
=
1
2
est égale à
π = E
θ
1
¦ϕ(µ
n
)¦ = P
θ
1
¦µ
n
∈ K
6
¦+γ
(
0.05)P
θ
1
¦µ
n
= 5¦ =
10

x=6
_
10
x
__
1
2
_
x
_
1
2
_
10−x
+0.519
_
10
5
__
1
2
_
5
_
1
2
_
5
=
= 0.3770+0.519 0.2461 = 0.5047.
Enfin on remarque que le risque de deuxième espèce β = 0.4953.
Exemple 2. Soit X = (X
1
, . . . , X
5
)
T
un échantillon. Trouver le plus puissant test de ni-
veau α = 0.1 vérifiant l’hypothèse H
0
: U(−0.5; 0.5) contre l’alternative H
1
: N(0; 0.009).
Vérifier l’hypothèse H
0
si des réalisations de X sont
−0.114; −0.325; 0.196; −0.174; −0.460.
212
Solution. On cherche le test de Neyman-Pearson pur :
ϕ(X) =
_
1, si L
1
(X) > cL
0
(X);
0, sinon,

L
0
(X) = 1¦−0.5 ≤X
(1)
≤X
(5)
≤0.5¦,
L
1
(X) =
1
σ
5
(2π)
5/2
exp
_

1

2
5

i=1
X
2
i
_
, σ
2
= 0.009.
L’inégalité L
1
(X) > cL
0
(X) est vraie si et seulement si
_
5

i=1
X
2
i
< k
_

_
X
(1)
<−0.5
_

_
X
(5)
< 0.5
_
.
On cherche k de condition
P
0
_
_
5

i=1
X
2
i
< k
_

_
X
(1)
<−0.5
_

_
X
(5)
< 0.5
_
_
= P
0
_
5

i=1
X
2
i
< k
_
= α,


...

5

i=1
X
2
i
<R
2
−0.5<X
i
<0.5
dx
1
dx
5
= 0.1, (4.1)
où k = R
2
.
Si R ≤0.5, cette intégrale est égale à l’intégrale
I =

...

5

i=1
X
2
i
<R
2
dx
1
dx
5
. (4.2)
Dans l’intégrale (1) on fait le changément de variables
x
1
= r cosϕ
1
x
2
= r sinϕ
1
cosϕ
2
x
3
= r sinϕ
1
sinϕ
2
cosϕ
3
x
4
= r sinϕ
1
sinϕ
2
sinϕ
3
cosϕ
4
x
5
= r sinϕ
1
sinϕ
2
sinϕ
3
sinϕ
4
.
Le Jacobien
J = r
4
sin
3
ϕ
1
sin
2
ϕ
2
sinϕ
3
.
I =
R

0
r
4
dr
π

0
sin
3
ϕ
1

1
π

0
sin
2
ϕ
2

2
π

0
sinϕ
3

3

0

4
=

2
R
5
15
.
Si R = 0.5,
I =
π
2
60
>
9
60
=
3
20
> 0.1,
213
donc (1) peut être vraie, si R < 0.5.
R satisfait l’équation

2
R
5
15
= 0.1,
donc
R
5
=
3
16π
2
.
On rejette l’hypothèse H
0
si
5

i=1
X
2
i
<
_
3
16π
2
_
5/2
où X
(1)
<−0.5 ou X
(5)
> 0.5.
Dans notre cas
5

i=1
X
2
i
= 0.399, X
(1)
=−0.325, X
(5)
= 0.196. On a
0.399 >
_
3
16π
2
_
5/2
l’hypothèse est accepté.
4.3 Loi multinomiale et test du chi-deux de Pearson.
Loi multinomiale.
Considérons une suite de n épreuves indépendantes et supposons que dans chaque
épreuve il ne puisse se passer qu’un seul événement parmi k possibles E
1
, E
2
, . . . , E
k
, dont
les probabilités,
p
1
= P(E
1
), p
2
= P(E
2
), ..., p
k
= P(E
k
),
sont positives et p
1
+. . . + p
k
= 1.
Notons p = (p
1
, . . . , p
k
)
T
et ν = (ν
1
, . . . , ν
k
)
T
, ou ν
i
est la fréquence de E
i
dans la suite
d’épreuves (i = 1, . . . , k). Il est évident que les valeurs prises par les ν
i
sont des valeurs
entières n
i
, 0 ≤n
i
≤n,
n
1
+n
2
+. . . +n
k
= n. (1)
Le vecteur ν suit la loi multinomiale de paramètres n et p :
P¦ν
1
= n
1
, . . . , ν
k
= n
k
¦ =
n!
n
1
! . . . n
k
!
p
n
1
1
p
n
2
2
. . . p
n
k
k
, (2)
pour tout n
1
, . . . , n
k
entiers, satisfaisant aux conditions (1).
Par des calculs directs, on peut établir que le vecteur des espérances, Eν, et la matrice
de covariance,
Σ = Varν = E(ν−Eν)(ν−Eν)
T
,
214
du vecteur ν sont égaux à
Eν = np, Σ = E(ν−np)(ν−np)
T
= n(P−pp
T
), (3)
ou P est la matrice diagonale dont les éléments sur la diagonale principale sont p
1
, . . . , p
k
.
Il est facile de vérifier que rang(Σ) = k −1, à cause de la condition (1).
Test du chi-deux de Pearson.
Soit 1 = 1
k
= (1, . . . , 1)
T
∈ R
k
. Nous pouvons écrire que
p
T
1
k
= 1, ν
T
1
k
= k.
Notons
˜ p = (p
1
, . . . , p
k−1
)
T
, ˜ ν = (ν
1
, . . . , ν
k−1
)
T
,
˜
1 = 1
k−1
,
˜
P est la matrice que l’on obtient à partir de la matrice P, en enlevant la dernière ligne
et la dernière colonne, c’est-à-dire que
˜
P est la matrice diagonale dont les éléments de la
diagonale principale sont p
1
, .., p
k−1
. De la même façon on obtient la matrice
˜
Σ = n
_
˜
P− ˜ p˜ p
_
T
.
Il est facile de vérifier que ˜ p
T
˜
1 = 1−p
k
, rang(
˜
Σ) = k −1 et que la matrice inverse
˜
Σ
−1
de
˜
Σ est
˜
Σ
−1
=
1
n
_
˜
P
−1
+
1
p
k
˜
1
˜
1
T
_
, (4)

˜
P
−1
est la matrice inverse de
˜
P.
Soit p
0
= (p
01
, p
02
, . . . , p
0k
)
T
un vecteur arbitraire qui satisfait la condition
p
T
0
1 = 1,
tel que tous les p
0i
sont positifs, et supposons que le vecteur ν suive la loi multinomiale
(2) de paramètres n et p. Dans ce cas si n →∞, alors d’après le théorème limite central
à plusieurs dimensions le vecteur
1

n
(˜ ν − ˜ p
0
) est asymptotiquement distribué selon la loi
normale à (k −1) dimensions de paramètres
(˜ p− ˜ p
0
) et
˜
P− ˜ p˜ p
T
=
1
n
˜
Σ.
Par conséquent la forme quadratique de Pearson
X
2
n
=
1
n
(˜ ν−n˜ p
0
)
T
_
˜
P
−1
+
1
p
k
˜
1
˜
1
T
_
(˜ ν−n˜ p
0
) (5)
est distribuée approximativement (quand n tend vers l’infini) comme la variable aléatoire
χ
2
k−1

n
), où
λ
n
= n(˜ p− ˜ p
0
)
T
_
˜
P
−1
+
1
p
k
˜
1
˜
1
T
_
(˜ p− ˜ p
0
). (6)
Comme
(˜ ν−n˜ p
0
)
T
˜
P
−1
(˜ ν−n˜ p
0
) =
k

i=1

i
−np
0i
)
2
np
i
(7)
215
et
˜
1
T
(˜ ν−n˜ p
0
) =−(ν
k
−np
0k
), (8)
la statistique de Pearson X
2
n
peut s’écrire :
X
2
n
=
k

i=1

i
−np
0i
)
2
np
i
. (9)
Théorème 1. Soit ¦p
n
¦ une suite de vecteurs p
n
= (p
n1
, p
n2
, . . . , p
nk
)
T
tels que p
T
n
1 = 1 et
tous les p
ni
soient positifs. Supposons que
ˆ
λ
n
= n
k

i=1
(p
ni
−p
0i
)
2
p
0i
→λ, (λ > 0) (10)
quand n →∞ . Dans ce cas la statistique de Pearson
X
2
n
=
k

i=1

i
−np
ni
)
2
np
ni
(11)
suit à la limite, quand n →∞, la même loi que la variable aléatoire χ
2
k−1
(λ).
Supposons que nous ayons à tester l’hypothèse H
0
: p = p
0
. Soit x(α, k −1), le quantile
supérieur de niveau α de la distribution du chi-deux à (k −1) degrés de liberté , c’est-à-dire
que
P
_
χ
2
k−1
≥x(α, k −1)
_
= α. (12)
D’après le test du chi-deux de Pearson, fondé sur la statistique de Pearson X
2
n
, on rejette
l’hypothèse H
0
si
X
2
n
≥c
α
= x(α, k −1). (13)
Le nombre c
α
s’appelle la valeur critique du test. De (12),(13),(6) et (9) on déduit que
P
_
X
2
n
≥x(α, k −1) [ H
0
_
→α, quand n →∞. (14)
Par ailleurs si l’hypothèse H
1n
: p = p
n
est vraie, alors du Théorème 1 il résulte que
P
_
X
2
n
≥x(α, k −1) [ H
1n
_
= P
_
χ
2
k−1
(λ) ≥x(α, k −1)
_
+o(1), (15)
si
n
k

i=1
(p
ni
−p
0i
)
2
p
0i
→λ, quand n →∞. (16)
Par exemple, si
p
ni
= p
0i
+
δ
i

n
, (17)

δ
1

2
+. . . +δ
k
= 0,
λ
n
= λ =
k

i=1
δ
2
i
p
0i
. (18)
216
La probabilité
β
n
= P
_
X
2
n
≥x(α, k −1) [ H
1n
_

= P
_
χ
2
k−1

n
) ≥x(α, k −1)
_
(19)
s’appelle la puissance du test du chi-deux de Pearson .
Par ailleurs, la relation
P
_
X
2
n
≤x(α, k −1) [ H
1n
_
= 1−β
n
(20)
nous donne la probabilité d’erreur de seconde espèce que l’on commet en prenant H
0
à tort
parce que l’on a observé l’événement ¦X
2
n
≤x(α, k−1)¦, tandis qu’en fait c’est l’hypothèse
H
1n
qui est vraie. On remarque ici que plus la puissance β
n
est grande, plus petite est la
probabilité de commettre l’erreur de prendre H
0
à tort. Enfin, on note que pour calculer
1−β
n
on peut utiliser l’approximation normale de la loi du chi-deux non centrale, d’après
laquelle
1−β
n
= P
_
X
2
n
≤x(α, k −1) [ H
1n
_

= Φ
_
x(α, k −1) −(k −1+λ
n
)
_
2(k −1+2λ
n
)
_
, (21)
et par conséquent on obtient
β
n

= Φ
_
k −1+λ
n
−x(α, k −1)
_
2(k −1+2λ
n
)
_
, (22)
pourvu que k +λ
n
soit assez grand, c’est-à-dire, en pratique, supérieur où égal à 30.
Supposons maintenant, que H
1n
soit telle que p
n
,≡p
0
et
λ
n
= n
k

i=1
(p
ni
−p
0i
)
2
p
0i
→∞, (23)
quand n →∞. Dans ce cas, de (20) il résulte que (1−β
n
) →0 et donc β
n
→1, quand n →∞
, et on dit que le test est consistant.
Remarque sur la correction de continuité.
Si k = 2, alors
X
2
n
=

1
−np
01
)
2
np
01
+

2
−np
02
)
2
np
02
=

1
−np
01
)
2
np
01
(1−p
01
)
, (24)
car ν
1

2
= n. Supposons que l’hypothèse H
0
soit vraie. Dans ce cas la fréquence ν
1
suit
la loi binomiale de paramètres n et p
01
et par conséquent du thèoreme de de Moivre-Laplace
il résulte que si n →∞, alors pour tout m (1 ≤m ≤n)
P¦ν
1
≤m [ H
0
¦ = Φ
_
m+0.5−np
01
_
np
01
(1−p
01
)
_
+O(
1

n
), (25)
d’où on tire
P¦ν
1
≥m [ H
0
¦ = 1−P¦ν
1
≤m−1 [ H
0
¦ =
= Φ
_
m−0.5−np
01
_
np
01
(1−p
01
)
_
+O(
1

n
). (26)
217
De (25) et (26) il résulte que si nous voulons utiliser le test du chi-deux de Pearson, fondé
sur la statistique X
2
n
du niveau de signification

= α, nous devons rejeter H
0
quand
Φ
_
ν
1
+0.5−np
01
_
np
01
(1−p
01
)
_

α
2
où Φ
_

ν
1
−0.5−np
01
_
np
01
(1−p
01
)
_

α
2
. (27)
De (27) on déduit que l’on doit rejeter H
0
si l’un des événements
ν
1
−np
01
_
np
01
(1−p
01
)
≤Ψ(
α
2
) −
1
_
np
01
(1−p
01
)
(28)
ou
ν
1
−np
01
_
np
01
(1−p
01
)
≥−Ψ(
α
2
) +
1
_
np
01
(1−p
01
)
(29)
est apparu, où Ψ(y) est la fonction inverse de Φ(x). Donc on a montré que le test du chi-
deux de Pearson à 1 degré de liberté rejette H
0
si
X
2
n

_
Ψ(1−
α
2
) +
1
2
_
np
01
(1−p
01
)
_
2
(30)
(ici nous avons utilisé l’identité : Ψ(y) +Ψ(1−y) ≡0, y ∈ [0, 1].)
De la formule (30) il résulte que si k = 2, alors la valeur critique c
α
du test du chi-deux doit
être égale à
c
α
=
_
Ψ(1−
α
2
) +
1
_
np
01
(1−p
01
)
_
2
(31)
pour avoir le niveau du test

= α .
Test du chi-deux pour des données de Mendel.
Dans ses expériences Mendel a observé 315 pois ronds et jaunes, 108 pois ronds et
verts, 101 pois ridés et jaunes, 32 pois ridés et verts. Au total Mendel a observé 556 pois.
D’après l’hypothèse H
0
de Mendel les probabilités p
1
, p
2
, p
3
, p
4
d’observer un pois Rond et
Jaune, un pois Rond et vert, un pois ridé et Jaune, un pois ridé et vert sont proportionnelles
à 9,3,3 et 1 respectivement (voir Remarque 1). Peut-on dire que les données de Mendel sont
en accord avec son hypothèse H
0
?
Notons n le nombre total des pois (dans l’expérience de Mendel n = 556), et soit ν =

1
, ν
2
, ν
3
, ν
4
)
T
est le vecteur des fréquences des événements que Mendel a observés :
ν
1
= 315, ν
2
= 108, ν
3
= 101, ν
4
= 31.
Dans notre modèle le vecteur ν suit la loi multinomiale de paramètres n et p = (p
1
, p
2
, p
3
, p
4
)
T
,

p
1
+ p
2
+ p
3
+ p
4
= 1, p
i
> 0.
Si l’hypothèse de Mendel est vraie, alors
p
1
=
9
16
, p
2
=
3
16
, p
3
=
3
16
, p
4
=
1
16
.
Pour tester l’hypothèse de Mendel on peut utiliser le test du chi-deux de Pearson, fondé sur
la statistique de Pearson
218
X
2
n
=
4

i=1

i
−np
i
)
2
np
i
,
dont la distribution (sous l’hypothèse H
0
) est proche de la distribution du chi-deux à f =
4 −1 = 3 degrés de liberté. Choisissons α = 0.05. Dans ce cas la valeur critique c
α
=
χ
2
3
(α) = 7.81. Comme pour les données de Mendel
X
2
n
= 0.470 < χ
2
3
(0.05) = 7.81,
nous ne rejetons pas l’hypothèse H
0
, considérant que les données de Mendel sont en bon
accord avec son hypothèse.
Remarque 1. On croise différentes variétés de petits pois. A la première génération, on
obtient les différentes catégories suivantes : Ronds et Jaunes, Ronds et verts, ridés et Jaunes,
ridés et verts, sachant que :
dans les caractères de formes
le dominant est rond (R), le récessif est ridé (r) ;
dans les caractères de couleurs
le dominant est jaune (J), le récessif est vert (v).
On obtient pour la deuxième génération le tableau suivant :
Parents RJ Rv rJ rv
RJ RJ RJ RJ RJ
Rv RJ Rv RJ Rv
rJ RJ RJ rJ rJ
rv RJ Rv rJ rv
Soit RJ, Rv, rJ et rv dans les proportions 9,3,3,1.
On vient de considérer le test de Pearson pour le cas où les probabilités p
i
sont connues,
ou, comme on dit, pour des hypothèses simples. La situation devient un peu plus compli-
quée, quand les p
i
sont inconnues ou dépendent d’un paramètre θ inconnu, p
i
= p
i
(θ). Il
y a des possibilités différentes pour tester H
0
, dont on dit qu’elle est composée. Dans le
paragraphe suivant nous allons parler d’une solution de Fisher et Cramer.
219
4.4 Théorème de Fisher.
Conditions de Cramer et methode du minimum de chi-deux.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un échantillon ; supposons que nous voulions tester l’hypo-
thèse H
0
, selon laquelle les variables aléatoires indépendantes X
1
, ..., X
n
suivent la même
loi
P¦X
i
≤x¦ = F(x, θ), θ = (θ
1
, . . . , θ
s
)
T
∈ Θ⊂R
s
,
où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x
0
= −∞ et x
k
= ∞, notons ν = (ν
1
, . . . , ν
k
)
T
le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k ≥s +2)
(x
0
, x
1
], (x
1
, x
2
], . . . , (x
k−1
, x
k
),
qui sont choisis d’avance. Il est évident que ν
T
1
k
= n, et si l’hypothèse H
0
est vraie, alors
le vecteur ν suit la loi multinomiale de paramètres n et p, où
p = p(θ) = (p
1
(θ), p
2
(θ), . . . , p
k
(θ))
T
et
p
i
(θ) = P¦X
1
∈ (x
i−1
, x
i
] [ H
0
¦ =
x
i

x
i−1
dF(x, θ) =
x
i

x
i−1
f (x, θ)dx,
où f (x, θ) est la densité de F(x, θ), si elle existe. Supposons que les conditions suivantes de
Cramer soient satisfaites :
1) il existe un nombre positif c (c > 0) tel que pour tout i = 1, . . . , k
p
i
(θ) > c, θ ∈ Θ;
2) les fonctions

2
p
i
(θ)
∂θ
2
j
sont continues sur Θ;
3) le rang de la matrice d’information de Fisher J(θ) = B(θ)
T
B(θ),
B =
_
_
_
_
1

p
i
∂p
i
(θ)
∂θ
j
_
_
_
_
,
est égal à s.
Comme le paramètre θ est inconnu, Fisher a proposé de choisir pour estimateur de θ le
˜
θ
n
qui rend minimum la variable aléatoire
X
2
(θ) =
k

i=1

i
−np
i
(θ)]
2
np
i
(θ)
i.e.
X
2
(
˜
θ
n
) = min
θ∈Θ
X
2
(θ).
On dit que
˜
θ
n
est l’estimateur du minimum de chi-deux. Comme Fisher l’a prouvé (1928),
si l’hypothèse H
0
est vraie, alors pour tout x fixé
220
lim
n→∞
P
_
X
2
(
˜
θ
n
) ≤x
_
= P¦χ
2
k−s−1
≤x¦.
Cramer a démontré plus tard (1946) que le résultat de Fisher reste valable si au lieu de
˜
θ
n
on choisit l’estimateur de maximum de vraisemblance θ

n
= θ

n

1
, ν
2
, . . . , ν
k
), qui rend
maximum la fonction de vraisemblance :
l(θ

n
) = sup
θ∈Θ
l(θ),

l(θ) =
n!
ν
1

2
!...ν
k
!
(p
1
(θ))
ν
1
(p
2
(θ))
ν
2
. . . (p
k
(θ))
ν
k
.
On voit bien que l’estimateur θ

n
est obtenu à partir des données groupées, et, si la distri-
bution F(x, θ) est continue, alors la statistique ν = (ν
1
, . . . , ν
k
)
T
n’est pas exhaustive et par
conséquent l’estimateur θ

n
n’est pas le meilleur, mais comme on l’a déjà dit
lim
n→∞
_
X
2


n
) ≤x [ H
0
_
= P¦χ
2
k−s−1
≤x¦.
Exemple 1. Il a été établi qu’au cours d’une épidémie de grippe, parmi les 2000 individus
contrôlés, 181 personnes sont tombées malades une seule fois et seulement 9 personnes
ont eu cette maladie deux fois. L’hypothèse H
0
selon laquelle le nombre de fois où une
personne tombe malade est une variable aléatoire qui suit une loi binomiale de paramètres
p et n = 2(0 < p < 1) est-t-elle vraisemlable ?
Soit X une variable aléatoire de loi binomiale B(2, p), c’est-à-dire que
P¦X = i¦ =
_
2
i
_
p
i
(1−p)
2−i
, i = 0, 1, 2, 0 < p < 1.
Et soit ν = (ν
0
, ν
1
, ν
2
)
T
le vecteur des fréquences observées, où ν
i
est le nombre des indi-
vidus qui sont tombés malades i fois,
ν
0

1

2
= n = 2000, ν
0
= 1810, ν
1
= 181, ν
2
= 9.
Notons p la probabilité de tomber malade (0 < p < 1) et soit l(p) la fonction de vraisem-
blance :
l(p) =
n!
ν
0

1

2
!
[ (1−p)
2
]
ν
0
[ 2p(1−p)]
ν
1
( p
2
)
ν
2
=
n!2
ν
1
ν
0

1

2
!
(1−p)

0

1
p

2

1
.
Il est facile de voir que les meilleurs estimateurs sans biais pour les probabilités
p
0
= p
2
, p
1
= p(1−p) et p
2
= (1−p)
2
sont
˜ p
0
=

1
+2ν
2
)(ν
1
+2ν
2
−1)
2n(2n−1)
, ˜ p
1
=

1
+2ν
2
)(ν
1
+2ν
0
)
2n(2n−1)
,
˜ p
2
=

1
+2ν
0
)(ν
1
+2ν
0
−1)
2n(2n−1)
221
respectivement, dont les réalisations observées sont
˜ p
0
=
199 198
4000 3999
=
4.9
2000
, ˜ p
1
=
199 3801
4000 3999
=
94.6
200
,
˜ p
2
=
3801 3800
4000 3999
=
1805.9
2000
,
d’où l’on tire que
n ˜ p
0
= 4.9; 2n ˜ p
1
= 189.2; n ˜ p
3
= 1805.9.
Pour tester H
0
on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X
2
qui
dans notre cas est distribuée approximativement (si l’hypothèse H
0
est vraie) comme la
variable aléatoire χ
2
f
avec f = 3−1−1 = 1 degrés de liberté. On a
X
2
=
2

i=0

i
−n ˜ p
i
)
2
n ˜ p
i
=
=
(1810−1805.9)
2
1805.9
+
(181−189.2)
2
189.2
+(9−4.9)
2
4.9 =
=
(4.1)
2
1805.9
+
(8.2)
2
189.2
+
(4.1)
2
4.9

= 3.795 < χ
2
1
(0.05) = 3.841,
où χ
2
1
(0.05) = 3.841 est le quantile du niveau 0.05 de la distribution du chi-deux à 1 degré
de liberté :
P¦χ
2
1
> χ
2
1
(0.05)¦ = 0.05.
Comme X
2
est inférieur à la valeur critique 3.841, on ne rejette pas l’hypothèse H
0
.
Exemple 2. Parmi 2020 familles ayant deux enfants on a enregistré 530 familles où les
deux enfants sont des garçons et 473 familles où les deux enfants sont des filles, et dans les
1017 familles restantes les enfants sont de sexe différent. Peut-on dire, avec le niveau de
signification α = 0.1, que le nombre des garçons dans une famille de deux enfants est une
variable aléatoire qui suit une loi binomiale ? Les probabilités de naissance d’un garçon et
d’une fille sont-elles égales ?
Soit X une variable aléatoire qui suit la loi binomiale B(2, p), c’est-à-dire que
P¦X = i¦ =
_
2
i
_
p
i
(1−p)
2−i
, i = 0, 1, 2, 0 < p < 1.
De plus soit ν = (ν
0
, ν
1
, ν
2
)
T
le vecteur des fréquences observées, où ν
i
est le nombre de
familles où il y a i garçons, i = 0, 1, 2. Dans notre cas
ν
0

1

2
= n = 2020, ν
1
= 1017, ν
0
= 473, ν
2
= 530,
et donc si l’hypothèse de la binomialité est vraie, alors la fonction de la vraisemblance l(p)
peut s’écrire :
l(p) =
n!
ν
0

1

2
!
_
(1−p)
2
¸
ν
0
[2p(1−p)]
ν
1
_
p
2
_
ν
2
,
où p est la probabilité de naissance d’un garçon.
222
Comme on le sait, les meilleurs estimateurs sans biais pour les probabilités
p
0
= p
2
, p
1
= p(1−p) et p
2
= (1−p)
2
sont
˜ p
0
=

1
+2ν
2
)(ν
1
+2ν
2
−1)
2n(2n−1)
, ˜ p
1
=

1
+2ν
2
)(ν
1
+2ν
0
)
2n(2n−1)
,
˜ p
2
=

1
+2ν
0
)(ν
1
+2ν
0
−1)
2n(2n−1)
respectivement, dont les réalisations observées sont
˜ p
0
=
2077 2076
4040 4039
, ˜ p
1
=
2077 1963
4040 4039
, ˜ p
2
=
1963 1962
4040 4039
d’où l’on tire que
n ˜ p
0

= 533.8; 2n ˜ p
1
= 1009.4; n ˜ p
3
= 476.8.
Pour tester H
0
on va utiliser le test du chi-deux, fondé sur la statistique de Pearson X
2
qui
dans notre cas est distribuée approximativement (sous l’hypothèse H
0
) comme une variable
aléatoire χ
2
f
à f = 3−1−1 = 1 degrés de liberté. On a
X
2
=
2

i=0

i
−n ˜ p
i
)
2
n ˜ p
i
=
=
(473−476.8)
2
476.8
+
1017−1009.4)
2
1009.4
+
(530−533.8)
2
533.8
=
=
(3.8)
2
476.8
+
(7.6)
2
1009.4
+
(3.8)
2
533.8
< 1 < χ
2
1
(0.1) = 2.706,
où χ
2
1
(0.1) = 2.706 est le quantile du niveau 0.1 de la distribution de chi-deux à 1 degré de
liberté :
P¦χ
2
1
> χ
2
1
(0.1)¦ = 0.10.
Comme X
2
est inférieur à la valeur critique 2.706, on constate que les données ne sont
pas en contradiction avec l’hypothèse H
0
, d’après laquelle le nombre des garçons dans une
famille est une réalisation d’une variable aléatoire X, qui suit la loi binomiale B(2, p).
Si les probabilités de naissance d’un garçon et d’une fille sont égales, la probabilité p
est égale à 0.5 (l’hypothèse H
1
). Dans ce cas, d’après le théorème de de Moivre-Laplace,
on obtient
P¦ν
1

2
≥2077 [ p = 0.5¦

= 1−Φ
_
2077−0.5−
4040
2

4040∗0.5∗0.5
_
=
= 1−Φ
_
1132

1010
_
= 1−Φ
_
113
63.56
_
= 1−Φ(1.778) = 1−0.9623 = 0.0377.
Pour tous les niveaux α ≥ 0.04 on est obligé de rejeter l’hypothèse H
1
: p = 0.5 en faveur
de l’hypothèse H
2
: p > 0.5. Comme nos calculs le montrent, le meilleur estimateur sans
biais de p est
˜ p =
2077
4040
= 0.514.
223
4.5 Théorème de Chernoff-Lehmann.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un échantillon ; supposons que nous voulions tester l’hypo-
thèse H
0
, selon laquelle les variables aléatoires indépendantes X
1
, ..., X
n
suivent la même
loi
P¦X
i
≤x¦ = F(x, θ), θ = (θ
1
, . . . , θ
s
)
T
∈ Θ⊂R
s
,
où la fonction de la répartition F est donnée, mais le paramètre θ est inconnu. En posant
x
0
= −∞ et x
k
= ∞, notons ν = (ν
1
, . . . , ν
k
)
T
le vecteur des fréquences que nous obtenons
comme résultat du groupement des variables aléatoires sur les k intervalles (k > 2)
(x
0
, x
1
], (x
1
, x
2
], . . . , (x
k−1
, x
k
),
qui sont choisis d’avance. Si l’hypothèse H
0
est vraie, alors le vecteur ν suit la loi multino-
miale de paramètres n et p, où
p = p(θ) = (p
1
(θ), p
2
(θ), . . . , p
k
(θ))
T
,
p
i
(θ) = P¦X
1
∈ (x
i−1
, x
i
] [ H
0
¦ =
x
i

x
i−1
dF(x, θ) =
x
i

x
i−1
f (x, θ)dµ(x),
où f (x, θ) est la densité de F(x, θ) par rapport à une mesure dominante µ.
Supposons que la matrice d’information de Fisher existe :
I(θ) = EΛ
i
(θ)Λ
T
i
(θ)
pour l’observation X
i
, où
Λ
i
(θ) =
_
∂ln(X
i
, θ)
∂θ
1
,
∂ln(X
i
, θ)
∂θ
2
, . . . ,
∂ln(X
i
, θ)
∂θ
s
_
T
,
et que les conditions de Cramer 1)-3) du paragraphe précédent sont satisfaites. Dans ce
cas, il existe un estimateur
ˆ
θ
n
de maximum de vraisemblance basé sur les données initiales,
ˆ
θ
n
=
ˆ
θ
n
(X
1
, . . . , X
n
), qui maximise la fonction de vrasemblance
L(θ) = f (X
1
, θ) f (X
2
, θ) f (X
n
, θ) : L(
ˆ
θ
n
) = sup
θ∈Θ
L(θ).
Sous des conditions supposées de régularité sur la famille ¦F(x, θ)¦ on connait le compor-
tement asymptotique de la suite ¦
ˆ
θ
n
¦, quand n →∞ (voir, par exemple, Barra (1971), Rao
(1973)) :

n(
ˆ
θ
n
−θ) =
1

n
n

i=1
I
−1
(θ)Λ
i
(θ) +o
p
(1
s
),
d’où on obtient immédiatement que le vecteur

n(
ˆ
θ
n
−θ) a une distribution asymptotique-
ment normale N(0
s
, I
−1
(θ)), quand n →∞.
Théorème de Lehmann et Chernoff.
En utilisant ces propriétés de l’estimateur de maximum de vraisemblance
ˆ
θ
n
, Lehmann
et Chernoff ont montré (1954), que sous l’hypothèse H
0
224
lim
n→∞
P
_
X
2
(θ) ≤x
_
= P
_
χ
2
k−s−1

1
(θ)ξ
2
1
+. . . +λ
s
(θ)ξ
2
s
≤x
_
,
où ξ
1
, ξ
2
, . . . , ξ
s
, χ
2
k−s−1
sont des variables aléatoires indépendantes, ξ
i
suit la loi normale
standard N(0, 1), et 0 < λ
i
(θ) < 1.
Statistique Y
2
n
.
D’après ce résultat on constate qu’en général il est impossible d’utiliser la statistique
standard de Pearson X
2
(
ˆ
θ
n
) pour tester des hypothèses composées, lorsqu’on utilise des
estimateurs de maximum de vraisemblaces
ˆ
θ
n
ou leurs équivalents. On peut tout de même
construire un test du chi-deux pour tester des hypothèses composées. Notons Σ(θ) la matrice
de covariance de la distribution limite du vecteur
1

n
_
ν−np(
ˆ
θ
n
)
_
. On peut montrer (voir,
par exemple, Nikulin (1973), Nikulin et Greenwood (1990), Huber (1991)), que rangΣ =
k −1. Notons Σ

(θ) la matrice inverse généralisée de Σ(θ) et soit
Y
2
n
=
1
n
_
ν−np(
ˆ
θ
n
)
_
T
Σ

(
ˆ
θ
n
)
_
ν−np(
ˆ
θ
n
)
_
.
Par des calculs directs on peut vérifier que la statistique Y
2
n
est indépendante du choix de la
matrice Σ

. On peut utiliser la statistique Y
2
n
pour tester la validité de l’hypothèse H
0
selon
laquelle la distribution des éléments X
i
de l’échantillon X suit la loi F(x, θ). On a en effet
(voir, par exemple, Nikulin (1973), Greenwood et Nikulin (1996)) :
lim
n→∞
P
_
Y
2
n
≤x [ H
0
_
= P
_
χ
2
k−1
≤x
_
.
Pour plus de détails sur la construction des tests du chi-deux, fondés sur la statistique Y
2
n
, on
se reportera aux articles de Nikulin (1973), (1979), (1990), (1991), Dzhaparidze et Nikulin
(1974), Nikulin et Voinov (1989), Greenwood et Nikulin (1996), Nikulin et Seddik-Ameur
(1991). On remarque enfin, que dans les cas de l’ existence de statistiques exhausives, on
peut utiliser aussi les meilleurs estimateurs sans biais pour construire un test du chi-deux
fondé sur la statistique Y
2
n
et en utilisant la technique exposée dans les articles que l’on vient
de mentionner.
4.6 Test du chi-deux pour une loi logistique.
La loi "logistique", qui a reçu son nom de Berkson et Reed (1929) est souvent utilisée.
(Entre autres, par Pearl et Reed (1920) pour le développement des levures, par Oliver (1964)
comme modèle de données agricoles et Grizzle (1961) dans le domaine de la santé Publique,
etc.)
Cette loi a une fonction de répartition dépendant de deux paramètres µ et σ > 0 :
F(x) = G(
x−µ
σ
) =
1
1+exp¦−
π

3
_
x−µ
σ
_
¦
, x ∈ R. (1)
Un livre vient d’être publié par Balakrishnan (1992) sur la théorie, méthodologie et appli-
cations de cette loi. Ici nous allons suivre l’article de Aguirre et Nikulin (1994).
225
Soit X = (X
1
, X
2
, . . . , X
n
)
T
- un échantillon et supposons que nous voulions tester l’hy-
pothèse H
0
selon laquelle
P¦X
i
< x¦ = G(
x−µ
σ
). (2)
Dans cette situation nous nous proposons d’utiliser les résultats précédants pour construire
un test du chi-deux.
1. Notations.
Soit g(x) = G
/
(x), et donc
1
σ
g(
x−µ
σ
) est la densité de X
i
sous H
0
,
1
σ
g(
x−µ
σ
) =
πexp¦−
π(x−µ)
σ

3
¦
σ

3
_
1+exp¦−
π(x−µ)
σ

3
¦
_
2
. (3)
g est paire (g(−x) = g(x)).
2. Estimation de µ et σ.
Pour estimer θ = (µ, σ)
T
on utilise l’estimateur
ˆ
θ
n
= (ˆ µ, ˆ σ
2
)
T
du maximum de vraisem-
blance. On sait que

n(
ˆ
θ
n
− θ) est asymptotiquement normal N(0, I
−1
), où
I =
1
σ
2
|I
i j
|
i, j=1,2
, I
11
=
+∞

−∞
_
g
/
(x)
g(x)
_
2
g(x)dx =
π
2
9
I
12
= I
21
=
+∞

−∞
x
_
g
/
(x)
g(x)
_
2
g(x)dx = 0,
I
22
=
+∞

−∞
x
2
_
g
/
(x)
g(x)
_
2
g(x)dx −1 =
π
2
+3
9
.
I
12
= 0 car g est symétrique, et une integration par parties permet d’obtenir I
11
et I
22
.
3. Choix des intervalles sur lesquels on va comparer les fréquences observées et les
fréquences théoriques :
Supposons que l’on ait choisi un vecteur p = (p
1
, p
2
, . . . , p
k
)
T
de probabilités positives,
par exemple :
p
1
= . . . = p
k
=
1
k
, y
i
= G
−1
(
i
k
) =−

3
π
ln(
k
i
−1), i = 1, . . . , k −1,
et notons ν = (ν
1
, . . . , ν
k
)
T
le vecteur des effectifs que nous obtenons en regroupant les
variables aléatoires X
1
, . . . , X
n
sur les intervalles
(−∞, z
1
], (z
1
, z
2
], . . . ., (z
k−1
, +∞), où z
i
= ˆ µ+ ˆ σy
i
.
4. Test de χ
2
. Posons
a = (a
1
, . . . , a
k
)
T
, b = (b
1
, . . . , b
k
)
T
, w =−
1
σ
| a, b |, où
a
i
= g(y
i
) −g(y
i−1
) =
π
k
2

3
(k −2i +1),
226
b
i
= y
i
g(y
i
) −y
i−1
g(y
i−1
) =
1
k
2
_
(i −1)(k −i +1)ln
k −i +1
i −1
−i(k −i)ln
k −i
i
_
,
α(ν) = k
k

i=1
a
i
ν
i
=
π

3k
_
(k +1)n−2
k

i=1

i
_
,
β(ν) = k
k

i=1
b
i
ν
i
=
1
k
k−1

i=1

i+1
−ν
i
)i(k −i)ln
k −i
i
,
λ
1
= I
11
−k
k

i=1
a
2
i
=
π
2
9k
2
, λ
2
= I
22
−k
k

i=1
b
2
i
.
Comme g est symétrique on remarque que
k

i=1
a
i
=
k

i=1
b
i
= 0.
Notons B = D−p
T
p−W
T
I
−1
W, où D est la matrice diagonale avec les éléments 1/k sur
la diagonale principale ( rangB = k −1). Notons˜ les matrices précédentes dans lesquelles
on supprime la dernière ligne pour W, p et ν et les dernières ligne et colonne de D et B.
Théorème 1. Sous l’hypothèse H
0
, quand n →∞ , le vecteur ˜ ν est asymptotiquement
normalement distribué avec les paramètres
E˜ ν = n˜ p+O(1) et E(˜ ν−n˜ p)
T
(˜ ν−n˜ p) = n
˜
B+O(1).
Théorème 2. Sous l’hypothèse H
0
la statistique
Y
2
n
=
1
n
(˜ ν−n˜ p)
T
˜
B
−1
( ˜ ν −n˜ p) = X
2
+
λ
1
β
2
(ν) +λ
2
α
2
(ν )

1
λ
2
,
converge en loi quand n →∞ vers une distribution de χ
2
k−1
.
Remarque. Considérons l’hypothèse H
η
selon laquelle X
i
suit la loi G(
x−µ
σ
, η), où
G(x, η) est continue, [ x [< ∞, η ∈ H et G(x, 0) = G(x), η = 0 est un point limite de H.
De plus, supposons qu’il existe

∂x
G(x, y) = g(x, y) et

∂η
g(x, η) [
η=0
= Ψ(x),
où g(x, 0) = g(x) = G
/
(x). Dans ce cas si

2
g(x,η)
∂η
2
existe et est continue pour tout x au
voisinage de η = 0, alors
P¦y
i−1
< X
i
≤y
i
[ H
η
¦ = p
i
+ηc
i
+o(η),
où c
i
=
y
i

y
i−1
Ψ(x)dx, i = 1, ..., k,
227
et donc
lim
n→∞
P¦Y
2
≥x [ H
η
¦ = P¦χ
2
k−1
(λ) ≥x¦,
λ =
k

i=1
c
2
i
p
i
+
λ
2
α
2
(c) +λ
1
β
2
(c)
λ
1
λ
2
, c = (c
1
, c
2
, ..., c
k
)
T
.
Plus de détails on peut trouver dans Aquirre (1993), Aquirre et Nikulin (1994).
4.7 Test du chi-deux dans un problème d’homogénéité.
On a k groupes de souris soumises à des traitements par différents médicaments . Les
souris d’un groupe, nommé "groupe de contrôle", ont reçu un médicament, dont les effets
ont déjà été étudiés. Pour savoir si d’autres médicaments sont meilleurs ou moins bons, on
compare les effets produit par ces médicaments à ceux du "groupe de contrôle". On vérifie
l’hypothèse d’homogénéité : cette hypothèse est vraie s’il n’y a pas de changement d’effet.
Autrement, l’hypothèse doit être rejetée. Dans ce cas, se pose le problème suivant : trouver
les groupes pour lesquels on a des effets différents de ceux du "groupe de contrôle".
Soient µ
1
, .., µ
k
des variables aléatoires indépendantes qui suivent la distribution binomiale
de paramètres (n
1
, p
1
), . . . , (n
k
, p
k
) respectivement :
P¦µ
i
= m¦ =C
m
n
i
p
m
i
(1−p
i
)
n
i
−m
, m ∈ ¦0, 1, . . . , n
i
¦, i = 1, 2, . . . , k,
où les probabilités p
1
, . . . , p
k
sont inconnues (0 < p
i
< 1; i = 1, . . . , k). Supposons que la
variable aléatoire µ
k
soit donnée pour "le contrôle" ; notre but est alors de tester l’hypothèse
que toutes les probabilités p
1
, .., p
k−1
ou quelques-unes d’entre elles sont égales à p
k
. Ce
problème peut être résolu si l’on suppose que min(n
1
, . . . , n
k
) →∞.
Soit ξ
i
=
µ
i
n
i
, i = 1, . . . , k. Alors du théorème de de Moivre-Laplace on peut tirer que
P¦ξ
1
≤x
1
, ξ
2
≤x
2
, . . . , ξ
k
≤x
k
¦ ∼
k

i=1
Φ
_
(x
i
−p
i
)
_
n
i
p
i
q
i
_
,
si
_
(x
i
−p
i
)
_
n
i
p
i
q
i
_
= O(1),
où Φ() est la fonction de répartition de la loi normalle N(0, 1) et q
i
= 1 −p
i
, i = 1, . . . , k.
Soit η
i
= ξ
i
−ξ
k
, et soit

i
= Eη
i
= p
i
−p
k
et σ
2
i
=
p
i
q
i
n
i
, i = 1, .., k.
Il est clair que le vecteur aléatoire η = (η
1
, . . . , η
k−1
)
T
a une distribution asymptotique
normale de paramètres
Eη = ∆ = (∆
1
, . . . , ∆
k−1
)
T
et E(η−∆)(η−∆)
T
= Σ,

Σ = diag(σ
2
1
, σ
2
2
, . . . , σ
2
k−1
)
T

2
k
E,
228
diag(x
1
, . . . , x
n
) est la matrice diagonale ayant les éléments x
1
, . . . , x
n
sur la diagonale prin-
cipale et E est la matrice d’ordre (k −1) (k −1), dont tous les éléments sont égaux à 1.
Nous remarquons que la matrice Σ est non singulière et
Σ
−1
= diag(σ
−2
1
, σ
−2
2
, . . . , σ
−2
k−1
) −
_
k

i=1
σ
−2
i
_
−1
|b
i j
|,

b
i j
=
1
σ
2
i
σ
2
j
; i, j = 1, . . . , k −1.
Du fait que le vecteur η a une distribution asymptotique normale, il s’ensuit que la forme
quadratique
Y
2
= (η−∆)
T
Σ
−1
(η−∆)
a à la limite, lorsque min(n
1
, . . . , n
k
) →∞, une distribution du chi-deux à k −1 degrés de
liberté.
Cette même forme quadratique peut être représentée sous une forme plus explicite :
Y
2
=
k−1

i=1
_
η
i
−∆
i
σ
i
_
2

_
k

i=1
1
σ
2
i
_
−1
_
k−1

i=1
η
i
−∆
i
σ
i
_
2
. (1)
D’après la théorie générale des tests du chi-deux (voir,par exemple, Greenwood et Nikulin
(1996), Nikulin (1991)) , la distribution limite de la forme quadratique Y
2
sera la même si
tous les paramètres inconnus σ
2
i
sont remplacés par leurs meilleurs estimateurs sans biais
ˆ σ
2
i
= ξ
i
(1−ξ
i
)
(n
i
−1)
, i = 1, . . . , k.
Soit P un coefficient de confiance donné , 0.5 < P < 1, et soit x
p
le quantile de niveau P de
la distribution du chi-deux à k−1 degrés de liberté. Dans ce cas, la probabilité P
_
Y
2
≤x
p
_
est approximativement égale à P et toutes les valeurs du vecteur (∆
1
, . . . , ∆
k−1
)
T
, satisfaisant
l’inégalité Y
2
≤ x
p
, donnent un intervalle de confiance dont le coefficient de confiance est
proche de P. Ceci peut être utilisé dans la solution du problème proposé.
Inférences statistiques.
On considère un ensemble d’hypothèses
H
r
= H
r
(i
1
, .., i
r
) : ∆
i
1
= ∆
i
2
= . . . = ∆
i
r
= 0,
r = 1, 2, . . . , k −1; 1 ≤i
1
< i
2
< . . . < i
r
≤k −1.
Nous dirons que l’hypothèse H
r
(i
1
, . . . , i
r
) n’est pas contradictoire avec les données de l’ex-
périence s’il existe ∆

i
(i ,= i
1
, . . . , i
r
), pour lequel la valeur de la statistique Y
2
est infé-
rieure à x
p
. Autrement dit, l’hypothèse H
r
(i
1
, . . . , i
r
) doit être acceptée si , dans l’espace
(∆
1
, . . . , ∆
k−1
) de dimension k −1, l’hyperplan défini par les équations

i
1
= ∆
i
2
= . . . = ∆
i
r
= 0
a une intersection non vide avec l’intérieur de l’ellipsoïde défini par l’inégalité Y
2
≤x
p
.
Le but final est de choisir un sous-ensemble d’hypothèses qui ne sont pas contradictoires
avec les données de l’expérience ; puisque certaines hypothèses sont des conséquences des
229
autres nous ne nous intéresserons dans ce sous-ensemble qu’aux éléments dont l’indice r
est maximal.
Considérons l’hypothèse H
r
(1 ≤r ≤k−1), et, sans restriction de généralité, supposons
que i
1
= k −r, i
2
= k −r +1, . . . , i
r
= k −1. Alors la statistique Y
2
aura la forme
Y
2
=
k−r−1

i=1
_
η
i
−∆
i
σ
i
_
2
+
k−1

i=k−r
_
η
i
σ
i
_
2

_
k−r−1

j=1
c
j

j
−∆
j
) +
k−1

j=k−r
c
j
η
j
_
, (2)

c
j
= σ
−2
j
_
k

i=1
σ
−2
i
_
−1/2
, j = 1, . . . , k −1.
Il est facile de voir que la plus petite valeur de la statistique Y
2
est obtenue au point

i
= ∆

i
= η
i
−c
i
ˆ σ
2
i
_
1−
k−r−1

j=1
c
2
j
σ
2
j
_
−1
k−1

j=k−r
c
j
η
j
, i = 1, . . . , k −1,
et sa valeur minimale est
Y
2

=
k−1

i=k−r
_
η
i
ˆ σ
i
_
2

_
k−1

i=k−r
c
i
η
i
_
2
_
1+
k−r−1

i=1
c
2
i
ˆ σ
2
i
_ (3)
(si r = k −1, alors le dénominateur de la fraction sera supposé à 1). Il est clair que l’hypo-
thèse H
r
(i
1
, . . . , i
r
) doit être rejetée si Y
2
≥x
p
.
Exemple. Soit
k = 4 et n
1
= n
2
= n
3
= n
3
= 100, où µ
1
= 20, µ
2
= 50, µ
3
= 60 et µ
4
= 40.
Alors
ξ
1
= 0.2, ξ
2
= 0.5, ξ
3
= 0.6, ξ
4
= 0.4, η
1
=−0.2, η
2
= 0.1, η
3
= 0.2.
Si on utilise le meilleur estimateur sans biais ˆ σ
2
i
= ξ
i
(1−ξ
i
)/n
i
pour estimer le paramètre
inconnu σ
2
i
, i = 1, . . . , 4, on obtient
ˆ σ
2
1
= 0.0016, ˆ σ
2
2
= 0.0025, ˆ σ
2
3
= 0.0024 et ˆ σ
2
4
= 0.0024;
d’où
ˆ σ
−2
1
+ ˆ σ
−2
2
+ ˆ σ
−2
3
+ ˆ σ
−2
4
=
22.300
12
,
et
c
1
= 125
_
3
223
, c
2
= 80
_
3
223
, c
3
=
250
3
_
3
223
.
Puisque la statistique Y
2
a ici approximativement une distribution du chi-deux à trois degrés
de liberté, pour P =0.95 la valeur critique correspondante x
p
est x
0.95
=7.815. Nous allons
tester l’hypothèse H
r
.
230
A. Test de l’hypothèse H
3
(1, 2, 3). En utilisant (3), nous avons
Y
2

=
0.04
0.0016
+
0.01
0.0025
+
0.04
0.0024


_
−125
_
3
223
0.2+80
_
3
223
0.1+
250
3
_
3
223
0.2
_
2
= 45.665,
et comme P
_
χ
2
3
> 45.665
_
< 10
−7
, l’hypothèse H
3
(1, 2, 3) doit être rejetée par tous les
tests du chi-deux dont le niveau de signification n’est pas inférieur à 10
−7
.
B
1
.Test de l’hypothèse H
2
(2, 3).Dans ce cas
Y
2

=
0.01
0.0025
+
0.04
0.0024


_
80
_
3
223
0.1+
250
3
_
3
223
0.2
_
2 _
1+
1251253
223

16
10.00
_
−1
=
= 14.541.
Comme P
_
χ
2
3
> 14.541
_
=0.00225, l’hypothèse H
2
(2, 3) doit être rejetée par tous les tests
du chi-deux dont le niveau de signification n’est pas inférieur à 0.00225.
B
2
.Test de l’hypothèse H
2
(1, 3). Comme
Y
2

=
0.04
0.0016
+
0.04
0.0024


_
−125
_
3
223
0.2+
250
3
_
3
223
0.2
_
2_
1+
80803
223

25
10.000
_
−1
=
= 40.898,
l’hypothèse H
2
(1, 3) doit être rejetée par tous les tests du chi-deux dont le niveau de signi-
fication n’est pas inférieur à P
_
χ
2
3
> 40.898
_
< 10
−7
.
B
3
. Test de l’hypothèse H
2
(1, 2). Dans ce cas
Y
2

=
0.04
0.0016
+
0.01
0.0025


_
−125
_
3
223
0.2+80
_
3
223
0.1
_
2 _
1+
2502503
33223

24
10.000
_
−1
=
= 25.824.
Puisque la valeur minimale Y
2

de la statistique Y
2
dépasse la valeur critique x
0.95
= 7.815,
l’hypothèse H
2
(1, 2) doit ausi être rejetée.
C
1
. Test de l’hypothèse H
1
(1). Comme
Y
2

=
0.04
0.0016

_
−125
_
3
223
0.2
_
2 _
1+
48
223
+
50
223
_
−1
== 19.159 > 7.815,
cette hypothèse doit être rejetée aussi.
231
C
2
. Test de l’hypothése H
1
(2). Ici la plus petite valeur de la statistique Y
2
est égale à
Y
2

=
0.01
0.0025

_
80
_
3
223
0.1
_
2 _
1+
75
223
+
50
223
_
−1
= 3.448,
ce qui est sensiblement plus petit que la valeurs critique choisie x
0.95
, c’est pourquoi l’hy-
pothèse H
1
(2) n’est pas rejetée ; nous obtenons les estimateurs nouveaux


1
=−0.2−80
_
3
223
0.1125
_
3
223
0.0016
_
1−
75
223

50
223
_
−1
=
=−0.249,
et


3
=−0.2−80
_
3
223
0.1
250
3
_
3
223
0.0024
_
1−
75
223

50
223
_
−1
=
= 0.151.
C
3
. Test de l’hypothése H
1
(3). Puisque
Y
2

=
0.04
0.0024

_
250
3
_
3
223
0.2
_
2 _
1+
75
223
+
48
223
_
−1
= 14.258,
alors la plus petite valeur dépasse la valeur critique et l’hypothése H
1
(3) est rejetée.
Conclusion : seule l’hypothèse H
1
(2) peut-être acceptée d’après les résultats de l’expé-
rience, d’où il s’ensuit que ∆
2
= p
2
−p
4
=0, i.e. p
2
= p
4
. Si cette hypothèse est vraie , il est
raisonnable de prendre comme estimateur de p
4
la valeur de la statistique (µ
2

4
)/(n
2
+
n
4
) ; dans l’exemple présent cette quantité est égale à (ξ
2

4
)/2 = 0.45. Puisque
p
1
−p
4
≈∆

1
=−0.249 et p
3
−p
4
≈∆

3
= 0.151,
nous avons p
1
≈0.201 et p
3
≈0.601.
Remarque. Pour utiliser cette approche, dans le cas général on doit tester
k−1

r=1
C
r
k−1
= 2
k−1
−1
hypothèses. Dans la pratique pourtant il suffit de tester k −1 hypothèses. Pour cela, il est
nécessaire de calculer les relations
η
2
1
ˆ σ
2
1
, . . . ,
η
2
k−1
ˆ σ
2
k−1
et de les ranger en une suite non décroissante
_
η
1
ˆ σ
1
_
2

_
η
2
ˆ σ
2
_
2
≥. . . ≥
_
η
k−1
ˆ σ
k−1
_
2
232
(les numéros peuvent être donnés après le rangement). Alors on teste successivement les
hypothèses H
r
= H
r
(k −r, k −r +1, . . . , k −1) avec r = k −1, k −2, . . . . Si, en agissant de
cette façon, on trouve que
_
η
m
σ
m
_
2
>
_
η
m+1
σ
m+1
_
2
= ... =
_
η
m+t
σ
m+t
_
2
>
_
η
m+t+1
σ
m+t+1
_
2
et qui l’hypothèse H
k−m
est rejetée, alors il faut tester ensuite l’hypothèse H
k−m−t
et non
H
k−m−1
.
On remarque enfin que Bolshev et Nikulin (1975) ont considéré la solution d’un pro-
blème de homogénéité plus général pour des distributions dépendant de paramètres de trans-
lation et d’échelle.
4.8 Test du χ
2
d’homogénéité pour des lois multinomiales.
Observons I vecteurs aléatoires indépendents
µ
1
= (µ
11
, . . . , µ
1r
)
T
, µ
2
= (µ
21
, . . . , µ
2r
)
T
, . . . , µ
I
= (µ
I1
, . . . , µ
Ir
)
T
,
avec l’hypothèse H :
µ
i
∼M
r
(n
i
, p
i
), (1)
où n
1
, n
2
, . . . , n
I
sont des entiers positifs, p
i
= (p
i1
, . . . , p
ir
)
T
∈ R
r
,
p
i1
+ p
i2
+. . . + p
ir
= 1, i = 1, 2, . . . , I. (2)
Puisque les vecteurs µ
1
, . . . , µ
I
sont indépendants, alors, sous l’hypothèse H, la fonction de
vraisemblance L(p
1
, . . . , p
I
) est
L(p
1
, . . . , p
I
) =
n
1
!n
2
! n
I
!
µ
11
! µ
1r

21
! µ
Ir
!
p
µ
11
11
p
µ
1r
1r
p
µ
21
21
p
µ
2r
2r
p
µ
I1
I1
p
µ
Ir
Ir
. (3)
Si nous supposons que toutes les probabilités p
i j
sont connues, alors, d’après le théorème
de Pearson, la statistique
X
2
=
I

i=1
r

j=1

i j
−n
i
p
i j
n
i
p
i j
)
2
(4)
a pour distribution limite lorsque n →∞ la distribution du χ
2
avec f = I(r −1) degrés de
liberté :
lim
n→∞
P¦X
2
≤x [ H¦ = P¦χ
2
I(r−1)
≤x¦.
Supposons maintenant que tous les vecteurs p
i
sont inconnus. Dans ce cas, nous devons
estimer I(r −1) paramètres p
i j
. Sous l’hypothèse H, les estimateurs de vraisemblance des
p
i j
sont
ˆ p
i j
=
µ
i j
N
, j = 1, 2, . . . , r; i = 1, 2, . . . , I, (4)
233
où N = n
1
+n
2
+. . . +n
I
. Supposons qu’on fasse l’hypothèse H
0
:
p
1
= p
2
= . . . = p
I
= p, (5)
cela signifie que, sous cette hypothèse H
0
toutes les distributions multinomiales (2) des
vecteurs aléatoires µ
i
ont le même vecteur de probabilités p = (p
1
, . . . , p
r
)
T
qu’on a besoin
d’estimer, si nous voulons faire de l’inférence statistique . Il est évident que sous l’hypo-
thèse H
0
, on a seulement besoin d’estimer r −1 paramètres p
1
, p
2
, . . . , p
r−1
, puisque
p
1
+ p
2
+. . . + p
r
= 1.
Pour tester H
0
on peut construire le test d’homogeneité du χ
2
bien connu, basé sur la
variable aléatoire de Pearson (le paramète p est inconnu !), qui sous H
0
peut s’écrire :
X
2
=
I

i=1
r

j=1

i j
−n
i
p
j
)
2
n
i
p
j
. (6)
Tout d’abord reécrivons la fonction de vraissemblance L(p) de nos données sous H
0
. En
utilisant (3) et en posant
ν = (ν
1
, . . . , ν
r
)
T
= µ
1
+. . . +µ
I
, (7)

ν
j
=
I

i=1
µ
i j
, j = 1, 2, . . . , r and ν
1

2
+. . . +ν
r
= N, (8)
on obtient d’après (3), (5) et (8) que
L(p) =
N!
ν
1

2
! . . . ν
r
!
p
ν
1
1
p
ν
2
2
p
ν
r
r
. (9)
Pour trouver l’estimateur de maximum de vraissemblance ˆ p de p sous H
0
, on considère :
lnL(p) = ln(const) +
r

i=1
ν
i
ln p
i
, (10)
d’où nous obtenons le système

∂p
j
L(p) =
ν
j
p
j

ν
r
p
r
= 0, j = 1, 2, . . . , r −1, (11)
pour lequel la solution est ˆ p = ( ˆ p
1
, ˆ p
2
, . . . , ˆ p
r
)
T
, ˆ p
r
= 1− ˆ p
1
− ˆ p
2
−. . . − ˆ p
r−1
, où
ˆ p
j
=
ν
j
N
, j = 1, 2, . . . , r. (12)
Par suite, de (12) on obtient :
p
r
ν
j
= ν
r
p
j
, j = 1, 2, . . . , r, (13)
ce qui implique
234
p
r
r

j=1
ν
j
= ν
r
r

j=1
p
j
, (14)
d’où
ˆ p
r
=
ν
r
N
. (15)
En substituant (15) dans (13) on obtient (12).
Nous pouvons maintenant, pour tester H
0
, utiliser la statistique de Pearson :
X
2
(ˆ p) =
I

i=1
r

j=1

i j
−n
i
ˆ p
j
)
2
n
i
ˆ p
j
= N
_
I

i=1
r

j=1
µ
2
i j
n
i
ν
j
−1
_
. (16)
D’après le théorème de Cramer,
lim
n→∞
P¦X
2
(ˆ p) ≤x [ H
0
¦ = P¦χ
2
(I−1)(r−1)
≤x¦, (17)
puisque le nombre de paramètres estimés est r −1, d’où
f = I(r −1) −(r −1) = (I −1)(r −1), (18)
et f est le nombre de degrés de liberté de la distribution limite du χ
2
.
Exemple 1. Supposons que deux groupes de 300 étudiants chacun passent le même examen.
Dans le 1
er
groupe 144 étudiants obtiennent une très bonne note, 80 une bonne note, 43
une note passable, et 33 une mauvause note. Pour le second groupe, la distribution est
la suivante : 154 trés bonnes notes, 72 bonnes, 35 moyennes et 39 mauvaises. Pouvons
nous dire que les 2 groupes sont homogènes, ce qui signifie que nous avons observé les
réalisations de 2 vecteurs aléatoires ayant la même distribution discrète ?
On peut présenter les données à l’aide du tableau suivant :
i µ
i1
µ
i2
µ
i3
µ
i4
1 144 80 43 33
2 154 72 35 39
(19)
Soient µ
i
= (µ
i1
, µ
i2
, µ
i3
, µ
i4
)
T
(i = 1, 2) les 2 vecteurs aléatoires dont les réalisations sont
présentées dans le tableau et soit H
0
l’hypothèse nulle selon laquelle µ
1
and µ
2
ont la
même distribution multinomiale M
4
(300, p), où p est un vecteur inconnu de probabilités
p = (p
1
, p
2
, p
3
, p
4
)
T
, avec p
1
+ p
2
+ p
3
+ p
4
= 1. Sous l’hypothèse H
0
, l’estimateur de
maximum de vraissemblance de p est ˆ p = ( ˆ p
1
, ˆ p
2
, ˆ p
3
, ˆ p
4
)
T
, où
ˆ p
1
=
298
600
, ˆ p
2
=
152
600
, ˆ p
3
=
78
600
, ˆ p
4
=
72
600
, (20)
puisque dans l’exemple :
N = n
1
+n
2
= 300+300 = 600,
ν
1
= µ
11

21
= 298, ν
2
= µ
12

22
= 152,
ν
3
= µ
13

23
= 78, ν
4
= µ
14

24
= 72,
235
et ˆ p
i
= ν
i
/N. Pour tester H
0
on peut construire un test du χ
2
, basé sur la statistique (16).
D’après nos données nous avons :
X
2
(ˆ p) = 2
_
_
33−300
72
600
_
2
36
+
_
43−300
78
600
_
2
39
+
_
80−300
152
600
_
2
76
+
_
144−300
298
600
_
2
149
_
=
= 2
_
9
36
+
16
39
+
16
76
+
25
149
_
< 2
_
1
4
+
1
2
+
1
4
+
1
5
_
= 2.4 < χ
2
3
(0.05) = 7.815.
Puisque
X
2
(ˆ p) < χ
2
3
(0.05) = 7.815, (21)
on peut accepter H
0
, si on prend α = 0.05.
4.9 Test du χ
2
pour l’indépendance dans une table de
contingence.
Supposons que les données sont telles que chacune des n observations peut être clas-
sée dans une des K = I J, (nombre fini) de catégories possibles suivant deux attributs
A
i
, B
j
(i = 1, 2, . . . , I; j = 1, 2, . . . , J). Dans ce cas les données peuvent être présentées dans
un tableau de contingence à I lignes et J colonnes. On notera p
i j
la probabilité pour une
observation d’être classée à la i-ème ligne et j-ème colonne du tableau, ce qui signifie que
cette observation possède les attributs A
i
et B
j
. Notons ν
i j
le nombre des observations pla-
cées à la i-ème ligne et j-ème colonne. On a alors
I

i=1
J

j=1
ν
i j
= n and
I

i=1
J

j=1
p
i j
= 1. (1)
Soit p
i
la probabilité marginale que l’observation soit à la i-ème ligne et soit p
j
la proba-
bilité marginale que l’observation soit à la j-ème colonne du tableau. Il est clair que
p
i
=
J

j=1
p
i j
and p
j
=
I

i=1
p
i j
. (2)
Nous avons bien sûr :
I

i=1
p
i
=
J

j=1
p
j
= 1. (3)
236
On peut présenter le modèle avec les deux tableaux :
B
1
B
j
B
J
A
1
p
11
p
1 j
p
1J
p
1
A
i
p
i1
p
i j
p
iJ
p
i
A
I
p
I1
p
I j
p
IJ
p
I
p
1
p
j
p
J
1
Tab. 1
B
1
B
j
B
J
A
1
ν
11
ν
1 j
ν
1J
ν
1
A
i
ν
i1
ν
i j
ν
iJ
ν
i
A
I
ν
I1
ν
I j
ν
IJ
ν
I
ν
1
ν
j
ν
J
n
Tab. 2
Si on connait les véritables probabilités p
i j
, alors la statistique
X
2
=
I

i=1
J

j=1

i j
−n
i
p
i j
n
i
p
i j
)
2
(4)
a pour distribution limite lorsque minn
i
→∞une distribution du χ
2
avec f degrés de liberté,
f = K−1 = I J −1, (5)

lim
n→∞
P¦X
2
≤x [ H
0
¦ = P¦χ
IJ−1
≤x¦. (6)
Si les p
i j
sont inconnus, nous devons les estimer. Supposons que nous nous intéressons à
l’hypothèse H
0
d’après laquelle les classements dans les lignes et les colonnes sont indé-
pendants, i.e.,
P¦A
i
B
j
¦ = p
i j
= P¦A
i
¦P¦B
j
¦ = p
i
p
j
. (7)
Dans notre modèle, la fonction de vraissemblance est :
L(p) =
n!
ν
11
! ν
IJ
!
p
ν
11
11
p
ν
IJ
i j
=
n!
ν
11
! ν
IJ
!
I

i=1
J

j=1
p
ν
i j
i j
. (8)
Sous l’hypothèse H
0
nous avons
L(p) =
n!
ν
11
! ν
IJ
!
I

i=1
J

j=1
p
ν
i j
i j
=
n!
ν
11
! ν
IJ
!
_
I

i=1
J

j=1
p
ν
i j
i
__
I

i=1
J

j=1
p
ν
i j
j
_
237
=
n!
ν
11
! ν
IJ
!
_
I

i=1
p
ν
i
i
__
J

j=1
p
ν
j
j
_
, (9)

ν
i
=
J

j=1
ν
i j
and ν
j
=
I

i=1
ν
i j
, (10)
et en prenant les logarithmes, on obtient
lnL(p) = const +
I

i=1
ν
i
ln p
i
+
J

j=1
ν
j
ln p
j
.
Pour trouver le vecteur informant Λ(p) nous dérivons lnL(p) par rapport à p
i
et p
j
:
Λ(p) =

∂p
lnL(p) =
_
∂lnL(p)
∂p
1
, . . . ,
∂lnL(p)
∂p
I
,
∂lnL(p)
p
1
, . . . ,
∂lnL(p)
∂p
J
_
T
, (12)

∂lnL(p)
∂p
i
=
ν
i
p
i

ν
I
p
I
, i = 1, 2, . . . , I −1; (12)
et
∂lnL(p)
∂p
j
=
ν
j
p
j

ν
J
p
J
, j = 1, 2, . . . , J −1. (13)
En utilisant
p
I
= 1−
I−1

i=1
p
i
and p
J
= 1−
J−1

j=1
p
j
, (14)
de (12)-(13) on tire les estimateurs de maximum de vraisemblance de p
i
and p
j
:
ˆ p
i
=
ν
i
n
and ˆ p
j
=
ν
j
n
, (15)
d’où les estimateurs de maximum de vraissemblance des probabilités p
i j
sont
ˆ p
i j
= ˆ p
i
ˆ p
j
=
ν
i
n
ν
j
n
. (16)
Dans ce cas, d’après le théorème de Fisher, sous l’hypothèse H
0
la statistique de Pearson
X
2
=
I

i=1
J

j=1

i j
−n ˆ p
i
ˆ p
j
)
2
n ˆ p
i
ˆ p
j
= n
_
I

i=1
J

j=1
ν
2
i j
ν
i
ν
j
−1
_
(17)
a pour distribution limite lorsque n →∞, la distribution du χ
2
à f degrés de liberté,
f = IJ −(I −1) −(J −1) −1 = (I −1)(J −1)
et donc
lim
n→∞
P¦X
2
≤x [ H
0
¦ = P¦χ
2
(I−1)(J−1)
≤x¦. (18)
238
On peut utiliser ce résultat pour construire un test du χ
2
pour l’hypothèse H
0
au seuil de
signification α. D’après ce test on doit rejeter H
0
si
X
2
> χ
2
f
(α),
où χ
2
f
(α) est le α-quantile supérieur (0 < α < 0.5) de la distribution du χ
2
à f = (I −
1)(J −1) degrés de liberté.
Considérons le cas I = J = 2. Alors au lieu du tableau 2 nous avons le tableau connu
comme le tableau 22.
ν
11
ν
12
ν
1
ν
21
ν
22
ν
2
ν
1
ν
2
n
Tab. 3
De façon evidente, sous l’hypothèse H
0
, au lieu du tableau 1, nous aurons le tableau 4,
B
1
B
2
A
1
pP qP P
A
2
pQ qQ Q
p q
Tab. 4

P = P(A
1
), Q = P(A
2
) = 1−P, p = P(B
1
), q = P(B
2
) = 1−p.
On peut vérifer qu’après quelques manipulations, la statistique de Pearson (17) peut s’écrire
X
2
=
n(ν
11
ν
22
−ν
21
ν
12
)
2
ν
1
ν
2
ν
1
ν
2
, (19)
et d’après (18) il s’ensuit
lim
n→∞
P¦X
2
≤x [ H
0
¦ = P¦χ
2
1
≤x¦. (20)
Exemple 1. Considérons un groupe de 300 étudiants qui ont passé un examen partiel en
mathématiques. Parmi eux, 97 ont obtenu une très bonne note : A et les 203 autres une note
inférieure : B. A la fin de l’année, ces étudiants passent l’examen final de mathématiques
et cette fois-ci 48 d’entre eux obtiennent une très bonne note A et parmi eux 18 seulement
ont obtenu une très bonne note au partiel. Cela signifie que 18 étudiants ont obtenu une très
bonne note à la fois à l’examen partiel et à l’examen terminal.
En utilisant ces données nous pouvons construire un test du χ
2
au niveau de signification
α = 0.1, pour tester l’hypothesis H
0
de l’indépendance d’obtention d’une très bonne note à
chacun des 2 examens.
Tout d’abord, présentons les données dans le tableau 22 suivant :
239
exam partiel Total
A B
exam A 18 30 48
f inal B 79 173 252
Total 97 203 300
Tab. 5
exam partiel Total
A B
exam A pP qP P
f inal B pQ qQ Q
Total p q 1
Tab. 6
Les estimateurs de maximum de vraisemblance de p et P sont
ˆ p =
ν
1
n
=
97
300
et
ˆ
P =
ν
1.
n
=
48
300
.
La valeur de la statistique de Pearson X
2
donnée par (17), peut être évaluée en utilisant la
formule (19) selon laquelle
X
2
=
_
18−
4897
300
_
2
4897
300
+
_
30−
48203
300
_
2
48203
300
+
_
79−
25297
300
_
2
25297
300
+
_
173−
252203
300
_
2
252203
300
=
=
300(18 173−30 79)
2
97 203 48 252
=
100(248)
2
97 203 64 7
=
200
203

93
97

31
42
< 1.
Sous l’hypothèse H
0
la statistique X
2
de Pearson est distribuée approximativement comme
χ
2
1
, et donc on accepte H
0
, puisque la valeur observée de X
2
est inférieure à χ
2
1
(0.1) =2.706.
240
4.10 Test du Chauvenet pour la détection des observa-
tions aberrantes.
Le test de Chauvenet est une règle ancienne destinée à détecter au moins une valeur
aberrante dans une série de mesures et à l’éliminer. Cette règle est basée sur unr propriété
simple de l’espérance mathématique. Ici nous allons suivre l’idée de L.Bolshev (1961) sur
la présentation du test de Chauvenet (voir aussi Voinov et Nikulin (1996)).
Considérons n variables aléatoires indépendantes Y
1
, ...,Y
n
, n ≥3, de même loi et soit y
un nombre réel donné.
Soit
N =
n

j=1
1
[y,+∞[
(Y
j
)
La statistique N suit une loi binomiale de moyenne :
E(N) = nP(Y
1
≥y) = np,
où p = P¦Y
1
≥y¦. Pour avoir l’égalité E(N) = α, α > 0, il faut choisir y = y(α) comme la
solution de l’équation
P¦Y
1
> y¦ =
α
n
. (1)
Dans ce cas il est facile de vérifier que
β = P
_
max
1≤i≤n
Y
i
> y(α)
_
= 1−¦1−P¦Y
1
≥y(α)¦¦
n
=
1−
_
1−
α
n
_
n
= 1−e
−α
+o(1) (n →∞),
et donc si α est suffisamment petit,
P
_
max
1≤i≤n
Y
i
> y(α)
_
·α.
Notons que Chauvenet lui-même a suggéré de choisir α = 1/2n. Considérons l’hypothèse
H
0
selon laquelle
P¦Y
i
≤y¦ = F(y), ∀i ∈ [1, n],
où F est une fonction de repartition donnée, et H
1
est alternative d’après laquelle
P¦Y
i
≤y¦ = (1−ε)F(y) +εG(y), i = 1, ..., n, (0 < ε <
1
2
),
où G est une fonction de répartition telle que G(y) < F(y) pour tout y.
Dans ce cas la région critique déterminée pour la règle de Chauvenet est :
¦N ≥1¦ ⇔
_
max
1≤i≤n
Y
i
> y(α).
_
Le niveau de signification du test (pour n grand et α petit) est approximativement α. On
peut même, en utilisant l’inégalité de Bonferroni, estimer l’erreur relative entre le seuil du
test et α, et ce pour tout α et pour tout n.
241
242
Chapitre 5
REGRESSION
5.1 Régression linéaire
5.1.1 Modèle de la régression linéaire
On considère le problème de la prédiction d’une ou plusieurs caractéristiques d’une
variable aléatoire Y à l’aide de variables explicatives (covariables) x
1
, ..., x
m
. Par exemple,
on considère la prédiction de l’espérance du prix Y d’une voiture d’une certaine marque
lorsqu’on connaît l’âge x
1
, la puissance x
2
et le kilométrage x
3
de cette voiture.
Même si les valeurs de x
1
, ..., x
m
sont fixées, la variable aléatoire Y peut prendre des
valeurs différentes, parce qu’il y a souvent d’autres facteurs qui interviennent. Par exemple,
les prix de voitures qui ont le même âge, la même puissance et le même kilométrage ne sont
pas forcément les mêmes, à cause de facteurs tels que le nombre des pannes, la présence ou
l’absence de garage spécifique, le régime de travail, les conditions climatiques, le lieu de
vente, etc.
Notons
x = (x
0
, x
1
, ..., x
m
)
T
, x
0
= 1, M(x) = E(Y[x).
La fonction M(x) est appelée la fonction de régression. On suppose que M(x) est une com-
binaison linéaire des covariables x
i
:
M(x) = β
0

1
x
1
+... +β
m
x
m
= β
T
x, (1)
où β = (β
0
, ..., β
m
)
T
est un paramètre inconnu.
Pour faire l’estimation on effectue n expériences. La i-ème expérience a lieu sous la
covariable x
(i)
= (x
i0
, ..., x
im
), x
i0
= 1.
On observe des valeurs de la variable dépendante ( ou expliquée) Y
i
. Donc on a un
échantillon
(x
(1)
,Y
1
), ..., (x
(n)
,Y
n
).
Le modèle de la régression linéaire
243
Y
i
= β
0

1
x
i1
+... +β
m
x
im
+e
i
,
où e
1
, ..., e
n
sont des variables aléatoires i.i.d.,
E(e
i
) = 0, Var(e
i
) = σ
2
, i = 1, ..., n.
Donc on a
Y
i
= M(x
(i)
) +e
i
, i = 1, ..., n,
où M(x) est donné par la formule (1). Si m=1, on a le modèle de régression linéaire simple,
et si m > 1, on a le modèle de régression linéaire multiple.
Notons
X =
_
_
1 x
11
x
1m

1 x
n1
x
nm
_
_
n(m+1)
, e = (e
1
, ..., e
n
)
T
, Y = (Y
1
, ...,Y
n
)
T
.
Alors le modèle peut être écrit
Y = Xβ+e, où E(e) = 0
n
, Var(e) = σ
2
I
n
. (2)
Dans ce modèle le vecteur e est interprèté comme le vecteur des erreurs.
5.1.2 Codage des covariables
Si la j-ème variable explicative x
j
dans (1) est dicrète et mesurée sur une échelle nomi-
nale, par exemple la couleur, la race, etc., et prend k
j
valeurs différentes, on peut utiliser ,
au lieu de x
j
, le vecteur z
j
= (z
j,1
, ..., z
j,k
j
−1
) des codes, qui prend k
j
valeurs différentes :
z
(0)
j
= (0, ..., 0), z
(1)
j
= (1, 0, ..., 0), z
(2)
j
= (0, 1, 0, ..., 0), ...., z
(k
j
−1)
j
= (0, ...., 0, 1)
et le modèle (1) est modifié :
M(x) = β
0

1
x
1
+... +
k
j
−1

i=1
β
ji
z
ji
+... +β
m
x
m
. (3)
On note que
k
j
−1

i=1
β
ji
z
ji
= β
T
j
z
j
où β
T
j
= (β
j1
, ..., β
j,k
j
−1
). Si, par exemple, x
j
est la couleur qui prend 3 valeurs (noir, bleu,
blanc), on considère le vecteur z
j
= (z
j1
, z
j2
) qui prend les valeurs
z
(0)
j
= (0, 0) - (noir), z
(1)
j
= (1, 0) - (bleu), z
(2)
j
= (0, 1) - (blanc).
Si x
j
est le sexe (masculin, féminin), on considère la variable z
j
qui prend les valeurs
z
(0)
j
= 0 (masculin) et z
(1)
j
= 1 (féminin).
Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1), etc.
244
5.1.3 Interprétation des coefficients β.
Notons que lorsqu’on prend deux valeurs x
(1)
j
et x
(2)
j
de x
j
dans (1), alors
β
j
(x
(2)
j
−x
(1)
j
) = M(x
1
, ..., x
(2)
j
, ..., x
m
) −M(x
1
, ..., x
(1)
j
, ..., x
m
).
Donc
β
j
(x
(2)
j
−x
(1)
j
)
(soit β
j
, si x
(2)
j
−x
(1)
j
= 1) représente le changement de la valeur moyenne de la variable
expliquée Y quand x
j
passe de x
(1)
j
à x
(2)
j
tandis que toutes les autres covariables restent les
mêmes.
Il faut souligner que dans le modèle (1) le changement de la moyenne de Y est le même
pour n’importe quelles valeurs fixées des autres covariables x
l
(l ,= j), c’est à dire qu’ il n’y
a pas d’interaction entre les covariables.
Si x
j
est discrète et mesurée sur une échelle nominale, alors
β
ji
= M(x
1
, ..., z
(i)
j
, ..., x
m
) −M(x
1
, ..., z
(0)
j
, ..., x
m
).
Donc β
ji
représente le changement de la moyenne de la variable dépendante Y quand z
j
passe de z
(0)
j
à z
(i)
j
tandis que toutes les autres covariables gardent les mêmes valeurs. Par
exemple, si x
j
est la couleur (noire, blanche ou bleue), β
j2
représente le changement de
la moyenne de Y qui correspond au changement de x
j
de la couleur noire (z
j
= z
(0)
j
) à la
couleur blanche (z
j
= z
(2)
j
).
5.1.4 Modèle avec interactions
Si l’effet du changement de la valeur de la covariable x
j
est différent pour des valeurs
différentes des autres covariables, c’est qu’on a une interaction entre x
j
et ces covariables.
Alors le modèle (1) peut être modifié pour mettre en lumière l’effet de cette interaction. Par
exemple, dans le cas de deux covariables, on a le modèle
M(x) = β
0

1
x
1

2
x
2

3
x
1
x
2
, (4)
et dans le cas de trois covariables :
M(x) = β
0

1
x
1

2
x
2

3
x
3

4
x
1
x
2

5
x
1
x
3

6
x
2
x
3

7
x
1
x
2
x
3
. (5)
S’il y a une interaction dans le cas m = 2 par exemple, alors
M(x
(2)
1
, x
2
) −M(x
(1)
1
, x
2
) = (β
1

3
x
2
)(x
(2)
1
−x
(1)
1
),
donc la moyenne de Y dépend non seulement de la différence x
(2)
1
−x
(1)
1
mais aussi de la
valeur de la deuxième covariable x
2
.
245
Si, par exemple, Y est le prix (en Frs.), x
1
est l’âge (en années), x
2
est la puissance (
en cm
3
), d’une voiture d’une certaine marque et s’il y a une interaction entre l’âge et la
puissance, il est évident que la valeur de la voiture diminue annuellement mais cette baisse
du prix est différente pour des voitures de différentes puissances. Pour la voiture ayant la
puissance x
2
cm
3
la baisse du prix annuelle est de β
1

3
x
2
(Euros.). Voir aussi la section
Décomposition orthogonale de Fisher.
5.1.5 Estimateurs des moindres carrés
On cherche l’estimateur
ˆ
β qui minimise la somme des carrés
SS =
n

i=1
(Y
i
−β
0
−β
1
x
i1
−... −β
m
x
im
)
2
= (Y −Xβ)
T
(Y −Xβ).
En dérivant SS par rapport à β
j
on a
∂SS
∂β
j
=−2
n

i=1
x
i j
(Y
i
−β
0
−... −β
m
x
im
), ( j = 0, ..., m),
d’où on obtient le système de (m+1) équations linéaires (j=0,...,m) :
β
0
n

i=1
x
i j
x
i0

1
n

i=1
x
i j
x
i1
+... +β
m
n

i=1
x
i j
x
im
=
n

i=1
α
i j
Y
i
, (6)
ou
X
T
Xβ = X
T
Y.
Si la matrice A
(m+1)(m+1)
= X
T
X n’est pas dégénérée, alors on a
L’estimateur des moindres carrés de β :
ˆ
β = (X
T
X)
−1
X
T
Y. (7)
Si x = (1, x
1
, ..., x
m
)
T
est un vecteur de covariables donné,
M(x) = E(Y[x) = β
T
x,
alors on obtient
L’estimateur de l’espérance M(x) = E(Y[x) est :
ˆ
M(x) =
ˆ
β
T
x =
ˆ
β
0
+
ˆ
β
1
x
1
+... +
ˆ
β
m
x
m
.
Notons
ˆ
Y
i
=
ˆ
M(x
(i)
) =
ˆ
β
T
x
(i)
,
ˆ
Y = (
ˆ
Y
1
, ...,
ˆ
Y
n
)
T
, ˆ e = ( ˆ e
1
, ..., ˆ e
n
)
T
,
¯
Y =
1
n
n

i=1
Y
i
.
Les variables aléatoires
ˆ
Y
i
et Y
i
sont appelées respectivement les valeurs prédites et
observées des Y
i
,et les ˆ e
i
=Y
i

ˆ
Y
i
sont les résidus estimés @ù des erreurs apparentes . On
a
ˆ
Y = X
ˆ
β, ˆ e =Y −
ˆ
Y =Y −X
ˆ
β = e +X(β−
ˆ
β). (8)
246
5.1.6 Propriétés des estimateurs
.
Notons
B = B
(m+1)n
= (X
T
X)
−1
X
T
, H = H
nn
= I
n
−X(X
T
X)
−1
X
T
.
Alors
ˆ
β = BY, ˆ e = HY. (9)
Il faut remarquer que
HH = H, H
T
= H, BB
T
= B, BH = 0
(m+1)n
. (10)
Lemme 1. Si det(X
T
X) ,= 0, alors
a) X
T
H = 0
mn
, X
T
e = 0
m+1
,
ˆ
Y
T
e = 0, (11)
b) Y
T
Y =
ˆ
Y
T
ˆ
Y +ˆ e
T
ˆ e, ⇔|Y|
2
=|
ˆ
Y|
2
+|ˆ e|
2
, (12)
c) ∑
n
j=1
(Y
j

¯
Y)
2
= ∑
n
j=1
(
ˆ
Y
j

¯
Y)
2
+∑
n
j=1
(Y
j

ˆ
Y
j
)
2
, (13)
d) ∑
n
i=1
Y
i
= ∑
n
i=1
ˆ
Y
i
, (14)
e) e
T
e = ˆ e
T
ˆ e +(
ˆ
Y −Xβ)
T
(
ˆ
Y −Xβ). (15)
Démonstration.
a) On a
X
T
H = X
T
−X
T
X(X
T
X)
−1
X
T
= 0
nn
,
donc
X
T
ˆ e = X
T
HY = 0
m+1
,
ˆ
Y
T
ˆ e =
ˆ
β
T
X
T
ˆ e = 0.
b) D’après (11)
Y
T
Y = (
ˆ
Y +ˆ e)
T
(
ˆ
Y +ˆ e) =
ˆ
Y
T
ˆ
Y +
ˆ
Y
T
ˆ e +ˆ e
T
Y +ˆ e
T
ˆ e =
ˆ
Y
T
ˆ
Y +ˆ e
T
ˆ e.
c) L’égalité (12) peut être écrite sous la forme

Y
2
j
=

ˆ
Y
2
j
+

(Y
j

ˆ
Y
j
)
2
.
Alors
n

j=1
Y
2
j
−n
¯
Y
2
=
n

j=1
ˆ
Y
2
j
−n
¯
Y
2
+
n

j=1
(Y
j

¯
Y
j
)
2
247
et donc
n

j=1
(Y
j

¯
Y)
2
=
n

j=1
(
ˆ
Y
j

¯
Y)
2
+
n

j=1
(Y
j

ˆ
Y
j
)
2
.
d) La première ligne de X
T
est 1
n
= (1, ..., 1)
T
, donc l’égalité X
T
ˆ e = 0
m+1
, démontrée dans
a), implique
1
T
n
ˆ e =
n

i=1
ˆ e
i
= 0 et donc
n

i=1
Y
i
=
n

i=1
ˆ
Y
i
.
e) D’après (2) et (11) on a
e
T
e = (Y −Xβ)
T
(Y −Xβ) =
(Y −
ˆ
Y +
ˆ
Y −Xβ)
T
(Y −
ˆ
Y +
ˆ
Y −Xβ) =
(ˆ e +
ˆ
Y −Xβ)
T
(ˆ e +
ˆ
Y −Xβ) =
ˆ e
T
ˆ e +2ˆ e
T
(
ˆ
Y −Xβ) +(
ˆ
Y −Xβ)
T
(
ˆ
Y −Xβ) =
ˆ e
T
ˆ e +(
ˆ
Y −Xβ)
T
(
ˆ
Y −Xβ).
Le lemme est démontré.
Théorème 1. Gauss-Markov. Si det (X
T
X) ,= 0, alors
a). E(
ˆ
β) = β, Var(
ˆ
β) = σ
2
(X
T
X)
−1
,
b). E(ˆ e) = 0, Var(ˆ e) = σ
2
H,
c). Cov(
ˆ
β, ˆ e) = 0,
d). E(ˆ e
T
ˆ e) = (n−m−1)σ
2
.
Démonstration.
a) On a
E(
ˆ
β) = (X
T
X)
−1
X
T
E(Y) = (X
T
X)
−1
X
T
Xβ = β,
Var(
ˆ
β) = (X
T
X)
−1
X
T
σ
2
I
n
X(X
T
X)
−1
= σ
2
(X
T
X)
−1
.
b)
E(ˆ e) = E(Y −X
ˆ
β) = Xβ−Xβ = 0
n
.
Var(ˆ e) = Var(HY) = Hσ
2
I
n
H = σ
2
H.
c)
Cov(
ˆ
β, ˆ e) = Cov(BY, HY) = Bσ
2
I
n
H = σ
2
BH = 0
(m+1)n
.
d) Notons
A = X
T
X = (a
i j
), A
−1
= (a
i j
), (i, j = 0, ..., m).
Alors
E((
ˆ
Y −Xβ)
T
(
ˆ
Y −Xβ)) = E((
ˆ
β−β)
T
A(
ˆ
β−β)) =
m

i=0
m

j=0
a
i j
E((
ˆ
β
i
−β
i
)(
ˆ
β
j
−β
j
)) = σ
2
m

i=0
m

j=0
a
i j
a
i j
=
σ
2
Tr(AA
−1
) = σ
2
Tr(I
m+1
) = σ
2
(m+1).
248
On a
E(e
T
e) =
n

i=1
Ee
2
i
=
n

i=1
Vare
i
= nσ
2
.
L’égalité (15) implique que
E(ˆ e
T
ˆ e) = (n−m−1)σ
2
.
Le théorème 1 est démontré.
Corollaire.
ˆ
β et ˆ σ
2
=
SS
R
n−m−1
des estimateurs sans biais de β et de σ
2
respectivement, et
Cov(
ˆ
β, ˆ σ
2
) = 0;
On a déjà vu que les paramètres qu’il est le plus important d’estimer et qui sont en
même temps ceux dont l’interprétation est la plus évidente sont :
a) la moyenne M(x) de la variable expliquée Y sous n’importe quelle valeur de la cova-
riable x ;
b) chacun des paramètres β
j
, qui caractérise le changement de la moyenne de Y corres-
pondant au changement de la covariable x
j
(modèle sans interaction) ;
c) les combinaisons linéaires des paramètres β
j
, qui caractérisent le changement de la
moyenne de Y correspondant au changement d’une covariable sous des valeurs spécifiées
des autres covariables (le modèle avec interactions). Par exemple, dans le modèle (4 ) la
combinaison linéaire β
1

3
x
2
caractérise le changement de la moyenne de Y correspon-
dant au changement de la covariable x
1
sous des valeurs spécifiées de x
2
.
Donc dans tous les cas l’estimation des combinaisons linéaires du type l
T
β, où l =
(l
0
, ..., l
m
)
T
, est importante.
Un estimateur de l
T
β est appelé linéaire, s’il a la forme
c
T
Y, c = (c
1
, ..., c
n
)
T
.
L’estimateur c
T
Y de l
T
β est appelé sans biais si
E(c
T
Y) = l
T
β pour tout β ∈ R
m+1
,
i.e. pour le modèle de type (2) avec n’importe quel β ∈ R
m+1
, l’espérance de c
T
Y est égale
à la vraie valeur de l
T
β.
Notons G
l
la classe des estimateurs linéaires sans biais de l
T
β.
Théorème 2. (Gauss-Markov). Si det (X
T
X) ,= 0, alors l
T ˆ
β est l’unique estimateur de
variance minimale dans la classe G
l
.
Démonstration. Si c
T
Y ∈ G
l
, alors
l
T
β = E(c
T
Y) = E(c
T
Y −l
T
ˆ
β+l
T
ˆ
β) = (c
T
X −l
T
)β+l
T
β,
249
donc
(c
T
X −l
T
)β = 0 pour tout β ∈ R
m+1
et
c
T
X −l
T
= 0
T
m+1
. (16).
On a
Var(c
T
Y) = Var(c
T
Y −l
T
ˆ
β+l
T
ˆ
β) =
Var(c
T
Y −l
T
ˆ
β) +Var(l
T
ˆ
β) +2Cov(c
T
Y −l
T
ˆ
β, l
T
ˆ
β).
L’égalité (16) et le Lemme 1 impliquent que
Cov(c
T
Y −l
T
ˆ
β, l
T
ˆ
β) = Cov((c
T
−l
T
B)Y, l
T
BY)) =
(c
T
−l
T
B)σ
2
I
n
B
T
l =
σ
2
(c
T
X(X
T
X)
−1
−l
T
(X
T
X)
−1
X
T
X(X
T
X)
−1
)l =
σ
2
(c
T
X −l
T
)(X
T
X)
−1
l = 0,
donc
Var(c
T
Y) = Var(l
T
ˆ
β) +Var(c
T
−l
T
B)Y =
Var(l
T
ˆ
β) +σ
2
(c
T
−l
T
B)(c
T
−l
T
B)
T
.
On a Var(c
T
Y) ≥Var(l
T ˆ
β) et l’égalité est vérifiée si et seulement si c
T
= l
T
B.
Le théorème est démontré.
Corollaire. Les estimateurs
ˆ
M(x) =
ˆ
β
T
x et
ˆ
β
j
de la moyenne M(x) et du paramètre β
j
,
respectivement, sont les estimateurs de variance minimale dans la classe des estimateurs
linéaires sans biais de M(x) et β
j
.
Il s’ensuit par exemple que l’estimateur
ˆ
β
1
+
ˆ
β
3
x
2
de β
1

3
x
2
est le meilleur estimateur
dans la classe des estimateurs linéaires sans biais de β
1

3
x
2
(modèle (4)).
5.1.7 Décomposition des sommes de carrés
.
Le lemme 1 implique l’égalité

(Y
i

¯
Y)
2
=

(
ˆ
Y
i

¯
Y)
2
+

(Y
i

ˆ
Y
i
)
2
.
La somme
SS
R
=
n

i=1
(Y
i

ˆ
Y
i
)
2
caractérise la différence entre les valeurs prédites et observées et est appelée la somme des
carrés résiduelle. La somme
SS
E
=
n

i=1
(
ˆ
Y
i

¯
Y)
2
250
est appelée la somme des carrés expliquée par régression. La somme
SS
T
=
n

i=1
(Y
i

¯
Y)
2
est appelée la somme des carrés totale. D’après le lemme 1
SS
T
= SS
R
+SS
E
.
La somme SS
T
mesure la variabilié des valeurs de Y, la somme SS
E
mesure la partie de
cette variabilité expliquée par la régression. Si le modèle de régression linéaire donne une
bonne prédiction, c’est à dire si les
ˆ
Y
i
sont proches des Y
i
, la somme SS
E
est proche de
SS
T
. Donc SS
E
explique une grande part de la variabilité des valeurs Y
i
autour de
¯
Y. Si la
prédiction est mauvaise, la somme SS
E
est petite par rapport à SS
T
et SS
E
n’explique pas
beaucoup la variabilité des valeurs de Y
i
autour de
¯
Y. La somme des carrés résiduelle SS
R
est ce qui reste de la variabilité totale après la soustraction de SS
E
. D’où le nom de SS
R
.
Lemme 2.
E(SS
T
) = (n−1)σ
2
+
1
n
2
n

i=1
n

j=1

T
(x
( j)
−x
(i)
)]
2
. (17)
Démonstration. Notons M
j
= E(Y
j
) = β
T
x
( j)
. Alors
E(SS
T
) = E
n

i=1
(Y
i

¯
Y)
2
= E(
n

i=1
(Y
i
−M
i
+M
i

¯
Y)
2
) =
E(
n

i=1
(Y
i
−M
i
)
2
) −2E(
n

i=1
(Y
i
−M
i
)(
¯
Y −M
i
)) +E(
n

i=1
(
¯
Y −M
i
)
2
) =

2

2
n
E(
n

i=1
n

j=1
(Y
i
−M
i
)(Y
j
−M
i
)) +
1
n
2
n

i=1
E(
n

j=1
(Y
j
−M
i
))
2
=
(n−2)σ
2
+
1
n
2
n

i=1
n

j=1
E(Y
j
−M
i
)
2
=
(n−2)σ
2
+
1
n
2
n

i=1
n

j=1
E
_
(Y
j
−M
j
+M
j
−M
i
)
¸
2
=
(n−2)σ
2
+
1
n
2
n

i=1
n

j=1
E
_
σ
2
+(M
j
−M
i
)
2
¸
=
(n−2)σ
2

2
+
1
n
2
n

i=1
n

j=1
(M
j
−M
i
)
2
=
(n−1)σ
2
+
1
n
2
n

i=1
n

j=1
_
β
T
(x
( j)
−x
(i)
)
_
2
.
Le lemme 2 est démontré.
D’après le théorème 1 et le lemme 2 on a
E(SS
R
) = (n−m−1)σ
2
,
251
E(SS
T
) = (n−1)σ
2
+
1
n
2
n

i=1
n

j=1
_
β
T
(x
( j)
−x
(i)
)
_
2
, (18)
E(SS
E
) = E(SS
T
) −E(SS
R
).
Corollaire.
E(SS
R
) = E(SS
T
) et E(SS
E
) = 0,
si l’hypothèse H
0
: β
1
=... =β
m
=0 est vérifiée, c’est-à-dire sous le modèle sans régression
Y
i
= β
0
+e
i
, i = 1, ..., n.
E(SS
E
) = E(SS
T
) et E(SS
R
) = 0,
si σ
2
= 0, c’est-à-dire le modèle de régression linéaire prédit sans erreur les valeurs de Y.
5.1.8 Le coefficient de détermination.
La variable aléatoire
R
2
= 1−
SS
R
SS
T
=
SS
E
SS
T
(19)
est appelée le coefficient de détermination.
R
2
prend ses valeurs dans le segment [0, 1]. Il représente la proportion de la variabilité
des Y
i
expliquée par la régression.
Si la prédiction est idéale, i.e.
ˆ
Y
i
=Y
i
, alors SS
R
= 0 et R
2
= 1. S’il n’y a pas de régres-
sion, i.e. pour tous les x
(i)
la prédiction de la moyenne M(x
(i)
) est la même :
ˆ
Y
i
=
¯
Y, alors
SS
R
= SS
T
et R
2
= 0. Donc R
2
caractérise la qualité de la prédiction.
La variable aléatoire
R
Y(12...m)
=

R
2
est appelée le coefficient de corrélation empirique multiple.
Proposition. Le coefficient de corrélation empirique multiple est égal au coefficient de
corrélation empirique simple entre les valeurs observées Y
i
et les valeurs prédites
ˆ
Y
i
:
R
Y(12...m)
= r
Y
ˆ
Y
=

n
i=1
(
ˆ
Y
i

¯
ˆ
Y)(Y
i

¯
Y)
_

n
i=1
(
ˆ
Y
i

¯
ˆ
Y)
2

n
i=1
(Y
i

¯
Y)
2
,

¯
ˆ
Y =
1
n

n
i=1
ˆ
Y
i
.
Démonstration. D’après le lemme 1 on a :
ˆ
Y
T
e = 0,
¯
ˆ
Y =
¯
Y donc
n

i=1
(
ˆ
Y
i

¯
ˆ
Y)e
i
=
n

i=1
ˆ
Y
i
e
i
=
ˆ
Y
T
e = 0,
n

i=1
(
ˆ
Y
i

¯
ˆ
Y)(Y
i

¯
Y) =
n

i=1
(Y
i

¯
ˆ
¯
Y)(e
i
+
ˆ
Y
i

¯
ˆ
Y) =
n

i=1
(
ˆ
Y
i

¯
ˆ
Y)
2
et
r
Y
ˆ
Y
=
¸

n
i=1
(
ˆ
Y
i

¯
ˆ
Y)
2

n
i=1
(Y
i

¯
Y)
2
=
¸

n
i=1
(
ˆ
Y
i

¯
Y)
2

n
i=1
(Y
i

¯
Y)
2
= R
Y(12...m)
.
La proposition est démontrée.
252
5.1.9 Régression linéaire simple
Dans le cas d’une seule variable explicative (m = 1) , on a le modèle de régression
linéaire simple :
Y
i
= β
0

1
x
i
+e
i
, (20)
où e
1
, ..., e
n
sont les variables aléatoires i.i.d., E(e
i
) = 0, Var(e
i
) = σ
2
.
On a un échantillon
(x
1
,Y
1
) (x
n
,Y
n
). (21)
La réalisation de l’échantillon consiste en n paires de nombres réels qui peuvent être re-
présentés dans le plan comme “un nuage”de points. Ces points sont dispersés autour de la
droite de régression
y = β
0

1
x (22)
puisque E(Y
i
) = β
0

1
x. Si la variance σ
2
est petite, la plupart des points (x
i
,Y
i
) sont
proches de cette droite. La droite (22) est inconnue parce que les paramètres β
0
et β
1
sont
inconnus. La droite
y =
ˆ
β
0
+
ˆ
β
1
x (23)
est la droite de régression estimée. Si on dispose de la réalisation de l’échantillon (21), la
droite (23) peut être dessinée. Les points (x
i
,Y
i
) sont dispersés autour de cette droite.
Dans le cas de la régression linéaire simple, le système d’équations (6) devient
β
0
n+β
1
n

i=1
x
i
=
n

i=1
Y
i
,
β
0
n

i=1
x
i

1
n

i=1
x
2
i
=

x
i
Y
i
,
donc
ˆ
β
1
=

n
i=1
(x
i
− ¯ x)(Y
i

¯
Y)

n
i=1
(x
i
− ¯ x)
2
,
ˆ
β
0
=
¯
Y −
ˆ
β
1
¯ x.
Si on note
r
xY
=

n
i=1
(x
i
− ¯ x)(Y
i

¯
Y)
_

n
i=1
(x
i
− ¯ x)
2

n
i=1
(Y
i

¯
Y)
2
le coefficient empirique de corrélation de x et Y et
s
2
x
=
1
n
n

i=1
(x
i
− ¯ x)
2
, s
2
Y
=
1
n
n

i=1
(Y
i

¯
Y)
2
les variances empiriques de x et Y, alors
ˆ
β
1
= r
xY
s
Y
s
x
,
ˆ
β
0
=
¯
Y −
ˆ
β
1
¯ x.
Les matrices X
T
et X
T
X sont
X
T
=
_
1 1
x
1
x
n
_
, X
T
X =
_
n ∑
n
i=1
x
i

n
i=1
x
i ∑
n
i=1
x
2
i
_
.
D’après le théorème 1 ,
253
E(
ˆ
β) = β,
Var(
ˆ
β) =
_
Var(
ˆ
β
0
) Cov(
ˆ
β
0
,
ˆ
β
1
)
Cov(
ˆ
β
0
,
ˆ
β
1
) Var(
ˆ
β
1
)
_
=
σ
2
(X
T
X)
−1
=
σ
2
n∑
n
i=1
(x
i
− ¯ x)
2
_

n
i=1
x
2
i
−∑
n
i=1
x
i
−∑
n
i=1
x
i
n
_
,
l’estimateur sans biais de σ
2
est
ˆ σ
2
=
SS
R
n−2
=

n
i=1
(Y
i

ˆ
Y
i
)
2
n−2
et
Cov(
ˆ
β, ˆ σ
2
) = 0.
D’après le théorème de Gauss-Markov les estimateurs
ˆ
M(x) =
ˆ
β
0
+
ˆ
β
1
x,
ˆ
β
0
et
ˆ
β
1
sont de variance minimale dans la classes des estimateurs linéaires sans biais de M(x) =
E(Y[x), β
0
et β
1
respectivement,
E(
ˆ
M(x)) = M(x), Var(
ˆ
M(x)) = Var(
ˆ
β
0
) +2xCov(
ˆ
β
0
,
ˆ
β
1
) +x
2
Var(
ˆ
β
1
).
Si x passe de x
(1)
à x
(2)
, alors le changement de la moyenne de Y est estimé par
ˆ
β
1
(x
(2)

x
(1)
).
Notons que dans le cas de la régression linéaire simple
ˆ
Y
i
=
ˆ
β
0
+
ˆ
β
1
x
i
,
¯
ˆ
Y =
¯
Y =
ˆ
β
0
+
ˆ
β
1
¯ x
et donc
R
2
=
[∑
n
i=1
(
ˆ
Y
i

¯
ˆ
Y)(Y
i

¯
Y)]
2

n
i=1
(
ˆ
Y
i

¯
ˆ
Y)
2

n
i=1
(Y
i

¯
Y)
2
=
[∑
n
i=1
(x
i
− ¯ x)(Y
i

¯
Y)]
2

n
i=1
(x
i
− ¯ x)
2

n
i=1
(Y
i

¯
Y)
2
= r
2
xY
.
Le coefficient de détermination est égal au carré du coefficient de corrélation empirique
des x
i
et des Y
i
: R
2
= r
2
xY
. Le coefficient de corrélation empirique multiple est égal à la
valeur absolue du coefficient de corrélation empirique simple : R
Y(1)
=[r
xY
[.
5.1.10 Régression normale
On a jusqu’à présent supposé seulement l’existence des deux premiers moments de Y
i
dans le modèle (2). Si l’on veut obtenir des intervalles de confiance pour l’espérance m(x),
pour les paramètres β
i
, pour des combinaisons linéaires l
T
β,ou si l’on veut vérifier des
hypothèses sur les valeurs des paramètres inconnus, ou construire des tests d’ajustement,
on doit faire des hypothèses supplémentaire, par exemple supposer que la répartition des Y
i
appartient à une certaine classe de répartitions, la plus usuelle étant celle des lois normales.
254
On suppose par la suite dans ce chapitre que la loi des Y
i
est normale, donc
Y = Xβ+e, e ∼N(0, σ
2
I
n
). (24)
Certains cas où la loi de Y est différente de la loi normale sont considérés dans le chapitre
sur la “régression log-linéaire”.
5.1.11 Estimateurs du maximum de vraisemblance
La fonction de vraisemblance sous le modèle (24) a la forme
L(β, σ
2
) =
1
(2πσ
2
)
n/2
exp¦−
1

2
n

i=1
(Y
i
−β
T
X
(i)
)
2
¦.
Pour n’importe quel σ
2
> 0 la maximisation de L est équivalente à la minimization de
SS =
n

i=1
(Y
i
−β
T
x
(i)
)
2
.
Donc les estimateurs du maximum de vraisemblance de β coincident avec l’estimateur des
moindres carrés
ˆ
β. Notons que
lnL(
ˆ
β, σ
2
) =−
SS
R

2

n
2
(ln(2π) +ln(σ
2
)),

∂(σ
2
)
lnL(
ˆ
β, σ
2
) =
SS
R

4

n

2
et donc l’estimateur du maximum de vraisemblance pour σ
2
est :
˜ σ
2
=
1
n
SS
R
.
Cet estimateur est biaisé :
E( ˜ σ
2
) =
n−m−1
n
σ
2
est asymptotiquement (n →∞) équivalent à l’estimateur
ˆ σ
2
= SS
R
/(n−m−1),
considéré dans le corollaire du théorème 1.
5.1.12 Lois des estimateurs
ˆ
β et ˆ σ
2
.
Considérons le théorème essentiel de la régression normale.
Théorème 2. Si det(X
T
X) ,= 0, alors
1. Les variables aléatoires
ˆ
β et SS
R
sont indépendantes ;
255
2. Les variables aléatoires SS
R
et SS−SS
R
sont indépendantes ;
3.
ˆ
β ∼N(β, σ
2
(X
T
X)
−1
),
SS
R
σ
2
∼χ
2
n−m−1
,
SS−SS
R
σ
2
∼χ
2
m
.
Démonstration. D’après (11) on a X
T
H = 0 et
SS
R
= ˆ e
T
ˆ e =Y
T
H
T
HY =Y
T
HY = (Y
T
−β
T
X
T
)HY =
(Y
T
−β
T
X
T
)H(Y −Xβ) = e
T
He.
On a Y = Xβ+e, donc
ˆ
β−β = (X
T
X)
−1
XY −β = β+(X
T
X)
−1
Xe −β =
(X
T
X)
−1
Xe = Be,
SS
R

2
= ˜ e
T
H˜ e, (
ˆ
β−β)/σ = B˜ e,
où ˜ e = e/σ ∼ N(0, I
n
). D’après (10) BH = 0. Donc le lemme 1 (annexe) implique que les
variables aléatoires SS
R
et
ˆ
β−β sont indépendantes. D’après l’égalité (15) la différence
SS−SS
R
= e
T
e −ˆ e
T
ˆ e = (
ˆ
Y −Xβ)
T
(
ˆ
Y −Xβ) = (
ˆ
β−β)
T
X
T
X(
ˆ
β−β)
est une fonction de
ˆ
β. Donc les variables aléatoires SS
R
et SS −SS
R
sont aussi indépen-
dantes.
Le vecteur
ˆ
β est une fonction linéaire du vecteur normal Y. Donc
ˆ
β ∼N(β, σ
2
(X
T
X)
−1
).
Le vecteur (
ˆ
β−β)/σ ∼N(0, (X
T
X)
−1
). De plus, rang(X
T
X) =m donc d’après le théo-
rème 1 (annexe)
SS−SS
R
σ
2
=
1
σ
2
(
ˆ
β−β)
T
X
T
X(
ˆ
β−β)
suit la loi χ
2
m
.
On a obtenu
SS
R
= ˜ e
T
H˜ e, ˜ e ∼N(0, I
n
).
La matrice H est idempotente et
Tr(H) = TrI
n
−Tr(X
T
(X
T
X)
−1
X)
= n−Tr(XX
T
(X
T
X)
−1
) = n−TrI
m+1
= n−m−1.
D’après le lemme 2 (annexe), SS
R
∼χ
2
n−m−1
. Le théorème est démontré.
256
5.1.13 Test de l’hypothèse H
0
: β
k+1
= ... = β
m
= 0
Supposons qu’on ait le modèle de régression multiple
Y
i
= β
0

1
x
1i
+... +β
m
x
1m
+e
i
(i = 1, ..., n),
ou
Y = Xβ+e, (25)

X =
_
_
1 x
11
x
1m

1 x
n1
x
nm
_
_
, β = (β
1
, ..., β
m
)
T
, e = (e
1
, ..., e
n
)
T
.
Considérons le problème de la vérification de l’hypothèse
H
k
: β
k+1
= ... = β
m
= 0,
où k est un nombre fixé, k = 0, ..., m−1. Sous H
k
les covariables x
k+1
, ..., x
m
n’améliorent
pas la prédiction de la variable expliquée. Donc si H
k
est vérifiée, on peut exclure ces
covariables du modèle. Dans le cas k = 0 on a l’hypothèse
H
0
: β
1
= ... = β
m
= 0.
On n’a pas de régression. La connaissance des valeurs des covariables ne dit rien sur les
valeurs de Y.
Considérons le modèle réduit
Y
i
= β
0

1
x
i1
+... +β
k
x
1k
+e
i
(i = 1, ..., n)
ou
Y = X
(k)
β
(k)
+e, (26)

X
(k)
=
_
_
1 x
11
x
1k

1 x
n1
x
nk
_
_
, β
(k)
= (β
1
, ..., β
k
)
T
.
Notons
SS
(k)
R
= ˆ e
(k)T
ˆ e
(k)
= (Y −X
(k)
ˆ
β
(k)
)
T
(Y −X
(k)
ˆ
β
(k)
),
SS
(n)
R
= ˆ e
T
ˆ e = (Y −X
ˆ
β)
T
(Y −X
ˆ
β)
les sommes résiduelles des carrés pour le modèle (25) et (26).
Théorème 1. Si l’hypothèse H
k
est vérifiée, det (X
T
X) ,= 0, m+2 ≤n, alors
1. SS
(m)
R
et SS
(k)
R
−SS
(m)
R
sont indépendantes.
2. SS
(m)
R
∼σ
2
χ
2
(n−m−1), SS
(k)
R
−SS
(m)
R
∼σ
2
χ
2
(m−k).
257
Démonstration. Notons que
SS
(m)
R
= e
T
He, SS
(k)
R
= e
T
H
(1)
e,

H = I
n
−X(X
T
X)
−1
X
T
, H
(1)
= I
n
−X
(1)
(X
(1)T
X
(1)
)
−1
X
(1)T
.
Notons X
0
, ..., X
m
les colonnes de la matrice X. Considérons la suite des vecteurs orthonor-
maux d’ordre n
V
0
= Xl
0
, ...,V
m
= Xl
m
qui sont des combinaisons linéaires des X
0
, ..., X
m
et sont obtenus par la méthode d’ortho-
gonalisation de Gram-Schmidt ; ici
l
0
= (l
00
, 0, ..., 0)
T
, l
1
= (l
10
, l
11
, 0, ..., 0)
T
, ..., l
k
= (l
k0
, ..., l
kk
, 0, ..., 0)
T
,
l
m
= (l
m0
, ..., l
mm
)
T
, l
i j
∈ R.
On a
V
T
i
V
i
= 1, V
T
i
V
j
= 0 (i ,= j).
Notons V
m+1
, ...,V
n−1
les vecteurs orthonormaux d’ordre n qui sont orthogonaux à
V
0
, ...,V
m
.
Chaque vecteur V
i
(i = 0, ..., m) est un vecteur propre de la matrice H correspondant à
la valeur propre 0 : pour i = 0, ..., m on a
HV
i
=V
i
−X(X
T
X)
−1
X
T
V
i
=
V
i
−X(X
T
X)
−1
X
T
Xl
i
=V
i
−Xl
i
= 0.
Le vecteur V
i
(i = m+1, ..., n −1) est un vecteur propre de H correspondant à la valeur
propre 1 : pour i = m+1, ..., n−1 le vecteur V
i
est orthogonal aux colonnes de la matrice
X, donc X
T
V
i
= 0 et
HV
i
=V
i
−X(X
T
X)
−1
X
T
V
i
=V
i
.
La décomposition spectrale de H est
H =
n−1

i=m+1
V
i
V
T
i
,
donc
SS
(m)
R
= e
T
He =
n−1

i=m+1
e
T
V
i
V
T
i
e =
n−1

i=m+1
z
2
i
,
où z
i
=V
T
i
e. Il faut remarquer que
Ez
i
= 0, Varz
i
= σ
2
V
T
i
V
i
= σ
2
,
Cov(z
i
, z
j
) = Ee
T
V
T
i
V
j
e = 0 (i ,= j).
Les variables aléatoires z
m+1
, ..., z
n−1
sont indépendantes et z
i
∼N(0, σ
2
), (i =m+1, ..., n−
1). Donc SS
(m)
R

2
∼χ
2
(n−m+1).
258
Notons que pour i = 0, ..., k on a V
i
= Xl
i
= X
(k)
l

i
, où l

i
= (l
i0
, ..., l
ii
, 0, ..., 0) est le
vecteur d’ordre k +1, et donc
H
(k)
V
i
= H
(k)
Xl
i
= H
(k)
X
(k)
l

i
= 0.
Pour i = k +1, ..., n−1 on a X
(k)T
V
i
= 0, donc
H
(k)
V
i
=V
i
−X
(k)
(X
(k)T
X
(k)
)
−1
X
(k)T
V
i
=V
i
.
Par conséquent, V
0
, ...,V
k
,V
k+1
, ...,V
n−1
sont des vecteurs propres de H
(k)
de valeurs propres
respectives 0, ..., 0, 1, ..., 1 .
La décomposition spectrale de H
(k)
est
H
(k)
=
n−1

i=k+1
V
i
V
T
i
,
donc
SS
(k)
R
=
n−1

i=k+1
e
T
V
i
V
T
i
e
i
∼σ
2
χ
2
(n−k −1),
SS
(k)
R
−SS
R
=
m

i=k+1
e
T
V
i
V
T
i
e
i
∼σ
2
χ
2
(m−k)
et les vecteurs SS
R
et SS
(k)
R
−SS
R
sont indépendants.
Corollaire. Sous les hypothèses du théorème, la variable aléatoire
F =
(SS
(k)
R
−SS
(m)
R
)/(m−k)
SS
(m)
R
/(n−m−1)
suit la loi de Fisher à m−k et n−k −1 degrés de liberté.
Les sommes SS
(m)
R
et SS
(k)
R
caractérisent les différences entre les valeurs observées et les
valeurs prédites. Sous l’hypothèse H
k
la différence
SS
(k)
R
−SS
(m)
R
ne doit pas être grande. Si H
k
n’est pas vérifiée, alors les covariables x
k+1
, ..., x
m
améliorent
la prédiction et la différence SS
(k)
R
−SS
(m)
R
doit être plus grande. Donc on rejette H si
F > F
1−α
(m−k, n−k −1),
où F
1−α
est le (1−α) quantile de la loi de Fisher.
L’hypothèse la plus intéressante de point de vue pratique est
H
m−1
: β
m
= 0.
Elle signifie que le modèle avec m−1 covariantes x
1
, ..., x
m−1
donne la même prédiction
que le modèle avec m covariates x
1
, ..., x
m
, i.e. la covariante x
m
peut être exclue du modèle.
La statistique de test pour cette hypothèse est
F =
SS
(m−1)
R
−SS
(m)
R
SS
(m)
R
/(n−m−1)
.
259
L’hypothèse est rejettée avec le niveau de signification α, si
F > F
1−α
(1, n−m).
Notons que dans le cas de l’hypothèse H
0
on a
SS
(0)
R
=
n

i=1
(Y
i

¯
Y)
2
= SS
T
, SS
(0)
R
−SS
(m)
R
= SS
(m)
E
,
où SS
T
et SS
(m)
E
sont la somme des carrés totalle et la somme des carrés expliquée par la
régression , respectivement, dans le modèle (25). La statistique de test pour H
0
est
F =
SS
E
/m
SS
R
/(n−m−1)
∼F
m,n−m−1
.
Donc l’hypothèse H
0
sur l’absence de la régression est rejettée avec le niveau de significa-
tion α, si
F > F
1−α
(m, n−m−1).
Dans le cas du modèle linéaire simple cette hypothèse est équivalente à l’hypothèse
H
0
: β
1
= 0
et la statistique de test
F =
SS
E
SS
R
/(n−2)
∼F
1,n−2
.
L’hypothèse est rejettée avec le niveau de signification α, si
F > F
1−α
(1, n−2).
En utilisant la relation entre la loi de Fisher de 1 et (n −2) degrés de liberté et la loi de
Student de (n−2) degrés de liberté, la région critique peut être écrite en forme équivalente :
t >t
1−α
(n−2),
où t =

F et t
1−α
(n −2) est la (1 −α) quantile de la loi de Student de (n −2) degrés de
liberté.
5.1.14 Les coefficients empiriques de la correlation partielles
Considérons la statistique
R
2
Y(X
k+1
...X
m
)(1...k)
=
SS
(k)
R
−SS
(m)
R
SS
(k)
R
=
SS
(m)
E
−SS
(k)
E
SS
T
−SS
(k)
E
.
La somme des carrés SS
(m)
E
et SS
(k)
E
mesurent les parties de variabilité des valeurs Y
i
expli-
quées par la régression dans les modèles (25) et (26), respectivement, donc la statistique
SS
(m)
E
−SS
(k)
E
260
mesure la partie de variabilité des valeurs de Y
i
, expliqué par l’inclusion des covariables
x
k+1
, ..., x
m
complémentaires à x
1
, ..., x
k
.
La statistique
SS
(k)
R
= SS
T
−SS
(k)
E
mesure la variabilité résiduelle des Y
i
, i.e. la variabilité qui n’est pas expliquée par le modèle
(26). Donc R
2
est la proportion de la variabilité résiduelle du modèle (26) expliquée par
introduction des nouvelles covariables x
k+1
, ..., x
m
.
Notons que
SS
(m)
R
= SS
T
(1−R
2
Y(1...m)
), SS
(k)
R
= SS
T
(1−R
2
Y(1...k)
),
donc
R
2
Y(X
k+1
...X
m
)(1...k)
=
R
2
Y(1...m)
−R
2
Y(1...k)
1−R
2
Y(1...k)
.
La statistique
R
Y(X
k+1
...X
m
)(1...k)
=
_
R
2
Y(X
k+1
...X
m
)(1...k)
est appelée le coefficient empirique de correlation partiel de Y et X
k+1
, ..., X
m
. Il mesure la
correlation entre Y et (X
k+1
...X
m
) après l’élimination de leur dépendance de X
1
...X
k
.
R
2
YX
m
(1...k)
est la proportion de la variabilité résiduelle du modèle avec (m−1) cova-
riables x
1
, ..., x
m−1
expliquée par introduction de la m-ème covariable x
m
. On a
R
2
YX
m
(1...m−1)
=
R
2
Y(1...m)
−R
2
Y(1...m−1)
1−R
2
Y(1...m−1)
. (27)
La statistique
R
YX
m
(1...m−1)
=
_
R
2
YX
m
(1...m−1)
est appelée le coefficient empirique de correlation partielle de Y et X
m
. Il mesure la cor-
relation entre Y et X
m
après l’élimination de leur dépendance de X
1
...X
m−1
. L’égalité (27)
implique
1−R
2
Y(1...m)
=
_
1−R
2
YX
m
(1...m−1)
__
1−R
2
Y(1...m−1)
_
.
5.1.15 Intervalles de confiance pour les coefficients β et leur combi-
naisons linéaires
Considérons le modèle de régression multiple (25). Le théorème 1 implique que dans le
cas normale
ˆ
β ∼N
m+1
(β, σ
2
(X
T
X)
−1
), SS
R

2
∼χ
2
(n−m−1)
et les variables aléatoires
ˆ
β et SS
R
sont indépendantes. Notons s
ii
les éléments diagonaux
de la matrice (X
T
X)
−1
= (s
i j
). Alors
ˆ
β
i
−β
i
σs
ii
∼N(0, 1),
SS
R
σ
2
∼χ
2
(n−m−1)
261
et donc
t =
ˆ
β
i
−β
i
_
ˆ
Var(
ˆ
β
i
)
∼St(n−m−1),

ˆ
Var(
ˆ
β
i
) = s
ii
ˆ σ
2
= s
ii
MS
R
.
Le γ = 1−α intervalle de confiance pour β
i
est
ˆ
β
i
±s
ii
_
MS
R
t
1−α/2
(n−m−1),
où t
1−α/2
(n −m−1) est le (1 −α/2) quantile de la loi de Student de n −m−1 degrés de
liberté.
Si on considère le modèle avec interactions, alors certaines combinaisons linéaires des
paramètres β
0
, ..., β
m
ont le sens pratique. Le paramètre
c =
m

i=0
l
i
β
i
= l
T
β
est estimé par la statistique ˆ c = e
T ˆ
β, donc
Var( ˆ c) = l
T
Var(
ˆ
β)l = σ
2
l
T
(X
T
X)
−1
l
et
t =
ˆ c −c
_
l
T
(X
T
X)
−1
lMS
R
∼St(n−m−1).
Le (1−α) intervalle de confiance pour c est
ˆ c ±
_
l
T
(X
T
X)
−1
lMS
R
t
1−α/2
(n−m−1).(28)
5.1.16 Intervalles de confiance pour les valeurs de la fonction de ré-
gression m(x)
Fixons la valeur x
0
du vecteur des covariables. Considérons la valeur
m(x
0
) = E(Y [ x
0
) = β
0

1
x
01
+... +β
m
x
m
= x
T
0
ˆ
β
de la fonction de régression.
La formule (28) implique que (1−α) intervalle de confiance pour m(x
0
) est
x
T
0
ˆ
β±
_
x
T
0
(X
T
X)
−1
x
0
MS
R
t
1−α/2
(n−m−1).
262
5.1.17 Prédiction de la nouvelle observation
Supposons que x
0
= (1, x
01
, ..., x
0m
)
T
est un vecteur des covariables fixé et Y
n+1
(x
0
) est
la (n+1) observation de la variable dépendante.
Intervalle aléatoire (U
1
,U
2
) tel que
P¦U
1
<Y
n+1
(x
0
) <U
2
¦ = 1−α
est appelé la (1−α) intervalle de prédiction pour Y
n+1
(x
0
).
Les variables aléatoires Y
n+1
(x
0
) et x
T
0
ˆ
β sont indépendantes et
Y
n+1
(x
0
) ∼N(x
T
0
β, σ
2
), x
T
0
ˆ
β ∼N(x
T
0
β, σ
2
x
T
0
(X
T
X)
−1
x
0
),
donc
Y
n+1
(x
0
) −x
T
0
ˆ
β ∼N(0, σ
2
(1+x
T
0
(X
T
X)
−1
x
T
0
).
La statistique
t =
Y
n+1
(x
0
) −x
T
0
ˆ
β
_
MS
R
(1+x
T
0
(X
T
X)
−1
x
0
)
∼St(n−m−1),
donc le (1−α) intervalle de prédiction pour Y
n+1
(x
0
) est
x
T
0
ˆ
β±
_
MS
R
(1+x
T
0
(X
T
X)
−1
x
0
)F
1−α/2
(n−m−1).
Il est plus large que l’intervalle de confiance pour la moyenne m(x
0
) = x
T
0
β.
Prédiction de la nouvelle observation Y
n+1
(x
0
) est plus incertaine que la prédiction de
la moyenne de Y(x
0
).
Le chapitre n’est pas achevé. Les problèmes de diagnostique, step by step régression,
liaison avec ANOVA, etc, sont à ajouter.
5.1.18 Analyse des résidus
Avant de faire inférences il est necessaire de vérifier si le modèle est bien ajusté aux
données réeles. Les suppositions principales du modèle de régression linéaire sont :
a). l’égalité des variances des variables aléatoires e
i
=Y
i
−β
T
x ;
b). l’indépendance des e
i
;
c). la linéarité de la fonction de régression M(x) = E(Y(x)) ;
d). la normalité des variables aléatoires e
i
(si l’on construit les intervalles de confiance
ou vérifie des hypothèses).
Considérons des méthodes non formels de vérification des suppositions du modèle.
Dans le cas du modèle de régression linéaire simple des nuages des points (x
i
,Y
i
)
peuvent être considérés. Si ces points sont dispersés autour d’une certaine courbe, qui n’est
pas une droite, on peut supposer que le modèle n’est pas bien choisi.
Dans le cas m > 1 des résidus ˆ e
i
peuvent être considérés. Notons que
ˆ e = HY, E(ˆ e) = 0, Var(ˆ e) = σ
2
H,
263

H = I
n
−X(X
T
X)
−1
X
T
= (h
i j
),
et donc
Var
_
ˆ e
i
σ

h
ii
_
= 1.
La variance est estimée par
ˆ σ
2
= MS
R
=

n
i=1
(Y
i

ˆ
Y
i
)
2
(n−m+1)
.
Notons
˜ e
i
=
ˆ e
i

MS
R
h
ii
.
On a E( ˜ e
i
) ≈ 0, Var( ˜ e
i
) ≈ 1. Les variables aléatoires ˜ e
i
sont appelées les résidus stan-
dardisés.
Si on considère le plan avec l’axe des abscisses Y et l’axe des ordonnées e, les points
(
ˆ
Y
i
, ˆ e
i
), (i = 1, ..., n), sont dispersés autour de la droite horizontale avec l’axe de symmetrie
e =0. Si les variances des e
i
ne sont pas égales, on dit qu’on a heterodescasité. Si le modèle
pour M(x) est bien choisi mais il y a heterodescasité, alors les points (
ˆ
Y
i
, ˆ e
i
), sont dispersés
aussi autour de la droite e = 0, mais la largeur de la bande n’est pas constante. Par exemple,
si la variance augmente avec augmentation de
ˆ
Y
i
, alors la bande s’élargisse.
Si les points (
ˆ
Y
i
, ˆ e
i
) sont dispersés autour d’une autre courbe différente de e = 0, le
modèle pour M(x) n’est pas bien choisi.
Au lieu des points (
ˆ
Y
i
, ˆ e
i
) on peut considérer les points (x
i j
, ˆ e
i
), (i = 1, ..., n) pour j fixé.
Si le modèle est bien choisi, ces points doivent être dans la bande horizontale avec l’axe
de symmetrie e = 0. Sinon on peut supposer que la j-ème covariable n’influence pas M(x)
linéairement ou il faut inclure plus de covariables dans le modèle.
Par exemple, si le vrai modèle est
Y
i
= β
0

1
x
i

2
x
2
i
+e
i
mais on a choisi le modèle
Y
/
i
= β
/
0

/
1
x
i
+e
/
i
,
alors
ˆ e
i
=Y
i

ˆ
Y
/
i
= β
0

ˆ
β
/
0
+(β
1

ˆ
β
/
1
)x
i

2
x
2
i
+e
i
et donc les points (x
i
, ˆ e
i
) seront dispersés autour d’une parabole.
Si le vrai modèle est
Y
i
= β
0

1
x
i1

2
x
i2
+e
i
mais on a choisi
Y
/
i
= β
/
0

/
1
x
i1
+e
/
i
,
alors
ˆ e
i
= β
0

ˆ
β
/
0
+(β
1

ˆ
β
/
1
)x
i1

2
x
i2
+e
i
et les points (x
i1
, ˆ e
i
), (i = 1, ..., n) (ainsi que les points (x
i2
, ˆ e
i
), (i = 1, ..., n) ) ne seront pas
dispersés autour de la ligne horizontale e = 0.
Si les plots des résidus indiquent que le modèle est mal choisi, il suffit souvent de faire
des transformations simples des x
i
et Y
i
pour obtenir le bon modèle.
264
Par exemple, si Y
i
∼LN(β
0

1
lnx
i
, σ
2
), alors lnY
i

0

1
lnx
i
+e
i
, où e
i
∼N(0, σ
2
).
Si on fait des transformations Y
/
i
= lnY
i
, x
/
i
= lnx
i
, alors on a le modèle linéaire simple
Y
/
i
= β
0

1
x
/
i
+e
i
. Notons que dans ce cas les variances
Var(Y
i
) = x

1
i
e
σ
2
+2β
0
(e
σ
2
−1)
ne sont pas constants, mais les variances Var(lnY
i
) = σ
2
sont constantes.
Considérons plusieurs exemples des transformations pour les modèles de régression à
une covariable. Notons y = M(x). On a
1. si y = αx
β
, alors y
/
= lny, x
/
= lnx et y
/
= lnα+βx
/
;
2. si y = αe
βx
, alors y
/
= lny et y
/
= lnα+βx ;
3. si y =
x
αx−β
, alors y
/
= 1/y, x
/
= 1/x et y
/
= α−βx
/
;
4. si y = α+βlnx, alors x
/
= lnx et y = α+βx
/
;
5. si y = e
α+βx
/(1+e
α+βx
), alors y
/
= ln
y
1−y
et y
/
= α+βx.
Si Y compte le nombre de certains événements, la transformation Y
/
=

Y stabilise
souvent la variance.
Considérons les méthodes non formels de vérification de la normalité des résidus. Si
e
i
∼ N(0, σ
2
), alors ˆ e = HY ∼ N(0, σ
2
H) et ˜ e
i
∼ N(0, 1). Souvent les correlations entre ˜ e
i
sont petites et on considère ˜ e
1
, ..., ˜ e
n
comme i.i.d. N(0, 1).
Pour tester la normalité grossièrement on peut faire l’hystogramme des ˜ e
i
. On peut aussi
faire des plots suivants :
soient ˜ e
(1)
≤... ≤ ˜ e
(n)
les statistiques d’ordre de ˜ e
1
, ..., ˜ e
n
. Si Z
( j)
est la j-ème statistique
d’ordre de la loi N(0, 1), ( j = 1, ..., n), alors notons m
( j)
= E(Z
(i j)
). Les espérances m
( j)
ne dépendent pas des paramètres inconnus. Si ˜ e
(i)
sont des statistiques d’ordre de la loi
N(0, 1), alors les points ( ˜ e
(i)
, m
(i)
) doivent être dispersés autour de la droite e = m dans le
plan (0em).
On peut utiliser une autre méthode : mettre sur le plan (0eq) les points ( ˜ e
(i)
, q
(i)
), où
q
(i)
= Φ
−1
_
i−1/2
n
_
sont des
_
i−1/2
n
_
-quantiles de la loi N(0, 1). Alors ces points doivent
être dispersés autour de la droite e = q.
Indépendance des variables aléatoires e
i
peut être vérifiée en utilisant le test de Durbin-
Watson.
Considérons la statistique
r
1
=

n
i=2
( ˆ e
i−1

¯
ˆ e)( ˆ e
i

¯
ˆ e)

n
i=1
( ˆ e
i

¯
ˆ e)
2
=

n
i=2
ˆ e
i−1
ˆ e
i

n
i=1
ˆ e
2
i
,
appelée la première autocorrelation des ( ˆ e
1
, ˆ e
2
), ( ˆ e
2
, ˆ e
3
), ... , ( ˆ e
n−1
, ˆ e
n
) ; ici
¯
ˆ e =∑
n
i=1
ˆ e
i
. Elle
est très proche au coefficient de correlation empirique linéaire de ces pairs. Alors la statis-
tique
d =

n
i=2
( ˆ e
i
− ˆ e
i−1
)
2

n
i=1
ˆ e
2
i
≈2(1−r
1
)
est appelée la statistique de Durbin-Watson. r
1
est proche à zéro, si les variables aléatoires
ˆ e
i
sont indépendantes. Alors la statistique d est proche à 2 dans ce cas. La loi de d ne dépend
pas des paramètres inconnus et les valeurs critiques d
i
et d
s
de d sont tabulées. On rejette
l’hypothèse d’indépendance, si d < d
i
ou d > d
s
.
265
Même si le modèle est bien choisi, l’estimation peut être mauvaise, si parmi les points
(x
i
,Y
i
) il y a des valeurs aberrantes, i.e. les points avec grands résidus ˆ e
i
= Y
i

ˆ
Y
i
. La va-
leur aberrante est influente si son retrait change beaucoup la valeur de l’estimateur de β.
L’influence de (x
i
,Y
i
) peut être mesurée à l’aide de la distance de Cook. Pour calculer cette
distance, on calcule la valeur prédite ajustée
ˆ
Y
ia
qui est déterminée comme
ˆ
Y
i
, utilisant
seulement les points
(x
1
,Y
1
), ..., (x
i−1
,Y
i−1
), (x
i+1
,Y
i+1
), ..., (x
n
,Y
n
).
La distance de Cook est déteminée par la formule suivante :
C
2
i
=

n
i=1
(
ˆ
Y
ia

ˆ
Y
i
)
2
(m+1)MS
R
.
La règle pratique : si C
2
i
> 1, le point est influent.
5.2 Annexe
Soit X = (X
1
, ..., X
n
) un échantillon, X
i
∼ N(0, 1). On considère la forme linéaire b
T
X,
b = (b
1
, ..., b
n
)
T
et les formes quadratiques X
T
AX, X
T
BX, où A et B sont des matrices sy-
métriques.
Lemme .
a) Si b
T
A = 0, alors X
T
AX et b
T
X sont indépendantes ;
b) Si AB = 0, alors les formes quadratiques X
T
AX et X
T
BX sont indépendantes.
Démonstration. a). On suppose que rang(A) =r. Comme A est une matrice symétrique,
on peut écrire sa décomposition spectrale :
A =
r

i=1
λ
i
h
i
h
T
i
, (28)
où λ
i
, ..., λ
r
et h
1
, ..., h
r
sont les valeurs propres positives et les vecteurs propres, respecti-
vement, de la matrice A, h
T
i
h
j
= 0 (i ,= j), h
T
i
h
i
= 1. On a
X
T
AX =
r

i=1
λ
i
(h
T
i
X)
2
= (
_
λ
1
h
T
1
X, ...,
_
λ
r
h
T
r
X)(
_
λ
1
h
T
1
X, ...,
_
λ
r
h
T
r
X)
T
.
L’égalité b
T
X = 0 implique
Cov(b
T
X, h
T
i
X) = b
T
Var(X)h
i
= b
T
h
i
= λ
−1
i
b
T
Ah
i
= 0,
b
T
X et h
T
i
X sont des variables aléatoires normales et non-corrélées, donc indépendantes. Il
s’ensuit que les variables aléatoires X
T
AX et b
T
X sont indépendantes.
266
b) On écrit la décomposition spectrale des matrices A et B :
A =
r

i=1
λ
i
h
i
h
T
i
, B =
p

j=1
µ
j
l
j
l
T
j
.
On a
X
T
AX =
r

i=1
λ
i
(h
T
i
X)
2
, X
T
BX =
p

j=1
µ
j
(b
2
j
X)
2
, Cov(h
T
i
X, l
T
j
X) = h
T
i
l
j
= 0,
donc h
T
i
X et l
T
j
X et par conséquent X
T
AX et X
T
BX sont indépendantes. Le lemme est dé-
montré.
Lemme . Soit A une matrice idempotente, i.e. A
2
= A, telle que rang(A) = r ≤n. Alors
r = TrA et X
T
AX ∼χ
2
(r).
Démonstration. On écrit la décomposition spectrale (28). A est idempotente, donc λ
1
=
... = λ
r
= 1 et
X
T
AX =
r

1
(h
T
i
X)
2
. (29)
Les vecteurs propres h
i
et h
j
sont orthogonaux,
Cov(h
T
i
X, h
T
j
X) = h
T
i
h
j
= 0
et donc les variables aléatoires h
i
X et h
j
X sont indépendantes. On a
E(h
T
i
X) = h
T
i
E(X) = 0, Var(h
T
i
X) = h
T
i
h
i
= 1,
donc h
T
i
X ∼N(0, 1) et d’après le lemme X
T
AX ∼χ
2
r
. Le lemme est démontré.
Théorème. Si X ∼N(µ, ΣΣΣ), det (ΣΣΣ) ,= 0, alors
(X −µ)
T
ΣΣΣ
−1
(X −µ) ∼χ
2
(n).
Démonstration. La matrice ΣΣΣ est symétrique, det (ΣΣΣ) ,= 0. Donc il existe une matrice
orthogonale H telle que H
T
ΣΣΣH =D soit diagonale. De plus, les éléments de cette diagonals
λ
1
, ..., λ
n
sont positifs. Considérons le vecteur
Y = D
−1/2
H
T
(X −µ).
On a
Var(Y) = D
−1/2
H
T
ΣΣΣHD
−1/2
= I
n
,
donc
(X −µ)
T
ΣΣΣ
−1
(X −µ) =Y
T
D
1/2
H
T
ΣΣΣ
−1
HD
1/2
Y =Y
T
Y ∼χ
2
n
.
Le théorème est démontré.
Théorème. Soit X = (X
1
, ..., X
n
) un échantillon, X
i
∼ N(µ, σ
2
). Alors les moments em-
piriques
¯
X =
1
n
n

i=1
X
i
et S
2
X
=
1
n
n

i=1
(X
i

¯
X)
2
267
sont indépendants et

n(
¯
X −µ)/σ ∼N(0, 1), nS
2
X

2
∼χ
2
(n−1).
Démonstration. Notons Y
i
= (X
i
−µ)/σ ∼ N(0, 1), Y = (Y
1
, ...,Y
n
)
T
,
¯
Y = (
¯
X −µ)/σ,
S
2
Y
= S
2
X

2
.
Il suffit de démontrer que les variables aléatoires
¯
Y et S
2
Y
sont indépendantes.
Considérons le vecteur b = (1/n, ..., 1/n)
T
et la matriceB = (1/n)
nn
. On a
¯
Y = b
T
Y, nS
2
Y
= (Y −BY)
T
(Y −BY) =Y
T
(I
n
−B)
2
Y.
La matrice I
n
−B est idempotente :
(I
n
−B)
2
= I
n
−2B+B
2
= I
n
−B
et
b
T
(I
n
−B) = b
T
−b
T
B = b
T
−b
T
= 0.
D’après le lemme, les variables aléatoires
¯
Y et S
2
Y
sont indépendantes. On a
Tr(I
n
−B) = TrI
n
−TrB = n−1.
D’après le lemme nS
2
Y
∼χ
2
(n−1). Le théorème est démontré.
Exemple 1. Soient X = (X
1
, . . . , X
n
1
)
T
et Y = (Y
1
, . . . ,Y
n
2
)
T
deux échantillons indépen-
dents, X
i
∼ N(µ
1
, σ
2
1
), Y
i
∼ N(µ
2
, σ
2
2
). Construire le test de rapport de vraisemblance pour
tester l’hypothèse H
0
: σ
2
1
= σ
2
2
= σ
2
.
Solution. Notons que (µ
1
, µ
2
, σ
2
1
, σ
2
2
) ∈ Θ = RRR
+
R
+
et (µ
1
, µ
2
, σ
2
) ∈ Θ
0
=
RRR
+
⊂Θ.
La fonction de vraisemblance pour (µ
1
, µ
2
, σ
2
1
, σ
2
2
) est
L(µ
1
, µ
2
, σ
2
1
, σ
2
2
) =
1
(2πσ
2
1
)
n
1
/2
1
(2πσ
2
2
)
n
2
/2
exp
_

1

2
1
n
1

i=1
(X
i
−µ
1
)
2

1

2
2
n
2

i=1
(Y
i
−µ
2
)
2
_
.
Le logarithm de la fonction de vraisemblance est
lnL(µ
1
, µ
2
, σ
2
1
, σ
2
2
) =−
n
1
2
(ln(2π) +lnσ
2
1
) −
n
2
2
(ln(2π) +lnσ
2
2
)

1
σ
2
1
n
1

i=1
(X
i
−µ
1
)
2

1
σ
2
2
n
2

i=1
(Y
i
−µ
2
)
2
.
Les estimateurs de maximum de vraisemblance vérifient le système des équations
∂L
∂µ
1
=
1
σ
2
1
n
1

i=1
(X
i
−µ
1
) = 0,
∂L
∂µ
2
=
1
σ
2
2
n
2

i=1
(Y
i
−µ
2
) = 0,
268
∂L
∂σ
2
1
=−
n
1

2
1
+
1

4
1
n
1

i=1
(X
i
−µ
1
)
2
= 0,
∂L
∂σ
2
2
=−
n
2

2
2
+
1

4
2
n
2

i=1
(Y
i
−µ
2
)
2
= 0.
Donc ˆ µ
1
=
¯
X =
1
n
1
n
1

i=1
X
i
, ˆ µ
2
=
¯
Y =
1
n
2
n
2

i=1
Y
i
, ˆ σ
2
1
=s
2
1
=
1
n
1
n
1

i=1
(X
i

¯
X)
2
, ˆ σ
2
2
=s
2
2
=
1
n
2
n
2

i=1
(Y
i

¯
Y)
2
.
Notons n = n
1
+n
2
. Sous H
0
la fonction de vraisemblance pour (µ
1
, µ
2
, σ
2
) est
L
1

1
, µ
2
, σ
2
) =
1
(2πσ
2
)
n/2
exp
_

1

2
_
n
1

i=1
(X
i
−µ
1
)
2
+
n
2

i=1
(Y
i
−µ
2
)
2
__
.
Le logarithm de la fonction de vraisemblance est
lnL
1

1
, µ
2
, σ
2
) =−
n
2
(ln(2π) +lnσ
2
) −
1
σ
2
_
n
1

i=1
(X
i
−µ
1
)
2
+
n
2

i=1
(Y
i
−µ
2
)
2
_
.
Les estimateurs de maximum de vraisemblance vérifient le système des équations
∂L
1
∂µ
1
=
1
σ
2
n
1

i=1
(X
i
−µ
1
) = 0,
∂L
1
∂µ
2
=
1
σ
2
n
2

i=1
(Y
i
−µ
2
) = 0,
∂L
∂σ
2
=−
n

2
+
1

4
_
n
1

i=1
(X
i
−µ
1
)
2
+
n
2

i=1
(Y
i
−µ
2
)
2
_
= 0.
Donc ˆ µ
1
=
¯
X, ˆ µ
2
=
¯
Y, ˆ σ
2
=
1
n
(n
1
s
2
1
+n
2
s
2
2
). Les maximums des fonctions L et L
1
sont
ˆ
L = L(ˆ µ
1
, ˆ µ
2
, ˆ σ
2
1
, ˆ σ
2
2
) =
1
(2π)
n/2
s
n
1
1
s
n
2
2
e
−n/2
et
ˆ
L
1
= L
1
(ˆ µ
1
, ˆ µ
2
, ˆ σ
2
) =
1
(2π)
n/2
(
n
1
n
s
2
1
+
n
2
n
s
2
2
)
n/2
e
−n/2
.
La région critique pour H
0
est défini par l’inégalité
−2ln
_
ˆ
L
1
ˆ
L
_
>C.
On a
ˆ
L
1
ˆ
L
=
s
n
1
/2
1
s
n
2
/2
2
(
n
1
n
s
2
1
+
n
2
n
s
2
2
)
n/2
=
_
n
1
n
+
n
2
n
s
2
2
s
2
1
_
−n
1
/2
_
n
1
n
s
2
1
s
2
2
+
n
2
n
_
−n
2
/2
.
269
Donc la région critique est défini par l’inégalité
n
1
ln
_
n
1
n
+
n
2
n
s
2
2
s
2
1
_
+n
2
ln
_
n
1
n
s
2
1
s
2
2
+
n
2
n
_
>C.
Posons x = s
2
2
/s
2
1
et étudions la fonction
g(x) = n
1
ln
_
n
1
n
+
n
2
n
x
_
−n
2
ln
_
n
1
nx
+
n
2
n
_
.
Sa dérivée est
g
/
(x) = n
1
n
2
n
2
x
2
+(n
1
−n
2
)x −n
1
(n
1
+n
2
x)(n
1
x +n
2
x
2
)
.
Les racines de l’équation quadratique
n
2
x
2
+(n
1
−n
2
)x −n
1
= 0
sont x
1
= 1 et x
2
=−
n
1
n
2
. Donc g
/
(x) < 0 si x ∈]0, 1[, g
/
(x) > 0 si x ∈]1, +∞[. La fonction g
est décroissante sur l’intervalle ]0, 1[, croissante sur ]1, +∞[ et le minimum est atteint dans
le point 1. L’inégalité g(x) > C est vérifiée si et seulement si x < c
1
ou x > c
2
. Donc la
région critique pour H
0
est déterminée par les égalités
s
2
2
s
2
1
< c
1
ou
s
2
2
s
2
1
> c
2
.
Fixons le niveau de signification α. Les constantes c
1
et c
2
sont trouvées de l’égalités

s
2
2
s
2
1
< c
1
[ H
0
¦ = α/2, P¦
s
2
2
s
2
1
> c
2
[ H
0
¦ = α/2.
Donc c
1
= f
α/2
(n
2
−1, n
1
−1) et c
2
= f
1−α/2
(n
2
−1, n
1
−1) sont des quantiles de la répar-
tition de Fisher de n
2
−1 et n
1
−1 dégrés de liberté.
Exemple 2. Soit Z = (Z
1
, . . . , Z
n
)
T
un échantillon de la loi normale bivarié, i.e.
Z
i
= (X
i
,Y
i
)
T
∼ f
X
i
,Y
i
(x, y),
où la densité
f
X
i
,Y
i
(x, y) =
1
2πσ
1
σ
2
_
1−ρ
2
exp
_

1
2(1−ρ
2
)
_
(x −a
1
)
2
σ
2
1

2ρ(x −a
1
)(y −a
2
)
σ
1
σ
2
+
(y −a
2
)
2
σ
2
2
__
pour tout (x, y) ∈ R
2
.
Construire le test de rapport de vraisemblance pour tester l’hypothèse H
0
: ρ = 0 qui est
equivalente à l’hypothèse que les variables aléatoires x
I
et Y
i
sont indépendantes.
Notons que (µ
1
, µ
2
, σ
2
1
, σ
2
2
, ρ) ∈ Θ = RRR
+
R
+
[−1, 1] et

1
, µ
2
, σ
2
) ∈ Θ
0
= RRR
+
⊂Θ
.
270
La fonction de vraisemblance pour (µ
1
, µ
2
, σ
2
1
, σ
2
2
, ρ) est
L(µ
1
, µ
2
, σ
2
1
, σ
2
2
, ρ)
_
1
2πσ
1
σ
2
_
1−ρ
2
_
n
exp
_

1
2(1−ρ
2
)
n

i=1
_
(X
i
−a
1
)
2
σ
2
1

2ρ(X
i
−a
1
)(Y
i
−a
2
)
σ
1
σ
2
+
(Y
i
−a
2
)
2
σ
2
2
_
_
,
lnL =−nln(2π) −
n
2
lnσ
2
1

n
2
lnσ
2
2

n
2
ln(1−ρ
2
)

1
2(1−ρ
2
)
n

i=1
_
(X
i
−a
1
)
2
σ
2
1

2ρ(X
i
−a
1
)(Y
i
−a
2
)
σ
1
σ
2
+
(Y
i
−a
2
)
2
σ
2
2
_
,
donc
∂L
∂a
1
=−
1
2(1−ρ
2
)
n

i=1
_

2(X
i
−a
1
)
σ
2
1
+
2ρ(Y
i
−a
2
)
σ
1
σ
2
_
= 0,
∂L
∂a
2
=−
1
2(1−ρ
2
)
n

i=1
_

2(Y
i
−a
2
)
σ
2
2
+
2ρ(X
i
−a
1
)
σ
1
σ
2
_
= 0.
Ces équations impliquent
n

i=1
(Y
i
−a
2
) =
n

i=1
(X
i
−a
1
)
σ
2
σ
1
ρ
,
n

i=1
(Y
i
−a
2
) =
n

i=1
(X
i
−a
1
)
ρσ
2
σ
1
,
donc
n

i=1
(X
i
−a
1
)
_
σ
2
σ
1
ρ

ρσ
2
σ
1
_
= 0,
qui implique ˆ a
1
=
¯
X, ˆ a
2
=
¯
Y.
En dérivant par rapport à σ
2
i
, on a
∂L
∂σ
2
1
=−
n

2
1
+
1
2(1−ρ
2
)
n

i=1
_
(X
i
−a
1
)
2
σ
4
1

ρ(X
i
−a
1
)(Y
i
−a
2
)
σ
2
σ
3
1
_
= 0,
∂L
∂σ
2
2
=−
n

2
2
+
1
2(1−ρ
2
)
n

i=1
_
(Y
i
−a
2
)
2
σ
4
2

ρ(X
i
−a
1
)(Y
i
−a
2
)
σ
1
σ
3
2
_
= 0.
Notons
r =
n

i=1
(X
i

¯
X)(Y
i

¯
Y)
s
1
s
2
le coefficient empirique de correlation. Alors les dernières equations on s‘écrivent (on rem-
place a
i
par ˆ a
i
) :
(1−ρ
2
) −
s
2
1
σ
2
1
+ρr
s
1
s
2
σ
1
σ
2
= 0,
(1−ρ
2
) −
s
2
2
σ
2
2
+ρr
s
1
s
2
σ
1
σ
2
= 0,
271
qui impliquent s
1

1
= s
2

2
= (1−ρ
2
)/(1−ρr). La dernière dérivé est
∂L
∂ρ
=

1−ρ
2

ρ
(1−ρ
2
)
2
n

i=1
_
(X
i
−a
1
)
2
σ
2
1

2ρ(X
i
−a
1
)(Y
i
−a
2
)
σ
1
σ
2
+
(Y
i
−a
2
)
2
σ
2
2
_
+
1
1−ρ
2
n

i=1
(X
i
−a
1
)(Y
i
−a
2
)
σ
1
σ
2
= 0,
donc
ρ−
ρ
1−ρ
2
_
s
2
1
σ
2
1
−2ρr
s
1
σ
1
s
2
σ
2
+
s
2
2
σ
2
2
_
+r
s
1
σ
1
s
2
σ
2
= 0.
Remplaçant s
2
i

2
i
par (1−ρ
2
)/(1−ρr) dans la dernière équation, on a ˆ ρ =r. Donc s
2
i
/ˆ σ
2
i
=
1, qui donne ˆ σ
2
i
= s
2
i
.
Nous avons obtenu les estimateurs ˆ a
1
=
¯
X, ˆ a
2
=
¯
Y, ˆ σ
2
i
= s
2
i
, ˆ ρ = r.
Sous H
0
les estimateurs sont obtenus dans le problème 1.
Les maximums des fonctions L et L
1
sont
ˆ
L = L( ˆ a
1
, ˆ a
2
, ˆ σ
2
1
, ˆ σ
2
2
, ˆ ρ) =
1
(2π)
n
s
n
1
s
n
2
(1−r
2
)
n/2
e
−n
,
ˆ
L
1
= L
1
( ˆ a
1
, ˆ a
2
, ˆ σ
2
1
, ˆ σ
2
2
) =
1
(2π)
n
s
n
1
s
n
2
e
−n
La région critique est L
1
/L < c, qui est equivalent à r
2
>C.
On peut rémarquer, que dans la régression logistique simple : Y
i

0

1
X
i
les estima-
teurs de coefficients sont
ˆ
β
1
= r
s
2
s
1
,
ˆ
β
0
=
¯
Y −
ˆ
β
1
¯
X.
Sous l’hypothèse H : β
1
= 0 la v.a.
F =
SS
E
SS
R
/(n−2)
suit la loi de Fisher de 1 et ne2 degrés de liberté. Notons que
SS
E
=
n

i=1
(
ˆ
Y
i

¯
Y)
2
,

ˆ
Y
i
=
ˆ
β
0
+
ˆ
β
1
X
i
=
¯
Y +r
s
2
s
1
(X
i

¯
X), donc
SS
E
= nr
2
s
2
2
, SS
R
= SS
T
−SS
E
=
n

i=1
(Y
i

¯
Y)
2
−nr
2
s
2
2
= ns
2
2
(1−r
2
),
et
F =
r
2
(n−2)
1−r
2
.
On a r
2
>C si et seulement si F >C
1
. On rejette H
0
si F > F
1−α
(1, n −2). Le niveau de
signification est α.
Exercice 1. Il est donné que entre x et y(x), deux variables en étude, il y a une dépen-
dance polynomiale
y(x) = a
0
+a
1
x +...a
m
x
m
. (30)
272
On suppose que les a
i
et m sont inconnus et que pour tout x
i
la quantité y
i
= y(x
i
) est
mesurée avec une erreur e
i
. On observe donc
Y
i
= y
i
+e
i
, i = 1, ..., n. (31)
On suppose aussi que le nombre de mesures n > m, e = (e
1
, ..., e
n
)
T
est un échantillon
normale, c’est-à-dire e
i
∼N
1
(0, σ
2
) et donc e ∼N
n
(0, σ
2
I
n
).
Dans l’expériance on a recu pour
x
i
= h(i −1), i = 1, ..., 30, i.e. x
i
−x
i−1
= x
i+1
−x
i
= h = 0.1.
les 30 observations suivantes :
Y
1
= 1.911 Y
11
= 1.001 Y
21
=−1.756
Y
2
= 1.970 Y
12
= 0.7129 Y
22
=−1.926
Y
3
= 2.022 Y
13
= 0.4502 Y
23
=−2.001
Y
4
= 1.990 Y
14
= 0.1543 Y
24
=−1.974
Y
5
= 1.952 Y
15
=−0.1462 Y
25
=−1.875
Y
6
= 1.881 Y
16
=−0.4793 Y
26
=−1.620
Y
7
= 1.765 Y
17
=−0.7702 Y
27
=−1.256
Y
8
= 1.636 Y
18
=−1.080 Y
28
=−0.7477
Y
9
= 1.448 Y
19
=−1.342 Y
29
=−0.0425
Y
10
= 1.227 Y
20
=−1.578 Y
30
= 0.852
On suppose qu’il y a seulement 0 ou 1 observation abberante et que m ≤6.
1. Eliminer l’observation abberante si elle existe parmi les Y
j
.
2. Estimer la degré du polynôme dans le modèle et construire les estimateurs pour a
j
et
σ
2
par la méthode des moindres carrées.
3. Construire la zone de confiance pour y(x).
Exercice 2. Soit A = |a
i j
|
nn
= A
n
, det A ,= 0. Notons x = (x
1
, ..., x
n
)
T
un vecteur
arbitraire de R
n
. Montrer que pour tout k ∈ R
1
det (A+kxx
T
)
det A
= 1+kx
T
A
−1
x.
Exercice 3. Soit A une matrice nondégénérée, A = |a
i j
|
nn
, X = |x
i j
|
np
, k ∈ R
1
,
telles que
I
p
+kX
T
A
−1
X
est nondégénérée. Montrer que
(A+kXX
T
)
−1
= A
−1
−kA
−1
X(I
p
+kX
T
A
−1
X)
−1
X
T
A
−1
.
Exercice 4. Montrer que
Tr(A
n
+B
n
) = Tr(A
n
) +Tr(B
n
) et Tr(A
n
B
n
) = Tr(B
n
A
n
),
où B
n
=|b
i j
|
nn
et Tr(A
n
) = ∑
n
i=1
a
ii
.
Exercice 5. Montrer que
det (A
n
B
n
) = det A
n
det B
n
.
273
Exercice 6. Soit A une matrice symmétrique, λ
1
≥ λ
2
≥ ... ≥ λ
n
- les valeurs propres
de A
n
.
Montrer que
TrA
n
=
n

i=1
λ
i
, det A
n
=
n

i=1
λ
i
.
5.3 Régression logistique
On suppose que l’on observe un événement A et que la probabilité de cet événement
dépend de la valeur d’un vecteur de variables explicatives (covariables) x
1
, ..., x
m
. Notons
x = (x
0
, x
1
, ..., x
m
)
T
, x
0
= 1,
π(x) = P¦A[x¦
et considérons la variable aléatoire Y qui prend deux valeurs : 0 et 1 et telle que
P¦Y = 1[x¦ = π(x).
On effectue n expériences indépendantes. La i-ème expérience est observée sous la cova-
riable x
(i)
= (x
i0
, ..., x
im
)
T
, x
i0
= 1. On fixe les valeurs des variables aléatoires Y
i
: Y
i
= 1,
si un événement A se produit pendant la i-ème expérience et Y
i
= 0 sinon. Donc on a un
échantillon
(Y
1
, x
(1)
), ..., (Y
n
, x
(n)
).
Les variables aléatoires Y
i
suivent la loi de Bernoulli : Y
i
[x
(i)
∼Bi(1, π(x
(i)
)).
Le but est d’estimer la probabilité π(x) pour tous les x ∈ E, où E est un ensemble de
covariables. Si x ,= x
(i)
et la forme de π(x) est complètement inconnue, l’estimation de π(x)
sera impossible.
On peut considérer le modèle linéaire
π(x) = β
0

1
x
1
+... +β
m
x
m
, (1)
mais après estimation des paramètres β = (β
0
, ..., β
m
) on peut obtenir un estimateur de
π(x) qui n’appartienne pas à l’intervalle [0, 1]. En règle générale la loi des estimateurs de
maximum de vraisemblance des paramètres inconnus approche la loi normale quand n est
grand, mais la vitesse de convergence vers la loi normale est plus grande quand la région
des valeurs du paramètre est R. C’est le deuxième argument défavorable à l’utilisation du
modèle (1). Toutes ces restrictions peuvent être éliminées en considérant le modèle
g(x) = ln
π(x)
1−π(x)
= β
0

1
x
1
+... +β
m
x
m
= β
T
x. (2)
Alors
π(x) =
e
β
0

1
x
1
+...+β
m
x
m
1+e
β
0

1
x
1
+...+β
m
x
m
=
e
β
T
x
1+e
β
T
x
.
274
Le domaine de variation de la fonction-logit g(x) est R et pour n’importe quelle valeur de
β la fonction π(x) prend ses valeurs dans ]0, 1[. Donc on a
Le modèle de régression logistique :
Y
i
∼B(1, π(x
(i)
)), où ln
π(x)
1−π(x)
= β
0

1
x
1
+... +β
m
x
m
et Y
1
, ...,Y
n
sont des variables aléatoires indépendantes.
Si la j-ème variable explicative x
j
est dicrète avec une échelle nominale, par exemple,
la couleur, l’ethnie, etc., et prend k
j
valeurs différentes, on peut utiliser au lieu de x
j
le
vecteur (z
j,1
, ..., z
j,k
j
−1
) des codes qui prend k
j
valeurs différentes : (0, ..., 0), (1, 0, ..., 0),
(0, 1, 0, ..., 0),....,(0, ...., 0, 1) et le modèle (2) est modifié :
g(x) = β
0

1
x
1
+... +
k
j
−1

i=1
β
ji
z
ji
+... +β
m
x
m
. (3)
Si, par exemple, x
j
est la couleur qui prend 3 valeurs (noir, bleu, blanc), alors on considère
le vecteur (z
j1
, z
j2
) qui prend les valeurs (0,0)- (noir), (1,0)- (bleu), (0,1)- (blanc). Si x
j
est
le sexe (masculin, féminin), alors on considère la variable codée z
j1
qui prend les valeurs 0
(masculin) et 1 (féminin). Parfois le codage est différent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1),
etc.
Notons que si on prend deux valeurs x
(1)
j
et x
(2)
j
de x
j
dans (2), alors
g(x
1
, ..., x
(2)
j
, ..., x
m
) −g(x
1
, ..., x
(1)
j
, ..., x
m
) = β
j
(x
(2)
j
−x
(1)
j
)
et donc
π
(2)
j
/(1−π
(2)
j
)
π
(1)
j
/(1−π
(1)
j
)
=
π(x
1
, ..., x
(2)
j
, ..., x
m
)/(1−π(x
1
, ..., x
(2)
j
, ..., x
m
)
π(x
1
, ..., x
(1)
j
, ..., x
m
)/(1−π(x
1
, ..., x
(1)
j
, ..., x
m
))
= e
β
j
(x
(2)
j
−x
(1)
j
)
. (4)
Le rapport des cotes est donc égal à e
β
j
(x
(2)
j
−x
(1)
j
)
et si x
(2)
j
−x
(1)
j
= 1, alors il vaut e
β
j
. La
cote est le rapport des probabilités de succès et d’échec pour l’évènement A. Le rapport des
cotes montre comment varie la cote quand x
j
passe de x
(1)
j
à x
(2)
j
, toutes les autres cova-
riables restant les mêmes. Si les probabilités π
(i)
j
sont petites, alors le rapport des cotes est
proche à π
(2)
j

(1)
j
, i.e. au risque relatif. Dans ce cas e
β
j
(x
(2)
j
−x
(1)
j
)
montre comment change
la probabilité de succès quand x
j
change sa valeur de x
(1)
j
à x
(2)
j
et toutes les autres cova-
riables ne changent pas. Il faut souligner que dans le modèle (2) le rapport des cotes est le
même pour n’importe quelles valeurs fixées des autres covariables x
l
(l ,= j), i.e. il n’y a
pas d’interactions.
Si x
j
est discrète avec une échelle nominale et (z
(i)
j1
, ..., z
(i)
j,k
j
−1
) = (0, ..., 1, ..., 0), où 1
est dans la i-ème place, (z
(0)
j1
, ..., z
(0)
j,k
j
−1
) = (0, ..., 0), alors
g(x
1
, ..., z
(i)
j1
, ..., z
(i)
j,k
j
−1
, ..., x
m
) −g(x
1
, ..., z
(0)
j1
, ..., z
(0)
j,k
j
−1
, ..., x
m
) = β
ji
et alors
π
(i)
j
/(1−π
(i)
j
)
π
(0)
j
/(1−π
(0)
j
)
= e
β
ji
, (5)
275
où π
(l)
j
= π(x
1
, ..., z
(l)
j1
, ..., z
(l)
j,k
j
−1
, ..., x
m
) (l = 0, i).
e
β
ji
est le rapport des cotes qui correspond au changement de valeur de la variable x
j
de
la première à la (i +1)-ème quand toutes les autres variables restent fixes . Par exemple, si
x
j
est la couleur (noire, blanche, bleue), e
β
j2
exprime le rapport des cotes qui correspond au
changement de x
j
de la couleur noire à la couleur blanche (i = 1).
Si l’effet de changement de la valeur de la covariable x
j
est différent pour des valeurs
différentes des autres covariables, on a une interaction entre x
j
et ces covariables. Alors le
modèle (2) peut être modifié pour tenir compte de l’effet d’interaction. Par exemple, dans
le cas de deux covariables on a le modèle
g(x) = β
0

1
x
1

2
x
2

3
x
1
x
2
,
dans le cas de trois covariables
g(x) = β
0

1
x
1

2
x
2

3
x
3

4
x
1
x
2

5
x
1
x
3

6
x
2
x
3

7
x
1
x
2
x
3
. (6)
S’il y a interaction, alors, par exemple (m = 2),
g(x
(2)
1
, x
2
) −g(x
(1)
1
, x
2
) = (β
1

3
x
2
)(x
(2)
1
−x
(1)
1
)
et
e

1

3
x
2
)(x
(2)
1
−x
(1)
1
)
=
π(x
(2)
1
, x
2
)/(1−π(x
(2)
1
, x
2
))
π(x
(1)
1
, x
2
)/(1−π(x
(1)
1
, x
2
))
, (7)
donc le rapport des cotes dépend non seulement de la différence x
(2)
1
−x
(1)
1
mais aussi de la
valeur de la deuxième covariable x
2
.
5.3.1 Estimation
On a un échantillon (Y
1
, x
(1)
), ..., (Y
n
, x
(n)
), où x
(i)
= (x
i0
, ..., x
im
)
T
, x
i0
= 1. La variable
aléatoire Y
i
suit la loi de Bernoulli :
Y
i
[x
(i)
∼B(1, π(x
(i)
)).
La fonction de vraisemblance
L(β) =
n

i=1
[π(x
(i)
)]
Y
i
[1−π(x
(i)
)]
1−Y
i
et
lnL(β) =
n

i=1
Y
i
lnπ(x
(i)
) +(1−Y
i
)ln(1−π(x
(i)
)) =
n

i=1
Y
i
ln
π(x
(i)
)
1−π(x
(i)
)
+ln(1−π(x
(i)
)) =
n

i=1
Y
i

0

1
x
i1
+... +β
m
x
im
) −ln(1+e
β
0

1
x
i1
+...+β
m
x
im
).
276
Les fonctions score
U
l
(β) =
∂lnL(β)
∂β
l
=
n

i=1
x
il
[Y
i
−π(x
(i)
)] (l = 0, ..., m).
Notons
ˆ
β l’estimateur du maximum de vraisemblance. Il vérifie le système d’équations
U
l
(β) = 0 (l = 0, ..., m). Alors la probabilité de l’événement A sous la covariable x =
(1, x
1
, ..., x
m
)
T
est estimée par
ˆ π(x) =
e
ˆ
β
T
x
1+e
ˆ
β
T
x
.
Quelles sont les notions analogues aux notions de coefficient de détermination R
2
, de
sommes des carrés : totale SS
T
, de régression SS
R
, d’erreur SS
E
, considérées dans le chapitre
“régression linéaire” ?
Notons
ˆ
Y
i
= ˆ π(x
(i)
) =
e
ˆ
βx
(i)
1+e
ˆ
β
T
x
(i)
les valeurs prédites des π(x
(i)
). Dans le cas de la régression linéaire
ˆ
Y
i
=
ˆ
β
T
x
(i)
. La prédic-
tion est bonne si les valeurs observées Y
i
et les valeurs prédites
ˆ
Y
i
sont proches. Dans le cas
de la régression linéaire la différence entre Y
i
et
ˆ
Y
i
était déterminé par SS
R
= ∑(Y
i

ˆ
Y
i
)
2
.
Dans le cas normal SS
R

2
suit la loi du chi-deux à n−m−1 degrés de liberté..
Si la fonction π(x) est complètement inconnue et si
P¦Y
i
= 1[x
(i)
¦ = π(x
(i)
) = p
i
,
on estime n paramètres inconnus p
1
, ..., p
n
. On a le modèle saturé, parce que le nombre des
paramètres à estimer est le même que la taille de l’échantillon.
La fonction de vraisemblance
L
0
(p) = L
0
(p
1
, ..., p
n
) =
n

i=1
p
Y
i
i
(1−p
i
)
1−Y
i
est maximisée au point ˆ p = ( ˆ p
1
, ..., ˆ p
n
), où ˆ p
i
=Y
i
, donc
L
0
( ˆ p) =
n

i=1
Y
Y
i
i
(1−Y
i
)
1−Y
i
= 1.
On suppose 0
0
= 1. Si on considère le modèle (2) avec m+1 < n, on a (m+1) paramètres
inconnus β
0
, ..., β
m
. Le maximum de la fonction de vraisemblance
L(β) =
n

i=1
π(x
(i)
)
Y
i
(1−π(x
(i)
))
1−Y
i
est
L(
ˆ
β) =
n

i=1
ˆ
Y
Y
i
i
(1−
ˆ
Y
i
)
1−Y
i
≤L
0
( ˆ p).
277
Si
ˆ
Y
i
et Y
i
sont proches, i.e. la prédiction est bonne, alors L
0
( ˆ p) et L(
ˆ
β) sont proches,
donc le rapport des vraisemblances L(
ˆ
β)/L
0
( ˆ p) est proche de 1 et
D
R
=−2ln
L(
ˆ
β)
L
0
( ˆ p)
=−2lnL(
ˆ
β)
est proche de zero. Si n est grand et le modèle de régression logistique est vérifié, la loi de
D
R
est approchée par la loi du chi-deux à n −m−1 degrés de liberté. Donc un équivalent
de la somme des carrés de régression SS
R
dans la régression logistique est D
R
.
Le nombre minimal de paramètres à estimer est égal à 1. On est dans ce cas, si
β
1
= ... = β
m
= 0 et π(x
(i)
) =
e
β
0
1+e
β
0
= π = const.
Alors la fonction de vraisemblance
L
1
(π) =
n

i=1
π
Y
i
(1−π)
1−Y
i
est maximisée au point ˆ π =
ˆ
Y =
1
n
∑Y
i
et
L
1
(ˆ π) =
n

i=1
¯
Y
Y
i
(1−
¯
Y)
1−Y
i
≤L(
ˆ
β) ≤L
0
( ˆ p).
La loi de la variable aléatoire
D
T
=−2ln
L
1
(ˆ π)
L
0
( ˆ p)
=−2lnL
1
(ˆ π)
est proche de la loi du chi-deux à n−1 degrés de liberté. Donc un équivalent de la somme
totale des carrés SS
T
dans la régression logistique est D
T
.
La loi de la variable aléatoire
D
E
=−2ln
L
1
(ˆ π)
L(
ˆ
β)
=
2[
n

i=1
Y
i
ln
ˆ
Y
i
+
n

i=1
(1−Y
i
)ln(1−
ˆ
Y
i
) −
n

i=1
Y
i
ln
¯
Y −(n−
n

i=1
Y
i
)ln(1−
¯
Y)]
est proche de la loi du chi-deux à m degrés de liberté si β
1
= ... =β
m
= 0 et n est grand. La
variable aléatoire D
E
est un équivalent de la somme des carrés d’erreur SS
E
. On a
D
T
= D
E
+D
R
.
L’équivalent du coefficient de détermination dans le cas de la régression logistique
R
2
= 1−
D
R
D
T
=
D
E
D
T
.
Si
ˆ
Y
i
=Y
i
, alors R
2
= 1. Si
¯
Y ,= 0 et
¯
Y ,= 1,
ˆ
Y
i
=
¯
Y, alors R
2
= 0.
Considérons l’hypothèse
H
0
: β
1
= ... = β
m
= 0.
278
Cette hypothèse signifie qu’il n’y a pas de régression et la connaissance de la valeur de x
n’améliore pas la prédiction de π(x). L’hypothèse H
0
peut être écrite comme H
0
: π(x) =
π = const. Sous l’hypothèse H
0
la loi de D
E
est approchée par la loi du chi-deux à m degrés
de liberté. L’hypothèse H
0
est rejetée avec le niveau de signification α, si D
E
> χ
2
1−α
(m).
Considérons l’hypothèse
H
0
: β
j
1
= ... = β
j
l
= 0, (1 ≤ j
1
< ... < j
l
≤m, l < m).
Notons D
(m)
E
et D
(m−l)
E
la statistique D
E
pour le modèle (2) avec tous β
0
, ..., β
m
et sans
β
j
1
, ..., β
j
l
, respectivement. Sous l’hypothèse H
0
la loi de la variable aléatoire D
(m)
E
−D
(m−k)
E
peut être approchée par la loi du chi-deux à k = m−(m−k) degrés de liberté.
On rejette l’hypothèse H
0
avec le niveau de signification α, si
D
(m)
E
−D
(m−k)
E
> χ
2
1−α
(k).
En particulier ce test peut être appliqué pour tester l’hypothèse d’absence d’interactions
entre des covariables. Par exemple, dans le modèle (6) cette hypothèse est équivalente à
l’hypothèse
H
0
: β
4
= β
5
= β
6
= β
7
= 0.
La statistique de test D
(7)
E
−D
(3)
E
suit la loi de chi-deux de k = 4 degrés de liberté.
L’hypothèse
H
0
: β
j
= 0 ( j = 1, ..., m)
peut aussi être testée en utilisant la matrice d’information de Fisher estimée.
On cherche la matrice d’information de Fisher I(β) = (I
ls
(β)). On a
I
ls
(β) =−E

2
lnL(β)
∂β
l
∂β
s
=
n

i=1
x
il
x
is
π(x
(i)
)(1−π(x
(i)
)) (l, s = 0, ..., m).
Donc I(
ˆ
β) = X
T
VX, où
X =
_
_
x
10
... x
1m
... ... ...
x
n0
... x
nm
_
_
, V =
_
_
ˆ π(x
(1)
)(1− ˆ π(x
(1)
)) ... 0
0 ... 0
0 ... ˆ π(x
(m)
)(1− ˆ π(x
(m)
))
_
_
.
Si n est grand, la matrice de covariance de
ˆ
β est approchée par I
−1
(β) ou I
−1
(
ˆ
β) = ( ˆ σ
ls
). Si
x = (x
0
, ..., x
m
), alors la variance de ˆ π(x) est approchée par
ˆ σ
2
(ˆ π(x)) =
_
∂ˆ π(x)
∂β
s
_
T
1(m+1)
I
−1
(
ˆ
β)
_
∂ˆ π(x)
∂β
s
_
T
(m+1)1
=
ˆ π
2
(x)(1− ˆ π(x))
2
m

l=0
m

s=0
x
l
x
s
ˆ σ
ls
. (8)
Notons
ˆ σ
ll
= ˆ σ
2
(
ˆ
β
l
), ˆ σ
ls
=
ˆ
Cov(
ˆ
β
l
,
ˆ
β
s
).
Si n est grand alors la loi de
ˆ
β est approchée par la loi normale N(β, I
−1
(β)) et I
−1
(β) est
estimée par I
−1
(
ˆ
β).
279
La loi de la statistique
W
j
=
ˆ
β
j
ˆ σ(
ˆ
β
j
)
est approchée par la loi N(0, 1), quand n est grand. On rejette l’hypothèse H
0
: β
j
= 0 avec
le niveau de signification α, si [W
j
[ > w
1−α/2
.
La loi de (ˆ π(x) −π(x))/ˆ σ(ˆ π(x)) est approchée par la loi normale standard, donc l’inter-
valle de confiance de niveau de confiance γ = 1 −α pour la probabilité π(x) est approché
par
ˆ π(x) ±z
1−α/2
ˆ σ(ˆ π(x)),
où ˆ σ(ˆ π(x)) est donnée par la formule (8).
La relation entre les coefficients β
j
et les rapports des cotes donne la possibilité de
construire des intervalles de confiance pour les rapports de cotes.
L’intervalle de confiance de niveau de confiance γ = 1 −α pour le coefficient β
j
est
donné par la formule
ˆ
β
j
±z
1−α/2
ˆ σ(
ˆ
β
j
) parce que la loi de (
ˆ
β
j
−β
j
)/ˆ σ(
ˆ
β
j
) est approchée
par la loi normale standard réduite. Donc les intervalles de confiance pour les rapports des
cotes (4), (5) et (7) sont
exp¦(x
(2)
j
−x
(1)
j
)(
ˆ
β
j
±z
1−α/2
ˆ σ(
ˆ
β
j
))¦,
exp¦
ˆ
β
ji
±z
1−α/2
ˆ σ(
ˆ
β
ji

et
exp¦(x
(2)
1
−x
(1)
1
)(
ˆ
β
1
+
ˆ
β
3
x
2
±
z
1−α/2
_
ˆ σ
2
(
ˆ
β
1
) +2x
2
ˆ
Cov(
ˆ
β
1
,
ˆ
β
3
) +x
2
2
ˆ σ
2
(
ˆ
β
3
)¦,
respectivement.
280
Chapitre 6
ELEMENTS D’ANALYSE DES
DONNEES CENSUREES ET
TRONQUEES.
6.1 Distribution de survie.
Dans ce chapitre nous allons étudier les notions principales et les modèles de base de
l’analyse de survie et de la fiabilité et seulement quelques nouveaux modèles proposés
et étudiés par Bagdonaviçius et Nikulin en 1994-2000. Les modèles plus générals et plus
récents et leurs analyses statistiques on peut trouver, par exemple, dans Bagdonaviçius &
Nikulin (1994, 1995, 1996, 1997,1998,1999, 2000), Droesbeke & Fichet et Tassi (1989),
Bagdonaviçius, Gerville-Réache, Nikoulina & Nikulin (2000), Charlambidis, Koutras and
Balakrishnan (2000), Meeker and Escobar (1998), Limnios and Nikulin (2000), Ionescu
and Limnios (1999) etc.
Dans ce paragraphe, nous allons définir les fonctions permettant de décrire une distri-
bution de survie et présenter quelques modèles paramétriques.
Admettons qu’à la date t = 0 un élément (un sujet ou un système) commence à fonc-
tionner (à vivre) et qu’à la date t il se produise une panne (la mort, le décès).
La variable durée de vie X, délai entre la date d’origine et la date du décès (panne) est
une variable aléatoire non négative, X ∈ [0, ∞[.
Soit
F(t) = P¦X ≤t¦, t ∈ R
1
+
. (1)
Nous ne considérons ici que le cas où X est continue, c’est-à-dire que la probabilité de
décès (de panne) à chaque instant est infiniment petite.
Dans ce cas la fonction de répartition F(t) de la variable X est donnée par l’intégrale
F(t) =
t

0
f (x)dx,
281
où f (t) est la densité de probabilité de X
f (t) = F
/
(t) = lim
h→0
P¦t ≤X ≤t +h¦
h
, h > 0. (2)
Donc, F(t) est la probabilité de décéder entre 0 et t, ou la probabilité de défaillance (de
panne) au cours de l’intervalle [0, t].
Définition 1. La fonction
S(t) =
¯
F(t) = 1−F(t), t ≥0,
s’appelle la fonction de survie ou la fonction de fiabilité (fonction de séjour).
On remarque que S(t) =
¯
F(t) est la probabilité de bon fonctionnement continu durant
[0, t] :
S(t) =
¯
F(t) = P¦X >t¦ = P¦X ≥t¦, t ∈ R
1
+
, (3)
ou la probabilité du fonctionnement sans défaillance de l’élément au cours du temps t. La
fonction S(t) est monotone décroissante :
S(0) = 1 et S(t) →0, quand t →∞.
La plus importante caractéristique numérique de la durée de survie X est le temps moyen de
survie EX. (On suppose que EX existe). Dans ce cas
EX =


0
tdF(t) =−


0
td[1−F(t)] =
−lim
t→∞
t[1−F(t)] +


0
[1−F(t)]dt =


0
S(t)dt,
i.e., si EX existe, alors
EX =


0
S(t)dt. (4)
De même, on peut montrer que, si VarX existe, alors
VarX = 2


0
tS(t)dt −(EX)
2
. (5)
En pratique pour estimer EX on utilise la formule :
EX =


0
S(t)dt ≈
k

i=1

(t
i
+t
i+1
)/2
(t
i−1
+t
i
)/2
S(t)dt ≈
k

i=1
ˆ
S(t
i
)
t
i+1
−t
i−1
2
, (6)
où 0 = t
0
< t
1
< ... < t
k
, et
ˆ
S(t
i
) est un estimateur statistique de S(t
i
). Considérons un
exemple dans lequel nous soumettons à l’essai n
i
éléments identiques dans les même condi-
tions au cours du temps t
i
. Si à l’instant t
i
, où les essais se terminent, ν
i
éléments fonc-
tionnent encore, alors la statistique ν
i
/n
i
peut-être considérée comme un estimateur de S(t
i
),
puisque d’après la loi de grands nombres

ν
i
n
i
→S(t
i
), n
i
→∞¦ = 1.
282
Dans ce cas
S(t
i
) ≈
ν
i
n
i
=
ˆ
S(t
i
)
et donc
EX ≈
1
2
k

i=1
ν
i
n
i
(t
i+1
−t
i−1
). (7)
Souvent, s’il n’y a pas de censure, pour estimer EX on utilise aussi la moyenne arithmétique
¯
X
n
=
1
n
n

j=1
X
j
=
1
n
n

j=1
X
( j)
,
où X
(1)
≤X
(2)
≤... ≤X
(n)
sont les statistiques d’ordre, associées avec les durées de survies
X
1
, X
2
, ..., X
n
.
Remarque 1. Soit F
n
(t) la fonction empirique,
EF
n
(t) = F(t).
Dans ce cas S
n
(t) = 1−F
n
(t) est l’estimateur empirique de la fonction de survie S(t),
ES
n
(t) = S(t), VarS
n
(t) = VarF
n
(t) =
1
n
F(t)S(t).
Puisque
Var¦lnS
n
(t)¦ ≈
VarS
n
(t)
S
2
(t)
=
F(t)
nS(t)
,
nous pouvons dire que l’estimateur S
n
(t) n’est pas fiable quand S(t) est trop petite.
D’autres caractéristiques empiriques qui donnent des informations intéressantes sur la loi
F sont :
la fonction empirique
F
n
(x) =
1
n
n

j=1
1
]−∞,x]
(X
j
),
la variance empirique
s
2
n
=
1
n
n

i=1
(X
i

¯
X
n
)
2
,
la moyenne harmonique
¯
X
H
n
=
n

n
j=1
1
X
j
,
la moyenne géométrique
¯
X
G
n
=
n

X
1
X
2
...X
n
,
l’étendu
R = X
(n)
−X
(1)
,
le coefficient de variation
v =
s
n
¯
X
n
.
Définition 2. Soient X et Y deux durées de survie,
S(t) = P¦X >t¦, H(t) = P¦Y >t¦, t ∈ R
1
+
.
283
Nous disons que X est stochastiquement plus grande que Y et notons X _Y si
S(t) ≥H(t) pour tout t ∈ R
1
+
. (8)
Le fait que X est stochastiquement plus grande que Y nous pouvons exprimer aussi en disant
que Y est stochastiquement plus petite que X et en notant Y _X. Il est claire que si Y _X,
alors
F
Y
(t) = P¦Y ≤t¦ ≥F
X
(t) = P¦X ≤t¦, t ∈ R
1
+
, (9)
i.e.,
S(t) ≤H(t) pour tout t ∈ R
1
+
.
Théorème 1. Si X _Y, alors
EX ≥EY.
En effet, puisque S(t) ≥H(t) on a
EX =


0
S(t)dt ≥


0
H(t)dt = EY.
6.2 Risque de panne ou taux de défaillance.
Considérons tout d’abord le problème suivant : supposons que l’élément ait fonctionné
sans défaillance jusqu’à l’intant u, u > 0. Quelle est la probabilité pour qu’il ne tombe pas
en panne dans l’intervalle ]u, u+t], t > 0 ? Donc, on s’intéresse à la probabilité
S
u
(t) = P¦X > u+t[X > u¦, u > 0, t > 0.
La probabilité cherchée est alors la probabilité conditionnelle et on a
P¦X > u+t[X > u¦ =
P¦X > u+t¦
P¦X > u¦
=
S(u+t)
S(u)
= S
u
(t). (6.1)
De (1) on tire immédiatement que pour tout ´t > 0
S(t +´t) = P¦X >t +´t¦ = S(t)
´t
p
t
, (6.2)

´t
p
t
= P¦X >t +´t[X >t¦.
C’est une notation utilisée en démographie. De (1) et (2) il suit que la probabilité de panne
(de décès) au cours de (t, t +´t], sachant que X >t est
´t
q
t
= P¦t < X ≤t +´t[X >t¦ = 1−
´t
p
t
=
S(t) −S(t +´t)
S(t)
. (6.3)
Définition 1. On appelle risque instantané de décès ou taux de défaillance ou risque de
panne la fonction
α(t) =
f (t)
¯
F(t)
=
f (t)
S(t)
, t ≥0. (6.4)
284
De la définition 1 il suit que
α(t) = lim
´t→0
P¦t < X ≤t +´t¦
´tS(t)
= lim
´t→0
P¦t < X ≤t +´t¦
´tP¦X >t¦
=
= lim
´t→0
P¦t < X ≤t +´t[X >t¦
´t
= (6.5)
=
1
S(t)
lim
´t→0
S(t) −S(t +´t)
´t
=−
S
/
(t)
S(t)
. (6.6)
Remarque 1. Des formules (2) et (6) on tire que
α(t) =
1
S(t)
lim
´t→0
S(t) −S(t +´t)
´t
=
=−
1
S(t)
lim
´t→0
S(t +´t) −S(t)
´t
=− lim
´t→0
´t
p
t
−1
´t
= lim
´t→0
1
´t
´t
q
t
. (6.7)
De cette remarque on tire aussi que
´t
q
t
= P¦t < X ≤t +´t[X >t¦ ≈α(t)´t, ´t →0, (6.8)
tandis que
P¦t < X ≤t +´t¦ = f (t)´t +o(´t), ´t →0.
Donc α(t)´t est approximativement égale (pour de petites valeurs de ´t ) à la probabilité
de tomber en panne au cours de (t, t +´t] à condition que l’élément ait fonctionné sans
défaillance jusqu’à la date t. On voit que α(t) est une caractéristique locale de fiabilité dé-
terminant la fiabilité de l’élément à chaque instant de temps, d’où le nom de taux instantané
de défaillance. Puisque
f (t)dt = S(t)α(t)dt
il est clair que
α(t) ≈ f (t)
pour les petites valeurs de t.
Remarque 2. De (6) il suit que
α(t) =−
d lnS(t)
dt
, S(0) = 1,
d’où on tire que
lnS(t) =−
t

0
α(s)ds, t > 0,
et donc
S(t) = exp
_
_
_

t

0
α(s)ds
_
_
_
. (6.9)
285
On voit que le taux de défaillance détermine la distribution F(t) = 1−
¯
F(t) = 1−S(t).
Définition 2. On définit A(t), fonction de risque cumulée de α(s) entre 0 et t :
A(t) =
t

0
α(s)ds, t ≥0. (6.10)
La fonction A(t) est aussi appelée fonction du hasard ou simplement hasard.
De (9) il suit que
A(t) =−lnS(t), t ≥0, (6.11)
et de (4) on tire que
f (t) = α(t)S(t) = α(t)exp¦−A(t)¦, (6.12)
puisque
S(t) = exp¦−A(t)¦, t ≥0. (6.13)
On peut définir la distribution de probabilité de la durée de survie X à partir de l’une quel-
conque des fonctions : f (t), α(t), S(t), A(t).
La fonction de risque fournit la description la plus concrète d’une distribution de survie.
Remarque 3. La fonction de survie conditionnelle S
u
(t) = S(u+t)/S(u) s’exprime facile-
ment en termes de la fonction de défaillance α(t). En effet, pour tout u > 0 on a
S
u
(t) = P¦X > u+t [ X > u¦ =
exp¦−A(u+t)¦
exp¦−A(u)¦
= exp¦−

u+t
u
α(x)dx¦, t ∈ R
1
+
. (14)
En faisant le changement des variables v = x −u, on en tire que
S
u
(t) = exp¦−

t
0
α(v +u)dv¦, (s, t) ∈ R
1
+
R
1
+
. (15)
De (14) il suit que
P¦u < X ≤t +u[X > u¦ = 1−exp¦−

u+t
u
α(x)dx¦.
Remarque 4. La fonction α(t) peut-être déterminée d’après les résultats des essais. Si
N = N(0) éléments sont soumis aux essais au moment t = 0 et N(t) désigne le nombre
d’éléments qui fonctionnent encore au moment t, t > 0, alors (N →∞)
α(t) = lim
´t→0
S(t) −S(t +´t)
´t S(t)

N(t) −N(t +´t)
´t N(t)
=
´N(t)
´t N(t)
= ˆ α
N
(t), (16)
ˆ α
N
(t) est le taux de défaillance empirique.
En pratique cela signifie que si on partage l’intervalle [0, t] en segments
[0, t
1
[, [t
1
, t
2
[, ..., [t
k−1
, t
k
[, ...
de longueur h =´t, et µ
k
désigne le nombre de pannes au cours de [t
k−1
, t
k
[, où
t
k−1
= (k −1)h, t
k
= kh, [(k −1)h, kh[⊂[0, t],
286
i.e.,
µ
k
= N(t
k−1
) −N(t
k
) = N((k −1)h) −N(kh) = [N−N(kh)] −[N−N((k −1)h)],
dans ce cas le taux de défaillance empirique ˆ α
N
(t) est doné par la formule :
ˆ α
N
(t) =
µ
k
(N−µ
1
−µ
2
− −µ
k−1
)h
=
µ
k
hN(t
k−1
)
, (k −1)h ≤t ≤kh. (17)
Remarque 5. Soit X la durée de vie avec la fonction de répartition F(t) et la densité f
X
(t) =
F
/
(t). Considérons la transformation Y = σX +µ, σ > 0. Dans ce cas
P¦Y ≤t¦ = F
_
t −µ
σ
_
et f
Y
(t) =
1
σ
f
X
_
t −µ
σ
_
,
puisque
y = σx +µ ⇐⇒x =
y −µ
σ
, dx =
dy
σ
,
d’où on tire que
α
Y
(t) =
f
Y
(t)
S
_
t−µ
σ
_ =
1
σ
f
X
_
t−µ
σ
_
S
_
t−µ
σ
_ =
1
σ
α
X
_
t −µ
σ
_
.
Remarque 6. Dans le cas où X est une variable aléatoire discrète,
P¦X = k¦ = p
k
, k ∈ N =¦1, 2, ...¦
les fonctions de répartition F(k), de survie S(k) et de risque de défaillance α(k) de X sont
données par les formules suivantes :
F(k) = P¦X ≤k¦ =

m≤k
p
m
, (18)
S(k) = P¦X > k¦ = P¦X ≥k +1¦ =


m=k+1
p
m
, (19)
α(k) = P¦X = k [ X > k −1¦ = P¦X = k [ X ≥k¦ =
p
k


m=k
p
m
=
p
k
S(k −1)
(20)
pour tout k ∈ N (on pose ici, que S(0) = 1).
Comme
1−α(k) =
S(k −1) −p
k
S(k −1)
=
S(k)
S(k −1)
on en tire que
S(k) = [1−α(k)]S(k −1) =


m=k+1
p
m
=
k

m=1
[1−α(m)], k ∈ N,
puisque
p
k
= α(k)S(k −1) = α(k)
k−1

m=1
[1−α(m)], k ∈ N,
287
en posant p
1
= α(1).
Enfin on remarque que
EX =


j=1
j p
j
=


j=1
j

k=1
p
k
=


k=1


j=k
p
j
=


k=1
P¦X ≥k¦ =


k=1
P¦X > k −1¦ =


k=1
S(k −1). (21)
Exemple 1. Soit X est uniforme sur X =¦1, ..., N¦,
p
k
= P¦X = k¦ =
1
N
, k ∈ X.
Dans ce cas
F(k) = P¦X ≤k¦ =
k

m=1
p
m
=
k
N
, k ∈ X,
S(k) = P¦X > k¦ = P¦X ≥k +1¦ = 1−
k
n
=
N−k
N
,
α(k) =
p
k
S(k −1)
=
1
N−k +1
, k ∈ X.
On remarque que
1
N
= p
1
= α(1) < α(2) < ... < α(N) = 1.
Exemple 2. Soit X suit la loi géométrique de paramètre p, p ∈]0, 1[. Dans ce cas
p
m
= P¦X = m¦ = pq
m−1
, m ∈ N,
F(k) = P¦X ≤k¦ = p
k

m=1
q
m−1
= 1−q
k
,
S(k) = P¦X > k¦ = p


m=k+1
q
m−1
= q
k
α(k) =
p
k
S(k −1)
=
pq
k−1
q
k−1
= p, k ∈ N,
d’où on tire que α(k) = const.
Il est facile de démontrer que α(k) = const si et seulement si la variable aléatoire discrète
X suit une loi géométrique.
288
6.3 Modèles paramétriques de survie.
Modèle exponentiel. Le modèle de base est celui pour lequel la fonction de risque d’une
variable aléatoire continue X est constante :
α(t) = λ = const, λ > 0, t ∈ R
1
+
.
Dans ce modèle λ(t) est constante au cours du temps. On l’appelle modèle exponentiel de
paramètre λ parce que la fonction de survie est exponentielle :
S(t) = S(t; λ) = exp
_
_
_

t

0
α(s)ds
_
_
_
= exp¦−λt¦ = e
−λt
, (1)
donc
F(t) = F(t; λ) = P¦X ≤t¦ = 1−S(t) = 1−e
−λt
, t ≥0. (2)
Ce modèle ne dépend que du paramétre λ et on a
EX =
1
λ
et VarX =
1
λ
2
. (3)
Définition 1. On dit que la variable de durée de survie X vérifie la proprièté d’indépendance
temporelle (lack-of-memory) si et seulement si
α(t) = λ, t > 0, (4)
où λ = const, λ > 0.
Théorème 1. Il y a indépendance temporelle si et seulement si la loi de la durée de survie
X est exponentielle.
Remarque 1. La loi exponentielle est donc la seule loi continue à taux de défaillance
constant.
Théorème 2. Il y a indépendance temporelle si et seulement si l’une des conditions sui-
vantes est vérifiée :
1. les fonctions de survie conditionnelles ¦S
u
(t), u > 0, ¦ sont exponentielles de même
paramètre λ (λ > 0) :
S
u
(t) =
S(u+t)
S(u)
= e
−λt
, t ∈ R
1
+
pour tout u ∈ R
1
+
;
2. S(u+t) = S(t)S(u) pour tout t, u ∈ R
1
+
.
Remarque 2. La loi exponentielle est donc la seule loi continue possédant la propriété :
S
u
(t) = P¦X >t +u[X > u¦ = P¦X >t¦, t ≥0, u > 0. (5)
De cette relation il suit que pour tout u ∈ R
1
+
E¦X [ X > u¦ = u+


0
ue
−λu
du = u+EX. (6)
289
De l’autre côté on voit
E¦X [ X ≤t¦ =

t
0
P¦t ≥X ≥u¦
P¦t ≥X¦
du =

t
0
e
−λu
−e
−λt
1−e
−λt
du =
1
λ

te
−λt
1−e
−λt
. (7)
Remarque 3. Si h est petit (h →0), alors
P¦X ≤h¦ = λh+o(h).
L’interprétation de ce résultat est la suivant. Admettons qu’à la date t, t > 0, l’élément
fonctionne. Alors la probabilité de panne dans ]t, t +h] vaut
λh+o(h),
pour des petites valeurs de h, h > 0.
Modèle de Weibull.
Soit
F(t) = F(t; α, λ) = P¦X ≤t¦ =
_
1−e
−λt
α
_
1
]0,∞[
(t), λ > 0, α > 0, t ∈ R
1
, (8)
i.e., X suit une loi de Weibull W(α, λ) de paramèters α et λ. Dans ce modèle
S(t) = S(t; α, λ) = e
−λt
α
1
]0,∞[
(t), (9)
f (t) = f (t; α, λ) = αλt
α−1
e
−λt
α
1
]0,∞[
(t). (10)
On peut montrer que
EX
k
= λ
−k/α
Γ
_
k
α
+1
_
,
et par conséquent
EX =
1
λ
1/α
Γ
_
1
α
+1
_
, EX
2
=
1
λ
2/α
Γ
_
2
α
+1
_
et donc
VarX =
1
λ
2/α
Γ
_
2
α
+1
_

1
λ
2/α
Γ
2
_
1
α
+1
_
.
On remarque que le coefficient de variation de X est
v =

VarX
EX
=
¸
Γ
_
1+
2
α
_
Γ
2
_
1+
1
α
_ −1 =
π
α

6
+O
_
1
α
2
_
, α →∞,
d’où on tire que la distribution de Weibull devient de plus en plus concentrée autour de EX,
quand α devient de plus en plus grand. Il est évident que
α(t) =
f (t)
S(t)
= αλt
α−1
. (11)
Si α > 1, le risque de panne α(t) croit de façon monotonne, à partir de 0, et on dit qu’il y
a usure. Si α < 1, le risque de panne α(t) décroit de façon monotonne et il n’est pas borné
pour t = 0, dans ce cas on dit qu’il y a rodage. Si α = 1, on obtient une loi exponentielle de
290
paramètre λ.
Remarque 4. Soit X = (X
1
, . . . , X
n
)
T
un échantillon tel que
P¦X
i
≤x¦ = G(x; α, λ)1
]0,∞[
(x), α > 0, λ > 0 x ∈ R
1
, (12)
où G(x; α, λ) une fonction de répartition qui vérifie les conditions :
lim
x↓0
G(x; α, λ)
λx
α
= 1, G(x; α, λ) = 0, x ≤0,
pour tout α et λ fixés.
Soit X
(1)
= X
(n1)
= min(X
1
, X
2
, . . . , X
n
). Alors
n
1/α
X
(n1)
L
→W(α, λ), quand n →∞.
En effet, pour tout x > 0 on a
P¦X
(n1)
> x¦ = [1−G(x; α, λ)]
n
et
P¦n
1/α
X
(n1)
> x¦ =
_
1−G
_
x
n
1/α
; α, λ
__
n
,
d’où on déduit que si n →∞, alors
lnP¦n
1/α
X
(n1)
> x¦ = nln
_
1−G
_
x
n
1/α
; α, λ
__
=
= n
_
−λ
_
x
n
1/α
_
α
+o
_
1
n
__
=−λx
α
+o(1),
d’où on tire que pour tout x > 0
lim
n→∞
P¦n
1/α
X
(n1)
> x¦ = e
−λx
α
= S(x; α, λ), (13)
i.e. asymptotiquement (n →∞) la statistique X
(n1)
suit la loi de Weibull W(α, λ) de para-
mètres α et λ.
Remarque 5. Soit X ∼W(α, λ). Considérons la statistique Z = lnX. On a
P¦Z ≤z¦ = P¦lnX ≤z¦ = P¦X ≤e
z
¦ == 1−exp¦−(λe
z
)
α
¦
= 1−exp
_
−exp
_
α(z −ln
1
λ
)
__
= 1−exp
_
−exp
z −µ
σ
_
, (14)

µ = ln
1
λ
et σ =
1
α
> 0.
Modèle gamma.
On suppose que la densité de X est
f (t) = f (t; λ, p) =
λ
p
Γ(p)
t
p−1
e
−λt
1
]0,∞[
(t), λ > 0, p > 0, t ∈ R
1
. (15)
291
Alors
EX =
p
λ
, VarX =
p
λ
2
,
et
α(t) =
f (t)
S(t)
=
t
p−1
e
−λt

t
x
p−1
e
−λx
dx
. (16)
On peut montrer que si p > 1, alors α(t) est croissante et
lim
t→∞
α(t) = λ.
D’un autre côté, si 0 < p < 1, α(t) est décroissante et
lim
t→∞
α(t) = λ.
En effet,
1
α(t)
=

t
x
p−1
e
−λx
dx
t
p−1
e
−λt
=

t
_
x
t
_
p−1
e
−λ(x−t)
dx, t > 0.
Après avoir fait le changement de variable dans l’intégrale :
u = x −t, dx = du, (u > 0),
on obtient que
1
α(t)
=

0
_
1+
u
t
_
p−1
e
−λu
du, t > 0.
Posons
g
u
(t) =
_
1+
u
t
_
p−1
, t > 0,
pour tout u > 0.
Comme
dg
u
(t)
dt
=−(p−1)
u
t
2
_
1+
u
t
_
p−2
,
on en tire que pour tout u (u > 0)
dg
u
(t)
dt
> 0, si 0 < p < 1,
dg
u
(t)
dt
< 0, si p > 1,
dg
u
(t)
dt
= 0, si p = 1,
d’où on déduit que pour tout u > 0
g
u
(t) est croissante, si 0 < p < 1,
g
u
(t) = 1, si p = 1,
g
u
(t) est décroissante, si p > 1,
et par conséquent on obtient que
292
α(t) est d´ croissante, si 0 < p < 1,
α(t) = λ, si p = 1, et donc on a la loi exponentielle de paramètre λ,
α(t) est croissante, si p > 1.
Enfin, on remarque que pour tout p > 0
lim
t→∞
1
α(t)
=
1
λ
et donc lim
t→∞
α(t) = λ.
Modèle de Rayleigh.
Dans ce modèle la fonction de survie d’une durée de survie X est
S(t) = S(t; c) = exp¦−A(t)¦ = exp
_

ct
2
2
_
1
[0,∞[
(t), c > 0, (17)
f (t) = f (t; c) =−S
/
(t) = ct exp
_

ct
2
2
_
1
[0,∞[
(t), (18)
A(t) =
t

0
α(u)du =
t

0
cudu =
ct
2
2
, t ≥0,
et par conséquent α(t) = A
/
(t) = ct, et donc dans ce modèle α(t) est une fonction linéaire.
On peut montrer, que
EX =
_
π
2c
, VarX =
4−π
2c
.
Il est claire que le modéle de Rayleigh représente le cas particulier du modéle de Weibull
avec α = 2 et λ = c/2.
Modèle de Pareto.
Dans ce modèle la fonction de survie est
S(t) = S(t; α, θ) =
_
θ
t
_
α
1
[θ,+∞[
(t), t ∈ R
1
, θ > 0, α > 0, (19)
f (t) = f (t; α, θ) =−S
/
(t) = αθ
α
1
t
α+1
1
[θ,+∞[
(t), t ∈ R
1
, (20)
par conséquent
α(t) =
α
t
1
[θ,+∞[
(t). (21)
Il est évident que α(t) est décroissante. On emploie ce modèle lorqu’on est assuré que la
survie dure au moins jusqu’à un instant θ > 0.
Modèles de Gompertz et de Makeham (taux de défaillance exponentiel).
Soit T est une durée de survie dont le taux de défaillance est
α(t) = αe
βt
1
[0,∞[
(t), α > 0, β > 0. (22)
293
Dans ce cas la densité de T est
f (t) = f (t; α, β) = αe
βt
e
−α[e
βt
−1]/β
(23)
et la fonction de survie est
S(t) = S(t; α, β) = exp¦
α
β
(1−e
βt
)¦. (24)
Souvent on dit que T suit une loi de Gompertz ou Makeham-Gompertz. Parfois on considère
α(t) = γ +αe
βt
, (25)
où γ ≥ 0, et dans ce cas on dit qu’il y a une loi de Makeham où de Makeham-Gompertz.
Récemment Gerville-Réache et Nikulin (2001) ont construit le test de type du chi-deux
pour ce modèle.
Classe de Lehmann et le modèle de Cox à hasard proportionnel.
Soit S(t), t ∈ R
1
+
, une fonction de survie, considérée comme la fonction de survie de
base. A la base de S(t) on construit soit disant la classe paramétrique de Lehmann
H
θ
=¦S(t; θ), θ ∈ Θ =]0, ∞[¦
de fonctions de survie S(t; θ), en posant
S(t; θ) = S
θ
(t), θ ∈ Θ =]0, ∞[= R
1
+
. (26)
Soit T une durée de survie, dont la fonction de survie appartient à cette classe de Lehmann :
P
θ
¦T >t¦ = S(t; θ), t ∈ R
1
+
.
Il est évident que si θ = 1, alors on obtient la fonction de survie de base S(t) :
P
1
¦T >t¦ = S(t; 1) = S(t), t ∈ R
1
+
.
De (26) il suit que la fonction de défaillance de T est
F(t; θ) = P
θ
¦T ≤t¦ = 1−S(t; θ) = 1−S
θ
(t), (27)
d’où on tire que la densité de T est
f (t; θ) = θ[1−F(t)]
θ−1
f (t), (28)
oú F(t) = 1 −S(t) et f (t) = F
/
(t). De (26) et (28) on trouve que le taux de défaillance
instantanné de T est
α(t; θ) = θ
f (t)
S(t)
= θα(t), (29)
où α(t) = f (t)/S(t) est le taux de défaillance de base, correspondant à θ = 1. Grâce à (29)
ce modèle est connu sous le nom de modéle à hasard proportionnel.
Remarque 6. Il est clair que le modèle exponentiel entre dans une classe d’alternatives
de Lehmann. En effet, en choisissant
S(t) = e
−t
1
]0,∞[
(t)
294
comme la fonction de survie de base, on obtient le modèle paramétrique exponentiel dont
la fonction de survie est
S(t; θ) = e
−θt
1
[0,∞[
(t), θ > 0.
Comme le taux de défaillance de base α(t) = 1, on en tire que le taux de défaillence de
modèle exponentiel est α(t; θ) ≡θ.
Soit Z = (Z
1
, ..., Z
p
)
T
∈ R
p
un vecteur de p variables exogènes ( explicatives), appelé
covariable ou stress, Z ∈ E, où E est l’ensemble des tous les stresses admissibles (pos-
sibles). Soit
r() : E →R
1
+
, r(0
p
) = 1,
par exemple r(Z) = e
β
T
Z
, où et β = (β
1
, ..., β
p
)
T
∈ R
p
est le vecteur représentant les effets
estimés des variables exogènes Z
1
, ..., Z
p
sur T, alors en introduisant les paramètres
θ = r(Z) = e
z
T
β
et α(t) = α(t [ Z = 0
p
), (30)
où z est une réalisation obsevée de Z, on obtient le modèle (29) dans la forme suivante :
α(t; z) = α(t [ Z = z) = α(t)r(z) = α(t)e
z
T
β
, (31)
connu, au cas r(Z) = e
β
T
Z
, sous le nom de modèle de regression de Cox avec des cova-
riables constantes en temps. Dans ce modèle pour tout t ∈ R
1
+
le logarithme du taux de
hasard
lnα(t [ Z = z) = lnα(t) +lnr(Z) = lnα(t) +
p

j=1
z
j
β
j
est donné par une régression linéaire sur des variables explicatives Z
1
, ..., Z
p
.
Souvent Z ne dépend pas de temps, mais en principe le modèle de Cox générale l’admet.
Le modèle (31), comportant un paramètre β ∈ R
p
et un paramètre fonctionel α(t), est
appelé semiparamétrique.
On remarque que
β
k
=

∂z
k
lnα(t [ Z = z), k = 1, ..., p, (32)
et donc nous pouvons dire que le paramètre β
k
fournit une bonne approximation de la
modification du taux de hasard correspondant à une modification d’une unitè de la variable
explicative Z
k
. En effet, si, par exemple, une seule variable Z
k
est égale à 1, toutes les autres
étant nulles, on obtient que
α(t [ Z
1
= ... = Z
k−1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1) = α(t)e
β
k
,
i.e.
e
β
k
=
α(t [ Z
1
= ... = z
k−1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1)
α(t)
, (33)
d’où on tire que
β
k
= ln
α(t [ Z
1
= ... = Z
k−1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1)
α(t)
. (34)
C’est intéressant de remarquer que les rapports dans (33) et (34) ne dépendent pas du taux
de défaillance de base α(t). C’est pour cette raison qu’on utilise le vecteur b pour évaluer
295
les effets des variables explicatives (de contrôle) Z
1
, ..., Z
p
sur T.
Modèle simple de la vie accélérées.
Soit S(t), t ≥0, une fonction de survie, considérée comme la fonction de survie de base.
En utilisant S(t) nous pouvons construire une classe de Lehmann
¦S(t; θ), θ ∈ Θ =]0, ∞[¦
de fonction de survie en posant
S(t; θ) = S(θt). (35)
Si T une durée de survie, dont la fonction de survie appartient à la classe
¦S(t; θ) = S(θt), θ > 0¦, (36)
i.e., pour tout θ > 0
P
θ
¦T >t¦ = S(t; θ) = S(θt), (37)
nous disons que l’on a le modèle simple de la vie accélérées.
On remarque que si θ = 1, alors
P
1
¦T >t¦ = S(t; 1) = S(t), (38)
i.e., la fonction de survie de base S(t) appartient à la classe (36).
Notons F(t) = 1 −S(t) la fonction de défaillance de base. Supposons qu’il existe la
densité
f (t) = F
/
(t). (39)
Dans ce cas pour tout θ la fonction de défaillance
F(t; θ) = F(θt), t ≥0, (40)
a sa densité
f (t; θ) = θf (θt), t ∈ R
1
+
, (41)
d’où on tire que le risque instantané de T est
α(t; θ) =
f (t; θ)
S(t; θ)
=
θf (θt)
S(θt)
. (42)
Si T est une durée de survie qui suit la loi de base F(t), alors il est claire que la durée de
survie T/θ suit la loi F(t; θ) = F(θt), puisque
P
θ
¦
T
θ
≤t¦ = P
θ
¦T ≤θt¦ = F(θt) = F(t; θ), (43)
d’où on voit clairement le rôle multiplicatif du paramètre θ (de paramètre d’échelle) dans
le modèle de la vie accélérée : si une durée de survie T suit une loi F(t), considérée comme
la loi de base, alors la loi de T/θ est
F(t; θ) = F(θt) pour chaque θ > 0.
On remarque que de (11) et (29) il suit que les deux modèles
¦S(θt), θ ∈ Θ =]0, 1[¦ et
_
S
θ
(t), θ ∈ Θ =]0, 1[
_
296
coinsident si et seulement si le risque instantané de base est
α(t) = γt
β
, γ > 0, β > 0,
i.e. si la fonction de survie de base S(t) appartient à une famille de Weibull W(α, λ), donnée
par la formule (11) avec α = 1+β et λ = γ/(1+β).
Enfin on remarque qu’ici nous pouvons nous mettre dans la situation du modèle de Cox, en
introduisant le paramètre β et le vecteur covariable Z telles que
θ = r(Z) = e
Z
T
β
, z ∈ R
p
, β ∈ R
p
,
Z ∈ E, où E est l’ensemble des tous les stresses admissibles (possibles),
r() : E →R
1
+
, r(0
p
) = 1.
Modèle log-logistique.
Soit X une variable aléatoire qui suit la loi logistique standard L(0, 1), dont la densité
est
g
X
(x) =
e
x
[1+e
x
]
2
=
e
−x
(1+e
−x
)
2
, x ∈ R
1
. (44)
La fonction de répartition de X est
G(x) = P¦X ≤x¦ =
1
1+e
−x
=
e
x
1+e
x
.
En utilisant X, on construit une durée de survie T telle que
lnT =−lnµ+
1
λ
X, (45)
i.e.
T = exp¦
1
λ
X −lnµ¦ (46)
pour tout λ > 0 et µ > 0. Par calcul direct on trouve que la densité de T est
f (t; θ) =
λµ(µt)
λ−1
[1+(µt)
λ
]
2
1
[0,∞[
(t), (47)
où θ = (µ, λ)
T
, µ > 0, λ > 0. On dit que T suit une loi log-logistique LL(µ, λ) de paramètre
θ = (µ, λ). De (47) on trouve
F(t; θ) = P
θ
¦T ≤t¦ =
(µt)
λ
1+(µt)
λ
, t ∈ R
1
+
et donc la fonction de survie de T est
P
θ
¦T >t¦ = S(t; θ) =
1
1+(µt)
λ
, t ∈ R
1
+
. (48)
De (47) et (48) on tire que le risque instantanné de T est
α(t; θ) =
λµ(µt)
λ−1
1+(µt)
λ
=
λ
t
[1−S(t; θ)] =
λ
t
F(t; θ). (49)
297
De (49) il suit que α(t; θ) est décroissante, si 0 < λ < 1, i.e., dans ce cas T appartient à la
classe DFR. Par contre, si λ > 1, alors α(t; θ) a un maximum
λ
max
= µ(λ−1)
(λ−1)/λ
au point
t =
1
µ
(λ−1)
1/λ
.
Enfin on remarque que si une durée de survie T suit une loi log-logistique LL(µ, λ), alors
ln
S(t; θ)
F(t; θ)
= ln
P
θ
¦T >t¦
P
θ
¦T ≤t¦
=−λlnt −λlnµ, (50)
i.e., le logarithme du rapport de probabilité de survie à la probabilité de défaillance est une
fonction linéaire du logarithme du temps t (ici θ = (λ, µ)
T
avec λ > o, µ > 0).
Remarque 7. Il est évident que si une fonction de survie S(t; θ) est considérée comme
la fonction de survie de base, on peut construire la classe d’alternative de Lehmann, en
introduisant
S(t; θ, z) = [S(t; θ)]
e
z
T
β
, z ∈ R
p
, β ∈ R
p
.
Dans ce modèle le taux de défaillance α(t; θ, β) est
α(t; θ, z) = α(t; θ)e
z
T
β
.
Dans cette optique
S(t; θ) = S(t; θ, 0
p
), et α(t; θ) = α(t; θ, 0
p
),
où 0
p
= (0, ..., 0)
T
∈ R
p
.
6.4 Modèles nonparamétriques
.
Définition 1 (La classe de Polya d’ordre 2 ( PF
2
)). On dit que T ∼PF
2
, si pour tout s ∈R
1
+
la fonction
g
s
(t) =
f (t)
F(t +s) −F(t)
est croissant en t.
Théorème 1. T ∼PF
2
si et seulement si pour tout s ∈ R
1
+
la fonction
f (t −s)
f (t)
est croissant en t.
On remarque que T ∼PF
2
si et seulement si
f (t +s)
f (t)
298
est décroissante en t, ce qui est équivalent au théorème 1.
Définition 2 (IFR). On dit qu’un élément, dont la durée de survie est T, est vieillissant si
son taux de panne α(t) est croissant ( décroissant), i.e.
α(s) ≤α(t) 0 < s <t, (s, t) ∈ R
1
+
R
1
+
.
On dit aussi que T a IFR (DFR) et on note T ∼IFR (T ∼DFR).
IFR (DFR) vient de Increasing (Decreasing) Failure Rate
Souvent les différents modèles nonparamétriques sont classée suivant que le risque instan-
tané α(t) est croissant ou décroissant. La fonction F(t) =P¦T ≤t¦ est alors dite distribution
IFR ou DFR respectivement et on note F ∈ IFR, (F ∈ DFR).
De la définition 2 il suit que T ∼IFR si et seulement si la fonction lnS(t) est concave.
Théorème 2. Soit T ∼IFR. Alors
S(t) > e
−t/ET
, 0 <t < ET.
Démostration. Puisque T ∼ IRF, on en tire que la fonction α(t) est croissante. Comme
A(t) =

t
0
α(s)ds, alors A
//
(t) = α
/
(t) > 0 et donc la fonction A(t) est convexe, d’où on tire
que
A(t) ≤
A(ET)
ET
t, 0 ≤t ≤ET.
Puisque A(ET) < 1, alors on a
S(t) = e
−A(t)
> e
−t/ET
, 0 <t ≤ET.
Théorème 3. Soit T ∼DFR. Alors
S(t) ≤
_
e
−t/ET
, si t ≤ET,
1
et
ET, si t ≥ET.
Théorème 4. Si T ∼IFR, alors
ET
2
≤2(ET)
2
.
Corollaire 1. Si T ∼IFR, alors son coefficient de variation
v =

VarT
ET
≤1.
Théorème 5. Si T ∼DFR, alors
ET
2
≥2(ET)
2
.
Corollaire 2. Si T ∼DFR, alors son coefficient de variation
v =

VarT
ET
≥1.
Souvent pour classer les modèles on emploie le risque moyen
RM(t) =
1
t
A(t) =
1
t

t
0
α(s)ds.
299
Définition 3 (IFRA). Si RM(t) est croissant (décroissant), alors on dit que T a une dis-
tribution à taux de défaillance moyen croissant (décroissant) en temps et on note T ∼
IFRA (DFRA).
IFRA (DFRA) vient de Increasing (Decreasing) Failure Rate Average.
Théorème 7. Soit F(t) = P¦T ≤ t¦ la fonction de répartition de T, S(t) = 1 −F(t) la
fonction de survie de T. Alors T ∼IFRA si et seulement si pour tout θ ∈]0, 1[ on a
S(θt) ≥S
θ
(t), t ∈ R
1
+
.
Autrement dit, si pour tout θ ∈]0, 1[ la durée de survie du modèle de la vie accélérée corres-
pondante à ce θ donné est stochastiquement plus grande que la durée de survie correspon-
dante de la classe de Lehmann (au modèle de Cox).
Théorème 8. Si T ∼IFR, alors T ∼IFRA, i.e. IFR ⊂IFRA.
Démonstration. En effet, comme T ∼IFR, on a
A(t) =

t
0
α(s)ds ≤tα(t), t ∈ R
!
+
,
puisque le risque instantané α(t) est croissant, d’où on tire que
_
A(t)
t
_
/
=
tα(t) −A(t)
t
2
≥0,
i.e. A(t)/t est croissante en t, donc T ∼IFRA.
Définition 4 (NBU). On dit que T ∼ NBU ( New Better then Used où Neuf meilleur
Usagé) si pour tout u > 0
S
u
(t) ≤S(t), t ∈ R
1
+
.
Ici S
u
(t) = 1−F
u
(t) = P¦T > u+t [ T > u¦.
De cette définition on tire que T ∼NBU si et seulement si
S(u+t) ≤S(u)S(t) pour tout u, t ∈ R
1
+
,
i.e., si et seulement si pour tout u, t ∈ R
1
+
A(u+t) ≥A(u) +A(t).
Théorème 9. Si T ∼IFRA, alors T ∼NBU, i.e. IFRA ⊂NBU.
Démonstration. Soit T ∼IFRA. Dans ce cas
A(t)
t
=
1
t

t
0
α(s)ds, t ∈ R
1
+
,
est croissante en t, d’où on tire que pour tout θ ∈]0, 1[ on a
A(θt) ≤θA(t) et A((1−θ)t) ≤(1−θ)A(t), t ∈ R
1
+
.
De ces deux inégalités on déduit que pour tout θ ∈]0, 1[
A(θt) +A((1−θ)t) ≤A(t), t ∈ R
1
+
.
300
En posant θt = u et (1−θ)t = v, on obtient que
A(u) +A(v) ≤A(u+v), u, v ∈ R
1
+
,
et donc T ∼NBU.
On remarque que IFR ,= IFRA, i.e. on peut construire une durée de survie T telle que
A(t)
t
est croissante en t, t ∈ R
1
+
, mais α(t) n’est pas croissante. En effet, soit
α(t) =
_
_
_
t, si 0 <t ≤1,
2−t, si 1 <t ≤

2,
2−

2, si t >

2.
Dans ce cas
1
t
A(t) =
1
t

t
0
α(s)ds =
_
_
_
t
2
, si 0 <t ≤1,
2−
t
2

1
t
, si 1 <t ≤

2,
2−

2, si t >

2.
On voit que
_
1
t
A(t)
_
/
≥0, t ∈ R
1
+
,
i.e. T ∼IFRA, mais la fonction α(t) n’est pas croissante, et donc la distribution de T n’ap-
partient pas à IFR.
La durée de vie moyenne restante.
Soit T une durée de survie,
F(t) = P¦T ≤t¦, S(t) = 1−F(t), t ∈ R
1
+
.
Pour tout s ≥0 nous pouvons considérer la fonction de défaillance conditionnelle
F
R
s
(t) = F
s
(t) = P¦T ≤s +t [ T > s¦ = P¦T −s ≤t [ T > s¦ =
P¦s < T ≤s +t¦
P¦T > s¦
=
F(s +t) −F(s)
S(s)
, t ∈ R
1
+
. (1)
On remarque que F
s
(t) = F(t), si s = 0. Comme F
s
(t) a toutes les propriétés d’une fonction
de répartition, du théorème de Kolmogorov il suit l’existance d’une variable aléatoire réelle
R
s
admettant F
s
(t) en qualité de sa fonction de répartition :
F
s
(t) = P¦R
s
≤t¦, t ∈ R
1
+
. (2)
Définition 5. La variable aléatoire R
s
est appelée la durée de vie restante où résiduelle (the
residual life) de la durée de survie T qui a atteint l’âge s.
Donc, pour tout s fixé, s ∈ R
1
+
, R
s
est la durée de vie restante de T, sachant que T > s, et sa
loi est une loi conditionnelle avec la fonction de survie
S
R(s)
(t) = S
s
(t) = 1−F
s
(t) = 1−
F(s +t) −F(s)
S(s)
=
301
S(s) −[1−S(s +t)] −[1−S(s)]
S(s)
=
S(s +t)
S(s)
, t ∈ R
1
+
. (3)
Donc S
s
(t) est la probabilité de survie au cours de la périod ]s, s +t] sachant que le sujet
a été vivant jusqu’à s, s ∈ R
1
+
. Il faut remarquer ici que de la construction de S
s
(t) il suit
que la famille ¦S
s
(t), s ∈ R
1
+
¦ de fonctions de survie conditionnelle caractérise la loi de T.
Du théorème 2 il suit que F
s
(t) = F(t) si et seulement si X suoit une loi exponentielle (on
suppose que F est continue).
Si T a la densité f (t) = F
/
(t), alors la densité de R
s
existe et s’exprime par la formule
f
R
s
(t) = f
s
(t) =
f (s +t)
S(s)
, t ∈ R
1
+
. (4)
Cette formule s’ensuit immédiatement de (1).
On remarque que si t = 0, alors
f
s
(0) = lim
t→0
F
s
(t) =
f (s)
S(s)
= α(s), (5)
où α(t) = f (t)/S(t), t ∈ R
1
+
, est le risque instantané de T. Dans la remarque 3 de §3 on
a montré que la fonction de survie S(t) de T s’exprime en terme du taux de défaillance
instantané α(t) :
S(t) = exp¦−

t
0
α(u)du¦, t ∈ R
1
+
,
d’où on tire que S
s
(t) s’exprime aussi en terme de α(t) :
S
s
(t) =
S(s +t)
S(s)
= exp¦−

s+t
s
α(x)dx¦ = exp¦−

t
0
α(u+s)du¦, (6)
et donc le risque instantané α
R
s
(t) de R
s
est
α
R
s
(t) = α(s +t), t ∈ R
1
+
, (7)
où α(t) est le risque instantané de T.
Soit T une durée de survie. Pour tout s ∈ R
1
+
on peut considérer sa vie restante R
s
.
Théorème 10. Le risque instantané de défaillance α(t) de durée de survie T est croissant
si et seulement si R
u
est stochastiquement plus grande que R
v
pour tous u < v, (u, v ∈ R
1
+
).
Démostration. De (6) on a
S
s
(t) = exp¦−

s+t
s
α(x)dx¦, t ∈ R
1
+
,
pour tout s ∈ R
1
+
, d’où on tire que

∂s
S
s
(t) = [α(s) −α(s +t)]S
s
(t). (8)
Puisque S
s
(t) > 0, on tire de (8) que S
s
(t) est décroissante (croissante) en s si et seulement
si le risque de défaillance α(t) est croissant (décroissant). Mais si S
s
(t) est décroissante en
s, alors
S
u
(t) ≥S
v
(t) pour tout u < v, (9)
302
ce qui signifie que R
u
est stochastiquement plus grande que R
v
, u < v. Le théorème est
démontré.
Définition 6. L’espérance mathématique r(s) = ER
s
, s ∈ R
1
+
, est appelée la durée moyenne
de la vie restante R
s
.
De cette définition on trouve que
r(s) = ER
s
= E¦T −s [ T > s¦ = E¦T [ T > s¦−s, s ∈ R
1
+
, (10)
et en particulier r(0) = ET.
Théorème 11. La durée moyenne r(s), s ∈ R
1
+
, de la vie restante R
s
caractérise la loi de la
durée de survie T.
Pour démontrer ce théorème il suffit de montrer que r(s) s’exprime en terme de S(s), par
exemple, ce qui n’est pas difficile, puisque de la définition de r(s) il suit que
r(s) =
1
S(s)


s
S(u)du, s ∈ R
1
+
, (11)
et réciproquement
S(t) =
r(0)
r(t)
exp¦−

t
0
1
r(x)
dx¦, t ∈ R
1
+
.
Définition 7 (NBUE). On dit que T ∼ NBUE (New is Better than Used in Expectation) si
pour tout s ∈ R
1
+
ET ≥E¦T −s [ T > s¦ = ER
s
.
Théorème 12. Si T ∼NBU, alors T ∼NBUE, i.e. NBU ⊂NBUE.
Démonstration. En effet, pour tout s > 0 on a
S
s
(t) ≤S(t), t ∈ R
1
+
,
d’où on tire que


0
S
s
(t)dt ≤


0
S(t)dt,
i.e.
r(s) = ER
s
≤ET = r(0), s ∈ R
1
+
,
donc, T ∼NBUE.
Définition 8 (DMRL). On dit que T ∼DMRL (Decreasing Mean Residual Life), si pour
tout 0 ≤s <t < ∞
E¦T −s [ T > s¦ ≥E¦T −t [ T >t¦.
On dit aussi que T a la durée de vie moyenne restante décroissante.
Théorème 13. Si T ∼DMRL, alors T ∼NBUE, i.e. DMRL ⊂NBUE.
Définition 9 (HNBUE). On dit que T ∼ HNBUE (Harmonic New Better than Used in
Expectation) si
1
ET


s
S(t)dt ≤e
−s/ET
pour tout s ∈ R
1
+
.
Exemple 2. Soit P¦T ≥t¦ = S(t), où
S(t) =
_
_
_
1, 0 ≤t < 1,
0.25, 1 ≤t < 3,
0, t ≥3.
303
Il est facile de vérifier que T ∼HNBUE.
Enfin on introduit encore une classe qui est assez naturelle.
Définition 10. (IDMRL) On dit que T ∼IDMRL (Increasing and Decreasing Mean Resi-
dual Life), si la vie moyenne restante r(s) de T est unimodale i.e., s’il existe s
0
> 0 tel que
r(s) est croissante sur [0, s
0
[ et décroissante sur [s
0
, ∞[.
De façon analogue à l’introduction de la classe DFR on peut introduire les classes sui-
vantes :
DFRA - Decreasing Failure Rate on Average,
NWU - New Worse than Used,
NWUE - New Worse than Used in Expectation,
IMRL - Increasing Mean Residual Life,
HNWUE - Harmonic New Worse than Used in Expectation.
6.5 Types de censure.
1. Censure du type I : temps à censure fixé C.
Définition 1 (Censure à droite). Étant donné un échantillon X = (X
1
, ..., X
n
)
T
de durées
de survie X
i
et un nombre positif fixé C, on dit qu’il y a censure à droite de cet échantillon ,
si au lieu d’observer X
1
, ..., X
n
, on observe n statistiques
(T
1
, D
1
), ..., (T
n
, D
n
),

T
i
= X
i
∧C = min(X
i
,C), D
i
= 1
¦T
i
=X
i
¦
=
_
1, si X
i
≤C,
0, si X
i
>C.
(6.1)
Il est clair que
T
i
= X
i
1
¦X
i
≤C¦
+C1
¦X
i
>C¦
.
Donc, en realité on observe la défaillance (le décès) du sujet i si X
i
≤ C, et la variable
indicatrice D
i
de l’état aux dernières nouvelles vaut 1 dans ce cas. Dans le cas contraire,
X
i
>C et donc l’observation est censurée et l’état aux dernières nouvelles D
i
du sujet i vaut
0. Lorsqu’on ordonne les valeurs de T
i
par ordre croissant, obtenant les statistiques d’ordre
T
(1)
≤T
(2)
≤... ≤T
(n)
,
on ne perd aucune information.
C’est par exemple ce qui se passe lorsqu’on observe la durée de fonctionnement de n sys-
tèmes complexes au cours d’une expérience de durée C.
On remarque qu’en cas de censure non aléatoire à droite le nombre de décès (de pannes)
et les durées exactes de survie des sujets décédés sont aléatoires. La période maximale de
l’observation C est fixée. Soit f (x
i
; θ) la densité de X
i
,
X
i
∼ f (x
i
; θ), θ ∈ Θ, x
i
≥0,
304
et
S(x
i
; θ) = 1−F(x
i
; θ) = P
θ
¦X
i
> x
i
¦
sa fonction de survie, X
i
est un élément de l’échantillon X. Dans ce cas la densité de la
statistique (T
i
, D
i
) est donnée par la formule
g(t
i
, d
i
; θ) = [ f (t
i
; θ)]
d
i
[S(t
i
; θ)]
1−d
i
, t
i
> 0; d
i
∈ ¦0, 1¦,
par rapport à la mesure dλdµ, où λ est la mesure de Lebesgues sur [0, ∞[, et µ la mesure de
comptage sur ¦0, 1¦. Parce que la statistique D
i
, représente la partie discrète de la statistique
(T
i
, D
i
), on a
P
θ
¦T
i
, D
i
= 0¦ = P
θ
¦C ≤, X
i
>C¦ = S(C; θ),
=
_
S(C; θ) si C ≤t
i
,
0 sinon,
=

t
i
0
S(C; θ)1
v>C
dv,
et donc
g(t
i
, 0; θ) = S(C; θ)1
t
i
>C
.
De l’autre côté on a
P
θ
¦T
i
≤t
i
, D
i
= 1¦ = P
θ
¦X
i
≤t
i
, X
i
≤C¦
=
_
S(C; θ) si t
i
≤C,
0 sinon,
=

t
i
0
f (v; θ)1
v≤C
dv,
et donc
g(t
i
, 1; θ) = f (t
i
; θ)1
t
i
≤C
.
Donc la fonction de vraisemblance, correspondant aux observations (T
1
, D
1
), ..., (T
n
, D
n
),
est
L(θ) =
n

i=1
[ f (T
i
; θ)]
D
i
[S(C; θ)]
1−D
i
. (6.2)
On remarque que cette distribution est continue par rapport à T
i
, et discrète par rapport à
D
i
.
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un échantillon,
X
i
∼ f (x
i
; θ) = θe
−θx
i
, x
i
> 0, θ ∈ Θ =]0, +∞[,
i.e., la durée de survie du sujet i suit une loi exponentielle de paramètre θ. On remarque que
dans ce modèle
EX
i
=
1
θ
et VarX
i
=
1
θ
2
.
Supposons que la durée C de l’étude est fixée à l’avance.
-
t
0 T
(1)
T
(2)
T
(R)
C
Soient T = (T
1
, ..., T
n
)
T
, où T
i
= min(X
i
,C), et T
()
= (T
(1)
, ..., T
(R)
,C, ...,C)
T
le vecteur
des statistiques d’ordre associé à T,
0 < T
(1)
< T
(2)
< ... < T
(R)
<C.
305
La statistique
R = D
1
+D
2
+ +D
n
= D
(1)
+D
(2)
+... +D
(n)
,
nous indique le nombre de décès observés, R ∈ ¦0, 1, ..., n¦. Ici D
(i)
dénote la statistique D
i
associée à T
(i)
. De (2) il suit que la fonction de vraisemblance L(θ), correspondante à la
statistique T
()
, est donnée par la formule
L(θ) =
n

i=1
_
θe
−θT
i
_
D
i
_
e
−θT
i
_
1−D
i
= θ
R
exp
_
−θ
n

i=1
T
i
_
, (6.3)
donc la statistique exhaustive est bidimensionnelle,
(R, T) =
_
n

i=1
D
i
,
n

i=1
T
i
_
=
_
n

i=1
D
(i)
,
n

i=1
T
(i)
_
, (6.4)

T = T
1
+T
2
+ +T
n
= T
(1)
+T
(2)
+ +T
(n)
.
On note encore une fois que la loi marginale de R est discrète, ici elle est binomiale B(n, p),
p = p(θ) = S(C; θ) = P
θ
¦X
1
>C¦ = e
−Cθ
, (6.5)
et la loi marginale de T est continue.
Puisque
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(n−R)C, (6.6)
on en tire que la statistique
_
R,
R

i=1
T
(i)
+(n−R)C
_
(6.7)
est elle aussi exhaustive.
Pour estimer θ nous pouvons utiliser la méthode du maximum de vraisemblance. De (3)
et (5), de même que de (7), on déduit que
lnL(θ) = Rlnθ−θ
_
R

i=1
T
(i)
+(n−R)C
_
, (6.8)
d’où
Λ(θ) =

∂θ
lnL(θ) =
R
θ

_
R

i=1
T
(i)
+(n−R)C
_
, (6.9)
et l’estimateur de maximum de vraisemblance
ˆ
θ
n
du paramètre θ, qui vérifie l’équation
Λ(θ) = 0, est
ˆ
θ
n
=
R
R

i=1
T
(i)
+(n−R)C
=
n

i=1
D
i
n

i=1
T
i
. (6.10)
306
On remarque que si R > 10 et n assez grand pour que R/n < 0.1, alors on peut estimer en
s’appuyant sur la loi des grands nombres que
R

i=1
T
(i)
= R
1
R
R

i=1
T
(i)
≈R
C
2
.
On déduit alors de (10) que
ˆ
θ
n

R
_
n−
R
2
¸
C
.
Remarque 1. On dit que la statistique
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(n−R)C
est le temps global de survie (de fonctionnement) des sujets (des éléments) au cours des
essais.
Remarque 2. Calculons M(θ) = E
θ
T
i
et D(θ) = Var
θ
T
i
. On a
M(θ) = E
θ
T
i
=
C

0
tθe
−θt
dt +CP¦X
i
>C¦ =
=
1
θ
_
1−e
−θC
−θCe
−θC
_
+Ce
−θC
=
1
θ
_
1−e
−θC
_
.
D(θ) = Var
θ
T
i
= ET
2
i
−(ET
i
)
2
=
=
2
θ
2
_
1−e
−θC
−θCe
−θC
_

1
θ
2
_
1−2e
−θC
+e
−2θC
_
=
=
1
θ
2
_
1−2θCe
−θC
−e
−2θC
_
.
Supposons θC ¸1, c’est-à-dire que les éléments sont relativement sûrs. En décomposant
l’exponentielle en série, on obtient
e
−θC
≈1−θC+
(θC)
2
2

(θC)
3
6
,
e
−2θC
≈1−2θC+2(θC)
2

4
3
(θC)
3
,
d’où, puisque θC ¸1,
M(θ) = E
θ
T
i
≈C−
θC
2
2
+
θ
2
C
3
6
=C
_
1−
θC
2
+
(θC)
2
6
_
,
D(θ) = Var
θ
T
i

1
θ
2
_
2θC−2(θC)
2
+
4
3
(θC)
3
−2θC+2(θC)
2
−(θC)
3
+
(θC)
4
3
_
=
=
θC
3
3
[1−θC] ≈
θC
3
3
.
307
Si on utilise le théorème limite central, on trouve que si n →∞, alors le temps global de
fonctionnement
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(n−R)C
est asymptotiquement normal de paramètres nM(θ) et nD(θ) :
lim
n→∞
P
_
T −nM(θ)
_
nD(θ)
≤x
_
= Φ(x),
d’où on tire que pour les grandes valeurs de n la variable aléatoire
_
_
_
T −nC
_
1−
θC
2
+
(θC)
2
6
_
_
n
θC
3
3
_
_
_
2
est distribuée approximativement comme χ
2
1
, autrement dit pour de grands n on peut ad-
mettre que
_
T −nM(θ)
_
nD(θ)
_
2
= χ
2
1
.
On peut utiliser ce résultat pour estimer θ par intervalle.
2. Censure de type II : jusqu’au r-ième "décès".
Si au lieu de décider à l’avance de la durée C de l’étude on décide d’attendre que parmi
les n sujets initiaux ou les systèmes de l’étude, r soient morts ou en panne, on a affaire
à une censure de type II. En pratique on applique ce type de censure quand la durée de
vie moyenne avant la première panne du système est trop élevée par rapport à la durée de
l’étude et on ne fixe pas la durée de l’expérience, mais le nombre r de pannes que l’on
veut observer. Il est évident que dans cette situation le moment d’arrêt de l’expérience, le
moment T du décès de r-ième sujet, c’est-à-dire la durée de l’expérience est aléatoire. On
rappelle que dans le cas de la censure du type I la durée C de l’étude est fixée à l’avance,
mais le nombre de décès observés R est aléatoire.
Définition 2. (Censure du type II). Étant donné un échantillon
X= (X
1
, ..., X
n
)
T
de durées de survie X
i
et un nombre entier positif r, on dit qu’il y a censure
de type II, si au lieu d’observer X
1
, ..., X
n
on observe n statistiques
(T
1
, D
1
), . . . , (T
n
, D
n
),

T
i
= X
i
∧X
(r)
, D
i
= 1
¦T
i
=X
i
¦
, (6.11)
X
(r)
est la r-ième statistique d’ordre, i.e. X
(r)
est la r-ième composante du vecteur des
statistiques d’ordre X
()
= (X
(1)
, ..., X
(n)
)
T
associé à l’échantillon X,
0 < X
(1)
< X
(2)
< ... < X
(r)
< ... < X
(n)
. (6.12)
C’est-à-dire que dans la situation considérée la date de censure est X
(r)
et les observations
sont :
T
(i)
= X
(i)
, i = 1, 2, ..., r,
T
(i)
= X
(r)
, i = r, r +1, ..., n.
308
Si
X
i
∼ f (x
i
; θ) et S(x
i
; θ) = P
θ
¦X
i
> x
i
¦, x
i
> 0, θ ∈ Θ,
alors la fonction de vraisemblance associée aux statistiques
(T
1
, D
1
), (T
2
, D
2
), . . . , (T
n
, D
n
)
est
L(θ) =
n!
(n−r)!
n

i=1
f (T
(i)
; θ)
D
(i)
S(T
(i)
; θ)
1−D
(i)
=
=
n!
(n−r)!
r

i=1
f (X
(i)
; θ)S(X
(r)
; θ)
n−r
, (6.13)
puisque
n

i=1
D
i
= r, où r est donné.
Exemple 2. Soit
X
i
∼ f (x
i
; θ) = θe
−θx
i
, x
i
> 0, θ ∈ Θ =]0, +∞[,
i.e. X
i
suit une loi exponentielle de paramètre θ, θ > 0. Dans ce cas la fonction de vraisem-
blance, associée aux données censurées (censure du type II) est
L(θ) =
n!
(n−r)!
_
r

i=1
θe
−θX
(i)
_
_
e
−θX
(r)
_
n−r
=
=
n!
(n−r)!
θ
r
exp¦−θ
r

i=1
X
(i)
¦exp¦−θX
(r)
(n−r)¦ =
=
n!
(n−r)!
θ
r
exp
_
−θ
_
r

i=1
X
(i)
+(n−r)X
(r)
__
=
=
n!
(n−r)!
θ
r
exp
_
−θ
_
r

i=1
T
(i)
+(n−r)T
(r)
__
.
On voit que dans ce cas la statistique scalaire
T =
r

i=1
T
(i)
+(n−r)T
(r)
=
n

i=1
T
(i)
=
n

i=1
T
i
est exhaustive. Elle représente le temps global de survie (de fonctionnement). Il est évident
que l’estimateur de maximum de vraisemblance
ˆ
θ
n
est
ˆ
θ
n
=
n

i=1
D
i
n

i=1
T
i
=
r
r

i=1
T
(i)
+(n−r)T
(r)
.
On peut démontrer que
P¦T ≤x¦ =
n!
(n−r)!
θ
r

...

0<t
1
<<t
r
r

i=1
t
i
+(n−r)t
r
≤x
exp
_
−θ
_
r

i=1
t
i
+(n−r)t
r
__
dt
1
dt
r
=
309
= P¦χ
2
2r
≤2θx¦,
i.e.
T =
χ
2
2r

.
En effet,
P¦T ≤x¦ =
n!
(n−r)!
θ
r

...

0<t
1
<<t
r
r

i=1
t
i
+(n−r)t
r
≤x
exp
_
−θ
_
r

i=1
t
i
+(n−r)t
r
__
dt
1
dt
r
=
=
n!
(n−r)!
θ
r

...

0<t
1
<<t
r
r−1

i=1
t
i
+(n−r+1)t
r
≤x
exp
_
−θ
_
r−1

i=1
t
i
+(n−r +1)t
r
__
dt
1
dt
r
.
Après avoir fait le changement des variables :
t
1
= u
1
, t
2
= u
1
+u
2
, . . . , t
r−1
= u
1
+. . . +u
r−1
,
r−1

i=1
t
i
+(n−r +1)t
r
= u,
où u
i
> 0 et u ≤x, on a
P¦T ≤x¦ =
n!
(n−r)!
θ
r

...

u
1
>0,...,u
r−1
>0
r−1

i=1
(n−r+1)u
i
<u≤x
1
n−r +1
e
−θu
du
1
du
r−1
d
u
,
puisque
det
_
_
_
_
D(t
1
, . . . , t
r
)
D(u
1
, . . . , u
r−1
, u)
_
_
_
_
=
1
n−r +1
.
En faisant un nouveau changement des variables :
(n−i +1)u
i
= v
i
, i = 1, . . . , r −1, u = v,
on trouve que
P¦T ≤x¦ =
n!
(n−r +1)!
θ
r

...

v
1
>0,...,v
r−1
>0
r−1

i=1
v
i
<v≤x
r+1

i=1
1
n−i +1
e
−θv
dv
1
dv
r−1
d
v
=
= θ
r
x

0
e
−θv
dv

...

v
1
>0,...,v
r−1
>0
r−1

i=1
v
i
<v
dv
1
dv
r−1
=
310
= θ
r
x

0
v
r−1
e
−θv
dv =
1
Γ(r)

θx
0
y
r−1
e
−y
dy = P¦γ
r
≤θx¦ = P¦χ
2
2r
≤2θx¦.
De ce résultat il suit que
E
ˆ
θ
n
= E
2rθ
χ
2
2r
= 2rθ

0
1
x
1
2
r
Γ
_
2r
2
_x
2r
2
−1
e
−x/2
dx =
r
r −1
θ,
et donc
θ

n
=
r −1
r

i=1
T
(i)
+(n−r)T
(r)
est ici le meilleur estimateur sans biais (MVUE) pour θ. On note que
Varθ

n
=
θ
2
r −2
, r > 2.
Enfin, on remarque qu’en l’absence de censure, l’estimateur de maximum de vraisemblance
ˆ
θ
n
, obtenu avec toutes les données X
1
, ..., X
n
, est
ˆ
θ
n
=
n
n

i=1
X
i
=
1
¯
X
n
.
Exercice. Soit X = (X
1
, . . . , X
n
)
T
un échantillon, X
i
suit une loi exponentielle de paramètre
θ. Notons
Z
i
= (n−i +1)(X
(i)
−X
(i−1)
), (i = 1, 2, ..., n; X
(0)
= 0),
ω
i
= (Z
1
+... +Z
i
)/(Z
1
+... +Z
i+1
), (i = 1, 2, ..., n−1),
ω
n
= Z
1
+... +Z
n
, V
i
= ω
i
i
(i = 1, 2, ..., n−1).
Montrer que
a) les variables aléatoires ω
1
, ..., ω
n
sont indépendantes ;
b) V
i
∼U(0, 1).
Supposons qu’on ait une censure du type II avec r = 6, et que les 6 premiers moments de
défaillance de n = 100 téléviseurs sont :
60, 140, 240, 340, 400, 450 (jours).
c) Vérifier l’hypothèse que la durée de survie des téléviseurs suit une loi exponentielle
de paramètre θ. Utiliser les résultats de a), b) et le critère de Kolmogorov.
3. Censure du type III : censure aléatoire.
Définition 3. Etant donné un èchantillon X = (X
1
, ..., X
n
)
T
de durées de survie X
i
, on dit
qu’il y a censure aléatoire de cet échantillon s’il existe un autre échantillon C
C = (C
1
, ...,C
n
)
T
∈ R
n
+
311
indépendant de X, tel que au lieu d’observer X
1
, ..., X
n
on observe les statistiques
(T
1
, D
1
), (T
2
, D
2
), ..., (T
n
, D
n
), (6.14)

T
i
= X
i
∧C
i
, D
i
= 1
¦T
i
=X
i
¦
.
Donc en cas de censure aléatoire, on associe à chaque sujet i (i = 1, 2, ..., n) une statistique
de dimension 2 : (X
i
,C
i
) ∈ R
2
+
, dont seulement la plus petite composante est observée :
_
X
i
est la survie ,
C
i
est la censure .
On sait de plus quelle est la nature de cette durée :
si D
i
= 1, c’est une survie,
si D
i
= 0, c’est une censure.
Nous avons supposé que le délai de censure C
i
du sujet i est une variable aléatoire
indépendante de la durée de survie X
i
. Notons
H(t) = P¦C
i
≤t¦ et Q(t) = P¦C
i
>t¦
la fonction de répartition et la fonction de survie de C
i
et h(t) = H
/
(t), densité de C
i
, i =
1, 2, . . . , n. Dans ce cas la densité g(t
i
, d
i
; θ) de la statistique (T
i
, D
i
) est
f (t
i
; θ)Q(t
i
), si D
i
= 1 (X
i
est la survie),
h(t
i
)S(t
i
; θ), si D
i
= 0 (C
i
est la censure),
où S(x; θ) = 1−F(x; θ), i.e.,
(T
i
, D
i
) ∼g(t
i
, d
i
; θ) = [ f (t
i
; θ)Q(t
i
)]
d
i
[h(t
i
)S(t
i
; θ)]
1−d
i
.
On obtient donc la fonction de vraisemblance de l’échantillon (14)
L(θ) =
n

i=1
[ f (T
i
; θ)Q(T
i
)]
D
i
[h(C
i
)S(C
i
; θ)]
1−D
i
.
Comme Q(t) et h(t) ne dépendent pas de θ on en tire que
L(θ) = const
n

i=1
[ f (T
i
; θ)]
D
i
[S(C
i
; θ)]
1−D
i
.
On remarque que ce résultat suit immédiatement du fait que T
1
, T
2
, ..., T
n
forment aussi un
échantillon, où T
i
suit la même loi H(t; θ) = 1−S(t; θ)Q(t) :
H(t; θ) = P
θ
¦T
i
≤t¦ = 1−P
θ
¦T
i
>t¦ = 1−P
θ
¦min(X
i
,C
i
) >t¦ =
1−P
θ
¦X
i
>t,C
i
>t¦ = 1−P
θ
¦X
i
>t¦P¦C
i
>t¦ = 1−S(t; θ)Q(t).
312
6.6 Troncature.
Définition 1. On dit qu’il y a troncature gauche (respectivement droite) lorsque la va-
riable d’intérêt T n’est pas observable quand elle est inférieure à un seuil c > 0 fixé
(respectivement supérieure à un seuil C > 0 fixé).
On remarque que ce phénomène de troncature est très différent de celui de la censure,
car dans le cas de la censure, on sait que la variable T, non observée, est supérieure (ou
inférieure) à une valeur C qui, elle, a été observée. Donc, la troncature élimine de l’étude
une partie des T, ce qui a pour conséquence que l’analyse pourra porter seulement sur la loi
de T conditionnellement à l’événement (c < T ≤C), en cas de troncature gauche et droite
simultanées.
Exemple 1. Soit T une variable aléatoire, dont la fonction de répartition est
F(t) = P¦T ≤t¦.
Supposons que T ait pour densité f (t) = F
/
(t), et qu’il y ait troncature gauche et droite
simultanées : pour cette raison T est observable seulement sur l’intervalle ]c,C]. Donc, on
a une distribution tronquée dont la fonction de répartition est
F(t[c < T ≤C) =
_
¸
_
¸
_
0, si t ≤c,
F(t)−F(c)
F(C)−F(c)
, si c <t ≤C,
1, si t >C.
En termes de fonction de survie de T,
S(t) = P¦T >t¦ = 1−F(t),
la fonction de survie de la loi tronquée est
S(t[c < T ≤C) =
_
¸
_
¸
_
1, si t ≤c,
S(t)−S(C)
S(c)−S(C)
, si c <t ≤C,
0, si t >C.
Si C = +∞ et c > 0 on a une troncature à gauche,
si c = 0 et C < ∞ on a une troncature à droite.
Il est facile de vérifier que si f (t) existe alors la densité de la loi tronquée existe aussi et
f (t[c < T ≤C) =
_
f (t)
F(C)−F(c)
=
f (t)
S(c)−S(C)
, si c <t ≤C,
0, sinon.
Le risque de panne α(t[c < T ≤C) de la loi tronquée est
α(t[c < T ≤C) =
f (t[c < T ≤C)
S(t[c < T ≤C)
=
f (t)
S(t) −S(C)
,
qui peut s’écrire aussi
α(t[c < T ≤C) =
f (t)
S(t)
S(t)
S(t) −S(C)
= α(t)
S(t)
S(t) −S(C)
, c <t ≤C.
313
On remarque que le risque de panne ne dépend que de C. Donc, s’il n’y a que la troncature
à gauche (c > 0,C = ∞), on a S(C) = 0 et
α(t[c < T) = α(t),
i.e. la troncature à gauche ne change pas le risque de panne, tandis que la troncature à droite
augmente ce risque.
Notons T
c,C
la variable aléatoire, dont la fonction de répartition conditionnelle est
F(t[c < T ≤C) = F
c,C
(t).
Il est évident que
C

c
f
c,C
(t)dt = 1.
Nous pouvons calculer aussi son espérance mathématique
ET
c,C
= E¦T[c < T ≤C¦ =
C

c
t f
c,C
(t)dt.
Par exemple, si F(t) est la fonction de répartition de la loi uniforme sur [a, d], i.e.
F(t) =
_
_
_
0, t ≤a,
t−a
d−a
, a <t ≤d,
1, t > d,
et
[c,C] ⊂]a, d[,
alors
F(t[c < T ≤C) =
_
¸
_
¸
_
0, si t ≤c,
F(t)−F(c)
F(C)−F(c)
, si c <t ≤C,
1, si t >C,
=
_
_
_
0, si t ≤c,
t−c
C−c
, si c <t ≤C,
1, si t >C,
et la distribution tronquée est de nouveau uniforme, mais sur l’intervalle ]c,C].
(Voir Woodroofe (1985), Huber (1989).)
Exemple 2. Modèle de la loi normale tronquée. Soit T une durée de survie dont la fonc-
tion de répartition est
F(t; µ, σ
2
) = P
µ,σ
2¦T ≤t¦ =
Φ
_
t−µ
σ
_
−Φ
_

µ
σ
_
1−Φ
_

µ
σ
_ 1
[0,∞[
(t), t ∈ R
1
,
où Φ() est la fonction de répartition de la loi normale standard N(0, 1), [µ[ < ∞, σ
2
> 0.
On dit que la durée de survie T suit la loi normale, tronquée au zéro. La fonction de survie
de T est
S(t; µ, σ
2
) = 1−F(t; µ, σ
2
) =
1−Φ
_
t−µ
σ
_
Φ
_
µ
σ
_ 1
[0,∞[
(t), t ∈ R
1
,
314
et la densité de T est
f (t; µ, σ
2
) =
1
σΦ
_
µ
σ

_
t −µ
σ
_
1
[0,∞[
(t), t ∈ R
1
,
où ϕ() = Φ
/
(), d’où on tire que le risque de panne α(t) est
α(t) =
ϕ
_
t−µ
σ
_
σΦ
_
µ−t
σ
_1
[0,∞[
(t), t ∈ R
1
,
puisque Φ(x) +Φ(−x) ≡1, x ∈ R
1
.
La vie moyenne ET de T est
ET =


0
S(t; µ, σ
2
)dt =
1
Φ
_
µ
σ
_


0
Φ
_
µ−t
σ
_
dt =
σ
Φ
_
µ
σ
_

µ/σ
−∞
Φ(u)du =
σ
Φ
_
µ
σ
_
_
µ
σ
Φ
_
mu
σ
_

µ/σ
−∞
uϕ(u)du
_
=
µ+
σ
Φ
_
µ
σ
_

µ/σ
−∞
ϕ
/
(u)du = µ+
σϕ
_
µ
σ
_
Φ
_
µ
σ
_ > µ.
Pour étudier le comportement de α(t) on remarque que
ϕ(x)
_
1−
4
x
2
_
< ϕ(x) < ϕ(x)
_
1+
1
x
2
_
, x > 0, (1)
d’où on tire immédiatement que
_
1
x

1
x
2
_
ϕ(x) < 1−Φ(x) <
1
x
ϕ(x), x > 0, (2)
puisque
1
x
ϕ(x) =


0
ϕ(u)
_
1+
1
u
2
_
du
et
_
1
x

1
x
3
_
ϕ(x) =


x
ϕ(u)
_
1−
4
u
2
_
du.
Comme
α(t) =
ϕ
_
t−µ
σ
_
σΦ
_
µ−t
σ
_1
[0,∞[
(t), t ∈ R
1
,
de (2) on tire que
1
t

1
t
3
<
1
α(t)
<
1
t
,
d’où on obtient que
lim
t→∞
α(t)
t
= 1.
315
6.7 Estimateur de Kaplan-Meier.
Si l’on ne peut pas supposer a priori que la loi de la durée de survie X obéit à un modèle
paramétrique, on peut estimer la fonction de survie S(t) grâce à plusieurs méthodes non-
paramétriques dont la plus intéressante est celle de Kaplan-Meier, (1958).
Cet estimateur est aussi appelé P-L estimateur car il s’obtient comme un produit : la
probabilité de survivre au delà de l’instant t
(n)
est égale au produit suivant :
S(t
(n)
) = P¦X >t
(n)
¦ = P(X >t
(n)
[X >t
(n−1)
) S(t
(n−1)
) =

n
p
t
(n−1)
S(t
(n−1)
),
où 0 =t
(0)
<t
(1)
< ... <t
(n)
,

n
p
t
(n−1)
= S
t
(n−1)
(∆
n
), ∆
n
=t
(n)
−t
(n−1)
,
t
(n−1)
est une date antérieure à t
(n)
.
-
t
0 t
(1)

1
t
(2)

2
t
(3)

3
t
(n−1)
t
(n)

n
Si on renouvelle l’opération en choisissant une date t
(n−2)
antérieure à t
(n−1)
, on aura de
même
S(t
(n−1)
) = P¦X >t
(n−1)
¦ = P(X >t
(n−1)
[X >t
(n−2)
) S(t
(n−2)
),
et ainsi de suite, on obtient la formule :
S(t
(n)
) =
n

i=1

i
p
t
(i−1)
=
n

i=1
(1−

i
q
t
(i−1)
),
sachant que S(0) = 1.
Cet estimateur est bien adopté aux cas de la présence de la censure. Si on choisit pour
dates où l’on conditionne celles où s’est produit un événement, qu’il s’agisse d’une mort
ou d’une censure, t
(i)
= T
(i)
on aura seulement à estimer des quantités de la forme :
p
i
= P¦X > T
(i)
[X > T
(i−1)
¦ =

i
p
T
(i−1)
,
qui est la probabilité de survivre pendant l’intervalle de temps ∆
i
=]T
(i−1)
; T
(i)
] quand on
était vivant au début de cet intervalle. On note que
0 = T
(0)
≤T
(1)
≤ ≤T
(n)
.
Notons :
R
i
=card R(T

(i)
) le nombre des sujets qui sont vivants juste avant l’instant T
(i)
, en désignant
par R(t

) l’ensemble des sujets à risque à l’instant t

;
M
i
= le nombre de morts à l’instant T
(i)
;
q
i
= 1−p
i
la probabilité de mourir pendant l’intervalle ∆
i
sachant que l’on était vivant au
début de cet intervalle.
Alors l’estimateur naturel de q
i
est
ˆ q
i
=
M
i
R
i
.
316
Supposons d’abord qu’il n’y ait pas d’ex-aequo, i.e. on suppose que
0 = T
(0)
< T
(1)
< < T
(n)
.
Dans ce cas,
si D
(i)
= 1, c’est qu’il y a eu un mort en T
(i)
et donc M
i
= 1,
si D
(i)
= 0, c’est qu’il y a eu une censure en T
(i)
et donc M
i
= 0.
Par suite,
ˆ p
i
= 1−
M
i
R
i
=
_
1−
1
R
i
_
D
(i)
=
_
1−
1
R
i
, en cas de mort en T
(i)
,
1, en cas de censure en T
(i)
,
donc ˆ p
i
n’est différent de 1 qu’aux instants de décès observés.
L’estimateur de Kaplan-Meier pour la fonction de survie S(t) est :
ˆ
S(t) =
ˆ
S
n
(t) =

T
(i)
≤t
ˆ p
i
=

T
(i)
≤t
_
1−
1
R
i
_
D
(i)
=
=

T
(i)
≤t
_
1−
1
n−i +1
_
D
(i)
.
Il est évident que en absence de la censure, i.e. si D
i
= 1 pour ∀i, alors
ˆ
S
n
(t) =
_
_
_
1, t ≤T
(1)
,
n−i
n
, T
(i)
≤t < T
(i+1)
,
0, t ≥T
(n)
.
On remarque que R
i
= n−i +1 car, mort ou censuré le sujet disparait de l’étude.
Il est évident que l’estimateur de Kaplan-Meier
ˆ
F
n
(t) de F(t) = 1−S(t) est
ˆ
F
n
(t) = 1−
ˆ
S
n
(t) =
_
¸
_
¸
_
0 , si t < T
(1)
,
1−∏
T
(i)
≤t
_
n−i
n−i+1
_
D
(i)
, si T
(1)
≤t < T
(n)
,
1, si t ≥T
n
.
Pour estimer la variance de
ˆ
S
n
(t), on utilise l‘approximation de Greenwood, d’après laquelle
Var
_
ˆ
S
n
(t)
¸

_
ˆ
S
n
(t)
¸
2

i:T
i
≤t
D
i
(n−i)(n−i +1)
.
La moyenne EX
i
de survie X
i
est estimée par


0
ˆ
S
n
(t)dt. Enfin on remarque que
ˆ
A
n
(t) =−ln
ˆ
S
n
(t)
peut-être considéré comme l’estimateur de Kaplan-Meier de la fonction de risque cumulée
A(t).
Quand n est assez grand pour évaluer
ˆ
A
n
(t) on peut utiliser l’approximation de Nelson :
ˆ
A
n
(t) ≈

i:T
i
≤t
D
i
n−i +1
,
317
puisque
log
_
1−
1
n− j +1
_
≈−
1
n− j +1
,
pour les grandes valeurs de n− j +1. La statistique
A

n
(t) =

i:T
i
≤t
D
i
n−i +1
est connue comme l’estimateur de Nelson pour le taux de hasard cumulé A(t).
Théorème 1. Si les lois F et H de la survie X
i
et de la censure C
i
n’ont aucune discontinuité
commune, la suite d’estimateurs ¦
ˆ
S
n
(t)¦ de Kaplan-Meier de la fonction de survie S(t) est
consistante.
Théorème 2. Si l’échantillon X = (X
1
, ..., X
n
)
T
et l’échantillon de censure
C = (C
1
, ...,C
n
)
T
sont indépendants, alors dans les conditions du théorème 1

n(
ˆ
S
n
(t) −S(t))
L
→W(t), n →∞,
où W(t) est un processus gaussien centré, EW(t) ≡0, dont la fonction de covariance est
k(s, t) = EW(s)W(t) = S(s)S(t)

s∧t
0
dF(u)
[1−F(u)]
2
[1−H(u)]
.
Remarque 1. Il est facile à voir que
E
ˆ
S
n
(t)
S(t ∧T
(n)
)
= 1,
et donc
S(t) = E
S(t)
S(t ∧T
(n)
)
ˆ
S
n
(t) > E
ˆ
S
n
(t),
i.e. l’estimateur de Kaplan-Meier
ˆ
S
n
(t) n’est pas un estimateur sans biais pour S(t).
Remarque 2. Si S(t) est continue, alors pour ∀t < H
−1
(1)
ˆ
S
n
(t) = S(t) +
1
n
n

i=1
ψ
i
(t) +r
n
(t),
où ψ
1
(t) sont i.i.d., Eψ
i
(t) = 0, uniformément bornées sur [0, T], et
sup
t∈[0,T]
[t
n
(t)[ = O(n
−1
logn) (mod P)
quand T < H
−1
(1), H(t) = P¦T
i
≤t¦.
Théorème 3. Dans les conditions du théorème 2 l’estimateur de Nelson A

n
du taux de
hasard cumulé A vérifie :

n(
ˆ
A

n
(t) −A(t))
L
→W(t), n →∞,
où W(t) est un processus gaussien centré, EW(t) ≡0, dont la fonction de corrélation est
k(s, t) = EW(s)W(t) =

t
1
∧t
2
0
dG(t, 1)
S
2
(t)
,
318
où G(t, 1) = P¦T
i
≥t, D
i
= 1¦.
Exemple 1. Sur 10 patients atteints de cancer des bronches on a observé les durées de survie
suivantes, exprimées en mois :
1 3 4
+
5 7
+
8 9 10
+
11 13
+
.
Les données suivies du signe
+
correspondent à des patients qui ont été perdues de vue à la
date considérée, i.e. censurées.
L’estimateur de Kaplan-Meier
ˆ
S(t) =
ˆ
S
10
(t) de la fonction de survie S(t) vaut :
ˆ
S(0) = 1 et
ˆ
S(t) = 1 pour tout t dans [0; 1[
ˆ
S(t) = (1−
1
10
)
ˆ
S(0) = 0.9, 1 ≤t < 3,
ˆ
S(t) = (1−
1
9
)
ˆ
S(1) = 0.80, 3 ≤t < 5,
ˆ
S(t) = (1−
1
7
)
ˆ
S(3) = 0.694, 5 ≤t < 8,
ˆ
S(t) = (1−
1
5
)
ˆ
S(5) = 0.555, 8 ≤t < 9,
ˆ
S(t) = (1−
1
4
)
ˆ
S(8) = 0.416, 9 ≤t < 11,
ˆ
S(t) = (1−
1
2
)
ˆ
S(9) = 0.208.
6
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-
t
(mois)
0 1 2 3 4 5 6 7 8 9 10 11 12 13
a
a
a
a
a
a
a -
-
-
-
-
-
-
Mais la plupart du temps il y a des ex-aequo, comme dans le premier exemple qui est
celui des données de Freireich de l’exemple suivant.
Exemple 2 (Données de Freireich). Ces données, très souvent citées dans la littérature
statistique médicale car les performances des diverses méthodes sont souvent testées sur
elles, ont été obtenues par Freireich, en 1963, lors d’un essai thérapeuti- que ayant pour but
de comparer les durées de rémission, exprimées en semaines, de sujets atteints de leucémie
selon qu’ils ont reçu de la 6-mercaptopurine (notée 6-MP) ou un placebo. L’essai a été
fait en double aveugle, c’est-à-dire que ni le médecin, ni le patient ne sont informés de
l’attribution du traitement ou du placebo.
Le tableau ci-après donne, pour chacun des 42 sujets, la durée de rémission.
Traitement Durée de rémission
6-MP
6, 6, 6, 6
+
, 7, 9
+
, 10, 10
+
, 11
+
, 13, 16, 17
+
,
19
+
, 20
+
, 22, 23, 25
+
, 32
+
, 32
+
, 34
+
, 35
+
.
Placebo
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,
11, 11, 12, 12, 15, 17, 22, 23.
319
Les chiffres suivis du signe
+
correspondent à des patients qui ont été perdus de vue à la
date considérée. Ils sont donc exclus vivants de l’étude et on sait seulement d’eux que leur
durée de vie est supérieure au nombre indiqué. Par exemple, le quatrième patient traité par
6-MP a eu une durée de rémission supérieure à 6 semaines. On dit que les perdus de vue ont
été censurés, et ce problème de censure demande un traitement particulier. En effet, si l’on
se contentait d’éliminer les observations incomplètes, c’est-à-dire les 12 patients censurés
du groupe traité par le 6-MP, on perdrait beaucoup d’information : un test de Wilcoxon
appliqué aux 9 patients restant dans le groupe 6-MP et aux 21 patients du groupe placebo
sous-évaluerait très visiblement l’effet du traitement.
Cas où il y a des ex-aequo : 0 = T
(0)
≤T
(1)
≤... ≤T
(n)
.
1) Si ces ex-aequo sont tous de morts la seule différence tient à ce que M
i
n’est plus égal à
1 mais au nombre des morts et l’estimateur de Kaplan-Meier devient :
ˆ
S(t) =

T
(i)
≤t
_
1−
M
i
R
i
_
.
2) Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées
ont lieu juste avant les censurées. Voyons ce que donne l’estimateur de Kaplan-Meier dans
le cas des données de Freireich :
Pour le 6-MP :
ˆ
S(0) = 1 et
ˆ
S(t) = 1 pour tout t dans [0; 6[,
ˆ
S(6) = (1−
3
21
)
ˆ
S(0) = 0.857,
ˆ
S(7) = (1−
1
17
)
ˆ
S(6) = 0.807,
ˆ
S(10) = (1−
1
15
)
ˆ
S(7) = 0.753,
ˆ
S(13) = (1−
1
12
)
ˆ
S(10) = 0.690,
ˆ
S(16) = (1−
1
11
)
ˆ
S(13) = 0.627,
ˆ
S(22) = (1−
1
7
)
ˆ
S(16) = 0.538,
ˆ
S(23) = (1−
1
7
)
ˆ
S(22) = 0.448.
320
Pour le Placebo :
ˆ
S(t) = 1, 0 ≤t < 1,
ˆ
S(1) = (1−
2
21
)
ˆ
S(0) = 0.905,
ˆ
S(2) = (1−
2
19
)
ˆ
S(1) = 0.895,
ˆ
S(3) = (1−
1
17
)
ˆ
S(2) = 0.842,
ˆ
S(4) = (1−
2
16
)
ˆ
S(3) = 0.737,
ˆ
S(5) = (1−
2
14
)
ˆ
S(4) = 0.632,
ˆ
S(8) = (1−
4
12
)
ˆ
S(5) = 0.421,
ˆ
S(11) = (1−
2
8
)
ˆ
S(8) = 0.316,
ˆ
S(12) = (1−
2
6
)
ˆ
S(11) = 0.210,
ˆ
S(15) = (1−
1
4
)
ˆ
S(12) = 0.158,
ˆ
S(17) = (1−
1
3
)
ˆ
S(15) = 0.105,
ˆ
S(22) = (1−
1
2
)
ˆ
S(17) = 0.053,
ˆ
S(23) = (1−
1
1
)
ˆ
S(22) = 0.
Plus d’information sur le modèle de survie on peut voir dans Kaplan and Meier (1958),
Turnbull (1974),(1976), Kalbfleisch and Prentice (1980), Lawless (1982), Droesbeke, Fi-
chet & Tassi (1989), Bagdonavi¸ vius et Nikulin (1995, 1998, 1999).
6.8 Modèle de Cox.
Le modèle de Cox est employé lorsque on cherche à évaluer l’effet de certaines variables
sur la durée de survie. D’après ce modèle on a les 2n variables aléatoires indépendantes
X
1
, X
2
, . . . , X
n
et C
1
,C
2
, . . . ,C
n
que sont les durées de survie et les temps de censures des n individus considérés. En réalité,
on observe la suite des n vecteurs (T
i
, D
i
), où T
i
date de départ du i-éme individu (en sup-
posant qu’ils sont entrés à l’instant 0), D
i
indicatrice de la cause de départ (D
i
= 1 si c’est
la mort, D
i
= 0 sinon),
D
i
= 1
¦X
i
≤C
i
¦
.
Mais on a aussi observé sur chacun des individus un vecteur Z
i
= (Z
i1
, . . . , Z
ip
)
T
dont dé-
pend la durée de survie X
i
. Ce vecteur Z est généralement appelé covariable.
Le modèle des "hasards proportionnels", ou modèle de Cox suppose que
α(t[Z = z) = α
z
(t) = α
0
(t)exp
_
β
T
z
_
,
β
T
z = β
1
z
1

2
z
2
+ +β
p
z
p
,
où β
T
= (β
1
, . . . , β
p
)
T
est le vecteur des coefficient de la regression, α
0
(t) est le risque
instantané de base. En général, ils sont inconnus tous les deux. C’est pour cela on dit
321
souvent que le modèle de Cox est semiparamétrique.
Remarque 1. La famille des loi d’un tel modèle est du type suivant :
toutes les fonctions de survie sont égales à une même fonction de survie S
0
(t) de base,
élevée à des puissances variées :
S(t; θ) = [S
0
(t)]
θ
,
S
0
(t) = exp
_
_
_

t

0
α
0
(u)du
_
_
_
,
θ = exp
_
p

j=1
β
j
z
j
_
= exp
_
β
T
z
_
.
Exemple 1. Prenons le cas le plus simple : 1 seule covariable (p = 1), Z prenant seulement
les valeurs 0 ou 1. Il peut s’agir par exemple d’un essai thérapeutique destiné à comparer
l’effet d’un nouveau traitement (Z =1 pour les patient traités) à celui du traitement habituel
ou d’un placebo (Z = 0), sur la durée de survie.
On a alors deux populations :
si Z = 0, S(t) = S
0
(t),
si Z = 1, S
1
(t) = [S
0
(t)]
γ
,
où γ = e
β
mesure l’effet du traitement.
Ce modèle comporte donc un paramètre qui est une fonction λ
0
, considérée en général
comme nuisible et p paramètre réels β
1
, β
2
, . . . , β
p
qui sont les quantités à estimer, où à
tester, car elles représent l’effet sur la durée de survie de chacune des covariables corres-
pondantes.
Pour éliminer le "paramètre" nuisible totalement inconnu qu’est le risque instantané de
base α
0
(t), Cox (1972) considère la vraisemblance "partielle" suivante
V
C
(β) =

¦i:D
(i)
=1¦
exp
_
β
T
Z
(i)
_

k∈R
(i)
exp
_
β
T
Z
(k)
_,
où T
(1)
< T
(2)
< < T
(n)
désignent la suite des instant où a lieu un événement (mort ou
censure), et à l’instant T
(i)
sont observés :
D
(i)
la nature de l’événement ; D
(i)
= 1, si c’est une mort, D
(i)
= 0, si c’est une censure ;
Z
(i)
la covariable, de dimension p, de l’individu à qui est arrivé l’événement ;
R
(i)
l’ensemble des indices des individus encore à risque à l’instant T

(i)
ainsi que la valeur
de leur covariable, Z
(k)
, k ∈ R
(i)
.
Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire.
En temps continu, on fait l’hypothèse qu’il n’y a aucun ex-aequo, et dans ce cas
L
_

n(
ˆ
β
n
−β)
_
→N
_
0, I
−1
(β)
_
,

ˆ
β
n
est l’estimateur de maximum de vraisemblance partielle pour β,
V
C
(
ˆ
β
n
) = maxV
C
(β).
322
6.9 Sur l’estimation semiparamétrique pour le modèle de
Cox
On observe n individus. Notons X
i
et C
i
les durées de survie et les temps de cen-
sures. On suppose que la durée de survie du i-ème individu dépend du vecteur Z
i
() =
(Z
i1
(), ..., Z
ip
())
T
des covariables. Posons
T
i
= X
i
∧C
i
, D
i
= 1¦X
i
≤C
i
¦.
Nous supposons que les statistiques (X
1
,C
1
), ..., (X
n
,C
n
) soient indépendantes. On a un
échantillon (T
i
, D
i
, Z
i
()), (i = 1, ..., n).
Supposons que la censure est indépendante pour chaque individu, i.e. α
ci
(t) = α
i
(t)
pour tout t : P(T
i
≥t) > 0, où
α
ci
(t) = lim
h↓0
P¦T
i
∈ [t, t +h[, D
i
= 1[T
i
≥t¦
h
,
α
i
(t) = lim
h↓0
P¦X
i
∈ [t, t +h[[X
i
≥t¦
h
.
Supposons que les variables aléatoires X
1
, ..., X
n
sont absolument continues. Soient N le
nombre, X
(1)
< ... < X
(N)
les moments des décès observés, (i) l’indice de l’individu décédé
au moment X
(i)
, R
(i)
l’ensemble des indices des individus à risque à l’instant X

(i)
.
Supposons que le modèle de Cox ait vérifié :
α
Z
i
()
(t) = e
β
T
Z
i
(t)
α
0
(t),
où β = (β
1
, ..., β
p
)
T
est le vecteur des coefficients de regression inconnus, α
0
(t) le risque
instantané de base inconnu. Alors
p
i
( j[r, t) = P¦(i) = j[R
(i)
= r, X
(i)
=t¦ = lim
h↓0
P¦(i) = j[R
(i)
= r, X
(i)
∈ [t, t +h)¦ =
lim
h↓0
P¦(i) = j, R
(i)
= r, X
(i)
∈ [t, t +h)¦
P¦R
(i)
= r, X
(i)
∈ [t, t +h)¦
=
lim
h↓0
P¦T
j
∈ [t, t +h), D
j
= 1, T
l
≥t, l ∈ r ¸¦ j¦, T
l
<t, l / ∈ r¦

s∈r
P¦T
s
∈ [t, t +h), D
s
= 1, T
l
≥t, l ∈ r ¸¦s¦, T
l
<t, l / ∈ r¦
=
lim
h↓0
P¦T
j
∈ [t, t +h), D
j
= 1¦∏
l∈r¸¦ j¦
P¦T
l
≥t¦∏
l / ∈r
P¦T
l
<t¦

s∈r
P¦T
s
∈ [t, t +h), D
s
= 1¦∏
l∈r¸¦s¦
P¦T
l
≥t¦∏
l / ∈r
P¦T
l
<t¦
=
lim
h↓0
P¦T
j
∈ [t, t +h), D
j
= 1[T
j
≥t¦∏
l∈r
P¦T
l
≥t¦

s∈r
P¦X
s
∈ [t, t +h), D
s
= 1[T
s
≥t¦∏
l∈r
P¦T
l
≥t¦
=
α
c j
(t)

s∈r
α
cs
(t)
=
α
j
(t)

s∈r
α
s
(t)
=
e
β
T
Z
j
(t)

s∈r
e
β
T
Z
s
(t)
.
323
La fonction de vraisemblance partielle est déterminée comme le produit
L(β) =
N

i=1
p((i)[R
(i)
; X
(i)
) =
N

i=1
e
β
T
Z
(i)
(X
(i)
)

s∈R
(i)
e
β
T
Z
s
(X
(i)
)
.
Alors
logL(β) =
N

i=1
β
T
Z
(i)
(X
(i)
) −
N

i=1
log

s∈R
(i)
e
β
T
Z
s
(X
(i)
)
et
U(β) =
∂logL(β)
∂β
=
N

i=1
Z
(i)
(X
(i)
) −
N

i=1

s∈R
(i)
Z
s
(X
(i)
)e
β
T
Z
s
(X
(i)
)

s∈R
(i)
e
β
T
Z
s
(X
(i)
)
.
L’estimateur
ˆ
β vérifie l’équation U(
ˆ
β) = 0
p
.
Alors on peut démontrer (voir la section suivante) que
EN(t) = E

t
0
S
(0)
(u, β)α
0
(u)du,

S
(0)
(u, β) =
n

i=1
e
β
T
Z
i
(u)
Y
i
(u).
Cela implique l’estimateur
ˆ
A
0
(t) pour la fonction A
0
(t) =

t
0
α
0
(u)du :
N(t) =

t
0
S
(0)
(u,
ˆ
β)d
ˆ
A
0
(u),
d’où
ˆ
A
0
(t) =

t
0
dN(u)
S
(0)
(u,
ˆ
β)
.
L’estimateur de la fonction
A
Z()
(t) =

t
0
e
β
T
Z(u)
dA
0
(u)
est
ˆ
A
Z()
(t) =

t
0
e
ˆ
β
T
Z(u)
dN(u)
S
(0)
(u,
ˆ
β)
,
et l’estimateur de la fonction de survie S
Z()
(t) = e
−A
Z()
(t)
:
ˆ
S
Z()
(t) = e

ˆ
A
Z()
(t)
.
Les résultats obtenus nous permettent de construire des tests statistiques pour beaucoup de
problèmes importants.
Test d’homogénèité Considérons l’hypothèse
H
0
: β
1
= β
2
= = β
p
= 0
324
Sous cette hyphothèse la loi de survie ne dépend pas des covariables. Elle peut etre vérifiée
en utilisant plusieurs tests.
a) Test du score
Sous H
0
:
U(0) ≈N(0, Σ(0)),

U(0) =
k

i=1
_
z(X
(i)
) −

s∈R
i
z
s
(X
(i)
)
n
i
_
,
Σ(0) =−
k

i=1
_

j∈R
i
z
r j
(X
(i)
)z
s j
(X
(i)
)
n
i


j∈R
i
z
r j
(X
(i)
)
n
i

j∈R
i
z
s j
(X
(i)
)
n
i
_
n
i
=Y(T
(0)
i
) est le nombre des sujets à risque juste avant T
(0)
i
. Donc
U
T
(0)Σ(0)
−1
U(0) ≈χ
2
(p).
On rejette H
0
au niveau de signification α, si
U
T
(0)Σ(0)
−1
U(0) > χ
2
1−α
(p).
b) Test de Wald
Sous H
0
ˆ
β ≈N(0, Σ
−1
(0)).
Donc
ˆ
β
T
Σ(0))
ˆ
β ≈χ
2
(p).
On rejette H
0
au niveau de signification α, si
ˆ
β
T
Σ(0))
ˆ
β > χ
2
1−α
(p).
c) Test du rapport de vraisemblance
On peut montrer que
−2(lnL(β) −lnL(
ˆ
β) ≈χ
2
(p).
Sous H
0
−2(lnL(0) −lnL(
ˆ
β)) ≈χ
2
(p).
Notons que
lnL(0) =−
k

i=1
lnn
i
,
lnL(
ˆ
β) =
k

i=1
_
ˆ
β
T
z
i
(X
(i)
) −ln

s∈R
i
e
β
T
z
l
(X
(i)
)
_
.
On rejette H
0
, si
−2(lnL(0) −lnL(
ˆ
β)) > χ
2
1−α
(p).
Si la seule caractéristique d’un individu est son appartenance à un groupe :
z(t) =
_
1 pour les individus du 1 groupe
0 pour les individus du 2 groupe,
325
le modèle de Cox a la forme
h(t [ z) =
_
e
β
h
0
(t) pour les individus du 1 groupe
h
0
(t) pour les individus du 2 groupe.
Dans ce cas l’hypothèse H
0
: β =0 signifie l’egalité des fonctions de risque de deux groupes
qui est equivalent à l’egalit
´
des fonctions de survie. Donc les tests du score, de Wald et du
rapport de vraisemblance vérifient l’hypothèses de l’egalité des lois des deux groupes.
Modèle stratifié
Supposons qu’on étudie l’effet des sous covariables z
(s)
= (z
1
, , z
s
) du vecteur des
covariables z
(p)
= (z
1
, , z
p
) (p > s) sur la survie, mais le modèle de Cox n’est pas vérifié
par rapport à z
(p)
. Parfois la modification suivante du modèle peut être utile.
Supposons que la région des valeurs de z
s+1
, , z
p
est divisée en q strates et pour des
sujets de j-ème strate le modèle de Cox est vérifié :
h
j
(t [ z
(s)
) = e

(s)
))
T
z
(s)
)(t)
h
0j
(t) ( j = 1 q).
Pour chaque strate la fonction de risque de base est differente mais l’effet des covariables
z
(s)
est le même pour toutes strates.
Pour estimer β, on commence par la vraisemblance partielle L
j
à l’interieur de chaque
strate.
La vraisemblance partielle pour tous les sujets est le produit de toutes les vraisem-
blances :
L(β
(s)
) =
s

j=1
L
j
.
Test graphique du modèle
Si des covariables sont constantes en temps, alors sous le modèle de Cox
H(t [ z) =−lnS(t [ z) = e
β
T
z
H
0
(t)
et donc
lnH(t [ z) = β
T
z +lnH
0
(t).
Sous des valeures differents de z les graphes des fonctions lnH(t [ z) sont parallèls. Donc,
si z est discrète avec valeurs z
(1)
, , z
(s)
, alors on considère les graphs des estimateurs
ln
ˆ
H(t [ z
( j)
) ( j = 1, , s)
Sous le modèle de Cox ces graphs sont approximativement parallels.
Test de l’hypothèse H
l
: β
l+1
= = β
p
= 0
Consid´rons le problème de la vérification de l’hypothèse
H
l
: β
l+1
= = β
p
= 0,
où l =1, , p−1. Sous H
l
les covariables z
l+1
, , z
p
n’améliorent pas la prédiction. Donc
si H
l
est vérifié, on peut exclure ces covariables du modèle.
a) Test du rapport de vraisemblance
Soient
h(t [ z
(l)
) = e

(l)
))
T
z
(l)
)(t)
h
0
(t)
326
et
h(t [ z
(p)
) = e

(p)
))
T
z
(p)
)(t)
h
0
(t)
les modèles de Cox avec l et p covariables,respectivement. Alors
−2(lnL
l

(l)
) −lnL
l
(
ˆ
β
(l)
)) ≈χ
2
(l),
−2(lnL
p

(p)
) −lnL
p
(
ˆ
β
(p)
)) ≈χ
2
(p)
Sous H
l
:
L
l

(l)
) = L
p
((β
(l)
, 0))
et la difference
L
l,p
=−2(lnL
l

(l)
) −lnL
p
(
ˆ
β
(p)
)) ≈χ
2
(p−l),
Donc H
l
est rejetée si
L
l,p
> χ
2
1−α
(p−l).
L’hypothèse la plus intéressante de point de vue pratique est
H
p−1
: β
p
= 0.
Elle signifie que le modèle avec (p−1) covariables z
1
, , z
p−1
donne la même prediction
que le mod
`
le avec (p) covariables z
1
, , z
p
, i.e. la covariable z
p
peut être exclue du modèle.
L’hypothèse H
p−1
est rejetèe, si
L
p−1,p
> χ
2
1−α
(1).
b) Test de Wald
On écrit l’inverse da la matrice d’information de Fisher sous la forme
Σ
−1
(β) =
où A
11
(β) et A
22
(β) ont les dimentions l l et (p−l) (p−l). Alors
(
ˆ
β
l+1
, ,
ˆ
β
p
) ≈N
p−l
((β
l+1
, , β
p
), A
22
(β)).
Sous H
l
:
W
l,p
= (
ˆ
β
l+1
, ,
ˆ
β
p
)
T
A
−1
22
(
ˆ
β
1
, ,
ˆ
β
l
, 0, , 0)(
ˆ
β
l+1
, ,
ˆ
β
p
) ≈χ
2
(p−l).
L’hypothèse H
l
: β
l+1
= = β
p
= 0 est rejetée, si
W
l,p
> χ
2
1−α
(p−l)
Si l = p−1, alors
W
p−1,p
=
ˆ
β
2
p
/A
22
(
ˆ
β
1
, ,
ˆ
β
p−1
, 0)
et l’hypothèse H
p−1
: β
p
= 0 est rejetée, si
W
p−1,p
> χ
2
1−α
(1).
327
6.10 Processus de comptage et l’estimation non paramé-
trique
Soient X et C la durée de vie et le moment de censure, respectivement,
T = X ∧C, δ = I(X ≤C), N(t) = I(T ≤t, δ = 1), Y(t) = I(T ≥t).
N(t) est le nombre des pannes observées dans l’intervalle [0, τ], Y(t) est le nombre des
unités à risque au moment t−. N(t) et Y(t) peuvent prendre des valeurs 0 et 1. On suppose
que la variable aléatoire X est absolument continue et pour tout t tel que P¦T ≥t¦ > 0 il
existe la limite
α
c
(t) = lim
h↓0
P¦T ∈ [t, t +h[, δ = 1[T ≥t¦
h
.
α
c
(t) montre le risque de panne après ou au moment t sachant que une unité était à risque
(pas censurée et pas en panne) juste avant le moment t.
On dit que la censure est indépendante, si
α
c
(t) = α(t) = lim
h↓0
P¦X ∈ [t, t +h[[X ≥t¦
h
pour tous t : P¦T ≥t¦ > 0.
Donc la censure ne influence pas le risque de panne d’une unité qui est “à risque”.
Notons que
α
c
(t) = lim
h↓0
P¦t ≤X <t +h, X ≤C¦
hP¦X ≥t,C ≥t¦
=
lim
h↓0
P¦X ≤C[t ≤X <t +h¦P¦t ≤X <t +h¦
hP¦X ≥t,C ≥t¦
=
P¦C ≥X[X =t¦ f
X
(t)
P¦X ≥t,C ≥t¦
=
f
X
(t)
S
X
(t)
.
Donc l’égalité α
c
(t) = α(t) est équivalente à l’égalité
P¦C ≥t[X =t¦ =
P¦X ≥t,C ≥t¦
S
X
(t)
.
Si X et C sont indépendantes, cette égalité est évidement vérifiée. De l’autre côté on peut
faire aussi une remarque intéressante :
α
c
(t) = lim
h↓0
P¦t ≤X <t +h,C ≥t¦
h P¦X ≥t,C ≥t¦
=

1
P¦X ≥t,C ≥t¦

∂s
[P¦X ≥s,C ≥t¦] [
s=t
.
Exemple. Soit le vecteur (X,C) ait une loi exponentielle de trois paramètres λ > 0, µ >
0, θ > 0 :
P¦X ≥t,C ≥s¦ = exp(−λt −µs −θts), t > 0, s > 0,
328
d’où on tire que X suit une loi exponentielle de paramètre λ,
P¦X ≥¦ = exp(−λt),
et donc α(t) = λ. De l’autre côté en utilisant la dernière remarque on trouve que
α
c
(t) =−
1
P¦X ≥t,C ≥t¦

∂s
[P¦X ≥s,C ≥t¦] [
s=t
= λ+θt,
et donc on voit que dans cet exemple la censure n’est indépendante.
Notons
M(t) = N(t) −

t
0
Y(u)α(u)du.
Proposition. Si la censure est indépendante, alors EM(t) = 0 pour tout t tel que P¦T ≥
t¦ > 0.
Preuve. L’égalité
P¦C ≥t[X =t¦ =
P¦X ≥t,C ≥t¦
S
X
(t)
.
implique
EM(t) = EN(t) −

t
0
EY(u)α(u)du =
P¦X ≤t, X ≤C¦−

t
0
P¦X ≥u,C ≥u¦α(u)du =

t
0
P¦C ≥u[X = u¦ f
X
(u)du−

t
0
P¦C ≥u[X = u¦S
X
(u)α(u)du = 0.
La proposition est démontrée.
De plus on peut montrer le processus M(t) est une martingale par rapport à la filtration
F
t
, t ≥0, où F
t
est la σ-algèbre engendrée par les processus N(t) et Y(t) :
F
t
= σ¦N(s),Y(s) : 0 ≤s ≤t¦.
Dans ce cas on a :
E¦M(t)[F
s
¦ = M(s), pour t ≥s,
ou
E¦N(t) −N(s)[F
s
¦ = E
_

t
s
Y(u)α(u)du[F
s
_
,
d’où on tire que
lim
h↓0
1
h
E¦N(t) −N(s)[F
s
¦ =
lim
h↓0
E
_

s+h
s
Y(u)α(u)du[F
s
_
= E¦ Y(s)α(s)[F
s
¦ =Y(s)α(s).
Cette relation montre que le processus
λ(t) =Y(t)α(t)
est l’intensitée du processus de comptage N(t). Il représente le risque instantané observable
au moment t. On dit aussi que l’intensité λ(t) est l’intensité multiplicative parce que dans
329
ce modèle elle est le produit d’un terme déterministe, α(t), et d’un processus Y(t), qui est
prévisible, c’est-à-dire sa valeur au moment t est connue si l’histoire dans l’intervalle [0, t[ :
F
t−
= σ¦N(s),Y(s) : 0 ≤s <t¦
est connue.
Nous allons appliquer ces résultats dans la situation quand on observe n individus. No-
tons X
i
et C
i
les durées de survie et les temps de censures. Posons
T
i
= X
i
∧C
i
, D
i
= 1¦X
i
≤C
i
¦.
On a un échantillon (T
i
, D
i
), (i = 1, ..., n).
Supposons que la censure est indépendante pour chaque individu et que les variables
aléatoires X
1
, ..., X
n
sont absolument continues.
Notons
N
i
(t) = I¦T
i
≤t, D
i
= 1¦, Y
i
(t) = I¦T
i
≥t¦,
N(t) =
n

i=1
N
i
(t), Y(t) =
n

i=1
Y
i
(t).
N(t) est un processus de comptage du nombre de défaillances observées sur [0, t] par sa
valeur à l’instant t. Le processus N(t) est un processus cadlag : ses trajectoires sont des
fonctions continues à droite et limitées à gauche. Enfin, le processus Y(t) représente le
nombre des sujets à "risque" juste avant l’instant t, i.e. Y(t) montre le nombre de données
restant encore en vie.
On introduit la filtration F
t
engendrée par tous les processus N
i
(s) et Y
i
(s) :
F
t
= σ¦N
i
(s),Y
i
(s) : 0 ≤s ≤t (i = 1, ..., n)¦,
qui représente l’histoire des défaillances et des censures observées jusqu’à l’instant t. No-
tons
Λ
i
(t) =

t
0
λ
i
(s)ds.
Parce que
M
i
(t) = N
i
(t) −Λ
i
(t)
est une martingale avec E¦M
i
(t)¦ = 0, on dit que Λ
i
(t) est le compensateur du processus
de comptage N
i
(t).
De même le processus
Λ(t) =

t
0
λ(s)ds =

t
0
Y(s)α(s)ds =

t
0
Y(s)dA(s)
est l’intensité cumulée du processus de comptage N(t), où
λ(t) =
n

i=1
λ
i
(t),
d’où on obtient la décomposition de Doob-Meyer pour le processus N(t) :
N(t) = Λ(t) +M(t),
330
où M(t) = ∑
n
i=1
M
i
(t) est une F
t
-martingale,
E¦M(t)[F
s
¦ = M(s).
On dit que Λ(t) est le le compensateur du processus de comptage N(t). Introduisons le
processus
J(t) = I
¦Y(t)>0¦
, t > 0.
Pour estimer le taux de panne cumulé A(t) on utilise la méthode des moments. Parce que
E¦N(t) −

t
0
Y(s)dA(s)¦ = 0,
on en tire que pour trouver l’estimateur
ˆ
A
n
(t) il nous faut résoudre l’équation suivante :
dN(t) −Y(t) dA(t) = 0,
d’où on obtient l’équation
dA(t) = J(t)
dN(t)
Y(t)
,
ce qui nous donne le fameux estimateur de Nelson-Aalen :
ˆ
A
n
(t) =

t
0
J(u)
dN(u)
Y(u)
=

t∧τ
0
dN(u)
Y(u)
où τ = maxX
i
. Pour étudier les proriétés de l’estimateur Nelson-Aalen on utilise la relation
suivante :
ˆ
A
n
(t) −A(t) =

t
0
¦J(u)
dN(u)
Y(u)
−J(u)dA(u)¦ =

t
0
J(u)
dN(u) −Y(u)dA(u)
Y(u)
=

t
0
J(u)
dM(u)
Y(u)
,
où M(t) est la martingale définie plus haut, et donc
ˆ
A
n
(t) −A(t) est une F
t
-martingale, et
donc pour nos études nous povons appliquer les résultas de R. Rebolledo (Central Limit
Theorems for Local Martingales, 1984).
On va présenter l’estimateur de Nelson-Aalen en terme d’une somme.
Soit T
(1)
< T
(2)
< < T
(n)
la suite des instants où a lieu un événement (mort ou cen-
sure). A chaque instant T
(i)
est observée D
(i)
- la nature de l’événement :
D
(i)
= 1, si c’est une mort, D
(i)
= 0, si c’est une censure. Il est évident que
Y(T
(i)
) = n−i +1,
d’où on tire l’estimateur de Nelson pour le taux de hazard cumulé A(t) :
ˆ
A
n
(t) =

i:T
(i)
≤t
D
(i)
n−i +1
=

i:T
i
≤t
D
i
n−i +1
.
Ayant l’estimateur d’Aalen-Nelson pour le risque cumulé A(t) on peut facilement obte-
nir le product-limite (Kaplan-Meier) estimateur
ˆ
S
n
(t) pour la fonction de survie S(t) =
exp¦−A(t)¦ :
ˆ
S
n
(t) =

0<s<t
_
1−
∆N(s)
Y(s)
_
,
331
où ∆N(t) = N(t) −N(t

) est un processus F
t
-prévisible.
Pour obtenir cette formule on note d’abord que de l’équation
dS(t) =−S(t)dA(t), S(0) = 1,
il suit que
S(t) = 1−

t
0
S(u)dA(u) = 1−

t
0
S(u−)dA(u).
Puisque
d
ˆ
A
n
(t) =
dN(t)
Y(t)
on en tire que on a :
ˆ
S
n
(t) = 1−

t
0
S(u−)
Y(u)
dN(u)
et
d
ˆ
S
n
(t) =−
ˆ
S
n
(t−)
Y(t)
dN(t).
Donc
ˆ
S
n
(t−) −
ˆ
S
n
(t) =

t
0
S
n
(u−)
Y(u)
dN(u) −

t−
0
S
n
(u−)
Y(u)
dN(u) =
ˆ
S
n
(t−)
Y(t)
∆N(t),
d’où on tire que
ˆ
S
n
(t) =
ˆ
S
n
(t−)
_
1−
∆N(t)
Y(t)
_
,
ˆ
S
n
(0) = 1,
et par la suit on obtient la formule de Kaplan-Meier :
ˆ
S
n
(t) =

0<s<t
_
1−
∆N(s)
Y(s)
_
.
Le théorème suivant permet d’étudier les propriétés asymptotiques de l’estimateur de Kaplan-
Meier.
Théorème 4. Si S(t) > 0 alors
ˆ
S
n
(t)
S(t)
= 1−

t
0
ˆ
S
n
(u−)
S(u)Y(u)
dM(u).
Démonstration. On remarque d’abord que

t
0
u(s−)dv(s) = u(t)v(t) −u(0)v(0) −

t
0
v(s)du(s).
En utilisant cette relation on trouve que

t
0
ˆ
S
n
(u−)d
1
S(u)
=
ˆ
S
n
(t)
S(t)

ˆ
S
n
(0)
S(0)

t
0
1
ˆ
S(u)
d
ˆ
S
n
(u−).
Donc
ˆ
S
n
(t)
S(t)
= 1−

t
0
ˆ
S
n
(u−)
S
2
(u)
dS(u) +

t
0
1
S
(
u)
d
ˆ
S
n
(u−).
332
Puisque on a
dS(t) =−S(t)dA(t), d
ˆ
S
n
(t) =−
ˆ
S
n
(t−)
Y(t)
dN(t),
et
dN(t) = dM(t) +Y(t)dA(t),
on trouve que
ˆ
S
n
(t)
S(t)
= 1+

t
0
ˆ
S
n
(u−)
S(u)
dA(u) −

t
0
ˆ
S
n
(u−)
S(u)Y(u)
dN(u) =
1−

t
0
ˆ
S
n
(u−)
S(u)Y(u)
dM(u).
Le théorème est démontré.
Ce théorème nous permet de calculer
Var
ˆ
S
n
(t) = E
_
S(t)

t
0
ˆ
S
n
(u−)I¦N(u) > 0¦
S(u)Y(u)
dM(u)
_
2
,
d’où on obtient son estimateur
ˆ
Var
ˆ
S
n
(t) =
ˆ
S
2
n
(t)

t
0
dN(u)
(Y(u) −∆N(u))Y(u)
,
connu comme la formule de Greenwood.
11. Comparaison des fonctions de survie
Supposons qu’on a deux groupes des individus (unités). Le i- ème groupe a n
i
individus.
Pour le premier groupe on a un échantillon
(X
11
, δ
11
), ..., (X
1n
1
, δ
1n
1
),
où en forme équivalente
(N
11
(t),Y
11
(t), t ≥0), ..., (N
1n
1
(t),Y
1n
1
(t), t ≥0).
Pour le deuxième groupe on observe
(X
21
, δ
21
), ..., (X
2n
2
, δ
2n
2
),

(N
21
(t),Y
21
(t), t ≥0), ..., (N
2n
2
(t),Y
2n
2
(t), t ≥0).
Soit S
i
(t) la fonction de survie du i-ème groupe. On va tester l’hypothèse
H
0
: S
1
(t) = S
2
(t) ∀t ≥0.
Notons H
i
(t) =−lnS
i
(t) la fonction de risque cumulé pour le i-ème groupe.
333
L’estimateur de Nelson-Aalen pour H
i
(t) est
ˆ
H
i
(t) =

t
0
dN
i
(u)
Y
i
(u)
.
Si l’hypothèse H
0
est vérifiée, alors les estimateurs
ˆ
H
1
(t) et
ˆ
H
2
(t) doivent être proches.
Donc le test est basé sur la statistique
V =


0
K(u)d(
ˆ
H
1
(u) −
ˆ
H
2
(u)) =


0
K(u)
dN
1
(u)
Y
1
(u)


0
K(u)
dN
2
(u)
Y
2
(u)
,
où K(u) est le poids,
N
i
(u) =
n
i

j=1
N
i j
(u), Y
i
(u) =
n
i

j=1
Y
i j
(u).
Sous l’hypothèse H
0
les valeurs de la statistique V sont dispersées autour de zero.
En choisissant des poids différents, on obtient des statistiques différentes :
1. Test de logrank (Cox, Mantel - Haenchel) :
K
L
(u) = a
n
Y
1
(u)/n
1
Y
2
(u)/n
2
Y(u)/n
,
où Y =Y
1
+Y
2
, n = n
1
+n
2
, a
n
=
_
n
1
n
2
n
.
2. Test de Tarone-Ware :
K
TW
(u) = a
n
Y
1
(u)/n
1
Y
2
(u)/n
2
_
Y(u)/n
.
3. Test de Gehan (généralisation du test de Wilcoxon) :
K
G
(u) = a
n
Y
1
(u)
n
1
Y
2
(u)
n
2
.
4. Test de Prentice :
K
P
(u) = a
n
˜
S(u−)
Y(u)
Y(u) +1
,

˜
S(u) =

v≤u
_
1−
∆N(v)
Y(v) +1
_
, N = N
1
+N
2
, ∆N(u) = N(u) −N(u−).
5. Test de Efron :
K
E
(u) = a
n
ˆ
S
1
(u−)
ˆ
S
2
(u−)1
¦Y
1
(u)Y
2
(u)>0¦
,

ˆ
S
i
est l’estimateur de Kaplan-Meier de S
i
.
334
Si n
1
et n
2
sont grands, la loi de V est approchée par la loi normale :
V ≈N(0, σ
2
),
et la variance σ
2
est estimée par :
ˆ σ
2
=


0
K
2
(u)
Y
1
(u)Y
2
(u)
_
1−
∆N(u) −1
Y(u) −1
_
dN(u)
P
→σ
2
, Eˆ σ
2
= σ
2
.
Donc
V
2
ˆ σ
2
≈χ
2
(1)
et H
0
est rejetée au niveau de signification α si
V
2
ˆ σ
2
> χ
2
1−α
(1).
Des integrals peuvent être écrites en terme des sommes :
V =
m
1

j=1
K(T
0
1j
)
d
1j
n
1j

m
2

j=1
K(T
0
2 j
)
d
2j
n
2j
,

T
0
i1
< ... < T
0
im
i
sont des moments distincts des décès observés du i-ème groupe,
d
i j
est le nombre des décès au moment T
0
i j
pour le i-ème groupe,
n
i j
- le nombre des individus à risque juste avant le moment T
0
i j
pour le i - ème groupe.
Par exemple, pour le test de Gehan
V
G
=


0
K
G
(u)
_
dN
1
(u)
Y
1
(u)

dN
2
(u)
Y
2
(u)
_
=
m
1

j=1
K
G
(T
0
1 j
)
d
1 j
n
1 j

m
2

j=1
K
G
(T
0
2 j
)
d
2j
n
2j
=
a
n
n
1
n
2
_
m
1

j=1
n
2j
d
1 j

m
2

j=1
n
1 j
d
2j
_
.
Considérons une autre expression pour ce test. Notons T

1
<... <T

m
les moments des décès
observés de tous n = n
1
+n
2
individus,
D
i j
, N
i j
les nombres des décès au moment T

j
et les nombres des individus à risque juste
avant T

j
pour les individus de i-ème groupe,
D
j
= D
1 j
+D
2j
, N
j
= N
1 j
+N
2 j
;
Ici D
j
> 0 mais il est possible que D
1 j
= 0 ou D
2 j
= 0. Alors
V
G
=


0
K
G
_
dN
1
(u)
Y
1
(u)

dN
2
(u)
Y
2
(u)
_
=
a
n
n
1
n
2
_


0
Y
2
(u)dN
1
(u) −


0
Y
1
(u)dN
2
(u)
_
=
a
n
n
1
n
2
_
m

j=1
N
2 j
D
1 j

m

j=1
N
1j
D
2j
_
=
335
a
n
n
1
n
2
m

j=1
_
N
2j
D
1j
+N
1 j
D
1 j
−N
1 j
D
2 j
_
=
a
n
n
1
n
2
m

j=1
_
N
j
D
1 j
−N
1 j
D
j
_
=
a
n
n
1
n
2
m

j=1
N
j
_
D
1 j
−D
j
N
1 j
N
j
_
.
Dans la dernière formule D
1 j
représente le nombre des décès du premier groupe au moment
T

j
, E
1j
= D
j
N
1j
N
j
représente sous l’hypothèse H
0
le nombre expecté des décès du premier
groupe sachant que le nombre des décès de tous les deux groupes est D
j
et la proportion
des individus à risque juste avant T

j
est
N
1j
N
j
. Donc
V
G
=
a
n
n
1
n
2
m

j=1
N
j
(D
1 j
−E
1 j
).
Si des autres statistiques sont considérées, les poids associés à (D
1 j
−E
1j
) sont différents :
V
L
= a
n
n
n
1
n
2
m

j=1
(D
1 j
−E
1 j
);
V
TW
= a
n

n
n
1
n
2
m

j=1
_
N
j
(D
1j
−E
1j
);
V
P
= a
n
m

j=1
˜
S(T
0
j
−)
N
2
j
(N
j
+1)N
1j
N
2 j
(D
1 j
−E
1 j
);
V
E
= a
n
m

j=1
ˆ
S
1
(T
0
j
−)
ˆ
S
2
(T
0
j
−)
N
1j
N
2 j
N
j
1
¦N
1j
N
2 j
>0¦
.
L’estimateur de la variance ˆ σ
2
de la statistique V peut être donnée en terme des sommes :
ˆ σ
2
=
m

j=1
K
2
(T
0
j
)
N
1j
N
2J
_
1−
D
j
−1
N
j
−1
_
D
j
.
6.11 Estimation dans des expériences accélérées
6.11.1 Modèles de vie accélérée
Supposons que des unités sont très fiables et il n’y a pas de possibilité d’obtenir des
pannes pendant le temps t donné par expérience. Dans ce cas on effectue des expériences
sous des stress qui sont supérieurs au stress usuel. On appele ces expériences expériences
accélérées. L’application des stress accélérés racourci la durée de vie des unités et des
pannes peuvent se produire pendant le temps t. Des exemples des stress : température,
voltage, poids etc.
336
Dans le cas général des stress x peuvent varier en temps et peuvent être multidimension-
nels :
x = x(τ), τ ≥0, où x : [0, ∞[→B ⊂R
m
.
Supposons que la durée de vie T
x()
sous le stress x() est la variable aléatoire non-
négative absolument continue de fonction de survie
S
x()
(t) = P¦T
x()
>t¦, t ≥0.
Considérons un ensemble des stress E. Formelement, on dit qu’un stress x
1
() est supérieur
à un stress x
0
(), si S
x
0
()
(t) ≥S
x
1
()
(t) pour tout t ≥0.
Le but d’expériences accélérés est d’estimer la fiabilité des unités correspondante aux
conditions usuelles x
0
de fonctionnement en utilisant des données de ces expériences. La
solution de ce problème exige construction des modèles qui déterminent de quelle façon
la fonction de survie S
x()
ou une autre caractéristique (la densité, le taux de pannes, etc. )
change quand on change le stress x().
Soit f
x()
(t) = S
−1
x
0
◦S
x()
(t), où x
0
∈ E est un stress usuel, S
−1
x
0
= inf¦s : S
x
0
(s) ≥ p¦ est
la fonction inverse de S
x
0
. Alors pour tout x() ∈ E
P¦T
x
0
≥ f
x()
(t)¦ = P¦T
x()
≥t¦.
Pour tout x() ∈ E la probabilité de survivre jusqu’au moment t sous le stress x() est
la même que la probabilité de survivre jusqu’au moment f
x()
(t) sous le stress x
0
(t). Le
nombre f
x()
(t) est appelé la ressource utilisé sous le stress x() jusqu’au moment t. Il est
clair que f
x()
(0) = 0 pour tout x() ∈ E. La variable aléatoire R = f
x()
(T
x()
) est la res-
source utilisé sous le stress x() jusqu’au la panne. La fonction de survie de R est S
x
0
et ne
dépend pas de x().
Le modèle de vie accélérée (VA) est vérifé sur E si’il existe une fonction r : E →R
+
telle que pour tout x() ∈ E
d
dt
f
x()
(t) = r[x(t)]. (1)
Le modèle VA signifie que la vitesse d’utilisation de la ressource au moment t ne dépend
que de la valeur du stress appliqué au moment t. La formule (1) implique que
S
x()
(t) = S
x
0
_

t
0
r[x(τ)]dτ
_
. (2)
Nous nous bornons au modèle (2). Pour nombreuses généralisations et applications voir
Bagdonaviˇ cius & Nikulin (1995, 1997, 1998), voir aussi L.Gerville-Réache & V.Nikoulina
(1998), V. Bagdonaviˇ cius, L.Gerville-Réache, V.Nikoulina & M.Nikulin (2000).
Dans le cas x(τ) ≡x = const le modèle (2) implique
S
x
(t) = S
x
0
(r(x)t), (3)
donc le stress ne change que l’échelle. Notons que r(x
0
) = 1.
Considérons deux plans d’expériences accélérées possibles.
Le premier plan : Soient x
1
, ..., x
k
des stress accélérés : x
0
< x
1
< ... < x
k
et x
0
le stress
usuel. k groupes d’unités sont observés. On teste le ième groupe sous le stress x
i
. Donc le
stress usuel x
0
n’est pas utilisé.
337
Le deuxième plan peut être utilisé si le coefficient de variation de la durée de vie sous
le stress usuel x
0
n’est pas très grand et la plupart des pannes se produisent dans un certain
intervalle [s
1
, s
2
], où s
1
est supérieur au temps t donné pour l’expérience. Alors on peut faire
deux expériences : l’une sous un stress accéléré x
1
et une autre sous le stress x
1
jusqu’au
moment t
1
< t, en remplaçant le stress x
1
par le stress usuel x
0
au moment t
1
. Des unités
utilisent beaucoup de ses “ressources” jusqu’au moment t
1
sous le stress x
1
donc même
sous le stress usuel x
0
on peut obtenir des pannes dans l’intervalle [t
1
, t]
Dans le cas du premier plan d’expériences on n’a pas d’expérience sous le stress usuel
x
0
. Si la fonction r(t) est completement inconnue, la fonction S
x
0
ne peut pas être estimée
même si l’on connaît la famille des distributions à laquelle elle appartient.
Par exemple, si S
x
0
(t) = e
−(t/θ)
α
, alors
S
x
(t) = exp
_

_
r(x)
θ
t
_
α
_
.
Les paramètres α,
r(x
1
)
θ
, ...,
r(x
k
)
θ
et les fonctions S
x
1
, ..., S
x
k
peuvent être estimés mais puisque
r est complètement inconnu, r(x
0
) et donc S
x
0
(t) ne peuvent pas être estimés.
Donc la fonction r doit être choisie dans une certaine classe des fonctions.
Considérons choix possible de la fonction r(x). Si le modèle (3) est vérifié sur un en-
semble des stress E, alors pour tous x
1
, x
2
∈ E
S
x
2
(t) = S
x
1
(ρ(x
1
, x
2
)t),
où ρ(x
1
, x
2
) = r(x
2
)/r(x
1
) montre comment l’échelle de distribution change quand le stress
x
2
est utilisé au lieu du stress x
1
. Il est évident que ρ(x, x) = 1. Supposons que des stress
x ∈ E sont unidimensionnels : E ⊂ R. Le taux de changement d’échèle est déterminé par
la dérivée
δ(x) = lim
∆x→0
ρ(x, x +∆x) −ρ(x, x)
∆x
= [logr(x)]
/
.
Donc pour tout x ∈ E
r(x) = exp
_

x
x
0
δ(v)dv
_
.
Supposons que δ(x) est proportionnelle à une fonction connue u(x) de stress :
δ(x) = αu(x), α > 0. (4)
Alors
r(x) = e
β
0

1
z(x)
,
où z(x) est une fonction connue, β
0
, β
1
- des paramètres inconnus.
Des cas particulers :
a). δ(x) = α, i.e. le taux de changement de l’échelle est constant. Alors
r(x) = e
β
0

1
x
,
où β
1
> 0. C’est le modèle loglinéaire. Ce modèle est appliqué pour analyser des donnés de
fatigue, testant divers composantes électroniques.
338
b). δ(x) = α/x, alors
r(x) = e
β
0

1
logx
= αx
β
1
,
où β
1
> 0. C’est le modèle de la règle de puissance (“power rule model”).
Ce modèle est appliqué quand le stress est le voltage, la charge mécanique.
c). δ(x) = α/x
2
, alors
r(x) = e
β
0

1
/x
= αe
β
1
/x
,
où β
1
< 0. C’est le modèle d’Arrhénius.
Ce modèle est largement appliqué quand le stress est la température.
S’il n’est pas clair laquelle de ces trois paramétrisations de r(x) à choisir, on peut consi-
dérer la plus large paramétrisation :
δ(x) = αx
γ
,
qui est équivalente à
r(x) =
_
e
β
0

1
(x
ε
−1)/ε
, si ε ,= 0,
e
β
0

1
logx
, si ε = 0.
Dans le cas du deuxième plan la paramétrisation de r n’est pas nécessaire. Si le premier
groupe est testé sous le stress accéléré x
1
et le deuxième groupe sous le stress
x
2
(t) =
_
x
1
, 0 ≤τ ≤t
1
,
x
0
, t
1
< τ ≤t
2
,
alors
S
x
1
(u) = S
x
0
(ru),
S
x
2
()
(u) =
_
S
x
0
(ru), 0 ≤u ≤t
1
,
S
x
0
(r(u∧t
1
) +(u−t
1
) ∨0), t
1
< u ≤t
2
,
où r = r(x
1
)/r(x
0
). Les fonctions S
x
1
et S
x
2
()
peuvent être toujours estimées. On verra plus
tard que des estimateurs de r et consécutivement de S
x
0
peuvent être obtenues même dans
le cas quand la fonction S
x
0
est complètement inconnue.
Le modèle (4) peut être généralisé, en supposant que δ(x) est la combinaison linéaire
des fonctions connues du stress :
δ(x) =
k

i=1
α
i
u
i
(x).
Dans ce cas
r(x) = exp¦β
0
+
k

i=1
β
i
z
i
(x)¦,
où r
i
(x) sont des fonctions du stress connus, β
0
, ..., β
k
des paramètres inconnus (peut être
pas tous).
Exemple.
1. δ(x) = 1/x +α/x
2
.
Alors r(x) = e
β
0

1
logx+β
2
/x
= α
1
xe
β
2
/x
, où β
1
= 1, β
2
< 0. C’est le modèle d’Eyring,
on l’applique souvent quand le stress est une température.
2. δ(x) = ∑
k
i=1
α
i
/x
i
. Alors
r(x) = exp¦β
0

1
logx +
k−1

i=1
β
i
/x
i
¦.
339
C’est le modèle d’Eyring généralisé.
Le stress peut être multidimensionnel : x = (x
1
, ..., x
m
)
T
. Alors on considère des carac-
téristiques infinitésimales δ
i
(x) données par des égalités :
δ
i
(x) = lim
∆x
i
→0
ρ(x, x +∆x
i
e
i
) −ρ(x, x)
∆x
i
=
∂logr(x)
∂x
i
,
où e
i
= (0, ..., 1, ..., 0). L’unité est dans la i-ème coordoné.
Généralisant le cas unidimensionnel, δ
i
(x) peut être paramétrisé de façon suivant
δ
i
(x) =
k
i

j=1
α
i j
u
i j
(x),
où u
i j
(x) sont des fonctions connues, α
i j
-des constantes inconnues. Dans ce cas
r(x) = exp¦β
0
+
m

i=1
k
i

j=1
β
i j
z
i j
(x)¦,
où z
i j
(x) sont des fonctions connues, β
i j
sont des constantes inconnues.
Exemples.
1. δ
1
(x) = 1/x
1
+(α
11

12
x
2
)/x
2
1
, δ
2
(x) = α
21

22
/x
1
.
C’est le modèle d’Eyring généralisé. On l’applique pour certains matériels des semi-
conducteurs, quand x
1
est la température et x
2
est le voltage.
2. δ
i
(x) = α
i
u
i
(x
i
),
où u
i
sont connues. Alors
r(x) = exp¦
m

i=1
α
i

x
i
x
0
i
u
i
(v)dv¦ = exp¦β
0
+
m

i=1
β
i
z
i
(x
i
)¦,
où z
j
sont des fonctions connues. C’est le modèle d’Arrhénius généralisé.
Donc dans tous les cas considérés les modèles (2) et (3) peuvent être écrits sous la forme
S
x()
(t) = S
x
0
_

t
0
e
β
T
z(τ)

_
, (5)
ou
S
x
(t) = S
x
0
_
e
β
T
z
t
_
, (6)
où β = (β
0
, ..., β
m
)
T
est un vecteur des paramètres,
z(t) = (z
0
(t), ..., z
m
(t))
T
= (z
0
(x(t)), ..., z
m
(x(t)))
T
, z = (z
0
(x), ..., z
m
(x))
T
sont des vecteurs des fonctions connues du stress, la première composante z
0
est égale à 1.
Ces modèles peuvent être considérés comme paramétriques, si la fonction S
x
0
appar-
tienne à une certaine classe des répartitions, ou comme semiparamétriques si S
x
0
est com-
plètement inconnue.
340
6.11.2 Estimation paramétrique
On suppose, que le modèle (6) est considéré et le premier plan d’expériences est utilisé :
k groupes d’unités sont observés ; on fixe la durée maximale d’expérience t
i
du i -ème
groupe et on teste ce groupe sous le stress accéléré x
i
(i = 1, ..., k). Notons
z
il
= z
l
(x
i
), z
(i)
= (z
i0
, ..., z
im
)
T
(i = 1, ..., k; l = 0, ..., m).
On suppose que S
x
0
appartienne à une classe des répartitions
S
x
0
(t) = S
0
((t/θ)
ν
), (θ, ν > 0). (7)
Par exemple, si
S
0
(t) = e
−t
, (1+t)
−1
, 1−Φ(lnt),
alors on obtient des classes des répartitions de Weibull, loglogistique, lognormale respecti-
vement. Ici Φ est la fonction de répartition de la loi normale standard. Donc le modèle (6)
peut être écrit sous la forme :
S
x
(t) = S
_
lnt −γ
T
z
σ
_
, t > 0,

S(u) = S
0
(e
u
), u ∈ R, σ = 1/ν, γ = (γ
0
, ..., γ
m
), γ
0
= lnθ−β
0
,
γ
l
=−β
l
(l = 1, ..., m).
Dans les cas des lois de Weibull, loglogistique et lognormale
S(u) = e
−e
u
, (1+e
u
)
−1
, 1−Φ(u)
respectivement.
Notons T
i j
la durée de vie (pas nécessairement observée) de jème unité du ième groupe,
X
i j
= ln(T
i j
∧t
i
), δ
i j
= I¦T
i j
≤t
i
¦, f (u) =−S
/
(u), λ(u) =
f (u)
S(u)
.
La fonction de survie et la densité de lnT
i j
sont
S
i
(u; γ, σ) = S
_
u−γ
T
z
(i)
σ
_
, f
i
(u; γ, σ) =
1
σ
f
_
u−γ
T
z
(i)
σ
_
, u ∈ R.
Donc la fonction de vraisemblance
L(γ, σ) =
k

i=1
n
i

j=1
_
1
σ
λ
_
X
i j
−γ
T
z
(i)
σ
__
δ
i j
S
_
X
i j
−γ
T
z
(i)
σ
_
.
En dérivant par rapport à γ
i
et σ la fonction lnL(γ, σ), on obtient
U
l
(γ; σ) =
∂lnL(γ, σ)
∂γ
l
=
1
σ
k

i=1
z
il
n
i

j=1
a
i j
(γ, σ), (l = 1, ..., m),
341
U
m+1
(γ; σ) =
∂lnL(γ, σ)
∂σ
=
1
σ
k

i=1
n
i

j=1
¦v
i j
(γ, σ)a
i j
(γ, σ) −δ
i j
¦,

v
i j
(γ, σ) =
X
i j
−γ
T
z
(i)
σ
, a
i j
(γ, σ) = λ(v
i j
(γ, σ)) −δ
i j
(lnλ)
/
(v
i j
(γ, σ)).
Des estimateurs de maximum de vraisemblance ˆ σ, ˆ γ peuvent être obtenus en résolvant le
système d’équations
U
l
(γ, σ) = 0 (l = 1, ..., m+1).
Notons
I(γ, σ) = (I
lk
(γ, σ))
(m+1)(m+1)
la matrice avec des éléments suivants :
I
ls
(γ, σ) =−

2
lnL(γ, σ)
∂γ
l
∂γ
s
=
1
σ
2
k

i=1
z
il
z
is
n
i

j=1
c
i j
(γ, σ), l, s = 0, ..., m;
I
l,m+1
(γ, σ) =−

2
lnL(γ, σ)
∂γ
l
∂σ
=
1
σ
U
l
(γ, σ) +
1
σ
2
k

i=1
z
il
n
i

j=1
v
i j
(γ, σ)c
i j
(γ, σ), l = 0, ..., m;
I
m+1,m+1
(γ, σ) =−

2
lnL(γ, σ)
∂σ
2
=
2
σ
U
m+1
(γ, σ) +
1
σ
2
k

i=1
n
i

j=1
(v
2
i j
(γ, σ)c
i j
(γ, σ) +δ
i j
),

c
i j
(γ, σ) = λ
/
(v
i j
(γ, σ)) −δ
i j
(lnλ)
//
(v
i j
(γ, σ)).
Si T
x
0
suit les lois de Weibull, loglogistique ou lognormale, alors
λ(t) = e
t
; (1+e
−t
)
−1
; ϕ(t)/(1−Φ(t)).
respectivement, où
ϕ(t) =
1


e
−t
2
/2
.
Si les estimateurs de maximum de vraisemblance ˆ γ et ˆ σ sont obtenus, alors l’estimateurs de
la fonction de survie S
x
0
et de la p-quantile t
p
(x
0
) sont
ˆ
S
x
0
(t) = S
_
lnt −ˆ γ
T
z
(0)
ˆ σ
_
,
ˆ
t
p
(x
0
) = e
ˆ
γ
T
z
(0)
[S
−1
0
(1−p)]
ˆ σ
.
La loi asymptotique de (ˆ γ, ˆ σ)
T
quand n
i
sont grands est approchée par la loi normale
N((γ, σ)
T
, ΣΣΣ(γ, σ)) et la matrice de covariance ΣΣΣ(γ, σ) peut être estimé par
I
−1
(ˆ γ, ˆ σ) = (I
ls
(ˆ γ, ˆ σ)
(m+2)(m+2)
.
L’estimateur
ˆ
t
p
(x
0
) est la fonction régulière de ˆ γ et ˆ σ, donc la loi asymptotique de
ˆ
t
p
(x
0
) est
aussi normale. Mais t
p
(x
0
) prend des valeurs positives, donc la vitesse de convergence vers
la loi normale est plus grande si on considère la loi limite de
ˆ
K
p
(x
0
) = ln
ˆ
t
p
(x
0
) = ˆ γ
T
z
(0)
+ ˆ σln[S
−1
0
(1−p)].
342
La loi de
ˆ
K
p
(x
0
) est approximée par la loi normale N(K
p
(x
0
), σ
2
K
p
), où la variance σ
2
K
p
peut
être estimée par
ˆ σ
2
K
p
=
_

ˆ
K
p
(x
0
)
∂ˆ γ
0
, ...,

ˆ
K
p
(x
0
)
∂ˆ γ
m
,

ˆ
K
p
(x
0
)
∂ˆ σ
_
I
−1
(ˆ γ, ˆ σ)
_

ˆ
K
p
(x
0
)
∂ˆ γ
0
, ...,

ˆ
K
p
(x
0
)
∂ˆ γ
m
,

ˆ
K
p
(x
0
)
∂ˆ σ
_
T
=
m

l=0
m

s=0
z
0l
z
0s
I
ls
(ˆ γ, ˆ σ)+
2ln[S
−1
0
(1−p)]
m

l=0
I
l,m+1
(ˆ γ, ˆ σ)z
0l
+ln
2
[S
−1
0
(1−p)]I
m+1,m+1
(ˆ γ, ˆ σ).
La loi de
ˆ
K
p
(x
0
) −K
p
(x
0
)
ˆ σ
K
p
est approchée par la loi N(0, 1). L’intervalle approximatif de confiance de niveau de confiance
(1−α) pour K
p
(x
0
) est donné par la formule
ˆ
K
p
(x
0
) ± ˆ σ
K
p
w
1−α/2
,
où w
α
est la α-quantile de la loi de N(0, 1). L’intervalle approximatif pour t
p
(x
0
) est donné
par la formule
ˆ
t
p
(x
0
)exp¦±ˆ σ
K
p
w
1−α/2
¦.
L’estimateur
ˆ
S
x
0
(t) est aussi la fonction régulière de γ et σ. Notons
ˆ
Q
x
0
(t) = ln
ˆ
S
x
0
(t)
1−
ˆ
S
x
0
(t)
et Q
x
0
(t) = ln
S
x
0
(t)
1−S
x
0
(t)
.
La fonction Q
x
0
(t) prend ces valeurs dans Rdonc la convergence de
ˆ
Q
x
0
(t) vers la loi limite
est plus grande que la convergence de
ˆ
S
x
0
(t) vers sa loi limite. Comme dans le cas de t
p
(x
0
)
on obtient que la loi de
(
ˆ
Q
x
0
(t) −Q
x
0
(t))/ˆ σ
Q
0
est approximée par la loi normale N(0, 1) ; ici
ˆ σ
Q
0
=
S
/
(S
−1
(
ˆ
S
x
0
(t)))
ˆ σ
2 ˆ
S
x
0
(t)(1−
ˆ
S
x
0
(t))

¸
ˆ σ
2
m

l=0
m

s=0
z
0l
z
0s
I
ls
(ˆ γ, ˆ σ) −2ˆ γ
T
z
(0)
m

l=0
z
0l
ˆ σ+(ˆ γ
T
z
(0)
)
2
.
Donc les (1−α)-intervalles approximatifs de confiance pour Q
x
0
(t) et S
x
0
(t) sont
ˆ
Q
x
0
(t)±
ˆ σ
Q
0
w
1−α/2
et
_
1+
1−
ˆ
S
x
0
(t)
ˆ
S
x
0
(t)
exp¦∓ˆ σ
Q
0
w
1−α/2
¦
_
−1
.
Exemple 1. Si T
x
0
suit la loi de Weibull, i.e.
S
x
0
(t) = e
−(t/θ)
ν
, t ≥0,
343
et la paramétrisation d’Arrhénius est choisie (le stress est la température, par exemple), i.e.
r(x) = e
β
0

1
/x
,
alors S(t) = exp¦−exp(t)¦, z
00
= 1, z
10
= 1/x
0
, donc
ˆ
S
x
0
(t) = exp¦−exp¦
lnt −ˆ γ
0
−ˆ γ
1
/x
0
ˆ σ
¦¦,
ˆ
t
p
(x
0
) = e
ˆ γ
0
+ˆ γ
1
/x
0
(−ln(1−p))
ˆ σ
.
Exemple 2. Si T
x
0
suit la loi loglogistique, i.e.
S
x
0
(t) = (1+(t/θ)
ν
)
−1
, t ≥0,
et la paramétrisation de la règle de puissance est choisie (le stress est le voltage, par exemple),
i.e.
r(x) = e
β
0

1
lnx
,
alors
S(t) = (1+e
t
)
−1
, z
00
= 1, z
10
= lnx
0
,
donc
ˆ
S
x
0
(t) =
_
1+exp
_
lnt −ˆ γ
0
−ˆ γ
1
lnx
0
ˆ σ
__
−1
,
ˆ
t
p
(x
0
) = e
ˆ γ
0
+ˆ γ
1
lnx
0
_
p
1−p
_
ˆ σ
.
Exemple 3. Si T
x
0
suit la loi lognormale et la paramétrisation d’Eyring est choisie, i.e.
r(x) = e
β
0

1
lnx+β
2
/x
,
alors
z
00
= 1, z
10
= lnx
0
, z
20
= 1/x
0
, S(t) = 1−Φ(t)
et
ˆ
S
x
0
(t) = 1−Φ
_
lnt −ˆ γ
0
−ˆ γ
1
lnx
0
−ˆ γ
2
/x
0
ˆ σ
_
,
ˆ
t
p
(x
0
) = e
ˆ γ
0
+ˆ γ
1
lnx
0
+ˆ γ
2
/x
0
+ˆ σΦ
−1
(p)
.
Exemple 4. Supposons que la durée de vie T
x
0
suit la loi de Weibull et le stress x =
(x
1
, x
2
)
T
est bidimensionel (le voltage et la température, par exemple) et le modèle d’Ar-
rhénius généralisé avec δ
1
(x) = α
1
/x
1
, δ
2
/x
2
2
est choisi. Alors
z
00
= 1, z
10
= lnx
10
, z
20
= 1/x
20
et
ˆ
S
x
0
(t) = exp¦−exp¦
lnt −ˆ γ
0
−ˆ γ
1
lnx
10
−ˆ γ
2
/x
20
ˆ σ
¦¦,
ˆ
t
p
(x
0
) = e
ˆ γ
0
+ˆ γ
1
lnx
10
+ˆ γ
2
/x
20
(−ln(1−p))
ˆ σ
.
Les formules sont plus simples, si ν = 1 dans (7), par exemple dans le cas de la loi
exponentielle :
S
x
0
(t) = e
−t/θ
, t ≥0, t
p
(x
0
) =−e
−γ
T
z
(0)
ln(1−p).
344
Le modèle (6) peut être écrit
S
x
(t) = exp¦−exp(γ
T
z)t¦,

γ = (γ
0
, ..., γ
m
)
T
, γ
0
= β
0
−lnθ, γ
i
= β
i
, (i = 1, ..., m).
La fonction de survie et le taux de pannes de T
i j
sont
S
x
i
(t) = exp¦−exp(γ
T
z
(i)
)t¦,
λ
x
i
(t) = e
−γ
T
z
(i)
.
Notons X
i j
= T
i j
∧t
i
, δ
i j
= I(T
i j
≤t
i
). La fonction de vraisemblance
L(γ) =
k

i=1
n
i

j=1
_
λ
x
i
(X
i j
)
¸
δ
i j
S
x
i
(X
i j
) = exp¦−
k

i=1
n
i

j=1

i j
γ
T
z
(i)
+e
γ
T
z
(i)
X
i j
)¦.
Les fonctions score
U
l
(γ) =
∂lnL(γ)
∂γ
l
=−
k

i=1