Vous êtes sur la page 1sur 409

UNIVERSITE VICTOR SEGALEN BORDEAUX 2

U.F.R. "Sciences et Modlisation"


COURS de STATISTIQUE MATHEMATIQUE
Modles, Mthodes, Applications

lusage des tudiants de DEUG, Licence et Master


M. Nikulin
V. Bagdonavi cius
C. Huber
V. Nikoulina
BORDEAUX
2004/2005
1
2
Table des matires
0 LOIS USUELLES. APPROXIMATIONS. 11
0.1 Lois discrtes. Approximations normale et de Poisson. Thorme limite
central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
0.2 Approximations normales et de Poisson . . . . . . . . . . . . . . . . . . . 14
0.3 Lois continues. Liaisons entre des lois . . . . . . . . . . . . . . . . . . . . 15
0.4 Epreuves de Bernoulli et marches alatoires. . . . . . . . . . . . . . . . . 22
0.5 Reprsentation dune suite dpreuves de Bernoulli indpendante . . . . . 22
0.6 Probabilits associes une marche alatoire reliant 2 points du treillis S . 23
0.7 Frontire absorbante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
0.8 Marches alatoires et distributions discrtes . . . . . . . . . . . . . . . . . 24
1 QUELQUES PROBLMES CLASSIQUES DE LA STATISTIQUE MATHE-
MATIQUE. 31
1.1 Problmes destimation et de comparaison des probabilits de succs. . . . 31
1.2 Modle probabiliste de lerreur de mesure. . . . . . . . . . . . . . . . . . 41
1.3 Mthode de Monte-Carlo. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2 ELEMENTS DE LA THEORIE DE LESTIMATION PONCTUELLE. 55
2.1 Modle statistique. Fonction de vraisemblance. . . . . . . . . . . . . . . . 55
2.2 Statistique. chantillon. Loi empirique. . . . . . . . . . . . . . . . . . . . 56
2.3 Estimateur ponctuel. Consistance. Estimateur invariant . . . . . . . . . . . 62
2.4 Fonction de perte, fonction de risque. . . . . . . . . . . . . . . . . . . . . 64
2.5 Statistiques exhaustives, ncessaires, minimales et compltes. . . . . . . . 65
2.6 Information de Fisher. Ingalit de Rao-Cramer-Frchet. Thorme de Rao-
Blackwell-Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7 Mthode des moments. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.8 Mthode des moindres carrs. Modle de Gauss de la thorie des erreurs. . 81
2.9 Rgions, intervalles, limites de conance. . . . . . . . . . . . . . . . . . . 86
2.10 Mthode de Bolshev de construction des limites de conance. . . . . . . . 88
2.11 Thorme de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.12 Intervalle de conance pour la moyenne dune loi normale . . . . . . . . . 100
2.13 Intervalle de conance pour la variance dune loi normale . . . . . . . . . 105
2.14 Intervalle de conance pour la diffrence des moyennes de deux lois normales112
2.15 Intervalle de conance pour le quotient des variances de deux lois normales. 117
2.16 La loi de Thompson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17 Mthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . 121
2.18 Proprits asymptotiques du rapport de vraisemblance . . . . . . . . . . . 132
3
2.19 Decomposition orthogonale de Fisher . . . . . . . . . . . . . . . . . . . . 151
2.20 Modle danalyse des variances 2 facteurs. . . . . . . . . . . . . . . . . 154
2.21 Modle exponentiel. Analyse statistique. . . . . . . . . . . . . . . . . . . 163
3 ELEMENTS DE LA STATISTIQUE NON PARAMETRIQUE. 169
3.1 La loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3.2 Mdiane de la loi empirique. . . . . . . . . . . . . . . . . . . . . . . . . . 180
3.3 Thorme de Kolmogorov. . . . . . . . . . . . . . . . . . . . . . . . . . . 183
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrtes. . . . . . . . . . . . . . . . . . . . . . . . . 184
3.4 Tests de Kolmogorov et Smirnov pour un chantillon. . . . . . . . . . . . 186
3.5 Test de Kolmogorov-Smirnov pour deux chantillons. . . . . . . . . . . . 189
3.6 Test
2
de Cramer-von Mises et statistiques associes de Lehmann, Gini,
Downton, Moran-Greenwood et Sherman. . . . . . . . . . . . . . . . . . . 190
3.7 Les statistiques de Kolmogorov et Gihman. . . . . . . . . . . . . . . . . . 195
3.8 Test des signes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.9 Test de Wilcoxon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.10 Estimation non paramtrique de la densit. Histogramme. Estimateur de
Rosenblatt. Le noyau de Parzen. . . . . . . . . . . . . . . . . . . . . . . . 204
4 TESTS STATISTIQUES. 207
4.1 Principe des tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
4.2 Test de Neyman-Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . 209
4.3 Loi multinomiale et test du chi-deux de Pearson. . . . . . . . . . . . . . . 214
4.4 Thorme de Fisher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
4.5 Thorme de Chernoff-Lehmann. . . . . . . . . . . . . . . . . . . . . . . 224
4.6 Test du chi-deux pour une loi logistique. . . . . . . . . . . . . . . . . . . . 225
4.7 Test du chi-deux dans un problme dhomognit. . . . . . . . . . . . . . 228
4.8 Test du
2
dhomognit pour des lois multinomiales. . . . . . . . . . . . 233
4.9 Test du
2
pour lindpendance dans une table de contingence. . . . . . . . 236
4.10 Test du Chauvenet pour la dtection des observations aberrantes. . . . . . . 241
5 REGRESSION 243
5.1 Rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
5.1.1 Modle de la rgression linaire . . . . . . . . . . . . . . . . . . . 243
5.1.2 Codage des covariables . . . . . . . . . . . . . . . . . . . . . . . 244
5.1.3 Interprtation des coefcients . . . . . . . . . . . . . . . . . . . . 245
5.1.4 Modle avec interactions . . . . . . . . . . . . . . . . . . . . . . 245
5.1.5 Estimateurs des moindres carrs . . . . . . . . . . . . . . . . . . . 246
5.1.6 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . 247
5.1.7 Dcomposition des sommes de carrs . . . . . . . . . . . . . . . . 250
5.1.8 Le coefcient de dtermination. . . . . . . . . . . . . . . . . . . . 252
5.1.9 Rgression linaire simple . . . . . . . . . . . . . . . . . . . . . . 253
5.1.10 Rgression normale . . . . . . . . . . . . . . . . . . . . . . . . . 254
5.1.11 Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . 255
5.1.12 Lois des estimateurs

et
2
. . . . . . . . . . . . . . . . . . . . . . 255
5.1.13 Test de lhypothse H
0
:
k+1
= ... =
m
= 0 . . . . . . . . . . . . 257
5.1.14 Les coefcients empiriques de la correlation partielles . . . . . . . 260
4
5.1.15 Intervalles de conance pour les coefcients et leur combinaisons
linaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.1.16 Intervalles de conance pour les valeurs de la fonction de rgres-
sion m(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
5.1.17 Prdiction de la nouvelle observation . . . . . . . . . . . . . . . . 263
5.1.18 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . 263
5.2 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3 Rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
5.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
6 ELEMENTS DANALYSEDES DONNEES CENSUREES ETTRONQUEES.281
6.1 Distribution de survie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
6.2 Risque de panne ou taux de dfaillance. . . . . . . . . . . . . . . . . . . . 284
6.3 Modles paramtriques de survie. . . . . . . . . . . . . . . . . . . . . . . 289
6.4 Modles nonparamtriques . . . . . . . . . . . . . . . . . . . . . . . . . . 298
6.5 Types de censure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
6.6 Troncature. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6.7 Estimateur de Kaplan-Meier. . . . . . . . . . . . . . . . . . . . . . . . . . 316
6.8 Modle de Cox. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
6.9 Sur lestimation semiparamtrique pour le modle de Cox . . . . . . . . . 323
6.10 Processus de comptage et lestimation non paramtrique . . . . . . . . . . 328
6.11 Estimation dans des expriences acclres . . . . . . . . . . . . . . . . . 336
6.11.1 Modles de vie acclre . . . . . . . . . . . . . . . . . . . . . . 336
6.11.2 Estimation paramtrique . . . . . . . . . . . . . . . . . . . . . . . 341
6.11.3 Estimation semiparamtrique . . . . . . . . . . . . . . . . . . . . 350
7 INFERENCE BAYESIENNE 357
7.1 La rgle Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
7.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
7.3 Approche bayesienne empirique . . . . . . . . . . . . . . . . . . . . . . . 370
7.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
7.4.1 La loi beta et ses proprits . . . . . . . . . . . . . . . . . . . . . 370
7.5 Rsultats principaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
7.6 Aproximations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
8 EXERCICES. 375
9 SOLUTIONS. 383
5
6
AVANT PROPOS
Ce fascicule est destin tout dabord aux tudiants de
lUFR "Sciences et Modlisation"
(ancienne lUFR MI2S) de lUniversit Victor Segalen Bordeaux 2, qui veulent apprendre
les notions fondamentales de la statistiques mathmatiques. Le contenu de ce fascicule est
une synthse des des cours de statistique que jai donn lUniversit Bordeaux 2, lUniver-
sit Bordeaux 1 et lUnivrsit Bordeaux 4 dans les annes 1992-2002. Il est suppos que les
tudiants aient la connaissance avec des notions fondamentalles de la thorie de probabilit
pour apprendre la premire partie de cours et de la thorie des processus stochastiques pour
la deuxime partie, exposes par exemple, dans le fascicule
"Calcul des Probabilits et Introduction aux Processus Alatoires", 2000/2001, UFR
MI2S, (V.Bagdonavi cius, V.Nikoulina et M.Nikulin). Il y a une corrlation forte positive
entre ces deux cours.
Il faut remarquer qu la base de cet ouvrage se trouvent les mmes ides statistiques
qui taient exposes dans les deux polycopies de C.Huber et M.Nikulin :
"Transformations des variables alatoires. Applications au choix et la rduction dun
modle statistique", (1991), UFR "Etudes Mdicales et Biologiques", Universit Paris 5,
et "Applications Statistiques des Transformations des Variables Alatoires", (1993), UFR
MI2S, Universit Bordeaux 2.
Pour traiter bien les donnes, cest--dire pour mener bien les estimations et les tests
classiques, paramtriques ou non paramtriques, on transforme les observations brutes en
calculant des statistiques bien choisies qui doivent avoir les proprits suivantes :
1. Perdre le moins dinformation possible, ventuellement pas du tout et cest le cas des
statistiques exhaustives, tout en rduisant au minimum le volume initial des observations.
2. Etre calculable ou avoir une bonne approximation. Par exemple sil sagit dun esti-
mateur obtenu par la mthode de maximum de vraisemblance, il se peut que lon ne puisse
en obtenir aisment quune valeur approche au premier pas partir dun estimateur moins
bon.
3. Leurs lois doivent tre, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire la fois simple calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur.
Ce qui suit donne, grce des transformations appropries des observations, des statis-
tiques qui ont ces proprits et aussi de bonnes approximations des lois usuelles et permet
ainsi de nutiliser essentiellement que deux tables : celle de la loi normale standard et celle
des lois gamma (ou chi-deux). Des exemples illustrent lapplication de ces mthodes, qui
donnent des approximations meilleures ( vitesse de convergence plus rapide) que les ap-
proximations usuelles.
Ces techniques sont trs utiles pour tous les statisticiens qui travaillent sur des pro-
7
blmes concrets, en particulier pour les ingnieurs, mais aussi, et cest moins connu, dans
les domaines de la mdecine, de la biologie et de la sociologie.
De plus cette approche nous permet de considrer "les transformations des variables
alatoires" comme le synonyme dune partie de "la statistique mathmatique", qui est base
sur la thorie de la probabilit. Ce point de vue sur le rle des transformations des variables
alatoires dans la statistique a t exprim tres nettement par Professeur L.N. Bolshev dans
ces articles, voir, par exemple, (1959), (1963) etc.
Dans cette optique C.Huber, T.Smith and M.Nikulin ont prpar le manuscript "Intro-
duction to the Theory of Statistical Inference",(1992), Departement of Mathematics and
Statistics, Queens University, Kingston, Canada. Ce manuscrit a t largement utilis pour
crer la base du cours de la statistique que jai donn Queens University en 1991-1992,
ainsi que les cours de statistiques donns au sein de lUFR MI2S lUniversit Bordeaux
2.
Il faut noter que pour prparer le cours actuel nous avons utilis aussi les livres suivants :
V. Bagdonavi cius & M.Nikulin, "Accelerated Life Models", 2002,
Chapman&Hall/CRC : Boca Raton,
C.Huber, "Statistique au PCEM",1992, Masson, Paris,
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.1 : Univa-
riate Case" 1993, Kluwer Academic Publishers, Dortrecht),
V.Voinov & M.Nikulin, "Unbiased Estimators and Their Applications. Vol.2 : Multiva-
riate Case", 1996, Kluwer Academic Publishers, Dortrecht,
P.E.Greenwood & M.Nikulin, "A Guide to Chi-Squared Testing", 1996, John Wiley and
Sons, New-York,
Encyclopaedia of Mathematics, 1994, (Editor : M.Hasewinkel), Kluwer Academic Pu-
blishers, v. 1-10,
Probability & Mathematical Statistics : Encyclopaedia, 1999, (Ed. : Yu.V.Prokhorov),
Big Russian Encyclopaedia,Moscow,
do tait tir la plupart des exemples, dnitions, remarques, exercises et dmonstrations
des rsultats caractre thorique pour construire les cours de statistique que nous avons
donn lUniversit Bordeaux 2 (DEUG, Licence et Matrise de la lre MASS, DESS et
DEA de la lire Sciences Cognitive lUFR MI2S, DESS de Statistique Applique aux
Sciences Sociales et de Sant de lISPED. Ce cours est li avec dautres cours de statis-
tiques donns lUniversit Bordeaux 2 ( les UFRs STAPS, Sciences de la Vie, Sciences
Pharmaceutiques, lISPED) et peut-tre bien utilis comme le support de base dans len-
seignement des cours de statistiques de niveau de DESS et DEA orients vers le milieu
biomdicale, ainsi que pour les sciences sociales et conomiques. En particulier, il est bien
adapt pour le DESS "Statistique Applique aux Sciences Sociales et de la Sant" et DEA
dEpidmiologie (Option Biostatistique) lInstitut de Sant Publique, dEpidmiologie et
de Dveloppement. Cet ouvrage est tres li avec notre ouvrage prcident "Statistique ma-
thmatique : Thorie, Mthodes and Applications", (2000/2001).
Dans ces cours nous avons essay dexposer les ides et les notions fondamentales de
la statistique mathmatique en termes de dnitions, exemples et remarques et dintroduire
les techniques des transformations des donnes et les mthodes statistiques que lon utilise
souvent dans les applications. Tout cela ensemble permet dapprendre les bases fondamen-
tales de la statistique mathmatique, dapprendre travailler avec des logiciels et des tables
statistiques, de construire des modles probabilistes et de faire des infrences statistiques,
et par consquent, tre pret de travailler dans les diffrents domaines dapplications des
8
modles et mthodes de la statistique mathmatique. Il est vident que ce cours de statis-
tique rete des intrets statistiques des auteurs et que nous avons trait plus profondment
les thmes qui sont proches aux thmes de recherches, dvelopps au sein du Laboratoire
"Statistique Mathmatiques et ses Applications" de lUniversit Bordeaux 2. Il faut noter
que parallelement lUniversit Bordeaux 2 on fait dautres cours de statistiques, qui sont
plus appliqus et o on considre des mthodes danalyse des donnes, de la statistique
multivarie, de lanalyse des rgressions et surtout de lanalyse de survie dans le cadre des
cours de statistiques de lISPED.
Vu limportance dapplications des modles semiparamtriques avec des covariables d-
pendant du temps dans lanalyse de survie, en abilit, dans lconomie etc., nous avons mis
quelques rsultas rcents, lis avec la thorie des preuves acclres. Plus dinformations
on peut voir, par exemple, dans nos monographies avec V.Bagdonavi cius Semiparametric
Models in Accelerated Life Testing, (1995), et "Additive and Multiplicative Semiparame-
tric Models in Accelerated Life Testing and Survival Analysis", (1998).
A la n il faut ajouter que nos cours de statistiques sont accompagns des travaux pra-
tiques en Statistiques avec lutilisation de SPSS.
Je remercie mes collegues des Universits Bordeaux 1, 2 et 4, de lUniversit Paris
5, et tous les participants au Sminaire Statistique des Universits de Bordeaux et du S-
minaire Europan "Mathematical Methods in Survival Analysis and Reliability", avec les-
quels nous avons discut sur les problmes denseignement de la statistique. Les discus-
sions ont t trs intressantes et trs utiles pour nous, et surtout avec A.Alioum Ch.Bulot,
D.Commenges, V.Couallier, L.Gerville-Rache, H.Lauter, M.Mesbah, J.Poix, V.Solev, V.Voinov.
Mikhail Nikouline
9
10
Chapitre 0
LOIS USUELLES.
APPROXIMATIONS.
0.1 Lois discrtes. Approximations normale et de Poisson.
Thorme limite central
Ici nous allons exposer des lois probabilistes que lon utilise souvent en applications sta-
tistiques, des liaison entre elles et des approximations utiles. Plus dinformation ce sujet
on peut trouver dans les publications de L.Bolshev (1963), C.Huber et M.Nikulin (1993),
o, en particulier, est expos la thorie des transformations asymptotique de Pearson, d-
veloppe par L.Bolshev, voir aussi, L.Bolshev et N.Smirnov (1968), M.Nikulin (1984),
Bagdonavi vuis et Nikulin (2002).
Dnition 1. On dit quune variable alatoire discrte X suit la loi de Bernoulli de
paramtre p, p [0, 1], si X ne prend que 2 valeurs 1 et 0 avec les probabilits
p = PX = 1 et q = 1p = PX = 0,
i.e.
PX = x = p
x
(1p)
1x
, x 0, 1. (1)
Il est clair que
EX = p, VarX = EX
2
(EX)
2
= pq
1
4
.
On remarque que
VarX
EX
= q < 1.
Dnition 2. Soient X
1
, ..., X
n
des variables alatoires indpendantes et qui suivent la
mme loi de Bernoulli (1) de paramtre p. Dans ce cas on dit que la statistique

n
=
n

i=1
X
i
suit la loi binomiale B(n, p) de paramtres n et p, 0 p 1, et on note
n
B(n, p).
11
Il est facile de montrer que
P
n
= k =
_
n
k
_
p
k
(1p)
nk
, k 0, 1, ..., n, (2)
E
n
= np, Var
n
= np(1p) = npq.
La fonction de rpartition de
n
est
P
n
m =
m

k=0
_
n
k
_
p
k
(1p)
nk
= 1I
p
(m+1, nm) =
I
1p
(nm, m+1), 0 m n, (3)
o
I
x
(a, b) =
1
B(a, b)

x
0
u
a1
(1u)
b1
du, 0 < u < 1, (4)
est la fonction Bta incomplte de Euler (a > 0, b > 0),
B(a, b) =

1
0
u
a1
(1u)
b1
du (5)
la fonction Bta de Euler.
Exemple 1. Soit X
1
, ..., X
n
une suite de variables alatoires, qui suivent la mme loi de
Bernoulli de paramtre p = 0.5 :
PX
i
= 1 = PX
i
= 0 = 0.5.
Notons
S
n
= X
1
+... +X
n
et = mink : S
k
> a,
o a est une constante positive.
Construisons des variables alatoires
Y
n
= S
+n
S
+(n1)
, n = 1, 2, ....
Il est facile de montrer que Y
1
,Y
2
, ...,Y
n
, ... forment une suite de variables alatoires ind-
pendantes, ayant la mme loi de Bernoulli de paramtre p = 0.5 :
PY
n
= 1 = PY
n
= 0 = 0.5.
Dnition 3. On dit quune variable alatoire X suit la loi uniforme discrte sur len-
semble 1, 2, ..., N, si
PX = k =
1
N
, k 1, 2, ..., N.
Il est facile de montrer que
EX =
N+1
2
, VarX =
N
2
1
12
.
12
Dnition 4. On dit que la variable alatoire discrte X suit la loi gomtrique de
paramtre p, 0 < p < 1, si
PX = k = p(1p)
k
, k 0, 1, 2, ....
On peut montrer que
EX =
1p
p
, VarX =
1p
p
2
,
et la fonction de rpartition de X est
PX n =
n

k=0
p(1p)
k
= 1PX n+1 =
1I
1p
(n+1, 1) = I
p
(1, n+1), n 0, 1, ....
On remarque que
VarX
EX
=
1
p
> 1.
Dnition 5. On dit que la variable alatoire discrte X suit la loi de Poisson de para-
mtre , > 0, si
PX = k =

k
k!
e

, k 0, 1, 2, ....
Il est facile de montrer que
EX = VarX = ,
et donc
VarX
EX
= 1.
La fonction de rpartition de X est
PX m =
m

k=0

k
k!
e

= 1I

(m+1),
o
I
x
( f ) =
1
( f )

x
0
t
f 1
e
t
dt, x > 0,
est la fonction Gamma incomplte de Euler avec f degrs de libert, f > 0.
Pour les calculs trs approximatifs quand les valeurs de sont assez grandes on peut
utiliser lapproximation normale simple :
PX m =
_
m+0.5

_
+O
_
1

_
, .
13
0.2 Approximations normales et de Poisson
Thorme Limite Central de Moivre-Laplace. Soit X
n

n=1
une suite de variables
alatoires indpendantes de mme loi de Bernoulli de paramtre p, 0 < p < 1 :
PX
i
= 1 = p, PX
i
= 0 = q = 1p,

n
= X
1
+... +X
n
, F
n
(x) = P
_

n
np

npq
x
_
, x R
1
.
Alors, uniformment par rapport x, x R
1
,
F
n
(x) (x) =
1

e
t
2
/2
dt, n .
Du thorme limite central il suit que pour les grands valeurs de n
P
_

n
np

npq
x
_
(x).
Souvent on utilise cette approximation avec la correction de continuit 0.5 :
P
_

n
np+0.5

npq
x
_
(x),
voir, par exemple, Greenwood & Nikulin (1996).
Thorme de Poisson.
Soit
n
une suite de variables binomiales,
n
B(n, p
n
), 0 < p
n
< 1, telle que
np
n
, quand n , o > 0.
Alors
lim
n
P
n
= m =

m
m!
e

.
En pratique cela signie que pour n grand et p petit on obtient lapproximation de
Poisson de la loi binomiale B(n, p) par une loi de Poisson de paramtre = np :
P
n
= m

m
m!
e

.
On peut montrer (J.L. Hodges et L. Le Cam, 1968) que
sup
x
[
x

m=0
_
n
m
_
p
m
(1p)
nm

m=0

m
m!
e

[
C

n
, avec C 3

.
Thorme Limite Central de Lvy.
Soit X
n

n=1
une suite de variables alatoires indpendantes de mme loi telle que
EX
i
= et VarX
i
=
2
14
existent. Notons S
n
= X
1
+...X
n
. Alors, uniformment par rapport x R
1
P
_
S
n
n

n
x
_
(x), n .
Corrolaire 1. Dans les conditions du Thorme de Lvy on a : quelque soit > 0
P[
1
n
n

j=1
X
j
[ = P
_

S
n
n

>

_
2
_

_
.
Par exemple, si = 3/

n, alors
P[
1
n
n

j=1
X
j
[ 0.997,
si = 2/

n, alors
P[
1
n
n

j=1
X
j
[ 0.965.
0.3 Lois continues. Liaisons entre des lois
Dnition 1. On dit quune variable alatoire U suit la loi uniforme sur [a, b], si la
densit de probabilit de U est donne par la formule :
f (x; a, b) =
1
ba
1
[a,b]
(x), x R
1
.
La fonction de rpartition de U est
F(x; a, b) = PU x =
x a
ba
1
[a,b]
(x) +1
]b,+[
(x), x R
1
.
Il est facile de vrier que
EU =
a+b
2
, VarU =
(ba)
2
12
.
Remarque 1. Soit X une variable alatoire continue. Notons F(x) sa fonction de rpar-
tition. Il est facile de vrier que la variable alatoire U = F(X) suit la loi uniforme sur
[0, 1]. Souvent on dit que pour obtenir U on a applique la transformation de Smirnov.
Dnition 2. On dit quune variable alatoire Z suit la loi normale standard N(0, 1) ou
rduite, si la densit de probabilit (x) de Z est donne par la formule
(x) =
1

2
e
x
2
/2
, x R
1
. (1)
15
La fonction de rpartition correspondante joue un rle important dans la suite. Aussi lui
donne-t-on un nom particulier, on lappelle :
(x) = PZ x =
1

e
z
2
/2
dz, x R
1
. (2)
De (2) on dduit que
(x) +(x) 1, x R
1
. (3)
Soit x un nombre quelconque x et soit
p = (x), 0 < p < 1. (4)
Si nous notons (y) =
1
(y) la fonction inverse de y = (x), 0 < y < 1, de (3) et (4) il
rsulte que
[(p)] p et [(1p)] 1p (5)
pour tout p, 0 < p < 1. De plus comme
(x) = 1(x) = 1p et x = (1p),
quand x = (p), on en dduit que
(p) +(1p) 0, 0 < p < 1. (6)
Il est connu que EZ = 0, VarZ = 1.
Soit X = Z +, o Z N(0, 1), [[ < , > 0. Dans ce cas on dit que X suit la
loi normale N(,
2
) de paramtres
= EX et
2
= VarX. (7)
La densit de X est
1

_
x

_
=
1

2
exp
_

(x )
2
2
2
_
, x R
1
, (8)
et la fonction de rpartition est
PX x =
_
x

_
, x R
1
. (9)
Dnition 3. On dit quune variable alatoire
2
f
suit la loi de chi-deux f degrs de
libert, f > 0, si sa densit de probabilit est donne par la formule
q
f
(x) =
1
2
f
2

_
f
2
_x
f
2
1
e
x/2
1
]0,[
(x), x R
1
, (10)
o
(a) =


0
t
a1
e
t
dt, a > 0 (11)
est la fonction Gamma de Euler.
16
Nous allons noter Q
f
(x) = P
2
f
x la fonction de rpartition de
2
f
. Par des calculs
directs il est facile de montrer que
E
2
f
= f et Var
2
f
= 2 f . (12)
Cette dnition de la loi du chi-deux nest pas constructive. Pour construire une variable
alatoire
2
n
, n N

, il suft de prendre n variables alatoires indpendantes Z


1
, ..., Z
n
, qui
suivent la mme loi normale standard N(0, 1) et construire la statistique
Z
2
1
+... +Z
2
n
.
On peut montrer que PZ
2
1
+... +Z
2
n
x = Q
n
(x), i.e.,
Z
2
1
+... +Z
2
n
=
2
n
(13)
suit la loi de chi-deux n degrs de libert. Souvent (13) on prend pour la dnition de
2
n
.
Nous allons suivre aussi cette tradition.
Daprs le Thorme Limite Central il rsulte que si n est assez grand alors on a lap-
proximation normale :
P
_

2
n
n

2n
x
_
= (x) +O
_
1

n
_
.
On utilise aussi souvent pour la loi du
2
lapproximation normale de Fisher, daprs la-
quelle
P
_
2
2
n

2n1 x = (x) +O
_
1

n
_
, n .
Les meilleurs rsultats donne lapproximation normale de Wilson-Hilferty :
P
2
n
x =
_
_
3
_
x
n
1+
2
9n
_
_
9n
2
_
+O
_
1
n
_
, n .
Dnition 4. On dit quune variable alatoire
f
suit la loi Gamma f degrs de libert
( f > 0), si pour tout x > 0
P
f
x = I
x
( f ), (14)
o
I
x
( f ) =
1
( f )

x
0
t
f 1
e
t
dt (15)
est la fonction Gamma incomplte de Euler.
Il est facile de vrier que
1
2

2
2 f
=
f
. (16)
En effet, x > 0 on a
P
1
2

2
2 f
x = P
2
2 f
2x = Q
2f
(2x) =
1
2
f
( f )

2x
0
t
f 1
e
t/2
dt.
En faisant le changement de variable t = 2u, on trouve que
P
1
2

2
2f
x =
1
( f )

x
0
u
f 1
e
u
du = I
x
( f ) = P
f
x,
17
o
f
est une variable alatoire qui suit la loi gamma f degrs de libert. En utilisant la
relation (16) on trouve que
E
f
= E
1
2

2
2 f
= f , Var
f
= Var
1
2

2
2 f
=
1
4
Var
2
2 f
= f .
Si f = 1, alors de (14) on dduit
P
1
x =

x
0
e
t
dt = 1e
x
, x > 0, (17)
cest--dire que la variable alatoire
1
suit la loi exponentielle standard. De cette proprit
et de (16) on tire que
1
2

2
2
suit la loi exponentielle standard aussi.
Thorme 1 Soient X
1
, ..., X
n
des variables alatoires indpendantes, qui suivent la
mme loi exponentielle (17). Alors leur somme suit la loi gamma n degrs de libert, i.e.
X
1
+... +X
n
=
n
. (18)
Remarque 2. Soit X une variable alatoire qui suit la loi de Poisson de paramtre ,
> 0. Il est facile de montrer que pour tout m N
PX m = P
m+1
= P
2
2m+2
2 =
1P
2
2m+2
2 = 1Q
2m+2
(2). (19)
En effet, soit
m
une variable alatoire qui suit la loi gamma de paramtre m. Dans ce cas la
fonction de survie de
m
est
P
m
=
1
(m)

x
m1
e
x
dx =
1
(m+1)

e
x
dx
m
= P
m+1

1
(m+1)
e

m
,
i.e. on a reu que
P
m+1
= P
m
+

m
m!
e

,
do par la rcurrence il rsulte que pour tout m 0, 1, 2, ...
PX m =
m

k=0

k
k!
e

= P
m+1
=
1
(m+1)

x
m
e
x
dx.
Supposons maintenant que est grand (en pratique cela signie que 25). Comme
EX = VarX =
de lingalit de Tchebyshev il suit que nous pouvons compter que
m = o(), ,
parce que pour chaque m, qui ne vrie pas cette condition, la probabilit PX m coin-
cide pratiquement avec 0 ou avec 1. De lautre ct, de la relation (19) et de lapproxima-
tion normale pour la loi du chi-deux on obtient lapproximation normale de Bolshev (1963),
daprs laquelle
PX m = 1P
_

2
2m+2
(2m+2)

4m+4

22m2

4m+4
_
=
18
1
_
m1

m+1
_
+O
_
1

_
=
_
m+1

m+1
_
+O
_
1

_
, .
On remarque que en utilisant lapproximation normale de Fisher pour la loi de chi-deux on
obtient facilement une autre approximation normale de Bolshev :
PX m = P
2
2m+2
2 1(

4m+3) =
(

4m+32

) = (
_
4(m+0.5) +12

), .
Le nombre 0.5 dans la dernire formule peut tre considr comme la correction de conti-
nuit dans cette approximation.
En pratique cela signie que
PX m
_

4m+12

_
(2

m2

), ,
i.e., si 25, alors la statistique

4X +1 suit approximativement la loi normale N(2

, 1).
Les meilleurs rsultats on obtient en utilisant lapproximation de Wilson-Hilferty, voir, par
exemple, Bolshev (1963), Huber et Nikulin (1993), Nikulin (1984), daprs laquelle
PX m = P
2m+2
2
_
3

m+1
_
1
3
_

m+1

4
9(m+1)
__
.
Dnition 5. On dit que la variable alatoire =
a,b
suit la loi Bta de paramtres a
et b (a > 0, b > 0), si la densit de est
f (x; a, b) =
1
B(a, b)
x
a1
(1x)
b1
1
]0,1[
(x), (20)
o
B(a, b) =

1
0
t
a1
(1t)
b1
dt =
(a)(b)
(a+b)
(21)
est la fonction Bta de Euler.
En notant
I
x
(a, b) =
1
B(a, b)

x
0
t
a1
(1t)
b1
dt (22)
la fonction incomplte Bta de Euler, on voit que
P x = I
x
(a, b), 0 < x < 1, (23)
et
P > x = 1I
x
(a, b) = I
1x
(b, x), 0 < x < 1.
Il est facile de vrier que
E =
a
a+b
, Var =
ab
(a+b)
2
(a+b+1)
. (24)
Remarque 4. Soit
n
une variable alatoire Binomiale de paramtres n et p. Il est facile
de montrer que pour m = 0, 1, ..., n
P
n
m =
m

k=0
_
n
k
_
p
k
(1p)
nk
= I
1p
(nm, m+1). (25)
19
Remarque 5. Soit
n
et
m
sont indpendantes. Il est utile de remarquer que les statis-
tiques
=

n

n
+
m

n+m
=
n
+
m
sont indpendantes, suit la loi bta de paramtres a = n et b = m,
n+m
suit la loi gamma
n+m degrs de libert.
Dnition 6. Soit

2
m
=
1
2

m
2
et
2
n
=
1
2

n
2
indpendantes. Dans ce cas on dit que la statistique
F
m,n
=
1
m

2
m
1
n

2
n
=
n
m/2
m
n/2
=
1
F
n,m
(26)
la loi de Fisher n et m degrs de libert (m > 0, n > 0).
La fonction de rpartition de F
m,n
est
PF
m,n
x = I
mx
n+mx
(
m
2
,
n
2
), x > 0. (27)
On peut montrer que si n > 2, alors
EF
m,n
=
n
n2
et si n > 4, alors
VarF
m,n
=
2n
2
(n+m+2)
m(n2)
2
(n4)
.
Posant
F
m,
=
1
m

2
m
,
on en tire lapproximation de Fisher, daprs laquelle pour tout m x
PF
m,n
x = P
2
m
mx+O
_
1

n
_
, n .
Si m = 1, on en dduit que
PF
1,
x = P
2
1
x = 2(

x) 1.
Cette relation nous permet de calculer les valeurs de (x) en utilisant les tables statistiques
de la loi F. La relation suivante
F
1,n
=

2
1
1
n

2
n
=t
2
n
(28)
nous montre que F
1,n
reprsente le carr de la variable alatoire t
n
de Student n degrs de
libert, do on tire que pour chaque x R
1
PF
1,n
x
2
= Pt
2
n
x
2
= I
x
2
n+x
2
(
1
2
,
n
2
) = 2S
n
([x[) 1, (29)
20
o
S
n
(x) = Pt
n
x =
1

_
n+1
2
_

_
n
2
_

_
1+
u
2
n
_

n+1
2
du (30)
est la fonction de rpartition de la variable alatoire t
n
de Student n degrs de libert. La
variable alatoire t
n
peut tre construite par la faon suivante.
Soit X = (X
1
, ..., X
n
)
T
un chantillon normale, X
i
N(,
2
). On construit deux statis-
tiques

X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
,
reprsentant les meilleurs estimateurs sans biais pour et
2
. Alors la variable alatoire
t
n
=

n1

X
n

S
n
(31)
suit la loi de Student n degrs de libert :
Pt
n
x = S
n
(x), x R
1
.
De (28) on tire que, si n , alors, puisque
1
n

2
n
P
1, (32)
on a
S
n
(x) = (x) +O
_
1

n
_
, x R
1
,
i.e. pour les grandes valeurs de n la loi de Student est approxime par la loi normale stan-
dard.
Par contre, si dans (28)-(30) on pose n = 1, on en tire que la variable alatoire t
1
suit la
loi de Student 1 degr de libert
Pt
1
x = S
1
(x) =
1

dt
1+t
2
, x R
1
. (33)
Cette loi est plus connue sous le nom de la loi standard de Cauchy ou tout simplement de
Cauchy. Cette loi nous donne un trs simple exemple dune variable alatoire t
1
, dont les-
prance mathmatique nexiste pas. Un autre exemple intressant li avec la loi de Cauchy
est le suivant.
Soit X = (X
1
, ..., X
n
)
T
un chantillon de la loi de Cachy de densit
1
[1+(x )
2
]
, x R
1
,
avec le paramtre de translation , [[ < . Dans ce cas la statistique

X
n
=
1
n
n

i=1
X
i
suit la mme loi de Cauchy que X
i
et donc

X
n
ne converge pas en probabilit vers .
21
Exercices 1. Soit X suit la loi standard de Cauchy . Montrer que les statistiques
1
X
,
2X
1X
2
,
3X X
2
13X
2
suivent la mme loi de Cauchy.
Exercices 2. Soient X et Y deux variables alatoires standards normales indpendantes.
Trouver la loi de Z = X/Y.
Exercices 3. Soit X = (X
1
, ..., X
n
) un chantillon,
PX
i
= k =
1
k!
e
1
, k N,
i.e. X
i
suit la loi de Poisson de paramtre = 1. Considrons la statistique
S
n
= X
1
+... +X
n
, n = 1, 2, ....
1. Montrer que S
n
suit la loi de Poisson de paramtre = n :
PS
n
= k =
n
k
k!
e
n
, k N,
en particulier
p
n
= PS
n
= n =
n
n
n!
e
n
, n N

.
2. En utilisant le thorme limite central montrer que
p
n

_
1
2

n
_

1
2

n
_

n
(0) =
1

2n
, (n ),
o () est la fonction de rpartition de la loi normale standard, (x) =
/
(x).
3. En utilisant 1) et 2) obtenir la formule asymptotique de Stirling
n!

2nn
n
e
n
, (n ).
0.4 Epreuves de Bernoulli et marches alatoires.
0.5 Reprsentation dune suite dpreuves de Bernoulli
indpendante
Considrons une suite dpreuves de Bernoulli indpendantes avec la probabilit de
succs p (0 < p < 1).
On peut reprsenter lensemble des rsultats possibles de cette exprience laide de la
marche alatoire dune particule se dplaant sur un treillis S dans le plan (xOy)
S =(x, y); x N; y N. (voir g. 1)
22
Donc, un rsultat de lexprience sera reprsent par un chemin dans le treillis S.
Si, aprs une preuve, la particule se trouve au point de coordonnes (x, y), aprs lpreuve
suivante elle se trouvera soit au point (x, y +1) avec la probabilit p sil y a eu succs, soit
au point (x+1, y) avec la probabilit q =1p sil y a eu chec parce quil ny a pas dautre
possibilit.
Nous supposerons que le point de dpart de la particule est lorigine des axes O(0, 0). Soit
A
0
, A
1
, , A
n
, la suite des points obtenus lissue de lexprience, A
0
= O(0, 0). Un
chemin dans S peut tre reprsent par une ligne brise reliant ces points (g. 1).
On peut associer cette exprience la suite X
1
, X
2
, , X
n
, des variables alatoires ind-
pendantes de Bernoulli,
X
i
=
_
1, sil y a eu succs la i-me epreuve,
0, sil y a eu chec la i-me epreuve.
Ces variables alatoires sont idpendantes par construction et
PX
i
= 1 = p et PX
i
= 0 = q.
0.6 Probabilits associes une marche alatoire reliant
2 points du treillis S
Soient A
x
et A
X
les points de S dont les coordonnes sont (x, y) et (X,Y) respectivement
(0 x X; 0 y Y).
23
Un chemin reliant A
x
A
X
comporte (X x) dplacements horizontaux et (Y y) dplace-
ments verticaux, chaque combinaison diffrente dnissant un chemin diffrent ; le nombre
de chemins possibles relient A
x
A
X
sera donc :
_
X x +Y y
X x
_
=
_
X x +Y y
Y y
_
. (1)
Il est vident que chacun de ces chemins a la mme probabilit de ralisation gale
p
Yy
(1p)
Xx
, (2)
donc la probabilit darriver au point A
X
en tant parti du point A
x
est
_
X x +Y y
X x
_
p
Yy
(1p)
Xx
. (3)
En particulier, si on part de lorigine A
0
, la probabilit darriver en A
X
est
_
X +Y
X
_
p
Y
(1p)
X
. (4)
Remarque 1. De faon vidente, on dduit des formules prcdentes que le nombre de
chemins possibles pour aller de A
x
(x, y) A
U
(u, v) en passant par A
X
(X,Y) est gal au
produit du nombre de chemins allant de A
x
A
X
par le nombre de chemins allant de A
U

A
X
.
0.7 Frontire absorbante
Nous allons nous intresser aux expriences pour lesquelles la ralisation de la marche
alatoire est limite (avec la probabilit 1) par une frontire absorbante B (B S). Cela
signie que lexprience sarrte ds que la particule a atteint la frontire. Un point b B
est appel point limite ou point frontire. Si un chemin atteint ce point, il sarrte. On dit
que b est une ralisation de la statistique temps darrt.
Nous verrons plus tard que pour certaines expriences, la seule connaissance des coordon-
nes du point de la frontire o le chemin sarrte nous permet destimer de la meilleure
faon le paramtre p lorsque celui-ci est inconnu.
La frontire B est gnralement dnie par une quation de la forme y = f (x). Nous allons
tudier diffrentes frontires et leur associer des variables alatoires connues.
0.8 Marches alatoires et distributions discrtes
Loi de Bernoulli (g. 2)
Considrons une marche alatoire 1 pas dans un treillis limit par la frontire B donn
par lquation :
x +y = 1.
24
Dans ce cas il existe seulement 2 points limites. Si nous considrons la variable alatoire
X qui prend la valeur 1 lorsque le chemin se termine en A
1
(0, 1) et la valeur 0 lorsquil se
termine en A
/
1
(0, 1) nous obtenons :
PX = 1 = p et PX = 0 = 1p, 0 < p < 1.
La variable X suit une distribution de Bernoulli de paramtre p : X B(1, p) = B(p).
X reprsente le rsultat dune unique preuve de Bernoulli.
On peut par exemple associer cette preuve un contrle de qualit :
on contrle un article dans une production et on lui affecte la note 1 sil est defctueux, 0
sil est bon.
Loi Binomiale (g. 3)
Considrons une marche alatoire dans le treillis S commenant lorigine et limite par
la frontire B dquation x +y = n (le nombre de points frontires est n+1). Cette marche
comporte n pas. Nous pouvons associer cette marche n variables alatoires de Bernoulli
indpendantes de paramtres p : X
1
, X
2
, , X
n
.
Considrons la statistique :
T
n
=
n

i=1
X
i
.
Elle reprsente le nombre de succs au cours des n preuves ou bien le nombre darticles
dfectueux dans un chantillon de taille n si on sintresse un problme de contrle de
qualit.
Pour tout k = 0, 1, , n lvnement T
n
= k est quivalent une marche alatoire se
terminant au point b de B de coordonnes (nk, k). Par suite daprs (4)
PT
n
= k = (
n
k
)p
k
(1p)
nk
, k = 0, 1, , n,
25
et donc la loi de T
n
est une loi binomiale de paramtres n et p, T
n
B(n, p).
Loi gomtrique (g. 4)
Supposons maintenant que la frontire B a pour quation y = 1. Cela siginie que la
marche alatoire sarrte ds quon a obtenu le premier succs. Les points limites sont dans
ce cas les points de coordonnes (x, 1), x N, et la probabilit darriver au point (x, 1)
par un chemin issu de lorigine est
p(1p)
x
.
Nous pouvons associer cette marche la variable alatoire Z : rang du premier succs" ou
"rang du premier article dfectueux" rencontr dans le lot.
Lvnement Z = k, k N

, est quivalent une marche alatoire se terminant au point


de B de coordonnes (k 1, 1) et par suite
PZ = k = p(1p)
k1
.
On dit que Z suit la loi gomtrique de paramtre p : Z G(p).
On peut montrer que
EZ =
1
p
et VarZ =
1p
p
2
.
Loi binomiale ngative (g. 5)
On choisit la frontire B donn par lquation y = r. Cela signie que lexprience
cesse ds quon a obtenu le r-me succs. Si la marche considre comporte k tapes,
26
r k k N, on doit avoir k r dplacements horizontaux et r dplacements verticaux
mais le dernier pas est obligatoirement un dplacement vertical : le point (k r, r) nest
accessible qu partir du point (k r, r 1) et ce passage se fait avec la probabilit p.
Considrons la statistique S
r
, rang du r-me succs.
Alors
PS
r
= k =
_
k 1
r 1
_
p
r1
(1p)
kr
p, k = r, r +1, .
On dit que S
r
suit la loi binomiale ngative de paramtres r et p, S
r
NB(r, p).
Remarques
1. Si r = 1, on retrouve la loi gomtrique de paramtre p : G(p).
2. Soient Z
1
, Z
2
, , Z
r
r variables alatoires indpendantes de mme loi gomtrique
de paramtre p Z
i
G(p). Alors la statistique
S
r
=
r

i=1
Z
i
suit de faon vidente la loi binomiale ngative de paramtres r et p et on en dduit
que
ES
r
=
r
p
et VarS
r
=
r(1p)
p
2
.
3. De la mme faon, on constate que si Z
1
, Z
n
sont n variables alatoires indpen-
dantes, Z
i
NB(r
i
, p), alors la statistique :
U
n
=
n

i=1
Z
i
suit la loi binomiale ngative de paramtres r =
n
i=1
r
i
et p.
Loi de Polya (g. 6)
27
On choisit la frontire B donne par lquation y = x +r, r N

. Cela signie quon


arrte lexprience ds que le nombre de succs est suprieur de r au nombre dchecs (ou
que le nombre darticles dfectueux dpasse de r le nombre darticles bons).
Une marche issue de lorigine O et sarrtant au point frontire de coordonnes
(k, r +k), k N, comporte donc (k, k +r) tapes mais le point(k +r, k) nest accessible
qu partir du point M(k, k +r 1) par un chemin qui ne doit pas avoir encore rencontr
la frontire. Le nombre de chemins allant de O M et qui touchent ou coupent la frontire
peut tre calcul de la faon suivante : lorsque le chemin touche la frontire B pour la
premire fois on prend son symtrique par rapport B : cest un chemin qui arrive au point
M
/
(k 1, k +r) (symtrique de M par rapport B). Le nombre de chemins reliant O M
/
est gale
_
2k +r 1
k 1
_
et le nombre de chemins reliant O M est gale
_
2k +r 1
k
_
,
do on dduit donc que le nombre de ralisations possibles de la marche considre est
gale
_
2k +r 1
k
_

_
2k +r 1
k 1
_
=
(2k +r 1)!
k!(k +r)!
(k +r k) =
r
2k +r
_
2k +r
k
_
.
Si nous associons cette marche la variable V
r
: rang de lpreuve pour laquelle le nombre
de succs est pour la premire fois suprieur de r au nombre dchecs, alors lvnement
V
r
= v est quivalent une marche partant de lorigine et comportant v tapes :
v r/2 dplacements horizontaux et v r/2 dplacements verticaux.
De faon vidente on doit avoir v r et v r 2N, cest--dire v = 2k +r, k N.
Dans ce cas, pour r > 0 on a :
PV
r
= v = PV
r
= 2k +r =
r
2k +r
_
2k +r
k
_
p
k+r
(1p)
k
.
Examinons le cas r = 0. Nous devons dans ce cas considrer les chemins partant non plus
de lorigine O mais du point A
1
(1, 0).
Un raisonnement analogue du prcdent nous montre alors que
PV
0
= 2k =
__
2k 2
k 1
_

_
2k 2
k
__
[p(1p)]
k
=
2(k 1)
_
2k 1
k
_
[p(1p)]
k
.
Loi hypergomtrique (g. 7)
28
Soient N et M deux entiers positifs xs et 0 M N.
Considrons une marche alatoire dans le treillis S limite par la frontire B : x +y = N.
Nous nous intressons plus particulirement la marche alatoire partant de lorigine et
atteignant le point B de coordonnes (NM, M). Soit
T
n
=
n

i=1
X
i
, o X
i
B(p),
les X
i
tant indpendantes, et donc T
n
B(n, p). Nous savions que T
N
= M et il est intres-
sant de savoir comment cette information inue sur la distribution de la statistique T
n
, n <N.
Cest--dire que, sachant que la marche a atteint le point (N M, M), nous allons valuer
la probabilit pour quaprs n pas elle soit un point donn de la frontire
: x +y = n.
Nous cherchons donc la probabilit :
PT
n
= k[T
N
= M =
PT
n
= k; T
N
= M
PT
N
= M
,
o
Max(0, n+MN) k Min(n, M).
On sait que :
PT
n
= k; T
N
= M =
_
n
k
__
Nn
Mk
_
p
k
(1p)
nk
.p
Nk
(1p)
Nn
=
=
_
n
k
__
Nn
Mk
_
p
M
(1p)
NM
et
PT
N
= M =
_
N
M
_
p
M
(1p)
NM
.
Par suite, la probabilit cherche est gale
PT
n
= k[T
N
= M =
_
n
k
__
Nn
Mk
_
_
N
M
_ =
_
NM
nk
__
M
k
_
_
N
n
_ ,
o
1 n N, 1 M N, Max(0, n+MN) k Min(n, M).
Cette loi conditionnelle de T
n
est la loi hypergomtrique H(N, M, n) de paramtres N, M
et n. On peut remarquer quelle ne dpend pas du paramtre p .
On peut montrer que si X suit une loi H(N, M, n), alors
EX =
nM
N
et VarX =
n(Nn)M(NM)
N
2
(N1)
.
29
30
Chapitre 1
QUELQUES PROBLMES
CLASSIQUES DE LA STATISTIQUE
MATHEMATIQUE.
1.1 Problmes destimation et de comparaison des proba-
bilits de succs.
Exemple 1. Estimation de la probabilit dans le schma dexpriences de Bernoulli.
On a coutume de considrer lhypothse H
0
: p = 0.5 selon laquelle la probabilit de la
naissance dun garon est la mme que celle dune lle. On possde beaucoup de donnes
statistiques pour sa vrication. Nous utiliserons ceux qui ont t donnes sur la Suisse :
entre 1871 et 1900 naquirent en Suisse n = 2644757 enfants et parmi eux

n
= 1359671 garons et n
n
= 1285086 lles.
Est-ce que ces donnes conrment lhypothse H
0
: p = 0.5 ?
Nommons succs ( !) la naissance dun garon et posons la question autrement en uti-
lisant le schma dexpriences de Bernoulli avec la probabilit de succs p. Lhypothse
H
0
: p = 0.5 concorde-t-elle avec le fait que dans la srie de n = 2644757 expriences la
frquence de succs soit gale

n
n
=
1359671
2644757
= 0.5141?
Il est vident que si au lieu de lhypothse H
0
: p =0.5 on avait pris une autre hypothse
H
1
: p = 0.1, par exemple, alors cette hypothse H
1
serait rejete par tous comme une
hypothse peu probable (ou mme impossible). La question est : sur quoi est base cette
dcision ?
La rponse peut tre donne puisquon sait que lestimateur
p
n
=

n
n
31
de la probabilit p, p ]0, 1[, est bas sur la statistique
n
qui suit une loi binomiale B(n, p)
P
n
= k[p = P
p

n
= k =
_
n
k
_
p
k
(1p)
nk
, k = 0, 1, . . . , n,
do on tire que
E
p

n
= np, Var
n
= np(1p),
et par consquent pour tout p ]0, 1[
E
p

n
n
= p et Var

n
n
=
p(1p)
n
.
De lingalit de Tchebyshev il suit que pour tout > 0
P
p
[ p
n
p[ > 0, quand n . (1)
Nous disons que p
n
est une suite consistante (cohrente) destimateurs sans biais du
paramtre p, puisque
E
p
p
n
= p et p
n
P
p
p.
La relation (1) on peut prciser, notamment, pour tout > 0 on a :
P
p
[ p
n
p[ <
_
p(1p)
n
1
1

2
.
En particulier, si = 2, on en tire que
P
p
[ p
n
p[ <
1

n
0.75.
En utilisant lapproximation normale, base sur le thorme limite central de de Moivre-
Laplace, on a
lim
n
P
p
_
_
_

n
n
p
_
p(1p)
n
x
_
_
_
= (x) pour tout x R
1
, (2)
o
(x) =
1

e
t
2
/2
dt, < x < . (3)
En prenant assez petit, 0 < < 0.5 ), ( on va appeler ce nombre le niveau de signica-
tion, on peut afrmer, par exemple, que
P
p
_
x
/2

_
n
p(1p)
(

n
n
p) x
/2
_
1, (4)
o le nombre x
/2
est donn par
( x
/2
) = 1/2. (5)
La quantit x
/2
sappelle quantile suprieur de niveau /2 de la loi normale standard.
32
Par exemple,
x
/2
= 3 est le quantile suprieur de niveau /2 = 0.00135,
P
p
_

_
n
p(1p)
(

n
n
p)

> 3
_
0.0027 = ,
tandis que
le quantile x
/2
= 4 correspond dj /2 = 0.00003167 (= 0.0000),
do on tire que
P
_

_
n
p(1p)
(

n
n
p)

> 4
_
0.000063,
(en pratique cette probabilit = 0.000) et
P
_

_
n
p(1p)
(

n
n
p)

4
_
0.999937
(en pratique cette probabilit = 1).
Revenons nos donnes et lhypothse H
0
. Lhypothse H
0
suppose que p = 0.5 et
donc sous H
0
on a :
_
n
p(1p)
_

n
n
p
_
= 2

n
_

n
n

1
2
_
.
Tout dabord on remarque quil y a 3 contrehypothses naturelles pour H
0
:
H
1
: p ,= 0.5, H
+
1
: p > 0.5, H

1
: p < 0.5
qui sont en concurence avec H
0
. Il est naturel de dire que lintervalle
S = [ x
/2
, x
/2
] R
1
reprsente lensemble des valeurs de la statistique
T
n
= T(
n
) = 2

n
_

n
n

1
2
_
,
qui sont favorable lhypothse H
0
, tandis que lensemble
K = R
1
S = K

K
+
1
=] , x
/2
[

] x
/2
, [,
appel la rgion critique pour H
0
, reprsente lensemble des valeurs de la statistique T
n
, qui
sont favorable H
1
. Par contre, lensemble S sappelle la rgion dacceptation de lhypo-
thse H
0
.
On remarque que
PT
n
S [ H
0
1, PT
n
K[H
0
.
Il est clair que lvnement
T
n
K

1
T
n
K
33
est favorable H

1
, et lvnement
T
n
K
+
1
T
n
K
est favorable H
+
1
, et que
PT
n
K

1
[H
0
= PT
n
K
+
1
[H
0


2
.
Dans notre cas pour les donnes de Suisse nous constatons que
T
n
= T(
n
) = 2

n
_

n
n

1
2
_
=
_
2644757
0.5 0.5
(0.51410.5) = 45.86 > 4,
i.e. lvnement T
n
> 4 est apparu. La valeur observe de T
n
est trs suprieure la
valeur critique x
/2
= 4, correspondant au niveau de signication /2 = 0.00003167, qui
est gal pratiquement 0, et donc ce phenomne doit tre considr comme impossible sous
lhypothse H
0
: p = 0.5. Que devons nous faire ? Il faut videmment rejeter lhypothse
H
0
: p = 0.5 en faveur de H
1
, puisque T
n
K. Nous disons que lhypothse H
0
ne concorde
pas avec les donnes observes. En plus comme dans lexprience on a observ lvnement
T
n
K
+
1
, il est raisonable daccepter lhypothse H
+
1
. Comme estimateur de la valeur
inconnue de p sous lhypothse H
+
1
il est recommand de prendre p
n
= 0.514.
Enn de (4) on tire que
P

n
n
x
/2
_
p(1p)
n
p

n
n
+ x
/2
_
p(1p)
n
1,
cest--dire pour les grandes valeurs de n on obtient lintervalle de conance pour p avec
le coefcient de conance P 1 :
P

n
n
x
/2
1
2

n
p

n
n
+ x
/2
1
2

n
1 (= 0.9973 si x
/2
= 3).
Si, par exemple,

2
= 0.00135 i.e. = 0.0027,
dans ce cas x
/2
= 3 et daprs nos donnes on obtient la ralisation de lintervalle de
conance
0.51410.0003 x
/2
p 0.5141+0.0003 x
/2
,
i.e.
0.5132 p 0.5150.
Remarque 1. On remarque que
(0) = 0.500000, (1) = 0.841345, (1.6) = 0.945201, (2) = 0.97725,
(2.6) = 0.995339, (3) = 0.998650, (4) = 0.999968,
o (x) est donne par (3), i.e.
0 = x
0.5
, 1 = x
0.158655
, 1.6 = x
0.054799
, 2 = x
0.02275
, ...
34
Exemple 2. K. Pearson a jet une pice symtrique n = 24000 fois et a observ

n
= 12012
succs. On sait que
p
n
=

n
n
est un bon estimateur pour la probabilit de succs p = 0.5 (on a suppos que la pice est
symtrique cest--dire lhypothse H
0
: p =0.5). Dans notre cas p
n
=0.5005. Nous savons
que
E p
n
= 0.5 et Var p
n
=
1
4n
.
En tudiant le rsultat de lexprience de K. Pearson, nous pouvons constater que la statis-
tique
n
a pris une valeur trs proche de sa moyenne E
n
= np = 12000. Est-ce vraisem-
blable ou non ? On note que sous lhypothse H
0
: p = 0.5 on a
Var
n
= np(1p) =
n
4
,
et comme lcart-type de
n
est
_
Var
n
=
_
np(1p) = 77.5,
on pourrait donner plusieurs raisons lapparition de lvnement
_
[
n

n
2
[ > 77.5
_
=[
n
12000[ > 77.5
Mais dans son exprience K. Pearson a obtenu
[
n
12000[ = 12 77.5.
On pourrait penser que cest trop beau pour tre vrai. Quelle est donc la probabilit dob-
server lvnement [
n

n
2
[ 12 sous lhypothse H
0
?
On a
P[
n

n
2
[ 12[H
0
= P
_
[
n

n
2
[

n0.5 0.5

12
77.5

H
0
_

(0.155) (0.155) 0.124 =


1
8
.
Il est vident que cet vnement est bien probable, donc K. Pearson pouvait observer ce
rsultat.
Exemple 3. Supposons que nous avons un gnrateur de nombres alatoires et que ce gn-
rateur nous fournit les nombres alatoires x
1
, x
2
, ..., x
n
quon peut considrer (hypothse
H
0
) comme des ralisations de variables alatoires indpendantes
X
1
, X
2
, ..., X
n
,
ayant chacune la distribution discrte uniforme sur lensemble S =0, 1, ..., 9 i.e.,
PX
j
= i [ H
0
= 0.1, i S. (6)
35
Considrons maintenant un chantillon X = (X
1
, X
2
, ..., X
n
)
T
de taille n = 10 000, associ
au gnrateur de nombres alatoires mentionn prcdemment. Nous dsirons tester lhypo-
thse H
0
que lchantillon Xest issu de la distribution uniforme (1) si dans notre chantillon
on a observ seulement 4999 fois x
i
ne dpassant pas 4. Quel niveau de signication doit
on avoir pour rejeter H
0
?
Solution. Soit

n
= #X
i
4. (7)
On remarque que
PX
i
4[H
0
= 0.5.
Daprs nos donnes :
p
n
=

n
n
=
4999
10000
qui est trs voisin de 0.5. Par ailleurs, sous lhypothse H
0
, la statistique
n
suit une distri-
bution binomiale B(n, p) de paramtres n = 10000, p = 0.5 et donc sous H
0
E
n
= np = 5000 and Var
n
= np(1p) = 2500. (8)
Do pour tout x = 1, 2, ..., daprs le thorme de de Moivre-Laplace, nous avons (avec la
correction de continuit de 0.5)
P[
n
np [x [ H
0
= P
_
n
2
x
n

n
2
+x[H
0
_

_
0.5n+x +0.50.5n

n 0.5 0.5
_

_
0.5nx 0.50.5n

n 0.5 0.5
_
= 2
_
2x +1

n
_
1. (9)
Notons le niveau de signication du test (0 < < 0.5) avec la rgion critique :
_

n
2

x
/2
_
=
_
n
2
x
/2

n
2
+ x
/2
_
. (10)
Alors, la valeur critique x
/2
, correspond le niveau de signication :
2
_
2 x
/2
+1

n
_
1, (n = 10000). (11)
En particulier, si x
/2
= 1, alors
2
_
3

n
_
1 = 2(0.03) 1 = 2 0.5121 = 0.024.
Infrence statistique : daprs le test statistique, bas sur la rgion critique :
[
n
5000 [1,
lhypothse H
0
sera rejete avec le niveau de signication 0.025, puisque
P[
n
5000[ 1[H
0
0.024 < = 0.025.
(Voir, aussi, Cuadras C., Nikulin (1993)).
Exemple 4. Le problme du Chevalier de Mr. Dabord on considre lpreuve sui-
vante : on jette 4 fois un d.
Soit A lvnement :
A = {obtenir au moins une fois le 1 au cours de cette exprience}.
36
Considrons ensuite la deuxime exprience qui consiste jeter 24 fois 2 ds.
Soit B lvnement :
B = {obtenir au moins une fois le (1,1) au cours de cette exprience}.
Le Chevalier de Mr ayant suppos que
p
1
= P(A) < p
2
= P(B)
avait mis sur B. Avait-il raison ?
On remarque que
p
1
= P(A) = 1
_
5
6
_
4
= 0.5177,
p
2
= P(B) = 1
_
35
36
_
24
= 0.4914.
Mais Mr ne pouvait pas faire ces calculs. Par contre, il aurait pu faire une exprience pour
rsoudre ce problme par des mthodes statistiques, bases sur la loi des grands nombres.
Soient
(1)
n
=
n
(A) et
(2)
n
=
n
(B) les rsultats de la modlisation de ces expriences
lorsquon les a rpt n = 25, 50, 100, 250 fois chacune.
n 25 50 100 250

n
(A) 18 27 52 121

n
(B) 14 24 47 126
Ici
n
(A) et
n
(B) reprsentent les nombres de succs dans la premire et la seconde exp-
riences respectivement.
Daprs la loi des grands nombres
p
1n
=

(1)
n
n
P
p
1
p
2n
=

(2)
n
n
P
p
2
, (n ),
cest--dire il y a la consistance de deux suites destimateurs p
1n
et p
2n
de paramtres
p
1
et p
2
. En plus on sait que
E p
1n
=
1
n
E
(1)
n
= p
1
, E p
2n
=
1
n
E
(2)
n
= p
2
,
donc pour tout n N

p
1n
et p
2n
sont les estimateurs sans biais pour p
1
et p
2
respectivement.
Enn, on remarque, que quand n
Var p
1n
=
p
1
(1p
1
)
n
0, Var p
2n
=
p
2
(1p
2
)
n
0.
En utilisant les rsultats de modlisation du jeu on obtient une nouvelle table
n 25 50 100 250

(1)
n
n
0.72 0.54 0.52 0.484

(2)
n
n
0.56 0.48 0.47 0.504
37
Il faut noter que bien que p
1
soit suprieur p
2
lexprience nous donne ici

(1)
n
= 121 <
(2)
n
= 126 pour n = 250,
et donc

(1)
n
n
= 0.484 <

(2)
n
n
= 0.504 pour n = 250.
Si on arrte le jeu n = 250, on aura une conclusion errone que p
1
< p
2
. On va valuer
P
(1)
n
<
(2)
n

la probabilit dvnement
(1)
n
<
(2)
n
. Notons
X
n
=

(1)
n
np
1
_
np
1
(1p
1
)
, Y
n
=

(2)
n
np
2
_
np
2
(1p
2
)
, n N

.
Pour tout n les variables alatoires X
n
et Y
n
sont indpendantes, et
EX
n
= EY
n
= 0, VarX
n
= VarY
n
= 1.
En plus, du thorme de de Moivre-Laplace il suit que pour tout x R
1
lim
n
PX
n
x = lim
n
PY
n
x = (x),
o
(x) =
1

2
x

e
t
2
/2
dt.
De ce rsultat il suit que
X
n
Y
n
_
Var(X
n
Y
n
)
=
(
(1)
n

(2)
n
) +n(p
2
p
1
)
_
np
1
(1p
1
) +np
2
(1p
2
)
est aussi asymptotiquement normale quand n ,
P
_
X
n
Y
n
_
Var(X
n
Y
n
)
x
_
(x), x R
1
.
Maintenant nous somme capable dvaluer la probabilit de lvnement
(1)
n
<
(2)
n
.
En effet,
P
(1)
n
<
(2)
n
= P
(1)
n

(2)
n
< 0 =
P
_

(1)
n

(2)
n
+n(p
2
p
1
)
_
np
1
(1p
1
) +np
2
(1p
2
)
<

n(p
2
p
1
)
_
p
1
(1p
1
) + p
2
(1p
2
)
_

_

n(p
2
p
1
)
_
p
1
(1p
1
) + p
2
(1p
2
)
_
0, n , si p
2
< p
1
.
38
On remarque quen utilisant les tables statistiques on peut calculer cette probabilit pour
n = 25, 50, 100, 250 et 1000 et pour p
1
= 0.5177 et p
2
= 0.4914 :
n 25 50 100 250 1000
P
(1)
n
<
(2)
n
0.42 0.39 0.35 0.18 0.12
On constate que mme pour n assez grand (n = 1000) on a 12 pour cent de chances de faire
une conclusion erronne, et on comprend le trouble du Chevalier.
Exemple 5. Comparaison de deux probabilits. On veut comparer la qualit de pro-
duction de deux usines qui produisent le mme article. Soit p
1
(respectivement p
2
) la pro-
babilit quun article de la 1
re
usine (respectivement de la 2
me
) soit dfectueux. Pour
effectuer le contrle on a prlev n
1
articles dans la premire usine et n
2
articles de la
seconde. Soit
n
1
(respectivement
n
2
) le nombre darticles dfectueux pour la premire
(respectivement pour la seconde) usine. Supposons que nous voulions tester lhypothse
dhomognit
H
0
: p
1
= p
2
= p, p ]0, 1[.
Sous lhypothse H
0
on a
E

n
1
n
1
= E

n
2
n
2
= p,
Var

n
1
n
1
=
p(1p)
n
1
0, (n
1
),
Var

n
2
n
2
=
p(1p)
n
2
0, (n
2
).
Donc, sous lhypothse H
0
on a deux suites consistantes p
1n
et p
2n
destimateurs sans
biais pour le paramtre p. On remarque que quels que soient n
1
et n
2
les estimateurs p
1n
et
p
2n
sont indpendants.
En gnral, mme si lhypothse H
0
est vraie, dans lexprience on observe lvnement
_

n
1
n
1
,=

n
2
n
2
_
.
Il est vident que pour tester H
0
contre lalternative H
1
: p
1
,= p
2
il est raisonnable dutiliser
la statistique

n
1
n
1

n
2
n
2

comme lestimateur de [p
1
p
2
[ et rejeter H
0
si

n
1
n
1

n
2
n
2

,
o il faut choisir la valeur critique c

de faon que
P
_

n
1
n
1

n
2
n
2

H
0
_
, 0 < < 0.5.
Par contre, si

n
1
n
1

n
2
n
2

< c

,
39
on accepte H
0
. On remarque que
P
_

n
1
n
1

n
2
n
2

< c

H
0
_
1.
Comment trouver la valeur critique c

, correspondant au niveau de signication ? Pour


n
1
et n
2
sufsamment grands on peut sattendre ce que la variable alatoire

n
1
n
1

n
2
n
2
_
p(1p)
_
1
n
1
+
1
n
2
_
soit approximativement normale, puisque
lim
min(n
1
,n
2
)
P
_

n
1
n
1

n
2
n
2
_
p(1p)
_
1
n
1
+
1
n
2
_
x

H
0
_

_
= (x).
Donc, en choisissant c

= x
/2
on a
P
_

n
1
n
1

n
2
n
2
_
p(1p)
_
1
n
1
+
1
n
2
_

x
/2

H
0
_

_
,
et, par consquent, on rejette H
0
en faveur de H
1
, si

n
1
n
1

n
2
n
2

n
n
_
1

n
n
_
_
1
n
1
+
1
n
2
_
x
/2
,
o

n
n
=

n
1
+
n
2
n
1
+n
2
= p
n
est le meilleur estimateur sans bias pour p sous lhypothse H
0
.
Il est vident que
P
_

n
1
n
1

n
2
n
2
_

n
n
_
1

n
n
_
_
1
n
1
+
1
n
2
_

> x
/2

H
0
_

_
,
quand n
1
et n
2
sont susamment grands.
Remarque 1. Il est clair que si nous voulons tester lhypothse H
0
: p
1
= p
2
contre
lhypothse unilatrale H
+
1
: p
1
> p
2
, dans ce cas il faut choisir c

= x

et rejeter H
0
si

n
1
n
1

n
2
n
2
_

n
n
_
1

n
n
_
_
1
n
1
+
1
n
2
_
x

,
40
o ( x

) = 1. Le niveau de ce test unilatral .


Remarque 2. Si nous voulons tester H
0
: p
1
= p
2
contre lalternative H

1
: p
1
< p
2
, qui
est unilatrale, il faut rejeter H
0
si

n
1
n
1

n
2
n
2
_

n
n
_
1

n
n
_
_
1
n
1
+
1
n
2
_
< x

.
Le niveau de ce test unilatral .
1.2 Modle probabiliste de lerreur de mesure.
Tout rsultat dobservation provenant de quelque faon que ce soit de mesures engendre
des erreurs dorigines diverses.
Les erreurs se divisent en trois groupes : erreurs grossires, erreurs systmatiques et
erreurs alatoires.
Les erreurs grossires :
Les erreurs grossires sont souvent appeles en statistique observations aberrantes (aber-
rations) ; elles proviennent de mauvais calculs, de lectures incorrectes sur lappareil de me-
sure etc ... ; cela induit donc une donne errone. En gnral ces rsultats de mesures qui
contiennent des erreurs grossires diffrent sensiblement des autres rsultats et sont ainsi
faciles identier.
Les erreurs systmatiques
Les erreurs systmatiques surestiment ou sousestiment toujours les rsultats de me-
sures, et sont dues diffrentes raisons (mauvaise installation de lquipement, effet de
lenvironnement, etc ...). Elles affectent systmatiquement toutes les mesures et les altrent
dans une seule direction.
Les erreurs alatoires :
Les erreurs alatoires ont un effet imprvisible sur les mesures, la fois en surestimant
certaines et en sousestimant dautres rsultats.
Considrons maintenant le modle probabiliste (appel le modle de lerreur de mesure)
utilis dans la pratique, lorsque nous avons mesurer une certaine quantit . Selon ce mo-
dle, tout rsultat de lexprience destine estimer la quantit inconnue , sera considr
comme la ralisation dune variable alatoire X. Dans ce cas, la variable alatoire :
= X (1.1)
est appele erreur de mesure ou erreur vraie.
41
De (1) il sensuit que
X = +, (1.2)
et puisque est une constante, on en tire
EX = +E et VarX = Var. (1.3)
Notons
b = E et
2
= Var (1.4)
lesprance mathmatique et la variance de lerreur vraie .
Alors on a
X = +b+(b). (1.5)
La quantit b = E est appele erreur systmatique ou biais de la procdure de mesure.
La variable alatoire
= b (1.6)
est appele erreur alatoire de la procdure de mesure. De (2), (5) et (6) il sensuit que la
variable alatoire X peut tre reprsente par la faon suivante
X = +b+, (1.7)
o
E = 0 et Var =
2
(1.8)
Nous obtenons donc pour notre modle :
EX = +b, VarX =
2
. (9)
Souvent on dit que
2
est la prcision de la mthode ou de linstrument quon utilise
pour faire les mesures. Traditionellement, en statistique mathmatique on dit que X est un
estimateur sans biais de +b.
Si le biais b = 0, alors X est un estimateur sans biais de .
Nous avons maintenant une dcomposition trs intressante (7) de la variable alatoire
X dont nous utiliserons la ralisation pour estimer la quantit inconnue .
Selon notre modle, lobservation X est la somme de la vraie (mais inconnue) valeur ,
du biais b qui est la valeur de lerreur systmatique de linstrument de mesure et de ler-
reur alatoire , qui satisfait (8) et dont la variance donne donc la mesure de limprcision
et dcrit la dispersion ou la variation des donnes si nous avons besoin de plusieurs mesures.
42
De faon vidente, la mesure parfaite serait celle pour laquelle b = 0 et
2
= 0 mais
on ne peut lobtenir dans la pratique. Par contre, on peut organiser lexprience de faon
avoir b = 0 et en mme temps minimiser
2
, cest--dire augmenter la prcision des
mesures ou de lappareil quon utilise pour obtenir ces mesures.
Si b = 0, alors EX = ce qui signie labsence derreur systmatique. Dans ce cas
reprsente lerreur alatoire et nous dirons comme nous lavons vu plus haut que X est un
estimateur sans biais pour .
Pour estimer la taille de lerreur de mesure = X dun estimateur X dune quantit
inconnue , on utilise souvent lerreur quadratique moyenne (le risque quadratique ) ou
lerreur absolue moyenne (le risque absolu) qui sont respectivement dnies par
E(X )
2
et E[X [. (10)
Dans notre modle nous utiliserons lerreur quadratique moyenne pour caractriser la
performance de lestimateur X de . Dans ce cas, de (10), on dduit :
E(X )
2
= E[(X EX) +(EX )]
2
= E(X EX)
2
+b
2
=
2
+b
2
.
Nous avons donc montr que lerreur quadratique moyenne peut se dcomposer en la
somme b
2
+
2
du carr du biais b de la procdure de mesure et de la variance
2
de lerreur
alatoire .
Remarque 1. Souvent dans la pratique, le coefcient
k =
1
_
2(
2
+b
2
)
est appel prcision de lestimateur X.
Dans le cas dabsence derreur systmatique (b = 0)
k =
1

2
2
=
1

2
.
Lorsque la dviation standard et le biais b sont petits, nous avons une haute prci-
sion et dans ce cas lerreur quadratique moyenne est petite ; do une erreur quadratique
moyenne petite signie une prcision plus grande.
Exemple 1. Supposons que lon cherche dterminer le poids
1
dun objet laide dune
balance. On utilise un modle Gaussien pour lerreur de mesure en reprsentant le rsultat
dune mesure comme la ralisation de la variable alatoire
X =
1
+, (14)
o est lerreur de mesure, N(0,
2
), et
2
ne dpend pas de
1
. Il est vident que si
2
est connu et que nous voulons avoir une prcision
2
/N, alors nous devons faire N mesures
et prendre comme estimateur
1
de
1
, la ralisation de la statistique :

1
=

X
N
=
1
N
(X
1
+X
2
+. . . +X
N
), (15)
43
moyenne des N mesures. De (14) il sensuit que

X
N
N(
1
,

2
N
). (16)
Supposons maintenant que nous voulions dterminer les poids
1
et
2
de deux objets. De
combien de mesures avons nous besoin pour obtenir des estimateurs
1
et
2
pour
1
et

2
respectivement, chacun avec la prcision
2
/N ? Il est vident quon peut peser chaque
objet N fois et de cette faon obtenir les estimateurs

1
=
1
N
(X
11
+X
12
+. . . +X
1N
)
et

2
=
1
N
(X
21
+X
22
+. . . +X
2N
) (17)
pour
1
et
2
. Puisque

1
N(
1
,

2
N
) et
2
N(
2
,

2
N
), (18)
notre but est atteint mais au prix de 2N mesures.
Nous allons maintenant montrer comment on peut obtenir la mme prcision avec seule-
ment N mesures.
On peut remarquer quavec une balance et 2 objets, on peut faire plusieurs choses :
1) on peut dterminer le poids de chaque objet sparment.
2) on peut les peser tous les 2 ensemble ;
3) on peut dterminer la diffrence entre les 2.
En tenant compte de cette remarque, on peut reprsenter aussi les rsultats de ces mesures :
X
1i
=
1
+
1i
, i = 1, 2, . . . , n
1
,
X
2i
=
2
+
2i
, i = 1, 2, . . . , n
2
,
X
3i
=
1
+
2
+
3i
, i = 1, 2, . . . , n
3
,
X
4i
=
1

2
+
4i
, i = 1, 2, . . . , n
4
,
o
ki
sont des variables alatoires indpendantes identiquement distribues :

ki
N(0,
2
), i = 1, ..., n
k
, k = 1, 2, 3, 4. (19)
Par symtrie, il est naturel de prendre
n
1
= n
2
, n
3
= n
4
.
Il est vident que les statistiques

X
1
=
1
n
1
n
1

i=1
X
1i
,

X
2
=
1
n
2
n
2

i=1
X
2i
,

X
3
=
1
n
3
n
3

i=1
X
3i
,

X
4
=
1
n
4
n
4

i=1
X
4i
, (20)
sont indpendantes et

X
1
N(
1
,

2
n
1
),

X
2
N(
2
,

2
n
1
), (n
1
= n
2
)
44
et

X
3
N(
1
+
2
,

2
n
3
),

X
4
N(
1

2
,

2
n
3
), (n
3
= n
4
) (21)
do on dduit que

1
=

X
1
et
2
=

X
2
sont des estimateurs sans biais pour
1
et
2
ayant chacun pour prcision
2
/n
1
. Construi-
sons les statistiques

1
=
1
2
(

X
3
+

X
4
) et

2
=
1
2
(

X
3


X
4
). (22)
Il est clair que

1
N(
1
,

2
2n
3
) et

2
N(
2
,

2
2n
3
), (23)
do il sensuit que

1
et

2
sont aussi des estimateurs sans biais de
1
et
2
. De lautre
ct, on peut remarquer que si n
1
= n
3
, alors la variance de

1
est 2 fois plus petite que la
variance de
1
. De mme pour

2
et
2
. En posant n
1
= N/2, notre but est atteint :
Var

2
=
1
2
Var
2
. (24)
Exemple 2. (suite). Supposons maintenant que lon a 3 objets dont on veut dterminer les
poids, en les pesant sur une balance non calibre. Dans ce cas, les mesures pour ces trois
objets peuvent tre reprsents de la faon suivante :
X
1
=
1
+b+
1
, X
2
=
2
+b+
2
, X
3
=
3
+b+
3
, (25)
respectivement, o b est lerreur systmatique ou le biais (suppos inconnu) de la procdure
de mesure due au fait que la balance nest pas calibre et
i
est lerreur alatoire,
i

N(0,
2
). Puisque
EX
i
=
i
+b, (26)
pour estimer
i
, nous avons besoin du biais. Cela demande une lecture sans aucun objet sur
la balance, cest--dire quon obtient
X
4
= b+
4
,
4
N(0,
2
). (27)
Puisque
EX
4
= b, (28)
on peut utiliser X
4
comme estimateur de b.
Considrons les statistiques

i
= X
i
X
4
, i = 1, 2, 3. (29)
Puisque toutes les mesures sont indpendantes, on peut dire que
1
,
2
,
3
,
4
sont des va-
riables alatoires i.i.d.,

i
N(0,
2
), i = 1, . . . , 4,
et puisque

i
= X
i
X
4
=
i
+b+
i
b
4
=
i
+
i

4
(30)
45
des proprites de
1
,
2
,
3
,
4
, on dduit que

i
N(
i
, 2
2
), i = 1, 2, 3. (31)
Puisque
E
i
=
i
, (32)
on peut dire que
i
est un estimateur sans biais pour
i
. On remarque que
Var
i
= 2
2
, i = 1, 2, 3. (33)
On peut reprsenter notre exprience laide de la matrice dexprience

1
=
_
_
_
_
_
_
_
_
_
_

1

2

3
b
1 0 0 1
0 1 0 1
0 0 1 1
0 0 0 1
_
_
_
_
_
_
_
_
_
_
.
Considrons une autre reprsentation dexprience donne par la matrice :

2
=
_
_
_
_
_
_
_
_
_
_

1

2

3
b
1 0 0 1
0 1 0 1
0 0 1 1
1 1 1 1
_
_
_
_
_
_
_
_
_
_
.
Dans cette exprience les 3 premiers mesures sont comme prcdemment (dans
1
) mais la
quatrime dtrmine le poids des 3 articles ensemble, cest dire :
X
4
=
1
+
2
+
3
+b+
4
.
Il est vident que :
X
4
N(
1
+
2
+
3
+b,
2
),
EX
4
=
1
+
2
+
3
+b, VarX
4
= Var
4
=
2
.
Considrons maintenant les statistiques
Y
1
= X
1
+X
4
X
2
X
3
, Y
2
= X
2
+X
4
X
1
X
3
, Y
3
= X
3
+X
4
X
1
X
2
.
Alors :
EY
1
= 2
1
, EY
2
= 2
2
, EY
3
= 2
3
,
do on dduit que

i
=
1
2
Y
i
, i = 1, 2, 3
sont des estimateurs sans biais pour
1
,
2
,
3
respectivement, cest dire
E

i
=
i
, i = 1, 2, 3.
46
De plus les variables alatoires
1
,
2
,
3
,
4
sont indpendantes,
i
N(0,
2
), do nous
obtenons
Var

i
=
1
4
VarY
i
=
4
2
4
=
2
.
Ainsi, si nous organisons lexprience selon la matrice
2
, nous pouvons obtenir les mmes
rsultats quavec une balance calibre sans erreur systmatique.
Enn on remarque que si, par exemple, il nous faut dterminer les poids
1
, . . . ,
4
de
4 objets et que la balance est calibre, alors dans ce cas au lieu dutiliser le plan avec la
matrice

3
=
_
_
_
_
_
_
_
_
_
_

1

2

3

4
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
_
_
_
_
_
_
_
_
_
_
,
daprs lequel on a
X
i
=
i
N(
i
,
2
),
il est vident quil est mieux de choisir le plan avec la matrice

4
=
_
_
_
_
_
_
_
_
_
_

1

2

3

4
1 1 0 0
1 1 0 0
0 0 1 1
0 0 1 1
_
_
_
_
_
_
_
_
_
_
.
Dans ce cas on obtient les estimateurs


i
N(
i
,

2
2
), i = 1, . . . , 4.
Example 3. Supposons que nous observons un objet A qui se dplace uniformment avec
une vitesse constante et inconnue , > 0. Soit s(t) la distance parcourue par cet objet A
entre les temps t = 0 et t, t > 0. En supposant que s(0) = 0, on a
s(t) = t, pour tout t 0.
Pour estimer on mesure les distances
s
1
= s(t
1
), s
2
= s(t
2
), . . . , s
n
= s(t
n
)
aux moments t
1
<t
2
< . . . <t
n
, on suppose que s
0
= s(0) = 0.
Par ailleurs on sait que la prcision de mesure de s
i
est gale k
i

2
, o les constantes k
i
sont donnes, i = 1, . . . , n;
2
> 0. Dans ces conditions on propose souvent comme valeur
exprimentale pour le nombre

=
n

i=1
c
i
s
i
,
o
c
i
=
t
i
k
i
et =
n

i=1
t
2
i
k
i
.
47
On remarque que les coefcients c
i
sont choisis de facon que
c
T
t = 1, o c = ( c
1
, . . . , c
n
)
T
et t = (t
1
, . . . , t
n
)
T
.
Construire un modle probabiliste permettant de donner des explications raisonnables sur
lorigine et loptimalit dans un certain sens de cette procdure destimation.
Solution. Supposons que s = (s
1
,s
2
, . . . , s
n
)
T
est une ralisation dun vecteur alatoire
S = (S
1
, . . . , S
n
)
T
dont les coordonnes S
i
sont des variables alatoires indpendantes telles
que
ES
i
= t
i
et
2
i
= VarS
i
= k
i

2
=
2
i
, i = 1, . . . , n.
Dans ce cas nous pouvons dire que
S
i
= t
i
+
i
, i = 1, . . . , n;
E
i
= 0, Var
i
= k
i

2
=
2
i
, i = 1, . . . , n.
Nous supposons que t
i
et k
i
sont donns, mais le paramtre et la variance
2
ne sont
pas connus. Notre but est de montrer que

est une ralisation du meilleur estimateur (de
variance minimale) sans biais dans la classe

de tous les estimateurs linaires sans biais

n
pour :

n
=

n
(S) :

n
=
n

i=1
c
i
S
i
, E

n
= .
Pour montrer cela nous considrons en plus la classe
=

n
=

n
(S) :

n
=
n

i=1
c
i
S
i

de toutes les statistiques linaires. Il est vident que

.
Soit

n
une statistique linaire,

n
. Puisque
E

n
=
n

i=1
c
i
ES
i
=
n

i=1
c
i
t
i
=
n

i=1
c
i
t
i
,
on en tire que

si et seulement si
n

i=1
c
i
t
i
= c
T
t = 1.
Comme on la dja remarqu, le choix des coefciens c
i
a t fait de faon satisfaire cette
condition, et donc la statistique

n
=
n

i=1
c
i
S
i
appartient notre classe

des estimateurs linaires sans biais. Montrons que


n
a la va-
riance minimale dans la classe

:
Var

n
= min

Var

n
.
Pour tout

on a :
48
Var

n
=
n

i=1
c
2
i
VarS
i
=
2
n

i=1
k
i
c
2
i
.
Il nous faut construire lestimateur

n
,

, tel que
Var

n
= min

Var

n
.
Cela signie quil nous faut minimiser la fonction
n

i=1
k
i
c
2
i
condition que
c
T
t =
n

i=1
c
i
t
i
= 1.
En utilisant la mthode de Lagrange nous pouvons trouver ce minimum li. Soit un mul-
tiplicateur de Lagrange. Nous voulons minimiser la fonction de Lagrange
(c, ) =

c
2
i
k
i
2(

c
i
t
i
1),
donc il nous faut rsoudre lquation
grad(c, ) = 0, 0 R
r+1
,
ce qui est quivalent rsoudre le systme de n+1 quations
(c, )
c
i
= 2c
i
k
i
2t
i
= 0, i = 1, 2, . . . , n,
et
(c, )

c
i
t
i
1 = 0.
On trouve que
c
i
= t
i
/k
i
, i = 1, . . . , n.
Pour trouver il faut mettre les valeurs trouves de c
i
dans la dernire quation du systme,
do on obtient que
=
1
n

i=1
t
2
i
k
i
,
et donc
c
i
=
t
i
k
i
n

i=1
t
2
i
k
i
=
t
i
k
i
, i = 1, . . . , n.
Ces valeurs de c
i
nous donnent justement lestimateur

n
sans biais,

n

,
dont la va-
riance est minimale :

n
=
n

i=1
c
i
S
i
=
n

i=1
t
i
k
i
S
i
.
49
Puisque les statistiques S
i
sont indpendantes, par des calculs directs on trouve que
Var

n
= Var
n

i=1
c
i
S
i
=
n

i=1
( c
i
)
2
VarS
i
=
2
n

i=1
k
i
( c
i
)
2
=

2
n

i=1
t
2
i
k
i
=
2
_
n

=1
t
2
i
k
i
_
1
=
1

2
.
1.3 Mthode de Monte-Carlo.
Considrons le problme dvaluation dun intgrale multidimensionnelle
I
n
=

1
0

1
0
f
n
(x
1
, ..., x
n
)dx
1
...dx
n
=

K
n
f (x)dx, (1)
o
x = (x
1
, ..., x
n
)
T
K
n
= [0, 1] [0, 1] ... [0, 1] = [0, 1]
n
,
f
n
() est une suite de fonctions donnes, f
n
() : K
n
R
1
, n N.
Il est connu que le problme dvaluation dintgrales de ce type devient compliqu
avec laugmentation de n.
Supposons que nous pouvons construire un chantiiilon X
1
= (X
11
, ..., X
1n
)
T
de taille
n, form des variables alatoires indpendantes suivant la mme loi uniforme U([0, 1]) sur
[0, 1]. Dans ce cas le vecteur X
1
suit une loi uniforme U(K
n
) sur le cube K
n
.
Supposons en plus que nous pouvons construire un chantillon X = (X
1
, ..., X
N
)
T
de
taille N quelque soit N N des vecteurs alatoires indpendants, ayant la mme loi uni-
forme U(K
n
) sur le cube K
n
, cest--dire nous pouvons construire nN variables alatoires
indpendantes X
i j
uniformment distribues sur [0, 1]. On remarque que de la construction
des variables alatoires X
i j
il suit que
Ef
n
(X
i
) =

K
n
f
n
(x)dx = I
n
, (2)
i.e. la valeur numrique de lintgrale nest que la moyenne Ef
n
(X
i
) de la variable ala-
toire f
n
(X
i
). Dans ce cas pour estimer la moyenne Ef
n
(X
i
) = I
n
nous avons la possibilit
dutiliser la loi faible des grands nombres de Bernoulli daprs laquelle
1
N
N

i=1
f
n
(X
i
)
P
I
n
, N , (3)
i.e. pour tout > 0
P[
1
N
N

i=1
f
n
(X
i
) I
n
[ > 0, si N , (4)
50
ou
P[
1
N
N

i=1
f
n
(X
i
) I
n
[ 1, si N , (5)
do on tire que pour les grandes valeurs de N avec une probabilit proche 1 on a
I
n

1
N
N

i=1
f
n
(X
i
) (6)
De (4) et du Thorme Limite Central on tire que pour les grandes valeurs de N
P[
1
N
N

i=1
f
n
(X
i
) I
n
[ 2
_

n
_
(7)
et donc
P[
1
N
N

i=1
f
n
(X
i
) I
n
[ 12
_

n
_
o

2
n
= Var f
n
(X
i
) = E[ f
n
(X
i
) I
n
]
2
=

K
n
[ f
n
(x I
n
]
2
dx (8)
est la variance de f
n
(X
i
). (On suppose que Var f
n
(X
i
) existe). Donc si nous voulons que la
probabilit dans (7) soit proche 0.997, par exemple, il faut choisir de faon que

n
= 3
i.e.
=
3
n

N
,
do on tire que la prcision dapproximation de I
n
, donne par (7), est de lordre de
N
1/2
. Il est important de noter que la prcision de lapproximation ne dpend que de la
variance
2
n
de f
n
(X
i
). Donc pour valuer lintgrale I
n
avec la prcision
3
n

N
il suft de
modeliser N vecteurs alatoires X
i
et calculer N valeurs f
n
(X
i
).
Comparons ce rsultat avec la mthode classique du calcul des intgrales en utilisant
une approximation par les sommes.
Si n = 1, la mthode de Simpson avec N noeuds dinterpolation donne (pour une fonc-
tion f rgulire ) la prcision
1
N
4
. Mais pour n > 1 lutilisation de cette mthode pour
chacune des variables mme seulement avec 10 noeuds dinterpolation exige 10
n
calculs
des valeurs de la fonction f
n
(x) = f
n
(x
1
, ..., x
n
). Alors avec augmentation de n le calcul de
lintgral I
n
par cette mthode devient pratiquement impossible cause de cumulation des
erreurs de calcul. Mthode de Monte-Carlo dans les mmes conditions exige nN modelisa-
tions des variables alatoires X
i j
et N calculs des valeurs de la fonction f
n
(X
i
) au lieu de
10
n
dans la mthode de Simpson. Il est clair que pour n grand la mthode de Monte-Carlo
est uniquement possible. Mais il est raisonable bien sr de trouver un estimateur suprieur
de la variance
2
n
.
Exercice 1. Soit f une fonction continue priodique de priode T = 1 sur R
1
:
f (x +T) = f (x), x R
1
.
51
Considrons une suite des variables alatoires indpendantes X
n
, uniformment distri-
bues sur [0, 1], X
i
U([0, 1]). Montrer que
1
n
n

k=1
f (x +X
k
)
P

1
0
f (x)dx.
Exercice 2. Soit f continue sur [0, 1]. Montrer que
lim
n

1
0

1
0
f
_
x
1
+x
2
+... +x
n
n
_
dx
1
dx
2
...dx
n
= f (
1
2
).
Exercice 3. Calculer
lim
n

1
0

1
0
cos
2m

2n
(x
1
+x
2
+... +x
n
)dx
1
dx
2
...dx
n
, m N.
Exercice 4. Soient g continue et borne sur R
1
et
X
n

P
X.
Montrer que
a) lim
n
Eg(X
n
) = Eg(X) ( la suite du thorme de Lebesgue) ;
b) lim
n
E[g(X
n
g(X)[
r
= 0, r > 0.
Exercice 5. Soit f continue sur [0, 1]. Montrer que
lim
n

1
0

1
0
f (
n

x
1
...x
n
)dx
1
...dx
n
= f (
1
e
).
Exercice 6. Soient f et g continues sur [0, 1] et telles que pour tout x ]0, 1[
0 f (x) < cg(x), c > 0.
Montrer que
lim
n

1
0

1
0
f (x
1
) +... + f (x
n
)
g(x
1
) +... +g(x
n
)
dx
1
...dx
n
=

1
0
f (x)dx

1
0
g(x)dx
.
Exercice 7. Montrer que
lim
n

1
0

1
0
x
2
1
+... +x
2
n
x
1
+... +x
n
dx
1
...dx
n
=
2
3
.
Exercice 8. Soit f telle que f
//
est continue sur [0, 1]. Montrer que
lim
n
n

1
0

1
0
_
f
_
x
1
+... +x
n
n
_
f
_
1
2
__
dx
1
...dx
n
=
f
//
_
1
2
_
24
.
Exercice 9. Montrer que
a)
lim
n

...

0x
i
1, x
2
1
+...+x
2
n

n
dx
1
...dx
n
= 0;
52
b)
lim
n

...

0x
i
1, x
2
1
+...+x
2
n

n
4
dx
1
...dx
n
= 0;
c)
lim
n

...

0x
i
1, x
2
1
+...+x
2
n

n
2
dx
1
...dx
n
= 1.
Exercice 10. Calculer
a)
lim
n

...

x
2
1
+...+x
2
n
n
f (x
1
)... f (x
n
)dx
1
...dx
n
;
b)
lim
n

...

n
k=1
x
2
k
an
f (x
1
)... f (x
n
)dx
1
...dx
n
(a <
2
);
c)
lim
n

...

n
k=1
x
2
k
an
f (x
1
)... f (x
n
)dx
1
...dx
n
(a >
2
);
si f satisfait aux condition
1 =

f (x)dx,
2
=

x
2
f (x)dx < .
Exercice 11. On dit quune suite de nombres a
n
, n N

, a
n
[0, 1] est uniformment
distribue au sens de H.Weyl sur [0, 1] si pour toute fonction continue f , intgrable sur
[0, 1] au sens de Riemann
lim
n
1
n
n

k=1
f (a
k
) =

1
0
f (x)dx.
Soit X
n
une suite de variables alatoires indpendantes uniformment distribues sur
[0, 1]. Montrer que avec probabilit gale 1 X
n
est uniformment distribue au sens
de Weyl sur [0, 1].
Remark 1. On rappele que

b
a
f (x)dx =

u(b)
u(a)
f (u
1
(t)
u
/
(u
1
(t))
dt,
en faisant le changement de variables t = u(x). En statistique on utilise souvent les trans-
formations en choisissant :
u(x) = e
x
, u(x) = 1/x, u(x) = x/(1+x).
53
54
Chapitre 2
ELEMENTS DE LA THEORIE DE
LESTIMATION PONCTUELLE.
2.1 Modle statistique. Fonction de vraisemblance.
Soient (, A, P) un espace probabilis et (R
n
, B
n
) un espace borlien.
Dnition 1. Une application
X = X() = (X
1
(), X
2
(), . . . , X
n
())
T
: R
n
de lensemble = de tous les vnements lmentaires dans R
n
est appele un vecteur
alatoire si
X
1
(B) A, pour tout B B
n
. (1)
Dnition 2. Soit P
X
une mesure sur (R
n
, B
n
), dtermine par la formule suivante :
P
X
(B) = P : X() B = PX
1
(B) = PX B. (2)
La mesure P
X
, dtermine sur la -algbre borlienne B
n
par lgalit (2), sappelle la
distribution (la rpartition) de X dans R
n
.
Supposons que la distribution P
X
de X appartienne une famille
P =P

, .
Dnition 3. On appelle modle statistique le triplet (R
n
, B
n
, P).
Souvent au lieu de (R
n
, B
n
, P) on crit (R
n
, B
n
, P

, ) pour indiquer lespace des


paramtres .
Dnition 4. Un modle (R
n
, B
n
, P

, ) est dit domin par une mesure -nie dans


R
n
, si la famille P =P

, est absolumemt continue par rapport :


P

, .
Autrement dit, le modle (R
n
, B
n
, P

, ) est domin par , si pour tout il


existe une fonction non ngative B
n
- mesurable p(x; ) telle que
P

(B) =

B
p(x; )d(x)
55
pour tout B B
n
. La fonction p(x; ) = p

(x) est appele la drive de Radon-Nikodym de


la mesure P

par rapport la -mesure , et on note souvent


p(x; ) =
dP

d
(x) ou dP

(x) = p(x; )d(x).


Considrons le modle :
H
0
: X p(x; ), , x R
n
,
daprs lequel la densit dun vecteur alatoire X = X() de dimension n appartient une
famille des densits
p(x; ), , x = (x
1
, x
2
, . . . , x
n
)
T
R
n
.
Dnition 5. Si est un ensemble de R
m
, on dit que le modle H
0
est paramtrique,
sinon le modle H
0
sappelle non paramtrique.
Dnition 6. La variable alatoire
L() = L(X, ) = p(X; ), R
m
, (3)
est appele la fonction de vraisemblance de X.
Remarque 1. On appelle L() ainsi car la fonction de vraisemblence L(), sachant la rali-
sation x du vecteur alatoire X, nous permet de comparer les paramtres
1
et
2
.
Si
L(
1
) > L(
2
),
il est plus probable que X = x pour =
1
.
Avec cette optique il est trs naturel de considrer

n
=

n
(X) = arg

maxL(), i.e. L(

n
) = max

L(),
comme un estimateur de , appel lestimateur de maximum de vraisemblance.
2.2 Statistique. chantillon. Loi empirique.
Dnition 1. Soit T = T(x) une application de (R
n
, B
n
) dans un espace E muni dune -
algbre borlienne E , T : R
n
E. On dit que T est une application borlienne si pour
tout ensemble borlien B de lespace (E, E), B E, T
1
(B) est un ensemble borlien dans
(R
n
, B
n
), i.e.
x : T(x) B = T
1
(B) B
n
, pour tout B E.
Dnition 2. Soient X = X() un vecteur alatoire sur (, A, P), X : R
n
, et T(x), une
application borlienne de R
n
dans un espace mesurable (E, E),
T : R
n
E.
56
Dans ce cas on dit que T(X) = T(X()) est une statistique et lapplication T elle-mme
sappelle une fonction de dcision.
En dautres termes nimporte quelle transformation du vecteur dobservations X ne d-
pendant pas du paramtre inconnu est une statistique.
Dnition 3. Soit X() = (X
1
(), X
2
(), . . . , X
n
())
T
un vecteur alatoire. Considrons un
modle H
0
daprs lequel les variables alatoires X
1
, . . . , X
n
sont indpendantes et suivent
la mme loi. Dans ce cas on dit que X est un chantillon de taille n et on crit X au lieu de
X.
Remarque 1. Soit X = (X
1
, . . . , X
n
)
T
un chantillon de taille n, X : R
n
. Considrons
un modle paramtrique
H
0
: X p(x; ), , x R
n
.
Soit f (x
i
; ) la densit de X
i
: R
1
R
1
. Dans ce cas pour tout x R
n
p(x; ) =
n

i=1
f (x
i
; ), ,
et la fonction de vraisemblance de lchantillon X est
L() = p(X; ) =
n

i=1
f (X
i
; ), .
Exemple 1. Statistiques dordre. Vecteur des rangs. Soit X= (X
1
, ..., X
n
)
T
un chantillon,
X X R
n
. A toute ralisation x = (x
1
, ..., x
n
)
T
X de X on peut associer le vecteur
x
(n)
= (x
(1)
, ..., x
(n)
)
T
obtenu en ordonnant les x
i
par ordre croissant
x
(1)
x
(2)
... x
(n)
.
La statistique correspondante X
(n)
= (X
(1)
, ..., X
(n)
)
T
est appele le vecteur des statistiques
dordre et X
(i)
est la i-me statistique dordre dans A R
n
:
A =x = (x
1
, ..., x
n
)
T
R
n
: x
1
x
2
... x
n
.
Si de plus on associe X le vecteur R = (R
1
, ..., R
n
)
T
des rangs R
i
des X
i
(i = 1, ..., n), dans
X
(n)
, avec
R
i
=
n

j=1
1
X
j
X
i

et on suppose que
PX
(1)
< X
(2)
< < X
(n)
= 1,
alors dans ce cas la correspondence entre X et la statistique (X
(n)
, R) est bijective. En g-
nral, R est valeurs dans lensemble
n
des permutations des n premier entiers, avec
rptition car il peut y avoir des ex aequo parmi les composantes de X. Cependant, si la
probabilit pour quau moins deux des composants de X soient gales est nulle, R est
valeurs dans lensemble
n
des permutations de 1, 2, ..., n. Cela se produit en particulier
si la loi de X admet une densit p(x) par rapport la mesure de Lebesgue sur R
n
. Parfois,
au lieu de X
(n)
on utilise le signe X
()
.
57
La statistique J
n
= (J
1
, ..., J
n
)
T
, o
J
k
=
n

j=1
j1
R
j
=k
, k = 1, 2, ..., h,
est connue comme le vecteur des antirangs.
Soit F(x) = PX
1
x la fonction de rpartition de X
1
. Dans ce cas on a, par exemple,
PX
(n)
x = F
n
(x), PX
(1)
x = 1[1F(x)]
n
,
PX
(r)
x = n!
n

k=r
F
k
(x)(1F(x))
nk
k!(nk)!
,
puisque
PX
(r)
x < X
(r+1)
=
n!
r!(nr)!
(F(x))
r
[1F(x)]
nr
.
Donc si la loi F de X
1
est absolument continue, i.e. sil existe la densit f (x) telle que
F(x) =

f (u)du, x R
1
,
alors la loi de X
(r)
est absolument continue aussi et sa densit est donne par la formule
f
X
(r)
(x) =
n!
(r 1)!(nr)!
(F(x)
r1
[1F(x)]
nr
, r = 1, ..., n.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un chantillon. Dans ce cas les statistiques
T
1
=
n

i=1
X
i
, T
2
=
n

i=1
X
2
i
,

X
n
=
T
1
n
, s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
,
T
3
= X
(1)
, T
4
= X
(n)
, T
5
= X
(n)
X
(1)
, V
n
=
s
n

X
n
donnent des exemples simples de statistiques scalaires, tandis que
T = (T
1
, T
2
)
T
et U = (

X
n
, s
2
n
)
T
sont deux statistiques vectorielles de dimension deux. La statistique V
n
sappelle le coef-
cient de variabilit, T
5
est ltendu de lchantillon, T
3
et T
4
sont les statistiques extrmales.
Exemple 3. La loi empirique. Soit X = (X
1
, ..., X
n
)
T
un chantillon, F(x) = PX
i
x
est la fonction de rpartition de X
i
. Ayant la ralisation x = (x
1
, ..., x
n
)
T
de la statistique
X = (X
1
, ..., X
n
)
T
, nous pouvons construire la fonction
F
n
(x) = F
n
(x; x
1
, ..., x
n
) =
1
n
n

i=1
1
],x]
(x
i
) =
1
n
n

i=1
1
],x]
(x
(i)
), x R
1
,
dont la valeur F
n
(x) en nimporte quel point x, x R
1
, reprsente la ralisation de la statis-
tique
F
n
(x) =F
n
(x; X
1
, ..., X
n
) =
1
n
n

i=1
1
],x]
(X
i
) =
1
n
n

i=1
1
],x]
(X
(i)
),
58
calcule au point choisi x.
Par construction, la fonction F
n
(x), x R
1
, a toutes les proprits dune fonction de
rpartition, car elle est croissante de 0 1 et continue droite, et pour cette raison nous
pouvons introduire une variable alatoire discrte, disons X, dont la loi conditionnelle,
conditionne par X = x, est donne par la fonction F
n
(x), cest--dire
F
n
(x) = PX x [ X = x = PX x [ X
1
= x
1
, ..., X
n
= x
n
, x R
1
,
et par consquent
F
n
(x) = PX x [ X, x R
1
.
Cette formule dtermine la fonction de rpartition alatoire et, par tradition, on lappelle la
fonction de rpartition empirique. Par consquent, la loi conditionnelle de la variable ala-
toire X, conditionne par X, sappelle la loi empirique. La loi empirique est la loi discrte
de X telle que
PX = X
i
[ X =
1
n
pour tout i = 1, 2, ..., n et F
n
(x) est la fonction de rpartition de cette loi.
Les statistiques

X
n
et s
2
n
reprsentent la moyenne et la variance de la loi empirique. Par
dnition la statistique
x
P
= X
([nP]+1)
reprsente P- quantile de la loi empirique, et par consquant, x
0.5
= X
([
n
2
]+1)
est la mdiane
de la loi empirique.
Remarque 2. Soit X = (X
1
, . . . , X
n
)
T
un vecteur alatoire, X R
n
, dont la densit est p
X
(x),
x = (x
1
, . . . , x
n
)
T
.
Considrons une statistique Y = f (X), o f : R
n
R
n
est une application drivable.
Notons
y = f (x), i.e. y = (y
1
, . . . , y
n
)
T
, o y
j
= f
j
(x), x R
n
.
Le Jacobien de f est une application
Df : R
n
R
1
,
donne par la formule :
Df (x) = det
_
_
_
_
f
j
(x)
x
i
_
_
_
_
,
i.e. Df (x) est le dterminant de la matrice Jacobienne.
Si Df (x) ,= 0 au voisinage dun point x, x R
n
, dans ce cas f
1
(y) existe au voisinage
du point y = f (x) avec
Df
1
( f (x))Df (x) = 1, (1)
ou
Df
1
(y)Df (x) = 1, y = f (x).
Si f
1
existe, alors daprs une proprit connue en analyse, pour toute fonction integrable
de R
n
on a

A
(y)dy =

f
1
(A)
( f (x))[Df (x)[ dx (2)
59
pour tout A, borelien de R
n
. Cest la formule de changement de variables dans une intgrale.
Lemme 1. Soient Y = f (X) et p
X
(x) la densit de X, X R
n
, o f est telle que f
1
existe.
Dans ce cas la densit p
Y
(y) de la statistique Y est donne par la formule
p
Y
(y) = p
X
( f
1
(y))[Df
1
(y)[. (3)
Dmonstration. Daprs (2) pour tout B borlien, B B
n
, on a :
PY B =

B
p
Y
(y)dy = PX f
1
(B) =
=

f
1
(B)
p
X
(x)dx =

B
p
X
( f
1
(y))[Df
1
(y)[ dy,
et donc
p
Y
(y) = p
X
( f
1
(y))[Df
1
(y)[ (4)
et vice-versa
p
X
(x) = p
Y
( f (x))[Df (x)[. (5)
Thorme 1. Soit X = (X
1
, ..., X
n
)
T
. Dans ce cas la densit de X
1
est
p
X
1
(x
1
) =

R
n1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
.
Dmonstration. Pour tout A borlien dans R
1
, A B, on a
PX
1
A = PX
1
A, < X
2
< +, ..., < X
n
< + =

R
n1
p
X
(x)dx
1
dx
n
=

A
_
_
_

R
n1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
_
_
_
dx
1
,
et donc
X
1
p
X
1
(x
1
) =

R
n1
p
X
(x
1
, ..., x
n
)dx
2
dx
n
.
Exemple 4. Soit X = (X
1
, X
2
)
T
, Y
1
= X
1
+X
2
. Trouvons la densit de la statistique Y
1
.
Considrons la statistique Y = (Y
1
,Y
2
)
T
= f (X), o
Y
1
= X
1
+X
2
= f
1
(X), Y
2
= f
2
(X) = X
2
,
i.e.
f (x) = (y
1
, y
2
) = ( f
1
(x), f
2
(x))
T
,
f
1
(x) = x
1
+x
2
, f
2
(x) = x
2
.
Dans ce cas
f
1
(x)
x
1
= 1,
f
1
(x)
x
2
= 1,
f
2
(x)
x
1
= 0,
f
2
(x)
x
2
= 1
60
et donc
Df (x) = det
_
_
_
_
1 1
0 1
_
_
_
_
= 1, Df
1
(y) = 1,
o x = (x
1
, x
2
)
T
= f
1
(y) est donne par les formules :
x
1
= f
1
1
(y) = y
1
y
2
,
x
2
= f
1
2
(y) = y
2
,
et donc
f
1
1
(y)
y
1
= 1,
f
1
1
(y)
y
2
=1,
f
1
2
(y)
y
1
= 0,
f
1
2
(y)
y
2
= 1,
Df
1
(y) = det
_
_
_
_
_
f
1
j
(y)
y
i
_
_
_
_
_
= 1.
Daprs (4) on a
p
Y
(y) = p
X
( f
1
(y)) [ Df
1
(y) [= p
X
(y
1
y
2
, y
2
) (6)
et, par consquant, on en dduit que (avec laide du Thorme 1)
p
Y
1
(y
1
) =

p
Y
(y)dy
2
=

p
X
(y
1

2
, y
2
)dy
2
. (7)
Thorme 2. Si la densit p
X
(x) du vecteur X R
n
est prsente par la formule
p
X
(x) =
n

i=1
p
X
i
(x
i
),
o p
X
i
(x
i
) est la densit de X
i
, dans ce cas les variables alatoires X
1
, X
2
, . . . , X
n
sont
indpendantes.
Dmonstration. Soient A
i
1
, A
i
2
, ..., A
i
k
des ensembles borliens dans R
1
. Dans ce cas
PX
i
1
A
i
1
, X
i
2
A
i
2
, ... X
i
k
A
i
k
= PX
i
j
A
i
j
, j = 1, ..., k; X
i
R
1
, i ,= j =

A
i
1

A
i
2

A
i
k

R
nk
p
X
i1
(x
i1
)...p
X
ik
(x
ik
)dx
i
1
dx
i
k
i,=i
j
p
X
i
(x
i
)dx
i
=
k

j=1

A
i j
p(x
i
j
)dx
i
j
=
k

j=1
PX
i j
A
i j
.
Remarque 3. Soit X = (X
1
, X
2
)
T
un vecteur alatoire, dont les componentes sont indpen-
dantes. Dans ce cas
p
X
(x) = p
X
(x
1
, x
2
) = p
X
1
(x
1
)p
X
2
(x
2
), (8)
et donc la densit de la statistique Y
1
= X
1
+X
2
est donne par la formule
p
Y
1
(y
1
) =

p
Y
1
(y
1
y
2
)p
X
2
(y
2
)dy
2
=

p
X
1
(y
2
)p
X
2
(y
1
y
2
)dy
2
. (9)
61
En effet, de (7) on trouve que
p
Y
1
(y
1
) =

p
X
(y
1
y
2
, y
2
)dy
2
=

p
X
1
(y
1
y
2
)p
X
2
(y
2
)dy
2
(on a utilis lindpendance de X
1
et X
2
et (8)).
2.3 Estimateur ponctuel. Consistance. Estimateur inva-
riant
Considrons le modle paramtrique H
0
daprs lequel
X p(x; ), x R
n
, R
m
, 1 m n.
Dnition 1. Soit T = T(X) une statistique telle que
T : R
n
R
m
, m n.
Dans ce cas la statistique Tsappelle un estimateur statistique ponctuel ou, tout simplement,
un estimateur pour = (
1
, . . . ,
m
)
T
.
Si la vraie valeur du paramtre est inconnue, alors la ralisation

= T(x),

R
n
,
de lestimateur T(X) est considre comme une approximation exprimentale pour ,

= T(x).
On dit que cest lestimation ponctuelle de .
Remarque 1. Parfois, pour souligner quon travaille avec un vecteur dobservations X
dordre n, on ecrit

n
au lieu de

.
Dnition 2. On appelle biais de lestimateur T = T(X) de , R
m
, la fonction
b : R
m
,
b() = E

(T), .
Si
b() 0
m
,
on dit que lestimateur T est sans biais.
Remarque 2. Soient

n
et

n
deux estimateurs scalaires sans biais pour R
1
:
E

n
= E

n
, .
Dans ce cas

n
= E

n
[

n
) est aussi un estimateur sans bias pour :
E

n
= E

n
[

n
) , .
Supposons Var

n
et Var

n
existent. Alors, comme
Var

n
= E

Var

n
[

n
)+Var

n
[

n
),
62
et
E

Var

n
[

n
) 0,
on en tire que
Var

n
= Var

n
[

n
) Var

n
.
Il est vident que par symtrie on obtient galement que
Var

n
Var

n
.
Dnition 3. T
n
est une suite destimateurs asymptotiquement sans biais pour le para-
mtre , , si pour tout
b
n
() = E

(T
n
) 0
m
,
lorsque n .
Dnition 4. Soit

n
une suite destimateurs ponctuels pour ,

n
=

n
(X). On dit que

n
est une suite consistante ou cohrante pour , si

n
converge en probabilit vers ,
i.e. si pour tout > 0
P

n
| > 0, quand n .
Critre de consistance. Soit T
n
une suite destimateurs asymptotiquement sans biais pour
le paramtre scalaire , R
1
, telle que Var

T
n
0, lorsque n . Alors

n
P
.
En effet, de lingalit de Tchebychev, on tire que pour tout > 0
P

[ T
n
[>
E

(T
n
)
2

2
=
Var

T
n

2
+
b
2
n
()

2
0,
lorsque n , puisque b
n
() = E

T
n
0 quand n , et donc la suite T
n
est consis-
tante.
Dnition 5. Soit

n
=

n
(X
1
, ..., X
n
) un estimateur de paramtre . On dit que

n
est inva-
riant par rapport au paramtre de translation C, C R
1
, si

n
(X
1
+C, X
2
+C, ..., X
n
+C) =

n
(X
1
, ..., X
n
).
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon, X
i
N(,
2
). Dans ce cas la statistique

n
(X
1
, ..., X
n
) =

X
n
nest pas un estimateur invariant pour par rapport au paramtre de
translation C, parce que

n
(X
1
+C, ..., X
n
+C) =C+

X
n
,=

n
(X
1
, ..., X
n
).
Par contre la statistique
s
2
n
= s
2
n
(X
1
, ..., X
n
) =
1
n
n

j=1
(X
j


X
n
)
2
est un estimateur invariant pour
2
par rapport au paramtre de translation C, parce que
s
2
n
(X
1
+C, ..., X
n
+C) = s
2
n
(X
1
, ..., X
n
).
63
2.4 Fonction de perte, fonction de risque.
Dnition 1. (Fonction de perte). Soit T = T(X) : R
n
un estimateur ponctuel du
paramtre , R
1
. Toute fonction non ngative l(t, ) : R
1
+
convexe en t
est appele fonction de perte de lestimateur T.
Les fonctions de perte servent mesurer la qualit dun estimateur ; cela suppose donc
que la valeur observe l(t, ) de la fonction l(T(X), ), reprsente la perte pour chaque
qui rsulte de lutilisation de la valeur de T au lieu de . Il est naturel de supposer que
l(, ) = 0. On utilise le plus souvent la fonction
l(T(X), ) = (T(X) )
2
, ,
comme fonction de perte (fonction de perte quadratique). Mais on peut aussi prendre
l(T(X), ) =[ T(X) [, l(T(X), ) =
_
1
T(X)

_
2
ou
l(T(X), ) =
T

ln
_
T

_
1.
Il est intressant aussi dutiliser des fonctions convexes et de choisir
l(T(X), ) = g(T(X) ), ,
o g est une fonction convexe non ngative.
Dnition 2. (Fonction de risque). On appelle fonction de risque ou risque de lestimateur
T par rapport la fonction de perte l lesprance mathmatique de la fonction de perte
R
l
(T, ) = E

l(T, ), .
Cette fonction reprsente manifestement la perte moyenne lorsquon utilise lestimateur
T(X) quand la vraie valeur du paramtre est .
Par exemple, si
l(T, ) =
_
1, [ T [,
0, [ T [< ,
alors la fonction de risque est
R
l
(T, ) = E

l(T, ) = P

[ T [, .
Cette dnition nous permet dintroduire une relation dordre partiel sur les estimateurs
de . Il est logique dadmettre que lestimateur T
1
est prfrable lestimateur T
2
par rapport
la fonction de perte l, si
R
l
(T
1
, ) R
l
(T
2
, ), .
Remarque 1. Lorsque la fonction de perte choisie est la fonction de perte quadratique,
le risque-associ est appel risque quadratique. Dans le cas dun estimateur sans biais, le
risque quadratique correspond la variance de lestimateur.
Remarque 2. Dans le cas o le paramtre = (
1
, ...,
m
)
T
est un lment de R
m
, alors
les produits sont des produits scalaires et les variances sont des matrices de covariance.
64
Plus dinformation et des exemples on peut trouver, par exemple, dans Voinov& Nikulin
(1993), (1996).
2.5 Statistiques exhaustives, ncessaires, minimales et com-
pltes.
Considrons le modle
H
0
: X p(x; ), R
m
, x R
n
,
o la densit du vecteur X = X() de dimension n, X : R
n
, appartient une famille
des densits
p(x; ), , x = (x
1
, x
2
, . . . , x
n
)
T
R
n
.
Dnition 1. Exhaustivit. On dit quune statistique
T = T(X), T : R
n
R
k
, m k n,
est exhaustive pour le paramtre ou pour la famille des densits
p(x; ), ,
si la loi conditionnelle de X, sachant T,
P

X x [ T = t
ne dpend pas de , i.e.
P

X x [ T = t = PX x [ T = t.
Remarque 1. Le fait que la loi conditionnelle de X, sachant T, ne dpende pas de signie
que T contient toute linformation sur le paramtre inconnu .
Remarque 2. En pratique, il est trs difcile de rpondre la question sil existe une sta-
tistique exhaustive ou non en utilisant cette denition. Mais, ce qui est plus ennuyeux cest
que cette denition ne donne aucune mthode pour construire des statistiques exhaustives.
Il est donc trs important davoir un critre simple qui permettrait de trouver des statistiques
exhaustives.
Thorme. (Critre de factorisation de Neyman-Fisher).
Une statistique T = T(X) est exhaustive pour si et seulement si la fonction de vrai-
semblance L() de X peut tre factorise de la faon suivante :
L() = g(T; )W(X), (1)
65
o le premier facteur ne dpend que de T et , et le second ne dpend que de X.
Dmonstration. On va donner la dmonstration de ce thorme dans le cas o
i) X =X = (X
1
, . . . , X
n
)
T
est un chantillon,
X
i
f (x
i
; ), x
i
X
i
=X R
n
, ;
ii) lespace des ralisations X de X
i
est ni ou inni dnombrable,
et donc la distribution de X est discrte dans
X
n
=X
1
X
2
X
n
=X X X, X
n
R
n
;
i.e.
X p(x; ) = P

X = x > 0, x = (x
1
, , x
n
)
T
X
n
, ,
o
p(x; ) =
n

i=1
f (x
i
; )
est la densit de X. On suppose aussi que X ne dpend pas de .
Tout dabord on dmontre que si T = T(X) est une statistique qui verie (1), elle est
exhaustive.
Soit T une statistique T : X
n
T telle que (1) ait lieu, o T = t R
k
est lespace des
ralisations de T, i.e.
P

T =t > 0, t T .
Notons
X
t
=x = (x
1
, . . . , x
n
)
T
: T(x) =t, x X
n
R
n

lorbite, correspondant la valeur t, t T , de la statistique T. Il est vident que X


n
=

tT
X
t
.
Comme T(X) =t =X X
t
on a
P

X = x[T(X) =t =
P

X = x, T(X) =t
P

T(X) =t
=
=
_
_
_
P

X = x
P

T =t
, si x X
t
,
0, sinon,
car
P

X = x, T(X) =t =
_
P

X = x, si T(X) =t,
0, sinon.
On remarque que daprs (1) on a
P

X = x = p(x; ) =
_
g(t; )W(x), x X
t
,
0, sinon.
Par ailleurs pour tout t T on a
P

T(X) =t =

xX
t
P

X = x =
66
=

xX
t
g(T(x); )W(x) =

xX
t
g(t; )W(x) = g(t; )

xX
t
W(x),
do on tire que
P

X = x[T(X) =t =
_
_
_
W(x)

xX
t
W(x)
, x X
t
,
0, sinon.
Comme x est arbitraire, x X
n
, et X
t
ne dpend pas de , donc
P

X = x[T(X) =t = p(x[t)
ne dpend pas de , i.e. T est une statistique exhaustive.
Rciproquement, si
P

X = x[T(X) =t = PX = x[T(X) =t = p(x[t)


ne dpend pas de , alors daprs le thorme de multiplication des probabilits, on a
p(x; ) = P

X = x = P

X = x[T(X) =tP

T(X) =t =
= p(x[t)g(t; ) = g(t; )W(x), x X
n
=

X
t
,
o W(x) = p(x[t) = p(x[T(x)), i.e. on obient (1), et donc le thorme est dmontr.
Remarque 3. Il faut noter que, en principe, une statistique exhaustives, comme nimporte
quelle statistique, nest pas un estimateur du paramtre inconnu. On a vu que la dnition de
statistique est plus large que la dnition destimateur. Evidemment, certaines statistiques
exhaustives peuvent tre des estimateurs mais, en gnral, ce nest pas le cas. Lide duti-
liser des statistiques exhaustives permet de rduire les donnes exprimentales sans perdre
linformation. Chercher des estimateurs est ltape suivante du traitement des observations.
Cela signie que il est recommand de chercher les estimateurs statistiques en termes des
statistiques exhaustives, si elles existent.
Dnition 2. Soit T une statistique exhaustive. Dans ce cas U = U(T) est appele une
statistique ncessaire.
Pour que la statistique ncssaire U =U(T) soit exhaustive il suft que U() soit inver-
sible.
Dnition 3. Soit Ulensemble de toutes les statistiques exhaustives pour la famille P

,
. Une statistique exhaustive U, U U, est dite minimale si elle est ncessaire par rap-
port toute autre statistique exhaustive T, T U, i.e. pour chaque T U il existe une
application U : U = U(T).
On dit aussi que U est une rduction de toute statistique exhaustive T (do le nom de
minimale). Cela signie que U est une rduction de T si de lgalite T(x
1
) = T(x
2
) il suit
lgalit U(x
1
) =U(x
2
), x
1
, x
2
X
n
.
Donc, une statistique exhaustive minimale U est la statistique exhaustive la plus gros-
sire, et donc elle rduit au maximum lespace des observations sans perdre linformation
sur . Soit V = H(U). Si H est inversible, cest--dire H est une application bijective bime-
surable, alors V est elle aussi exhaustive, sinon V nest plus exhaustive. Si H est inversible,
V U,
67
et dans ce sens U est unique (classe dquivalence).
Remarque 4. Soient T = T(X) une statistique exhaustive,
L(X; ) = g(T; )W(X), T : X
n
T ,
et S = S(X) une autre statistique, telle que
S = S(X) =U(T(X)), S : X
n
J ,
o U() est une fonction inversible i.e., si U : T J , alors il existe
R =U
1
: J T ,
telle que
T(X) = R(S) = R(S(X)).
On peut afrmer que S est elle aussi exhaustive ; en effet
L(X; ) = g(T; )W(X) = g(R(S(X)); )W(X) =
= g

(S(X); )W(X) = g

(S; )W(X).
Nous dirons que T et S sont quivalentes, T S, si elles sont inverses lune de lautre. On
dit souvent aussi que W(X) est une statistique auxiliaire ou complmentaire.
Dnition 4. On dit que la famille de densits f (x; ), R
m
est complte si la
seule fonction T, T : R
1
R
1
, qui vrie lquation intgrale
+

T(x) f (x; )dx = 0 pour tout


est telle que T(x) = 0 presque partout.
Remarque 5. Si X f (x; ), R
m
, la compltude de la famille f (x; ) signie
que le seul estimateur sans biais de 0 est une statistique T(X) qui est nulle presque partout.
Dnition 5. Soit T = T(X) une statistique, T : R
n
R
k
,
T g(t; ), , t R
k
.
On dit que la statistique T est complte, si la famille g(t; ) est complte.
Remarque 6. Pour mener bien les estimations et les tests classiques, paramtriques ou
non paramtriques, on transforme les observations brutes en calculant des statistiques bien
choisies qui doivent avoir les proprits suivantes :
1) Perdre le moins dinformation possible, ventuellement pas du tout (et cest le cas des
statistiques exhaustives) tout en rduisant au minimum le volume initial des observations.
2) Etre calculables ou avoir une bonne approximation. Par exemple, sil sagit dun
estimateur obtenu par maximum de vraisemblance, il se peut que lon ne puisse en obtenir
aisment quune valeur approche au premier pas partir dun estimateur moins bon.
3) Leurs lois doivent tre, soit connues explicitement, soit admettre une bonne approxi-
mation. Bonne voulant dire la fois simple calculer et ayant une bonne vitesse de conver-
gence vers la vraie valeur. Ce qui suit donne, grce des transformations appropries des
observations, des statistiques qui ont ces proprits et aussi de bonnes approximations par
des lois usuelles et permet ainsi de nutiliser essentiellement que deux tables : celle de la loi
68
normale standard et celle des lois gamma (ou chi-deux). Des exemples illustrent lapplica-
tion de ces mthodes qui donnent des approximations meilleures (de vitesse de convergence
plus rapide) que les approximations usuelles.
Ces techniques sont trs utiles pour tous les statisticiens qui travaillent sur des pro-
blmes concrets, en particulier chez les ingnieurs, mais aussi, dans les domaines de la
mdecine et de la biologie.
Il y a plusieurs mthodes destimation dun paramtre , par exemple :
1
0
. La mthode des moments ( base sur la loi empirique) ;
2
0
. la mthode des moindres carrs (base sur la mthode de Gauss) ;
3
0
. La mthode de minimum du chi-deux ;
4
0
. La mthode du maximum de vraisemblance, etc.
En gnral, ces mthodes sont diffrentes et par consquant les proprits des
estimateurs obtenus par ces mthodes sont diffrentes.
2.6 Information de Fisher. Ingalit de Rao-Cramer-Frchet.
Thorme de Rao-Blackwell-Kolmogorov.
Considrons un modle paramtrique ; on a vu quune statistique exhaustive conserve
toute linformation du modle.
Pour mesurer linformation contenue dans une statistique, Fisher a dni la quantit
dinformation.
Considrons la famille des densits :
f (x; ) : , x R
1
, R
1
.
Supposons que cette famille est rgulire. Cest--dire :
i) il existe

f (x, ) pour tout ;


ii) lensemble des x pour lesquels f (x, ) = 0 est indpendant de ( le support X de f
ne dpend pas du paramtre )
iii) on peut driver sous lintgrale par rapport la quantit

R
1
f (x, )dx =

X
f (x, )dx = 1. (1)
Soit X = (X
1
, ..., X
n
)
T
un n-chantillon o
X
i
f (x
i
; ), R
1
, x
i
R
1
.
Alors, la quantit
(X
j
; ) =
ln f (X
j
; )

(2)
est appel informant de lobservation X
j
et la quantit suivante
(X, ) =

lnL() (3)
est appel informant de lchantillon X; (L() est la fonction de vraisemblance de X).
69
Puisque
lnL() =
n

j=1
ln f (X
j
; )
on en tire que
(X; ) =
n

j=1
(X
j
; ). (4)
Dnition 1. On appelle information de Fisher dans X par rapport la quantit :
I
n
() = Var

(X, ), (5)
si elle existe.
Remarque 1. Puisque
E

(X; ) = 0, , (6)
on a
I
n
() = E

2
(X, ). (7)
Remarque 2. Si (1) peut tre drive deux fois par rapport sous le signe dintgration,
alors on peut montrer que
I
n
() =E

(X, ). (8)
Remarque 3. Puisque
L() = p(X; ) =
n

i=1
f (X
i
, ),
on pourra crire :
I
n
() = ni(), (9)
o
i() = E

2
(X
j
; ) (10)
reprsente linformation dune des composantes, par exemple X
j
, du vecteur X. Nous en
dduisons que le vecteur X contient n fois plus dinformation que chacune de ses compo-
santes. On remarque que si (1) peut tre drive deux fois par rapport , alors
i() =E

(X
1
, ). (11)
Lingalit de Rao-Cramer-Frchet. Si T = T(X) un estimateur sans biais du paramtre
, alors sous les conditions i)-iii)
Var

T
1
I
n
()
, . (12)
Dmonstration. Soit la classe de tous les estimateurs T = T(X) sans biais pour le para-
mtre :
=T : E

T .
Dans ce cas pour tout T on a
E

T =

X
n
T(x)p(x; )dx , ,
70
et donc des conditions i)-iii) on tire que

X
n
T(x)p(x; )dx =

X
n
T(x)

p(x; )dx 1,
i.e. on a
1

X
n
T(x)

p(x; )dx =

X
n
T(x)
_

ln p(x; )
_
p(x; )dx =

X
n
T(x)()p(x; )dx = E

T(X)(), ,
o () est linformant du vecteur dobservation X. Comme
E

T et E

() 0
nous pouvons crire que
E

T(X)() = E

(T ) = Cov

(T, ) 1, ,
et donc de cette identit et de lingalit de Cauchy-Schwarz-Bounjakovsky on tire que
1 Cov
2

(T, ) Var

T Var

= Var

TI
n
(),
do on obtient lingalit (12), connue sous le nom dingalit de Rao-Cramer-Frchet.
Remarque 4. Si T =T(X) est un estimateur sans biais de la fonction diffrentiable g(),
, alors on peut montrer que dans le cas rgulier :
Var

T
[g
/
()]
2
I
n
()
, . (13)
Par exemple, soit E

T = g() = +b(), i.e. b() est le biais de lestimateur T. Dans ce


cas de (13) on tire que
Var

T
[1+b
/
()]
2
I
n
()
.
Remarque 5. 1/I
n
() nest plus la borne infrieure de la variance dun estimateur avec
biais.
Dnition 2. Un estimateur sans biais T = T(X) du paramtre sera efcace si
Var

T =
1
I
n
()
. (14)
Un estimateur efcace est donc un estimateur sans biais pour lequel la borne infrieure de
lingalit de Rao-Cramer Frchet est atteinte.
Remarque 6. En reprenant la remarque 4 on dira de la mme faon que T est un estimateur
efcace de g() si
Var

T =
[g
/
()]
2
I
n
()
, . (15)
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
f (x
i
; p) = p
x
i
(1p)
1x
i
, p ]0, 1[, x
i
X =0, 1,
71
i.e. X
i
suit une loi de Bernoulli de paramtre p. Dans ce cas la fonction de vraisemblance
est
L(p) =
n

i=1
f (X
i
; p) = p
n

i=1
X
i
(1p)
n
n

i=1
X
i
, p ]0, 1[
et donc

n
=
n

i=1
X
i
est une statistique exhaustive pour p. Il est vident que la statistique
n
suit la loi binomiale
B(n, p). On sait que :
E
n
= np et Var
n
= np(1p),
donc la statistique
p
n
=

X
n
=

n
n
est un estimateur sans biais pour p,
E p
n
= E

X
n
= p et Var p
n
=
p(1p)
n
, p ]0, 1[. (16)
Pour montrer que p
n
est le meilleur estimateur sans biais pour p, calculons la borne inf-
rieure dans lingalit de Rao-Cramer-Frchet. Comme
lnL(p) =
n
ln p+(n
n
)ln(1p),
de (7) et (8) on dduit que
(p) =

p
lnL(p) =

n
p

n
n
1p
, (17)
do on tire que
I
n
(p) = E
2
(p) =E

p
(p) =
n
p(1p)
, p ]0, 1[, (18)
on voit donc que p
n
est un estimateur efcace, puisque
I
n
(p) =
1
Var p
n
. (19)
On va prouver maintenant quil y a un seul estimateur sans biais p
n
pour p, exprim en
termes de la statistique exhaustive
n
, cest--dire quon va montrer que
n
est une statis-
tique exhaustive complte.
Supposons quil existe un autre estimateur p

n
= p

n
(
n
) sans biais pour p,
E
p
p

n
(
n
) = p.
Dans ce cas (
n
) = p
n
p

n
est un estimateur sans biais pour 0 :
E
p
(
n
) = E
p
( p
n
p

n
) = 0, p ]0, 1[,
72
i.e.,
n

m=0
(m)
_
n
m
_
p
m
(1p)
nm
= 0, p ]0, 1[,
do on tire que (m) 0, m0, 1, ..., n, puisque le systme des fonctions 1, t, t
2
, ..., t
n
, ...
forme une base complte. Puisque la statistique
n
est complte, on en dduit que p
n
est
unique, que cest et donc le meilleur estimateur sans biais pour p et quil est efcace.
Supposons quil nous faille estimer p
2
. Comme
Var
n
= E
2
n
(E
n
)
2
= npnp
2
,
on trouve que
E
2
= np+n
2
p
2
np
2
,
et donc
E

2
n
n(n1)
=
p
n1
+ p
2
.
Comme E
n
= np, on obtient que la statistique

n
(
n
1)
n(n1)
(20)
est le meilleur estimateur sans biais pour p
2
, puisquil est exprim en termes de la statistique
exhaustive complte. De la mme faon on peut montrer que
E
_

n
(
n
1) (
n
k +1)
n(n1) (nk +1)
_
= p
k
pour tous les k = 1, 2, ..,n.
Example 2. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
X
i
f (x
i
; ) =

x
i
x
i
!
e

, x
i
X =0, 1, 2, . . ., > 0,
i.e. X
i
suit une loi de Poisson de paramtre .
Comme
L() =
n

i=1
f (X
i
; ) = e
n

i=1
X
i
_
n

i=1
X
i
_
1
, > 0,
du critre de factorisation on dduit que la statistique
T =
n

i=1
X
i
est exhaustive pour , et comme la famille f (x; ) est complte, on en dduit que T est la
statistique exhaustive minimale.
On remarque que dans ce modle la statistique
W(X) =
_
n

i=1
X
i
_
1
73
est auxiliaire.
Il est facile de dmontrer par des calculs directs que
P

X = x[T =t, x = (x
1
, . . . , x
n
)
T
X
n
,
ne dpend pas de . En effet :
P

X = x[T =t =
P

X
1
= x
1
, . . . , X
n
= x
n
, T =t
P

T =t
=
=
_
_
_
P

X = x
P

T =t
, si x X
t
,
0, sinon.
Soit x X
t
=x : x
i
=t. Dans ce cas pour t X
P

X = x[T =t =
P

X = x
P

T =t
=

x
1
x
1
!
e

x
n
x
n
!
e

(n)
t
t!
e
n
=
=
t!
x
1
!x
2
! x
n
!
_
1
n
_
t
.
Donc, la loi conditionnelle de X, sachant T = t, est la loi multinomiale uniforme, qui ne
dpend pas de , quelle que soit la valeur observe t de la statistique exhaustive T =
n

i=1
X
i
.
On considre maintenant le problme de lestimation du paramtre . Pour estimer on
appliquera la mthode du maximum de vraisemblance. Pour trouver

n
= arg

maxL(),
il nous faut rsoudre lquation du maximum de vraisemblance () = 0, puisque
() =

lnL().
Comme
lnL() =n+T ln+lnW(X),
on doit rsoudre lquation
() =n+
T

= 0,
dont la solution

n
est

n
=
1
n
T =
1
n
n

i=1
X
i
=

X
n
.
Comme T suit une loi de Poisson de paramtre n, on obtient immdiatement que
E

n
= et Var

n
=

n
,
i.e.

n
est une suite consistante destimateurs sans biais du paramtre . On va montrer
que

n
est un estimateur efcace, cest--dire quon a lgalit :
Var

n
=
1
I
n
()
.
74
En effet,
I
n
() =E

(),
et comme

() =
T

2
,
on trouve que linformation de Fisher sur dans X est gale
I
n
() =E

() =
1

2
E

T =
n

,
do on tire que
Var

n
=
1
I
n
()
=

n
,
et donc

n
est un estimateur efcace pour . Comme la famille des densits
_

x
x!
e

, > 0
_
est complte, on en dduit que

n
est un estimateur sans biais unique dans la classe des
estimateurs sans biais, exprims en termes de la statistique exhaustive T et

n
est donc le
meilleur estimateur sans biais pour .
Remarque 7. Soit X= (X
1
, ..., X
n
)
T
un vecteur alatoire ayant une distribution discrte dans
R
n
. Notons X =x = (x
1
, ..., x
n
)
T
lespace des ralisations de X dans R
n
, cest--dire que ;
PX = x = p
X
(x) = p(x) > 0, x X R
n
et

xX
PX = x = PX X = 1,
o X est ni ou inni dnombrable, puisque X suit une loi discrte.
Soit T = T(X) une statistique arbitraire, T(x) : X , o = t est lespace des
ralisations de T,
PT = t > 0 pour t .
Pour toute valeur possible t de la statistique T, t , on dtermine son orbite X
t
dans X :
X
t
=x : T(x) = t, x X.
Il est vident que X
t
est une partition de X :

t
X
t
=X et X
t

X
t
/ ,= 0, t, t
/
, t ,= t
/
. (21)
La loi conditionnelle de X sachant que T=t est lensemble des probabilits conditionnelles
p(x [ t) tant donn t x :
p(x [ t) = PX = x [ T(X) = t =
_
_
_
PX=x,T(X)=t
PT(X)=t
=
p(x)

xX
t
p(x)
, si x X
t
,
0, sinon ,
(22)
75
puisque
PX = x, T = t =
_
PX = x = p(x), si x X
t
,
0, sinon .
La famille des probabilits (22) est nie ou innie dnombrable, et on choisit t dans (22)
de faon que PT = t > 0, i.e. t .
Soit U = U(X) une autre statistique, U(x) : X U, telle que EU existe. Daprs la
dnition :
EU = EU(X) =

xX
U(x)p(x). (23)
On dtermine lesprence conditionnelle EU [ T = t sachant que T = t en termes de la
distribution conditionnelle (22) :
EU [ T = t =

xX
t
U(x)p(x [ t) =

xX
t
U(x)p(x)

xX
t
p(x)
. (24)
Nous pouvons considerer EU[ T=t comme une ralisation de la variable alatoire EU[
T quand T = t. Il est facile de prouver que
EEU [ T = EU.
De (21) et (24) il suit que
EEU [ T =

t
EU [ T = tPT = t =

t
EU [ T = t

xX
t
p(x) =

xX
t
U(x)p(x) =

xX
U(x)p(x) = EU,
puisque X
t
est une partition de X. On a donc montr que
EEU [ T = EU, (25)
et par consquent pour calculer EUon peut tout dabord calculer EU[ T=t puis EEU[
T.
Soit X un vecteur alatoire, X R
n
, X F, F F , o F = F est une famille de
fonctions de rpartitions dans R
n
. Soient = (X) et = (X) deux statistiques, :
R
n
R
k
, : R
n
R
k
, telles que
E, E, E
T
, E
T
existent.
Considrons la statistique
= () = E[, R
k
.
76
Il est vident que
E = EE[ = E,
ce qui signie que est un estimateur sans biais de E.
Thorme 1 (Rao-Blackwell-Kolmogorov)
Pour tout z R
k
z
T
E(E)(E)
T
z z
T
E(E)(E)
T
z. (26)
Dmonstration. Notons
= []
T
z = [(E) (E)]
T
z.
Puisque E = 0, nous obtenons
Var = E
2
= E
T
0. (27)
Mais

2
=
T
= z
T
(E)(E)
T
(E)(E)
T

(E)(E)
T
+(E)(E)
T
z,
et par suite de (27), on peut tirer que
0 E
2
= z
T
(Var)z z
T
Cov(, )z
z
T
Cov(, )z +z
T
(Var)z.
(28)
Puisque
Cov(, ) = E(E)(E)
T
=
= EE(E)(E)
T
[ = EE(E)[(E)
T
=
= E(E)(E)
T
= Var, (29)
alors de (27), (28) et (29) on dduit que
0 E
2
= z
T
(Var)z z
T
(Var)z,
ce quil nous fallait dmontrer.
Remarque 8. Si = (X) est un estimateur sans biais dune fonctionnelle g(F), F F ,
alors
= E[
est aussi un estimateur sans biais pour g(F), dont le risque quadratique nest pas plus grand
que celui de . Ce thorme est trs intressant lorsque est une statistique exhaustive.
Exemple 1. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
X p(x; ), R
m
.
Supposons quil existe une statistique exhaustive
T = T(X), T : R
n
R
k
, m k n,
77
dont la densit est g(t; ), t R
k
. Notons q(x, t; ) la densit conjointe de X et T, p(x [ t)
la densit conditionnelle de X sachant T = t. Dans ce cas pour tout x x, x R
n
, p(x[T)
est un estimateur sans biais pour p(x; ). En effet,
Ep(x[T) =

R
k
p(x[t)g(t; )dt =

R
k
q(x, t; )dt = p(x; ).
2.7 Mthode des moments.
La fonction de rpartition F
n
(x) de la loi empirique associe un chantillon X =
(X
1
, ..., X
n
)
T
est un bon estimateur de la fonction de rpartition F(x) :
EF
n
(x) = F(x) = PX
i
x, x R
1
,
et pour tout > 0
P[ F
n
(x) F(x) [> 0, x R
1
lorsque n quel que soit x x. En pratique cela signie que F
n
(x) F(x) pour tout x
x, quand n est assez grand.
Il est donc naturel de choisir les moments

m
=
1
n
n

i=1
X
m
i
=
+

x
m
dF
n
(x)
de la loi empirique F
n
comme estimateurs des moments
a
m
= EX
m
=
+

x
m
dF(x)
de la loi F, puisque
m
a
m
, si F
n
(x) F(x).
Supposons que la fonction de rpartition
F(x; ) = P

X
i
x, [ x [<
dpende dun paramtre inconnu
= (
1
, ...,
s
)
T
R
s
et quexistent les moments
a
r
() =
+

x
r
dF(x; ), r = 1, 2, ..., s.
On cherche un estimateur du paramtre = (
1
, ...,
s
)
T
en rsolvant le systme dqua-
tions :
a
m
() =
m
, (m = 1, 2, ..., s) (1)
78
par rapport
1
, ...,
s
. La solution

n
= (

1
, ...,

n
)
T
de cette quation,

1
=

1
(
1
, ...,
s
),

s
=

s
(
1
, ...,
s
),
sappelle lestimateur par la mthode des moments de .
Si les fonctions (1) dterminent une application bijective, leurs drives partielles existent
et sont continues et les moments a
k
() (k = 1, 2, ..., 2s) existent ; donc les estimateurs ob-
tenus par la mthode des moments sont cohrents et de distributions asymptotiquement nor-
males. Des proprits asymptotiques destimateurs, obtenus par la mthode des moments,
serons considres dans le chapitre III.
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon lognormalle LN(,
2
),
X
i
p(x; ,
2
) =
1
x

2
e

1
2
2
(lnx)
2
1
]0,[
(x), R
1
,
2
> 0.
Remarqons que lnX
i
suit une loi normale N(,
2
). On peut montrer que
a
1
= EX
1
= e
+
2
/2
, a
2
= EX
2
1
= e
2+2
2
.
Daprs la mthode des moments pour estimer et
2
il faut rsoudre le systme
_
e
+
2
/2
=

X
n
=
1
,
e
2+2
2
=
1
n

n
i=1
X
2
i
=
2
,
ce qui est quivalent
_
+
2
/2 = ln
1
,
+2
2
= ln
2
,
do on trouve les estimateurs
2
n
et
n
:

2
n
= ln
2
ln
2
1
= ln
_
s
2
n

X
2
n
+1
_
,
n
= ln

X
2
n
_
s
2
n
+

X
2
n
,
o
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
est la variance de la loi empirique.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
p(x; ) =
1

_
2

exp
x
2
2
2
1
]0,[
(x), x R
1
, =]0, [.
On peut montrer que
EX
1
=
_
2

, EX
2
1
=
2
, VarX
2
1
=
2
2

.
Pour estimer par la mthode des moments on considre lquation

_
2

=

X
n
,
79
do on obtient lestimateur

n
=
_

2

X
n
.
Il est claire que E

n
= , i.e.

n
est un estimateur sans biais pour , et comme
Var

X
n
=

2
n
_
1
2

_
,
on en tire que
Var

n
=

2
Var

X
n
=

2
n
_

2
1
_
=

2
n
2
2
=
2
I
n
()
>
1
I
n
()
,
o
I
n
() =
2n

2
=nE

2

2
ln p(X
1
; ) = nE
_
3

4
X
2
1

2
_
=
2n

2
est linformation de Fisher sur dans X. De la dernire ingalit on voit bien que lestima-
teur

n
nest pas fcace.
Remarque 1. Du thorme limite central il suit que la suite des variables alatoires

n(

n
)

_
2
2
=

n(

X
n

_
2

_
1
2

, n = 1, 2, ...
est asymptotiquement normale N(0, 1), quand n , i.e. pour les grandes valeurs de n
P
_
_
_

n(

n
)

_
2

x
_
_
_
(x), x R
1
.
Du thorme de Slutsky on tire que les variables alatoires

n(

n
)

n
_
2
2
sont asymptotiquement normales N(0, 1) aussi, i.e.
P
_
_
_

n(

n
)

n
_
2
2
x
_
_
_
(x), x R
1
,
si les valeurs de n sont assez grandes.
Nous pouvons utiliser ce rsultat pour estimer par intervalle, puisque
P
_
_
_
x
/2

n(

n
)

n
_
2
2
x
/2
_
_
_
1,
80
o x
/2
est le quantile suprieur de niveau /2 pour la loi standard normale, 0 < < 0.5,
do on tire que
P
_
x
/2
_
2
2n

_
1

n
_
x
/2
_
2
2n
_
1
et donc
P
_

n
_
1 x
/2
_
2
2n
_

n
_
1+ x
/2
_
2
2n
__
1,
si n est assez grand.
2.8 Mthode des moindres carrs. Modle de Gauss de la
thorie des erreurs.
Supposons quon cherche mesurer une constante ; pour cela on fait n mesures di-
rectes x
1
, x
2
, . . . , x
n
de , indpendantes les unes des autres, de mme prcision, sans erreur
systmatique. De chaque rsultat dexprience on tire que

= x
i
, i = 1, 2, . . . , n. (1)
On obtient un systme de n quations, qui sont en gnral incompatibles si les x
i
ne sont
pas tous gaux. Pour cette raison il est logique de traiter x
i
comme une erreur, commise
au cours de la i-me mesure de , et x1
n
comme le vecteur des erreurs que lon a fait au
cours des n expriences organises pour dterminer ; donc
|x1
n
|
2
= (x1
n
)
T
(x1
n
) =
n

i=1
(x
i
)
2
(2)
repsente le carr de la longueur du vecteur des erreurs x1
n
.
Compte tenu du fait que toutes les mesures sont faites dans les mmes conditions, et que par
suite les n quations ont toutes la mme validit pour lexprimentateur, Legendre a pos le
problme de la dtermination dune valeur

R
1
, qui est meilleure que chaque rsultat
individuel x
i
et en mme temps est en meilleur accord, dans un certain sens avec tous les x
i
,
cest--dire, avec le systme dquations (1) qui reprsente les rsultats dexpriences de
mesures du paramtre .
Pour dterminer

, Legendre a propos le principe des moindres carrs, daprs lequel


la valeur de , la plus en accord avec lexprience est donne par la valeur

, qui minimise
|x1
n
|
2
, le carr de la longueur du vecteur des erreurs (x1
n
) , i.e.
(x

1
n
)
T
(x

1
n
) = min
R
1
(x1
n
)
T
(x1
n
). (3)
Ceci justie le nom de la mthode, que lon appelle la mthode des moindres carrs. Par
tradition on dit aussi que

est un estimateur des moindres carrs pour .


Plus tard Gauss a donn une justication logique de la mthode des moindres carrs,
en utilisant un modle classique derreurs de mesures, qui est connu aujourdhui sous le
81
nom de modle de Gauss. Daprs ce modle le rsultat x
i
de la i-me mesure reprsente la
ralisation de la variable alatoire
X
i
= +
i
, i = 1, . . . , n, (4)
o
i
est lerreur alatoire de la i-me mesure,

i
N(0,
2
), (5)
puisque E
i
= 0 par convention (absence derreur systmatique) et
2
= Var
i
> 0 est une
constante ne dpendant pas de i, car chaque mesure a t faite avec la mme prcision.
Gauss a propos de considrer chaque
i
comme une variable alatoire de loi normale ; en
effet selon la thorie des erreurs, dveloppe par Gauss, toute erreur
i
reprsente la somme
dun grand nombre de petites erreurs , quon peut supposer indpendantes ; par suite, on
peut supposer que leur somme est normale, ce qui peut sexpliquer dans le cadre du tho-
rme limite central. De plus on a lindpendance des mesures, do on dduit que dans
le modle de Gauss on peut supposer que
1
, . . . ,
n
sont des variables alatoires indpen-
dantes, et donc que X= (X
1
, . . . , X
n
)
T
est un chantillon normal ; cela signie que X
1
, . . . , X
n
sont des variables alatoires indpendantes qui suivent la mme loi normale de paramtres
et
2
:
X
i
N(,
2
), i = 1, . . . , n; (6)
donc dans le cadre de ce modle le rsultat de lexprience x = (x
1
, . . . , x
n
)
T
est une ra-
lisation dun vecteur alatoire X, de loi normale de dimension n et de paramtres 1
n
et

2
I
n
, X N
n
(1
n
,
2
I
n
),
EX = 1
n
et VarX = E(X1
n
)(X1
n
)
T
=
2
I
n
, (7)
o
2
est une constante positive, qui exprime la prcision des mesures. Nous supposerons
dabord que
2
est connu.
Dans le modle de Gauss le vecteur des observations X peut se reprsent comme la
somme
X = 1
n
+, (8)
dun terme dterministe, mais inconnu, et dun terme alatoire
= (
1
, . . . ,
n
)
T
=X1
n
, (9)
qui suit la loi normale de dimension n et de paramtres
E = 0
n
= (0, . . . , 0)
T
et E
T
=
2
I
n
, (10)
et ce vecteur est le vecteur des erreurs alatoires. Le problme principal dans la tho-
rie des erreurs, labore par Gauss, est la construction du meilleur (en un sens prciser)
estimateur de en utilisant la ralisation x du vecteur des observations X. Pour trouver ce
meilleur estimateur pour , Gauss a propos dutiliser la mthode du maximum de vraisem-
blance, daprs laquelle la valeur qui rend maximum la fonction de vraisemblance L(),
lie au vecteur des observations X, est lestimateur du paramtre inconnu . Daprs le mo-
dle que lon a choisi, le vecteur X suit une loi normale de dimension n et de paramtres
(7) ; donc la fonction de vraisemblance L() est donne par la formule
82
L() = (

2)
n
exp
_

1
2
2
(X1
n
)
T
(X1
n
)
_
=
= (

2)
n
exp
_

1
2
2

_
= (

2)
n
exp
_

1
2

2
n
_
, R
1
, (11)
car

T
=
2

2
n
. (12)
On remarque ici que maximiser la fonction de vraisemblance L(), R
1
, revient
minimiser la fonction (X1
n
)
T
(X1
n
) qui reprsente la fonction de la formule (2),
mais en dautres termes, en termes dobservations. Cest--dire que dans ce cas la mthode
de Legendre et la mthode de Gauss sont quivalentes. Donc L(), R
1
, atteint son
maximum, X tant donn, pour le point

, qui rend minimum la forme quadratique


(X1
n
)
T
(X1
n
) =
T
,
i.e. lestimateur statistique

est la solution du problme extrmal :


(X

1
n
)
T
(X

1
n
) = min
R
1
(X1
n
)
T
(X1
n
), (13)
obtenue pour la valeur =

, qui vrie lquation


(1
T
n
1
n
) = 1
T
n
X, (14)
do on tire que

=

X
n
=
1
n
(X
1
+X
2
+. . . +X
n
) =
1
n
1
T
n
X. (15)
Lestimateur statistique

=

X
n
sappelle lestimateur des moindres carrs ou estima-
teur de Gauss pour . On remarque que
L() = (

2)
n
exp
n
2
2
_
(

X
n
)
2
+
1
n
n

i=1
(X
i


X
n
)
2
_
=
exp
n

2
(

X
n
)
2
W(X);
donc

X
n
est une statistique exhaustive pour . Comme

X
n
R
1
et R
1
, la statistique
exhaustive

X
n
est minimale. De (6) et (7) il suit que

X
n
suit la loi normale N(,
2
/n) de
paramtres
E

X
n
= et Var

X
n
= E(

X
n
)
2
=

n
2
. (16)
Puisque la famille des loi normale N(,
2
) est complte, on en tire que

X
n
est une statistique
exhaustive minimale et complte.

X
n
est un estimateur efcace pour .
Souvent la variance
2
est elle aussi inconnue ; dans ce cas outre lestimateur

X
n
pour
il est trs important dobtenir un estimateur statistique pour
2
. Notons
= (,
2
)
T
, = :[ [< ,
2
> 0 R
2
.
83
Pour estimer on considre la statistique
=X

1
n
= (X

X
n
1
n
) = (X1
n
) +(

)1
n
= +(

)1
n
, (17)
qui sappelle le vecteur des erreurs apparentes. Il est vident que la statistique suit la loi
normale N
n
(0
n
,
2
D
n
), qui est dgnre et o
D
n
= I
n

1
n
1
n
1
T
n
, (18)
avec I
n
, matrice identit dordre n. On remarque que D
n
est une matrice idempotente,
puisque
rangD
n
= n1 et D
T
n
D
n
= D
n
D
T
n
= D
n
. (19)
De (9) et (17) on tire lgalit
= (

)1
n
+, (20)
que lon appelle la dcomposition orthogonale du vecteur des erreurs alatoires en termes
de

et . On remarque que

T
=
T
+(

)1
T
n
1
n
(

) =
T
+n(

X
n
)
2
=
=
n

i=1
(X
i


X
n
)
2
+n(

X
n
)
2
= n[s
2
n
+(

X
n
)
2
], (21)
o la statistique s
2
n
est dtermine par la formule
s
2
n
=
1
n
X
T
D
n
X =
1
n
n

i=1
(X
i


X
n
)
2
. (22)
Comme = (,
2
)
T
, il vaut mieux crire que la fonction de vraisemblance de X est L() =
L(,
2
). En utilisant (11),(13), (21) et (22), nous pouvons prsenter L(,
2
) en termes des
statistiques s
2
n
et

X
n
par la formule suivante
L(X; ,
2
) = (

2)
n
exp
_

1
2
2

_
=
= (

2)
n
exp
_

n
2
2
[s
2
n
+(

X
n
)
2
]
_
, (23)
do on tire que la statistique T =
_

X
n
, s
2
n
_
T
est exhaustive. On peut montrer que T est
minimale et complte.
Pour tudier les proprits de T on considre, par exemple, la transformation linaire
Y = CX de Helmert, dtermine par la matrice orthogonale C,
C
T
C = CC
T
= I
n
, C
T
= C
1
,
C =
_
_
_
_
_
_
_
_
_
_
_
_
_
1

12
1

12
0 0 0 0
1

23
1

23
2

23
0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1

(n1)n
1

(n1)n
1

(n1)n
1

(n1)n

1

(n1)n
(n1)

(n1)n
1

n
1

n
1

n
1

n

1

n
1

n
_
_
_
_
_
_
_
_
_
_
_
_
_
.
84
Daprs cette transformation Y = (Y
1
, ...,Y
n
)
T
, o
Y
1
=
1

12
(X
1
X
2
),
Y
2
=
1

23
(X
1
+X
2
2X
3
),
.
.
.
Y
n1
=
1

(n1)n
(X
1
+X
2
+... +X
n1
(n1)X
n
),
Y
n
=
1

n
(X
1
+X
2
+... +X
n
) =

n

X
n
,
et comme C est orthogonale on a
n

i=1
X
2
i
=
n

i=1
Y
2
i
; (24)
la fonction de vraisemblance de Y est donc donne par la formule :
L(Y; ,
2
) =
_

2
_
n
exp
1
2
2
_
n1

i=1
Y
2
i
+(Y
n

n)
2
_
=
1

2
exp
1
2
2
_
Y
n

n
_
2

_
1

2
_
n1
n1

i=1
exp
1
2
2
Y
2
i
,
puisque
p
Y
(y) = p
X
(C
1
y)[ det C
1
[ = p
X
(C
1
y) =
=
1
(

2)
n
exp
_

1
2
2
(C
T
y1
n
)
T
(C
T
y1
n
)
_
=
=
1
(

2)
n
exp
_

1
2
2
(|y|
2
2y
n

n+n
2
)
_
=
=
1
(

2)
n
exp
_

1
2
2
_
n1

i=1
y
2
i
+(y
n

n)
2
__
,
C1
n
= (0, ..., 0,

n)
T
et y
T
C1
n
= y
n

n,
do on tire que Y
1
,Y
2
, ...,Y
n
sont indpendantes et
Y
i
N(0,
2
), i = 1, ..., n1; (25)
Y
n
N(

n,
2
). (26)
Notons que de (24) il suit que
ns
2
n
=
n

i=1
(X
i


X
n
)
2
=
n1

i=1
Y
2
i
,
donc s
2
n
ne dpend pas de Y
n
=

n

X
n
, et par consquent, s
2
n
et

X
n
sont indpendantes. En
plus , de (24), (25) et (26) on tire que

X
n
N(,

2
n
) et
ns
2
n

2
=
2
n1
, (27)
85
donc que la statistique s
2
n
est distribue comme
2

2
n1
/n, o
2
f
est une variable alatoire
qui suit la loi du chi-deux f dgrs de libert, f > 0, i.e. pour tout x 0
P
2
f
x =
2
f /2

_
f
2
_
x

0
t
f
2
1
e
t/2
dt.
Comme
E
2
f
= f et Var
2
f
= 2f , (28)
de (27) et (28) on tire que
Es
2
n
=
2
_
1
1
n
_
et Vars
2
n
=
2
4
(n1)
n
2
. (29)
On peut vrier que dans notre problme lestimateur de maximum de vraisemblance

n
pour est

n
= T = (

X
n
, s
2
n
)
T
.
En effet, on a
lnL(X; ,
2
) =nln

2
n
2
ln
2

n
2
2
s
2
n

n
2
2
(

X
n
)
2
,
lnL

=
n

2
(

X
n
) ) et
lnL

2
=
n
2
2
+
ns
2
n
2
4
+
n
2
4
(

X
n
)
2
,
donc pour trouver
n
et
2
n
, il faut rsoudre le systme
_
lnL

= 0,
lnL

2
= 0.
De la premire quation du systme on tire que

n
=

X
n
,
et de la deuxime on tire que

2
n
= s
2
n
,
do on obtient que

n
= (

X
n
, s
2
n
)
T
est lestimateur de maximum de vraisemblance pour
= (,
2
)
T
.
Dun autre ct comme de (29) on tire que
S
2
n
=
n
n1
s
2
n
=
1
n1
n

i=1
(X
i


X
n
)
2
(30)
est un estimateur sans biais pour
2
.
On peut montrer que la statistique

n
= (

X
n
, S
2
n
)
T
est le meilleur estimateur sans biais
(au sens de minimum de variance) pour = (,
2
)
T
.
2.9 Rgions, intervalles, limites de conance.
Dans ce paragraph nous allons suivre les articles de Bolshev (1965) et de Bagdona-
vi cius, Nikoulina & Nikulin (1997).
86
Soit X = (X
1
, . . . , X
n
)
T
un chantillon, dont les ralisations x = (x
1
, . . . , x
n
)
T
appar-
tiennent X R
n
, x X R
n
,
H
0
: X
i
f (x; ), = (
1
, . . . ,
k
)
T
R
k
.
On sintresse un problme destimation de la vraie valeur b = b() dune fonction b() :
B R
m
au point , . Notons B
0
lintrieur de B.
Dnition 1. On appelle rgion de conance pour b = b() de coefcient de conance
(0.5 < < 1) ou -rgion de conance tout court, un ensemble alatoire C(X), C(X)
B R
m
, tel que
inf

C(X) b() = .
De cette dnition on tire
P

C(X) b() ,
pour tous .
Dans le cas o b() B R
1
la rgion de conance est souvent un intrvalle dans R
1
,
C(X) =]b
i
(X), b
s
(X)[ B R
1
,
et on parle de lintervalle de conance du coefcient de conance pour b, si
inf

b
i
(X) < b < b
s
(X) = .
Il est vident que
P

b
i
(X) < b < b
s
(X)
pour tous . Les statistiques b
i
(X) et b
s
(X) sont appeles les limites de lintervalle de
conance C(X). On remarque que
P

b
i
(X) b
s
(X) = 1.
Remarque 1. Supposons quon prenne un grand nombre dchantillons X
1
, . . . , X
N
et que
chaque fois on construise un intervalle de conance ]b
i
(X
i
), b
s
(X
i
)[ du coefcient de conance
. Soit ]b
i
(x
i
), b
s
(x
i
)[ une ralisation de ]b
i
(X
i
), b
s
(X
i
)[; i = 1, . . . , N. Dans ce cas la vraie
valeur b sera recouverte par ces intervalles ]b
i
(x
i
), b
s
(x
i
)[ au moins dans 100% des cas.
Souvent on prend 0.9.
Denition 2. Une statistique b
i
(X)(b
s
(X)) est appele la limite infrieure (suprieure) de
conance pour b = b() de coefcient de conance
1
(
2
), si
inf

b
i
(X) < b =
1
_
inf

b
s
(X) > b =
2
_
, 0.5 <
j
< 1.
Les statistiques b
i
(X) et b
s
(X) sont appeles aussi
1
- limite infrieure et
2
- limite su-
prieure tout court. Si les coefcients de conance de b
i
(X) et b
s
(X) sont gaux
1
et

2
respectivement, dans ce cas ]b
i
(X), b
s
(X)[ est lintervalle de conance du coefcient de
conance
=
1
(1
2
) =
1
+
2
1
87
pour la vraie valeur de b = b().
Dnition 3. Les intervalles
]b
i
(X), +[ et ] , b
s
(X)[
sont appels intervalles de conance suprieur et infrieur pour b. Tous les deux sont des
intervalles unilatraux.
2.10 Mthode de Bolshev de construction des limites de
conance.
Lemme (Bolshev (1965)) Soit G(t) la fonction de rpartition dune variable alatoire T.
Dans ce cas pour tout z [0, 1]
PG(T) z z PG(T 0) < z. (1)
Si T est continue, alors
PG(T) z = z, 0 z 1.
Dmonstration. On va dabord montrer que
PG(T) z z, 0 z 1. (2)
Si z = 1, on a PG(T) 1 1. Fixons z [0, 1) et pour cette valeur de z on considre les
situations diffrentes.
1) Il existe une solution y de lquation G(y) = z. Notons
y
0
= supy : G(y) = z.
On peut avoir :
a)G(y
0
) = z. Dans ce cas on a
PG(T) z PT y
0
= G(y
0
) = z.
b) G(y
0
) > z. Dans ce cas on a
PG(T) z PT < y
0
= G(y
0
0) z.
2) Il nexiste pas de solution pour lequation G(y) = z. Mais dans ce cas il existe y tel que
G(y) > z et G(y 0) < z,
do on tire que
PG(T) z PT < y = G(y 0) < z.
Donc lingalit (2) est dmontre.
Dmontrons maintenant la seconde ingalit dans (1) :
88
z PG(T 0) < z, 0 z 1. (3)
Considrons la satistique T. Sa fonction de rpartition est
G

(y) = PT y = PT y = 1G(y 0.
Appliquons lingalit (2) en remplaant
T, z, G par T, 1z et G

respectivement :
PG

(T) 1z 1z, 0 z 1,
do on obtient que
P1G(T 0) 1z 1z,
PG(T 0) z 1z,
PG(T 0) < z z, 0 z 1.
Si T est continue, dans ce cas G(t 0) = G(t), et donc (2) et (3) nous donnent PG(T)
z = z pour tout z [0, 1].
Le Lemme de Bolshev est dmontr.
Thoreme. Supposons que lon ait une variable alatoire T = T(X, b), b B, telle que sa
fonction de rpartition
G(t, b) = P

T t
ne dpende que de b pour tous t R et que les fonctions
I(b, x) = G(T(x, b) 0, b) et S(b, x) = G(T(x, b), b)
soient dcroissantes et continues par rapport b pour tout x x, x X. Dans ce cas 1) la
statistique b
i
(X),
b
i
= b
i
(X) = supb : I(b, X) , b B, si le supremum existe,
sinon
b
i
= b
i
(X) = inf B
est la limite infrieure de conance pour b B
0
du coefcient de conance suprieur o
gal ;
2) la statistique b
s
(X) est une limite suprieure de conance pour b B
0
du coefcient de
conance suprieur o gale :
b
s
= b
s
(X) = inf b : S(b, X) 1, b B, si le inmum existe,
sinon
b
s
= b
s
(X) = supB,
89
3) si x, x X, est telle que les fonctions I(b, x) et S(b, x) sont strictement dcroissantes par
rapport b, alors b
i
(x) et b
s
(x) sont les racines des quations
I(b
i
(x), x) = et S(b
s
(x), x) = 1.
Dmonstration. Notons D = D(X) lvnement suivant
D =il existe btel que I(b, X) .
Alors pour la vrai valeur b B
0
on a
Pb
i
< b = P(b
i
< b)

D+P(b
i
< b)


D =
P((supb

: I(b

, X) , b

B) < b)

D+P
_
(inf B < b)


D
_
=
= P(I(b, X) < )

D+P

D P(I(b, X) < )

D+P(I(b, X) < )


D =
= PI(b, X) < ,
daprs le Lemme de Bolshev. Le thorme est dmontr.
Remarque 1. Si est unidimensionnel, les variables aleatoires X
i
sont continues et la
fonction F(x; ) est monotone et continue en , on peut prendre
T(X; ) =2
n

i=1
lnF(X
i
; ).
Daprs le lemme de Bolshev F(X
i
; ) U(0; 1), donc
2lnF(X
i
; ) =
2
2
, i = 1, . . . , n,
et comme X
1
, . . . , X
n
sont indpendantes
T(X; ) =
2
2n
.
Notons G
2n
(x) = P
2
2n
x. Alors,
I(; X) = S(; X) = G
2n
(T(X; )) = G
2n
_
2
n

i=1
lnF(X
i
; )
_
.
Si les fonctions I et S sont strictement dcroissantes (ou croissantes) en , alors daprs
le thorme de Bolshev on a
2
n

i=1
lnF(X
i
; ) =
2

(2n) (ou
2
1
(2n)),
2
n

i=1
lnF(X
i
; ) =
2
1
(2n) (ou
2

(2n)).
Remarque 2. Soit

n
, n N

, une suite destimations,

n
: R
n
, du paramtre =
(
1
, . . . ,
m
)
T
R
m
, telle que

n(

n
)
L
N(0
m
, ), n .
90
Soit g une fonction borlienne, g : R
m
R
1
, differentiable en . Alors

n[g(

n
) g()]
L
N(0, grad
T

grad

g), n .
En particulier, si m = 1,

n
: R
n
R
1
, et g : R
1
R
1
,

n[g(

n
) g()]
L
N(0,
2
[g
/
()]
2
), n ,
alors

n[g(

n
) g()]
L
N(0,
2
[g
/
()]
2
), n .
On emploie trs souvent des mthodes asymptotiques pour la construction des inter-
valles de conance.
Remarque 3. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
F(x; ) = PX
i
x, = (
1
, . . . ,
m
)
T
R
m
.
Sous des conditions trs gnrales lestimateur de maximumde vraisemblance

n
= (

1
, . . . ,

n
)
est asymptotiquement efcace et normal avec les parametres et I() :

n
AN(, I
1
()),
o I() est la matrice dinformation de Fisher de X.
Soit b : R
m
R
1
une fonction differentiable, alors

b
n
= b(

n
) = b(

1
, . . . ,

m
) un esti-
mateur de paramtre b = b(
1
, . . . ,
m
), et

b
n
AN(b,
2
b
()), o

2
b
() = [grad

b()]
T
I
1
() grad

b(),
i.e.
(

b
n
b)/
2
b
(

n
) AN(0, 1).
Donc on peut prendre
T(b, X) = (

b
n
b)/
2
b
(

n
).
Les fonctions
I(b; X) = S(b; X) = ((

b
n
b)/
2
b
(

n
))
sont dcroissantes en b et daprs le thorme de Bolshev les galits
((

b
n
b)/
2
b
(

n
)) = , ((

b
n
b)/
2
b
(

n
)) = 1
implique
b =

b
n
z

2
b
(

n
); b =

b
n
+z

2
b
(

n
),
o z

est -quantile de la loi normale standard. On peut noter que asymptotiquement (b, b)
est le plus court intervalle de conance de niveau donn.
91
2.11 Thorme de Fisher.
Dans ce paragraph nous alons rsumer les proprits principales des estimateurs

X
n
, S
2
n
et s
2
n
.
Thorme de Fisher. Soit X = (X
1
, ..., X
n
)
T
un chantillon normal de paramtres et
2
:
X
i
N(,
2
). Dans ce cas la statistique

n
= (

X
n
, S
2
n
)
T
est exhaustive minimale et complte,

X
n
et S
2
n
sont indpendantes,

X
n
N
_
,

2
n
_
,
(n1)

2
S
2
n
=
2
n1
,
et la variable alatoire

n

X
n

S
n
=t
n1
suit la loi de Student n 1 degr de libert. Lestimateur

n
est le meilleur estimateur
sans biais pour = (,
2
)
T
.
Remarque 1. On note quune variable alatoire t
f
suit la loi de Student f degres de
libert, f > 0, si pour tout x R
1
S
f
(x) = Pt
f
x =

_
f +1
2
_

f
_
f
2
_
x

_
1+
t
2
f
_

f +1
2
dt =

s
f
(t)dt.
Exemple 1. Etudions ici quelques proprits de la statistiques

n
= (

X
n
, S
2
n
)
T
. On sait que
E

n
= = (,
2
)
T
, o

X
n
et S
2
n
sont les estimateurs sans biais de et
2
respectivement.
Nous savons aussi que

X
n
N(,

2
n
), (1)
par suite
E


X
n
= , Var


X
n
=

2
n
. (2)
Dautre part on a
n1

2
S
2
n
=
2
n1
, (3)
E

S
2
n
=
2
, Var

S
2
n
=
2
4
n1
. (4)

n
est-il un estimateur efcace pour = (,
2
)
T
?
La fonction de vraisemblance de X
j
est :
L
j
() =
1

_
X
j

_
=
1

2
exp
_

(X
j
)
2
2
2
_
(5)
et le vecteur informant
j
() de lobservation X
j
est :

j
() =
_
lnL
j
()

,
lnL
j
()

2
_
T
=
_
X
j

2
,
(X
j
)
2
2
4

1
2
2
_
T
. (6)
92
Nous pouvons donc en dduire linformation de Fisher i() sur pour une observation X
j
:
i() = E
j
()
T
j
() =
= E

_
_
_
_
_
_
_
_
(X
j
)
2

4
(X
j
)
3
2
6

X
j

2
4
(X
j
)
3
2
6

X
j

2
4
(X
j
)
4
4
8

(X
j
)
2
2
6
+
1
4
4
_
_
_
_
_
_
_
_
=
=
_
_
_
_
_
_
_
1

2
0
0
3
4
4

1
2
4
+
1
4
4
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
1

2
0
0
1
2
4
_
_
_
_
_
_
_
. (7)
Linformation de Fisher I
n
() sur dans X est :
I
n
() = ni() =
_
_
_
_
_
_
_
n

2
0
0
n
2
4
_
_
_
_
_
_
_
, (8)
par suite
I
1
n
() =
_
_
_
_
_
_
_
_

2
n
0
0
2
4
n
_
_
_
_
_
_
_
_
. (9)
On doit donc avoir (daprs lingalit de Rao-Cramer-Frechet) pour tous les estimateurs
sans biais

et
2
de et
2
:
Var


2
n
et Var

2
4
n
. (10)
On voit que lestimateur
n
=

X
n
est efcace pour . Par contre :
Var

S
2
n
=
2
4
n1
>
2
4
n
, (11)
donc
2
= S
2
n
nest pas efcace pour
2
, donc

n
= (
n
, S
2
n
)
T
nest pas un estimateur ef-
cace du paramtre = (,
2
)
T
. Nous allons cependant montrer que

n
= (
n
, S
2
n
)
T
est le
meilleur estimateur sans biais pour , parce que cest celui de variance minimum parmi tous
les estimateurs sans biais de . Pour le montrer il suft de montrer quil ny a pas daure
estimateur sans biais de
2
meilleur que S
2
n
. Supposons quon ait
2
=
2
(X) estimateur
sans biais de
2
, E

2
. Soit =
2
S
2
n
. Il est clair que
E

0, (12)
= (X) est un autre estimateur sans biais de 0. Puisque

n
est exhaustive, on peut crire
lgalit prcdente sous la forme :
1
(

2)
n

R
n
(X)exp
_

1
2
2
_
n(

X
n
)
2
+(n1)S
2
n

_
dX
1
dX
2
dX
n
0. (13)
93
En drivant (13) par rapport , on a
1
(

2)
n

R
n
(X)exp
_

1
2
2
_
n(

X
n
)
2
+(n1)S
2
n

2
(

X
n
)dX
1
dX
2
dX
n
0,
puis nouveau en drivant par rapport , on obtient :
1
(

2)
n

R
n
(X)exp
_

1
2
2
_
n(

X
n
)
2
+(n1)S
2
n

_
n
2

4
(

X
n
)
2

2
_
dX
1
dX
2
dX
n
0,
i.e.,
E

(X)(X
n
) 0, (14)
et donc (X) et

X
n
ne sont pas correles. De la mme faon on peut montrer que
E

_
(X)S
2
n
_
0, (15)
i.e., (X) et S
2
n
ne sont pas correles non plus. Mais par ailleurs :

2
= +S
2
n
, (16)
do
Var


2
= Var

+Var

S
2
n
Var

S
2
n
. (17)
Cela signie que la variance de S
2
n
est minimale dans la classe de tous les estimateurs sans
biais de
2
, et donc S
2
n
est le meilleur estimateur de
2
dans ce sens.
On peut obtenir le mme rsultat sur la compltude de

n
en utilisant le thorme de
Lehmann-Scheff.
Example 2. Soit X
n
= (X
1
, ..., X
n
)
T
un chantilon,
X
i
N(, 1), [ [< ,
i.e. X
i
suit une loi normale de paramtres
= EX
i
et 1 = VarX
i
.
Comme X
1
, . . . , X
n
sont indpendantes, on peut aussi dire que X
n
suit la loi normale de
dimension n :
X
n
N
n
(1
n
, I
n
),
o 1
n
= (1, . . . , 1)
T
R
n
, I
n
est la matrice identit dordre n, et
EX
n
= 1
n
, VarX
n
= I
n
.
La densit de X
n
est
p
X
n
(x; ) =
1
(2)
n/2
exp
_

1
2
(x 1
n
)
T
(x 1
n
)
_
=
94
=
1
(2)
n/2
exp
_

1
2
n

i=1
(x
i
)
2
_
, x = (x
1
, . . . , x
n
)
T
R
n
, (18)
et donc la fonction de vraisemblance L() de X
n
est
L() =
1
(2)
n/2
exp
_

1
2
n

i=1
(X
i
)
2
_
, R
1
.
Considrons la statistique

X
n
=
1
n
n

i=1
X
i
=
1
n
1
T
n
X
n
.
Comme
L() =

2
exp
_

n
2
(

X
n
)
2
_
1

n(2)
(n1)/2
exp
_

1
2
n

i=1
(X
i


X
n
)
2
_
, (19)
du critre de factorisation de Neyman-Fisher il suit que

X
n
est une statistique exhaustive
minimale pour . Il est evident que

X
n
N(,
1
n
). Soit
W
n
= (X
1


X
n
, X
2


X
n
, . . . , X
n


X
n
)
T
=X
n


X
n
1
n
=
X
n
1
n

X
n
=X
n

1
n
1
n
1
T
n
X
n
= (I
n

1
n
1
n
1
T
n
)X
n
= D
n
X
n
, (20)
o
D
n
= I
n

1
n
1
n
1
T
n
.
On note que la matrice D
n
est idempotente, c.a.d. :
D
T
n
D
n
= D
n
D
T
n
= D
2
n
= D
n
,
et que D
n
1
n
= 0
n
. La formule (20) montre que la statistique W
n
est le rsultat dune trans-
formation linaire de X
n
, W
n
= D
n
X
n
, et donc on constate que la statistique W
n
suit une
loi normale dans R
n
dont la fonction caractristique est
f
W
n
(t) = exp
1
2
t
T
D
n
t, t R
n
, (21)
puisque
EW
n
= D
n
EX
n
=
_
I
n

1
n
1
n
1
T
n
_
1
n
= 1
n
1
n
= 0
n
et
VarW
n
= EW
n
W
T
n
= ED
n
X
n
X
T
n
D
T
n
= D
n
[I
n
+
2
1
n
1
T
n
]D
T
n
=
= D
n
I
n
D
T
n
= D
n
D
T
n
= D
n
,
On peut remarquer que la loi de la statistique W
n
ne dpend pas de paramtre . Cest la
raison pour laquelle on dit que W
n
est une statistique libre, ce qui signie que W
n
napporte
pas dinformation sur . Toute information sur conserve la statistique exhaustive minimale

X
n
.
95
Nous allons montrer que les statistiques

X
n
et W
n
sont indpendantes. Pour cela il nous
faudra tudier plus attentivement la rpartition de W
n
. Notons
W
i
= X
i


X
n
, i = 1, . . . , n.
Il est facile de vrier que detD
n
= 0, do on dduit que la loi de W
n
est dgnre, ce qui
explique la dpendance linaire entre W
1
, ...,W
n
:
n

i=1
W
i
= 0, donc W
n
=(W
1
+ +W
n1
).
Considrons maintenant la statistique U
n1
= (W
1
, ...,W
n1
)
T
. On remarque que
EU
n1
= 0
n1
,
et sa matrice de covariance B
n1
est la matrice D
n
sans la dernire ligne ni la dernire
colonne. Par un calcul direct, on peut montrer que
detB
n1
=
1
n
, i.e. rangB
n1
= rangD
n
= n1,
et donc avec une probabilit 1 la rpartition de W
n
est concentre dans R
n1
.
On remarque que
B
1
n1
=
_
_
_
_
_
_
_
_
_
_
_
2 1 1 . . . 1
1 2 1 . . . 1
1 1 2 . . . 1
.
.
.
1 1 1 . . . 2
_
_
_
_
_
_
_
_
_
_
_
n1,n1
et detB
1
n1
= n. De ces rsultats il suit que la statistique U
n1
= (W
1
, . . . ,W
n1
)
T
suit une
loi normale N
n1
(0
n1
, B
n1
), dont la densit
p
U
n1
(u), u = (u
1
, . . . , u
n1
)
T
R
n1
,
est donne par la formule
p
U
n1
(u) =
1

det B
n1
(2)
(n1)/2
exp
_

1
2
u
T
B
1
n1
u
_
=
=

n
(2)
(n1)/2
exp
_
_
_

1
2
_
_
n1

i=1
u
2
i
+
_
n1

i=1
u
i
_
2
_
_
_
_
_
, u R
n1
. (22)
Maintenant, il est facile de montrer que U
n1
et

X
n
sont indpendantes. En effet, consid-
rons la statistique
Y = (Y
1
,Y
2
, . . . ,Y
n1
,Y
n
)
T
=CX
n
,
o
C =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1
1
n

1
n

1
n

1
n

1
n

1
n
1
1
n

1
n

1
n

1
n

1
n

1
n
1
1
n

1
n

1
n
.
.
.

1
n

1
n

1
n
1
1
n

1
n
1
n
1
n
1
n

1
n
1
n
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
,
96
et donc
Y
n
=

X
n
, et Y
j
=W
j
= X
j


X
n
, j = 1, . . . , n1, (23)
do il suit que
X =C
1
Y, o C
1
=
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0 1
0 1 0 . . . 0 1
.
.
.
0 0 0 . . . 1 1
1 1 1 . . . 1 1
_
_
_
_
_
_
_
_
_
_
_
et donc
X
i
=Y
i
+Y
n
, i = 1, . . . , n1,
et
X
n
= nY
n

n1

i=1
X
i
=Y
n

n1

i=1
Y
i
.
Pour trouver la densit p
Y
(y; ) de la statistique Y on remarque que et
J = detC
1
= det
_
_
_
_
x
i
y
j
_
_
_
_
= n,
et donc de (18) on obtient que
p
Y
(y; ) = p
X
n
(C
1
y; )[detC
1
[ =

2
exp
_

n
2
(y
n
)
2
_

n
(2)
(n1)/2
exp
_
_
_

1
2
_
_
n1

i=1
y
2
i
+
_
n1

i=1
y
i
_
2
_
_
_
_
_
. (24)
De (19) et (24) il suit que

X
n
et U
n1
= (X
1


X
n
, . . . , X
n1


X
n
)
T
sont indpendantes.
Comme
1
T
n
W
n
=
n

i=1
(X
i


X
n
) = 0,
on tire que
X
n


X
n
=
n1

i=1
(X
i


X
n
),
i.e. X
n


X
n
est une statistique de U
n1
, qui est indpendante de

X
n
, et donc

X
n
et W
n
=
(X
1


X
n
, X
2


X
n
, . . . , X
n


X
n
)
T
sont indpendantes.
On remarque quon peut obtenir le mme rsultat par calcul direct de la fonction carac-
tristique
V
(t), t R
n+1
, de la statistique
V = (W
n
,

X
n
) = (X
1


X
n
, ..., X
n


X
n
,

X
n
)
T

V
(t) = Eexp
_
i
_
n

i=1
t
i
(X
i


X
n
) +t
n+1

X
n
__
.
97
Exemple 3. Soit X = (X
1
, ..., X
n
)
T
un chantilon,
X
i
N(,
2
), [ [< ,
2
> 0.
La fonction de vraisemblance L(,
2
) de X est
L(,
2
) = p(X; ,
2
) =
1

n
(2)
n/2
exp
1
2
2
n

i=1
(X
i
)
2
=
1

n
(2)
n/2
exp
1
2
2
_
n

i=1
X
2
i
2
n

i=1
X
i
+n
2
_
. (25)
On voit que la statistique
T = T(X) =
_
n

i=1
X
i
,
n

i=1
X
2
i
_
T
est exhaustive et minimale pour (,
2
)
T
.
Soit
X
t
=x : T(x) = t = (t
1
, t
2
)
T
, x R
n
.
Notons c
t
= c
t
(,
2
) la valeur de la densit p(x; ,
2
) sur cet ensemble. Dans ce cas la loi
conditionnelle de X sachant T(X) = t est uniforme sur X
t
. En effet, pour tout x X
t
on a
p
X
(x [ T(X) = t; ,
2
) =
p
X
(x; ,
2
)

X
t
p
X
(x; ,
2
)dx
=
c
t
c
t
mesX
t
=
1
mesX
t
= const. (26)
Considrons la statistique Z
n
= (Z
1
, ..., Z
n
)
T
, o
Z
j
=
X
j


X
n
S
n
, j = 1, ..., n, (27)

X
n
=
1
n
n

i=1
X
i
, S
2
n
=
1
n1
X
T
D
n
X =
1
n1
n

i=1
(X
i


X
n
)
2
. (28)
Comme les statistiques T et U = (

X
n
, S
2
n
)
T
sont quivalentes, on remarque que de (26) et
(28) il suit que si U est xe, dans ce cas X suit la loi uniforme sur lintersection de deux
surfaces donnes par les quations :
1
S
2
n
n

i=1
(X
i


X
n
)
2
= n1 et
1
S
n
n

i=1
(X
i


X
n
) = 0,
ce qui reprsente la sphre de dimension n 1 avec le centre au point

X
n
1
n
et de rayon

n1S
n
dans R
n
, et par consquent on en tire que si U est x, la loi de Z
n
est uniforme
sur lintersection des deux surfaces donnes par les quations :
n

i=1
Z
2
i
= n1 et
n

i=1
Z
i
= 0,
98
ce qui reprsente la sphre de dimension de n1 de rayon

n1 dans R
n
dont la surface
ne dpend pas de U et par consquent, on obtient que la loi conditionnelle de Z
n
ne dpend
pas de U = (

X
n
, S
2
n
), donc les statistiques Z
n
et (

X
n
, S
2
n
) sont indpendantes. Comme

X
n
et
S
2
n
sont indpendantes il sensuit que les trois statistiques Z
n
,

X
n
et S
2
n
sont indpendantes.
Exemple 4. Supposons quaux moments t = 0, 1, ..., n nous observons un objet A qui se d-
place uniformment avec une vitesse constante et inconnue , > 0. Soit s(t) la distance
parcourue par cet objet A aux moments t = 0, 1, ..., n; n 1. Si toutes les mesures taient
correctes on aurait
s(k) = k, pour tout k = 0, 1, 2, ..., n,
(on suppose que s(0) = 0).
Supposons que lexprience soit organise de manire quil ny ait pas derreurs systma-
tiques ; il y a cependant des erreurs de mesure qui sont normales et indpendantes et qui
saccumulent chaque moment de mesure.
En supposant que toutes les erreurs de mesure ont la mme variance
2
, trouvons les
meilleurs estimateurs sans biais pour et
2
.
Tout dabord supposons que
s = (s
0
, s
1
, ..., s
n
)
T
, o s
0
= s(0), s
1
= s(t
1
), ..., s
n
= s(t
n
),
est une ralisation dun vecteur alatoire S = (S
0
, S
1
, ..., S
n
)
T
dont les coordonnes S
i
selon
le modle physique sont des variables alatoires telles que
S
0
=
0
, S
1
= +
1
, S
2
= 2+
1
+
2
, ..., S
n
= n+
1
+... +
n
,
o toutes les erreurs de mesures
0
,
1
, ...,
n
sont indpendantes et suivent la mme loi
normale N(0,
2
). Dans ce cas la fonction de vraisemblance du vecteur des erreurs =
(
0
,
1
, ...,
n
)
T
est
L(; ,
2
) = (2)
(n+1)/2

(n+1)
exp
_

1
2
2
n

i=0

2
i
_
.
Soit
L
i1
= S
i
S
i1
(i = 1, 2, ..., n), o S
0
=
0
.
Alors

i
= L
i1
pour i = 1, 2, ..., n,
et la fonction de vraisemblance de la statistique S est
L(S; ,
2
) = (2)
(n+1)/2

(n+1)
exp
_

1
2
2

2
0

1
2
2
n

i=1
(L
i1
)
2
_
=
= (2)
(n+1)/2

(n+1)
exp
_

1
2
2
_

2
0
+
n

i=1
(L
i1

L
n
)
2
+n(

L
n
)
2
__
,
o

L
n
=
1
n
n

i=1
L
i1
,
99
on en tire donc que
U =
_

L
n
,
2
0
+
n

i=1
(L
i1

L
n
)
2
_
T
est une statistique exhaustive pour (,
2
)
T
. Il est vident, que la statistique
T
n
=
2
0
+
n

i=1
(L
i1

L
n
)
2
est distribue comme la variable alatoire
2

2
n
, et on en dduit que
E
_
T
n
n
_
=
2
et E

L
n
= .
Comme la famille des distributions normales est complte, la statistique exhaustive U est
donc complte et on en dduit que

L
n
=
1
n
n

i=1
L
i1
=
1
n
n

i=1
(S
i
S
i1
)
et
T
n
n
=
1
n
_
S
2
0
+
n

i=1
[(S
i
S
i1
)

L
n
]
2
_
sont les estimateurs sans biais uniques qui sexpriment en fonction de la statistique exhaus-
tive U et par consquent ils sont les meilleurs estimateurs sans biais pour et
2
.
2.12 Intervalle de conance pour la moyenne dune loi
normale
Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
N(,
2
), [[ < ,
2
> 0.
Considrons ici le problme destimation des paramtres et
2
par intervalles. Nous sa-
vons que la variable alatoire
t
n1
=

n

X
n

S
n
=

n1

X
n

s
n
suit la loi de Student f = n1 degrs de libert
Pt
f
t = S
f
(t).
On donne ici quelques valeurs de S
f
(t) :
f 3 4 6 8 16 52
t 2.3534 2.1318 1.9432 1.8595 2.1199 2.0024
S
f
(t) 0.9500 0.9500 0.9500 0.9500 0.9750 0.9750
100
Nous pouvons trouver pour chaque , 0 < < 0.5, les valeurs t
n1
() et t
n1
() telles
que
_
Pt
n1
t
n1
() = S
n1
(t
n1
()) = ,
Pt
n1
t
n1
() = S
n1
(

t
n1
()) = 1,
(1)
et donc
Pt
n1
() t
n1
t
n1
() = 12. (2)
t
n1
() est souvent appel quantile suprieur o (1)quantile de la loi de Student
avec f = n 1 degres de libert et t
n1
() est appel quantile infrieur de la loi de
Student avec f = n 1 degres de libert. De la symtrie par rapport zro de la densit
s
n1
(x) nous avons
t
n1
() =t
n1
(), (3)
et donc (2) peut tre prsente
Pt
n1
() t
n1
t
n1
() = 12. (4)
Les quantiles t
f
() pour diffrentes valeurs de f et peuvent tre trouvs dans des tables
statistiques.
Maintenent en utilisant (4) et le Theoreme de Fisher nous pouvons construire lintervalle
de conance ou lestimateur par intervalle pour la moyenne de la loi normale N(,
2
).
Nous disons que lintervalle alatoire
l(X) L(X) (5)
est lintervalle de conance de niveau (1) ou lestimateur par intervalle avec le coef-
cient de conance (1) pour la moyenne inconnue si
Pl(X) L(X) = 1. (6)
Les statistiques l(X) et L(X) sappellent limites de conance infrieure et suprieure res-
pectivement pour .
Fixons (0 < < 0.5) et choisissons les quantiles
t
n1
(/2) et t
n1
(/2) =t
n1
(/2),
alors du Thorme de Fisher et de (4) on tire que
P
_
t
n1
(/2)

n

X
n

S
n
t
n1
(/2)
_
= 1, (7)
ou, ce qui est quivalent,
P
_

X
n

S
n

n
t
n1
(/2)

X
n
+
S
n

n
t
n1
(/2)
_
= 1. (8)
Donc lintervalle alatoire
_

X
n

S
n

n
t
n1
(/2)

X
n
+
S
n

n
t
n1
(/2)
_
(9)
101
est lintervalle de conance de niveau (1) pour . La limite infrieure de conance de
cet intervalle est
l(X) =

X
n

S
n

n
t
n1
(/2),
et la limite suprieure de conance est
L(X) =

X
n
+
S
n

n
t
n1
(/2).
Exercice 1. La charge dun lectron est e = 10
10
. Miliken a obtenu exprimentale-
ment 58 mesures de . Les rsultats de Miliken sont prsents dans le tableau suivant :
4.781 4.764 4.777 4.809 4.761 4.769
4.795 4.776 4.765 4.790 4.792 4.806
4.769 4.771 4.785 4.779 4.758 4.779
4.792 4.789 4.805 4.788 4.764 4.785
4.779 4.772 4.768 4.772 4.810 4.790
4.775 4.789 4.801 4.791 4.799 4.777
4.772 4.764 4.785 4.788 4.799 4.749
4.791 4.774 4.783 4.783 4.797 4.781
4.782 4.778 4.808 4.740 4.790
4.767 4.791 4.771 4.775 4.747
On considre un modle H
0
o ces rsultats sont traits comme des ralisations des variables
alatoires indpendantes X
1
, X
2
, ..., X
n
(n =58) qui suivent la mme loi normale N(,
2
).
a. Trouver la statistique exhaustive minimale pour = (,
2
)
T
.
b. Trouver lestimateur de maximum de vraisemblance

n
de .
c. Montrer que le meilleure (le plus court) intrvalle de conance de niveau P=1=0.95
pour , sachant que t
0.025
(57) = 2.0025,

X
n
= 4.7808 et S
2
n
= 23383 10
8
, est
4.7768 < < 4.7848.
Exercice 2. Soit x une ralisation observe de la somme des carrs des erreurs de mesures
dans une exprience. Nous supposons que le nombre de mesures f est inconnu et que lex-
prience est organise de faon que toutes les mesures puissent tre considres comme des
erreurs normales faites dans les mme conditions et indpendamment les unes des autres en
labsence derreur systmatique.
a) Trouver le meilleur estimateur sans biais

f pour f .
b) Supposons que lexprience donne x=407.41. En utilisant la distribution asympto-
tique de

f et lapproximation normale de Fisher construire 0.9-limites de conance pour
f .
Solution. Le nombre x peut-tre observ comme la ralisation de la variable alatoire
f

i=1
X
2
i
=

f ,
102
o X = (X
1
, ..., X
f
)
T
un chantillon de taille f , X
i
N(0,
2
). Ici X
i
est une erreur de la
i-me mesure. Il est clair que

f suit la loi de chi-deux f degres de libert, i.e.
P

f x = P
f

i=1
X
2
i
x = P
2
f
x = Q
f
(x), x 0.
Comme E
2
f
= f , la statistique

f est lestimateur sans biais de f. On sait que la variable
alatoire
_
2

f
_
2 f 1 =
_
2
2
f

_
2 f 1
est asymptotiquement normale (approximation de Fisher), quand f , i.e. pour tout z
x
P
_
2

f
_
2f 1 z (z),
pour les grandes valeurs de f . De cette galit on dduit
P1.28
_
2

f
_
2 f 1 1.28 0.8,
puisque
1
(0.9) = x
0.1
= 1.28, et donc on obtient lintervalle de conance pour f
P
1
2
+
1
2
_
_
2

f 1.28
_
2
f
1
2
+
1
2
_
_
2

f +1.28
_
2
0.8.
Comme

f = 407.81,
_
2

f = 28.54, on en tire que
373 f 445.
Il est utile de remarquer que pour avoir lestimateur par intervalle de conance (9) avec
le coefcient de conance 1 nous devons choisir les quantiles de niveau /2. Il faut
remarquer encore que la longueur L
n
de cette intervalle est une variable alatoire
L
n
= 2
S
n

n
t
n1
(/2) (10)
et puisque
ES
n
=
_
2
n1

_
n
2
_

_
n1
2
_,
(voir, par exemple, Voinov & Nikulin (1993) ), on en tire que
EL
n
= 2t
n1
(/2)

2
n(n1)

_
n
2
_

_
n1
2
_. (11)
Dun autre ct nous savons que pour chaque x R
1
S
f
(x) = Pt
f
x (x), quand f ,
et en plus (voir, par exemple, Huber et Nikulin (1992)),
S
f
(x) (x) = O(1/
_
f )
103
uniformment par rapport x, x R
1
, et donc de (11) il suit que pour grandes valeurs de n
EL
n
=
2

n
x(/2) +O
_
1
n
3/2
_
(12)
o x(/2) =x
/2
est le quantile suprieur de niveau /2 de la loi standard normale. Puisque
S
2
n
est un estimateur sans biais de
2
, ES
2
n
=
2
, alors de (10) il suit que
EL
2
n
=
4
2
n
t
2
n1
(/2),
et donc
VarL
n
= EL
n
(EL
n
)
2
=
4
2
n
t
2
n1
(/2)
_
1
2
n1

2
_
n
2
_

2
_
n1
2
_
_
. (13)
Puisque
1
2
n1

2
_
n
2
_

2
_
n1
2
_ =
1
2n
+O
_
1
n
2
_
, (n )
de (13) il suit que pour les grandes valeurs de n
VarL
n
=
2
2
n
2
x
2
(/2) +O
_
1
n
3
_
, (14)
et donc on peut dire que L
n
est pratiquement constante, L
n
EL
n
. En pratique cela signie
que
L
n
=
2

n
x(/2), (15)
quand n est assez grand.
Supposons maintenent que la variance
2
est connue. Comment cette information change
lintervalle de conance pour ? Si
2
est donn, dans ce cas

X
n
est une statistique exhaus-
tive pour paramtre et, comme il est bien connu,

X
n
est le meilleur estimateur sans biais
pour et suit la loi normal N(,
2
/n), [[ < . Donc la variable alatoire
Z =

n

X
n

suit la loi normal standard N(0, 1).


Il sen suit que lorsquon choisit x(/2), 0 < < 0.5, comme le quantile suprieur de
niveau /2 de la loi normale standard, alors on a
Px(/2) Z x(/2) = 1
ou, ce qui est la mme chose,
Px(/2)

n

X
n

x(/2) = 1,
do on obtient lintervalle de conance de longueur minimale avec le coefcient de conance
(1) pour :
P

X
n

n
x(/2)

X
n
+

n
x(/2) = 1, (16)
104
Par exemple, si
= 0.05, alors 1 = 0.95, /2 = 0.025, x(0.025) = 1.96
et donc dans ce cas particulier on obtient
P

X
n
1.96

n


X
n
+1.96

n
= 0.95, (17)
et on dit que avec la probabilit 0.95 lintervalle alatoire
_

X
n
1.96

n


X
n
+1.96

n
_
inclu ou couvre la vraie (mais inconnue !) valeur de .
La longueur L
n
de lintervalle de conance (16) est
L
n
=
2

n
x(/2) (18)
et comme on le voit de (15) il coincide avec la longueur moyenne de lintervalle de conance
pour quand
2
est inconnu et il nest pas alatoire !
2.13 Intervalle de conance pour la variance dune loi
normale
Nous voulons maintenant construire lintervalle de conance de niveau (1) pour la
variance
2
de la loi normale N(,
2
). Considrons dabord le cas o est aussi inconnue.
Le Thorme de Fisher nous dit que
n1

2
S
2
n
=
2
n1
, (1)
o
S
2
n
=
1
n1
n

i=1
(X
i


X
n
)
2
(2)
est un meilleur estimateur sans biais de
2
. Pour chaque x, 0 <<0.5 , on peut trouver
des tables statistiques des quantiles

2
n1
(/2) et
2
n1
(/2)
tels que
P
2
n1

2
n1
(/2) =

2
et P
2
n1

2
n1
(/2) = 1

2
, (3)
cest--dire
P
2
n1
(/2)
2
n1

2
n1
(/2) = 1. (4)
105
De (1) et (4) on a
P
2
n1
(/2)
n1

2
S
2
n

2
n1
(/2) = 1
et donc
P
_
(n1)S
2
n

2
n1
(/2)

2

(n1)S
2
n

2
n1
(/2)
_
= 1. (5)
Voila pourquoi lintervalle alatoire
(n1)S
2
n

2
n1
(/2)

2

(n1)S
2
n

2
n1
(/2)
(6)
est appell lintervale de conance de niveau (1) ou lestimateur par intervalle avec le
coefcient de conance (1) pour la variance
2
de la loi normale N(,
2
) quand est
inconnue. La longueur L
n
de cet intervalle est gale
L
n
= (n1)S
2
n
_
1

2
n1
(/2)

1

2
n1
(/2)
_
.
Il faut remarquer ici qu laide de (5) on peut construire lintervalle de conance de
niveau (1) pour .
Ici nous donnons quelques valeurs de la fonction de rpartition Q
f
(x) de
2
f
:
Q
f
(x) = P
2
f
x =
1
2
f
2

_
f
2
_

x
0
y
f
2
1
e
y/2
dy, x 0.
f 1 1 3 4 4 4 57 57
x 3.844 2.706 7.815 9.488 7.779 0.711 79.572 38.027
Q
f
(x) 0.950 0.900 0.950 0.950 0.900 0.050 0.975 0.025
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon de taille n = 5, X
i
N(,
2
), et et

2
sont inconnus. On va construire le plus court intervalle de conance de niveau (1 )
pour , quand = 0.1 et
X
1
= 2.96, X
2
= 3.07, X
3
= 3.02, X
4
= 2.98, X
5
= 3.06.
Daprs (10.9) lintervalle le plus court de conance de niveau (1) pour est

X
n

t
n1
_

2
_
S
n

n


X
n
+

t
n1
_

2
_
S
n

n
.
Dans notre cas

X
n
=

X
5
= 3.018, S
2
n
= S
2
5
= 0.00232,
S
2
5
5
= 0.000464,
S
5

5
= 0.046,
/2 = 0.05,

t
n1
_

2
_
=

t
4
(0.05)2.132
106
et donc le plus court intervalle pour
2.972 3.064.
Construisons maintenant lintervalle de conance de niveau (1 ) pour
2
, si =
0.01. Daprs (11.6) lintervalle de conance de niveau 0.90 pour
2
est
4S
2
5

2
4
(0.05)

2

4S
2
5

2
4
(0.05)
.
Puisque dans notre cas
S
2
5
= 0.00232,
2
4
(0.05) = 0.711 and
2
4
(0.05) = 9.488
nous obtenons la ralisation de lintervalle de conance de niveau 0.9 pour
2
:
0.00098
2
0.0131.
Supposons maintenant que est connu et il nous faut estimer
2
. Il est vident que dans
ce cas la statistique
s
2
n
=
1
n
n

i=1
(X
i
)
2
(7)
est le meilleur estimateur sans biais de
2
:
E s
2
n
=
2
, (8)
et comme X
1
, ..., X
n
sont indpendants et (X
i
)/ suit la loi normale standard N(0, 1), on
trouve que
n
s
2
n

2
=
2
n
. (9)
Pour chaque x , 0 < < 0.5, on peut trouver des tables statistiques les quantilles

2
n
(/2) et
2
n
(/2)
tels que
P
2
n

2
n
(/2) =

2
et P
2
n

2
n
(/2) = 1

2
, (10)
i.e.
P
2
n
(/2)
2
n

2
n
(/2) = 1. (11)
De (9) et (11) nous obtenons
P
2
n
(/2)
n s
2
n

2

2
n
(/2) = 1. (12)
et donc
P
_
n s
2
n

2
n
(/2)

2

n s
2
n

2
n
(/2)
_
= 1. (13)
107
Cest pourquoi lintervalle alatoire
ns
2
n

2
n
(/2)

2

ns
2
n

2
n
(/2)
(14)
est appell lintervalle de conance ou lestimateur par intervalles avec le coefcient de
conance 1 pour la variance
2
de la loi normale N(,
2
), quand est connu.
En pratique on choisit souvent pour le coefcient de conance 1 = 0.90 ou 0.95, ou
0.99, ce qui correspond gale 0.1, 0.05 ou 0.01 respectivement.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un chantillon de taille n = 201, X
i
N(,
2
), et
soit
S
2
201
=
1
200
201

i=1
(X
i


X
n
)
2
un meilleur estimateur sans biais pour
2
. Il faut valuer la probabilit
P0.8
2
S
2
201
1.2
2
.
Solution. Comme nous savons
200

2
S
2
201
=
2
200
et donc
P0.8
2
S
2
201
1.2
2
= P160 <
200

2
S
2
201
< 240 = P160 <
2
200
< 240.
Pour calculer cette probabilit on peut utiliser lapproximation normale simple pour la loi
chi-deux, daprs laquelle pour chaque x R
1
P
_

2
f
f

2 f
< x
_
(x), quand f ,
et donc
P160 <
2
200
< 240 = P
_

40
20
<

2
200
200
20
<
40
20
_
=
P
_
2 <

2
200
200
20
< 2
_
2(2) 1 = 2 0.97721 = 0.9544,
cest--dire
P0.8
2
S
2
201
1.2
2
0.9544.
Meilleure approximation pour P0.8
2
S
2
201
1.2
2
peut tre obtenue partir de lap-
proximation normale de Fisher, daprs laquelle pour chaque x R
1
P
_
2
2
f

_
2f 1 < x (x), quand f .
En utilisant cette approximation, nous avons
P0.8
2
S
2
201
1.2
2
= P4

10 <
200
< 4

15 =
108
P8

520 <
_
2
2
200

400 < 4

3020
= P2.112 <
_
2
2
200

400 < 1.908


(1.908) +(2.112) = 0.9718+0.98271 = 0.9545.
Il faut remarquer ici que la valeur exacte (avec 5 chiffres dcimaux) est
P0.8
2
S
2
201
1.2
2
= P160 <
2
200
< 240
= 0.982920.02796 = 0.95496 0.9550.
Exemple 3. Soit X= (X
1
, ..., X
n
)
T
un chantillon de taille n = 16, X
i
N(,
2
). Calculons
la probabili
P[

X
n
[ <
3

n
S
n
,
o

X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n1
n

i=1
(X
i


X
n
)
2
sont les meilleurs estimateurs sans biais pour et
2
.
Daprs le Thorme de Fisher la variable alatoire
t
n1
=

n

X
n

S
n
suit la loi de Student avec f = n1 = 15 degres de libert et donc nous avons
P[

X
n
[ <
3

n
S
n
= P[t
15
[ < 3 =

3
3
s
15
(x)dx
= 2

3
0
s
15
(x)dx = 2S
15
(3) 1 = 0.991,
o s
15
(x) est la densit de la loi de Student 15 degre de libert et S
15
(x) sa fonction de
rpartition. On peut remarquer que si lon utilise lapproximation normale pour lestimation
de la mme probabilit, on aura
P[

X
n
[ <
3

n
S
n
0.9973 > 0.991
pour chaque n.
Exemple 4. Soit X = (X
1
, ..., X
n
)
T
un chantillon, dont X
i
N(,
2
). On va chercher,
en utilisant lapproximation normale, la plus petite valeur de n = n() pour lequel
P
_
[S
2
n

2
[

2
<
_
0.9,
quand = 0.5 et = 0.05. Du Thorme de Fisher il suit que
P
_
[S
2
n

2
[

2
<
_
= P
_
(n1)(1) < (n1)
S
2
n

2
< (n1)(1+)
_
=
109
P
_
(n1)(1) <
2
n1
< (n1)(1+)
_
.
Du Thorme limite central il suit que
2
f
est asymptotiquement normale pour les grandes
valeurs de f et donc en utilisant lapproximation normale on obtient
P
_
[S
2
n

2
[

2
<
_
= P
_
(n1)(1) <
2
n1
< (n1)(1+)
_
=
P
_

_
n1
2
<

2
n1
(n1)
_
2(n1)
<
_
n1
2
_

_
n1
2
_

_
n1
2
_
= 2
_

_
n1
2
_
1,
do il suit que
2
_

_
n1
2
_
1 0.9,
si

_
n1
2
_
0.95,
et comme est croissante, la dernire ingalit est quivalante la suivante :

_
n1
2

1
(0.95) = 1.645,
do on tire que la plus petite valeur de n = n() vrie la relation suivante :

_
n1
2
1.6,
i.e.
n 1+5.2/
2
.
Par exemple, si = 0.5, alors n 21, et par calculs directs on obtient que
P10 <
2
20
< 30 = 0.8973 < 0.9,
mais pour n = 22 on a
P10.5 <
2
21
< 31.5 = 0.901 > 0.9,
et donc pour = 0.5 la plus petite valeur de n = n(0.5) = 22. Dans le cas = 0.05 nous
pouvons rsoudre le problme asymptotiquement et nous aurons
n 1+2
2.6

2
= 1+2
2.6
0.0025
= 2080.
Exemple 5. Soit X = (X
1
, ..., X
n
)
T
un chantillon, X
i
N(,
2
), o et
2
sont incon-
nus. Notre but est de construire un intervalle de prdiction pour une nouvelle observation
X
n+1
, X
n+1
N(,
2
), qui est indpendante de X.
110
Comme X est un chantillon normale N(,
2
), nous pouvons travailler avec la statis-
tique exhaustive minimale
U = (

X
n
, S
2
n
)
T
,
o

X
n
=
1
n
n

i=1
X
i
et S
2
n
=
1
n1
n

i=1
(X
i


X
n
)
2
sont les meilleurs estimateurs sans biais pour et
2
,

X
n
N(,

2
n
),
n1

2
S
2
n
=
2
n1
,

X
n
et S
2
n
sont indpendantes. Puisque X
n+1
et X sont indpendants, alors X
n+1
est indpen-
dante de

X
n
et S
2
n
, et donc
X
n+1


X
n
N
_
0,
n+1
n

2
_
,
i.e. la variable alatoire
Z =
X
n+1


X
n

_
1+
1
n
suit la loi normale standard, Z N(0, 1). Il est vident que Z est indpendante de S
2
n
et donc
la statistique
=
Z
_
S
2
n
/
2
=
X
n+1


X
n
S
n
_
1+
1
n
suit la loi de Student avec n1 degrs de libert. cest--dire
P t = S
n1
(t).
Par consquent
P
_
_
_

t
n1
_

2
_

X
n+1


X
n
S
n
_
1+
1
n

t
n1
_

2
_
_
_
_
= 1
do il suit que
P
_

X
n
S
n
_
1+
1
n

t
n1
_

2
_
X
n+1


X
n
+S
n
_
1+
1
n

t
n1
_

2
_
_
= 1.
Lintervalle

X
n
S
n
_
1+
1
n

t
n1
_

2
_
X
n+1


X
n
+S
n
_
1+
1
n

t
n1
_

2
_
est connu sous le nom du plus court intervalle de prdiction de niveau de conance 1
pour une seule nouvelle observation X
n+1
, X
n+1
N(,
2
).
111
Par exemple, supposons que n = 5, et
X
1
=0.79, X
2
=0.89, X
3
= 0.32, X
4
= 0.50, X
5
=0.20.
Dans ce cas

X
5
=0.212, S
2
5
= 0.3960,
S
n
_
1+
1
n
= S
5
_
1+
1
5
=

0.47517 = 0.689,
et puisque

t
4
(0.025) = 2.776, lintervalle de prdiction pour X
6
est
2.125 X
6
1.701.
Exemple 6. Soit X = (X
1
, ..., X
n
)
T
un chantillon, X
i
N(, 1), o est inconnu, et il
nous faut construire lintervalle de prdiction pour une nouvelle observation X
n+1
, X
n+1

N(, 1), qui est indpendante de X. Il est claire que dans ce cas la variable alatoire
Z =
X
n+1


X
n
_
1+
1
n
suir la loi normale standard et donc
P
_
_
_

X
n+1


X
n
_
1+
1
n

< x(/2)
_
_
_
= 1,
o x(/2) est /2quantille suprieur de la loi normale standard. Par exemple, si =0.05,
alors pour les donnes de lexemple 4 nous avons
x(/2) = x(0.025) = 1.96
et par consquent lintervalle de prdiction pour X
6
est
[X
6
+0.212[ < 1.96

1.2 = 1.96 1.095 = 2.15,


ou
2.36 < X
6
< 1.94.
2.14 Intervalle de conance pour la diffrence des moyennes
de deux lois normales
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux chantillons,
X
i
N(
X
,
2
X
), Y
j
N(
Y
,
2
Y
).
112
Supposons que X et Y sont indpendants. Notre but est destimer
X

Y
. Dabord on
tudie le cas quand
2
Y
et
2
X
sont connues. Dans notre problme la statistique T = (

X
m
,

Y
n
)
T
est exhaustive pour = (
X
,
Y
)
T
, o

X
m
=
1
m
m

i=1
X
i
,

Y
n
=
1
n
n

j=1
Y
j
(1)
sont les meilleurs estimateurs sans biais pour
X
, et
Y
, et comme on le sais dj bien

X
m
N
_

X
,

2
X
m
_
et

Y
n
N
_

Y
,

2
Y
m
_
. (2)
Par consqent, la statistique

X
m

Y
n
est le meilleur estimateur sans biais pour
X

Y
et

X
m

Y
n

Y
,

2
X
m
+

2
Y
m
_
. (3)
Il suit de (3) que la variable alatoire
Z =

X
m

Y
n
(
X

Y
)
_

2
X
m
+

2
Y
n
(4)
suit la loi normale standard, Z N(0, 1), et donc
P
_
_
_
x(/2)

X
m

Y
n
(
X

Y
)
_

2
X
m
+

2
Y
m
x(/2)
_
_
_
= 1, (5)
ou, ce qui est quivalent,
P
_
_
_

X
m

Y
n
x(/2)

2
X
m
+

2
Y
n

X

Y


X
m

Y
n
+ x(/2)

2
X
m
+

2
Y
n
_
_
_
= 1.
(6)
Cette formule donne le plus court intervalle de conance de niveau (1 ) pour la diff-
rence
X

Y
quand les variancea
2
X
et
2
Y
sont connues.
15. Intervalle de conance pour la diffrence des moyennes
de deux lois normales quand les variances sont inconnues.
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux chantillons normales indpendants,
X
i
N(
X
,
2
X
), Y
j
N(
Y
,
2
Y
), (1)
et on sintresse lestimation de
X

Y
, quand
X
et
Y
sont inconnues et

2
Y
=
2
X
=
2
,
o
2
est aussi inconnue. Il est vident que
T =
_

X
m
,

Y
n
, S
2
X
, S
2
Y
_
T
(2)
113
est une statistique exhaustive pour = (
X
,
Y
,
2
)
T
, o

X
m
=
1
m
m

i=1
X
i
N(
X
,

2
m
),

Y
n
=
1
n
n

j=1
Y
j
N(
Y
,

2
n
), (3)
(m1)S
2
X

2
=
2
m1
et
(n1)S
2
Y

2
=
2
n1
(4)
sont des variables alatoires indpendantes. La statistique T nest pas une statistique mini-
male exhaustive pour = (
X
,
Y
,
2
)
T
. Dans ce problme la statistique minimale exhaus-
tive est
U = (

X
m
,

Y
n
, S
2
)
T
, (5)
o S
2
est lestimateur de
2
appell lestimateur uni sans biais :
S
2
=
m1
n+m2
S
2
X
+
n1
n+m2
S
2
Y
. (6)
De (4) et (6) il suit que
n+m2

2
S
2
=
2
m+n2
, (7)
et donc
ES
2
=
2
et VarS
2
=
2
4
m+n2
. (8)
Il est clair que des composantes

X
m
,

Y
n
, S
2
de la statistique minimale exhaustive U sont des
variables alatoires indpendantes. Lestimateur uni S
2
est une moyenne pondre de S
2
X
et S
2
Y
. On peut voir que le poids plus grand sera donn celui des estimateurs de
2
qui
correspond au chantillon de taille max(m, n). Si n = m alors S
2
est une moyenne ordinaire
de S
2
X
et S
2
Y
. Il faut remarquer que de (6), (7) et (8) il suit que
VarS
2
=
2
4
n+m2
<
_
VarS
2
X
=
2
4
m1
,
VarS
2
Y
=
2
4
n1
,
(9)
et on voit que lestimateur uni S
2
est meilleur que S
2
X
ou S
2
Y
.
Puisque

X
m
et

Y
n
sont les meilleurs estimateur sans biais pour
X
et
Y
respectivement,
on en dduit immdiatement que

X
m

Y
n
est le meilleur estimateur sans biais pour
X

Y
,
et de (3) il suit que

X
m

Y
n
N
_

Y
,

2
m
+

2
n
_
. (10)
Par consquent, la variable elatoire
Z =

X
m

Y
n
(
X

Y
)

_
1
m
+
1
n
(11)
suit la loi normale standard. Comme la statistique S, donne par (6) est indpendante de

X
m

Y
n
, et grace la relation (7), du Thorme de Fisher il rsulte que la variable alatoire

X
m

Y
n
(
X

Y
)
S
_
1
m
+
1
n
=t
n+m2
(12)
114
suit la loi de Student avec m+n2 degrs de libert, et donc
P
_
[(
X

Y
) (

X
m

Y
n
)[

t
m+n2
_

2
_
S
_
1
m
+
1
n
_
= 1, (13)
cest--dire

X
m

Y
n

t
m+n2
_

2
_
S
_
1
m
+
1
n

X

X
m

Y
n
+

t
m+n2
_

2
_
S
_
1
m
+
1
n
(14)
est le plus court intervalle de conance de niveau (1) pour la diffrence
X

Y
de deux
moyennes des lois normales possdant la mme variance inconnue.
Remarque 1. Supposons que
2
X
et
2
Y
sont inconnues, mais leur quotient
2
X
/
2
Y
est
donn, par exemple,

2
X
/
2
Y
= k, k > 0, (15)
et il faut construire le plus court intervalle de conance de niveau 1 pour la diffrence

Y
, o
X
et
Y
sont aussi inconnues. Le cas k = 1 vient dtre considr. So lon note

2
Y
=
2
, alors
2
X
= k
2
et au lieu de (3) et (4) nous aurons

X
m
M
_

X
,
k
2
m
_
et

Y
n
N
_

Y
,

2
n
_
, (16)
(m1)S
2
X
k
2
=
2
m1
et
(n1)S
2
Y

2
=
2
n1
, (17)
et au lieu de (10) on a

X
m

Y
n
N
_

Y
,
k
2
m
+

2
n
_
, (18)
do il vient que la variable alatoire
Z =

X
m

Y
n
(
X

Y
)

_
k
m
+
1
n
(19)
suit la loi normale standard. Dautre ct, puisque
(m1)S
2
X
k
2
+
(n1)S
2
Y

2
=
2
m1
+
2
n1
=
2
m+n2
, (20)
de (17) il suit que lestimateur uni sans biais pour
2
est
S
2
=
1
m+n2
_
m1
k
S
2
X
+(n1)S
2
Y
_
. (21)
Comme
m+n2

2
S
2
=
2
m+n2
, (22)
et S
2
est indpendante de Z, donne par (19), du Thorme de Fisher on dduit que la
variable alatoire

X
m

Y
n
(
X

Y
)
S
_
k
m
+
1
n
=t
m+n2
(23)
115
suit la loi de Student avec m+n2 degrs de libert, et donc
P
_
[(
X

Y
) (

X
m

Y
n
)[

t
m+n2
_

2
_
S
_
k
m
+
1
n
_
= 1, (24)
cest--dire

X
m

Y
n

t
m+n2
_

2
_
S
_
k
m
+
1
n

X

X
m

Y
n
+

t
m+n2
_

2
_
S
_
k
m
+
1
n
(25)
est le plus court intervalle de conance de niveau (1 ) pour la diffrence
X

Y
de
deux moyennes des lois normales possdant le qoutient donn k =
2
X
/
2
Y
des variances
inconnues
2
X
et
2
Y
.
Exemple 1. Pour mesurer un angle A il taient effectues deux expriments indpen-
dants. Dans le premier taient reues deux valeurs
21
0
.76 et 20
0
.98, (26)
et dans le second ilen avait 6
21
0
.64, 21
0
.54, 22
0
.32, 20
0
.56, 21
0
.43, 21
0
.07. (27)
Nous supposons que toutes les erreurs de mesures sont des ralisatios des variables ala-
toires normales indpendantes, et dans le deuxime expriment on utilise un instrument
de mesure dont la prcision est 4 fois meilleur que celui du premier expriment. Il faut
construire le plus court intervalle de conance de niveau (1) pour la diffrence b
X
b
Y
des erreurs systmatiques b
X
et b
Y
des instruments utiliss dans le premier et second exp-
riments ( = 0.01).
Solution. Suivant la thorie des erreurs de Gauss nous pouvons supposer que les donnes
(26) reprsentent la ralisation dun chantillon normale
X = (X
1
, X
2
)
T
, X
i
N(
X
,
2
X
), (28)
et les donnes (27) reprsentent la ralisation dun chantillon normale
Y = (Y
1
, ...,Y
6
)
T
, Y
j
N(
X
,
2
), (29)
o
2
X
= 4
2
, car k = 4. Dans ce cas la statistique exhaustive est
(

X
m
, S
2
X
,

Y
n
, S
2
Y
)
T
,
avec

X
m
=

X
2
= 21.37,

Y
n
=

Y
6
= 21.42, S
2
X
= 0.3042, S
2
Y
= 0.3445. (30)
De (21) il suit que lestimateur uni pour
2
est
S
2
=
1
m+n2
_
m1
k
S
2
x
+(n1)S
2
Y
_
=
1
6
_
1
4
S
2
X
+5S
2
Y
_
. (31)
Puisque
_
k
m
+
1
n
=
_
13
6
et

t
6
(0.05) = 1.943, (32)
116
et comme

Y
= b
X
b
Y
,
de (25) on a
P
_
[(b
X
b
Y
) (

X
m

Y
n
)[

t
6
(0.05)S
_
1
m
+
1
n
_
= 1, (33)
et donc de (30)-(32) nous obtenons que la diffrence systmatique b
X
b
Y
appartient
lintervalle
[(b
X
b
Y
) (0.05)[ 1.57,
cest--dire
1
0
.62 b
X
b
Y
1
0
.52.
2.15 Intervalle de conance pour le quotient des variances
de deux lois normales.
Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux chantillons indpendantes,
X
i
N(
X
,
2
X
) et Y
j
N(
Y
,
Y
)
T
.
Daprs le thorm de Fisher nous avons
(m1)S
2
X

2
X
=
2
m1
et
(n1)S
2
Y

2
Y
=
2
n1
(1)
o
S
2
X
=
1
m1
m

i=1
(X
i


X
m
)
2
et S
2
Y
=
1
n1
n

i=1
(Y
j

Y
n
)
2
(2)
sont les meilleurs estimateurs sans biais pour
2
X
et
2
Y
, et

X
m
=
1
m
m

i=1
X
i
et

Y
n
=
1
n
n

i=1
Y
i
(3)
sont des meilleurs estimateurs sans biais pour
X
et
Y
. Puisque les chantillons X et Y sont
indpendantes , les statistiques S
2
X
et S
2
Y
sont indpendantes aussi, et donc nous obtenons
Thorme 1. La variable alatoire
F =
S
2
X
/
2
X
S
2
Y
/
2
Y
= F
m1,n1
(4)
suit la loi F avec m1 et n1 degrs de libert.
117
Nous allons utiliser ce thorme pour construire lintervalle de conance pour le quo-
tient
2
Y
/
2
X
. En utilisant (4) et la table de F-rpartition on peut trouver deux quantilles
F
m1,n1
(/2) =
1

F
n1,m1
(/2)
et

F
m1,n1
(/2)
tels que
PF
m1,n1
(/2) F
m1,n1


F
m1,n1
(/2) = 1. (5)
Dans ce cas de (4)et (5) nous avons
P
_
F
m1,n1
(/2)

2
Y

2
X
S
2
X
S
2
Y


F
m1,n1
(/2)
_
= 1 (6)
ou
P
_
F
m1,n1
(/2)
S
2
Y
S
2
X


2
Y

2
X

S
2
Y
S
2
X

F
m1,n1
(/2)
_
= 1. (7)
Puisque

F
m1,n1
(/2) =
1
F
n1,m1
(/2)
, (8)
nous obtenons lintervalle de conance de niveau (1) pour le quotient
2
Y
/
2
X
:
P
_
1

F
n1,m1
(/2)
S
2
Y
S
2
X


2
Y

2
X

S
2
Y
S
2
X

F
m1,n1
(/2)
_
= 1. (9)
De (9) il suit immdiatement que lintervalle de conance de niveau (1) pour le quotient

2
X
/
2
Y
est
P
_
1

F
m1,n1
(/2)
S
2
X
S
2
Y


2
X

2
Y

S
2
X
S
2
Y

F
n1,m1
(/2)
_
= 1. (10)
Par consquent, (9) et (10) nous donnent deux intervalles de conance de niveau (1 )
pour
2
Y
/
2
X
et
2
X
/
2
Y
respectivement.
Exemple 1. Soient X = (X
1
, ..., X
m
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux chantillons indpen-
dantes,
X
i
N(
X
,
2
X
) et Y
j
N(
Y
,
Y
)
T
.
Nous supposons que un experiment pour m = 25 et n = 14 on a obtenu
S
2
X
= 74 10
6
et S
2
Y
= 20 10
6
.
En utilisant (10) nous construisons lintervallle de conance de niveau (1 ) pour le
quotient des variances
2
X
/
2
Y
. Prenons = 0.1. Puisque S
2
X
/S
2
Y
= 3.70,

F
n1,m1
_

2
_
=

F
13,24
(0.05) = 2.13
et
1/

F
m1,n1
_

2
_
=
1

F
24,13
_

2
_ = 1/2.35 = 0.426,
on a que
1.58 <

2
X

2
Y
< 7.88,
avec le coefcient de conance 0.9.
118
2.16 La loi de Thompson.
Soit X = (X
1
, . . . , X
n
)
T
un chantillon normal, X
i
N(,
2
). Notons

j
=
X
j


X
n
s
n
=
_
n
n1
Z
j
, j = 1, 2, . . . , n, (2.1)
o Z
j
est donn par (8.57),

X
n
=
1
n
n

i=1
X
i
, s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
.
Dans ce cas pour tout j la statistique
j
suit la loi de Thompson n2 degres de libert,
P
_

j
x
_
= T
n2
(x) =

_
n1
2
_
_
(n1)
_
n2
2
_
x

n1
_
1
t
2
n1
_
n4
2
dt, (2.2)
pour [x[ <

n1.
Soit
m
une variable alatoire qui suit la loi de Thompson m degrs de libert,
P
m
x = T
m
(x).
On sait que la statistique
t
m
=
m
_
m
m+1
2
m
(2.3)
suit la distribution de Student m degrs de libert,
Pt
m
x = S
m
(x).
On voit de (3) que

m
=t
m

m+1
m+t
2
m
(2.4)
et par consquent il en rsulte que les quantiles (, m) de la loi de Thompson m degrs
de libert (de niveau ) sexpriment en fonction des quantiles correspondants t(, m) de la
loi de Student m degres de libert par la formule
(, m) =t(, m)

m+1
m+t
2
(, m)
. (2.5)
On sait que si n , alors
S
m
(x) (x) (2.6)
et par consquent de (3) (5) on dduit une approximation normale pour le loi de Thomp-
son, en utilisant la liaison qui existe entre les variables alatoires
m
et =
m
2
,
m
2
:
=

m
+

m+1
2

m+1
, (2.7)
119
ce qui est quivalent
P
m
x = P
_

m
2
,
m
2

x +

m+1
2

m+1
_
= I
x+

m+1
2

m+1
_
m
2
,
m
2
_
, (2.8)
o
,
est une variable alatoire qui suit la loi bta de paramtres et .
Remarque 1. (Coefcient de correlation dun chantillon normale dans R
2
).
Soit
_
X
1
Y
1
_
,
_
X
2
Y
2
_
, . . . ,
_
X
n
Y
n
_
un chantillon dune loi normale de dimension 2, i.e. pour tout (x, y) R
2
PX
i
x,Y
i
y =
1
2
_
1
2
x
x

y
y

exp
_

1
2(1
2
)
(u
2
2uv +v
2
)
_
dudv,
o

x
= EX
i
,
y
= EY
i
,
2
x
= VarX
i
,
2
y
= VarY
i
,
=
1

y
E(X
i

x
)(Y
i

y
).
On peut montrer que les statistiques

X
n
=
1
n
n

i=1
X
i
,

Y
n
=
1
n
n

i=1
Y
i
, s
2
x
=
1
n
n

i=1
(X
i


X
n
)
2
,
s
2
y
=
1
n
n

i=1
(Y
i

Y
n
)
2
,
n
=
s
xy
s
x
s
y
sont les estimateurs de maximum de vraisemblance pour les paramtres
x
,
y
,
2
x
,
2
y
et
respectivement, o
s
xy
=
1
n
n

i=1
(X
i


X
n
)(Y
i

Y
n
).
On peut montrer sous lhypothse H
0
: = 0 la densit p
n
(r), n 3, de la statistique
n
est
donne par la formule :
p
n
(r) =
1

_
n1
2
_

_
n2
2
_(1r
2
)
n4
2
, [r[ < 1, (2.9)
do on tire que si lhypothse H
0
est juste , alors

2
n
= 1
2
,
n2
2
et t
n2
=
n

n2
1
2
n
. (2.10)
120
2.17 Mthode du maximum de vraisemblance.
Supposons queon a un chantillon
X P

, = (
1
, . . . ,
m
)
T
R
m
et que P

est absolument continue par rapport une mesure -nie . Notons par f (x; ) la
densit de X.
Soit
L() = L(X, ) = f (X; ), R
m
,
la fonction de vraisemblance de X.
On appelle L(X, ) ainsi car, sachant une ralisation x du vecteur alatoire X, la va-
leur L(x, ) = f (x, ) de L(X, ) nous permet de trouver les plus vraisemblables valeurs du
paramtre .
En effet, soit V(x) un voisinage inniment petit de x. Alors
P

(X V(x)) f (x, ) (V(x)) (1)


(dans le cas discret on a une galit). Les valeurs de plus vraisemblables sont telles qui
maximisent la probabilit que X prend la valeur observe x (ou prend la valeur dans un
inniment petit voisinage de x, si telles probabilits sont gales zero), donc d aprs (1)
maximisent la realisation L(x, ) = f (x, ) de la fonction de vraisemblance L(X, ) par
rapport .
Dnition 1. Une statistique

n
=

n
(X) est appelle estimateur de maximum de vrai-
semblance (EMV) du paramtre , si -p.s.
L(X,

n
) = sup

L(X, ). (2)
Si g : R
k
est une fonction msurable, k m, alors g
n
= g(

n
) est appell estimateur
de maximum de vraisemblance de g = g().
Rmarque 1. Si T =T(X) est une statistique exhaustive, alors le critre de factorisation
L(X, ) = g(T(X), )h(X) implique que lEMV est une fonction de T.
Gnrallement on cherche lEMV en maximisant la fonction lnL(X, ) par rapport ,
car cette fonction atteint le maximum dans le mme point que L et dans la plupart des cas
concrets est plus simple.
Si la fonction lnL(X, ) est drivable par rapport , alors lEMV vrie le systme
dquations de vraisemblance
U() = 0,
o
U() =
_
lnL(X, )

_
T
=
_
lnL(X, )

1
, . . . ,
lnL(X, )

m
_
T
(3)
est la fonction score.
La forme de la fonction de vraisemblance dpend de la structure de lchantillon.
121
Exemple 1. Si X = (X
1
, . . . , X
n
)
T
est un chantillon simple, X
i
p(x, ), R
m
,
alors
L(X, ) =
n

i=1
p(X
i
, ), lnL(X, ) =
n

i=1
ln p(X
i
, ),
and
U() =
_
n

i=1
ln p(X
i
, )

_
T
. (4)
Exemple 2. Censure du premier type. On xe le temps t de lexprience et on observe
n sujets. Les dures de vie T
1
, . . . , T
n
de sujets sont des v.a. i.i.d. de la fonction de rpartition
F(t, ), R
m
et de la densit p(t, ) par rapport la mesure de Lebesque . La valeur
t
i
de la variable alatoire T
i
nest pas observe, si t
i
> t. Les moments t
(1)
. . . t
(d(t))
de
d(t) dcs, (d(t) n), sont observs pendant lexprience, si d(t) > 0. Si d(t) = 0, t
(i)
ne
sont pas observs. Le vecteur
(t
(1)
, . . . , t
(d(t))
, d(t))
T
est une ralisation dun vecteur alatoire
(T
(1)
, . . . , T
(D(t))
, D(t))
T
.
Cherchons la densit de ce vecteur :
f
T
(1)
,...,T
(D(t))
,D(t)
(t
1
, . . . , t
d
, d)
= lim
h
1
,...,h
d
0
1
h
1
. . . h
d
Pt
1
< T
(1)
t
1
+h
1
, . . . , t
d
< T
(d)
t
d
+h
d
, D(t) = d
= lim
h
1
,...,h
d
0
1
h
1
. . . h
d
PD(t
1
) = 0, D(t
1
+h
1
) D(t
1
) = 1, . . . , D(t
d
+h
d
) D(t
d
) = 1,
D(t) D(t
d
) = 0, D() D(t) = nd =
n!
(nd)!
[1F(t, ]
nd
p(t
1
, ). . . p(t
d
, ),
si t
1
<t
2
< . . . t
d
, d = 1, 2, . . .).
Donc la fonction de vraisemblance est
L() =
n!
(nD(t))!
[1F(t, ]
nD(t)
p(T
(1)
, ). . . p(T
(D(t))
, ), (5)
si D(t) = 1, 2, . . ., et
L() = [1F(t, ]
n
, (6)
si D(t) = 0.
La mme fonction de vraisemblance (avec une constante prs) peut tre obtenu diff-
rament. Posons
X
i
= min(T
i
, t),
i
= 1
T
i
t
.
Sachant les paires
(X
1
,
1
), . . . , (X
n
,
n
),
122
on peut trouver T
(1)
, . . . , T
(D(t))
: il faut ordonner les X
i
, qui corresponent
i
= 1. Les
vecteurs alatoirs (X
i
,
i
) sont i.i.d., donc cherchons la loi de (X
1
,
1
). On a
F
X
1
,
1
(x, 1; ) = P

(X
1
x,
1
= 1) = P

(T
1
x, T
1
t) =
F
T
i
(min(x, t)) =

x
0
p(u, )1
ut
du,
F
X
1
,
1
(x, 0; ) = P

(X
1
x,
1
= 0) = P

(t x, T
1
>t) =
1
tx
(1F(t, )).
Considrons la mesure sur R
+
0, 1 suivante :
([0, x] 1) =

x
0
1
ut
du, ([0, x] 0) = 1
tx
.
Alors
F
X
1
,
1
(x, k; ) =

x
0
p
k
(u, )[1F(t, )]
1k
(du, k),
et donc la densit de (X
i
,
i
) par rapport est
p
X
i
,
i
(x
i
, k
i
; ) = p
k
i
(x
i
, )[1F(t, )]
1k
i
.
Donc la fonction de vraisemblance est
L(X
1
,
1
, . . . , X
n
,
n
; ) =
n

i=1
p

i
(X
i
, )[1F(X
i
, )]
1
i
. (7)
Notons que cette fonction est gale la fonction donne par (5) et (6) la constante prs :
L(X
1
,
1
, . . . , X
n
,
n
; ) =
D(t)

i=1
p(T
(i)
, )[1F(t, )]
nD(t)
, si D(t) > 0
ou
L(X
1
,
1
, . . . , X
n
,
n
; ) = [1F(t, )]
n
,
si D(t) = 0.
Des censures de plusieurs types sont considre dans les chapitres suivants.
Exemple 3. (Donnes groups) Soit Z
n
= (Z
n1
, . . . , Z
nN
) vecteur alatoire qui suit la loi
multinomiale M
N
(n, p()), o p() = (p
1
(), . . . , p
N
())
T
, R
m
.
Par exemple, si la rgion X des valeurs des v.a. i.i.d. X
i
F(x, ), R
m
(i =
1, . . . , n) est divis en N intervalles I
1
, . . . , I
N
, alors Z
nj
peut tre interpret comme le nombre
alatoire des X
i
, qui appartiennent I
j
:
Z
nj
=
n

i=1
1
X
i
I
j

et p
i
() = P

(X
i
I
j
).
Donc
P

(Z
n
= z
n
) = PZ
n1
= k
1
, . . . , Z
nN
= k
N
=
n!
k
1
! . . . k
N
!
p
k
1
1
()p
k
2
2
(). . . p
k
N
N
().
123
Supposons que nobserve que les v.a. Z
nj
. Alors la fonction de vraisemblance est
L(Z
n
, ) =
n!
Z
n1
! . . . Z
nN
!
p
Z
n1
1
()p
Z
n2
2
(). . . p
Z
nN
N
().
19. Proprits asymptotiques des estimateurs de maximum de vraisemblance
On va dmontrer que sous conditions gnrales des estimateurs de maximum de vrai-
semblance sont consistants et asymptotiquement efcaces.
Soit
X = (X
1
, . . . , X
n
),
un chantillon, o X
1
, . . . , X
n
sont des vecteurs alatoires indpendants,
X
i
p
i
(x
i
, ), R
m
,
o p
i
(x
i
, ) est la densit du vecteur r
i
-dimensionnel X
i
par rapport une mesure -ni .
La fonction de vraisemblance a la forme
L(X, ) =
n

i=1
p
i
(X
i
, ).
On a vu que sous des conditions gnrales la matrice dinformation de Fisher a la forme
I
n
() = E

I
n
(X, ), o

I
n
(X, ) =

2

2
lnL(X, ).
Si X
1
, . . . , X
n
sont des vecteurs alatoires i.i.d. de la mme dimension r (en cas r = 1 on a
un chantillon simple), alors p
i
= p, I
n
() = nI
1
(), o
I
1
() = E

I
1
(X
1
, ),

I
1
(X
1
, ) =

2

2
p(X
1
, ).
Thorme. Supposons que les vecteurs alatoires X
1
, . . . , X
n
sont i.i.d. et
1) est ouvert ;
2) presque pour tout y R
r
la densit p(y, ) est deux fois continument drivable par
rapport dans un voisinage V

= :[[
0
[[ de la vraie valeur
0
du paramtre
;
3) on peut driver deux fois sous le signe de lintegrale :

R
r

p(y, )dy =

R
r
p(y,
0
)dy = 0,

R
r

2
p(y,
0
)dy =

R
r

p(y,
0
)dy = 0;
4) la matrice dinformation de Fisher I
1
(
0
) est dnie positive ;
5) il existent des fonctions non-negatives h et b, telles que pour presque tous y R
r
et
tous V

[[

I
1
(y, )

I
1
(y,
0
) [[h(y)b(), E

0
h(X
1
) < , b(
0
) = 0,
la fonction b est continue au point
0
.
124
Alors il existe une suite des estimateurs

n
telle que
P(U(X,

n
) = 0) 1,

n
P

0
, (1)
et

n(

0
)
d
N
m
(0, I
1
1
(
0
)). (2)
Dmonstration. Soit c > 0 une constante et
B
n
c
= : (
0
)
T
I
n
(
0
)(
0
) c
2
= : [[ I
1/2
n
(
0
)(
0
) [[c (3)
un voisinage de
0
. Notons par V

= :[[
0
[[= la frontire de V

. La condition
4) implique que
inf
:V

(
0
)
T
I
1
(
0
)(
0
) > 0,
donc il existe N = N() > 0 tel que B
n
c
V

= / 0, quand n > N et donc B


n
c
V

. Il est
evident aussi que B
n
c

0
, i.e. sup
B
n
c
[[
0
[[0 quand n .
On va montrer que
P

0
_
sup
B
n
c
lnL() lnL(
0
) < 0
_
1, quand n . (4)
Pour tout B
n
c
crivons la formule de Taylor :
lnL() lnL(
0
) =U
T
(
0
)(
0
)
1
2
(
0
)
T

I
n
(

)(
0
), (5)
o

(X) est un point sur la ligne entre et


0
.
On va montrer dabord que
1
n

I
n
(

) =
1
n
I
n
(
0
) +o
P
(1). (6)
La condition 5) implique que
E

0
[[
1
n
(

I
n
(

I
n
(
0
)) [[E

0
[[

I
1
(

I
1
(
0
)) [[
sup
B
n
c
b() E

0
h(X
1
) 0.
Cette convergence implique que
1
n

I
n
(

)
1
n

I
n
(
0
)
L
1
0 =
1
n

I
n
(

)
1
n

I
n
(
0
)
P
0. (7)
La loi de grands nombres implique que
1
n

I
n
(
0
) =
1
n
n

i=1

2
ln p(X
i
,
0
)
P
I
1
(
0
), (8)
125
car

I
n
(
0
) est la somme de vecteurs alatoires i.i.d. de lesprance 0 et de la variance I
1
(
0
).
Donc on a
1
n

I
n
(

) =
1
n

I
n
(
0
) +o
P
(1) = I
1
(
0
) +o
P
(1) =
1
n
I
n
(
0
) +o
P
(1). (9)
Cette galit, lgalit (5) et la dnition de B
n
c
(voir (3)) impliquent que uniformment
sur B
n
c
lnL() lnL(
0
) =U
T
(
0
)(
0
)
1
2
(
0
)
T
I
n
(
0
)(
0
) +o
P
(1)
=U
T
(
0
)(
0
)
c
2
2
+o
P
(1). (10)
Donc
P

0
_
sup
B
n
c
lnL() lnL(
0
) < 0
_

0
_
sup
B
n
c
U
T
(
0
)(
0
) + sup
B
n
c
[ o
P
(1) [<
c
2
2
_
P

0
_
sup
B
n
c
U
T
(
0
)(
0
) <
c
2
4
, [ o
P
(1) [<
c
2
4
_

1P

0
_
sup
B
n
c
U
T
(
0
)(
0
)
c
2
4
_
P

0
_
[ o
P
(1) [
c
2
4
_
. (11)
Notons que sup
R
m
,[[[[=1
a
T
=[[ a [[ pour tout a R
m
, donc
sup
B
n
c
U
T
(
0
)(
0
) = c sup
B
n
c
U
T
(
0
)I
1/2
n
(
0
)I
1/2
n
(
0
)(
0
)/c
c sup
R
m
,[[[[=1
U
T
(
0
)I
1/2
n
(
0
) = c [[ U
T
(
0
)I
1/2
n
(
0
) [[ . (12)
Lingalit de Tchebyshev-Bienaim implique que
P

0
_
[[ U
T
(
0
)I
1/2
n
(
0
) [[
c/4) (4/c)
2
E

0
([[ U
T
(
0
)I
1/2
n
(
0
) [[
2
)
= (4/c)
2
E

0
U(
0
)I
1
n
(
0
)U(
0
) = (4/c)
2
m. (13)
Pour tout > 0 on peut trouver c > 0 tel que (4/c)
2
/2. Fixons un tel c. Alors
P

0
_
sup
B
n
c
U
T
(
0
)(
0
)
c
2
4
_
< /2. (14)
On peut trouver N = N() > 0 tel que pour tous n N
P

0
_
[ o
P
(1) [
c
2
4
_
< /2. (15)
126
Lingalits (11)-(15) impliquent la convergence (4).
La fonction lnL() est continument drivable sur V

B
n
c
, donc cette convergence im-
plique quil existe une suite destimateurs

n
telle que
P

0
_
U(

n
) = 0, (

0
)
T
I
n
(
0
)(

0
) c
2
_
1,
donc pour tout > 0 la relation
P

0
_
U(

n
) = 0, [[

0
[[
_
1
implique la suivante
P

0
_
U(

n
) = 0
_
1,

n
P

0
.
Dmontrons la normalit asymptotique des estimateurs

n
. En intgrant la gauche et la
droite de lgalit

t
U
0
+t(

0
) =

U(
0
+t(

0
)(

0
) =

I
n

0
+t(

0
)(

0
)
par rapport t, on obtient
U(
0
) =U(

n
) U(
0
) =

1
0

I
n
(
0
+t(

0
))dt (

0
). (15)
Montrons que le deuxime integrale est asymptotiquement equivalent I
n
(
0
). La condition
5) implique
1
n
[[

1
0

I
n
(
0
+t(

0
))dt

I
n
(
0
) [[

1
n
n

i=1

1
0
[[

2

2
ln p(X
i
,
0
+t(

0
))

2

2
ln p(X
i
,
0
) [[ dt

1
n
n

i=1
h(X
i
)

1
0
b(
0
+t(

0
))dt. (17)
Le premier facteur la droite est la moyenne de v.a. i.i.d. de lesprance ni, donc la loi de
grands nombres implique que
1
n
n

i=1
h(X
i
)
P
E

0
h(X
1
). (18)
Montrons que le deuxime facteur tend en probabilit vers 0. La continuit de la fonction
b en
0
et la condition b(
0
) = 0 impliquent que pour tout > 0 il existe = () tel que
b() < , si [[
0
[[< . Si [[

0
[[< , alors pour tout t [0, 1]
b(
0
+t(

0
)) <

1
0
b(
0
+t(

0
))dt < .
Donc
P

0
_

1
0
b(
0
+t(

0
))dt
_
P

0
([[

0
[[) 0. (19)
127
Les convergences (18) et (19) et lingalit (16) impliquent
1
n

1
0

I
n
(
0
+t(

0
))dt =
1
n

I
n
(
0
) +o
P
(1) =
1
n
I
n
(
0
) +o
P
(1). (20)
Lgalits (16) et (20) impliquent
1

n
U(
0
) =
_
1
n

I
n
(
0
) +o
p
(1)
_

n(

0
) =
(I
1
(
0
) +o
p
(1))

n(

0
) (21)
La v.a. U(
0
) est une somme de vecteurs alatoires i.i.d. de lesprance 0 et de la matrice
de covariance I
1
(
0
). Le thorme limite centrale implique que
1

n
U(
0
)
d
N
m
(0, I
1
(
0
)). (22)
Cette convergence, lgalit (21) et le thorme de Slutsky impliquent que

n(

0
)
d
N
m
(0, I
1
1
(
0
)I
1
(
0
))I
1
1
(
0
)) = N
m
(0, I
1
1
(
0
)).
Corollaire. Sous les hypothses du Thorme
(

0
)
T

I
n
(

n
)(

0
)
d

2
m
. (23)
Dmonstration. Le rsultat du thorme implique que
(

0
)
T
I
1
(
0
)(

0
)
d

2
m
. (24)
La condition 5) du Thorme implique
E

0
[[
1
n

I
n
(X,

n
)

I
n
(X,
0
) [[
E

0
[[

I
1
(X
1
,

n
)

I
1
(X
1
,
0
) [[E

0
h(X
1
)b(

n
) 0,
donc
1
n

I
n
(

n
) = I
1
(
0
) +o
P
(1). (25)
(23) et (24) impliquent (22).
Corollaire. Sous les hypothses du Thorme
U
T
(
0
)I
1
n
(
0
)U(
0
)
d

2
m
et
U
T
(
0
)

I
1
n
(

n
)U(
0
)
d

2
m
. (26)
Corollaire. Si la fonction g : G R
k
a des drivs partielles du premier ordre
continues, les hypothses du Thorme sont vries, g
n
= g() est lEMV de g = g(),
alors

n( g
n
g
0
)
d
N
k
(0, G(
0
)I
1
1
(
0
))G
T
(
0
),
128
o g
0
est la vraie valeur de g et
G(
0
) =
_
g
i
(
0
)

j
_
km
.
Ce rsultat est impliqu par la mthode delta.
Corollaire. Sous les hypothses du Corollaire
( g
n
g
0
)
T
_
G(

n
)

I
1
n
(

n
)G
T
(

n
)
_
1
( g
n
g
0
)
d

2
k
.
Dmonstration. Corollaire implique

n( g
n
g
0
)
T
_
G(
0
)I
1
n
(
0
)G
T
(
0
)
_
1

n( g
n
g
0
)
d

2
k
. (27)
La fonction G est continue, donc
G(

n
) = G(
0
) +o
P
(1). (28)
ce qui implique le rsultat.
Le cas important est g = (
l
1
, . . . ,
l
k
), o 1 l
1
. . . l
k
m. Dans ce cas g
i j
() = 1,
si j = l
i
, et g
i j
() = 0, sinon. Donc
A
i
1
...i
k
= G(

n
)

I
1
n
(

n
)G
T
(

n
)
est la sous-matrice de

I
1
n
(

n
) tante sur intersection de i
1
, . . . , i
k
-mes lignes et i
1
, . . . , i
k
-
mes colognes. Donc
(

l
1

0l
1
, . . . ,

l
k

0l
k
)
T
A
1
i
1
...i
k
(

l
1

0l
1
, . . . ,

l
k

0l
k
)
d

2
k
. (29)
Gnralisons le thorme pour le cas, quand les vecteurs X
i
ne sont pas ncssairement
identiquement distribus.
Thorme. Supposons que
1) est ouvert ;
2) presque pour tout x
i
R
r
i
(r
i
r) la densit p
i
(x
i
, ) est deux fois continument
drivable par rapport dans un voisinage V

= :[[
0
[[ ;
3) on peut driver deux fois par rapport sous le signe des intgrales :

R
r
i

p(x
i
, )dx
i
=

R
r
i
p(x
i
,
0
)dx
i
= 0,

R
r
i

2
p(x
i
,
0
)dx
i
=

R
r
i

p(x
i
,
0
)dx
i
= 0;
4) la matrice lim
n
1
n
I
n
(
0
) = I
n
(
0
) est dnie positive.
5) existent des fonctions non-negatives h
i
et b, telles que pour presque tous x
i
R
r
i
et
tous V

[[

2

2
ln p
i
(x
i
, )

2

2
ln p
i
(x
i
,
0
) [[h
i
(x
i
)b(),
129
E

0
sup
i
h(X
i
) < , b(
0
) = 0,
la fonction b est continue en
0
.
6) il existe un nombre positif > 0, tel que
lim
n
1
n
1+
n

i=1
E

0
[[

2

2
ln p
i
(X
i
,
0
) [[
1+
= 0.
Alors il existe une suite des estimateurs

n
telle que
P(U(X,

n
) = 0) 1,

n
P

0
. (30)
Supposons, de plus, que
7) E

0
sup
i
[[ f racln p
i
(X
i
,
0
) [[
2+
< .
Alors

n(

0
)
d
N
m
(0, I
1
(
0
)). (31)
Dmonstration. Soit B
n
c
un voisinage de
0
dni par (3). De mme que dans le thorme
prcedant la condition 4) implique que B
n
c

0
et que B
n
c
V

, si n est grand.
Pour tout B
n
c
crivons le development (5). La condition 5) implique
E

0
[[
1
n
(

I
n
(

I
n
(
0
)) [[
E

0
[[

2

2
ln p
i
(X
i
,

)

2

2
ln p
i
(X
i
,
0
) [[
E

0
sup
i
h
i
(X
i
) sup
B
n
c
b() 0,
donc la convergence (7) a lieu.
La condition 6) et la loi de grands nombres impliquent
1
n
(

I
n
(X,
0
) I
n
(
0
)) =

1
n
n

i=1
_

2

2
ln p
i
(X
i
,
0
) E

0
_

2

2
ln p
i
(X
i
,
0
)
__
P
0.
Cette convergence et la convergence (7) impliquent
1
n

I
n
(

) =
1
n
I
n
(
0
) +o
P
(1).
Le reste de dmonstration de la consistence est le mme comme dans Thorme.
Dmontrons la normalit asymptotique. On crit lgalit (16). La condition 5) implique
que
1
n
[[

1
0

I
n
(
0
+t(

0
))dt

I
n
(
0
) [[
130
sup
i
h
i
(X
i
)

1
0
b(
0
+t(

0
))dt
P
0.
Donc
1

n
U(
0
) =
_
1
n
I
n
(
0
) +o
p
(1)
_

n(

0
).
Notons
Y
i
=

ln p
i
(X
i
,
0
).
Soit a R
m
0. Alors
a
T
U(
0
) =
n

i=1
a
T
Y
i
, E(a
T
Y
i
) = 0,
Var

0
(a
T
U(
0
)) = a
T
I
n
(
0
)a.
Alors
a
T
U(
0
)
a
T
I
n
(
0
)a
d
N(0, 1),
si la condition de Liapunov

n
i=1
E [ a
T
Y
i
[
2+
(a
T
I
n
(
0
)a)
1+/2
0
est vrie. Mais lingalit
E [ a
T
Y
i
[
2+
[[ a [[
2+
Esup
i
[[ Y
i
[[
2+
implique que

n
i=1
E [ a
T
Y
i
[
2+
(a
T
I
n
(
0
)a)
1+/2

n

[[ a [[
2+
(a
T
1
n
I
n
(
0
)a)
1+/2
Esup
i
[[ Y
i
[[
2+
0,
car lesprance la droite est nie daprs la condition 7), la matrice I(
0
) est dnie
positive et donc
a
T
1
n
I
n
(
0
)a a
T
I(
0
)a > 0,
do on tire que pour tout a R
m
0
1

n
a
T
U(
0
)
d
N
m
(0, a
T
I(
0
)a)
et donc
1

n
I
1
(
0
)U(
0
)
d
N(0, I
1
(
0
)),
1

n
_
1
n
I
n
(
0
)
_
1
U(
0
)
d
N(0, I
1
(
0
)),
do on tire que

n(

0
) =
131
1

n
_
1
n
I
n
(
0
) +o
P
(1)
_
1
U(
0
)
d
N
m
(0, I
1
(
0
)).
2.18 Proprits asymptotiques du rapport de vraisemblance
Thorme. Sous les conditions du thorme on a
2ln
L(X,
0
)
L(X,

n
)
d

2
(m).
Dmonstration. Dapr la formule de Taylor
lnL(X,
0
) lnL(X,

n
) =U
T
(X,

n
)(
0

n
)
1
2
(

0
)
T

I
n
(X,

(X))(

0
) =

1
2

n(

0
)
T
1
n

I
n
(X,

(X))

n(

0
)
o

(X) est un point sur la ligne entre


n
et
0
et
[[

(X)
0
[[[[

0
[[
P
0,
donc

(X)
P

0
.
Comme dans la dmonstration du thorme (voir) , on a
1
n

I
n
(

)
1
n

I
n
(
0
)
P
0. (1)
Donc
1
n

I
n
(

) =
1
n

I
n
(
0
) +o
P
(1) = I
1
(
0
) +o
P
(1).
et
2(lnL(X,
0
) lnL(X,

n
)) =

n(

0
)
T
I
1
(
0
)

n(

0
) +o
P
(1).
La convergence

n(

0
)
d
Z =N
m
(0, I
1
1
(
0
))
implique que
2(lnL(X,
0
) lnL(X,

n
))
d
Z
T
I
1
(
0
)Z
2
(m).
Soit
= (
1
,
2
) : G =G
1
G
2
R
k
R
mk
une bijection continument drivable. Notons par : G
1
G
2
la fonction inverse.
Soient g
10
un point dans G
1
et
0
un sous-ensemble de , dni par

0
= :
1
() = g
10
= : = (g
10
, g
2
), g
2
G
2
. (2)
Exemple 1. Soit

1
() =
1
= (
1
, . . . ,
k
),
2
() =
2
= (
k+1
. . . ,
m
)
132
des projection de
= (
1
, . . . ,
m
),
1

1
,
2

2
, =
1

2
.
Alors () = , () = et

0
= :
1
=
10
= : = (
10
,
2
),
2

2
,
o g
10
=
10
est une valeur de
1
xe.
Exemple 2. Soit k = 1,

1
() = ln
1
,
2
() =
2
= (
2
, . . . ,
m
).
Alors
() = (ln
1
,
2
), (g
1
,
2
) = (e
g
1
,
2
)
et

0
= : ln
1
= g
10
= : = (e
g
10
,
2
),
2

2
.
Exemple 3. Soit k = 1,

1
() =
1

2
,
2
() =
2
.
Alors
() = (
1

2
,
2
), (g
1
,
2
) = (g
1
+
2
,
2
)
et

0
= :
1

2
= g
10
= : = (g
10
+
2
,
2
),
2

2
.
Exemple 4. Soit k = 1,

1
() =
1
/
2
,
2
() =
2
.
Alors
() = (
1
/
2
,
2
), (g
1
,
2
) = (g
1

2
,
2
)
et

0
= :
1
/
2
= g
10
= : = (g
10

2
,
2
),
2

2
.
Thorme Supposons que les conditions du Thorme prcdent sont vris et
0
est
lensemble dni par (2). Si
0

0
alors
R(X, g
10
) =2ln
sup

0
L(X, )
sup

L(X, )
=2ln
sup
:
1
()=g
10
L(X, )
L(X,

n
)
d

2
(k),
i.e. pour tout x R
P

0
(R(X, g
10
) x) F

2
k
(x).
133
Dmonstration. On a
sup

0
L() = sup
:=(g
10
,g
2
),g
2
G
2
L()
= sup
g
2
:g
2
G
2
L((g
10
, g
2
)) = sup
g
2
:
2
G
2
L

(g
2
),
o L

(g
2
) = L((g
10
, g
2
)). La v.a. L

(X, g
2
) est la fonction de vraisemblance pour le mo-
dle statistique
X f

(x, g
2
), g
2
G
2
,
o f

(x, g
2
) = f (x, (g
10
, g
2
)).
La consistance de

n
implique que
I
1
(
0
)

n(

0
) =
1

n
U(
0
) +o
P
(1), (3)
donc

n(

0
) = I
1
1
(
0
)
1

n
U(
0
) +o
P
(1). (4)
Ce rsultat implique que
2(lnL(X,

n
) lnL(X,
0
)) =

n(

0
)
T
I
1
(
0
)

n(

0
) +o
P
(1)
=
1

n
U
T
(
0
)I
1
1
(
0
)I
1
(
0
)I
1
1
(
0
)
1

n
U(
0
) +o
P
(1)
=
1

n
U
T
(
0
)I
1
1
(
0
)
1

n
U(
0
) +o
P
(1). (5)
De mme, notant
g
2
n
= g
2
n
(g
10
, X)
lEMV de g
2
sous notre modle, on a
2(lnL

(X, g
2n
) lnL

(X, g
20
))
=
1

n
(U

)
T
(g
20
)(I

1
)
1
(g
20
)
1

n
U

(g
20
) +o
P
(1). (6)
La fonction score est
U

(g
2
) =
lnL

(g
2
)
g
2
=
lnL((g
10
, g
2
))
g
2
=
(g
10
, g
2
)
g
2
U((g
10
, g
2
)) =
A(g
0
)U((g
10
, g
2
)), (7)
o
A(g
10
, g
2
) =
(g
10
, g
2
)
g
2
.
En particulier,
U

(g
20
) = A(g
0
)U(
0
), (8)
134
La matrice dinformation de Fisher en g
20
est
I

1
(g
20
) = E

0
U

(g
20
)(U

)
T
(g
20
) =
A(g
0
)E

0
U(
0
)U
T
(
0
)A(g
0
)
T
= A(g
0
)I
1
(
0
)A(g
0
)
T
. (9)
Les galits (7) et (9) impliquent
2(lnL(X,

n
) lnL

(X, g
2n
)) =
1

n
U
T
(
0
)I
1
1
(
0
) A
T
(g
0
)(I

1
)
1
(g
20
)A(g
0
)
1

n
U(
0
). (10)
La convergence
1

n
U(
0
)
d
Z N(0, I
1
(
0
))
implique que
2(lnL(X,

n
) lnL

(X, g
2n
))
d
Z
T
I
1
1
A
T
(I

1
)
1
AZ. (11)
La v.a. limite est une forme quadratique des v.a. normales. On va utiliser le rsultat (voir)
qui dit que si
Y N(0, )etBB = B, tr(B) = k,
alors Y
T
BY
2
k
. Dans notre cas
(I
1
1
A
T
(I

1
)
1
A)I
1
(I
1
1
A
T
(I

1
)
1
A) =
I
1
1
A
T
(I

1
)
1
AA
T
(I

1
)
1
A
+A
T
(I

1
)
1
AI
1
A
T
(I

1
)
1
A = I
1
1
A
T
(I

1
)
1
A, (12)
car AI
1
A
T
= I

1
. Le rang
tr((I
1
1
A
T
(I

1
)
1
A)I
1
) =
tr(E
m
A
T
(I

1
)
1
AI
1
) = mtr((I

1
)
1
AI
1
A
T
) = mtr(E
mk
) = k. (13)
Do le rsultat du thorme.
Corollaire. Sous les hypothses du thorme
U
T
((g
10
, g
2n
))

I
1
n
((g
10
, g
2n
))U((g
10
, g
2n
))
d

2
k
. (14)
Dmonstration. Notons que
1

n
U((g
10
, g
2n
)) =
1

n
U((g
10
, g
20
)) +o
P
(1) =
1

n
U(
0
) +o
P
(1), (15)
n

I
1
n
((g
10
, g
2n
)) = nI
1
n
((g
10
, g
2n
)) +o
P
(1)
= I
1
1
((g
10
, g
2n
)) +o
P
(1) = I
1
1
(
0
) +o
P
(1). (16)
135
Lgalit U

( g
2n
) = 0, les galits (15) et (16) impliquent
U
T
((g
10
, g
2n
))

I
1
n
((g
10
, g
2n
))U((g
10
, g
2n
))
=
1

n
U
T
((g
10
, g
2n
))I
1
1
((g
10
, g
2n
))
1

n
U((g
10
, g
2n
))
1

n
U
T
( g
2n
)(I

1
)
1
( g
2n
)
1

n
U

( g
2n
) +o
P
(1) =
1

n
U
T
((g
10
, g
2n
))I
1
1
((g
10
, g
2n
))
A
T
( g
2n
)(I

1
)
1
( g
2n
)A( g
2n
)
1

n
U((g
10
, g
2n
)) +o
P
(1) =
1

n
U
T
(
0
)I
1
1
(
0
) A
T
(g
0
)(I

1
)
1
(g
20
)A(g
0
)
1

n
U(
0
) +o
P
(1)
d

2
k
.
Le cas particulier important est, quand
g
1
() =
(1)
= (
l
1
, . . . ,
l
k
) et g
2
() =
(2)
= (
s
1
, . . . ,
s
mk
)
o (l
1
, . . . l
k
, s
1
, . . . s
mk
) est une permutation de (1, . . . , m),
1 l
1
. . . l
k
m, 1 s
1
. . . s
mk
m.
. Dans ce cas
A =
_

(2)
_
= [a
i j
]
(mk)m
,
o
a
i j
=
_
1, si (i, j) = (l, s
l
) (l = 1, . . . , mk),
0, sinon.
Notons que les s
1
, . . . , s
mk
composantes de U(
(1)
0
,

(2)
n
) sont gales zero, car
0 =U

(2)
n
) = AU(
(1)
0
,

(2)
n
) = (U
s
1
(
(1)
0
,

(2)
n
), . . . ,U
s
mk
(
(1)
0
,

(2)
n
))
T
.
Posons
U
l
1
,...,l
k
(
(1)
0
,

(2)
n
) = (U
l
1
(
(1)
0
,

(2)
n
), . . . ,U
l
k
(
(1)
0
,

(2)
n
))
T
et A
i
1
...i
k
(
(1)
0
,

(2)
n
) la sous-matrice de

I
1
n
(
(1)
0
,

(2)
n
)
tante sur intersection de l
1
, . . . , l
k
-mes lignes et l
1
, . . . , l
k
-mes colognes. Donc
U
T
l
1
,...,l
k
(
(1)
0
,

(2)
n
)A
i
1
...i
k
(
(1)
0
,

(2)
n
)U
T
l
1
,...,l
k
(
(1)
0
,

(2)
n
)
d

2
k
.
21. Exemples et remarques
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon lognormalle LN(,
2
),
X
i
p(x; ,
2
) =
1
x

2
e

1
2
2
(lnx)
2
1
]0,[
(x), R
1
,
2
> 0.
136
Remarqons que lnX
i
suit une loi normale N(,
2
). On peut montrer que
a
1
= EX
1
= e
+
2
/2
, a
2
= EX
2
1
= e
2+2
2
.
Daprs la mthode des moments pour estimer et
2
il faut rsoudre le systme
_
e
+
2
/2
=

X
n
=
1
,
e
2+2
2
=
1
n

n
i=1
X
2
i
=
2
,
ce qui est quivalent
_
+
2
/2 = ln
1
,
+2
2
= ln
2
,
do on trouve les estimateurs
2
n
et
n
:

2
n
= ln
2
ln
2
1
= ln
_
s
2
n

X
2
n
+1
_
,
n
= ln

X
2
n
_
s
2
n
+

X
2
n
,
o
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
est la variance de la loi empirique.
Exemple 2. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
p(x; ) =
1

_
2

exp
x
2
2
2
1
]0,[
(x), x R
1
, =]0, [.
On peut montrer que
EX
1
=
_
2

, EX
2
1
=
2
, VarX
2
1
=
2
2

.
Pour estimer par la mthode des moments on considre lquation

_
2

=

X
n
,
do on obtient lestimateur

n
=
_

2

X
n
.
Il est claire que E

n
= , i.e.

n
est un estimateur sans biais pour , et comme
Var

X
n
=

2
n
_
1
2

_
,
on en tire que
Var

n
=

2
Var

X
n
=

2
n
_

2
1
_
=

2
n
2
2
=
2
I
n
()
>
1
I
n
()
,
137
o
I
n
() =
2n

2
=nE

2

2
ln p(X
1
; ) = nE
_
3

4
X
2
1

2
_
=
2n

2
est linformation de Fisher sur dans X. De la dernire ingalit on voit bien que lestima-
teur

n
nest pas fcace.
Remarque 1. Du thorme limite central il suit que la suite des variables alatoires

n(

n
)

_
2
2
=

n(

X
n

_
2

_
1
2

, n = 1, 2, ...
est asymptotiquement normale N(0, 1), quand n , i.e. pour les grandes valeurs de n
P
_
_
_

n(

n
)

_
2

x
_
_
_
(x), x R
1
.
Du thorme de Slutsky on tire que les variables alatoires

n(

n
)

n
_
2
2
sont asymptotiquement normales N(0, 1) aussi, i.e.
P
_
_
_

n(

n
)

n
_
2
2
x
_
_
_
(x), x R
1
,
si les valeurs de n sont assez grandes.
Nous pouvons utiliser ce rsultat pour estimer par intervalle, puisque
P
_
_
_
x
/2

n(

n
)

n
_
2
2
x
/2
_
_
_
1,
o x
/2
est le quantile suprieur de niveau /2 pour la loi standard normale, 0 < < 0.5,
do on tire que
P
_
x
/2
_
2
2n

_
1

n
_
x
/2
_
2
2n
_
1
et donc
P
_

n
_
1 x
/2
_
2
2n
_

n
_
1+ x
/2
_
2
2n
__
1,
si n est assez grand.
Exemple 3. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
f (x; ) =
1

1
[0,]
(x), =]0, [,
138
i.e. X
i
suit la loi uniforme sur [0, ]. Dans ce cas la fonction de vraisemblance est
L() = L(X; ) =
n

j=1
1

1
[0,]
(X
j
) =
1

n
1
[0,]
(X
(n)
),
puisque P0 X
(1)
X
(n)
= 1, do on tire que X
(n)
est une statistique exhaustive
minimale. Il est vident que

n
= X
(n)
.
Donc, pour estimer , nous pouvons utiliser la statistique

n
= X
(n)
comme estimateur
ponctuel.
Par ailleurs, comme EX
i
= /2 on en dduit que la statistique

n
= 2

X
n
=
2
n
n

i=1
X
i
peut tre considre comme un autre estimateur sans biais de , puisque
E

n
= .
On va comparer les deux estimateurs

n
et

n
. Comme VarX
i
=
2
/12, il sensuit que
Var

n
= Var
_
2
n
n

i=1
X
i
_
=
4
n
2
n

i=1
VarX
i
=

2
3n
= O
_
1
n
_
0, (n ),
et donc du critre de consistance on tire que

n
converge en probabilit vers , i.e.

est une suite consistante destimateurs sans biais de . De plus daprs le thorme central
limite on obtient que pour tout x R
1
P

n
E

n
_
Var

n
x
_
= P

3n(

n
)

x
_
(x), n , (1)
i.e.

n
est une suite destimateurs asymptotiquement normale de paramtres et /

3n.
tudions maintenant la statistique

n
= X
(n)
, qui est lestimateur de maximum de vrai-
semblance de . Tout dabord, on remarque que
P

0 X
(n)
= 1, > 0.
Pour tout t [0, ] on a
P

X
(n)
t = P

X
1
t, ..., X
n
t =
_
t

_
n
= G(t; ), (2)
la densit g(t; ) = G
/
(t, ) de X
(n)
est donc donne par :
g(t; ) = G
/
(t; ) =
n

_
t

_
n1
1
[0,]
(t),
do on tire que
E

X
(n)
= E

n
=
n

0
t
_
t

_
n1
dt =
n
n+1
,
139
E

X
2
(n)
=
n

0
t
2
_
t

_
n1
dt =
n
n+2

2
,
donc
Var

X
(n)
=
n
n+2

n
2
(n+1)
2

2
=
n
(n+2)(n+1)
2

2
= O
_
1
n
2
_
0, n .
On remarque que

n
est une suite consistante destimateurs asymptotiquement sans biais
du paramtre , car pour tout n N

le biais b
n
() de lestimateur

n
est
b
n
() = E

n
) =
n
n+1
=

n+1
0 (n ).
Le risque quadratique R(

n
, ) de

n
est gal
R(

n
, ) = Var

n
+b
n
()
2
=
2
2
(n+1)(n+2)
.
Soit

n
=
n+1
n

n
, n N.
Comme
E

n
= et Var

n
=
(n+1)
2
n
2
Var

n
=

2
n(n+2)
= O
_
1
n
2
_
,
on voit que

n
est une suite consistante destimateurs sans biais du paramtre .
Pour trouver la loi limite de X
(n)
=

n
on remarque que pour les grandes valeurs de n,
VarX
(n)


2
n
2
et donc pour tout x > 0
P

_
0
X
(n)
/n
x
_
= P

_
X
(n)

_
1
x
n
__
=
1P

_
X
(n)

_
1
x
n
__
= 1
_
1
x
n
_
n
1e
x
, (n ). (3)
Choisissons un coefcient de conance P = 1 , o 0 < < 0.5, et donc 0.5 < P < 1,
et, en utilisant (1) et (3), trouvons les deux quantiles x
2
et y

tels que :
P

_
[

n
[
x
2

3n
_
12( x
2
) =P = 1,
P

n
_
1
y

n
_
_
1e
y

=P = 1.
On a donc construit 2 intervalles de conance de niveaux de conance P = 1 pour la
valeur inconnue , bass sur les estimateurs

n
et

n
:

n
_
1+
x
2

3n
_
1

n
_
1
x
2

3n
_
1
140
et

n
_
1
y

n
_
1
de longueurs
l

n
= l(

n
) 2

n
x
2
/

3n et

l
n
= l(

n
)

n
y

/n
respectivement, do on tire que
l

l
n

n
2 x
2

3y

(n ),
car

n
/

n
est trs proche de 1 avec une grande probabilit. Par exemple, si = 0.05, soit
P = 0.95, on a x
2
= 1.96, y

= 2.99 et dans ce cas


l

l
n
0.76

n.
Remarque 2. On voit que
R(

n
, ) = Var

n
=

2
3n
, R(

n
, ) =
2
2
(n+1)(n+2)
,
R(

n
, ) = Var

n
=

2
n(n+2)
,
do on tire que

n
et

n
sont des estimateurs inadmissibles pour par rapport la fonction
de perte quadratique, puisque
R(

n
, ) < R(

n
, ), ,
et pour tout n 2
R(

n
, ) < R(

n
, ), .
Exemple 4. Changeons un peu le problme. Supposons que dans les conditions de lexemple
1 on ait :
f (x; ) =
1

1
]0,[
(x), > 0,
i.e. X
i
suit la loi uniforme sur ]0, [. Alors,
L() =
n

j=1
1

n
1
]0,[
(X
j
) =
1

n
1
]0,[
(X
(n)
), =]0, [.
Donc, X
(n)
est une statistique exhaustive, mais L() na pas de maximum et donc, il nexiste
pas de lestimateur du maximum de vraisemblance pour .
On sait daprs la dnition dun estimateur,

n
: R
n
, quil faut quil prenne ces
valeurs dans , mais ici X
(n)
nappartient pas (X
(n)
est toujour plus petit que ) ; par
consquent dans cet exemple lestimateur de maximum de vraisemblance nexiste pas. On
peut choisir trs proche de X
(n)
, mais pas gal X
(n)
.
Exemple 5. Donnons maintenant un exemple de non unicit de lestimateur de maximum
de vraisemblance li avec une loi uniforme.
141
Soit X = (X
1
, ..., X
n
)
T
,
H
0
: X
i
f (x; ) = 1
[,+1]
(x), = R
1
.
La fonction de vraisemblance est
L() = 1
[,+1]
(X
(1)
)1
[,+1]
(X
(n)
) = 1
[X
(n)
1,X
(1)
]
, = R
1
.
et donc T = (X
(1)
, X
(n)
)
T
est une statistique exhaustive minimale. On remarque que T R
2
,
tandis que = R
1
. Nimporte quel dans lintervalle [X
(n)
1, X
(1)
] peut-tre
considr comme estimateur de maximum de vraisemblance ; en particulier

1
= X
(1)
ou

2
= X
(n)
1.
On note que ni

1
ni

2
ne sont des statistiques exhaustives, mais ce sont des statistiques
ncessaires.
On remarque que cest justement en ces deux points

1
= X
(1)
et

2
= X
(n)
1,
que L() a des ruptures (des sauts). Pour construire estimateur sans biais pour on peut
prendre, par exemple, la statistique

n
=
1
2
(

1
+

2
) =
X
(1)
+X
(n)
1
2
, E

n
= . (4)
On peut montrer que
Var

n
=
1
2(n+1)(n+2)
.
Remarque 3. En prsence dune statistique exhaustive T pour lestimateur de maximum
de vraisemblance

n
=

n
(T) est donc une statistique ncessaire.
Remarque 4. Soit X = (X
1
, X
2
, . . . , X
n
)
T
un chantillon, dont la ralisation observe est
x = (x
1
, x
2
, . . . , x
n
)
T
. Notre problme est de construire une loi empirique, en utilisant le
vecteur des donnes x et le principe du maximum de vraisemblance. Comme les lments
X
i
de lchantillon X sont indpendants, on peut crire que
X
1
= x
1
, X
2
= x
2
, . . . , X
n
= x
n
=
n

i=1
X
i
= x
i
,
donc
PX
1
= x
1
, X
2
= x
2
, . . . , X
n
= x
n
= P
_
n

i=1
X
i
= x
i

_
=
n

i=1
PX
i
= x
i
.
Pour construire une loi empirique il faut choisir les probabilits
p
i
= PX
i
= x
i
0, i = 1, 2, . . . , n,
telles que
p
1
+ p
2
+. . . + p
n
= 1, p
i
0.
142
Le principe du maximum de vraisemlance nous dit quil faut choisir les p
i
de faon que le
produit
n

i=1
p
i
soit maximal. Comme
_
n

i=1
p
i
_
1/n

1
n
n

i=1
p
i
et
n

i=1
p
i
1,
on en dduit que
_
n

i=1
p
i
_
1/n

1
n
,
et donc
n

i=1
p
i

_
1
n
_
n
,
do on trouve que notre solution est
p
1
= p
2
= . . . = p
n
=
1
n
,
et cest donc la loi empirique classique qui donne la meilleure solution au sens du principe
de maximum de vraisemblance.
Remarque 5. (Principe dinvariance de lestimateur de maximum de vraisemblance).
Soit

n
lestimateur de maximum de vraisemblance de , R
n
. Supposons que
nous voulions estimer la valeur g() dune application g : G R
1
. Dans ce cas
g = g(

n
) (5)
est lestimateur de maximum de vraisemblance pour g() .
Par exemple, si
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
est lestimateur du maximum de vraisemblance pour la variance
2
de la loi normale
N(,
2
), quand et
2
sont inconnus, alors
s
n
=

1
n
n

i=1
(X
i


X
n
)
2
est lestimateur de maximum de vraisemblance pour .
Pour dmontrer (29), notons

g
= : , g() = g, g G,
143
i.e.
g
est lorbite de lapplication g(), correspondant une valeur g de g(). Il est vident
que
g
est une partition de ,

gG

g
= ,
g
/
g
= / 0.
Soit
L
g
= sup

g
L(), g G.
Il est vident que
L(

n
) = sup

L() = sup
gG
sup

g
L() = sup
gG
L
g
.
Choisissons
g = g(

n
), g G,
et considrons lorbite
g
,

n

g
.
Comme pour tout g G
sup
gG
L
g
L
g
et, en particulier,
sup
gG
L
g
L
g
= sup

g
L() = L(

n
),
on en tire que L(

n
) = L
g
, et donc (29) est dmontre.
Exemple 5. Soit X = (X
1
, . . . , X
n
)
T
un chantillon
X
i
f (x
i
; ) =
x
i
(1)
1x
i
, x
i
X =0, 1, 0 < < 1.
Supposons que nous voulions estimer g() = 1/. Kolmogorov a montr que parmi les
fonctions de , seuls les polynmes
u
m
() =
m

k=1
a
k

k
, =]0, 1[, 1 m n,
de degr m n, sont estimables, cest--dire peuvent tre estims laide destimateurs
sans biais en termes de la statistique exhaustive
n
=
n

i=1
X
i
. Comme g() = 1/ nest pas
un polynome, il nexiste pas destimateur sans biais pour 1/. Mais comme lestimateur de
maximum de vraisemblance

n
=
n
/n existe pour , du principe du maximum de vraisem-
blance on tire que
T
n
= g(

n
) =
n

n
est lestimateur de maximum de vraisemblance pour 1/. On remarque que E

T
n
nexiste
pas puisque
P

n
= 0 = (1)
n
> 0.
Par ailleurs, comme nous estimons g() = 1/, la borne infrieure dans lingalit de Rao-
Cramer-Frchet est gale
[g
/
()]
I
n
()
=
(1)

4
n
=
1
n
3
,
144
et donc
T
n
AN
_
1

,
1
n
3
_
,
i.e. pour tout x R
1
P

_
_
_

n
3
1
_
n

_
x
_
_
_
(x).
Exemple 6. Soit X = (X
1
, ..., X
n
)
T
un chantillon normale,
X
i
N(, ), =]0, [.
Considrons le problme destimation du paramtre dans ce modle. On remarque que
= EX
i
= VarX
i
.
Dans ce cas la fonction de vraisemblance est
L() = L(X, ) =
1
(2)
n/2
n

i=1
exp
_

1
2
(X
i
)
2
_
=
1
(2)
n/2
exp
_

1
2
n

i=1
X
2
i
+
n

i=1
X
i

n
2
_
=
1
(2)
n/2
exp
_

1
2
n

i=1
X
2
i

n
2
_
exp
n

i=1
X
i
,
do on tire que la statistique
T
n
=
n

i=1
X
2
i
est exhaustive et minimale pour . Il est intressant de noter que la statistique
n

i=1
X
i
= n

X
n
nest pas une statistique exhaustive dans notre problme ! Puisque L() >0 pour tout
et
lim
0
L() = lim

L() = 0,
on en tire que lestimateur du maximum de vraisemblance

n
de est la racine positive de
lquation du maximum de vraisemblance () = 0, o
() =

lnL() =
n
2
+
T
n
2
2

n
2
.
Donc

n
est la racine positive de lquation

2
+
1
n
T
n
= 0,
145
i.e.

n
=
1
2
+
_
1
4
+
1
n
T
n
.
Il est facile de vrier que

P
. En effet, daprs la loi des grands nombres
1
n
T
n
P
E

X
2
1
= Var

X
1
+(E

X
1
)
2
= +
2
,
do, en utilisant le thorme de Slutsky, on tire que

n
P

1
2
+
_
1
4
++
2
=
1
2
+
1
2
+ = .
Remarque 6. Soit X= (X
1
, X
2
, . . . , X
n
)
T
un chantillon, X
i
suit la loi, dont la densit f (x; )
appartient la famille F = f (x; ), o
f (x; ) = h(x)exp
_
n

k=1

k
x
k
+V()
_
, x X, (2.7)
= (
1
,
2
, . . . ,
s
)
T
R
s
, X est un ensemble borelien en R
1
. La famille (6) est tres
riche. Par exemple, la famille des disributions normales N(,
2
), = (,
2
)
T
, appartient
F , la famille des distributions de Poisson appartient F aussi etc. Comme il est connu la
statistique
U
n
=
_
n

i=1
X
i
,
n

i=1
X
2
i
, . . . ,
n

i=1
X
s
i
_
T
est exhaustive pour la famille (6).
Supposons que
1) lensemble X ne dpend pas de paramtre ;
2) la matrice de Hessen

_
_
_
_

j
V()
_
_
_
_
ss
de la fonction V() est positivement dnie sur ;
3) il existe le moment a
s
= E

X
s
1
.
Dans ce cas
gradV() = a() = (a
1
(), a
2
(), . . . , a
s
())
T
,
et donc la statistique T =
1
n
U
n
est le meilleur estimateur sans biais pour a(), i.e.
E

T
n
= a(),
ce qui nous permet destimer (trouver lestimateur

n
par la mthode des moments de
faon unique de lquation T
n
= a() dans les termes de la statistique exhaustive U
n
).
De lautre cot les conditions 1)3) sont sufsantes (voir, par exemple, Zacks, 1971) pour
lexistence de lestimateur du maximum de vraisemblance

n
:
L(

) = sup

L(), o L() =
n

i=1
f (X
i
, ),
146
et pour la famille (6) lestimateur

n
est la racine unique de la mme quation T
n
= a(),
et donc de ce fait on tire que pour la famille exponentielle (6) la mthode du maximum
de vraisemblance et la mthode des moments donnent le mme estimateur

n
=

n
pour le
paramtre .
Exemple 7. Soit X = (X
1
, . . . , X
n
)
T
un chantillon, X
i
suit la loi normale N(,
2
), =
(,
2
)
T
. Dans ce cas la statistique

n
=
_

X
n
, s
2
n
_
T
est lestimateur du maximum de vraisemblance pour et elle-mme nous donne lestima-
teur par la mthode des moments.
Exemple 8. Soit X= (X
1
, . . . , X
n
)
T
un chantillon, X
i
suit la loi de Poisson de paramtre
, =] , +[ :
P

X
i
= k =

k
k!
e

, k = 0, 1, 2, . . . .
Dans ce cas la statistique
n

i=1
X
i
est exhaustive pour le paramtre et donc la moyenne

X
n
de la loi empirique est le meilleur estimateur sans biais pour et en mme temps

X
n
est
lestimateur du maximum de vraisemblance pour .
Exemple 9. On a n expriences indpendantes de Bernoulli avec trois tats possibles
E
1
, E
2
, E
3
, E
1

E
2

E
3
= , E
i

E
j
= / 0, dont les probabilits sont
_
_
_
P(E
1
) = p
1
() = ,
P(E
2
) = p
2
() = 2,
P(E
3
) = p
3
() = 13,
o 0 < < 1/3. Trouver lestimateur du maximum de vraisemblance

n
pour .
Solution. Soit = (
1
,
2
,
3
)
T
le vecteur des frquences observes, n =
1
+
2
+
3
- le
nombre des preuves. Comme la distribution du vecteur est trinomiale des paramtres n
et p = (p
1
, p
2
, p
3
)
T
, p
i
= p
i
(), la fonction de vraisemblance L() est
L() =
n!

1
!
2
!
3
!
p

1
1
p

2
2
p

3
3
=
n!

1
!
2
!
3
!

1
(2)

2
(13)

3
, (7)
et donc
lnL() = const +(
1
+
2
)ln+
3
ln(13).
Par consquent lquation de vraisemblance
() =
d lnL()
d
= 0 (8)
scrit de la faon suivante :
() =
d lnL()
d
=

1
+
2


3
3
13
= 0,
do lon tire lquation

1
+
2

=
3
3
13
,
147
dont la racine

n
est

n
=

1
+
2
3n
.
On a trouv lestimateur du maximum de vraisemblance

et donc
_
_
_
p
1
= p
1
(

n
) =

n
,
p
2
= p
2
(

n
) = 2

n
,
p
3
= p
3
(

n
) = 13

n
,
sont les estimateurs du maximum de vraisemblance de p
i
(), i = 1, 2, 3.
En gnral p
i
= p
i
() sont des fonctions de plus compliqes et dans ce cas lquation de
vraisemblance (8) nest pas si facile rsoudre. Par exemple, dans notre cas, que lon vient
de considrer, on a
() =
d lnL()
d
=
1
p
/
1
()
p
1
()
+
2
p
/
2
()
p
2
()
+
3
p
/
3
()
p
3
()
= 0. (9)
Comme
p
1
() + p
2
() + p
3
() 1,
on a
p
/
1
() + p
/
2
() + p
/
3
() 0 et p
//
1
() + p
//
2
() + p
//
3
() 0,
et de (1) on tire que
d
2
d
2
lnL() =

1
_
p
//
1
()
p
1
()

_
p
/
1
()
p
1
()
_
2
_
+
2
_
p
//
2
()
p
2
()

_
p
/
2
()
p
2
()
_
2
_
+
3
_
p
//
3
()
p
3
()

_
p
/
3
()
p
3
()
_
2
_
.
Pour trouver une bonne aproximation de la racine

n
de lquation (9), nous pouvons appli-
quer la procdure suivante (the scoring method of Fisher). Soit
p
i
=

i
n
, i = 1, 2, 3, (10)
les estimateurs de maximum de vraisemblance pour des probabilits p
i
(). Parmi ces trois
quations p
i
() = p
i
(par rapport ) on choisit la plus simple do lon tire la solution

0n
, que lon peut prendre comme approximation initiale pour lestimateur du maximum de
vraisemblance

n
. Comme dans notre cas linformation de Fisher
I
n
() =E
_
d
2
d
2
lnL()
_
est gale
I
n
() = n
_
(p
/
1
())
2
p
1
()
+
(p
/
2
())
2
p
2
()
+
_
p
/
3
()
_
2
p
3
()
_
,
on trouve une nouvelle approximation

1n
, qui est donne par la formule suivante :

1n
=

0n
+
1
I
n
(

0n
)
d lnL()
d

0n
. (11)
148
On peut montrer que lestimateur

1n
est asymptotiquement quivalent lestimateur du
maximum de vraisemblance

n
, cest--dire si n , alors
_
I
n
()
_

1n

_
suit dans la limite la loi normale de paramtre 0 et 1,
lim
n
_
_
I
n
()
_

1n

_
< x
_
= (x).
Par exemple, soit p = (p
1
, p
2
, p
3
, p
4
)
T
, o
_

_
p
1
= p
1
() = 2,
p
2
= p
2
() = 0.54,
p
3
= p
3
() = 0.5+,
p
4
= p
4
() = .
Il est clair que 0 1/8. Comme la fonction de vraisemblance L() est gale
L() =
n!

1
!
2
!
3
!
4
!
p

1
1
p

2
2
p

3
3
p

4
4
=
n!

1
!
2
!
3
!
4
!
(2)

1
(0.54)

2
(0.5+)

4
=
n!2

1
!
2
!
3
!
4
!

1
+
4
(0.54)

2
(0.5+)

3
et donc on trouve que la statistique T = (
1
+
4
,
2
,
3
)
T
est exaustive pour le paramtre
. Supposons que n = 1000 et que lon ait observ

1
= 195,
2
= 110,
3
= 590,
4
= 105.
Notons
q
1
= p
1
+ p
4
, q
2
= p
2
, q
3
= p
3
et
1
=
1
+
4
,
2
=
2
,
3
=
3
.
Avec ces notations la fonction de vraisemblance L() peut scrire de la manire suivante :
L() = const(3)

1
(0.54)

2
(0.5+)

3
,
do lon dduit
lnL() = ln(const) +
1
ln+
2
ln(0.54) +
3
ln(0.5+),
d lnL()
d
=

1


4
2
0.54
+

3
0.5+
et donc on obtient lquation du maximum de vraisemblance

1
(0.54)(0.5+) 4
2
(0.5+) +
3
(0.54) = 0,
qui est quivalente la suivante :
160
2
+153 = 0,
149
dont les solutions
1
et
2
sont donnes par les formules suivantes :

1
=
15+

225+16012
320
et
1
=
15

225+16012
320
.
Comme 0 < < 1/8, on en dduit que lestimateur du maximum de vraisemblance

n
est
gale
1
et donc on obtient que

n
=
1
=
15+46.31
320

= 0.0978.
Comme
d
2
d
2
lnL() =

16
2
(0.54)
2


3
(0.5+)
2
,
et E
i
= nq
i
, on trouve que
I
n
() =E
_
d
2
d
2
lnL()
_
= n
_
3

2
+
16
0.54
+
1
0.5+
_
=
n
_
3

+
32
18
+
2
1+2
_
.
Comme on la dj not la variable alatoire

_
1
I
n
()
=
_
I
n
()(

n
)
suit la limite quand n la loi normale N(0, 1). Du thorme de Cramer on dduit que

_
1
I
n
(

n
)
=
_
I
n
(

n
)(

n
)
suit aussi la limite la loi normale N(0, 1).
Nous pouvons aussi utiliser le scoring mthode de Fisher pour trouver un estimateur de
. Si on prend

= 0.1 comme approximation initiale, on trouve


I
n
(

0
) =
1150000
6
et donc en utilisant la formule (35)

1n
=

0
+
1
I
n
(

0
)
d lnL()
d

0
,
on trouve que

1n
= 0.1+
6
1150000
_
300
440
0.1
+
590
0.6
_
= 0.10.0022 = 0.0978 =

n
.
Admettons que quelquun suppose = 0.11. Avec quelle certitude peut-on afrmer
daprs les donnes observes que = 0.11 ?
150
Comme nous le savons
P
_
_
I
n
(

n
)[

n
[ > 0.0121
_
I
n
(

n
)
_

= 2
_
1
_
0.0121
_
I
n
(

n
)
__
=
2[1(5.297)] = 5 10
7
,
ce qui nous permet dafrmer linvraisemblance que = 0.11.
2.19 Decomposition orthogonale de Fisher
Supposons que les rsultas dune exprience soient prsents par la matrice
A =|a
i j
|, i I =1, . . . , I; j J =1, . . . , J.
Les valeurs observes a
i j
nous pouvons considrer comme les valeurs a(i, j) dune
fonction a(, ), dtermine sur lensemble I J. On peut poser une question : est ce que
la fonction a(, ) est constante,
a(i, j) = a
i j
= const = a
..
, (1)
ou peut-tre cest une fonction dune variable, par exemple i,et qui prend les valeurs a
i.
:
a(i, j) = a
i.
= a
..
+
i.
, (2)
o

i.
= a
i.
a
..
, (3)
ou peut-tre cest une fonction prsente comme la somme de deux fonctions dune variable
chacune
a(i, j) = a
i j
= a
i.
+a
. j
a
..
= a
..
+
i.
+
. j
,
avec
. j
= (a
. j
a
..
), ou peut-tre cest une fonction de deux variables avec une interaction
entre les arguments i et j :
a(i, j) = a
i j
= a
..
+
i.
+
. j
+
i j
, (4)
o

i j
= a
i j
a
i.
a
. j
+a
..
. (5)
Toutes ces questions sont importantes si nous voulons construire une approximation pour la
fonction a(, ) et suivant linformation que nous avons nous pouvons proposer la meilleur
approximation dans un certain sense.
Nous pouvons toujours compter que nous avons une fonction qui est prsente par la
formule () et donc il nous faut faire le meilleur choix des constantes, en utilisant des don-
nes.
Si nous avons la fonction de deux variables, alors il se peut quil soit intressant de
lapproximer par une fonction dune variable ou par la somme de deux fonctions dune
151
variable chacune, avec ou sans interactions. On cherchera lapproximation dans le sens de
moindres carrs :
I

i=1
J

j=1
(a
i j
)
2
min. (6)
Le premier avoir considr ce problme en statistique est Sir R.Fisher qui a propos de
choisir les constantes suivantes :
a
i.
=
1
J
J

j=1
a
i j
, a
. j
=
1
I
I

i=1
a
i j
, (7)
a
..
=
1
IJ
I

i=1
J

j=1
a
i j
=
1
J
J

j=1
a
. j
=
1
I
I

i=1
a
i.
. (8)
Donc dans le cas o nous cherchons la meilleure approximation par la fonction dune va-
riable, par exemple qui ne dpend que de i, daprs Fisher il faut choisir = a
i.
. Si nous
cherchons une approximation par la somme de deux fonction dune variable chacune sans
leurs interactions, alors il nous faut choisir
= a
i.
+a
. j
a
..
= a
..
+(a
i.
a
..
) +(a
. j
a
..
), (9)
etc. On fait ce problme de la mme faon dans le cas continue. Par exemple, on peut
introduire
a
..
=
1
IJ
I

0
J

0
a(i, j)did j, a
i.
=
1
I
J

0
a(i, j)d j, (10)
i I = [0, I], j J = [0, J].
On peut gnraliser les rsultats de Fisher pour le cas de lespace de plus haute dimen-
sion. Notons
[a
i j
] = (a
11
, a
12
, ..., a
1J
, a
21
, ..., a
2J
, ..., a
I1
, ..., a
IJ
)
T
le vecteur-colonne de dimension IJ, [a
i j
] R
IJ
, cest--dire tous les lments de la ma-
trice A sont prsents en forme dun vecteur de R
IJ
, et soit [a
..
] le vecteur de mme espace
R
IJ
, dont tous les lments sont gaux a
..
. Nous pouvons dire que
[a
..
] = a
..
1
IJ
, o 1
IJ
= (1, 1, . . . , 1)
T
R
IJ
. (11)
Dans ce cas nous pouvons crire que
[a
i j
] = [a..] +[a
i j
a
..
], where [a
i j
a
..
] = [a
i j
] [a
..
]. (12)
Soit L
1
est le sousespace linaire engendr par le vecteur [a
..
], L
1
R
IJ
. Par les calcules
directes on peut montrer, en utilisant les formules (6) et (7), que les vecteurs [a
..
] et [a
i j
a
..
]
sont orthogonaux, cest--dire
[a
..
]
T
[a
i j
a
..
] = 0, (13)
et donc le vecteur [a
i j
a
..
] L
IJ1
et le sousespace
L
IJ1
= R
IJ
L
1
est ortogonale L
1
,
R
IJ
= L
1
L
IJ1
, (14)
152
et de cette faon on a montr que la fonction a
..
donne la meilleure (dans le sens (6))
approximation de notre fonction a(i, j) par la constante.
Maintenant on considre le second problme : quelle fonction dune variable, par exemple
i, donne la meilleure approximation pour [a
i j
a
..
] L
IJ1
. On a lidentit
[a
i j
a
..
] = [a
i.
a
..
] +[a
i j
a
i.
], (15)
do on dduit que si nous voulons construire une approximation qui ne dpend que de j,
par exemple, alors on revient de nouveau au problme prcdent, car les vecteurs
[a
i.
a
..
] = [a
i.
] [a
..
] et [a
i j
a
i.
] = [a
i j
] [a
i.
] (16)
sont orthogonaux :
[a
i.
a
..
]
T
[a
i j
a
i.
] = 0. (17)
On note que
[a
i.
] = (a
1.
, ..., a
1.
, a
2.
, ..., a
2.
, ..., a
I.
, ..., a
I.
)
T
R
IJ
and
[a
. j
] = (a
.1
, ..., a
.1
, a
.2
, ..., a
.2
, ..., a
.J
, ..., a
.J
)
T
R
IJ
.
On remarque que
I

i=1
(a
i.
a
..
) = 0,
J

j=1
(a
. j
a
..
) = 0.
Puisque pour tout i x, i I,
J

j=1
(a
i j
a
i.
) = 0, (18)
o
a
i.
=
1
J
J

j=1
a
i j
,
on en dduit que
[a
i.
a
..
] L
I1
et [a
i j
a
i.
] L
IJI
= L
I(J1)
, (19)
et que les sousespaces L
I1
et L
I(JI)
sont orthogonaux :
L
I1
L
I(J1)
= L
IJ1
, (20)
et que
L
1
L
I1
L
I(J1)
= R
IJ
(21)
Si nous avanons plus loin de la mme faon on obtient sur le pas suivant lidentit
[a
i j
a
i.
] = [a
. j
a
..
] +[a
i j
a
i.
a
. j
+a
..
], (22)
o
[a
. j
a
..
] L
J1
(23)
et
[a
. j
a
..
]
T
[a
i j
a
i.
a
. j
+a
..
] = 0. (24)
153
Mais comme
[a
i j
a
i.
a
. j
+a
..
] L
IJIJ+1
= L
(I1)(J1)
, (25)
de (6), (9), (14)-(17) et (19) on dduit que
R
IJ
= L
1
L
I1
L
J1
L
(I1)(J1)
, (26)
cest--dire on a reu la dcomposition de R
IJ
en somme directe de quatre sousespaces
orthogonaux, et donc la dcomposition de Fisher nest que la projection du vecteur des
donnes [a
i j
] R
IJ
sur ces sousespaces. De plus nous pouvons dire que la dcomposition
orthogonale de Fisher
[a
i j
] = [a
..
] +[a
i.
a
..
] +[a
. j
a
..
] +[a
i j
a
i.
a
. j
+a
..
], (i = 1, . . . , I; j = 1, . . . , J)
ne dpend que de IJ coefcients, et non pas de 1 +I +J +IJ. En plus du Thorme de
Pythagore on obtient lidentit suivante :
|[a
i j
]|
2
=|[a
..
]|
2
+|[a
i.
a
..
]|
2
+|[a
. j
a
..
]|
2
+|[a
i j
a
i.
a
. j
+a
..
]|
2
,
do on tire lidentit de Fisher :
I

i=1
J

j=1
a
2
i j
= IJa
2
..
+J
I

i=1
(a
i.
a
..
)
2
+I
J

j=1
(a
. j
a
..
)
2
+
I

i=1
J

j=1
(a
i j
a
i.
a
. j
+a
..
)
2
.
On utilise ce fait pour faire un analyse de variances.
2.20 Modle danalyse des variances 2 facteurs.
Suposons que sous lhypothse H
0
on a le modle de rgression daprs lequel
on a I J K observation sont indpendantes
Y
i jk
= +
i
+
j
+
i j
+
i jk
,
i = 1, 2, ..., I; j = I, 2, ..., J; k = 1, 2, ..., K,
o ,
i
,
j
,
i j
sont des constantes inconnues, et

i jk
N(0,
2
).
On note Y = (Y
111
, ...,Y
IJK
)
T
le vecteur dobservation, Y R
IJK
. On suppose que I J.
Dans le cadre de ce modle il faut estimer les paramtres suivants :
, = (
1
, ...,
I
)
T
, = (
1
, ...,
J
)
T
, =[[
i j
[[
IJ
and
2
.
On note

.
=
1
I
I

i=1

i
,
.
=
1
J
J

j=1

j
,
154

i.
=
1
J
J

j=1

i j
, ( j = 1, 2, ..., J);
. j
=
1
I
I

i=1

i j
, ( j = 1, 2, ..., J);

..
=
1
IJ
J

j=1
I

i=1

i j
.
On suppose sans perdre la gnralit que

.
=
.
=
i.
=
. j
=
..
= 0, (i = 1, 2, ..., I; j = 1, 2, ..., J).
Pour tout i et pour tout j on note
X
i j
=Y
i j.
=
1
K
K

k=1
Y
i jk
= (1
T
1)
1
1
T
Y
i j
,
o
Y
i j
= (Y
i j1
, ...,Y
i jK
)
T
, 1 = 1
K
= (1, 1, ..., 1)
T
R
K
.
Notons
X = (X
11
, ..., X
IJ
)
T
, X R
IJ
,
o X
i j
=Y
i j.
, (i = 1, 2, ..., I; j = 1, 2, ..., J). Il est claire que sous H
0
X
i j
= +
i
+
j
+
i j
+
i j.
,
i j.
N(0,

2
K
),
parce que
EY
i jk
= +
i
+
j
+
i j
, k = 1, 2, ..., K,
et donc sous H
0
pour tout k x la fonction de vraisemblance p
k
(, , , ,
2
) du vector
(Y
11k
, ...,Y
IJk
)
T
est donne par la formule suivante :
p
k
(, , , ,
2
) =
1
(2
2
)
IJ/2
exp
_

j=1
I

i=1
(Y
i jk

i j
)
2
2
2
_
.
Puisque sous H
0
les variables
i jk
sont indpendantes et suivent la mme loi normale
N(0,
2
) on en tire que la fonction de vraisemblance du vector dobservations Y est
L(, , , ,
2
) =
1
(2
2
)
IJK/2
exp
_

j=1
I

i=1
K

k=1
(Y
i jk

i j
)
2
2
2
_
=
1
(2
2
)
IJK/2
exp
_
SC
int
2
2
_
exp
_
K
2
2
J

j=1
I

i=1
(X
i j

i j
)
2
_
,
o
SC
int
=
J

j=1
I

i=1
K

k=1
(Y
i jk
X
i j
)
2
=
J

j=1
I

i=1
K

k=1
(Y
i jk
Y
i j.
)
2
.
On voit que la statistique (SC
int
, X)
T
est exhaustive pour (, , , ,
2
)
T
, et que SC
int
et
X = (X
11
, ..., X
IJ
)
T
sont indpendantes. Il est vident que sous H
O
SC
int

2
=
2
(K1)IJ
et X
i j
N(+
i
+
j
+
i j
;

2
K
).
155
En utilisant la dcomposition orthogonale de Fisher on a
X
i j
= X
..
+(X
i.
X
..
) +(X
. j
X
..
) +(X
i j
X
i.
X
. j
+X
..
)
et
|X|
2
=|[X
i j
]|
2
=|[X
..
]|
2
+|[X
i.
X
..
]|
2
+|[X
. j
X
..
]|
2
+|[X
i j
X
i.
X
. j
+X
..
]|
2
,
do on tire lidentit de Fisher Phytagore :
I

i=1
J

j=1
X
2
i j
= IJX
2
..
+J
I

i=1
(X
i.
X
..
)
2
+I
J

j=1
(X
. j
X
..
)
2
+
I

i=1
J

j=1
(X
i j
X
i.
X
. j
+X
..
)
2
.
Maintenant nous pouvons prsenter L(, , , ,
2
) par la faon suivante :
L(, , , ,
2
) =
1
(2
2
)
IJK/2
exp
_
SC
int
2
2
_

exp
_
K
2
2
_
IJ(X
..
)
2
+J
I

i=1
(X
i.
X
..

i
)
2
+I
J

j=1
(X
. j
X
..

j
)
2
+
I

i=1
J

j=1
(X
i j
X
i.
X
. j
+X
..

i j
)
2
__
,
do on obtient les meilleurs estimateurs sans biais (au sens du minimum de risk quadra-
tique) pour ,
i
,
j
,
i j
:
= X
..
,
i
= X
i.
X
..
,

j
= X
. j
X
..
,
i j
= X
i j
X
i.
X
. j
+X
..
.
Pour estimer
2
il faut utiliser la relation
SC
int

2
=
2
(K1)IJ
,
qui nous donne lestimateur

2
=
1
IJ(K1)
SC
int
=
1
IJ(K1)
J

j=1
I

i=1
K

k=1
(Y
i jk
X
i j
)
2
.
Comme nous avons dit nous avons construit MVUEs (voir, Voinov and Nikulin (1996))
puisque
E = EX
..
= , E
i
=
i
, E

j
=
j
,
E
i j
=
i j
, E
2
=
2
.
On considre ici les sommes de carrs suivantes :
SC
ent
= KJ
I

i=1
(X
i.
X
..
)
2
, SC
ent
= KI
J

j=1
(X
. j
X
..
)
2
,
SC
inter
= K
I

i=1
J

j=1
(X
i j
X
i.
X
. j
+X
..
)
2
.
156
On note aussi
SC
tot
=
J

j=1
I

i=1
K

k=1
(Y
i jk
Y
...
)
2
=
J

j=1
I

i=1
K

k=1
(Y
i jk
X
..
)
2
,
o
Y
...
= X
..
=
1
IJK
J

j=1
I

i=1
K

k=1
Y
i jk
.
Dans ce cas on a la relation suivante entre ces sommes de carrs :
SC
tot
= SC
int
+SC
ent
+SC
ent
+SC
inter
.
On remarque que les statistiques SC
int
, SC
ent
, SC
ent
, SC
inter
sont indpendantes.
On considre les trois hypoth` ses suivantes :
H
0
:
1
=
2
= ... =
I
= 0,
H
0
:
1
=
2
= ... =
J
= 0,
H
0
:
1
=
2
= ... =
IJ
= 0.
On remarque que
si H
0
est vraie, alors
SC
ent

2
=
2
I1
,
si H
0
est vraie, alors
SC
ent

2
=
2
J1
,
si H
0
est vraie, alors
SC
inter

2
=
2
(I1)(J1)
.
Pour tester H
0
on calcule la statistique
IJ(K1)SC
ent
(I 1)SC
int
= F
I1,IJ(K1)
.
Pour tester H
0
on calcule la statistique
IJ(K1)SC
ent
(J 1)SC
int
= F
J1,IJ(K1)
.
Pour tester H
0
on calcule la statistique
IJ(K1)SC
inter
(I 1)(J 1)SC
int
= F
(I1)(J1),IJ(K1)
.
Exemple 1. Analyse de variance un facteur. On suppose que lon a mesur les
diamtres de 5 billes. Pour chaque bille on a rpt 5 fois les mesures. On considre lhy-
pothse H
0
selon laquelle
157
1) les 5 valeurs (inconnues) des diamtres de ces 5 billes sont des ralisations de 5
variables alatoires qui sont indpendantes et suivent la mme loi normale N(a,
2
o
).
2) toutes les mesures sont indpendantes, de mme prcision et sans biais.
3) les erreurs alatoires de ces mesures suivent la mme loi normale N(0,
2
), dont la
variance
2
est inconnue.
La Table nous donne les rsultats suivants pour des mesures (en mm). On note x
i j
la
j-me mesure de la bille avec le numro i, et x
i.
la valeur moyenne des mesures pour ce
sujet.
Numro SUJETS
des mesures 1 2 3 4 5
1 12.093 11.996 12.017 12.023 11.900
2 12.097 11.995 12.012 12.026 11.893
3 12.096 11.990 12.014 12.028 11.896
4 12.094 11.991 12.017 12.028 11.899
5 12.100 11.998 12.010 12.021 11.898
Table 1
Il nous faut trouver les meilleurs estimateurs sans biais des valeurs inconnues des dia-
mtres des billes, de a,
2
o
et
2
, et aussi des surfaces des sections de ces 5 billes.
Tout dabord il faut construire la fonction de vraisemblance. Il est clair, que nous pou-
vons considrer le rsultat x
i j
de la j-me mesure de la bille i comme la ralisation dune
variable alatoire X
i j
, o
X
i j
= a+
i
+
i j
, i = 1, 2, . . . , I; j = 1, 2, . . . , J. (1)
Les lments
1
,
2
, . . . ,
I
du vecteur = (
1
,
2
, . . . ,
I
)
T
et
i j
de la matrice = |
i j
|
sont indpendants,
i
suit la loi normale N(0,
2
o
),
i j
suit la loi normale N(0,
2
), les
paramtres a,
2
o
et
2
sont inconnus.
Notons
X
i.
=
1
J
J

j=1
X
i j
, X
..
=
1
IJ
I

i=1
J

j=1
X
i j
=
1
I
I

i=1
X
i.
, (2)
On remarque que dans notre cas
X
1.
= 12.0960, X
2.
= 11.9920, X
3.
= 12.0140,
X
4.
= 12.0252, X
5.
= 11.8972, X
..
= 12.00488.
De plus notons

i.
=
1
J
J

j=1

i j
,
..
=
1
IJ
I

i=1
J

j=1

i j
,
.
=
1
I
I

i=1

i
. (3)
Dans ce cas, lobservation X
i j
peut-tre reprsente comme
X
i j
= X
..
+(X
i.
X
..
) +(X
i j
X
i.
) (4)
et nous pouvons remarquer que
X
i.
= a+
i
+
i.
,
X
..
= a+
.
+
..
,
158
et que
X
i j
X
i.
=
i j

i.
,
X
i.
X
..
= (
i

.
) +(
i.
+
..
), (5)
X
..
a =
.
+
..
.
Comme toutes les variables
1
,
2
, . . . ,
I
,
11
, . . . ,
IJ
sont indpendantes et normales, on a
(
i

.
),
.
,
i j
sont indpendantes,
(
i

.
),
.
, (
i j

i.
),
i.
sont indpendantes, (6)
(
i

.
),
.
, (
i j

i.
), (
i.

..
),
..
sont indpendantes
et de plus la variable alatoire

.
+
..
suit la loi normale N(0,

2
o
I
+

2
IJ
). (7)
La variable alatoire
I

i=1
[(
i

.
) +(
i.

..
)]
2
=
I

i=1
[(
i
+
i.
) (
.
+..)]
2
est distribue comme
(
2
o
+
1
J

2
)
2
I1
,
cest--dire que
1
(
2
o
+
1
J

2
)
I

i=1
[(
i

.
) +(
i.

..
)]
2
=
2
I1
, (8)
et il est vident, que
1

i, j
(
i j

i.
)
2
=
2
I(J1)
. (9)
Par consquent, de (6)-(9) on dduit que
(
.
+
..
)
2

2
o
I
+

2
IJ
+
I

i=1
[(
i
.) +(
i.

..
)]
2

2
o
+
1
J

2
+
1

i, j
(
i j

i.
)
2
=
2
IJ
,
ce qui est quivalent
(X
..
a)
2
1
I
(
2
o
+

2
J
)
+
I

i=1
(X
i.
X
..
)
2

2
o
+

2
J
+
I

i=1
J

j=1
(X
i j
X
..
)
2

2
=
2
IJ
. (10)
On trouve maintenant la fonction de vraisemblance L(a,
2
o
,
2
) de notre chantillon
(X
11
, . . . , X
IJ
)
T
. Lexpression (10) est proportionnelle, un terme additif prs, lnL(a,
2
0
,
2
).
Pour le montrer on remarque que
1

1
(2)
J/2

J
exp
_

1
2
_
1

2
J

i=1
(x
i j
ay
i
)
2
+
y
2
i

2
o
__
dy
i
=
159
1

o
(2)
(J+1)/2

exp
_

1
2
_
1

2
J

j=1
(x
i j
a)
2

2y
i

2
J

j=1
(x
i j
a)+
_
1

2
o
+
J

2
_
y
2
i
__
dy
i
=
1

o
(2)
J/2

J
(
1

2
o
+
J

2
)
1/2
exp
_

1
2
2
J

j=1
(x
i j
a)
2
_

_
exp
_
y
i

2
J

j=1
(x
i j
a)
_
1

2
_
1

2
o
+
J

2
_
1/2
exp
_
1/2
_
1

2
o
+
J

2
_
y
2
i
_
_
dy
i
. (11)
De lautre ct on sait que si une variable alatoire suit la loi normale N(E, Var) de
paramtres E et Var, alors
Ee
it
= expitE
t
2
2
Var. (12)
reprsente la fonction caractristique de . Dans notre cas
=
.
+
..
= X
..
a,
E = 0, Var =
1
1

2
o
+
J

2
, it =
1

2
J

j=1
(x
i j
a)
2
, (13)
et par consquent de (12)-(13) on dduit que lintegrale en (11) est gale
exp
_
_
_
1
2
4
(
1

2
o
+
J

2
)
_
J

i=1
(x
i j
a)
_
2
_
_
_
(14)
et donc
L(a,
2
o
,
2
) =
1
(2)
IJ/2

IJ

I
o
_
1

2
o
+
J

2
_
I/2

exp
_
_
_

1
2
2
I

i=1
J

j=1
(X
i j
a)
2
+
1
2(

2
o
+J
2
)
I

i=1
_
J

j=1
(X
i j
a)
_
2
_
_
_
, (15)
do lon tire que
lnL(a,
2
o
,
2
) = ln(const)
1
2
2
I

i=1
J

j=1
(X
i j
a)
2
+
1
2
_

2
o
+J
2
_
I

i=1
_
J

j=1
(X
i j
a)
2
_
2
. (16)
Mais par ailleurs, de (2)-(5) on dduit
X
i j
a = (X
..
a) +(X
i.
X
..
) +(X
i j
X
i.
),
J

j=1
(X
i j
a) = J(X
..
a) +J(X
i.
X
..
),
160
I

i=1
_
J

j=1
(X
i j
a)
_
2
= IJ
2
(X
..
a)
2
+J
2
I

i=1
(X
i.
X
..
)
2
, (17)
(X
i j
a)
2
= (X
..
a)
2
+(X
i.
X
..
)
2
+(X
i j
X
i.
)
2
+
2[(X
..
a)(X
i.
X
..
) +(X
..
a)(X
i j
X
i.
) +(X
i.
X
..
)(X
i j
X
i.
)],
I

i=1
J

j=1
(X
i j
a)
2
= IJ(X
..
a)
2
+J
I

i=1
(X
i.
X
..
)
2
+
I

i=1
J

i=1
(X
i j
X
i.
)
2
,
et par consquent de (16) et (17) il rsulte que
2lnL(a,
2
o
,
2
) =2ln(const) +
IJ

2
(X
..
a)
2
+
J

2
I

i=1
(X
i.
X
..
)
2
+
1

2
I

i=1
J

j=1
(X
i j
X
i.
)
2

IJ
2

2
o
+
2
J
(X
..
a)
2

J
2

2
o
+
2
J
I

i=1
(X
i.
X
..
)
2
=
2ln(const) +
(X
..
a)
2
1
I
(
2
o
+

2
J
)
+
I

i=1
(X
i.
X
..
)
2

2
o
+

2
J
+
I

i=1
J

j=1
(X
i j
X
..
)
2

2
=
=2ln(const) +
2
IJ
, (18)
comme on le voit partir de (11). De (18) on dduit que
T =
_
X
..
,
I

i=1
(X
i.
X
..
)
2
,
I

i=1
J

j=1
(X
i j
X
i.
)
2
_
T
(19)
est une statistique exhaustive. Il est vident que les meilleurs estimateurs sans biases pour
a,
2
et
2
o
+
2
/J sont
a = X
..
,

2
=
1
I(J 1)
I

i=1
J

j=1
(X
i j
X
i.
)
2
, (20)

2
o
+

2
J
=
1
I 1
I

i=1
(X
i.
X
..
)
2
, (21)
et par consquent, on trouve
a = 12.00488,

2
= 0.00000918,
_

2
= 0.00303, (22)

2
o
+

2
J
= 0.0051400,

2
o
= 0.0051382,
_

2
o
= 0.07168. (23)
Comme
(X
..
a)
2

2
o
I
+

2
IJ
I

i=1
(X
i.
X
..
)
2
(I1)(
2
o
+

2
J
)
=
I(X
..
a)
2
1
I1
I

i=1
(X
i.
X
..
)
2
=

2
1
1
I1

2
I1
= F
1,I1
=t
2
I1
,
161
on a
P
_

I
[X
..
a[

1
I1
I

i1
(X
i.
X
..
)
2

_
F
1,I1
(P)
_

_
= P, (24)
o F
1,I1
(P) est le quantile de niveau P (P > 0.5) de la distribution F 1 et I 1 degrs de
libert, dont on rapelle la dnition :
PF
1,I1
F
1,I1
(P) = P. (25)
Par exemple, si P = 0.95, alors F
1,4
(0.95) = 7.7086. De (24) et (25) on dduit lintervalle
de conance
[aX
..
[

1
I
F
1,I1
(P)
1
I 1
I

i=1
(X
i.
X
..
)
2
(26)
de coefcient de conance P. Par consquent, on trouve lintervalle de conance pour le
paramtre a :
11.9159 < a < 12.0939
En continuant les calculs, lis la table 1 des donnes initiales, on obtient la table suivante :
i
1
4
J

i=1
(X
i j
X
i.
)
2
7510
7
11510
7
9510
7
9710
7
7710
7
Table 2.
De plus, on a
I

i=1
(X
i.
X
..
)
2
= 0.020559808,
1
4

i=2
I(X
i.
X
..
)
2
= 0.005139952,

1
4
I

i=1
(X
i.
X
..
)
2
= 0.071693458557946,
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 0.0001836,
1
20
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 0.00000918,

_
1
20
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 0.003029851481508,
1
4
I

i=1
(X
i.
X
..
)
2

1
100
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 0.005138116,

_
1
4
I

i=1
(X
i.
X
..
)
2

1
100
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 0.071680652898814,
1
4
I

i=1
(X
i.
X
..
)
2
1
20
I

i=1
J

j=1
(X
i j
X
i.
)
2
= 559.9076252723311.
162
La surface de section de la bille de numro i est gale

4
(a+
i
)
2
,
et lesprance de la section de nimporte quelle bille est gale

4
E(a+
i
)
2
=

4
(a
2
+E
2
i
) =

4
(a
2
+
2
o
),
car E
i
= 0 et Var
i
= E
2
i
. Mais comme
EX
2
..
= VarX
..
+(EX
..
)
2
=

2
o
I
+

2
IJ
+a
2
,
on obtient lestimateur sans biais de

4
(a
2
+
2
o
) :

4
_
X
2
..

2
o
I

2
IJ

2
o
_
=

4
[(12.00488)
2
+0.00514
0.00514
5
] = 113.1926.
Par ailleur, on a
a+
i

= X
i.
, EX
i.
[
i
= a+
i
et donc
VarX
i.
[
i
=

2
J
, EX
2
i.
[
i
= VarX
i.
[
i
+(a+
i
)
2
,
et donc lestimateur sans biais pour la surface de la section de la bille de numro i est

4
_
X
2
i.

2
J
_
=

4
_
X
2
i.
0.0000018
_
.
Les valeurs numriques de ces estimateurs pour les billes de numros 1,2,3,4,5 sont
114.91413, 112.32974, 113.36138, 113.57284, 111.16790
respectivement (la moyenne arithmtique est gale 113.06920). Enn, on remarque que

2
< 0.007926
2
o
et
2
> 0.00127
avec le coefcient de conance P = 0.98.
2.21 Modle exponentiel. Analyse statistique.
Soit X = (X
1
, . . . , X
n
)
T
un chantillon dune loi exponentielle E(, ), i.e.
X
i
f (x; ), = = (, )
T
: [[ < , > 0,
163
o
f (x; ) =
_
_
_
1

exp
_

_
, x ,
0, sinon.
Il est vident que
f (x; ) =
1

exp
_

_
H(x ), (2.1)
H(x) =
_
1, si x 0,
0, si x < 0.
On sait que
EX
i
= + et VarX
i
=
2
. (2.2)
Notons X
(n)
= (X
(1)
, X
(2)
, . . . , X
(n)
)
T
le vecteur des statistiques dordre associ au vecteur
de observation X,
PX
(1)
< X
(2)
< < X
(n)
= 1. (2.3)
Il est facile de montrer que T = (X
(1)
, S)
T
est une statistique exhaustive pour le paramtre
, o
X
(1)
= min(X
1
, X
2
, . . . , X
n
) et S =
n

i=2
(X
(i)
X
(1)
). (2.4)
En effet, la fonction de vraisemblance de X est
L(X; ) =
n

i=1
f (X
i
; ) =
1

n
exp
_

i=1
(X
i
)
_
H(X
(1)
) =
=
1

n
exp
_

i=1
(X
(i)
)
_
H(X
(1)
). (2.5)
Comme
n

i=1
X
i
=
n

i=1
X
(i)
=
n

i=2
(X
(i)
X
(1)
) +nX
(1)
=
n

i=2
(X
(i)
X
(1)
) +nX
(1)
,
on en tire que la statistique T = (X
(1)
, S)
T
est exhaustive minimale pour = (, )
T
. Il est
connu que X
(n)
est une statistique exhaustive pour , mais X
(n)
nest pas intressante parce
quelle a la mme dimension n que le vecteur X, cest--dire que X
(n)
ne rduit pas des
donnes. Le vecteur
U = (X
(1)
,
n

i=2
X
(i)
)
T
est aussi une statistique exhaustive minimale pour . Il est facile de montrer que la densit
de X
(1)
est donne par la formule
n

exp
_

(x
(1)
)
_
H(x
(1)
), (2.6)
i.e., X
(1)
suit une loi exponentielle E(, /n),
EX
(1)
= +

n
et VarX
(1)
=

2
n
2
. (2.7)
164
Nous pouvons donc dire que la statistique nX
(1)
E(n, ), et de (2) et (7) on obtient que
EnX
(1)
= n+ et VarnX
(1)
=
2
. (2.8)
Maintenant nous alons montrer que X
(1)
et S sont indpendantes. Tout dabord on remarque
que la densit de X
()
est
g(x
()
; ) = n!
n

i=1
f (x
(i)
; ) =
n!

n
exp
_

i=1
(x
(i)
)
_
H(x
(1)
) =
=
n

exp
_

(x
(1)
)
_
H(x
(1)
)
(n1)!

n1

exp
_

i=2
(x
(i)
x
(1)
)
_
H(x
(2)
x
(1)
), (2.9)
o
x
()
= (x
(1)
, . . . , x
(n)
)
T
B

=x R
n
: x
1
x
2
x
n
, (2.10)
do on tire que
(n1)!

n1
exp
_

i=2
(x
(i)
x
(1)
)
_
, x
(1)
x
(2)
x
(n)
, (2.11)
reprsente la densit conditionnelle de
(X
(2)
, X
(3)
, . . . , X
(n)
)
T
sachant que X
(1)
= x
(1)
.
On constate que cette loi conditionnelle ne dpend pas de . En plus de (4) et (9) on d-
duit que si la valeur x
(1)
de la statistique X
(1)
est xe, X
(1)
= x
(1)
, alors la statistique
(X
(2)
, X
(3)
, . . . , X
(n)
)
T
reprsente le vecteur des statistiques dordre obtenu partir dun
chantillon de dimension n1, dont les lments suivent la loi exponentielle
1

exp
_

x x
(1)

_
H(x x
(1)
).
Maintenant on va chercher la densit conjointe q(y; ),
y = (y
1
, . . . , y
n
)
T
B

=x R
n
: y
1
, 0 y
2
y
n
,
des statistiques
X
(1)
et (X
(2)
X
(1)
, . . . , X
(n)
X
(1)
)
T
,
cest--dire la densit de la statistique
Y = (Y
1
,Y
2
, . . . ,Y
n
)
T
,
o
Y
1
= X
(1)
, Y
j
= X
( j)
X
(1)
, j = 2, . . . , n. (2.12)
On constate que la statistique Y est le rsultat dune transformation linaire la statistique
X
(n)
:
Y = BX
(n)
,
165
o
B =
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0
1 1 0 . . . 0
1 0 1 . . . 0
.
.
.
1 0 0 . . . 1
_
_
_
_
_
_
_
_
_
_
_
,
et donc
X
(n)
= B
1
Y,
o
B
1
=
_
_
_
_
_
_
_
_
_
_
_
1 0 0 . . . 0
1 1 0 . . . 0
1 0 1 . . . 0
.
.
.
1 0 0 . . . 1
_
_
_
_
_
_
_
_
_
_
_
.
Comme det B = 1, de (9) on tire
q(y; ) = g(B
1
y; )[ det B
1
[ = g(y
1
, y
1
+y
2
, . . . , y
1
+y
n
; ) =
=
n

exp
_

(y
1
)
_
H(y
1
)
(n1)!

n1
_

i=2
y
i
_
, y B

R
n
, (2.13)
do on tire que la densit conjointe de X
(1)
et (X
(2)
X
(1)
, . . . , X
(n)
X
(1)
)
T
est le produit
de deux densits et donc les statistiques X
(1)
et (X
(2)
X
(1)
, . . . , X
(n)
X
(1)
)
T
sont indpen-
dantes, do on tire que X
(1)
et
n

i=2
(X
(i)
X
(1)
) sont indpendantes.
En plus de (13) il suit que
n

i=2
(X
(i)
X
(1)
)
suit une loi gamma dont la densit est
1

n1
(n1)
y
n2
e
y/
H(y),
parce que
(n1)!

n1
exp
1

i=2
y
i
, 0 y
2
y
3
. . . y
n
,
reprsente la densit conjointe du vecteur des statistiques dordre de dimension (n 1),
associ avec une loi exponentielle
1

exp
_

y
_
H(y),
i.e. avec une loi exponentielle E(0, ), et donc la variable alatoire
1

i=2
Y
i
=
1

i=2
(X
(i)
X
(1)
) =
n1
166
est distribue comme la somme de (n1) variables alatoires indpendantes, qui forment
un chantillon de volume (n1) dune loi exponentielle E(0, 1), i.e., S suit une loi gamma
avec (n1) degrs de libert et de paramtre dchelle .
S =
n

i=2
Y
i
=
n

i=2
(X
(i)
X
(1)
) =
n1
, (2.14)
et donc
ES = E
n1
= (n1), VarS = Var
n1
=
2
(n1). (2.15)
Dans ce cas la statistique

n
=
1
n1
n

i=2
(X
(i)
X
(1)
) =
n
n1
(

X
n
X
(1)
) (2.16)
est le meilleur estimateur sans biais pour . De (15) on tire que
Var
n
=

2
n1
. (2.17)
Enn, en utilisant (7) et (16) nous pouvons construire le meilleur estimateur sans biais
n
pour :

n
= X
(1)


n
n
= X
(1)

1
n(n1)
n

i=2
(X
(i)
X
(1)
) = X
(1)

1
n1
(

X
n
X
(1)
). (2.18)
Comme les statistique X
(1)
et S sont indpendantes, les statistiques X
(1)
et
n
sont aussi
indpendantes et par consquent
Var
n
= VarX
(1)
+
1
n
2
Var
n
=

2
n
2
+

2
(n1)n
2
=

2
n(n1)
. (2.19)
Corollaire 1. Comme
n

i=2
(X
(i)
X
(1)
) =
n

i=2
Y
i
=
n

i=2
(ni 1)[X
(i)
X
(i1)
], (2.20)
de (9) et (12) il suit que les statistiques
nX
(1)
, (n1)[X
(2)
X
(1)
], . . . , (ni 1)[X
(i)
X
(i1)
], . . . , X
(n)
X
(n1)
sont indpendantes et
nX
(1)
E(n, ), i.e. n(X
(1)
) E(0, ), (2.21)
(ni 1)[X
(i)
X
(i1)
] E(0, ), i = 2, 3, . . . , n. (2.22)
Il est vident que toutes ces proprits importantes dun chantillon X dune loi exponen-
tielle sont des lindpendance temporelle de la distribution exponentielle (une loi expo-
nentielle est sans mmoire).
167
Remarque 1. (Mthode des moments). Comme
EX
i
= + et VarX
i
=
2
pour estimer = (, )
T
nous pouvons utiliser la mthode des moments. Daprs cette
mthode en qualit destimateurs
n
et
n
de et il faut choisir la solution du systme
_
+ =

X
n
,

2
= s
2
n
,
puisque

X
n
et s
2
n
sont lesprance et la variance de le loi empirique correspondant lchan-
tillon X = (X
1
, . . . , X
n
)
T
, do on obtient que

n
= (
n
,
n
)
T
,
o

n
=

X
n
s
n
=

X
n

1
n
n

i=1
(X
i


X
n
)
2
,

n
= s
n
=

1
n
n

i=1
(X
i


X
n
)
2
.
Remarque 2. (Mthode du maximum de vraisemblance). De (5) on a
L(X; ) = L(X; , ) =
1

n
exp
_

i=1
(X
i
)
_
H(X
(1)
),
do on tire immdiatement que

n
= X
(1)
.
Puisque
lnL(X; )

=
n

+
1

2
n

i=1
(X
i
),
on en tire que
n
est la solution de lquation

+
1

2
n

i=1
(X
i


X
n
) = 0,
i.e.,

n
=
1
n
n

i=1
(X
i


X
n
) =

X
n
X
(1)
,
et donc

n
= (
n
,
n
)
T
.
On remarque que les meilleurs estimateurs sans biais pour et sont

n
=
n
n1
_

n

1
n

X
n
_
et
n
=
n1
n

n
.
168
Chapitre 3
ELEMENTS DE LA STATISTIQUE
NON PARAMETRIQUE.
3.1 La loi empirique.
Soit lhypothse H
0
selon laquelle les lments X
1
, X
2
, . . . , X
n
de lchantillon X =
(X
1
, X
2
, . . . , X
n
)
T
suivent une loi donne, dont la fonction de rpartition est F(x), i.e. pour
tout x R
1
PX
i
x[H
0
= F(x), i = 1, 2, . . . , n, (3.1)
et X
1
, X
2
, . . . , X
n
sont indpendantes. Supposons en outre que la fonction de rpartition
F(x), x R
1
, soit telle que le moment a
2k
existe,
a
2k
= EX
2k
1
=
+

x
2k
dF(x). (3.2)
On sait que dans ce cas tous les moments a
j
, 1 j 2k, existent ainsi que les moments
centraux m
j
,
m
j
= E(X
1
EX
1
)
j
= E(X
1
a)
j
, j = 1, 2, .., 2k, (3.3)
o a = a
1
= EX
1
. Notons aussi

2
= VarX
1
= m
2
= E(X
1
a)
2
. (3.4)
Ayant la ralisation x = (x
1
, . . . , x
n
)
T
de la statistique X = (X
1
, X
2
, . . . , X
n
)
T
, nous pouvons
construire la fonction
F
n
(x) = F
n
(x; x
1
, . . . , x
n
) =
1
n
n

i=1
1
(,x]
(x
i
), x R
1
, (3.5)
dont la valeur F
n
(x) en nimporte quel point x, x R
1
, reprsente la ralisation de la
statistique
169
F
n
(x) =F
n
(x; X
1
, . . . , X
n
) =
1
n
n

i=1
1
(,x]
(X
i
), (3.6)
calcule au point choisi x.
Par construction, la fonction F
n
(x), x R
1
, a toutes les proprits dune fonction de
rpartition, car elle est croissante de 0 1 et continue droite, et pour cette raison nous
pouvons introduire une vaiable aleatoire, disons X, dont la loi conditionnelle, conditionne
par X = x, est donne par la fonction F
n
(x), cest--dire
PX x[X = x = PX x[X
1
= x
1
, . . . , X
n
= x
n
= F
n
(x), x R
1
, (3.7)
et par consquent de (6) et (7) il rsulte que
F
n
(x) = PX x[X, x R
1
, (3.8)
cest--dire que (8) dtermine une fonction de rpartition alatoire, quon appelle fonction
de rpartition empirique. Par consquent, la loi conditionelle de la variable alatoire X,
conditionne par X, sappelle la loi empirique. De (5)(8) il rsulte que la loi empirique est
la loi discrte daprs laquelle
PX = X
i
[X =
1
n
pour tout i = 1, 2, . . . , n, (3.9)
cest--dire que la loi empirique affecte le mme poids 1/n chaque lment X
i
de lchan-
tillon X = (X
1
, X
2
, . . . , X
n
)
T
, et F
n
(x) est la fonction de rpartition de cette loi. Soit
m
le
moment dordre m de la loi empirique. Alors de (6), (8) et (9) on dduit

m
= EX
m
[X =
1
n
n

i=1
X
m
i
, (3.10)
et, par consquent, on obtient la moyenne
1
de la loi empirique :

1
= EX[X =
1
n
n

i=1
X
i
=

X
n
. (3.11)
De mme, la variance de la loi empirique sexprime par la formule
E(X
1
)
2
[X = E(X

X
n
)
2
[X =
2

2
1
=
1
n
n

i=1
(X
i


X
n
)
2
= s
2
n
. (3.12)
La loi empirique (9) et sa fonction de rpartition F
n
(x), x R
1
, jouent un rle trs important
dans la statistique mathmatique ; cest pour cela que nous allons parler un peu plus en dtail
de ses proprits et qualits.
Premirement, on remarque que pour tout x x, x R
1
,
E1
],x]
(X
i
) = PX
i
x = F(x), (3.13)
cest--dire que la statistique 1
],x]
(X
i
) est un estimateur sans biais de F(x). On remarque
ici que 1
],x]
(X
i
) est la fonction de rpartition empirique construite avec une seule obser-
vation X
i
. Il est facile de vrier que
170
Var1
],x]
(X
i
) = F(x)[1F(x)], (3.14)
car pour tout x x la statistique 1
],x]
(X
i
) reprsente la variable alatoire de Bernoulli de
paramtre p = F(x), puisque
_
P1
],x]
(X
i
) = 1 = PX
i
x = F(x) = p,
P1
],x]
(X
i
) = 0 = PX
i
> x = 1F(x) = 1p = q.
(3.15)
Dautre part nous avons
F
n
(x) =
1
n
n

i=1
1
],x]
(X
i
) =
1
n

n
(x), (3.16)
o

n
(x) =
n

i=1
1
],x]
(X
i
). (3.17)
Comme les variables alatoires X
1
, X
2
, . . . , X
n
sont indpendantes et suivent la mme loi
F(x), i.e. PX
i
x = F(x), de (13)-(17) il sensuit que pour tout x x
P
n
(x) = k =C
k
n
p
k
(1p)
nk
, k = 0, 1, . . . , n, (3.18)
o p = F(x). Comme
E
n
(x) = np = nF(x), Var
n
(x) = npq = nF(x)[1F(x)], (3.19)
on a
EF
n
(x) = F(x) et VarF
n
(x) =
1
n
F(x)[1F(x)]. (3.20)
De (20) il dduit que si n
VarF
n
(x) 0
pour tout x x, x R
1
; par consquent, de lingalit de Tchebyschev, il rsulte que pour
tout > 0
P[F
n
(x) F(x)[
VarF
n
(x)

2
=
F(x)[1F(x)]

2
0, (3.21)
quand n . Ainsi de (20) et (21) rsulte le
Thorme 1. Si PX
i
x = F(x), alors
_
1) EF
n
(x) = F(x),
2) P[F
n
(x) F(x)[ > 0, quand n ,
(3.22)
quel que soit x x, x R
1
.
Remarque 1. Le thorme 1 nous dit que F
n
(x)
nN
est une suite cohrente des-
timateurs sans biais de F(x) pour tout x x, x R
1
. Cela signie que si la taille n de
171
lchantillon X= (X
1
, . . . , X
n
)
T
est grande, alors la valeur de la fonction F
n
(x) en un point x
la ralisation de la fonction de rpartition empirique F
n
(x) en ce point, peut-tre considre
comme une bonne approximation de la valeur F(x). Cela veut dire que si F est inconnue,
on pourra supposer que
F
n
(x)

= F(x) (3.23)
pour tout x et cette approximation est dautant meilleure que le nombre n des observations,
cest--dire notre information sur F, est plus grand.
Remarque 2. Du thorme 1 il rsulte que
PX x = EPX x[X = EF
n
(x) = F(x),
cest--dire que la loi dconditionne de la variable alatoire X est la mme que celle de X
i
,
lment de lchantillon X,
PX x = PX
i
x = F(x).
Le thorme 1 peut-tre afn en considrant la fonction de rpartition empirique F
n
(x), x
R
1
, dans son ensemble et non pas pour chaque x pris sparment. On va sintresser au
maximum de lcart entre F
n
(x) et F(x), que lon notera D
n
:
D
n
= D
n
(X) = sup
[x[<
[F
n
(x) F(x)[. (3.24)
La statistique D
n
sappelle la statistique de Kolmogorov (1933).
Thorme 2. (Glivenko-Cantelli)
P
_
lim
n
D
n
= 0
_
= 1. (3.25)
Le thorme de Glivenko-Cantelli nous dit que la suite F
n
(x) des fonctions de rpar-
tition empiriques converge presque srement vers F(x) uniformment par rapport x quand
n . La ralisation
D
n
= sup
[x[<
[F
n
(x) F(x)[
de la statistique de Kolmogorov D
n
nous donne la dviation maximale observe sur laxe
rel de la fonction de rpartition empirique F
n
(x) et de la fonction de rpartition F(x) de
la variable alatoire X
1
. Du thorme de Glivenko-Cantelli il rsulte que pour tout x, avec
la probabilit 1, cette dviation devient plus petite que tout nombre positif arbitrairement
petit, ce qui justie encore une fois lapproximation (23).
Thorme 3. (Donsker) Si n , alors

n(F
n
(x) F(x))
L
W(x), x R
1
,
o W(x) est un processus gaussien, EW(x) 0, dont la fonction de covariance est
k(x, y) = F(x) F(y) F(x)F(y), (x, y) R
1
R
1
.
172
Thorme 4. Si F(x) est continue, alors
Plimsup
n
_
_
2n
lnlnn
sup
x
[ F
n
(x) F(x) [
_
= 1 = 1.
Remarque 3. Pour avoir une ide de la conduite de F(x) on construit souvent le graphe
de la fonction F
n
(x), ralisation de la fonction de rpartition empirique F
n
(x). Pour construire
le graphe de F
n
(x) on utilise le vecteur
X
()
= (X
(1)
, . . . , X
(n)
)
T
des statistiques dordre, construit partir de lchantillon X. Soit x
()
= (x
(1)
, ..., x
(n)
)
T
,
la ralisation de la statistique X
()
. Comme on le sait le vecteur x
()
sobtient partir de
x = (x
1
, . . . , x
n
)
T
en ordonnant les x
i
par ordre croissant, cest--dire que lon a
x
(1)
x
(2)
. . . x
(n)
. (3.26)
De (26) il rsulte que les statistiques dordre X
(1)
, X
(2)
, . . . , X
(n)
sont lies (avec la probabilit
1) par les ingalits :
X
(1)
X
(2)
. . . X
(n)
. (3.27)
Supposons pour linstant quil ny ait pas dex-aequo, ce qui a lieu avec la probabilit 1 si
F na pas de saut. En utilisant (26), (27) de (5), (6) et (9) on obtient que
F
n
(x) =
_
_
_
0, si x < X
(1)
,
i
n
, si X
(i)
x < X
(i+1)
,
1, si x X
(n)
,
(3.28)
par consquent on a
F
n
(x) =
_
_
_
0, si x < x
(1)
,
i
n
, si x
(i)
x < x
(i+1)
,
1, si x x
(n)
.
(3.29)
De (29) on dduit que F
(n)
(x) a des sauts aux points x
(i)
. Ces sauts sont gaux 1/n. Dans
le cas gnral, F peut avoir des sauts et donc, parmi les x
(i)
, il peut y avoir des ex-aequo.
Pour construire le graphe de F
n
(x), notons
_

_
e
1
= x
(1)
= minx
1
, x
2
, . . . , x
n
,
e
2
= minx
(i)
: x
(i)
> x
(1)
= e
1
,
.
.
.
e
j
= minx
(i)
: x
(i)
> e
j1
,
.
.
.
e
k
= x
(n)
= maxx
1
, x
2
, . . . , x
n

(3.30)
les diffrentes valeurs prises par les x
i
. Le nombre k des diffrentes valeurs
e
1
< e
2
< . . . < e
k
, (3.31)
173
prises par x
1
, x
2
, . . . , x
n
, peut tre strictement infrieur n sil y a des ex-aequo. Notons
j
la frquence de la valeur e
j
, j = 1, 2, . . . , k. Il est vident que

1
+
2
+. . . +
k
= n.
En utilisant les valeurs observes e
1
, e
2
, . . . , e
k
et leurs frquences
1
,
2
, . . . ,
k
on peut fa-
cilement obtenir une autre reprsentation de la ralisation F
n
(x) de la fonction de rpartition
empirique F
n
(x) en termes des frquences
1
,
2
, . . . ,
k
des valeurs e
1
, e
2
, . . . , e
k
:
F
n
(x) =
_

_
0, si x < e
1
,
1
n
i

j=1

j
, si e
j
x < e
i+1
,
1, si x e
k
.
(3.32)
La fonction F
n
(x) est aussi appell la fonction cumulative, parce que on "accumule" les
frquences
1
,
2
, . . . ,
k
en partant de la plus petite valeur e
1
= x
(1)
vers la plus grande
e
k
= x
(n)
.
On voit que la fonction cumulative F
n
(x) est croissante de 0 1, quelle est continue
droite et quelle a des sauts de hauteurs
i
/n en tout point e
i
, i = 1, 2, . . . , k, tout en restant
constante entre deux valeurs observes e
i
et e
i+1
conscutives.
Remarque 4. (Loi empirique et mthode des moments) Maintenant que nous savons que
la fonction de rpartition F
n
(x) de la loi empirique est un bon estimateur de la fonction de
rpartition F(x) de X
i
au sens des thormes 1 et 2, il est trs naturel de choisir les moments
(10)

m
= EX
m
[X =
1
n
n

i=1
X
m
i
, m = 1, 2, . . . , 2k
de la loi empirique (9) comme estimateurs des moments a
m
= EX
m
1
de la loi F. Comme
E
m
= EEX
m
[X =
1
n
E
_
n

i=1
X
m
i
_
= a
m
, m = 1, 2, . . . , 2k, (3.33)
on voit que le moment
m
de la loi empirique est un estimateur sans biais de a
m
. On re-
marque ici que tous les moments
m
, m = 1, 2, . . ., de la loi empirique (9) existent, tandis
que la loi F na daprs notre hypothse (2), que les moments a
1
, . . . , a
2k
. Si nous prenons
m k, alors nous pouvons calculer la variance de la statistique
m
, car
Var
m
= Var
_
1
n
n

i=1
X
m
i
_
=
1
n
VarX
m
1
=
=
1
n
_
EX
2m
1
(EX
m
1
)
2
_
=
1
n
(a
2m
a
2
m
). (3.34)
De cette formule on dduit que la variance, Var
m
, de lestimateur
m
existe si m k.
De plus on en dduit que Var
m
0 quand n , et par consquent de lingalit de
Tchebyschev il rsulte que pour tout > 0
P[
m
a
m
[ > = P[
m
E
m
[ >
Var
m

2
=
a
2m
a
2
m
n
2
0, (3.35)
quand n . Ainsi de (33) et (35) il rsulte que
m
est une suite consistante (cohrente)
destimateurs sans biais de a
m
(m = 1, 2, . . . , k). On peut remarquer que pour estimer la
174
prcision de lestimateur
m
du moment a
m
on a eu besoin dutiliser le moment
2m
dordre
2m.
Exemple 1. Soient a = EX
1
et
2
= VarX
1
et supposons que nous voulions estimer a.
Comme nous lavons dit, nous pouvons prendre la moyenne

1
=
1
n
n

i=1
X
i
=

X
n
de la loi empirique comme estimateur de a = a
1
, moyenne de la loi F.
Daprs (33) on a
E

X
n
= a = EX
1
et de (34) on dduit
Var

X
n
=
1
n
VarX
1
=

2
n
=
1
n
(a
2
a
2
),
et, par consquent, de (35) on dduit que pour tout > 0
P[

X
n
a[

2
n
0, n , (3.36)
cest--dire que

X
n
, n N, est une suite consistante destimateurs sans biais de la moyenne
a de la loi F , si
2
< .
Remarque 5. (Thorme de Khinchine.) On peut montrer que pour que la suite

X
n
,
n N, soit cohrente il suft que EX
1
existe.
Example 2. Supposons que nous voulions estimer

2
= VarX
1
= a
2
a
2
1
= a
2
a
2
. (3.37)
Comme nous lavons dit, nous pouvons prendre la variance
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
=
2

2
1
(3.38)
de la loi empirique comme estimateur de
2
. De (38) on dduit
Es
2
n
= E
2
E
2
1
= a
2

_
Var
1
+a
2

=
= a
2
a
2

a
2
a
2
n
=
2

2
n
=
n1
n

2
,
i.e. s
2
n
est un estimateur de
2
qui a un biais b
n
,
b
n
= E(s
2
n

2
) =

2
n
. (3.39)
Si nous prenons la statistique
S
2
n
=
1
n1
n

i=1
(X
i


X
n
)
2
=
n
n1
s
2
n
(3.40)
comme estimateur de
2
, alors on aura un estimateur sans biais de
2
, car de (40) on dduit :
ES
2
n
= E
_
n
n1
s
2
n
_
=
n
n1
Es
2
n
=
2
. (3.41)
175
Pour calculer la variance Vars
2
n
de la statistique s
2
n
,
Vars
2
n
= E(s
2
n
)
2
(Es
2
n
)
2
= E(s
2
n
)
2

_
n1
n
2

4
_
, (3.42)
il nous faut savoir calculer E(s
2
n
)
2
. Pour faire cela on remarque que la statistique (X
i


X
n
)
2
est invariante par rapport la moyenne a = EX
1
de la loi F. Cela veut dire que si nous
posons Y
i
= X
i
c (i = 1, 2, . . . , n), o c est un nombre arbitraire et si

Y
n
=
1
n
n

i=1
Y
i
,
alors on voit que
Y
i

Y
n
= X
i
c (

X
n
c) = X
i


X
n
, (3.43)
donc pour calculer E(s
2
n
)
2
nous pouvons admettre que a = EX
1
= 0. Dans ce cas m
j
= a
j
et
nous pouvons crire :
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
=
1
n
n

i=1
X
2
i

1
n
2
_
n

i=1
X
i
_
2
=
=
n1
n
2
n

i=1
X
2
i

2
n

i<j
X
i
X
j
, (3.44)
do, comme EX
1
= 0 par hypothse et de lindpendence de X
i
et X
j
, on dduit
E(s
2
n
)
2
= E
_
(n1)
2
n
4

i<j
X
2
i
X
2
j
+
4
n
4

i<j
X
2
i
X
2
j
_
=
=
(n1)
2
n
3
m
4
+
(n1)
2
+2
n
3
(n1)
4
. (3.45)
De (42) et (45) il rsulte que
VarS
2
n
=
(n1)
2
n
3
_
m
4

n3
n1

4
_
, (3.46)
et par consquent, on en dduit que
Vars
2
n
0 quand n .
De (46) il est facile de dduire la variance VarS
2
n
de la statistique S
2
n
, qui est le meilleur
estimateur sans biais de
2
(41). On a
VarS
2
n
= Var
_
n
n1
s
2
n
_
=
n
2
(n1)
2
Vars
2
n
=
1
n
_
m
4

n3
n1

4
_
, (3.47)
et on voit que VarS
2
n
tend aussi vers 0 quand n . Comme pour tout > 0
P
_

S
2
n

_
= P
_

S
2
n
ES
2
n

VarS
2
n

2
0, (3.48)
176
quand n , nous pouvons dire que S
2
n
est une suite cohrente destimateurs sans biais
de la variance
2
de la loi F(x). On remarque ici, que de (47) on dduit
Vars
2
n
< VarS
2
n
,
i.e. le risque quadratique de s
2
n
est plus petit de celui de S
2
n
, mais lestimateur s
2
n
a le biais
b
n
=
2
/n.
Nous avons montr (35) que le moment

m
=
1
n
n

i=1
X
m
i
dordre m (m = 1, 2, . . . , k) de la loi empirique est un bon estimateur du moment
a
m
= EX
m
1
=

x
m
dF(x),
de la loi F(x) en ce sens que
E
m
= a
m
et Var
m
=
1
n
(a
2m
a
2
m
) 0, quand n .
Que pouvons nous dire de plus ? La statistique

m
=
1
n
n

i=1
X
m
i
, m = 1, . . . , k,
est la somme des variables indpendantes X
m
1
, ..., X
m
n
, puisque les variables alatoires X
1
, . . . , X
n
sont indpendantes et que de plus elles suivent la mme loi. En outre, nous savons que la
variance
VarX
m
i
= a
2m
a
2
m
existe pour tout m = 1, 2, . . . , k. Par consquent du thorme central limite il rsulte que
P
_

m
a
m

Var
m
_
= P
_

n

m
a
m
_
a
2m
a
2
m
< x
_
(x) quand n , (3.49)
cest--dire que la suite
m

mN
est asymptotiquement normalement distribue de para-
mtres a
m
et (a
2m
a
2
m
)/n, ce que nous crivons de la manire suivante :

m
est AN
_
a
m
,
a
2m
a
2
m
n
_
, (3.50)
ou la suivante :

n

m
a
m
_
a
2m
a
2
m
est AN(0, 1). (3.51)
Daprs (35) nous savons que si n alors pour tout > 0
P[
m
a
m
[ 0. (3.52)
177
En utilisant lapproximation normale (49) nous pouvons estimer la probabilit de lvne-
ment [
m
a
m
[ . On a
P[
m
a
m
[ = P
_
[
m
a
m
[

Var
m

Var
m
_
. (3.53)
Si n est assez grand alors de (49) et (53) il rsulte que
P[
m
a
m
[ 2
_

n
_
a
2m
a
2
m
_
, (3.54)
o
(x) =
1

2
x

e
y
2
/2
dy
est la fonction de rpartition de la loi normale N(0, 1), qui satisfait lidentit suivante :
(x) +(x) 1, [x[ < . (3.55)
Notons ici, que si Z est une variable alatoire qui suit la loi normale N(0, 1),
PZ x = (x), x R
1
,
alors de (55) il rsulte que
P[Z[ x = 2(x) 1, (3.56)
ce qui a dj t utilis pour obtenir (54) partir de (49). Ainsi, de (53)-(56) il rsulte que
P[
m
a
m
[ 12
_

n
_
a
2m
a
2
m
_
= 2
_

n
_
a
2m
a
2
m
_
1, (3.57)
i.e. pour tout > 0 on a
P
m
a
m

m
+ 2
_

n
_
a
2m
a
2
m
_
1, (3.58)
quand n est assez grand.
Nous devons constater que nous ne pouvons pas utiliser (58) directement pour savoir
avec quelle probabilit lintervalle
[
m
;
m
+] (3.59)
"couvre" la valeur inconnue de a
m
, ou, comme on dit, avec quelle probabilit a
m
appartient
lintervalle [
m
;
m
+], que lon appelle un intervalle de conance. Pour avoir la
possibilit dutiliser (58) pour estimer
Pa
m
[
m
;
m
+]
nous devons substituer aux paramtres inconus a
2m
et a
2
m
dans la partie droite de (58) leurs
estimateurs
2m
et
2
m
et de cette manire nous aurons pour n assez grand la relation sui-
vante :
P
m
a
m

m
+ 2
_

n
_

2m

2
m
_
(3.60)
178
Maintenant nous allons utiliser lapproximation (60) pour construire lintervalle de conance
(59) tel que
Pa
m
[
m
;
m
+] P = 1, (3.61)
o la probabilit P = 1, appele le coefcient de conance, est choisie davance, 0.5 <
P <1, 0 <<0.5. Ayant choisi un coefcient de conance P =1, il nous faut rsoudre
lquation
2
_

n
_

2m

2
m
_
1 = P = 1 (3.62)
pour trouver qui satisfait (61).
Soit une probabilit telle que 0 < < 0.5. Notons z
+

et z

les quantiles de seuils


et 1 respectivement, cest--dire que z
+

et z

satisfont aux relations :


(z

) = et (z
+

) = 1, 0 < < 0.5.


De (55) il rsulte que z
+

=z

. En utilisant les notations de (62) on a

n
_

2m

2
m
_
=
1+P
2
= 1

2
(3.63)
do lon obtient
x
+
/2
=

n
_

2m

2
m
=
1
_
1

2
_
(3.64)
et par consquent on trouve que
=
x
P

n
_

2m

2
m
=
1

n
x
+
/2
_

2m

2
m
. (3.65)
De (60)(62) et (65) il rsulte que
P
_

m
x
+
/2
_

2m

2
m
n
a
m

m
+x
+
/2
_

2m

2
m
n
_
P = 1. (3.66)
Nous voyons quen utilisant les moments
2m
et
m
de la loi empirique, et le fait quils
sont asymptotiquement normalement distribus, nous sommes parvenus construire pour
le moment a
m
un intervalle de conance (
m
;
m
+) dont le coefcient de conance est
approximativement gal P = 1 . Dans la table 1 ci-dessous nous donnons les valeurs
de P = 1 les plus rpandues dans la pratique et les valeurs x
+
/2
correspondantes, ce qui
permet facilement de calculer en utilisant la formule (65).
P = 1 0.90 0.95 0.99 0.995
x
+
/2
1.644854 1.959964 2.575829 2.807034
Table 1.
(3.67)
Exemple 3. Soit m = 1, cest--dire que nous estimons la moyenne a = EX
1
de la loi F(x).
Nous savons, daprs lexemple 1, que
1
=

X
n
, moyenne de la loi empirique, est un esti-
mateur sans biais de a, en outre, nous savons daprs (36) que
P[

X
n
a[ 0. (3.68)
179
Maintenant, en utilisant (57), nous obtenons que
P[

X
n
a[ 2
_

_
Var

X
n
_
1 = 2
_

_
1, (3.69)
car
Var

X
n
=

2
n
, o
2
= VarX
1
= a
2
a
2
1
= a
2
a
2
.
Dans (69) nous pouvons, en utilisant lexemple 2, estimer le paramtre inconnu =

2
par la statistique S
n
=
_
S
2
n
, sachant que ES
2
n
=
2
. Dans ce cas, de (69) il rsulte que
P[

X
n
a[ 2
_

n
S
n
_
1 (3.70)
et par consquent on obtient un analogue de (66)
P
_

X
n
x
+
/2
S
n

n
a

X
n
+x
+
/2
S
n

n
_
P = 1, (3.71)
en choisissant dans (67) le coefcient de conance P = 1 et le quantile x
+
/2
de la loi
normale N(0, 1). Il est vident que dans (71) on aurait pu utiliser la statistique s
n
comme
estimateur de au lieu de S
n
, o s
2
n
est la variance de la loi empirique.
3.2 Mdiane de la loi empirique.
1. Soit X = (X
1
, . . . , X
n
)
T
un chantillon et X
i
suit une loi de fonction de rpartition
F(x) = P(X
i
< x).
Notons X
()
= (X
(1)
, . . . , X
(n)
)
T
le vecteur des statistiques dordre associ au vecteur X. Par
dnition, la mdiane de la loi empirique est la statistique

n
=
_
X
(k+1)
, si n = 2k +1,
1
2
_
X
(k)
+X
(k+1)
_
, si n = 2k.
On sait que si n est impair, n = 2k +1, alors
P
2k+1
< x = I
F(x)
(k +1, k +1), (3.1)
et on obtient
P
2k+1
< x = S
2k+2
_
_
F(x)
1
2
_

2k +2
F(x)[1F(x)]
_
, (3.2)
o S
f
(x) est la fonction de la rpartittion de la loi de Student f degrs de libert. Dans le
cas o n est un nombre pair, n = 2k, la distribution de la statistique
2k
est beaucoup plus
180
complique. On remarque que dhabituellement, dans la pratique, lorsque n est assez grand,
on utilise le fait que
L
_
n(
n
)
_
N
_
0,
1
4f
2
()
_
, (3.3)
ou plus prcisment :
P
_
2

nf ()(
n
) < y
_
= (y) +O
_
1

n
_
,
o est la mdiane de la loi F(x), F() = 0.5, et f (x) est la densit de cette loi, cest--dire
que f (x) = F
/
(x). La prcision de cette approximation normale nest pas trs bonne quand
n nest pas assez grand. Par ailleurs, il est trs naturel de sattendre ce que la distribution
de la statistique
2k+1
soit plus proche de la distribution de la statistique
2k
, et justement
Bolshev (1963) a utilis ce fait pour construire une approximation qui est meilleure que
lapproximation normale (3).
Soit
F
n
(x) = P
_

n
< x

2t
_
, (3.4)
o t = 1/(8[n/2] +5). Bolshev (1963) a dmontr que
F
2k
(x) F
2k+1
(x) =8(2)x(x)t
2
+O(t
3
), (3.5)
et
F
2k+1
(x) = (x) +(x)
3x (26)x
3
6
t +O(t
2
), (3.6)
do lon peut dduire que la statistique
Y
n
=

n

2t
_
1+
1

_
3(26)
_

n

2t
_
2
__
est asymptotiquement normale de paramtres 0 et 1,
PY
n
< y = (y) +O(t
2
).
Notons
n
(P) le P-quantile (le quantile de niveau P) de la distribution de la statistique
n
:
P
n
<
n
(P) = P.
Dans ce cas de (6) on dduit que

2k
(P) =
2k+1
(P)[1+8(2)t
2
] +O(t
2
)
donc

2k
(P)

2k
(P), (3.7)
o

2k
(P) =
2k+1
(P)[1+8(2)t
2
].
La formule (7) donne une bonne approximation, mme pour les petites valeurs de n. Par
exemple si k = 1, alors la diffrence
D = P
2
<

2
(P)P
181
prend les valeurs suivantes
0.0001, 0.0002, 0.0000, 0.0004, 0.0012, 0.0011, 0.0000,
correspondant aux valeurs de P
0.0014, 0.0064, 0.0228, 0.0664, 0.1575, 0.3074, 0.5000.
2. Soit X = (X
1
, . . . , X
n
)
T
un chantillon, dont la fonction de la rpartition F(x) appar-
tient une famille F = (F) de fonctions de rpartition continues. Comme prcdemment,
on note f (x) la densit de F(x) :
F(x) =
x

f (t)dt.
Dans ce cas, si = (F) est la mdiane de la distribution, dont la fonction de rpartition est
F(x), alors
(F)

f (x)dx = F((F)) = 0.5,


i.e.
PX
i
< (F) = PX
i
(F) = 0.5.
Notre but est de construire un intervalle de conance pour (F).
Soit X
()
= (X
(1)
, . . . , X
(n)
)
T
le vecteur des statistiques dordre, construit en utilisant
lchantillon X. Dans ce cas avec la probabilit 1
X
(1)
< X
(2)
< . . . < X
(n)
.
Comme intervalle de conance, on peut choisir
(X
(i)
, X
( j)
), i < j.
Il est trs naturel de choisir cet intervalle symtrique en posant j = ni 1, puisque nous
nous sommes intresss lobtention de conclusions statistiques qui sont indpendantes de
la distribution inconnue F. De la dnition des statistiques dordre X
(1)
, ..., X
(n)
il sensuit
que
P
_
X
(i)
< (F) < X
( j)
[F
_
=
= 1P
_
X
(i)
(F)[F
_
P
_
X
( j)
(F)[F
_
=
= 1P
_
F(X
(i)
) F((F))[F
_
P
_
F(X
( j)
) F((F))[F
_
=
= 1P(U
(i)
0.5) P(U
( j)
0.5) =
= 1
i1

m=0
_
n
m
__
1
2
_
n

m=j
_
n
m
__
1
2
_
n
,
et on voit bien que cette probabilit ne dpend pas de F, cest--dire quon a obtenu une
statistique "libre" comme on lavait voulu. On note ici que comme dhabitude
U
()
= (U
(1)
, ...,U
(n)
)
T
182
reprsente le vecteur des statistiques dordre associ lchantillon U = (U
1
, ...,U
n
)
T
de la
loi uniforme sur (0,1).
Maintenant, considrons lintervalle de conance "symtrique", i.e. j = ni +1. Dans
ce cas on a
P
_
X
(i)
< (F) < X
(ni+1)
[F
_
= 12
i1

m=0
_
n
m
__
1
2
_
n
,
car
n

m=j
_
n
m
__
1
2
_
n
=
n

m=ni+1
_
n
m
__
1
2
_
n
=
i1

m=0
_
n
m
__
1
2
_
n
.
Donc quand n est grand, du Thorme de de Moivre-Laplace on dduit que
P
_
X
(i)
< (F) < X
(ni+1)
[F
_

= 12
_
i 1
n
2
+0.5
0.5

n
_
=
= 12
_
2i n1

n
_
= 2
_
n+12i

n
_
1. (3.8)
Comment trouver le numro i dans (8) quand le coefcient de conance P est donn
davance ? Pour cela il faut rsoudre lquation
2
_
n+12i

n
_
1 = P (3.9)
par rapport i (on remarque que 0.5 < P < 1), do lon obtient
n+12i

n
=
_
1+P
2
_
,
o (z) =
1
(z), et donc
i =
_
0.5
_
n+1

n
_
1+P
2
__
+1
_
,
o [a] dans la dernire formule est la partie entire du nombre a.
3.3 Thorme de Kolmogorov.
A.Kolmogorov (1933) a trouv la distribution limite (n ) de la statistique

nD
n
lorsque F(x) est une fonction continue.
Theoreme (de Kolmogorov). Si F(x) est continue, alors pour z > 0
lim
n
P
_
nD
n
z
_
= K(z) =
+

j=
(1)
j
exp(2 j
2
z
2
). (3.1)
On dit que K(z) est la fonction de rpartition de Kolmogorov. Il y a des tables sta-
tistique (voir, par exemple, Smirnov (1939), Birnbaum(1952), Bolshev et Smirnov (1968),
Conover (1980)) des valeurs de la fonction de Kolmogorov K(z), mais en pratique pour
183
faire des calculs approximatifs, quand z > 2.5, on utilise souvent une simple approximation
vidente :
K(z)

= 12e
2z
2
.
Soit P un nombre x, 0.5 < P < 1, et soit z
P
le quantile de niveau P de la fonction de la
rpartition de Kolmogorov, cest--dire z
P
est la racine de lquation K(z) = P :
K(z
P
) = P.
Dans ce cas de (1) on tire que
P
_
nD
n
z
P
_
=
= P
_
F
n
(x)
1

n
z
P
F(x) F
n
(x) +
1

n
z
P
_
K(z
P
) = P, (3.2)
quand n . Cest--dire que si n est grand, alors avec la probabilit

= P les valeurs F(x)


pour tout x satisfont les quations
F
n
(x)
1

n
z
P
F(x) F
n
(x) +
1

n
z
P
. (3.3)
Comme 0 F(x) 1, la dernire relation peut tre scrire :
max
_
0, F
n
(x)
1

n
z
P
_
F(x) min
_
F
n
(x) +
1

n
z
P
, 1
_
.
3.3.1 Transformation de Smirnov. Test de type de Kolmogorov-Smirnov
pour des lois discrtes.
Transformation de Smirnov pour une distribution continue. Soit X une variable
alatoire dont la fonction de rpartition F(x) = PX x est continue et croissante. Dans
ce cas, la statistique U =F(X) suit une loi uniforme sur [0, 1]. Pour prouver cette afrmation
on remarque tout dabord que
PU u = 0 pour tout u 0
et que
PU u = 1 pour tout u 1.
Soit u un nombre rel quelconque, 0 < u < 1. Dans ce cas comme F(x) est continue et
croissante on obtient
PU u = P
_
F
1
(U) F
1
(u)
_
= P
_
X F
1
(u)
_
=
= F(F
1
(u)) = u, 0 < u < 1.
Transformation de Smirnov pour une distribution arbitraire. Soit X une variable
alatoire quelconque et soit
F(x) = PX x et F

(x) = PX < x.
184
Il est vident que si X est une variable alatoire continue
F(x) = F

(x).
Alors on peut dmontrer (voir V.1), que
PF(X) z z PF

(X) < z
pour tout z [0, 1].
Colloraire 1. Si la distribution de X est continue, dans ce cas
PF(X) z = PF(X) < z = z, z [0, 1].
Colloraire 2. Soit U une variable alatoire qui suit la loi uniforme sur [0,1] et qui est
indpendante de X. Dans ce cas la statistique
Z = F

(X) +U [F(X) F

(X)]
suit la loi uniforme sur [0,1],
PZ z = z
pour tout les z [0, 1].
Colloraire 3. Soient X
1
, X
2
, . . . , X
n
des variables alatoires indpendantes dont les fonctions
de rpartition sont connues :
F
i
(x) = PX
i
x, F
i
(x) = PX
i
< x, i = 1, 2, . . . , n.
De plus, soient U
1
,U
2
, . . . ,U
n
des variables alatoires indpendantes, qui suivent la mme
loi uniforme sur [0,1] et qui sont indpendantes de X
1
, X
2
, . . . , X
n
. Dans ce cas, daprs de
colloraire 2, les statistiques Z
1
, Z
2
, . . . , Z
n
, o
Z
i
= F
i
(X
i
) +U
i
[F
i
(X
i
) F
i
(X
i
)] ,
sont indpendantes et uniformment distribues sur [0,1].
Le colloraire 3 nous donne la posibilit de construire les tests non paramtriques de Kol-
mogorov, de Smirnov, domega-carr de Von Mises etc., dans les situations o les donnes
X
1
, X
2
, . . . , X
n
sont indpendantes et suivent des lois continues ou discrtes.
Applications statistiques.
Soient X
1
, X
2
, . . . , X
m
des variables alatoires indpendantes et nous avons tester lhy-
pothse H
0
selon laquelle
PX
i
= k =
n
i
!
(n
i
k)!k!
p
k
i
(1p
i
)
n
i
k
, i = 1, 2, . . . , m,
o tout les p
i
et n
1
, n
2
, . . . , n
m
sont connus, 0 < p
i
< 1 ; k = 0, 1, . . . , n
i
. Cest--dire que, si
H
0
est vrai, alors X
i
suit une loi binomiale B(n
i
, p
i
( de paramtres n
i
et p
i
, et donc
F
i
(x) = PX
i
x = I
1p
i
(n
i
x, x +1), x = 0, 1, . . . , n
i
,
et
F
i
(x) = PX
i
< x = PX
i
x 1 = I
1p
i
(n
i
x +1, x),
185
o I
x
(a, b) dnie ci-dessous est la fonction bta-incomplte dEuler, et par consquent pour
appliquer le test de Kolmogorov, par exemple, pour tester H
0
il ne reste qu construire
daprs le colloraire 3 les statistiques
Z
i
= I
1p
i
(n
i
X
i
+1, X
i
) +U
i
[I
1p
i
(n
i
X
i
, X
i
+1) I
1p
i
(n
i
X
i
+1, X
i
)] ,
i = 1, 2, . . . , m.
Plus de dtails on peut trouver dans Nikulin (1992), Huber et Nikulin (1993), Green-
wood et Nikulin (1996).
Rcemment M.Hocine a fait les tudes intressantes sur le comportement de ce test et
du test de type de omega-carr bases sur cette transformation de Smirnov.
3.4 Tests de Kolmogorov et Smirnov pour un chantillon.
Si la fonction de rpartition de X
1
est inconnue mais quon a fait lhypothse H
0
, daprs
laquelle
PX
1
x = F(x),
o F(x) est une fonction de rpartition continue donne, alors nous pouvons tester H
0
, en
utilisant le thorme de Kolmogorov. Symboliquement lhypothse H
0
peut tre prsente
par la faon suivante :
H
0
: EF
n
(x) F(x).
On dtermine la statistique de Kolmogorov
D
n
= sup
[x[<
[F
n
(x) F(x)[,
qui est dsigne pour tester H
0
contre lhypothse bilatrale
H
1
: sup
[x[<
[EF
n
(x) F(x)[ > 0,
et on considre en outre, les statistiques de Smirnov
D
+
n
= sup
[x[<
(F
n
(x) F(x)) et D

n
= inf
[x[<
(F
n
(x) F(x)),
qui sont utilises pour tester H
0
contre les alternatives unilatrales
H
+
1
: sup
[x[<
(EF
n
(x) F(x))
et
H

1
: inf
[x[<
(EF
n
(x) F(x))
186
respectivement.
Il est clair que D
n
= max(D
+
n
, D

n
). En utilisant la transformation de Smirnov, on peut
montrer que
D
+
n
= max
1mn
_
m
n
F(X
(m)
)
_
et D

n
= max
1mn
_
F(X
(m)
)
m1
n
_
. (3.1)
Il est clair aussi, que si H
0
est vraie, alors
P
_
D
+
n
x[H
0
_
= P
_
D

n
x[H
0
_
, (3.2)
cest--dire que, D
+
n
et D

n
suivent la mme loi, quand H
0
est vraie.
Comme a montr Smirnov (1944), pour tout x (0, 1)
P
_
D
+
n
x[H
0
_
=
[n(1x)]

k=0
_
n
k
_
x
_
x +
k
n
_
k1
_
1x
k
n
_
nk
, (3.3)
[a] - partie entire de a.
On peut montrer (Kolmogorov (1933), Smirnov (1944), Chernoff and Savage (1958),
Bolshev (1963), Huber, Nikulin (1993)), que si n et x appartient au domaine
_
x : 0 < x = O(n
1/3
)
_
,
alors
P
_
(6nD
+
n
+1)
2
18n
< x[H
0
_
=
_
1e
x
_
+
2x
2
4x 1
18n
e
x
+O
_
1
n

n
_
, (3.4)
et
P
_
(6nD
n
+1)
2
18n
< x[H
0
_
=
= K
__
x
2
_

1
18

k=
(1)
k
e
k
2
x
_
P
k
(x) +2k
4
x k
2

+O
_
1
n

n
_
, (3.5)
o
P
k
(x) =
_
k
2

1(1)
k
2
_
(12k
2
x) +2k
2
x(k
2
x 3) =
= k
2
_
2k
2
x
2
2x(k
2
+3) +1

+
(1)
k
1
2
(12k
2
x).
Comme
2
2m
= 2
m
et
P
1
x = 1e
x
, pour tout x > 0,
de (4) et de (5) on dduit que pour les grandes valeurs de n la statistique
(6nD
+
n
+1)
2
9n
est approximativement distribue comme
2
2
et que
P
_
(6nD
n
+1)
2
18n
< x
_
K
__
x
2
_
.
187
Ces deux approximations sont dja bonnes pour n 20, les erreurs de ces approximations
diminuent comme
1
n
.
Soit le niveau du test de Kolmogorov (0 < < 0.5), bas sur la statistique D
n
, et
soient x
+

et x

, les valeurs critiques des tests bass sur D


+
n
et D
n
, i.e.
P
_
D
+
n
x
+

_
= et PD
n
x

= .
Daprs le test de Kolmogorov
on rejette H
0
en faveur de lhypothse H
1
si D
n
x

.
De la mme faon, daprs le test de Smirnov
on rejette H
1
en faveur de lhypothse H
+
1
si D
+
n
x

.
On remarque que pour les petites valeurs de (0 < 0.2) il y a une liaison entre les
valeurs critiques x

et x
+
/2
:
x

= x
+
/2
,
et lerreur dans cette galit est infrieure 0.0005 :
[x

x
+
/2
[ 0.0005.
On peut montrer que cette erreur diminue trs vite quand diminue. Par exemple, si 0.1
, alors
[x

x
+
/2
[ 0.00005.
Si n 10 et 0.01 0.2, pour calculer x

et x
+
/2
il est recommand dutiliser les
approximations de Bolshev (1963) :
x

1
2n
_
y
2y
2
4y 1
18n
_
, y =ln

2
x
+

1
2n
_
y
2y
2
4y 1
18n
_
, y =ln.
On peut remarquer que si n est assez grand, alors

1
2n
_
y
2y
2
4y 1
18n
_

=
_
y
2n
.
Dans la pratique ces formules donnent dj de bons rsultats dans le cas > 0.001 pour
n 20.
Enn, si
0.2 0.3 et 10 n 50,
alors en prenant pour y la racine de lquation
K
__
y
2
_
= 1,
on obtient encore une approximation de Bolshev (1963)
x

1
2n
_
y
1
18n
[(2y
2
4y 1)
3
(3y
2
y +0.5)]
_

1
6n
.
188
Dans le cas n 100 toutes ces approximations sont trs bonnes pour calculer x

et x
+

pour
tout tel que 0.0001 0.5.
3.5 Test de Kolmogorov-Smirnov pour deux chantillons.
Soient X = (X
1
, . . . , X
n
)
T
et Y = (Y
1
, . . . ,Y
m
)
T
deux chantillons indpendants, et soit
F(x) = PX
i
< x et G = PY
j
< y
les fonctions de rpartition continues de X
i
et Y
j
respectivement. Nous pouvons construire
deux lois empiriques, qui correspondent aux deux chantillons donns Xet Y. Notons F
n
(x)
et G
m
(x) les fonctions de rpartition de ces lois empiriques.
On utilise le test de Kolmogorov-Smirnov pour tester lhypothse
H
0
: F(x) G(x), x R
1
,
qui peut scrire en fonction de F
n
et G
m
de la faon suivante :
H
0
: EF
n
(x) EG
m
(x),
contre lhypothse bilatrale
H
1
: sup
[x[<
[EG
m
(x) EF
n
(x)[ > 0,
ou contre lune de deux hypothses unilatrales :
H
+
1
: sup
[x[<
(EG
m
(x) EF
n
(x)) > 0
ou
H

1
: inf
[x[<
(EG
m
(x) EF
n
(x)) > 0
respectivement. Pour tester H
0
contre H
1
on peut utiliser la statistique
D
m,n
= sup
[x[<
[G
m
(x) F
n
(x)[, (3.1)
o G
m
(x) et F
n
(x) sont les fonctions empiriques, associes Y et X.
Si on teste H
0
contre H
+
1
o H

1
, on utilise les statistiques
D
+
m,n
= sup
[x[<
(G
m
(x) F
n
(x)) et D

m,n
= inf
[x[<
(G
m
(x) F
n
(x)). (3.2)
Smirnov a montr (1939) que si lhypothse H
0
est vraie, alors les statistiques D
+
m,n
, D
+
n,m
,
D

m,n
, D

n,m
suivent la mme loi. En pratique les valeurs des statistiques (1) et (2) sont cal-
cules daprs les formules suivantes :
D
+
m,n
= max
1rm
_
r
m
F
n
(Y
(r)
)
_
= max
1sn
_
G
m
(X
(s)
)
s 1
n
_
,
189
D

m,n
= max
1rm
_
F
n
(Y
(r)
)
r 1
m
_
= max
1sn
_
s
n
G
m
(X
(s)
)
_
,
D
m,n
= max(D
+
m,n
, D

m,n
),
o X
(i)
et Y
( j)
sont les statistiques dordre, correspondant aux chantillons. On peut obtenir
ces formules en utilisant la transformation de Smirnov et les proprits des statistiques
dordre de la loi uniforme sur [0, 1]. Smirnov (1939) a montr, que si min(m, n) , alors
pour tout y positif
limP
__
mn
m+n
D
+
m,n
< y[H
0
_
= 1e
2y
2
,
limP
__
mn
m+n
D
m,n
< y[H
0
_
= K(y),
o K(z) est la fonction de Kolmogorov.
3.6 Test
2
de Cramer-von Mises et statistiques associes
de Lehmann, Gini, Downton, Moran-Greenwood et Sher-
man.
Souvent pour tester lhypothse simple
H
0
: EF
n
(x) F(x), [x[ < ,
contre lalternative
H
1
: sup
[x[<
[EF
n
(x) F(x)[ > 0,
au lieu dutiliser le test de Kolmogorov, on construit le test
2
de Cramer et Von Mises,
fond sur la statistique

2
=
2
n
= n

[F
n
(x) F(x)]
2
dF(x).
La statistique
2
est aussi trs intressante cause de ses liaisons avec dautres statistiques,
bien connues en statistique, par exemple, avec la statistique L
n
de Lehmann, la statistique
G de Gini, la statistique "" de Downton, la statistique M
n
de Moran et Greenwood (pour
plus de dtails voir, par exemple, Kendall et Stewart, Cramer, Mises). Pour dmontrer ces
proprits de la statistique
2
, on peut lcrire sous une autre forme, beaucoup plus pratique
dans les applications :

2
=
n

i=1
_
F(X
(i)
)
2i 1
2n
_
2
+
1
12n
,
o X
()
= (X
(1)
, X
(2)
, . . . , X
(n)
)
T
est le vecteur des statistiques dordre, associ lchantillon
X.
190
En fait, on a

2
n
= n

[F
n
(x) F(x)]
2
dF(x) = n
n

i=0
X
(i+1)

X
(i)
_
i
n
F(x)
_
2
dF(x) =
=
n
3
n

i=0
X
(i+1)

X
(i)
d
_
F(x)
i
n
_
3
=
n
3
n

i=0
_
F(X
(i+1)
)
i
n
_
3

_
F(X
(i)
)
i
n
_
3
.
On suppose que :
P
_
F(X
(n+1)
) = 1
_
= 1 et P
_
F(X
(0)
) = 0
_
= 0.
Comme
F(x)
i
n
= F(x)
i +1
n
+
1
n
alors
_
F(X
(i+1)
)
i
n
_
3
=
_
F(X
(i+1)
)
i +1
n
_
3
+
3
n
_
F(X
(i+1)
)
i +1
n
_
2
+
+
3
n
2
_
F(X
(i+1)
)
i +1
n
_
+
1
n
3
,
on en dduit que

2
n
=
n
3
_
n+1

i=1
_
F(X
(i)
)
i
n
_
3
+
3
n
n+1

i=1
_
F(X
(i)
)
i
n
_
2
+
+
3
n
2
n+1

i=1
_
F(X
(i)
)
i
n
_
+
n+1
n
3
n

i=1
_
F(X
(i)
)
i
n
_
3
_
=
=
n
3
_
_
1
n+1
n
_
3
+
3
n
n

i=1
_
F(X
(i)
)
i
n
_
2
+
3
n
_
1
n+1
n
_
2
+
+
3
n
n

i=1
_
F(X
(i)
)
i
n
_
2
+
3
n
2
_
1
n+1
n
_
+
n+1
n
3
_
=
=
n
3
_
1
n
2
+
3
n
n

i=1
_
_
F(X
(i)
)
i
n
_
2
+
1
n
_
F(X
(i)
)
i
n
_
+
1
4n
2
_

1
4n
2
_
=
=
n
3
_
3
n
n

i=1
_
F(X
(i)
)
2i 1
2n
_
2
+
1
4n
2
_
=
=
n

i=1
_
F(X
(i)
)
2i 1
2n
_
2
+
1
12n
.
Donc si les lments X
i
de lchantillon X sont des variables continues, des proprits de la
transformation de Smirnov il suit que la statistique U = (U
1
, . . . ,U
n
)
T
, U
i
= F(X
i
), repr-
sente un chantillon, oU
i
suit la loi uniforme sur [0, 1]. Si nous notons U
()
= (U
(1)
,U
(2)
, . . . ,U
(n)
)
T
191
le vecteur des statistiques dordre, associ la statistique U, alors en fonction de U
()
la sta-
tistique
2
peut tre prsente de faon suivante :

2
=
n

i=1
_
U
(i)

2i 1
2n
_
2
+
1
12n
.
Cette prsentation de la statistique
2
montre bien que sa distribution ne dpend pas de
F(x) si H
0
est vraie. Il y a des tables statistiques de la loi limite (n ) de la statistique

2
, qui a t tudie par Smirnov (1944) et T.W.Anderson et D.A.Darling (1952).
Nous allons considrer maintenant une modication
2
n
de la statistique
2
n
, qui dun
ct est trs lie avec les statistiques L
n
de Lehmann, G de Gini, "" de Downton et M
n
de
Moran et Greenwood, et dun autre ct a une distribution asymptotique trs simple sous
lhypothse H
0
, quand n , voir, par exemple, Greenwood & Nikulin (1996).
Soit
1
la matrice inverse de la matrice de covariance du vecteur U
()
. On peut
facilement vrier que

1
=|
i j
|,
o

i j
=
_
_
_
2(n+1)(n+2), si i = j,
(n+1)(n+2), si [i j[ = 1,
0, si [i j[ 2.
Notons
2
n
la statistique

2
n
=
_
U
()
EU
()
_
T

1
_
U
()
EU
()
_
,
que lon peut crire :

2
n
= 2(n+1)(n+2)
_
n

i=1
U
2
(i)

n1

i=1
U
(i)
U
(i+1)
U
(n)
+
n
2(n+1)
_
.
Nous savons que
EU
()
=
_
1
n+1
,
2
n+1
, . . . ,
n
n+1
_
T
et que la matrice de covariance de U
()
est
E
_
U
()
EU
()
__
U
()
EU
()
_
T
= =|
i j
|,
o

i j
=
ji
= E
_
U
(i)

i
n+1
__
U
( j)

j
n+1
_
=
_

_
i(n j 1)
(n+1)
2
(n+2)
, si i j,
j(ni +1)
(n+1)
2
(n+2)
, si i j,
En utilisant ces proprits de la statistique U
()
, on peut montrer que
E
2
=
1
6
et Var
2
=
4n3
180
,
192
et quon a la reprsentation suivante pour la statistique
2
:

2
= L
n
+
n
+
1
6(n+1)
,
o
L
n
=
n

i=1
_
U
(i)

i
n+1
_
2
=
_
U
()
EU
()
_
T
_
U
()
EU
()
_
est la statistique de Lehmann (1973),
n
tant une combinaison linaire des statistiques
dordre :

n
=
n

i=1
n2i +1
n(n+1)
_
U
(i)

i
n+1
_
.
Par des calculs directs, on peut montrer (voir, par exemple, Nikulin et Osidze (1985)), que
EL
n
=
n
6(n+1)
, VarL
n
=
n
2
45(n+1)
2
,
E
n
= 0, Var
n
=
(n1)(n+3)
180n(n+1)
3
,
Cov(L
n
,
n
) =
n1
90(n+1)
2
, Corr(L
n
,
n
) =

n1
n(n+3)
.
De plus on peut facilement vrier que
n
est lie par la relation suivante

n
=
n1
2(n+1)
G+
n1
6(n+1)
la statistique G de Gini :
G =
1
n(n1)

i, j

U
(i)
U
( j)

,
qui son tour est lie la statistique "" de Downton :
=

2
G,
et par consquent on trouve que

2
= L
n
+
n1
2(n+1)
G+
n
6(n+1)
= L
n
+

n1
n+1
+
n
6(n+1)
.
Nous allons considrer maintenant une modication
2
n
de la statistique
2
. Soit
1
la
matrice inverse de la matrice de covariance du vecteur U
()
. On peut facilement vrier
que

1
=|
i j
|,
o

i j
=
_
_
_
2(n+1)(n+2), si i = j,
(n+1)(n+2), si [i j[ = 1,
0, si [i j[ 2.
193
Notons
2
n
la statistique omega-deux gnralise

2
n
=
_
U
()
EU
()
_
T

1
_
U
()
EU
()
_
,
que lon peut crire de la manire suivante :

2
n
= 2(n+1)(n+2)
_
n

i=1
U
2
(i)

n1

i=1
U
(i)
U
(i+1)
U
(n)
+
n
2(n+1)
_
.
En utilisant cette reprsentation de la statistique
2
n
, on peut montrer que
E
2
n
= n, Var
2
n
=
4n(n+1)
2
(n+3)(n+4)
, E
_

2
n
n

3
=
16n(n+1)
2
(5n2)
(n+3)(n+4)(n+5)(n+6)
.
De plus de cette dernire prsentation de la statistique
2
n
il suit que

2
n
= (n+1)(n+2)M
n
(n+2),
o
M
n
=
n

i=1
_
U
(i+1)
U
(i)

2
est la statistique de Moran-Greenwood (voir, par exemple, Moran (1947)). La liaison di-
recte entre les statistique M
n
et
2
n
et leurs proprits nous permet dafrmer que
lim
n
P
_

_
1+
3
n
__
1+
3
n+1
_

2
n
n
2

n+1
< x[H
0
_
= (x), x R
1
.
Donc pour tester H
0
on peut utiliser la normalit asymptotique de la statistique
2
n
.
Parlons maintenant de la statistique de Sherman (1950), qui est lie avec les statistiques
considres dans ce paragraphe.
Soit U = (U
1
, . . . ,U
n
)
T
un chantillon, o U
i
suit la loi uniforme sur [0, 1]. Comme
prcdemment, notons
U
()
= (U
(1)
, . . . ,U
(n)
)
T
(3.1)
le vecteur des statistiques dordre, associ la statistique U.
Notons
U
(0)
0 et U
(n+1)
1. (3.2)
Nous dterminons la statistique de Sherman s
n
par la formule
s
n
=
1
2
n+1

i=1

D
i

1
n+1

, (3.3)
o
D
i
=U
(i)
U
(i1)
. (3.4)
On sait que
Es
n
=
_
1
1
n+1
_
n+1
(3.5)
194
et
Vars
n
=
2n
n+2
+n(n1)
n+2
(n+2)(n+1)
n+2

_
1
1
n+1
_
2(n+1)
. (3.6)
En utilisant ces proprits de la statistique s
n
, on dduit que
Es
n

1
e
et Vars
n

e 1
e
2
, n .
Dapres le thorme limite centrale, si n est assez grand,
P
_
es
n
1

e 1
x
_
= (x) +O
_
1

n
_
,
ce qui signie que la statistique de Sherman est asymptotiquement normale N(0, 1), et donc
la statistique
X
2
=
(es
n
1)
2
e 1
suit la limite (n ) la loi du chi-deux un degr de libert, et on peut utiliser ce rsultat
pour tester lhypothse H
0
selon laquelle U
i
suit une loi uniforme sur [0, 1].
3.7 Les statistiques de Kolmogorov et Gihman.
Soit U = (U
1
,U
2
, . . . ,U
n
)
T
un chantillon, U
i
suit une loi uniforme sur [0, 1],
PU
i
x = x, x [0, 1]. (3.1)
Notons U
()
= (U
(1)
, ...,U
(n)
)
T
le vecteur des statistiques dordre, associ la statistique U :
0 U
(0)
U
(1)
U
(n1)
U
(n)
1. (3.2)
Soit F
n
(x) la fonction de rpartition de la loi empirique associe U :
F
n
(x) =
1
n
n

i=1
1
[U
i
x]
, x [0, 1]. (3.3)
Il est facile de montrer (voir, par exemple 10) que pour tout x donn, x [0, 1], la statistique
nF
n
(x) suit la loi binomiale B(n, x) de paramtres n et x et par consquent on a :
EF
n
(x) = x et nCov(F
n
(x), F
n
(y)) = x y xy, 0 x, y 1;
F
n
(x) x avec la probabilit 1 pour tout x quand n .
(3.4)
Dans la pratique il faut avoir beaucoup dobservations pour utiliser la fonction empirique
F
n
(x). Pour cette raison on peut raisonablement considerer la situation avec des donnes
groupes. Il est intressant tudier la conduite de la fonction de rpartition de la loi empi-
rique G
n
(x), correspondant aux donnes groupes.
Soit p = (p
1
, p
2
, . . . , p
r
, p
r+1
)
T
un vecteur de probabilits positives,
p
i
> 0, p
1
+ p
2
+. . . + p
r
+ p
r+1
= 1, (3.5)
195
o r(n) 1. Posons x
0
= 0, x
r+1
= 1,
x
j
= p
1
+ p
2
+. . . + p
j
, j = 1, . . . , r.
On obtient ainsi une partition de [0,1] en r +1 intervalles
[0, x
1
], (x
1
, x
2
], . . . , (x
r1
, x
r
], (x
r
, x
r+1
]. (3.6)
Soit = (
1
, ...,
r
,
r+1
)
T
le vecteur des frquences obtenues en regroupant U
1
, ...,U
n
dans
les classes (6). Nous dterminons la fonction de rpartition empirique G
n
(x) associe au
vecteur par la formule :
G
n
(x) =
_
0, x = x
0
= 0,

1
+
2
+...+
i
n
, x
i1
< x x
i
, i = 1, 2, 3, . . . , r +1.
(3.7)
Nous pouvons maintenant construire la statistique de Gihman
Z
n
= (Z
n1
, . . . , Z
nr
)
T
,
o
Z
ni
=

n[G
n
(x
i
) x
i
] =

n
_

1
+. . . +
i
n
(p
1
+. . . + p
i
)
_
. (3.8)
Il est clair que
EZ
n
= (0, . . . , 0)
T
= 0
r
et EZ
n
Z
T
n
= , (3.9)
o
=
_
_
_
_
_
_
_
_
_
_
_
x
1
x
1
x
1
x
1
x
1
x
2
x
2
x
2
x
1
x
2
x
3
x
3
.
.
.
.
.
.
.
.
.
.
.
.
x
1
x
2
x
3
x
r
_
_
_
_
_
_
_
_
_
_
_

_
_
_
_
_
_
_
_
_
_
_
x
1
x
2
x
3
.
.
.
x
r
_
_
_
_
_
_
_
_
_
_
_
|x
1
, x
2
, . . . , x
r
|. (3.10)
Nous allons tudier les proprits asymptotiques de la statistique Z
n
quand n .
a) Supposons tout dabord que
r = r(n) quand n (3.11)
de faon que la longueur maximale des intervalles (6) de groupement des donnes aille vers
zro assez vite, i.e., que
max
1ir+1
np
i
0 si n . (3.12)
Notons
D

n
= max
1ir
[Z
n,i
[ et D
n
= sup
0x1

n[F
n
(x) x[.
Thorme (Gihman, 1961). Si r et que (12) est vrie quand n , alors les
statistiques D
n
et D

n
sont asymptotiquement equivalentes :
lim
n
PD

n
z = lim
n
PD
n
z = K(z), (3.13)
o K(z) est la fonction de rpartition de Kolmogorov,
K(z) =
+

j=
(1)
j
e
2 j
2
z
2
, 0 < z < .
196
De ce thorme il suit que sous la condition (12) nous pouvons utiliser la statistique Z
n
quand n est assez grand pour construire des tests bien connus comme
2
de Smirnov, W
2
n
de Anderson et Darling (1952) ou de Sherman (1950) etc.
b) Maintenant nous supposons que les intervalles (6) sont xs, r +1 2. Dans ce cas de
(3), (4), (8) et du thorme limite central multidimensionnel on dduit que la loi limite de
Z
n
quand n est la loi normale N(0
r
, ) de paramtres donns par (9). Comme le
rang de la matrice de covariance est gale r, on en dduit quil existe une matrice

1
=|
i j
|
dont les lments
i j
sont donns par la formule suivante :
_

i j
= 0, [i j[ 2,

i,i+1
=
1
x
i+1
x
i
=
1
p
i+1
, i = 1, . . . , r 1,

i,i1
=
1
x
i
x
i1
=
1
p
i
, i = 1, . . . , r,

ii
=(
i,i1
+
i,i+1
) =
1
x
i+1
x
i
+
1
x
i
x
i1
, i = j.
(3.14)
Nous pouvons maintenant construire la statistique Y
2
n
en posant
Y
2
n
= Z
T
n

1
Z
n
.
Grce la normalit asymptotique de la statistique Z
n
on obtient que
lim
n
PY
2
n
x = P
2
r
x.
Il est facile de vrier que Y
2
n
est la statistique classique de Pearson :
Y
2
n
=
r+1

i=1
(
i
np
i
)
2
np
i
. (3.15)
c) Enn nous considrons le cas
r = r(n) quand n , (3.16)
de faon que
max
1ir+1
p
i
0 et min
1ir+1
np
i
. (3.17)
Thorme (Tumanian, 1956). Si r et si les conditions (7) ont lieu quand n ,
alors
sup
[x[<

PY
2
n
x1+
_
x r

2r
_

0, n . (3.18)
3.8 Test des signes.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un chantillon. On suppose que la fonction de rpartition
F(x) = PX
i
x de X
i
est continue, mais inconnue.
Soit la mdiane inconnue, elle aussi de la loi F(x), cest--dire que
F() = 0.5,
197
et supposons que nous voulions tester lhypothse H
0
: =
0
, o
0
est un nombre donn,
contre lune des trois hypothses suivantes :
H
+
1
: F(
0
) > 0.5, ce qui signie que
0
> ;
H

1
: F(
0
) < 0.5, ce qui signie que
0
< ;
H
1
: F(
0
) ,= 0.5, ce qui signie que
0
,= .
Le test des signes est fond sur la statistique

n
=Y
1
+Y
2
+. . . +Y
n
,
o
Y
i
=
_
1, si X
i
>
0
,
0, si X
i

0
.
Il est vident que
PY
i
= 1[H
0
= F(
0
) = 1F(
0
) = 0.5,
i.e. sous lhypothse H
0
la statistique Y
i
suit une loi de Bernoulli de paramtre de succs
p = 0.5, et par consquent la statistique
n
sous lhypothse H
0
suit une loi binomiale de
paramtres n et p = 0.5 :
P
n
m[H
0
=W(m, n) =
m

i=0
_
n
i
_
(0.5)
n
=
= I
0.5
(nm, m+1) = 1I
0.5
(m+1, nm). (3.1)
Donc pour avoir le test, il faut trouver des nombres entiers k et K tels que
_
W(k, n) ,
W(k +1, n) > ,
et
_
W(K1, n) 1,
W(K2, n) < 1,
(3.2)
o est une probabilit infrieure 0.5, 0 < < 0.5.
Il est vident que les valeurs critiques k = k(, n) et K = K(, n) sont des fonctions non
dcroissantes de n, et que, si la fonction F(x) est continue, alors k +K = n. Si on teste H
0
contre H
+
1
, alors on est oblig de rejeter H
0
en faveur de H
+
1
, si

n
k(, n), (3.3)
et dans ce cas on a le test des signes de niveau . On procde de mme si on teste H
0
contre H

1
, en rejetant H
0
en faveur de H

1
si

n
K(, n) (3.4)
et le niveau de ce test est . Dans le cas o on teste H
0
contre lalternative H
1
, on est
oblig de rejeter H
0
en faveur de H
1
, si
min(
n
, n
n
) k(, n), (3.5)
et le niveau de ce test est 2.
Exemple 1. Pendant le premier jour, un compteur a enregistr 20021 impulsions, tandis
que le jour suivant il y en a eu seulement 19580. Peut-on dire que le second jour on a observ
198
une diminution de lintensit darrive des impulsions ? Pour rpondre cette question on
choisit le modle statistique daprs lequel les nombres dimpulsions observes sont des
ralisations de deux variables indpendantes X et Y o X suit la loi de Poisson de paramtre
( > 0) et Y suit la loi de Poisson de paramtre ( > 0). Dans ce modle il est bien
naturel de considrer comme hypothse H
0
: = , et comme alternative H
1
: > . Pour
tester H
0
contre H
1
on peut utiliser le test des signes.
Si notre modle est bon, alors pour tout x, y 0, 1, 2, . . . ...
PX = x,Y = y =

x
x!
e

y
y!
e
y
=
=
(+)
x+y
(x +y)!
e
(+)
(x +y)!
x!y!
_

+
_
x
_
1

+
_
y
,
et donc la loi conditionnelle de X, conditionne par la somme X +Y = n, est binomiale de
paramtres n et p = /(+), et par consquent on en tire que lhypothse H
0
: = est
vraie si et seulement si la loi conditionnelle de X est binomiale de paramtres n et p = 0.5 :
PX = x[X +Y = n, H
0
=
_
n
x
_
(0.5)
n
,
et il nous faut tester lhypothse H
0
: p = 0.5 contre une alternative H
1
: p > 0.5. On peut
montrer que cest le test des signes qui est le plus puissant dans ce problme. Daprs ce test
on doit rejeter H
0
, si X K = K(, n), o n = 20021+19580 = 39601. La valeur critique
K est dtermine comme tant la solution du systme
_
PX K[X +Y = 39601, p = 0.5 ,
PX K1[X +Y = 39601, p = 0.5 > .
Mais daprs le thorme de de Moivre-Laplace
PX K[X +Y = n, p = 0.5

=
_
K0.5n0.5

0.25n
_
,
donc
K =
_
K

, si K

est entier,
[K

+1], si K

est nonentier,
o
K

=
n+1
2
+(1)

n
2
.
Dans notre cas, = 0.05 et
K

=
39602
2
+1.645

39601
2
= 19964.7,
par consquent K = 19965. Comme
X = 20021 > 19965,
on prend lhypothse H
1
, dapres laquelle on observe diminution dintensit.
199
Exemple 2. Soit Z = (Z
1
, . . . , Z
n
)
T
un chantillon, Z
i
= (X
i
,Y
i
)
T
est un vecteur alatoire
deux dimensions dont la densit p(x, y) est inconnue. Supposons que pour tout i, X
i
et Y
i
soient indpendantes et quil faille tester lhypothse
H
0
: p(x, y) = p(y, x). (3.6)
Comme les X
i
sont indpendantes de Y
i
, la condition (6) signie que X
i
et Y
i
sont distribues
daprs la mme loi (inconnue), et par consquent pour tester H
0
on peut construire le test
des signes. En fait, soit
V
i
=
_
_
_
1, si X
i
Y
i
> 0,
i = 1, 2, . . . , n.
0, si X
i
Y
i
< 0,
(3.7)
Sous lhypothse H
0
la distribution de V
i
est symtrique par rapport 0, et donc si nous
posons

n
=V
1
+V
2
+. . . +V
n
,
de (6) et (7) il sensuit que sous lhypothse H
0
la statistique
n
est distribue selon la loi (1)
donc en utilisant (2)(5) nous pouvons utiliser le test des signes pour tester cette hypothse.
3.9 Test de Wilcoxon.
Soient X = (X
1
, . . . , X
n
)
T
et Y = (Y
1
, . . . ,Y
m
)
T
deux chantillons indpendants, et soit
F(x) = PX
i
x et G = P
_
Y
j
y
_
les fonctions de rpartition de X
i
et Y
j
respectivement. Le test de Wilcoxon est utilis pour
tester lhypothse
H
0
: F(x) G(x), x R
1
,
contre lhypothse
H

: F(x) < G(x), x R


1
,
ou contre lhypothse
H
+
: F(x) > G(x), x R
1
,
ou contre H

et H
+
ensemble.
Ce test est fond sur la statistique linaire des rangs
W =W
n,m
=
m

i=1
R
i
,
o
R
1
< R
2
< R
3
< < R
m
sont les rangs des observations Y
1
, . . . ,Y
m
dans lchantillon uni
Z = (X
1
, . . . , X
n
,Y
1
, . . . ,Y
m
)
T
200
de taille n +m. Pour construire le vecteur R
Y
= (R
1
, R
2
, . . . , R
m
)
T
des rangs des observa-
tions Y
j
, il faut construire le vecteur Z
()
des statistiques dordre, associ lchantillon Z,
et dterminer les numros des positions des variables alatoires Y
j
. Si, par exemple, lhypo-
thse H

est vraie, on dit que les variables alatoires Y


j
sont stochastiquement plus grandes
que les variables alatoires X
i
, ce qui signie en pratique que les variables alatoires Y
j
ont tendance (sous lhypothse H

) prendre des positions lextrmit droite du vecteur


des statistiques dordre Z et par consquent leurs rangs R
i
ont tendance avoir de grandes
valeurs, et par suite la statistique de Wilcoxon a tendance prendre de grandes valeurs, ce
que lon utilise pour tester H
0
contre H

, en rejetant H
0
en faveur de H

quand W > c

, o
c

est la valeur critique du test de Wilcoxon. On peut montrer que


W =U +
n(n+1)
2
,
o
U =U
m,n
=
n

i=1
m

j=1
V
i j
, (3.1)
est la statistique de Mann-Whitney,
V
i j
=
_
1, si Y
j
> X
i
,
0, si Y
j
< X
i
.
(3.2)
Par des calcul directs (mais pas simples !) on peut montrer que
EW[H
0
=
m(N+1)
2
et VarW[H
0
=
mn(N+1)
12
,
o N = n+m. Les valeurs critiques c

de niveau (0 < < 0.5) de la statistique W sont


des nombres entiers, qui satisfont aux ingalits
PW c

[H
0
et PW c

+1[H
0
> .
Pour les calculer on utilise, par exemple, les tables statistiques de Verdooren (1963) pour
m = 1(1)25, n = m(1)25 et = 0.001, 0.005, 0.010, 0.025, 0.05, 0.1.
Comme la distribution de la statisique W est symtrique par rapport son esprance ma-
thmatique EW, pour calculer une valeur critique c
1
, 0 < < 0.5, on utilise la relation
suivante :
c
1
= EW c

.
Il est vident que le couple (c

, c
1
) nous donne les valeurs critiques du test bilatral de
Wilcoxon de niveau 2, que lon utilise pour tester H
0
contre H
+
et H

la fois.
Si lun des deux nombres n ou m est suprieur 25, pour calculer les valeurs critiques du
test de Wilcoxon, on utilise lapproximation normale de Mann et Whitney (1947), daprs
laquelle
P
_
W EW

VarW
< w[H
0
_
(w),
quand min(m, n) , [w[ < .
201
Fix et Hodges (1955) ont donn une autre approximation, qui donne dj de bons rsul-
tats quand min(m, n) 5. Daprs cette approximation
PW w[H
0

= (x) +(x)(x
3
3x)
N
2
+Nmn
20mn(N+1)
,
o
N = m+n et x =
wEW +0.5

VarW
.
Ce rsultat permet dobtenir assez facilement des approximations normales pour des valeurs
critiques c

:
c

=
_
m(N+1) 1
2
(1)
_
mn(N+1)
12
_
,
o [x] dnote la partie entire du nombre x. On remarque ici que tous ces rsultats, lis
avec des approximations, sont valables si parmi les X
i
et Y
j
il ny a pas dex aequo. En
principe, on ne devrait pas en avoir, puisque X
i
et Y
j
sont des variables alatoires continues
et par consquent P
_
X
i
=Y
j
_
= 0. Mais cause des erreurs darrondis, on obtient souvent
des observations gales. Dans ce cas on attribue aux observations qui sont des ex aequo,
un rang gal la moyenne arithmtique des rangs que ces observations auraient eu avant
la procdure darrondissement. Notons W

=W

n,m
la statistique de Wilcoxon dans ce cas.
Lopration darrondissement ne change pas EW, EW =EW

, mais elle change la variance.


Par des calculs directs, on peut montrer qualors :
VarW

n,m
=
nm
12
(N+1)
_
_
_
_
1
M

i=1
t
i
(t
2
i
1
N(N
2
1)
_
_
_
_
,
o t
i
est le nombre dex aequo dans le groupe numro i et M est le nombre des groupes dex
aequo.
Demonstration.
Soient X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
des variables alatoires continues, X
i
suit une loi dont
la fonction de rpartition est F(x) et Y
j
suit une loi dont la fonction de rpartition est G(x)
avec, par exemple, G(x) = F(x ). Supposons que lon teste lhypothse H
0
, contre lhy-
pothse H

. Donc si H
0
est vraie, alors les variables alatoires
X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
forment un chantillon
Z = (X
1
, X
2
, . . . , X
n
,Y
1
,Y
2
, . . . ,Y
m
)
T
de taille N = n+m. On remarque que
P
_
X
i
=Y
j
_
= 0,
car X
i
et Y
j
sont continues, mais cause des erreurs darrondi on a des ex aequo.
Tout dabord, on remarque que comme
W =W
n,m
=U
n,m
+
n(n+1)
2
,
202
alors VarW = VarU
n,m
.
Supposons que le vecteur Z
()
des statistiques dordre ait au moins un groupe de statistiques
dordre qui soient gales et que les rangs de ces ex aequo dans ce groupe soient
k +1, k +2, . . . , k +t.
Soit le nombre des X
i
de ce groupe, alors t est le nombre des Y
j
parmi ces t ex-aequo.
Il est clair que suit la loi hypergomtrique :
P = x =
_
n
x
__
m
t x
_
_
N
t
_ .
Pour k et t xs posons
U

=U

n,m
() =
n

i=1
m

j=1
V

i j
, (3.3)
o
V

i j
=
_
_
_
1, si X
i
>Y
j
,
0.5, si X
i
=Y
j
,
0, si X
i
<Y
j
.
(3.4)
De (1) (4) il rsulte quen cas de prsence dun seul groupe dex aequo, on a lidentit par
rapport :
U

n,m
() +U
,t

(t )
2
W
n,m
. (3.5)
En cas de prsence de M groupes dex aequo, la dernire identit peut tre gnralise de
la faon suivante :
U

n,m
(
1
,
2
, . . . ,
M
) +
M

i=1
_
U

i
,t
i

i
(t
i

i
)
2
_
U
n,m
, (3.6)
o t
i
est le nombre dex aequo dans le groupe de numro i,
i
le nombre des X
i
dans ce
groupe. De (5) il suit que
E
_
U

n,m
(
1
,
2
, . . . ,
M
)[
1
,
2
, . . . ,
M
_
=
nm
2
. (3.7)
Comme la partie droite de (7) ne dpend pas de
i
, on en tire que
EU

n,m
=
nm
2
.
De la mme faon, comme
VarU
n,m
=
nm
2
(n+m+1) =
nm(N+1)
2
,
on obtient que
Var
_
U

n,m
(
1
,
2
, . . . ,
M
)[
1
,
2
, . . . ,
M
_
+
M

i=1
1
12

i
(t
i

i
)(t
i
+1) =
203
=
nm
12
(n+m+1).
Comme
Var
_
E
_
U

n,m
(
1
,
2
, . . . ,
M
)[
1
,
2
, . . . ,
M
__
= Var
nm
12
= 0,
on en tire que
VarU

n,m
= E
_
Var
_
U

n,m
[
1
,
2
, . . . ,
M
__
,
donc on en dduit que
Var
_
U

n,m
(
1
,
2
, . . . ,
M
)
_
+
M

i=1
t
i
+1
12
E
i
(t
i

i
) =
nm
12
(n+m+1).
Mais
E
i
(t
i

i
) =

j
_
n
j
__
m
t
i
j
_
_
N
t
j
_ j(t
i
j) =
t
i
(t
i
1)nm
N(N1)
,
donc
VarU

=
nm
12
(N+1)
_
_
_
_
1
M

i=1
t
i
(t
2
i
1)
N(N
2
1)
_
_
_
_
= VarW

,
o N = n+m.
3.10 Estimation non paramtrique de la densit. Histo-
gramme. Estimateur de Rosenblatt. Le noyau de Par-
zen.
Le problme, que lon dsigne souvent par estimation non paramtrique de la densit,
est le suivant :
tant donn un chantillon X = (X
1
, ..., X
n
)
T
, issu dune distribution continue et dont la
densit f est inconnue, construire un bon estimateur de f .
Soit h
n
une suite de nombres positives (tailles de fentre ) telle que h
n
> 0, h
n
0,
nh
n
0, quand n . Pour tout n x nous pouvons construire une partition de R
1
R
1
=

kZ
]kh
n
, (k +1)h
n
],
en utilisant la taille de fentre h
n
correspondante. Pour tout x R
1
il existe un intervalle
]kh
n
, (k +1)h
n
], avec k =
_
x
h
n
_
, tel que x ]kh
n
, (k +1)h
n
] et donc nous pouvons dterminer
une application alatoire f
n
: R
1
R
1
+
par la formule :
f
n
(x) =
1
nh
n
n

j=1
1
]kh
n
,(k+1)h
n
]
(X
j
), x R
1
. (3.1)
204
Dnition 1. Nous disons que f
n
(x), x R
1
, est la densit empirique, base sur lchan-
tillon X = (X
1
, ..., X
n
)
T
. Le graphe de f
n
(x) sappelle histogramme.
De (1) il suit que pour tout x ]kh
n
, (k +1)h
n
], k Z, on a
f
n
(x) =
1
nh
n
[F
n
((k +1)h
n
) F
n
(kh
n
)] =

k
nh
n
, (3.2)
o F
n
(x) est la fonction empirique, base sur X= (X
1
, ..., X
n
)
T
,
k
est le nombre de X
j
dans
lintervalle ]kh
n
, (k +1)h
n
]. Souvent on dit que f
n
(x) est un estimateur non paramtrique
classique de la densit f (x).
En 1956 M. Rosenblatt a propos un estimateur de type noyau
f
n
(x) =
1
nh
n
n

j=1
K
_
x X
j
h
n
_
, (3.3)
o K(), un noyau, est une fonction telle que

K(x)dx = 1 et k =

K
2
(x)dx < .
Le choix du noyau K dpend en gnral des proprits de la densit f que lon dsire avoir.
Par exemple, Parzen (1962) a propos de choisir le noyau
K(x) = 0.51
[1,1]
(x), avec k =
1
2
. (3.4)
Il est clair que si on choisit le noyau de Parzen, alors de (1), (2) et (4) on obtient lestimateur
f
n
(x), appel lestimateur naf de f(x) :
f
n
(x) =

k
2nh
n
,
o
k
est le nombre de X
j
dans lintervalle ]x h
n
, x +h
n
].
Souvent on utilise le noyau de Epanechnikov (1969)
K(x) = 0.72(1x
2
)1
[1,1]
(x), avec k =
2
3
,
voir aussi Bartlett (1963).
On donne ici encore quelques dautres exemples :
le noyau de Gauss :
K(x) =
1

2
e
x
2
, avec k =
1

2
,
le noyau de Laplace :
K(x) =
1
2
e
[x[
, avec k =
1
2
,
le noyau de Cauchy :
K(x) =
1
(1+x
2
)
, avec k =
1

,
205
le noyau de Fejer :
K(x) =
1
2
_
sin
x
2
x
2
_
, avec k =
1
3
,
le noyau de Tukey
K(x) =
15
16
(1x
2
)
2
1
[1,1]
(x).
Dans certains cas lexpression de K peut tre plus complique. Les proprites asympto-
tiques de f
n
ont t bien tudies, voir par exemple, Deheuvels (1973, 1974), Devroye et
Gyr (1985), Watson et Leadbether (1963), Silverman (1986), Nikulin & Solev (2002),
etc.
Il est facile de montrer que pour lestimateur classique (1) on a
[Ef
n
(x) f (x)[
f
(h
n
),
o

f
(h) = sup
[xy[h
[ f (x) f (y)[,
est le module de continuit de f , do on tire que si x est un point de continuit de f , alors
Ef
n
(x) = f (x) +o(h
n
), n
et donc de la loi de grands nombres il suit que
f
n
(x)
P
f (x),
i.e. f
n
(x) est une suite consistante destimateurs f
n
(x) de f (x).
De la mme faon comme pour lestimateur non paramtrique classique on peut d-
montrer, sous quelques conditions de rgularit sur f et K, que pour lestimateur de type
noyau on a :
Ef
n
(x) =
1
h
n

K
_
x y
h
n
_
f (y)dy f (x), quand n ,
limnh
n
Var f
n
(x) = k f (x), n ,
i.e. f
n
(x) est un estimateur asymptotiquement sans biais pour f (x), et on en tire que f
n
(x)
P

f (x), i.e. f
n
(x) est une suite consistante destimateurs f
n
(x) de f (x).
Enn on remarque que propos du choix de la taille de la fentre h
n
nous recomman-
dons regarder Devroue et Gyr (1985), Bretagnolle et Huber (1979), Freedman et Diaconis
(1981). Souvent pour choisir h
n
on pose
h
n
=
1
[n

([ f
(2)
(x)]
2
dx]
1/5
[
k

x
2
K
2
(x)dx
]
2/5
.
206
Chapitre 4
TESTS STATISTIQUES.
4.1 Principe des tests.
Soit X = (X
1
, ..., X
n
)
T
un vecteur alatoire , X R
n
. Faisons lhypothse H sur la distri-
bution de Xdans R
n
selon laquelle cette distribution appartient une famille P =P

,
dans R
n
, paramtre par . On note H : et lensemble est appel espace des
paramtres.
Dnition 1. Soit
0
. Nous appelons H
0
:
0
lhypothse nulle selon laquelle la
distribution de X appartient la famille
P
0
=P

,
0
P =P

, .
Dnition 2. Si = na quun seul lment , i.e. la distribution de X est P

, alors, on
dit que lhypothse H est simple, sinon H est compose (ou multiple).
Soient
0
et
1
telles que
0

1
= / 0.
Dnition 3. Lhypothse H
1
:
1
est appele lalternative de H
0
.
Exemple 1. Soit
= [
0
, [R
1
,
0
=
0
,
1
= >
0
.
Dans ce cas lhypothse H
0
: =
0
, i.e. H
0
:
0
, est simple, et lalternative H
1
: >
0
,
i.e. H
1
: ]
0
, [, est compose. De mme, si
=] ,
0
],
0
=
0
, et
1
=] ,
0
[,
lalternative H
1
: <
0
est compose. Dans ces deux cas les alternatives H
1
: >
0
ou
H
1
: <
0
sont unilatrales.
Exemple 2. Soit =]
1
,
2
[R
1
,
0
=
0
,
1
<
0
<
2
et

1
=
0
=]
1
,
0
[

]
0
,
2
[.
Ici lalternative H
1
: ,=
0
, i.e. H
1
:
1
=
0
, est bilatrale (et compose).
Dnition 4. On appelle modle statistique paramtrique un modle (R
n
, B
n
, P) tel quil
existe k N :
P =P

, R
k
,
207
sinon on dit que le modle (R
n
, B
n
, P) est non paramtrique.
Exemple 3. Soit X un vecteur alatoire et soit H
0
lhypothse selon laquelle la fonction de
rpartition de X est continue. Dans ce cas le modle est non paramtrique.
Exemple 4. Soit X = (X
1
, ..., X
n
)
T
un chantillon, X
i
suit une loi normale N(,
2
), i.e.
= (,
2
)
T
, = :[ [< ,
2
> 0. Comme R
2
, on a lexemple dun modle
paramtrique.
Soient X =X = (X
1
, ..., X
n
)
T
un chantillon et x = (x
1
, ..., x
n
)
T
R
n
une ralisation de
X, reue dans lexprience.
Soit : R
n
[0, 1] une application borlienne quon appellera fonction critique.
Dnition 5. On dit quune fonction critique dtermine le test statistique pour tester
H
0
:
0
contre H
1
:
1
si lon rejette H
0
avec la probabilit (x) et on rejette H
1
avec la probabilit 1(x).
Dnition 6. La fonction

() = E

(X),
0

1
, (1)
est appelle la fonction de puissance du test, bas sur la fonction critique .
Dnition 7. La fonction

(),
0
est appelle le risque de premire espce. Cest le risque de rejeter H
0
tort ; on constate
que le risque de premire espce est la restriction de la fonction de puissance
0
.
Dnition 8. La fonction

(),
1
est appelle la puissance du test, bas sur la fonction critique ; on costate que la puissance
est la restriction de la fonction de puissance

()
1
.
Dnition 9. La fonction
1

() = E
1
(1(X)) = 1

X
(x)p
1
(x)(dx),
1
est appell le risque de deuxime espce. Cest le risque daccepter H
0
tort.
Si est de la forme
(x) =
_
1, x K R
n
,
0, x R
n
K,
(2)
alors le test statistique, bas sur cette fonction critique, est appel pur ou non randomis,
sinon le test est randomis.
Lensemble K est appell la rgion critique ou la zone de rejet de ce test : on y rejette
H
0
(et on y accepte lalternative H
1
) .
Lensemble

K = R
n
K est appel la zone dacceptation (de non rejet ) de H
0
.
Soit : R
n
[0, 1] une fonction critique.
Il est vident quen cas de test non randomis :

() = P

(X K),
0

1
, (3)
et donc

() nous donne la probabilit avec laquelle X tombe dans la rgion critique K si


la vraie valeur de paramtre est .
Donc dans le cas dun test pur le risque de premire espce est la probabilit de rejeter
tort lhypothse H
0
quand
0
, lorsque lhypothse H
0
est vraie. Le risque de deuxime
208
espce est la probabilit daccepter lhypothse H
0
quand
1
, lorsque lhypothse H
0
est fausse.
Le test est bon, si les erreurs sont petites. On ne peut pas les rendre simultanment
aussi petites que lon veut, parce que, en augmentant K, lerreur de 2-me espce diminue
mais lerreur de 1-re espce augmente et vice versa, en diminuant K lerreur de 1-re
espce diminue mais celle de 2-me espce augmente.
Soit H
0
:
0
.
Le nombre
= sup

(), 0 < < 1,


est appel le niveau ou le seuil de signication du test , ce qui signie que la probabilit
de rejeter H
0
tort ne devra pas dpasser .
Le test de niveau est sans biais, si sa puissance est suprieure ou gale , i.e. si

() pour
1
.
Le test est uniformment le plus puissant (UPP) de seuil , si pour tout autre test
on a

()

()
0
,

()

()
1
.
Considrons le cas de lhypothse H
0
et de lalternative H
1
simples :
H
0
: =
0
, H
1
: =
1
.
Dans ce cas la puissance dun test statistique non randomis, destin tester H
0
contre H
1
,
est la probabilit de rejeter H
0
quand lalternative H
1
est vraie :
= P

1
X K =

(
1
),
et le niveau de signication est la probabilit de rejeter H
0
tort :
= P

0
X K =

(
0
).
Cest la probabilit derreur de premire espce. La probabilit = 1 sappelle la pro-
babilit derreur de deuxime espce.
4.2 Test de Neyman-Pearson.
Supposons que P =P

0
, P

1
est domine par une mesure -nie et notons f
0
et f
1
les densits de P

0
et P

1
par rapport .
Lemme de Neyman-Pearson. Pour tout ]0, 1[ il existe des constantes c

> 0 et

[0, 1] telles, que le test, bas sur la fonction critique


(x) =
_
_
_
1, si p
1
(x) > c

p
0
(x),

, si p
1
(x) = c

p
0
(x),
0, sinon ,
209
a le niveau et est le plus puissant parmi tous les tests tels que E

0
(X) .
Dmonstration.
1) On cherche des constantes c

et

telles que E

0
(X) = :
E

0
(X) = P

0
p
1
(X) > c

p
0
(X)+

0
p
1
(X) = c

p
0
(X) = . (1)
Posons
F(c) = P

0
_
p
1
(X)
p
0
(X)
c
_
, c 0.
F a un sens, puisque p
0
(X) > 0 p.s., si X p
0
(x).
Avec cette notation lgalit (1) peut tre crite sous la forme
E

0
(X) = 1F(c

) +

[F(c

) F(c

0)] = , (2)
puisque la fonction F est continue droite.
a) Sil existe c : F(c) = 1, on peut prendre c

= c,

= 0 pour lesquelles on a lgalit


quil nous faut :
E

0
(X) = .
b) Sinon il existe c :
F(c 0) 1 < F(c). (3)
On peut prendre c

= c et dnir en rsolvant lquation


= 1F(c) +[F(c) F(c 0)].
On obtient
= [1+F(c)]/[F(c) F(c 0)] =
F(c) (1)
F(c) F(c 0)
.
Des ingalits (3) on tire
1+F(c) F(c) F(c 0) et F(c) +1 = F(c) (1) > 0,
cest pourquoi 0 < 1.
2) On montre que le test est le plus puissant. Supposons que est un autre test, tel que
E

0
(X) . Alors
E

0
((X) (X)) 0.
De la dnition de on tire :
si p
1
(x) c

p
0
(x) > 0, alors (x) = 1 (x) et donc (x) (x) 0 ;
si p
1
(x) c

p
0
(x) < 0, alors (x) = 0 (x) et donc (x) (x) 0 ;
cest pourquoi
((x) (x))(p
1
(x) c

p
0
(x)) 0 x,

X
((x) (x))(p
1
(x) c

p
0
(x))(dx) 0
et

X
((x) (x))p
1
(x)(dx) c

X
((x) (x))p
0
(x)(dx).
210
La dernire ingalit peut scrire :
E

1
(X) E

1
(X) c

(E

0
(X) E

0
(X)) 0.
Cest pourquoi E

1
(X) E

1
(X), et le test est plus puissant que .
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
H : X
i
f (x; ) =
x
(1)
x
, x X, =]0, 1[,
i.e. on a le modle statistique selon lequel X
i
suit la loi de Bernoulli de paramtre , .
Notre problme consiste tester au niveau = 0.05 lhypothse nulle H
0
: =
0
contre
lalternative H
1
: =
1
>
0
. On remarque que dans notre modle H il existe une statistique
exhaustive minimale unidimensionnelle (scalaire)

n
= X
1
+... +X
n
.
Si lhypothse H
0
: =
0
est vraie, alors :
P

n
= x =
_
n
x
_

x
0
(1
0
)
nx
, x X
n
0
=0, 1, ..., n. (1)
Si lalternative H
1
est vraie, alors :
P

n
= x =
_
n
x
_

x
1
(1
1
)
nx
, x X
n
0
=0, 1, ..., n. (2)
Donc le problme de tester H
0
: =
0
contre H
1
: =
1
revient au problme de tester lhy-
pothse que
n
suit la loi Binomiale B(n,
0
) contre lalternative que
n
suit la loi binomiale
B(n,
1
),
1
>
0
.
En fonction de la statistique
n
le rapport de vraisemblance est
L(
n
) =
_
n

n
_

n
1
(1
1
)
n
n
_
n

n
_

n
0
(1
0
)
n
n
=
_

0
_

n
_
1
1
1
0
_
n
n
.
On peut remarquer que

0
> 1 et
1
1
1
0
< 1,
et donc L(
n
) est monotone en
n
, do on tire que le meilleur test (le test de Neyman-
Pearson) de niveau pour H
0
contre H
1
est bas sur la statistique
(
n
) =
_
_
_
1, si
n
> c

,
, si
n
= c

,
0, sinon,
o les constantes c

( la valeur critique) et =
0.05
sont telles que
E

0
(
n
) = P

n
> c

+
(
0.05)P

n
= c

= = 0.05. (3)
211
Supposons que n = 10,
0
= 0.25 = 1/4. Si lon choisit K = K
5
=5, 6, 7, 8, 9, 10, dans ce
cas on a
P

n
K
5
=
10

x=5
_
10
x
_

x
0
(1
0
)
10x
=
10

x=5
_
10
x
__
1
4
_
x
_
3
4
_
10x
= 0.0781 > = 0.05.
Si lon choisit K = K
6
=6, 7, 8, 9, 10 , dans ce cas on a
P

n
K
6
=
10

x=6
_
10
x
__
1
4
_
x
_
3
4
_
10x
= 0.0197 < = 0.05.
Donc on voit que
P

n
K
5
= P

n
5 = 0.0781 et P

n
K
6
= P

n
6 = 0.0197,
do on tire que
P

n
= 5 = P

n
5P

n
6 = 0.07810.0197 = 0.0584.
On dtermine laide de (3) la probabilit :

(
0.05) =
0.0197
0.07810.0197
=
0.050.0197
0.07810.0197
= 0.519,
et on obtient la fonction critique du meilleur test de Neyman-Pearson de niveau :
(
n
) =
_
_
_
1, si
n
K
6
,
0.519, si
n
= 5,
0, sinon .
On voit que
E

0
(
n
) = 1 P

n
K
6
+
(
0.05)P

n
= 5 =
= 0.0197+0.519 0.0584 = 0.050 = .
La puissance de ce test randomis quand =
1
=
1
2
est gale
= E

1
(
n
) = P

n
K
6
+
(
0.05)P

n
= 5 =
10

x=6
_
10
x
__
1
2
_
x
_
1
2
_
10x
+0.519
_
10
5
__
1
2
_
5
_
1
2
_
5
=
= 0.3770+0.519 0.2461 = 0.5047.
Enn on remarque que le risque de deuxime espce = 0.4953.
Exemple 2. Soit X = (X
1
, . . . , X
5
)
T
un chantillon. Trouver le plus puissant test de ni-
veau = 0.1 vriant lhypothse H
0
: U(0.5; 0.5) contre lalternative H
1
: N(0; 0.009).
Vrier lhypothse H
0
si des ralisations de X sont
0.114; 0.325; 0.196; 0.174; 0.460.
212
Solution. On cherche le test de Neyman-Pearson pur :
(X) =
_
1, si L
1
(X) > cL
0
(X);
0, sinon,
o
L
0
(X) = 10.5 X
(1)
X
(5)
0.5,
L
1
(X) =
1

5
(2)
5/2
exp
_

1
2
2
5

i=1
X
2
i
_
,
2
= 0.009.
Lingalit L
1
(X) > cL
0
(X) est vraie si et seulement si
_
5

i=1
X
2
i
< k
_

_
X
(1)
<0.5
_

_
X
(5)
< 0.5
_
.
On cherche k de condition
P
0
_
_
5

i=1
X
2
i
< k
_

_
X
(1)
<0.5
_

_
X
(5)
< 0.5
_
_
= P
0
_
5

i=1
X
2
i
< k
_
= ,
o

...

i=1
X
2
i
<R
2
0.5<X
i
<0.5
dx
1
dx
5
= 0.1, (4.1)
o k = R
2
.
Si R 0.5, cette intgrale est gale lintgrale
I =

...

i=1
X
2
i
<R
2
dx
1
dx
5
. (4.2)
Dans lintgrale (1) on fait le changment de variables
x
1
= r cos
1
x
2
= r sin
1
cos
2
x
3
= r sin
1
sin
2
cos
3
x
4
= r sin
1
sin
2
sin
3
cos
4
x
5
= r sin
1
sin
2
sin
3
sin
4
.
Le Jacobien
J = r
4
sin
3

1
sin
2

2
sin
3
.
I =
R

0
r
4
dr

0
sin
3

1
d
1

0
sin
2

2
d
2

0
sin
3
d
3
2

0
d
4
=
8
2
R
5
15
.
Si R = 0.5,
I =

2
60
>
9
60
=
3
20
> 0.1,
213
donc (1) peut tre vraie, si R < 0.5.
R satisfait lquation
8
2
R
5
15
= 0.1,
donc
R
5
=
3
16
2
.
On rejette lhypothse H
0
si
5

i=1
X
2
i
<
_
3
16
2
_
5/2
o X
(1)
<0.5 ou X
(5)
> 0.5.
Dans notre cas
5

i=1
X
2
i
= 0.399, X
(1)
=0.325, X
(5)
= 0.196. On a
0.399 >
_
3
16
2
_
5/2
lhypothse est accept.
4.3 Loi multinomiale et test du chi-deux de Pearson.
Loi multinomiale.
Considrons une suite de n preuves indpendantes et supposons que dans chaque
preuve il ne puisse se passer quun seul vnement parmi k possibles E
1
, E
2
, . . . , E
k
, dont
les probabilits,
p
1
= P(E
1
), p
2
= P(E
2
), ..., p
k
= P(E
k
),
sont positives et p
1
+. . . + p
k
= 1.
Notons p = (p
1
, . . . , p
k
)
T
et = (
1
, . . . ,
k
)
T
, ou
i
est la frquence de E
i
dans la suite
dpreuves (i = 1, . . . , k). Il est vident que les valeurs prises par les
i
sont des valeurs
entires n
i
, 0 n
i
n,
n
1
+n
2
+. . . +n
k
= n. (1)
Le vecteur suit la loi multinomiale de paramtres n et p :
P
1
= n
1
, . . . ,
k
= n
k
=
n!
n
1
! . . . n
k
!
p
n
1
1
p
n
2
2
. . . p
n
k
k
, (2)
pour tout n
1
, . . . , n
k
entiers, satisfaisant aux conditions (1).
Par des calculs directs, on peut tablir que le vecteur des esprances, E, et la matrice
de covariance,
= Var = E(E)(E)
T
,
214
du vecteur sont gaux
E = np, = E(np)(np)
T
= n(Ppp
T
), (3)
ou P est la matrice diagonale dont les lments sur la diagonale principale sont p
1
, . . . , p
k
.
Il est facile de vrier que rang() = k 1, cause de la condition (1).
Test du chi-deux de Pearson.
Soit 1 = 1
k
= (1, . . . , 1)
T
R
k
. Nous pouvons crire que
p
T
1
k
= 1,
T
1
k
= k.
Notons
p = (p
1
, . . . , p
k1
)
T
, = (
1
, . . . ,
k1
)
T
,

1 = 1
k1
,

P est la matrice que lon obtient partir de la matrice P, en enlevant la dernire ligne
et la dernire colonne, cest--dire que

P est la matrice diagonale dont les lments de la
diagonale principale sont p
1
, .., p
k1
. De la mme faon on obtient la matrice

= n
_

P p p
_
T
.
Il est facile de vrier que p
T

1 = 1p
k
, rang(

) = k 1 et que la matrice inverse


1
de

est

1
=
1
n
_

P
1
+
1
p
k

1
T
_
, (4)
o

P
1
est la matrice inverse de

P.
Soit p
0
= (p
01
, p
02
, . . . , p
0k
)
T
un vecteur arbitraire qui satisfait la condition
p
T
0
1 = 1,
tel que tous les p
0i
sont positifs, et supposons que le vecteur suive la loi multinomiale
(2) de paramtres n et p. Dans ce cas si n , alors daprs le thorme limite central
plusieurs dimensions le vecteur
1

n
( p
0
) est asymptotiquement distribu selon la loi
normale (k 1) dimensions de paramtres
( p p
0
) et

P p p
T
=
1
n

.
Par consquent la forme quadratique de Pearson
X
2
n
=
1
n
( n p
0
)
T
_

P
1
+
1
p
k

1
T
_
( n p
0
) (5)
est distribue approximativement (quand n tend vers linni) comme la variable alatoire

2
k1
(
n
), o

n
= n( p p
0
)
T
_

P
1
+
1
p
k

1
T
_
( p p
0
). (6)
Comme
( n p
0
)
T

P
1
( n p
0
) =
k

i=1
(
i
np
0i
)
2
np
i
(7)
215
et

1
T
( n p
0
) =(
k
np
0k
), (8)
la statistique de Pearson X
2
n
peut scrire :
X
2
n
=
k

i=1
(
i
np
0i
)
2
np
i
. (9)
Thorme 1. Soit p
n
une suite de vecteurs p
n
= (p
n1
, p
n2
, . . . , p
nk
)
T
tels que p
T
n
1 = 1 et
tous les p
ni
soient positifs. Supposons que

n
= n
k

i=1
(p
ni
p
0i
)
2
p
0i
, ( > 0) (10)
quand n . Dans ce cas la statistique de Pearson
X
2
n
=
k

i=1
(
i
np
ni
)
2
np
ni
(11)
suit la limite, quand n , la mme loi que la variable alatoire
2
k1
().
Supposons que nous ayons tester lhypothse H
0
: p = p
0
. Soit x(, k 1), le quantile
suprieur de niveau de la distribution du chi-deux (k 1) degrs de libert , cest--dire
que
P
_

2
k1
x(, k 1)
_
= . (12)
Daprs le test du chi-deux de Pearson, fond sur la statistique de Pearson X
2
n
, on rejette
lhypothse H
0
si
X
2
n
c

= x(, k 1). (13)


Le nombre c

sappelle la valeur critique du test. De (12),(13),(6) et (9) on dduit que


P
_
X
2
n
x(, k 1) [ H
0
_
, quand n . (14)
Par ailleurs si lhypothse H
1n
: p = p
n
est vraie, alors du Thorme 1 il rsulte que
P
_
X
2
n
x(, k 1) [ H
1n
_
= P
_

2
k1
() x(, k 1)
_
+o(1), (15)
si
n
k

i=1
(p
ni
p
0i
)
2
p
0i
, quand n . (16)
Par exemple, si
p
ni
= p
0i
+

i

n
, (17)
o

1
+
2
+. . . +
k
= 0,

n
= =
k

i=1

2
i
p
0i
. (18)
216
La probabilit

n
= P
_
X
2
n
x(, k 1) [ H
1n
_

= P
_

2
k1
(
n
) x(, k 1)
_
(19)
sappelle la puissance du test du chi-deux de Pearson .
Par ailleurs, la relation
P
_
X
2
n
x(, k 1) [ H
1n
_
= 1
n
(20)
nous donne la probabilit derreur de seconde espce que lon commet en prenant H
0
tort
parce que lon a observ lvnement X
2
n
x(, k1), tandis quen fait cest lhypothse
H
1n
qui est vraie. On remarque ici que plus la puissance
n
est grande, plus petite est la
probabilit de commettre lerreur de prendre H
0
tort. Enn, on note que pour calculer
1
n
on peut utiliser lapproximation normale de la loi du chi-deux non centrale, daprs
laquelle
1
n
= P
_
X
2
n
x(, k 1) [ H
1n
_

=
_
x(, k 1) (k 1+
n
)
_
2(k 1+2
n
)
_
, (21)
et par consquent on obtient

=
_
k 1+
n
x(, k 1)
_
2(k 1+2
n
)
_
, (22)
pourvu que k +
n
soit assez grand, cest--dire, en pratique, suprieur o gal 30.
Supposons maintenant, que H
1n
soit telle que p
n
,p
0
et

n
= n
k

i=1
(p
ni
p
0i
)
2
p
0i
, (23)
quand n . Dans ce cas, de (20) il rsulte que (1
n
) 0 et donc
n
1, quand n
, et on dit que le test est consistant.
Remarque sur la correction de continuit.
Si k = 2, alors
X
2
n
=
(
1
np
01
)
2
np
01
+
(
2
np
02
)
2
np
02
=
(
1
np
01
)
2
np
01
(1p
01
)
, (24)
car
1
+
2
= n. Supposons que lhypothse H
0
soit vraie. Dans ce cas la frquence
1
suit
la loi binomiale de paramtres n et p
01
et par consquent du thoreme de de Moivre-Laplace
il rsulte que si n , alors pour tout m (1 m n)
P
1
m [ H
0
=
_
m+0.5np
01
_
np
01
(1p
01
)
_
+O(
1

n
), (25)
do on tire
P
1
m [ H
0
= 1P
1
m1 [ H
0
=
=
_
m0.5np
01
_
np
01
(1p
01
)
_
+O(
1

n
). (26)
217
De (25) et (26) il rsulte que si nous voulons utiliser le test du chi-deux de Pearson, fond
sur la statistique X
2
n
du niveau de signication

= , nous devons rejeter H


0
quand

1
+0.5np
01
_
np
01
(1p
01
)
_


2
o
_

1
0.5np
01
_
np
01
(1p
01
)
_


2
. (27)
De (27) on dduit que lon doit rejeter H
0
si lun des vnements

1
np
01
_
np
01
(1p
01
)
(

2
)
1
_
np
01
(1p
01
)
(28)
ou

1
np
01
_
np
01
(1p
01
)
(

2
) +
1
_
np
01
(1p
01
)
(29)
est apparu, o (y) est la fonction inverse de (x). Donc on a montr que le test du chi-
deux de Pearson 1 degr de libert rejette H
0
si
X
2
n

_
(1

2
) +
1
2
_
np
01
(1p
01
)
_
2
(30)
(ici nous avons utilis lidentit : (y) +(1y) 0, y [0, 1].)
De la formule (30) il rsulte que si k = 2, alors la valeur critique c

du test du chi-deux doit


tre gale
c

=
_
(1

2
) +
1
_
np
01
(1p
01
)
_
2
(31)
pour avoir le niveau du test

= .
Test du chi-deux pour des donnes de Mendel.
Dans ses expriences Mendel a observ 315 pois ronds et jaunes, 108 pois ronds et
verts, 101 pois rids et jaunes, 32 pois rids et verts. Au total Mendel a observ 556 pois.
Daprs lhypothse H
0
de Mendel les probabilits p
1
, p
2
, p
3
, p
4
dobserver un pois Rond et
Jaune, un pois Rond et vert, un pois rid et Jaune, un pois rid et vert sont proportionnelles
9,3,3 et 1 respectivement (voir Remarque 1). Peut-on dire que les donnes de Mendel sont
en accord avec son hypothse H
0
?
Notons n le nombre total des pois (dans lexprience de Mendel n = 556), et soit =
(
1
,
2
,
3
,
4
)
T
est le vecteur des frquences des vnements que Mendel a observs :

1
= 315,
2
= 108,
3
= 101,
4
= 31.
Dans notre modle le vecteur suit la loi multinomiale de paramtres n et p = (p
1
, p
2
, p
3
, p
4
)
T
,
o
p
1
+ p
2
+ p
3
+ p
4
= 1, p
i
> 0.
Si lhypothse de Mendel est vraie, alors
p
1
=
9
16
, p
2
=
3
16
, p
3
=
3
16
, p
4
=
1
16
.
Pour tester lhypothse de Mendel on peut utiliser le test du chi-deux de Pearson, fond sur
la statistique de Pearson
218
X
2
n
=
4

i=1
(
i
np
i
)
2
np
i
,
dont la distribution (sous lhypothse H
0
) est proche de la distribution du chi-deux f =
4 1 = 3 degrs de libert. Choisissons = 0.05. Dans ce cas la valeur critique c

2
3
() = 7.81. Comme pour les donnes de Mendel
X
2
n
= 0.470 <
2
3
(0.05) = 7.81,
nous ne rejetons pas lhypothse H
0
, considrant que les donnes de Mendel sont en bon
accord avec son hypothse.
Remarque 1. On croise diffrentes varits de petits pois. A la premire gnration, on
obtient les diffrentes catgories suivantes : Ronds et Jaunes, Ronds et verts, rids et Jaunes,
rids et verts, sachant que :
dans les caractres de formes
le dominant est rond (R), le rcessif est rid (r) ;
dans les caractres de couleurs
le dominant est jaune (J), le rcessif est vert (v).
On obtient pour la deuxime gnration le tableau suivant :
Parents RJ Rv rJ rv
RJ RJ RJ RJ RJ
Rv RJ Rv RJ Rv
rJ RJ RJ rJ rJ
rv RJ Rv rJ rv
Soit RJ, Rv, rJ et rv dans les proportions 9,3,3,1.
On vient de considrer le test de Pearson pour le cas o les probabilits p
i
sont connues,
ou, comme on dit, pour des hypothses simples. La situation devient un peu plus compli-
que, quand les p
i
sont inconnues ou dpendent dun paramtre inconnu, p
i
= p
i
(). Il
y a des possibilits diffrentes pour tester H
0
, dont on dit quelle est compose. Dans le
paragraphe suivant nous allons parler dune solution de Fisher et Cramer.
219
4.4 Thorme de Fisher.
Conditions de Cramer et methode du minimum de chi-deux.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un chantillon ; supposons que nous voulions tester lhypo-
thse H
0
, selon laquelle les variables alatoires indpendantes X
1
, ..., X
n
suivent la mme
loi
PX
i
x = F(x, ), = (
1
, . . . ,
s
)
T
R
s
,
o la fonction de la rpartition F est donne, mais le paramtre est inconnu. En posant
x
0
= et x
k
= , notons = (
1
, . . . ,
k
)
T
le vecteur des frquences que nous obtenons
comme rsultat du groupement des variables alatoires sur les k intervalles (k s +2)
(x
0
, x
1
], (x
1
, x
2
], . . . , (x
k1
, x
k
),
qui sont choisis davance. Il est vident que
T
1
k
= n, et si lhypothse H
0
est vraie, alors
le vecteur suit la loi multinomiale de paramtres n et p, o
p = p() = (p
1
(), p
2
(), . . . , p
k
())
T
et
p
i
() = PX
1
(x
i1
, x
i
] [ H
0
=
x
i

x
i1
dF(x, ) =
x
i

x
i1
f (x, )dx,
o f (x, ) est la densit de F(x, ), si elle existe. Supposons que les conditions suivantes de
Cramer soient satisfaites :
1) il existe un nombre positif c (c > 0) tel que pour tout i = 1, . . . , k
p
i
() > c, ;
2) les fonctions

2
p
i
()

2
j
sont continues sur ;
3) le rang de la matrice dinformation de Fisher J() = B()
T
B(),
B =
_
_
_
_
1

p
i
p
i
()

j
_
_
_
_
,
est gal s.
Comme le paramtre est inconnu, Fisher a propos de choisir pour estimateur de le

n
qui rend minimum la variable alatoire
X
2
() =
k

i=1
[
i
np
i
()]
2
np
i
()
i.e.
X
2
(

n
) = min

X
2
().
On dit que

n
est lestimateur du minimum de chi-deux. Comme Fisher la prouv (1928),
si lhypothse H
0
est vraie, alors pour tout x x
220
lim
n
P
_
X
2
(

n
) x
_
= P
2
ks1
x.
Cramer a dmontr plus tard (1946) que le rsultat de Fisher reste valable si au lieu de

n
on choisit lestimateur de maximum de vraisemblance

n
=

n
(
1
,
2
, . . . ,
k
), qui rend
maximum la fonction de vraisemblance :
l(

n
) = sup

l(),
o
l() =
n!

1
!
2
!...
k
!
(p
1
())

1
(p
2
())

2
. . . (p
k
())

k
.
On voit bien que lestimateur

n
est obtenu partir des donnes groupes, et, si la distri-
bution F(x, ) est continue, alors la statistique = (
1
, . . . ,
k
)
T
nest pas exhaustive et par
consquent lestimateur

n
nest pas le meilleur, mais comme on la dj dit
lim
n
_
X
2
(

n
) x [ H
0
_
= P
2
ks1
x.
Exemple 1. Il a t tabli quau cours dune pidmie de grippe, parmi les 2000 individus
contrls, 181 personnes sont tombes malades une seule fois et seulement 9 personnes
ont eu cette maladie deux fois. Lhypothse H
0
selon laquelle le nombre de fois o une
personne tombe malade est une variable alatoire qui suit une loi binomiale de paramtres
p et n = 2(0 < p < 1) est-t-elle vraisemlable ?
Soit X une variable alatoire de loi binomiale B(2, p), cest--dire que
PX = i =
_
2
i
_
p
i
(1p)
2i
, i = 0, 1, 2, 0 < p < 1.
Et soit = (
0
,
1
,
2
)
T
le vecteur des frquences observes, o
i
est le nombre des indi-
vidus qui sont tombs malades i fois,

0
+
1
+
2
= n = 2000,
0
= 1810,
1
= 181,
2
= 9.
Notons p la probabilit de tomber malade (0 < p < 1) et soit l(p) la fonction de vraisem-
blance :
l(p) =
n!

0
!
1
!
2
!
[ (1p)
2
]

0
[ 2p(1p)]

1
( p
2
)

2
=
n!2

0
!
1
!
2
!
(1p)
2
0
+
1
p
2
2
+
1
.
Il est facile de voir que les meilleurs estimateurs sans biais pour les probabilits
p
0
= p
2
, p
1
= p(1p) et p
2
= (1p)
2
sont
p
0
=
(
1
+2
2
)(
1
+2
2
1)
2n(2n1)
, p
1
=
(
1
+2
2
)(
1
+2
0
)
2n(2n1)
,
p
2
=
(
1
+2
0
)(
1
+2
0
1)
2n(2n1)
221
respectivement, dont les ralisations observes sont
p
0
=
199 198
4000 3999
=
4.9
2000
, p
1
=
199 3801
4000 3999
=
94.6
200
,
p
2
=
3801 3800
4000 3999
=
1805.9
2000
,
do lon tire que
n p
0
= 4.9; 2n p
1
= 189.2; n p
3
= 1805.9.
Pour tester H
0
on va utiliser le test du chi-deux, fond sur la statistique de Pearson X
2
qui
dans notre cas est distribue approximativement (si lhypothse H
0
est vraie) comme la
variable alatoire
2
f
avec f = 311 = 1 degrs de libert. On a
X
2
=
2

i=0
(
i
n p
i
)
2
n p
i
=
=
(18101805.9)
2
1805.9
+
(181189.2)
2
189.2
+(94.9)
2
4.9 =
=
(4.1)
2
1805.9
+
(8.2)
2
189.2
+
(4.1)
2
4.9

= 3.795 <
2
1
(0.05) = 3.841,
o
2
1
(0.05) = 3.841 est le quantile du niveau 0.05 de la distribution du chi-deux 1 degr
de libert :
P
2
1
>
2
1
(0.05) = 0.05.
Comme X
2
est infrieur la valeur critique 3.841, on ne rejette pas lhypothse H
0
.
Exemple 2. Parmi 2020 familles ayant deux enfants on a enregistr 530 familles o les
deux enfants sont des garons et 473 familles o les deux enfants sont des lles, et dans les
1017 familles restantes les enfants sont de sexe diffrent. Peut-on dire, avec le niveau de
signication = 0.1, que le nombre des garons dans une famille de deux enfants est une
variable alatoire qui suit une loi binomiale ? Les probabilits de naissance dun garon et
dune lle sont-elles gales ?
Soit X une variable alatoire qui suit la loi binomiale B(2, p), cest--dire que
PX = i =
_
2
i
_
p
i
(1p)
2i
, i = 0, 1, 2, 0 < p < 1.
De plus soit = (
0
,
1
,
2
)
T
le vecteur des frquences observes, o
i
est le nombre de
familles o il y a i garons, i = 0, 1, 2. Dans notre cas

0
+
1
+
2
= n = 2020,
1
= 1017,
0
= 473,
2
= 530,
et donc si lhypothse de la binomialit est vraie, alors la fonction de la vraisemblance l(p)
peut scrire :
l(p) =
n!

0
!
1
!
2
!
_
(1p)
2

0
[2p(1p)]

1
_
p
2
_

2
,
o p est la probabilit de naissance dun garon.
222
Comme on le sait, les meilleurs estimateurs sans biais pour les probabilits
p
0
= p
2
, p
1
= p(1p) et p
2
= (1p)
2
sont
p
0
=
(
1
+2
2
)(
1
+2
2
1)
2n(2n1)
, p
1
=
(
1
+2
2
)(
1
+2
0
)
2n(2n1)
,
p
2
=
(
1
+2
0
)(
1
+2
0
1)
2n(2n1)
respectivement, dont les ralisations observes sont
p
0
=
2077 2076
4040 4039
, p
1
=
2077 1963
4040 4039
, p
2
=
1963 1962
4040 4039
do lon tire que
n p
0

= 533.8; 2n p
1
= 1009.4; n p
3
= 476.8.
Pour tester H
0
on va utiliser le test du chi-deux, fond sur la statistique de Pearson X
2
qui
dans notre cas est distribue approximativement (sous lhypothse H
0
) comme une variable
alatoire
2
f
f = 311 = 1 degrs de libert. On a
X
2
=
2

i=0
(
i
n p
i
)
2
n p
i
=
=
(473476.8)
2
476.8
+
10171009.4)
2
1009.4
+
(530533.8)
2
533.8
=
=
(3.8)
2
476.8
+
(7.6)
2
1009.4
+
(3.8)
2
533.8
< 1 <
2
1
(0.1) = 2.706,
o
2
1
(0.1) = 2.706 est le quantile du niveau 0.1 de la distribution de chi-deux 1 degr de
libert :
P
2
1
>
2
1
(0.1) = 0.10.
Comme X
2
est infrieur la valeur critique 2.706, on constate que les donnes ne sont
pas en contradiction avec lhypothse H
0
, daprs laquelle le nombre des garons dans une
famille est une ralisation dune variable alatoire X, qui suit la loi binomiale B(2, p).
Si les probabilits de naissance dun garon et dune lle sont gales, la probabilit p
est gale 0.5 (lhypothse H
1
). Dans ce cas, daprs le thorme de de Moivre-Laplace,
on obtient
P
1
+
2
2077 [ p = 0.5

= 1
_
20770.5
4040
2

40400.50.5
_
=
= 1
_
1132

1010
_
= 1
_
113
63.56
_
= 1(1.778) = 10.9623 = 0.0377.
Pour tous les niveaux 0.04 on est oblig de rejeter lhypothse H
1
: p = 0.5 en faveur
de lhypothse H
2
: p > 0.5. Comme nos calculs le montrent, le meilleur estimateur sans
biais de p est
p =
2077
4040
= 0.514.
223
4.5 Thorme de Chernoff-Lehmann.
Soit X = (X
1
, X
2
, . . . , X
n
)
T
un chantillon ; supposons que nous voulions tester lhypo-
thse H
0
, selon laquelle les variables alatoires indpendantes X
1
, ..., X
n
suivent la mme
loi
PX
i
x = F(x, ), = (
1
, . . . ,
s
)
T
R
s
,
o la fonction de la rpartition F est donne, mais le paramtre est inconnu. En posant
x
0
= et x
k
= , notons = (
1
, . . . ,
k
)
T
le vecteur des frquences que nous obtenons
comme rsultat du groupement des variables alatoires sur les k intervalles (k > 2)
(x
0
, x
1
], (x
1
, x
2
], . . . , (x
k1
, x
k
),
qui sont choisis davance. Si lhypothse H
0
est vraie, alors le vecteur suit la loi multino-
miale de paramtres n et p, o
p = p() = (p
1
(), p
2
(), . . . , p
k
())
T
,
p
i
() = PX
1
(x
i1
, x
i
] [ H
0
=
x
i

x
i1
dF(x, ) =
x
i

x
i1
f (x, )d(x),
o f (x, ) est la densit de F(x, ) par rapport une mesure dominante .
Supposons que la matrice dinformation de Fisher existe :
I() = E
i
()
T
i
()
pour lobservation X
i
, o

i
() =
_
ln(X
i
, )

1
,
ln(X
i
, )

2
, . . . ,
ln(X
i
, )

s
_
T
,
et que les conditions de Cramer 1)-3) du paragraphe prcdent sont satisfaites. Dans ce
cas, il existe un estimateur

n
de maximum de vraisemblance bas sur les donnes initiales,

n
=

n
(X
1
, . . . , X
n
), qui maximise la fonction de vrasemblance
L() = f (X
1
, ) f (X
2
, ) f (X
n
, ) : L(

n
) = sup

L().
Sous des conditions supposes de rgularit sur la famille F(x, ) on connait le compor-
tement asymptotique de la suite

n
, quand n (voir, par exemple, Barra (1971), Rao
(1973)) :

n(

n
) =
1

n
n

i=1
I
1
()
i
() +o
p
(1
s
),
do on obtient immdiatement que le vecteur

n(

n
) a une distribution asymptotique-
ment normale N(0
s
, I
1
()), quand n .
Thorme de Lehmann et Chernoff.
En utilisant ces proprits de lestimateur de maximum de vraisemblance

n
, Lehmann
et Chernoff ont montr (1954), que sous lhypothse H
0
224
lim
n
P
_
X
2
() x
_
= P
_

2
ks1
+
1
()
2
1
+. . . +
s
()
2
s
x
_
,
o
1
,
2
, . . . ,
s
,
2
ks1
sont des variables alatoires indpendantes,
i
suit la loi normale
standard N(0, 1), et 0 <
i
() < 1.
Statistique Y
2
n
.
Daprs ce rsultat on constate quen gnral il est impossible dutiliser la statistique
standard de Pearson X
2
(

n
) pour tester des hypothses composes, lorsquon utilise des
estimateurs de maximum de vraisemblaces

n
ou leurs quivalents. On peut tout de mme
construire un test du chi-deux pour tester des hypothses composes. Notons () la matrice
de covariance de la distribution limite du vecteur
1

n
_
np(

n
)
_
. On peut montrer (voir,
par exemple, Nikulin (1973), Nikulin et Greenwood (1990), Huber (1991)), que rang =
k 1. Notons

() la matrice inverse gnralise de () et soit


Y
2
n
=
1
n
_
np(

n
)
_
T

n
)
_
np(

n
)
_
.
Par des calculs directs on peut vrier que la statistique Y
2
n
est indpendante du choix de la
matrice

. On peut utiliser la statistique Y


2
n
pour tester la validit de lhypothse H
0
selon
laquelle la distribution des lments X
i
de lchantillon X suit la loi F(x, ). On a en effet
(voir, par exemple, Nikulin (1973), Greenwood et Nikulin (1996)) :
lim
n
P
_
Y
2
n
x [ H
0
_
= P
_

2
k1
x
_
.
Pour plus de dtails sur la construction des tests du chi-deux, fonds sur la statistique Y
2
n
, on
se reportera aux articles de Nikulin (1973), (1979), (1990), (1991), Dzhaparidze et Nikulin
(1974), Nikulin et Voinov (1989), Greenwood et Nikulin (1996), Nikulin et Seddik-Ameur
(1991). On remarque enn, que dans les cas de l existence de statistiques exhausives, on
peut utiliser aussi les meilleurs estimateurs sans biais pour construire un test du chi-deux
fond sur la statistique Y
2
n
et en utilisant la technique expose dans les articles que lon vient
de mentionner.
4.6 Test du chi-deux pour une loi logistique.
La loi "logistique", qui a reu son nom de Berkson et Reed (1929) est souvent utilise.
(Entre autres, par Pearl et Reed (1920) pour le dveloppement des levures, par Oliver (1964)
comme modle de donnes agricoles et Grizzle (1961) dans le domaine de la sant Publique,
etc.)
Cette loi a une fonction de rpartition dpendant de deux paramtres et > 0 :
F(x) = G(
x

) =
1
1+exp

3
_
x

, x R. (1)
Un livre vient dtre publi par Balakrishnan (1992) sur la thorie, mthodologie et appli-
cations de cette loi. Ici nous allons suivre larticle de Aguirre et Nikulin (1994).
225
Soit X = (X
1
, X
2
, . . . , X
n
)
T
- un chantillon et supposons que nous voulions tester lhy-
pothse H
0
selon laquelle
PX
i
< x = G(
x

). (2)
Dans cette situation nous nous proposons dutiliser les rsultats prcdants pour construire
un test du chi-deux.
1. Notations.
Soit g(x) = G
/
(x), et donc
1

g(
x

) est la densit de X
i
sous H
0
,
1

g(
x

) =
exp
(x)

3
_
1+exp
(x)

3

_
2
. (3)
g est paire (g(x) = g(x)).
2. Estimation de et .
Pour estimer = (, )
T
on utilise lestimateur

n
= ( ,
2
)
T
du maximum de vraisem-
blance. On sait que

n(

n
) est asymptotiquement normal N(0, I
1
), o
I =
1

2
|I
i j
|
i, j=1,2
, I
11
=
+

_
g
/
(x)
g(x)
_
2
g(x)dx =

2
9
I
12
= I
21
=
+

x
_
g
/
(x)
g(x)
_
2
g(x)dx = 0,
I
22
=
+

x
2
_
g
/
(x)
g(x)
_
2
g(x)dx 1 =

2
+3
9
.
I
12
= 0 car g est symtrique, et une integration par parties permet dobtenir I
11
et I
22
.
3. Choix des intervalles sur lesquels on va comparer les frquences observes et les
frquences thoriques :
Supposons que lon ait choisi un vecteur p = (p
1
, p
2
, . . . , p
k
)
T
de probabilits positives,
par exemple :
p
1
= . . . = p
k
=
1
k
, y
i
= G
1
(
i
k
) =

ln(
k
i
1), i = 1, . . . , k 1,
et notons = (
1
, . . . ,
k
)
T
le vecteur des effectifs que nous obtenons en regroupant les
variables alatoires X
1
, . . . , X
n
sur les intervalles
(, z
1
], (z
1
, z
2
], . . . ., (z
k1
, +), o z
i
= + y
i
.
4. Test de
2
. Posons
a = (a
1
, . . . , a
k
)
T
, b = (b
1
, . . . , b
k
)
T
, w =
1

| a, b |, o
a
i
= g(y
i
) g(y
i1
) =

k
2

3
(k 2i +1),
226
b
i
= y
i
g(y
i
) y
i1
g(y
i1
) =
1
k
2
_
(i 1)(k i +1)ln
k i +1
i 1
i(k i)ln
k i
i
_
,
() = k
k

i=1
a
i

i
=

3k
_
(k +1)n2
k

i=1
i
i
_
,
() = k
k

i=1
b
i

i
=
1
k
k1

i=1
(
i+1

i
)i(k i)ln
k i
i
,

1
= I
11
k
k

i=1
a
2
i
=

2
9k
2
,
2
= I
22
k
k

i=1
b
2
i
.
Comme g est symtrique on remarque que
k

i=1
a
i
=
k

i=1
b
i
= 0.
Notons B = Dp
T
pW
T
I
1
W, o D est la matrice diagonale avec les lments 1/k sur
la diagonale principale ( rangB = k 1). Notons les matrices prcdentes dans lesquelles
on supprime la dernire ligne pour W, p et et les dernires ligne et colonne de D et B.
Thorme 1. Sous lhypothse H
0
, quand n , le vecteur est asymptotiquement
normalement distribu avec les paramtres
E = n p+O(1) et E( n p)
T
( n p) = n

B+O(1).
Thorme 2. Sous lhypothse H
0
la statistique
Y
2
n
=
1
n
( n p)
T

B
1
( n p) = X
2
+

1

2
() +
2

2
( )
n
1

2
,
converge en loi quand n vers une distribution de
2
k1
.
Remarque. Considrons lhypothse H

selon laquelle X
i
suit la loi G(
x

, ), o
G(x, ) est continue, [ x [< , H et G(x, 0) = G(x), = 0 est un point limite de H.
De plus, supposons quil existe

x
G(x, y) = g(x, y) et

g(x, ) [
=0
= (x),
o g(x, 0) = g(x) = G
/
(x). Dans ce cas si

2
g(x,)

2
existe et est continue pour tout x au
voisinage de = 0, alors
Py
i1
< X
i
y
i
[ H

= p
i
+c
i
+o(),
o c
i
=
y
i

y
i1
(x)dx, i = 1, ..., k,
227
et donc
lim
n
PY
2
x [ H

= P
2
k1
() x,
=
k

i=1
c
2
i
p
i
+

2

2
(c) +
1

2
(c)

2
, c = (c
1
, c
2
, ..., c
k
)
T
.
Plus de dtails on peut trouver dans Aquirre (1993), Aquirre et Nikulin (1994).
4.7 Test du chi-deux dans un problme dhomognit.
On a k groupes de souris soumises des traitements par diffrents mdicaments . Les
souris dun groupe, nomm "groupe de contrle", ont reu un mdicament, dont les effets
ont dj t tudis. Pour savoir si dautres mdicaments sont meilleurs ou moins bons, on
compare les effets produit par ces mdicaments ceux du "groupe de contrle". On vrie
lhypothse dhomognit : cette hypothse est vraie sil ny a pas de changement deffet.
Autrement, lhypothse doit tre rejete. Dans ce cas, se pose le problme suivant : trouver
les groupes pour lesquels on a des effets diffrents de ceux du "groupe de contrle".
Soient
1
, ..,
k
des variables alatoires indpendantes qui suivent la distribution binomiale
de paramtres (n
1
, p
1
), . . . , (n
k
, p
k
) respectivement :
P
i
= m =C
m
n
i
p
m
i
(1p
i
)
n
i
m
, m 0, 1, . . . , n
i
, i = 1, 2, . . . , k,
o les probabilits p
1
, . . . , p
k
sont inconnues (0 < p
i
< 1; i = 1, . . . , k). Supposons que la
variable alatoire
k
soit donne pour "le contrle" ; notre but est alors de tester lhypothse
que toutes les probabilits p
1
, .., p
k1
ou quelques-unes dentre elles sont gales p
k
. Ce
problme peut tre rsolu si lon suppose que min(n
1
, . . . , n
k
) .
Soit
i
=

i
n
i
, i = 1, . . . , k. Alors du thorme de de Moivre-Laplace on peut tirer que
P
1
x
1
,
2
x
2
, . . . ,
k
x
k

k

i=1

_
(x
i
p
i
)
_
n
i
p
i
q
i
_
,
si
_
(x
i
p
i
)
_
n
i
p
i
q
i
_
= O(1),
o () est la fonction de rpartition de la loi normalle N(0, 1) et q
i
= 1 p
i
, i = 1, . . . , k.
Soit
i
=
i

k
, et soit

i
= E
i
= p
i
p
k
et
2
i
=
p
i
q
i
n
i
, i = 1, .., k.
Il est clair que le vecteur alatoire = (
1
, . . . ,
k1
)
T
a une distribution asymptotique
normale de paramtres
E = = (
1
, . . . ,
k1
)
T
et E()()
T
= ,
o
= diag(
2
1
,
2
2
, . . . ,
2
k1
)
T
+
2
k
E,
228
diag(x
1
, . . . , x
n
) est la matrice diagonale ayant les lments x
1
, . . . , x
n
sur la diagonale prin-
cipale et E est la matrice dordre (k 1) (k 1), dont tous les lments sont gaux 1.
Nous remarquons que la matrice est non singulire et

1
= diag(
2
1
,
2
2
, . . . ,
2
k1
)
_
k

i=1

2
i
_
1
|b
i j
|,
o
b
i j
=
1

2
i

2
j
; i, j = 1, . . . , k 1.
Du fait que le vecteur a une distribution asymptotique normale, il sensuit que la forme
quadratique
Y
2
= ()
T

1
()
a la limite, lorsque min(n
1
, . . . , n
k
) , une distribution du chi-deux k 1 degrs de
libert.
Cette mme forme quadratique peut tre reprsente sous une forme plus explicite :
Y
2
=
k1

i=1
_

i
_
2

_
k

i=1
1

2
i
_
1
_
k1

i=1

i
_
2
. (1)
Daprs la thorie gnrale des tests du chi-deux (voir,par exemple, Greenwood et Nikulin
(1996), Nikulin (1991)) , la distribution limite de la forme quadratique Y
2
sera la mme si
tous les paramtres inconnus
2
i
sont remplacs par leurs meilleurs estimateurs sans biais

2
i
=
i
(1
i
)
(n
i
1)
, i = 1, . . . , k.
Soit P un coefcient de conance donn , 0.5 < P < 1, et soit x
p
le quantile de niveau P de
la distribution du chi-deux k1 degrs de libert. Dans ce cas, la probabilit P
_
Y
2
x
p
_
est approximativement gale P et toutes les valeurs du vecteur (
1
, . . . ,
k1
)
T
, satisfaisant
lingalit Y
2
x
p
, donnent un intervalle de conance dont le coefcient de conance est
proche de P. Ceci peut tre utilis dans la solution du problme propos.
Infrences statistiques.
On considre un ensemble dhypothses
H
r
= H
r
(i
1
, .., i
r
) :
i
1
=
i
2
= . . . =
i
r
= 0,
r = 1, 2, . . . , k 1; 1 i
1
< i
2
< . . . < i
r
k 1.
Nous dirons que lhypothse H
r
(i
1
, . . . , i
r
) nest pas contradictoire avec les donnes de lex-
prience sil existe

i
(i ,= i
1
, . . . , i
r
), pour lequel la valeur de la statistique Y
2
est inf-
rieure x
p
. Autrement dit, lhypothse H
r
(i
1
, . . . , i
r
) doit tre accepte si , dans lespace
(
1
, . . . ,
k1
) de dimension k 1, lhyperplan dni par les quations

i
1
=
i
2
= . . . =
i
r
= 0
a une intersection non vide avec lintrieur de lellipsode dni par lingalit Y
2
x
p
.
Le but nal est de choisir un sous-ensemble dhypothses qui ne sont pas contradictoires
avec les donnes de lexprience ; puisque certaines hypothses sont des consquences des
229
autres nous ne nous intresserons dans ce sous-ensemble quaux lments dont lindice r
est maximal.
Considrons lhypothse H
r
(1 r k1), et, sans restriction de gnralit, supposons
que i
1
= k r, i
2
= k r +1, . . . , i
r
= k 1. Alors la statistique Y
2
aura la forme
Y
2
=
kr1

i=1
_

i
_
2
+
k1

i=kr
_

i
_
2

_
kr1

j=1
c
j
(
j

j
) +
k1

j=kr
c
j

j
_
, (2)
o
c
j
=
2
j
_
k

i=1

2
i
_
1/2
, j = 1, . . . , k 1.
Il est facile de voir que la plus petite valeur de la statistique Y
2
est obtenue au point

i
=

i
=
i
c
i

2
i
_
1
kr1

j=1
c
2
j

2
j
_
1
k1

j=kr
c
j

j
, i = 1, . . . , k 1,
et sa valeur minimale est
Y
2

=
k1

i=kr
_

i

i
_
2

_
k1

i=kr
c
i

i
_
2
_
1+
kr1

i=1
c
2
i

2
i
_ (3)
(si r = k 1, alors le dnominateur de la fraction sera suppos 1). Il est clair que lhypo-
thse H
r
(i
1
, . . . , i
r
) doit tre rejete si Y
2
x
p
.
Exemple. Soit
k = 4 et n
1
= n
2
= n
3
= n
3
= 100, o
1
= 20,
2
= 50,
3
= 60 et
4
= 40.
Alors

1
= 0.2,
2
= 0.5,
3
= 0.6,
4
= 0.4,
1
=0.2,
2
= 0.1,
3
= 0.2.
Si on utilise le meilleur estimateur sans biais
2
i
=
i
(1
i
)/n
i
pour estimer le paramtre
inconnu
2
i
, i = 1, . . . , 4, on obtient

2
1
= 0.0016,
2
2
= 0.0025,
2
3
= 0.0024 et
2
4
= 0.0024;
do

2
1
+
2
2
+
2
3
+
2
4
=
22.300
12
,
et
c
1
= 125
_
3
223
, c
2
= 80
_
3
223
, c
3
=
250
3
_
3
223
.
Puisque la statistique Y
2
a ici approximativement une distribution du chi-deux trois degrs
de libert, pour P =0.95 la valeur critique correspondante x
p
est x
0.95
=7.815. Nous allons
tester lhypothse H
r
.
230
A. Test de lhypothse H
3
(1, 2, 3). En utilisant (3), nous avons
Y
2

=
0.04
0.0016
+
0.01
0.0025
+
0.04
0.0024

_
125
_
3
223
0.2+80
_
3
223
0.1+
250
3
_
3
223
0.2
_
2
= 45.665,
et comme P
_

2
3
> 45.665
_
< 10
7
, lhypothse H
3
(1, 2, 3) doit tre rejete par tous les
tests du chi-deux dont le niveau de signication nest pas infrieur 10
7
.
B
1
.Test de lhypothse H
2
(2, 3).Dans ce cas
Y
2

=
0.01
0.0025
+
0.04
0.0024

_
80
_
3
223
0.1+
250
3
_
3
223
0.2
_
2 _
1+
1251253
223

16
10.00
_
1
=
= 14.541.
Comme P
_

2
3
> 14.541
_
=0.00225, lhypothse H
2
(2, 3) doit tre rejete par tous les tests
du chi-deux dont le niveau de signication nest pas infrieur 0.00225.
B
2
.Test de lhypothse H
2
(1, 3). Comme
Y
2

=
0.04
0.0016
+
0.04
0.0024

_
125
_
3
223
0.2+
250
3
_
3
223
0.2
_
2_
1+
80803
223

25
10.000
_
1
=
= 40.898,
lhypothse H
2
(1, 3) doit tre rejete par tous les tests du chi-deux dont le niveau de signi-
cation nest pas infrieur P
_

2
3
> 40.898
_
< 10
7
.
B
3
. Test de lhypothse H
2
(1, 2). Dans ce cas
Y
2

=
0.04
0.0016
+
0.01
0.0025

_
125
_
3
223
0.2+80
_
3
223
0.1
_
2 _
1+
2502503
33223

24
10.000
_
1
=
= 25.824.
Puisque la valeur minimale Y
2

de la statistique Y
2
dpasse la valeur critique x
0.95
= 7.815,
lhypothse H
2
(1, 2) doit ausi tre rejete.
C
1
. Test de lhypothse H
1
(1). Comme
Y
2

=
0.04
0.0016

_
125
_
3
223
0.2
_
2 _
1+
48
223
+
50
223
_
1
== 19.159 > 7.815,
cette hypothse doit tre rejete aussi.
231
C
2
. Test de lhypothse H
1
(2). Ici la plus petite valeur de la statistique Y
2
est gale
Y
2

=
0.01
0.0025

_
80
_
3
223
0.1
_
2 _
1+
75
223
+
50
223
_
1
= 3.448,
ce qui est sensiblement plus petit que la valeurs critique choisie x
0.95
, cest pourquoi lhy-
pothse H
1
(2) nest pas rejete ; nous obtenons les estimateurs nouveaux

1
=0.280
_
3
223
0.1125
_
3
223
0.0016
_
1
75
223

50
223
_
1
=
=0.249,
et

3
=0.280
_
3
223
0.1
250
3
_
3
223
0.0024
_
1
75
223

50
223
_
1
=
= 0.151.
C
3
. Test de lhypothse H
1
(3). Puisque
Y
2

=
0.04
0.0024

_
250
3
_
3
223
0.2
_
2 _
1+
75
223
+
48
223
_
1
= 14.258,
alors la plus petite valeur dpasse la valeur critique et lhypothse H
1
(3) est rejete.
Conclusion : seule lhypothse H
1
(2) peut-tre accepte daprs les rsultats de lexp-
rience, do il sensuit que
2
= p
2
p
4
=0, i.e. p
2
= p
4
. Si cette hypothse est vraie , il est
raisonnable de prendre comme estimateur de p
4
la valeur de la statistique (
2
+
4
)/(n
2
+
n
4
) ; dans lexemple prsent cette quantit est gale (
2
+
4
)/2 = 0.45. Puisque
p
1
p
4

1
=0.249 et p
3
p
4

3
= 0.151,
nous avons p
1
0.201 et p
3
0.601.
Remarque. Pour utiliser cette approche, dans le cas gnral on doit tester
k1

r=1
C
r
k1
= 2
k1
1
hypothses. Dans la pratique pourtant il suft de tester k 1 hypothses. Pour cela, il est
ncessaire de calculer les relations

2
1

2
1
, . . . ,

2
k1

2
k1
et de les ranger en une suite non dcroissante
_

1

1
_
2

2

2
_
2
. . .
_

k1

k1
_
2
232
(les numros peuvent tre donns aprs le rangement). Alors on teste successivement les
hypothses H
r
= H
r
(k r, k r +1, . . . , k 1) avec r = k 1, k 2, . . . . Si, en agissant de
cette faon, on trouve que
_

m
_
2
>
_

m+1

m+1
_
2
= ... =
_

m+t

m+t
_
2
>
_

m+t+1

m+t+1
_
2
et qui lhypothse H
km
est rejete, alors il faut tester ensuite lhypothse H
kmt
et non
H
km1
.
On remarque enn que Bolshev et Nikulin (1975) ont considr la solution dun pro-
blme de homognit plus gnral pour des distributions dpendant de paramtres de trans-
lation et dchelle.
4.8 Test du
2
dhomognit pour des lois multinomiales.
Observons I vecteurs alatoires indpendents

1
= (
11
, . . . ,
1r
)
T
,
2
= (
21
, . . . ,
2r
)
T
, . . . ,
I
= (
I1
, . . . ,
Ir
)
T
,
avec lhypothse H :

i
M
r
(n
i
, p
i
), (1)
o n
1
, n
2
, . . . , n
I
sont des entiers positifs, p
i
= (p
i1
, . . . , p
ir
)
T
R
r
,
p
i1
+ p
i2
+. . . + p
ir
= 1, i = 1, 2, . . . , I. (2)
Puisque les vecteurs
1
, . . . ,
I
sont indpendants, alors, sous lhypothse H, la fonction de
vraisemblance L(p
1
, . . . , p
I
) est
L(p
1
, . . . , p
I
) =
n
1
!n
2
! n
I
!

11
!
1r
!
21
!
Ir
!
p

11
11
p

1r
1r
p

21
21
p

2r
2r
p

I1
I1
p

Ir
Ir
. (3)
Si nous supposons que toutes les probabilits p
i j
sont connues, alors, daprs le thorme
de Pearson, la statistique
X
2
=
I

i=1
r

j=1
(
i j
n
i
p
i j
n
i
p
i j
)
2
(4)
a pour distribution limite lorsque n la distribution du
2
avec f = I(r 1) degrs de
libert :
lim
n
PX
2
x [ H = P
2
I(r1)
x.
Supposons maintenant que tous les vecteurs p
i
sont inconnus. Dans ce cas, nous devons
estimer I(r 1) paramtres p
i j
. Sous lhypothse H, les estimateurs de vraisemblance des
p
i j
sont
p
i j
=

i j
N
, j = 1, 2, . . . , r; i = 1, 2, . . . , I, (4)
233
o N = n
1
+n
2
+. . . +n
I
. Supposons quon fasse lhypothse H
0
:
p
1
= p
2
= . . . = p
I
= p, (5)
cela signie que, sous cette hypothse H
0
toutes les distributions multinomiales (2) des
vecteurs alatoires
i
ont le mme vecteur de probabilits p = (p
1
, . . . , p
r
)
T
quon a besoin
destimer, si nous voulons faire de linfrence statistique . Il est vident que sous lhypo-
thse H
0
, on a seulement besoin destimer r 1 paramtres p
1
, p
2
, . . . , p
r1
, puisque
p
1
+ p
2
+. . . + p
r
= 1.
Pour tester H
0
on peut construire le test dhomogeneit du
2
bien connu, bas sur la
variable alatoire de Pearson (le paramte p est inconnu !), qui sous H
0
peut scrire :
X
2
=
I

i=1
r

j=1
(
i j
n
i
p
j
)
2
n
i
p
j
. (6)
Tout dabord recrivons la fonction de vraissemblance L(p) de nos donnes sous H
0
. En
utilisant (3) et en posant
= (
1
, . . . ,
r
)
T
=
1
+. . . +
I
, (7)
o

j
=
I

i=1

i j
, j = 1, 2, . . . , r and
1
+
2
+. . . +
r
= N, (8)
on obtient daprs (3), (5) et (8) que
L(p) =
N!

1
!
2
! . . .
r
!
p

1
1
p

2
2
p

r
r
. (9)
Pour trouver lestimateur de maximum de vraissemblance p de p sous H
0
, on considre :
lnL(p) = ln(const) +
r

i=1

i
ln p
i
, (10)
do nous obtenons le systme

p
j
L(p) =

j
p
j

r
p
r
= 0, j = 1, 2, . . . , r 1, (11)
pour lequel la solution est p = ( p
1
, p
2
, . . . , p
r
)
T
, p
r
= 1 p
1
p
2
. . . p
r1
, o
p
j
=

j
N
, j = 1, 2, . . . , r. (12)
Par suite, de (12) on obtient :
p
r

j
=
r
p
j
, j = 1, 2, . . . , r, (13)
ce qui implique
234
p
r
r

j=1

j
=
r
r

j=1
p
j
, (14)
do
p
r
=

r
N
. (15)
En substituant (15) dans (13) on obtient (12).
Nous pouvons maintenant, pour tester H
0
, utiliser la statistique de Pearson :
X
2
( p) =
I

i=1
r

j=1
(
i j
n
i
p
j
)
2
n
i
p
j
= N
_
I

i=1
r

j=1

2
i j
n
i

j
1
_
. (16)
Daprs le thorme de Cramer,
lim
n
PX
2
( p) x [ H
0
= P
2
(I1)(r1)
x, (17)
puisque le nombre de paramtres estims est r 1, do
f = I(r 1) (r 1) = (I 1)(r 1), (18)
et f est le nombre de degrs de libert de la distribution limite du
2
.
Exemple 1. Supposons que deux groupes de 300 tudiants chacun passent le mme examen.
Dans le 1
er
groupe 144 tudiants obtiennent une trs bonne note, 80 une bonne note, 43
une note passable, et 33 une mauvause note. Pour le second groupe, la distribution est
la suivante : 154 trs bonnes notes, 72 bonnes, 35 moyennes et 39 mauvaises. Pouvons
nous dire que les 2 groupes sont homognes, ce qui signie que nous avons observ les
ralisations de 2 vecteurs alatoires ayant la mme distribution discrte ?
On peut prsenter les donnes laide du tableau suivant :
i
i1

i2

i3

i4
1 144 80 43 33
2 154 72 35 39
(19)
Soient
i
= (
i1
,
i2
,
i3
,
i4
)
T
(i = 1, 2) les 2 vecteurs alatoires dont les ralisations sont
prsentes dans le tableau et soit H
0
lhypothse nulle selon laquelle
1
and
2
ont la
mme distribution multinomiale M
4
(300, p), o p est un vecteur inconnu de probabilits
p = (p
1
, p
2
, p
3
, p
4
)
T
, avec p
1
+ p
2
+ p
3
+ p
4
= 1. Sous lhypothse H
0
, lestimateur de
maximum de vraissemblance de p est p = ( p
1
, p
2
, p
3
, p
4
)
T
, o
p
1
=
298
600
, p
2
=
152
600
, p
3
=
78
600
, p
4
=
72
600
, (20)
puisque dans lexemple :
N = n
1
+n
2
= 300+300 = 600,

1
=
11
+
21
= 298,
2
=
12
+
22
= 152,

3
=
13
+
23
= 78,
4
=
14
+
24
= 72,
235
et p
i
=
i
/N. Pour tester H
0
on peut construire un test du
2
, bas sur la statistique (16).
Daprs nos donnes nous avons :
X
2
( p) = 2
_
_
33300
72
600
_
2
36
+
_
43300
78
600
_
2
39
+
_
80300
152
600
_
2
76
+
_
144300
298
600
_
2
149
_
=
= 2
_
9
36
+
16
39
+
16
76
+
25
149
_
< 2
_
1
4
+
1
2
+
1
4
+
1
5
_
= 2.4 <
2
3
(0.05) = 7.815.
Puisque
X
2
( p) <
2
3
(0.05) = 7.815, (21)
on peut accepter H
0
, si on prend = 0.05.
4.9 Test du
2
pour lindpendance dans une table de
contingence.
Supposons que les donnes sont telles que chacune des n observations peut tre clas-
se dans une des K = I J, (nombre ni) de catgories possibles suivant deux attributs
A
i
, B
j
(i = 1, 2, . . . , I; j = 1, 2, . . . , J). Dans ce cas les donnes peuvent tre prsentes dans
un tableau de contingence I lignes et J colonnes. On notera p
i j
la probabilit pour une
observation dtre classe la i-me ligne et j-me colonne du tableau, ce qui signie que
cette observation possde les attributs A
i
et B
j
. Notons
i j
le nombre des observations pla-
ces la i-me ligne et j-me colonne. On a alors
I

i=1
J

j=1

i j
= n and
I

i=1
J

j=1
p
i j
= 1. (1)
Soit p
i
la probabilit marginale que lobservation soit la i-me ligne et soit p
j
la proba-
bilit marginale que lobservation soit la j-me colonne du tableau. Il est clair que
p
i
=
J

j=1
p
i j
and p
j
=
I

i=1
p
i j
. (2)
Nous avons bien sr :
I

i=1
p
i
=
J

j=1
p
j
= 1. (3)
236
On peut prsenter le modle avec les deux tableaux :
B
1
B
j
B
J
A
1
p
11
p
1 j
p
1J
p
1
A
i
p
i1
p
i j
p
iJ
p
i
A
I
p
I1
p
I j
p
IJ
p
I
p
1
p
j
p
J
1
Tab. 1
B
1
B
j
B
J
A
1

11

1 j

1J

1
A
i

i1

i j

iJ

i
A
I

I1

I j

IJ

I

1

j

J
n
Tab. 2
Si on connait les vritables probabilits p
i j
, alors la statistique
X
2
=
I

i=1
J

j=1
(
i j
n
i
p
i j
n
i
p
i j
)
2
(4)
a pour distribution limite lorsque minn
i
une distribution du
2
avec f degrs de libert,
f = K1 = I J 1, (5)
o
lim
n
PX
2
x [ H
0
= P
IJ1
x. (6)
Si les p
i j
sont inconnus, nous devons les estimer. Supposons que nous nous intressons
lhypothse H
0
daprs laquelle les classements dans les lignes et les colonnes sont ind-
pendants, i.e.,
PA
i
B
j
= p
i j
= PA
i
PB
j
= p
i
p
j
. (7)
Dans notre modle, la fonction de vraissemblance est :
L(p) =
n!

11
!
IJ
!
p

11
11
p

IJ
i j
=
n!

11
!
IJ
!
I

i=1
J

j=1
p

i j
i j
. (8)
Sous lhypothse H
0
nous avons
L(p) =
n!

11
!
IJ
!
I

i=1
J

j=1
p

i j
i j
=
n!

11
!
IJ
!
_
I

i=1
J

j=1
p

i j
i
__
I

i=1
J

j=1
p

i j
j
_
237
=
n!

11
!
IJ
!
_
I

i=1
p

i
i
__
J

j=1
p

j
j
_
, (9)
o

i
=
J

j=1

i j
and
j
=
I

i=1

i j
, (10)
et en prenant les logarithmes, on obtient
lnL(p) = const +
I

i=1

i
ln p
i
+
J

j=1

j
ln p
j
.
Pour trouver le vecteur informant (p) nous drivons lnL(p) par rapport p
i
et p
j
:
(p) =

p
lnL(p) =
_
lnL(p)
p
1
, . . . ,
lnL(p)
p
I
,
lnL(p)
p
1
, . . . ,
lnL(p)
p
J
_
T
, (12)
o
lnL(p)
p
i
=

i
p
i

I
p
I
, i = 1, 2, . . . , I 1; (12)
et
lnL(p)
p
j
=

j
p
j

J
p
J
, j = 1, 2, . . . , J 1. (13)
En utilisant
p
I
= 1
I1

i=1
p
i
and p
J
= 1
J1

j=1
p
j
, (14)
de (12)-(13) on tire les estimateurs de maximum de vraisemblance de p
i
and p
j
:
p
i
=

i
n
and p
j
=

j
n
, (15)
do les estimateurs de maximum de vraissemblance des probabilits p
i j
sont
p
i j
= p
i
p
j
=

i
n

j
n
. (16)
Dans ce cas, daprs le thorme de Fisher, sous lhypothse H
0
la statistique de Pearson
X
2
=
I

i=1
J

j=1
(
i j
n p
i
p
j
)
2
n p
i
p
j
= n
_
I

i=1
J

j=1

2
i j

j
1
_
(17)
a pour distribution limite lorsque n , la distribution du
2
f degrs de libert,
f = IJ (I 1) (J 1) 1 = (I 1)(J 1)
et donc
lim
n
PX
2
x [ H
0
= P
2
(I1)(J1)
x. (18)
238
On peut utiliser ce rsultat pour construire un test du
2
pour lhypothse H
0
au seuil de
signication . Daprs ce test on doit rejeter H
0
si
X
2
>
2
f
(),
o
2
f
() est le -quantile suprieur (0 < < 0.5) de la distribution du
2
f = (I
1)(J 1) degrs de libert.
Considrons le cas I = J = 2. Alors au lieu du tableau 2 nous avons le tableau connu
comme le tableau 22.

11

12

1

21

22

2

1

2
n
Tab. 3
De faon evidente, sous lhypothse H
0
, au lieu du tableau 1, nous aurons le tableau 4,
B
1
B
2
A
1
pP qP P
A
2
pQ qQ Q
p q
Tab. 4
o
P = P(A
1
), Q = P(A
2
) = 1P, p = P(B
1
), q = P(B
2
) = 1p.
On peut vrifer quaprs quelques manipulations, la statistique de Pearson (17) peut scrire
X
2
=
n(
11

22

21

12
)
2

2
, (19)
et daprs (18) il sensuit
lim
n
PX
2
x [ H
0
= P
2
1
x. (20)
Exemple 1. Considrons un groupe de 300 tudiants qui ont pass un examen partiel en
mathmatiques. Parmi eux, 97 ont obtenu une trs bonne note : A et les 203 autres une note
infrieure : B. A la n de lanne, ces tudiants passent lexamen nal de mathmatiques
et cette fois-ci 48 dentre eux obtiennent une trs bonne note A et parmi eux 18 seulement
ont obtenu une trs bonne note au partiel. Cela signie que 18 tudiants ont obtenu une trs
bonne note la fois lexamen partiel et lexamen terminal.
En utilisant ces donnes nous pouvons construire un test du
2
au niveau de signication
= 0.1, pour tester lhypothesis H
0
de lindpendance dobtention dune trs bonne note
chacun des 2 examens.
Tout dabord, prsentons les donnes dans le tableau 22 suivant :
239
exam partiel Total
A B
exam A 18 30 48
f inal B 79 173 252
Total 97 203 300
Tab. 5
exam partiel Total
A B
exam A pP qP P
f inal B pQ qQ Q
Total p q 1
Tab. 6
Les estimateurs de maximum de vraisemblance de p et P sont
p =

1
n
=
97
300
et

P =

1.
n
=
48
300
.
La valeur de la statistique de Pearson X
2
donne par (17), peut tre value en utilisant la
formule (19) selon laquelle
X
2
=
_
18
4897
300
_
2
4897
300
+
_
30
48203
300
_
2
48203
300
+
_
79
25297
300
_
2
25297
300
+
_
173
252203
300
_
2
252203
300
=
=
300(18 17330 79)
2
97 203 48 252
=
100(248)
2
97 203 64 7
=
200
203

93
97

31
42
< 1.
Sous lhypothse H
0
la statistique X
2
de Pearson est distribue approximativement comme

2
1
, et donc on accepte H
0
, puisque la valeur observe de X
2
est infrieure
2
1
(0.1) =2.706.
240
4.10 Test du Chauvenet pour la dtection des observa-
tions aberrantes.
Le test de Chauvenet est une rgle ancienne destine dtecter au moins une valeur
aberrante dans une srie de mesures et lliminer. Cette rgle est base sur unr proprit
simple de lesprance mathmatique. Ici nous allons suivre lide de L.Bolshev (1961) sur
la prsentation du test de Chauvenet (voir aussi Voinov et Nikulin (1996)).
Considrons n variables alatoires indpendantes Y
1
, ...,Y
n
, n 3, de mme loi et soit y
un nombre rel donn.
Soit
N =
n

j=1
1
[y,+[
(Y
j
)
La statistique N suit une loi binomiale de moyenne :
E(N) = nP(Y
1
y) = np,
o p = PY
1
y. Pour avoir lgalit E(N) = , > 0, il faut choisir y = y() comme la
solution de lquation
PY
1
> y =

n
. (1)
Dans ce cas il est facile de vrier que
= P
_
max
1in
Y
i
> y()
_
= 11PY
1
y()
n
=
1
_
1

n
_
n
= 1e

+o(1) (n ),
et donc si est sufsamment petit,
P
_
max
1in
Y
i
> y()
_
.
Notons que Chauvenet lui-mme a suggr de choisir = 1/2n. Considrons lhypothse
H
0
selon laquelle
PY
i
y = F(y), i [1, n],
o F est une fonction de repartition donne, et H
1
est alternative daprs laquelle
PY
i
y = (1)F(y) +G(y), i = 1, ..., n, (0 < <
1
2
),
o G est une fonction de rpartition telle que G(y) < F(y) pour tout y.
Dans ce cas la rgion critique dtermine pour la rgle de Chauvenet est :
N 1
_
max
1in
Y
i
> y().
_
Le niveau de signication du test (pour n grand et petit) est approximativement . On
peut mme, en utilisant lingalit de Bonferroni, estimer lerreur relative entre le seuil du
test et , et ce pour tout et pour tout n.
241
242
Chapitre 5
REGRESSION
5.1 Rgression linaire
5.1.1 Modle de la rgression linaire
On considre le problme de la prdiction dune ou plusieurs caractristiques dune
variable alatoire Y laide de variables explicatives (covariables) x
1
, ..., x
m
. Par exemple,
on considre la prdiction de lesprance du prix Y dune voiture dune certaine marque
lorsquon connat lge x
1
, la puissance x
2
et le kilomtrage x
3
de cette voiture.
Mme si les valeurs de x
1
, ..., x
m
sont xes, la variable alatoire Y peut prendre des
valeurs diffrentes, parce quil y a souvent dautres facteurs qui interviennent. Par exemple,
les prix de voitures qui ont le mme ge, la mme puissance et le mme kilomtrage ne sont
pas forcment les mmes, cause de facteurs tels que le nombre des pannes, la prsence ou
labsence de garage spcique, le rgime de travail, les conditions climatiques, le lieu de
vente, etc.
Notons
x = (x
0
, x
1
, ..., x
m
)
T
, x
0
= 1, M(x) = E(Y[x).
La fonction M(x) est appele la fonction de rgression. On suppose que M(x) est une com-
binaison linaire des covariables x
i
:
M(x) =
0
+
1
x
1
+... +
m
x
m
=
T
x, (1)
o = (
0
, ...,
m
)
T
est un paramtre inconnu.
Pour faire lestimation on effectue n expriences. La i-me exprience a lieu sous la
covariable x
(i)
= (x
i0
, ..., x
im
), x
i0
= 1.
On observe des valeurs de la variable dpendante ( ou explique) Y
i
. Donc on a un
chantillon
(x
(1)
,Y
1
), ..., (x
(n)
,Y
n
).
Le modle de la rgression linaire
243
Y
i
=
0
+
1
x
i1
+... +
m
x
im
+e
i
,
o e
1
, ..., e
n
sont des variables alatoires i.i.d.,
E(e
i
) = 0, Var(e
i
) =
2
, i = 1, ..., n.
Donc on a
Y
i
= M(x
(i)
) +e
i
, i = 1, ..., n,
o M(x) est donn par la formule (1). Si m=1, on a le modle de rgression linaire simple,
et si m > 1, on a le modle de rgression linaire multiple.
Notons
X =
_
_
1 x
11
x
1m

1 x
n1
x
nm
_
_
n(m+1)
, e = (e
1
, ..., e
n
)
T
, Y = (Y
1
, ...,Y
n
)
T
.
Alors le modle peut tre crit
Y = X+e, o E(e) = 0
n
, Var(e) =
2
I
n
. (2)
Dans ce modle le vecteur e est interprt comme le vecteur des erreurs.
5.1.2 Codage des covariables
Si la j-me variable explicative x
j
dans (1) est dicrte et mesure sur une chelle nomi-
nale, par exemple la couleur, la race, etc., et prend k
j
valeurs diffrentes, on peut utiliser ,
au lieu de x
j
, le vecteur z
j
= (z
j,1
, ..., z
j,k
j
1
) des codes, qui prend k
j
valeurs diffrentes :
z
(0)
j
= (0, ..., 0), z
(1)
j
= (1, 0, ..., 0), z
(2)
j
= (0, 1, 0, ..., 0), ...., z
(k
j
1)
j
= (0, ...., 0, 1)
et le modle (1) est modi :
M(x) =
0
+
1
x
1
+... +
k
j
1

i=1

ji
z
ji
+... +
m
x
m
. (3)
On note que
k
j
1

i=1

ji
z
ji
=
T
j
z
j
o
T
j
= (
j1
, ...,
j,k
j
1
). Si, par exemple, x
j
est la couleur qui prend 3 valeurs (noir, bleu,
blanc), on considre le vecteur z
j
= (z
j1
, z
j2
) qui prend les valeurs
z
(0)
j
= (0, 0) - (noir), z
(1)
j
= (1, 0) - (bleu), z
(2)
j
= (0, 1) - (blanc).
Si x
j
est le sexe (masculin, fminin), on considre la variable z
j
qui prend les valeurs
z
(0)
j
= 0 (masculin) et z
(1)
j
= 1 (fminin).
Parfois le codage est diffrent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1), etc.
244
5.1.3 Interprtation des coefcients .
Notons que lorsquon prend deux valeurs x
(1)
j
et x
(2)
j
de x
j
dans (1), alors

j
(x
(2)
j
x
(1)
j
) = M(x
1
, ..., x
(2)
j
, ..., x
m
) M(x
1
, ..., x
(1)
j
, ..., x
m
).
Donc

j
(x
(2)
j
x
(1)
j
)
(soit
j
, si x
(2)
j
x
(1)
j
= 1) reprsente le changement de la valeur moyenne de la variable
explique Y quand x
j
passe de x
(1)
j
x
(2)
j
tandis que toutes les autres covariables restent les
mmes.
Il faut souligner que dans le modle (1) le changement de la moyenne de Y est le mme
pour nimporte quelles valeurs xes des autres covariables x
l
(l ,= j), cest dire qu il ny
a pas dinteraction entre les covariables.
Si x
j
est discrte et mesure sur une chelle nominale, alors

ji
= M(x
1
, ..., z
(i)
j
, ..., x
m
) M(x
1
, ..., z
(0)
j
, ..., x
m
).
Donc
ji
reprsente le changement de la moyenne de la variable dpendante Y quand z
j
passe de z
(0)
j
z
(i)
j
tandis que toutes les autres covariables gardent les mmes valeurs. Par
exemple, si x
j
est la couleur (noire, blanche ou bleue),
j2
reprsente le changement de
la moyenne de Y qui correspond au changement de x
j
de la couleur noire (z
j
= z
(0)
j
) la
couleur blanche (z
j
= z
(2)
j
).
5.1.4 Modle avec interactions
Si leffet du changement de la valeur de la covariable x
j
est diffrent pour des valeurs
diffrentes des autres covariables, cest quon a une interaction entre x
j
et ces covariables.
Alors le modle (1) peut tre modi pour mettre en lumire leffet de cette interaction. Par
exemple, dans le cas de deux covariables, on a le modle
M(x) =
0
+
1
x
1
+
2
x
2
+
3
x
1
x
2
, (4)
et dans le cas de trois covariables :
M(x) =
0
+
1
x
1
+
2
x
2
+
3
x
3
+
4
x
1
x
2
+
5
x
1
x
3
+
6
x
2
x
3
+
7
x
1
x
2
x
3
. (5)
Sil y a une interaction dans le cas m = 2 par exemple, alors
M(x
(2)
1
, x
2
) M(x
(1)
1
, x
2
) = (
1
+
3
x
2
)(x
(2)
1
x
(1)
1
),
donc la moyenne de Y dpend non seulement de la diffrence x
(2)
1
x
(1)
1
mais aussi de la
valeur de la deuxime covariable x
2
.
245
Si, par exemple, Y est le prix (en Frs.), x
1
est lge (en annes), x
2
est la puissance (
en cm
3
), dune voiture dune certaine marque et sil y a une interaction entre lge et la
puissance, il est vident que la valeur de la voiture diminue annuellement mais cette baisse
du prix est diffrente pour des voitures de diffrentes puissances. Pour la voiture ayant la
puissance x
2
cm
3
la baisse du prix annuelle est de
1
+
3
x
2
(Euros.). Voir aussi la section
Dcomposition orthogonale de Fisher.
5.1.5 Estimateurs des moindres carrs
On cherche lestimateur

qui minimise la somme des carrs
SS =
n

i=1
(Y
i

1
x
i1
...
m
x
im
)
2
= (Y X)
T
(Y X).
En drivant SS par rapport
j
on a
SS

j
=2
n

i=1
x
i j
(Y
i

0
...
m
x
im
), ( j = 0, ..., m),
do on obtient le systme de (m+1) quations linaires (j=0,...,m) :

0
n

i=1
x
i j
x
i0
+
1
n

i=1
x
i j
x
i1
+... +
m
n

i=1
x
i j
x
im
=
n

i=1

i j
Y
i
, (6)
ou
X
T
X = X
T
Y.
Si la matrice A
(m+1)(m+1)
= X
T
X nest pas dgnre, alors on a
Lestimateur des moindres carrs de :

= (X
T
X)
1
X
T
Y. (7)
Si x = (1, x
1
, ..., x
m
)
T
est un vecteur de covariables donn,
M(x) = E(Y[x) =
T
x,
alors on obtient
Lestimateur de lesprance M(x) = E(Y[x) est :

M(x) =

T
x =

0
+

1
x
1
+... +

m
x
m
.
Notons

Y
i
=

M(x
(i)
) =

T
x
(i)
,

Y = (

Y
1
, ...,

Y
n
)
T
, e = ( e
1
, ..., e
n
)
T
,

Y =
1
n
n

i=1
Y
i
.
Les variables alatoires

Y
i
et Y
i
sont appeles respectivement les valeurs prdites et
observes des Y
i
,et les e
i
=Y
i

Y
i
sont les rsidus estims @ des erreurs apparentes . On
a

Y = X

, e =Y

Y =Y X

= e +X(

). (8)
246
5.1.6 Proprits des estimateurs
.
Notons
B = B
(m+1)n
= (X
T
X)
1
X
T
, H = H
nn
= I
n
X(X
T
X)
1
X
T
.
Alors

= BY, e = HY. (9)


Il faut remarquer que
HH = H, H
T
= H, BB
T
= B, BH = 0
(m+1)n
. (10)
Lemme 1. Si det(X
T
X) ,= 0, alors
a) X
T
H = 0
mn
, X
T
e = 0
m+1
,

Y
T
e = 0, (11)
b) Y
T
Y =

Y
T

Y + e
T
e, |Y|
2
=|

Y|
2
+| e|
2
, (12)
c)
n
j=1
(Y
j

Y)
2
=
n
j=1
(

Y
j

Y)
2
+
n
j=1
(Y
j

Y
j
)
2
, (13)
d)
n
i=1
Y
i
=
n
i=1

Y
i
, (14)
e) e
T
e = e
T
e +(

Y X)
T
(

Y X). (15)
Dmonstration.
a) On a
X
T
H = X
T
X
T
X(X
T
X)
1
X
T
= 0
nn
,
donc
X
T
e = X
T
HY = 0
m+1
,

Y
T
e =

T
X
T
e = 0.
b) Daprs (11)
Y
T
Y = (

Y + e)
T
(

Y + e) =

Y
T

Y +

Y
T
e + e
T
Y + e
T
e =

Y
T

Y + e
T
e.
c) Lgalit (12) peut tre crite sous la forme

Y
2
j
=

Y
2
j
+

(Y
j

Y
j
)
2
.
Alors
n

j=1
Y
2
j
n

Y
2
=
n

j=1

Y
2
j
n

Y
2
+
n

j=1
(Y
j

Y
j
)
2
247
et donc
n

j=1
(Y
j

Y)
2
=
n

j=1
(

Y
j

Y)
2
+
n

j=1
(Y
j

Y
j
)
2
.
d) La premire ligne de X
T
est 1
n
= (1, ..., 1)
T
, donc lgalit X
T
e = 0
m+1
, dmontre dans
a), implique
1
T
n
e =
n

i=1
e
i
= 0 et donc
n

i=1
Y
i
=
n

i=1

Y
i
.
e) Daprs (2) et (11) on a
e
T
e = (Y X)
T
(Y X) =
(Y

Y +

Y X)
T
(Y

Y +

Y X) =
( e +

Y X)
T
( e +

Y X) =
e
T
e +2 e
T
(

Y X) +(

Y X)
T
(

Y X) =
e
T
e +(

Y X)
T
(

Y X).
Le lemme est dmontr.
Thorme 1. Gauss-Markov. Si det (X
T
X) ,= 0, alors
a). E(

) = , Var(

) =
2
(X
T
X)
1
,
b). E( e) = 0, Var( e) =
2
H,
c). Cov(

, e) = 0,
d). E( e
T
e) = (nm1)
2
.
Dmonstration.
a) On a
E(

) = (X
T
X)
1
X
T
E(Y) = (X
T
X)
1
X
T
X = ,
Var(

) = (X
T
X)
1
X
T

2
I
n
X(X
T
X)
1
=
2
(X
T
X)
1
.
b)
E( e) = E(Y X

) = XX = 0
n
.
Var( e) = Var(HY) = H
2
I
n
H =
2
H.
c)
Cov(

, e) = Cov(BY, HY) = B
2
I
n
H =
2
BH = 0
(m+1)n
.
d) Notons
A = X
T
X = (a
i j
), A
1
= (a
i j
), (i, j = 0, ..., m).
Alors
E((

Y X)
T
(

Y X)) = E((

)
T
A(

)) =
m

i=0
m

j=0
a
i j
E((

i
)(

j
)) =
2
m

i=0
m

j=0
a
i j
a
i j
=

2
Tr(AA
1
) =
2
Tr(I
m+1
) =
2
(m+1).
248
On a
E(e
T
e) =
n

i=1
Ee
2
i
=
n

i=1
Vare
i
= n
2
.
Lgalit (15) implique que
E( e
T
e) = (nm1)
2
.
Le thorme 1 est dmontr.
Corollaire.

et
2
=
SS
R
nm1
des estimateurs sans biais de et de
2
respectivement, et
Cov(

,
2
) = 0;
On a dj vu que les paramtres quil est le plus important destimer et qui sont en
mme temps ceux dont linterprtation est la plus vidente sont :
a) la moyenne M(x) de la variable explique Y sous nimporte quelle valeur de la cova-
riable x ;
b) chacun des paramtres
j
, qui caractrise le changement de la moyenne de Y corres-
pondant au changement de la covariable x
j
(modle sans interaction) ;
c) les combinaisons linaires des paramtres
j
, qui caractrisent le changement de la
moyenne de Y correspondant au changement dune covariable sous des valeurs spcies
des autres covariables (le modle avec interactions). Par exemple, dans le modle (4 ) la
combinaison linaire
1
+
3
x
2
caractrise le changement de la moyenne de Y correspon-
dant au changement de la covariable x
1
sous des valeurs spcies de x
2
.
Donc dans tous les cas lestimation des combinaisons linaires du type l
T
, o l =
(l
0
, ..., l
m
)
T
, est importante.
Un estimateur de l
T
est appel linaire, sil a la forme
c
T
Y, c = (c
1
, ..., c
n
)
T
.
Lestimateur c
T
Y de l
T
est appel sans biais si
E(c
T
Y) = l
T
pour tout R
m+1
,
i.e. pour le modle de type (2) avec nimporte quel R
m+1
, lesprance de c
T
Y est gale
la vraie valeur de l
T
.
Notons G
l
la classe des estimateurs linaires sans biais de l
T
.
Thorme 2. (Gauss-Markov). Si det (X
T
X) ,= 0, alors l
T
est lunique estimateur de
variance minimale dans la classe G
l
.
Dmonstration. Si c
T
Y G
l
, alors
l
T
= E(c
T
Y) = E(c
T
Y l
T

+l
T

) = (c
T
X l
T
)+l
T
,
249
donc
(c
T
X l
T
) = 0 pour tout R
m+1
et
c
T
X l
T
= 0
T
m+1
. (16).
On a
Var(c
T
Y) = Var(c
T
Y l
T

+l
T

) =
Var(c
T
Y l
T

) +Var(l
T

) +2Cov(c
T
Y l
T

, l
T

).
Lgalit (16) et le Lemme 1 impliquent que
Cov(c
T
Y l
T

, l
T

) = Cov((c
T
l
T
B)Y, l
T
BY)) =
(c
T
l
T
B)
2
I
n
B
T
l =

2
(c
T
X(X
T
X)
1
l
T
(X
T
X)
1
X
T
X(X
T
X)
1
)l =

2
(c
T
X l
T
)(X
T
X)
1
l = 0,
donc
Var(c
T
Y) = Var(l
T

) +Var(c
T
l
T
B)Y =
Var(l
T

) +
2
(c
T
l
T
B)(c
T
l
T
B)
T
.
On a Var(c
T
Y) Var(l
T
) et lgalit est vrie si et seulement si c
T
= l
T
B.
Le thorme est dmontr.
Corollaire. Les estimateurs

M(x) =

T
x et

j
de la moyenne M(x) et du paramtre
j
,
respectivement, sont les estimateurs de variance minimale dans la classe des estimateurs
linaires sans biais de M(x) et
j
.
Il sensuit par exemple que lestimateur

1
+

3
x
2
de
1
+
3
x
2
est le meilleur estimateur
dans la classe des estimateurs linaires sans biais de
1
+
3
x
2
(modle (4)).
5.1.7 Dcomposition des sommes de carrs
.
Le lemme 1 implique lgalit

(Y
i

Y)
2
=

Y
i

Y)
2
+

(Y
i

Y
i
)
2
.
La somme
SS
R
=
n

i=1
(Y
i

Y
i
)
2
caractrise la diffrence entre les valeurs prdites et observes et est appele la somme des
carrs rsiduelle. La somme
SS
E
=
n

i=1
(

Y
i

Y)
2
250
est appele la somme des carrs explique par rgression. La somme
SS
T
=
n

i=1
(Y
i

Y)
2
est appele la somme des carrs totale. Daprs le lemme 1
SS
T
= SS
R
+SS
E
.
La somme SS
T
mesure la variabili des valeurs de Y, la somme SS
E
mesure la partie de
cette variabilit explique par la rgression. Si le modle de rgression linaire donne une
bonne prdiction, cest dire si les

Y
i
sont proches des Y
i
, la somme SS
E
est proche de
SS
T
. Donc SS
E
explique une grande part de la variabilit des valeurs Y
i
autour de

Y. Si la
prdiction est mauvaise, la somme SS
E
est petite par rapport SS
T
et SS
E
nexplique pas
beaucoup la variabilit des valeurs de Y
i
autour de

Y. La somme des carrs rsiduelle SS
R
est ce qui reste de la variabilit totale aprs la soustraction de SS
E
. Do le nom de SS
R
.
Lemme 2.
E(SS
T
) = (n1)
2
+
1
n
2
n

i=1
n

j=1
[
T
(x
( j)
x
(i)
)]
2
. (17)
Dmonstration. Notons M
j
= E(Y
j
) =
T
x
( j)
. Alors
E(SS
T
) = E
n

i=1
(Y
i

Y)
2
= E(
n

i=1
(Y
i
M
i
+M
i

Y)
2
) =
E(
n

i=1
(Y
i
M
i
)
2
) 2E(
n

i=1
(Y
i
M
i
)(

Y M
i
)) +E(
n

i=1
(

Y M
i
)
2
) =
n
2

2
n
E(
n

i=1
n

j=1
(Y
i
M
i
)(Y
j
M
i
)) +
1
n
2
n

i=1
E(
n

j=1
(Y
j
M
i
))
2
=
(n2)
2
+
1
n
2
n

i=1
n

j=1
E(Y
j
M
i
)
2
=
(n2)
2
+
1
n
2
n

i=1
n

j=1
E
_
(Y
j
M
j
+M
j
M
i
)

2
=
(n2)
2
+
1
n
2
n

i=1
n

j=1
E
_

2
+(M
j
M
i
)
2

=
(n2)
2
+
2
+
1
n
2
n

i=1
n

j=1
(M
j
M
i
)
2
=
(n1)
2
+
1
n
2
n

i=1
n

j=1
_

T
(x
( j)
x
(i)
)
_
2
.
Le lemme 2 est dmontr.
Daprs le thorme 1 et le lemme 2 on a
E(SS
R
) = (nm1)
2
,
251
E(SS
T
) = (n1)
2
+
1
n
2
n

i=1
n

j=1
_

T
(x
( j)
x
(i)
)
_
2
, (18)
E(SS
E
) = E(SS
T
) E(SS
R
).
Corollaire.
E(SS
R
) = E(SS
T
) et E(SS
E
) = 0,
si lhypothse H
0
:
1
=... =
m
=0 est vrie, cest--dire sous le modle sans rgression
Y
i
=
0
+e
i
, i = 1, ..., n.
E(SS
E
) = E(SS
T
) et E(SS
R
) = 0,
si
2
= 0, cest--dire le modle de rgression linaire prdit sans erreur les valeurs de Y.
5.1.8 Le coefcient de dtermination.
La variable alatoire
R
2
= 1
SS
R
SS
T
=
SS
E
SS
T
(19)
est appele le coefcient de dtermination.
R
2
prend ses valeurs dans le segment [0, 1]. Il reprsente la proportion de la variabilit
des Y
i
explique par la rgression.
Si la prdiction est idale, i.e.

Y
i
=Y
i
, alors SS
R
= 0 et R
2
= 1. Sil ny a pas de rgres-
sion, i.e. pour tous les x
(i)
la prdiction de la moyenne M(x
(i)
) est la mme :

Y
i
=

Y, alors
SS
R
= SS
T
et R
2
= 0. Donc R
2
caractrise la qualit de la prdiction.
La variable alatoire
R
Y(12...m)
=

R
2
est appele le coefcient de corrlation empirique multiple.
Proposition. Le coefcient de corrlation empirique multiple est gal au coefcient de
corrlation empirique simple entre les valeurs observes Y
i
et les valeurs prdites

Y
i
:
R
Y(12...m)
= r
Y

Y
=

n
i=1
(

Y
i

Y)(Y
i

Y)
_

n
i=1
(

Y
i

Y)
2

n
i=1
(Y
i

Y)
2
,
o

Y =
1
n

n
i=1

Y
i
.
Dmonstration. Daprs le lemme 1 on a :

Y
T
e = 0,

Y =

Y donc
n

i=1
(

Y
i

Y)e
i
=
n

i=1

Y
i
e
i
=

Y
T
e = 0,
n

i=1
(

Y
i

Y)(Y
i

Y) =
n

i=1
(Y
i

Y)(e
i
+

Y
i

Y) =
n

i=1
(

Y
i

Y)
2
et
r
Y

Y
=

n
i=1
(

Y
i

Y)
2

n
i=1
(Y
i

Y)
2
=

n
i=1
(

Y
i

Y)
2

n
i=1
(Y
i

Y)
2
= R
Y(12...m)
.
La proposition est dmontre.
252
5.1.9 Rgression linaire simple
Dans le cas dune seule variable explicative (m = 1) , on a le modle de rgression
linaire simple :
Y
i
=
0
+
1
x
i
+e
i
, (20)
o e
1
, ..., e
n
sont les variables alatoires i.i.d., E(e
i
) = 0, Var(e
i
) =
2
.
On a un chantillon
(x
1
,Y
1
) (x
n
,Y
n
). (21)
La ralisation de lchantillon consiste en n paires de nombres rels qui peuvent tre re-
prsents dans le plan comme un nuagede points. Ces points sont disperss autour de la
droite de rgression
y =
0
+
1
x (22)
puisque E(Y
i
) =
0
+
1
x. Si la variance
2
est petite, la plupart des points (x
i
,Y
i
) sont
proches de cette droite. La droite (22) est inconnue parce que les paramtres
0
et
1
sont
inconnus. La droite
y =

0
+

1
x (23)
est la droite de rgression estime. Si on dispose de la ralisation de lchantillon (21), la
droite (23) peut tre dessine. Les points (x
i
,Y
i
) sont disperss autour de cette droite.
Dans le cas de la rgression linaire simple, le systme dquations (6) devient

0
n+
1
n

i=1
x
i
=
n

i=1
Y
i
,

0
n

i=1
x
i
+
1
n

i=1
x
2
i
=

x
i
Y
i
,
donc

1
=

n
i=1
(x
i
x)(Y
i

Y)

n
i=1
(x
i
x)
2
,

0
=

Y

1
x.
Si on note
r
xY
=

n
i=1
(x
i
x)(Y
i

Y)
_

n
i=1
(x
i
x)
2

n
i=1
(Y
i

Y)
2
le coefcient empirique de corrlation de x et Y et
s
2
x
=
1
n
n

i=1
(x
i
x)
2
, s
2
Y
=
1
n
n

i=1
(Y
i

Y)
2
les variances empiriques de x et Y, alors

1
= r
xY
s
Y
s
x
,

0
=

Y

1
x.
Les matrices X
T
et X
T
X sont
X
T
=
_
1 1
x
1
x
n
_
, X
T
X =
_
n
n
i=1
x
i

n
i=1
x
i
n
i=1
x
2
i
_
.
Daprs le thorme 1 ,
253
E(

) = ,
Var(

) =
_
Var(

0
) Cov(

0
,

1
)
Cov(

0
,

1
) Var(

1
)
_
=

2
(X
T
X)
1
=

2
n
n
i=1
(x
i
x)
2
_

n
i=1
x
2
i

n
i=1
x
i

n
i=1
x
i
n
_
,
lestimateur sans biais de
2
est

2
=
SS
R
n2
=

n
i=1
(Y
i

Y
i
)
2
n2
et
Cov(

,
2
) = 0.
Daprs le thorme de Gauss-Markov les estimateurs

M(x) =

0
+

1
x,

0
et

1
sont de variance minimale dans la classes des estimateurs linaires sans biais de M(x) =
E(Y[x),
0
et
1
respectivement,
E(

M(x)) = M(x), Var(

M(x)) = Var(

0
) +2xCov(

0
,

1
) +x
2
Var(

1
).
Si x passe de x
(1)
x
(2)
, alors le changement de la moyenne de Y est estim par

1
(x
(2)

x
(1)
).
Notons que dans le cas de la rgression linaire simple

Y
i
=

0
+

1
x
i
,

Y =

Y =

0
+

1
x
et donc
R
2
=
[
n
i=1
(

Y
i

Y)(Y
i

Y)]
2

n
i=1
(

Y
i

Y)
2

n
i=1
(Y
i

Y)
2
=
[
n
i=1
(x
i
x)(Y
i

Y)]
2

n
i=1
(x
i
x)
2

n
i=1
(Y
i

Y)
2
= r
2
xY
.
Le coefcient de dtermination est gal au carr du coefcient de corrlation empirique
des x
i
et des Y
i
: R
2
= r
2
xY
. Le coefcient de corrlation empirique multiple est gal la
valeur absolue du coefcient de corrlation empirique simple : R
Y(1)
=[r
xY
[.
5.1.10 Rgression normale
On a jusqu prsent suppos seulement lexistence des deux premiers moments de Y
i
dans le modle (2). Si lon veut obtenir des intervalles de conance pour lesprance m(x),
pour les paramtres
i
, pour des combinaisons linaires l
T
,ou si lon veut vrier des
hypothses sur les valeurs des paramtres inconnus, ou construire des tests dajustement,
on doit faire des hypothses supplmentaire, par exemple supposer que la rpartition des Y
i
appartient une certaine classe de rpartitions, la plus usuelle tant celle des lois normales.
254
On suppose par la suite dans ce chapitre que la loi des Y
i
est normale, donc
Y = X+e, e N(0,
2
I
n
). (24)
Certains cas o la loi de Y est diffrente de la loi normale sont considrs dans le chapitre
sur la rgression log-linaire.
5.1.11 Estimateurs du maximum de vraisemblance
La fonction de vraisemblance sous le modle (24) a la forme
L(,
2
) =
1
(2
2
)
n/2
exp
1
2
2
n

i=1
(Y
i

T
X
(i)
)
2
.
Pour nimporte quel
2
> 0 la maximisation de L est quivalente la minimization de
SS =
n

i=1
(Y
i

T
x
(i)
)
2
.
Donc les estimateurs du maximum de vraisemblance de coincident avec lestimateur des
moindres carrs

. Notons que
lnL(

,
2
) =
SS
R
2
2

n
2
(ln(2) +ln(
2
)),

(
2
)
lnL(

,
2
) =
SS
R
2
4

n
2
2
et donc lestimateur du maximum de vraisemblance pour
2
est :

2
=
1
n
SS
R
.
Cet estimateur est biais :
E(
2
) =
nm1
n

2
est asymptotiquement (n ) quivalent lestimateur

2
= SS
R
/(nm1),
considr dans le corollaire du thorme 1.
5.1.12 Lois des estimateurs

et
2
.
Considrons le thorme essentiel de la rgression normale.
Thorme 2. Si det(X
T
X) ,= 0, alors
1. Les variables alatoires

et SS
R
sont indpendantes ;
255
2. Les variables alatoires SS
R
et SSSS
R
sont indpendantes ;
3.

N(,
2
(X
T
X)
1
),
SS
R

2

2
nm1
,
SSSS
R

2

2
m
.
Dmonstration. Daprs (11) on a X
T
H = 0 et
SS
R
= e
T
e =Y
T
H
T
HY =Y
T
HY = (Y
T

T
X
T
)HY =
(Y
T

T
X
T
)H(Y X) = e
T
He.
On a Y = X+e, donc

= (X
T
X)
1
XY = +(X
T
X)
1
Xe =
(X
T
X)
1
Xe = Be,
SS
R
/
2
= e
T
H e, (

)/ = B e,
o e = e/ N(0, I
n
). Daprs (10) BH = 0. Donc le lemme 1 (annexe) implique que les
variables alatoires SS
R
et

sont indpendantes. Daprs lgalit (15) la diffrence
SSSS
R
= e
T
e e
T
e = (

Y X)
T
(

Y X) = (

)
T
X
T
X(

)
est une fonction de

. Donc les variables alatoires SS
R
et SS SS
R
sont aussi indpen-
dantes.
Le vecteur

est une fonction linaire du vecteur normal Y. Donc

N(,
2
(X
T
X)
1
).
Le vecteur (

)/ N(0, (X
T
X)
1
). De plus, rang(X
T
X) =m donc daprs le tho-
rme 1 (annexe)
SSSS
R

2
=
1

2
(

)
T
X
T
X(

)
suit la loi
2
m
.
On a obtenu
SS
R
= e
T
H e, e N(0, I
n
).
La matrice H est idempotente et
Tr(H) = TrI
n
Tr(X
T
(X
T
X)
1
X)
= nTr(XX
T
(X
T
X)
1
) = nTrI
m+1
= nm1.
Daprs le lemme 2 (annexe), SS
R

2
nm1
. Le thorme est dmontr.
256
5.1.13 Test de lhypothse H
0
:
k+1
= ... =
m
= 0
Supposons quon ait le modle de rgression multiple
Y
i
=
0
+
1
x
1i
+... +
m
x
1m
+e
i
(i = 1, ..., n),
ou
Y = X+e, (25)
o
X =
_
_
1 x
11
x
1m

1 x
n1
x
nm
_
_
, = (
1
, ...,
m
)
T
, e = (e
1
, ..., e
n
)
T
.
Considrons le problme de la vrication de lhypothse
H
k
:
k+1
= ... =
m
= 0,
o k est un nombre x, k = 0, ..., m1. Sous H
k
les covariables x
k+1
, ..., x
m
namliorent
pas la prdiction de la variable explique. Donc si H
k
est vrie, on peut exclure ces
covariables du modle. Dans le cas k = 0 on a lhypothse
H
0
:
1
= ... =
m
= 0.
On na pas de rgression. La connaissance des valeurs des covariables ne dit rien sur les
valeurs de Y.
Considrons le modle rduit
Y
i
=
0
+
1
x
i1
+... +
k
x
1k
+e
i
(i = 1, ..., n)
ou
Y = X
(k)

(k)
+e, (26)
o
X
(k)
=
_
_
1 x
11
x
1k

1 x
n1
x
nk
_
_
,
(k)
= (
1
, ...,
k
)
T
.
Notons
SS
(k)
R
= e
(k)T
e
(k)
= (Y X
(k)

(k)
)
T
(Y X
(k)

(k)
),
SS
(n)
R
= e
T
e = (Y X

)
T
(Y X

)
les sommes rsiduelles des carrs pour le modle (25) et (26).
Thorme 1. Si lhypothse H
k
est vrie, det (X
T
X) ,= 0, m+2 n, alors
1. SS
(m)
R
et SS
(k)
R
SS
(m)
R
sont indpendantes.
2. SS
(m)
R

2

2
(nm1), SS
(k)
R
SS
(m)
R

2

2
(mk).
257
Dmonstration. Notons que
SS
(m)
R
= e
T
He, SS
(k)
R
= e
T
H
(1)
e,
o
H = I
n
X(X
T
X)
1
X
T
, H
(1)
= I
n
X
(1)
(X
(1)T
X
(1)
)
1
X
(1)T
.
Notons X
0
, ..., X
m
les colonnes de la matrice X. Considrons la suite des vecteurs orthonor-
maux dordre n
V
0
= Xl
0
, ...,V
m
= Xl
m
qui sont des combinaisons linaires des X
0
, ..., X
m
et sont obtenus par la mthode dortho-
gonalisation de Gram-Schmidt ; ici
l
0
= (l
00
, 0, ..., 0)
T
, l
1
= (l
10
, l
11
, 0, ..., 0)
T
, ..., l
k
= (l
k0
, ..., l
kk
, 0, ..., 0)
T
,
l
m
= (l
m0
, ..., l
mm
)
T
, l
i j
R.
On a
V
T
i
V
i
= 1, V
T
i
V
j
= 0 (i ,= j).
Notons V
m+1
, ...,V
n1
les vecteurs orthonormaux dordre n qui sont orthogonaux
V
0
, ...,V
m
.
Chaque vecteur V
i
(i = 0, ..., m) est un vecteur propre de la matrice H correspondant
la valeur propre 0 : pour i = 0, ..., m on a
HV
i
=V
i
X(X
T
X)
1
X
T
V
i
=
V
i
X(X
T
X)
1
X
T
Xl
i
=V
i
Xl
i
= 0.
Le vecteur V
i
(i = m+1, ..., n 1) est un vecteur propre de H correspondant la valeur
propre 1 : pour i = m+1, ..., n1 le vecteur V
i
est orthogonal aux colonnes de la matrice
X, donc X
T
V
i
= 0 et
HV
i
=V
i
X(X
T
X)
1
X
T
V
i
=V
i
.
La dcomposition spectrale de H est
H =
n1

i=m+1
V
i
V
T
i
,
donc
SS
(m)
R
= e
T
He =
n1

i=m+1
e
T
V
i
V
T
i
e =
n1

i=m+1
z
2
i
,
o z
i
=V
T
i
e. Il faut remarquer que
Ez
i
= 0, Varz
i
=
2
V
T
i
V
i
=
2
,
Cov(z
i
, z
j
) = Ee
T
V
T
i
V
j
e = 0 (i ,= j).
Les variables alatoires z
m+1
, ..., z
n1
sont indpendantes et z
i
N(0,
2
), (i =m+1, ..., n
1). Donc SS
(m)
R
/
2

2
(nm+1).
258
Notons que pour i = 0, ..., k on a V
i
= Xl
i
= X
(k)
l

i
, o l

i
= (l
i0
, ..., l
ii
, 0, ..., 0) est le
vecteur dordre k +1, et donc
H
(k)
V
i
= H
(k)
Xl
i
= H
(k)
X
(k)
l

i
= 0.
Pour i = k +1, ..., n1 on a X
(k)T
V
i
= 0, donc
H
(k)
V
i
=V
i
X
(k)
(X
(k)T
X
(k)
)
1
X
(k)T
V
i
=V
i
.
Par consquent, V
0
, ...,V
k
,V
k+1
, ...,V
n1
sont des vecteurs propres de H
(k)
de valeurs propres
respectives 0, ..., 0, 1, ..., 1 .
La dcomposition spectrale de H
(k)
est
H
(k)
=
n1

i=k+1
V
i
V
T
i
,
donc
SS
(k)
R
=
n1

i=k+1
e
T
V
i
V
T
i
e
i

2
(nk 1),
SS
(k)
R
SS
R
=
m

i=k+1
e
T
V
i
V
T
i
e
i

2
(mk)
et les vecteurs SS
R
et SS
(k)
R
SS
R
sont indpendants.
Corollaire. Sous les hypothses du thorme, la variable alatoire
F =
(SS
(k)
R
SS
(m)
R
)/(mk)
SS
(m)
R
/(nm1)
suit la loi de Fisher mk et nk 1 degrs de libert.
Les sommes SS
(m)
R
et SS
(k)
R
caractrisent les diffrences entre les valeurs observes et les
valeurs prdites. Sous lhypothse H
k
la diffrence
SS
(k)
R
SS
(m)
R
ne doit pas tre grande. Si H
k
nest pas vrie, alors les covariables x
k+1
, ..., x
m
amliorent
la prdiction et la diffrence SS
(k)
R
SS
(m)
R
doit tre plus grande. Donc on rejette H si
F > F
1
(mk, nk 1),
o F
1
est le (1) quantile de la loi de Fisher.
Lhypothse la plus intressante de point de vue pratique est
H
m1
:
m
= 0.
Elle signie que le modle avec m1 covariantes x
1
, ..., x
m1
donne la mme prdiction
que le modle avec m covariates x
1
, ..., x
m
, i.e. la covariante x
m
peut tre exclue du modle.
La statistique de test pour cette hypothse est
F =
SS
(m1)
R
SS
(m)
R
SS
(m)
R
/(nm1)
.
259
Lhypothse est rejette avec le niveau de signication , si
F > F
1
(1, nm).
Notons que dans le cas de lhypothse H
0
on a
SS
(0)
R
=
n

i=1
(Y
i

Y)
2
= SS
T
, SS
(0)
R
SS
(m)
R
= SS
(m)
E
,
o SS
T
et SS
(m)
E
sont la somme des carrs totalle et la somme des carrs explique par la
rgression , respectivement, dans le modle (25). La statistique de test pour H
0
est
F =
SS
E
/m
SS
R
/(nm1)
F
m,nm1
.
Donc lhypothse H
0
sur labsence de la rgression est rejette avec le niveau de signica-
tion , si
F > F
1
(m, nm1).
Dans le cas du modle linaire simple cette hypothse est quivalente lhypothse
H
0
:
1
= 0
et la statistique de test
F =
SS
E
SS
R
/(n2)
F
1,n2
.
Lhypothse est rejette avec le niveau de signication , si
F > F
1
(1, n2).
En utilisant la relation entre la loi de Fisher de 1 et (n 2) degrs de libert et la loi de
Student de (n2) degrs de libert, la rgion critique peut tre crite en forme quivalente :
t >t
1
(n2),
o t =

F et t
1
(n 2) est la (1 ) quantile de la loi de Student de (n 2) degrs de
libert.
5.1.14 Les coefcients empiriques de la correlation partielles
Considrons la statistique
R
2
Y(X
k+1
...X
m
)(1...k)
=
SS
(k)
R
SS
(m)
R
SS
(k)
R
=
SS
(m)
E
SS
(k)
E
SS
T
SS
(k)
E
.
La somme des carrs SS
(m)
E
et SS
(k)
E
mesurent les parties de variabilit des valeurs Y
i
expli-
ques par la rgression dans les modles (25) et (26), respectivement, donc la statistique
SS
(m)
E
SS
(k)
E
260
mesure la partie de variabilit des valeurs de Y
i
, expliqu par linclusion des covariables
x
k+1
, ..., x
m
complmentaires x
1
, ..., x
k
.
La statistique
SS
(k)
R
= SS
T
SS
(k)
E
mesure la variabilit rsiduelle des Y
i
, i.e. la variabilit qui nest pas explique par le modle
(26). Donc R
2
est la proportion de la variabilit rsiduelle du modle (26) explique par
introduction des nouvelles covariables x
k+1
, ..., x
m
.
Notons que
SS
(m)
R
= SS
T
(1R
2
Y(1...m)
), SS
(k)
R
= SS
T
(1R
2
Y(1...k)
),
donc
R
2
Y(X
k+1
...X
m
)(1...k)
=
R
2
Y(1...m)
R
2
Y(1...k)
1R
2
Y(1...k)
.
La statistique
R
Y(X
k+1
...X
m
)(1...k)
=
_
R
2
Y(X
k+1
...X
m
)(1...k)
est appele le coefcient empirique de correlation partiel de Y et X
k+1
, ..., X
m
. Il mesure la
correlation entre Y et (X
k+1
...X
m
) aprs llimination de leur dpendance de X
1
...X
k
.
R
2
YX
m
(1...k)
est la proportion de la variabilit rsiduelle du modle avec (m1) cova-
riables x
1
, ..., x
m1
explique par introduction de la m-me covariable x
m
. On a
R
2
YX
m
(1...m1)
=
R
2
Y(1...m)
R
2
Y(1...m1)
1R
2
Y(1...m1)
. (27)
La statistique
R
YX
m
(1...m1)
=
_
R
2
YX
m
(1...m1)
est appele le coefcient empirique de correlation partielle de Y et X
m
. Il mesure la cor-
relation entre Y et X
m
aprs llimination de leur dpendance de X
1
...X
m1
. Lgalit (27)
implique
1R
2
Y(1...m)
=
_
1R
2
YX
m
(1...m1)
__
1R
2
Y(1...m1)
_
.
5.1.15 Intervalles de conance pour les coefcients et leur combi-
naisons linaires
Considrons le modle de rgression multiple (25). Le thorme 1 implique que dans le
cas normale

N
m+1
(,
2
(X
T
X)
1
), SS
R
/
2

2
(nm1)
et les variables alatoires

et SS
R
sont indpendantes. Notons s
ii
les lments diagonaux
de la matrice (X
T
X)
1
= (s
i j
). Alors

i
s
ii
N(0, 1),
SS
R

2

2
(nm1)
261
et donc
t =

i
_

Var(

i
)
St(nm1),
o

Var(

i
) = s
ii

2
= s
ii
MS
R
.
Le = 1 intervalle de conance pour
i
est

i
s
ii
_
MS
R
t
1/2
(nm1),
o t
1/2
(n m1) est le (1 /2) quantile de la loi de Student de n m1 degrs de
libert.
Si on considre le modle avec interactions, alors certaines combinaisons linaires des
paramtres
0
, ...,
m
ont le sens pratique. Le paramtre
c =
m

i=0
l
i

i
= l
T

est estim par la statistique c = e


T
, donc
Var( c) = l
T
Var(

)l =
2
l
T
(X
T
X)
1
l
et
t =
c c
_
l
T
(X
T
X)
1
lMS
R
St(nm1).
Le (1) intervalle de conance pour c est
c
_
l
T
(X
T
X)
1
lMS
R
t
1/2
(nm1).(28)
5.1.16 Intervalles de conance pour les valeurs de la fonction de r-
gression m(x)
Fixons la valeur x
0
du vecteur des covariables. Considrons la valeur
m(x
0
) = E(Y [ x
0
) =
0
+
1
x
01
+... +
m
x
m
= x
T
0

de la fonction de rgression.
La formule (28) implique que (1) intervalle de conance pour m(x
0
) est
x
T
0

_
x
T
0
(X
T
X)
1
x
0
MS
R
t
1/2
(nm1).
262
5.1.17 Prdiction de la nouvelle observation
Supposons que x
0
= (1, x
01
, ..., x
0m
)
T
est un vecteur des covariables x et Y
n+1
(x
0
) est
la (n+1) observation de la variable dpendante.
Intervalle alatoire (U
1
,U
2
) tel que
PU
1
<Y
n+1
(x
0
) <U
2
= 1
est appel la (1) intervalle de prdiction pour Y
n+1
(x
0
).
Les variables alatoires Y
n+1
(x
0
) et x
T
0

sont indpendantes et
Y
n+1
(x
0
) N(x
T
0
,
2
), x
T
0

N(x
T
0
,
2
x
T
0
(X
T
X)
1
x
0
),
donc
Y
n+1
(x
0
) x
T
0

N(0,
2
(1+x
T
0
(X
T
X)
1
x
T
0
).
La statistique
t =
Y
n+1
(x
0
) x
T
0

_
MS
R
(1+x
T
0
(X
T
X)
1
x
0
)
St(nm1),
donc le (1) intervalle de prdiction pour Y
n+1
(x
0
) est
x
T
0

_
MS
R
(1+x
T
0
(X
T
X)
1
x
0
)F
1/2
(nm1).
Il est plus large que lintervalle de conance pour la moyenne m(x
0
) = x
T
0
.
Prdiction de la nouvelle observation Y
n+1
(x
0
) est plus incertaine que la prdiction de
la moyenne de Y(x
0
).
Le chapitre nest pas achev. Les problmes de diagnostique, step by step rgression,
liaison avec ANOVA, etc, sont ajouter.
5.1.18 Analyse des rsidus
Avant de faire infrences il est necessaire de vrier si le modle est bien ajust aux
donnes reles. Les suppositions principales du modle de rgression linaire sont :
a). lgalit des variances des variables alatoires e
i
=Y
i

T
x ;
b). lindpendance des e
i
;
c). la linarit de la fonction de rgression M(x) = E(Y(x)) ;
d). la normalit des variables alatoires e
i
(si lon construit les intervalles de conance
ou vrie des hypothses).
Considrons des mthodes non formels de vrication des suppositions du modle.
Dans le cas du modle de rgression linaire simple des nuages des points (x
i
,Y
i
)
peuvent tre considrs. Si ces points sont disperss autour dune certaine courbe, qui nest
pas une droite, on peut supposer que le modle nest pas bien choisi.
Dans le cas m > 1 des rsidus e
i
peuvent tre considrs. Notons que
e = HY, E( e) = 0, Var( e) =
2
H,
263
o
H = I
n
X(X
T
X)
1
X
T
= (h
i j
),
et donc
Var
_
e
i

h
ii
_
= 1.
La variance est estime par

2
= MS
R
=

n
i=1
(Y
i

Y
i
)
2
(nm+1)
.
Notons
e
i
=
e
i

MS
R
h
ii
.
On a E( e
i
) 0, Var( e
i
) 1. Les variables alatoires e
i
sont appeles les rsidus stan-
dardiss.
Si on considre le plan avec laxe des abscisses Y et laxe des ordonnes e, les points
(

Y
i
, e
i
), (i = 1, ..., n), sont disperss autour de la droite horizontale avec laxe de symmetrie
e =0. Si les variances des e
i
ne sont pas gales, on dit quon a heterodescasit. Si le modle
pour M(x) est bien choisi mais il y a heterodescasit, alors les points (

Y
i
, e
i
), sont disperss
aussi autour de la droite e = 0, mais la largeur de la bande nest pas constante. Par exemple,
si la variance augmente avec augmentation de

Y
i
, alors la bande slargisse.
Si les points (

Y
i
, e
i
) sont disperss autour dune autre courbe diffrente de e = 0, le
modle pour M(x) nest pas bien choisi.
Au lieu des points (

Y
i
, e
i
) on peut considrer les points (x
i j
, e
i
), (i = 1, ..., n) pour j x.
Si le modle est bien choisi, ces points doivent tre dans la bande horizontale avec laxe
de symmetrie e = 0. Sinon on peut supposer que la j-me covariable ninuence pas M(x)
linairement ou il faut inclure plus de covariables dans le modle.
Par exemple, si le vrai modle est
Y
i
=
0
+
1
x
i
+
2
x
2
i
+e
i
mais on a choisi le modle
Y
/
i
=
/
0
+
/
1
x
i
+e
/
i
,
alors
e
i
=Y
i

Y
/
i
=
0

/
0
+(
1

/
1
)x
i
+
2
x
2
i
+e
i
et donc les points (x
i
, e
i
) seront disperss autour dune parabole.
Si le vrai modle est
Y
i
=
0
+
1
x
i1
+
2
x
i2
+e
i
mais on a choisi
Y
/
i
=
/
0
+
/
1
x
i1
+e
/
i
,
alors
e
i
=
0

/
0
+(
1

/
1
)x
i1
+
2
x
i2
+e
i
et les points (x
i1
, e
i
), (i = 1, ..., n) (ainsi que les points (x
i2
, e
i
), (i = 1, ..., n) ) ne seront pas
disperss autour de la ligne horizontale e = 0.
Si les plots des rsidus indiquent que le modle est mal choisi, il suft souvent de faire
des transformations simples des x
i
et Y
i
pour obtenir le bon modle.
264
Par exemple, si Y
i
LN(
0
+
1
lnx
i
,
2
), alors lnY
i
=
0
+
1
lnx
i
+e
i
, o e
i
N(0,
2
).
Si on fait des transformations Y
/
i
= lnY
i
, x
/
i
= lnx
i
, alors on a le modle linaire simple
Y
/
i
=
0
+
1
x
/
i
+e
i
. Notons que dans ce cas les variances
Var(Y
i
) = x
2
1
i
e

2
+2
0
(e

2
1)
ne sont pas constants, mais les variances Var(lnY
i
) =
2
sont constantes.
Considrons plusieurs exemples des transformations pour les modles de rgression
une covariable. Notons y = M(x). On a
1. si y = x

, alors y
/
= lny, x
/
= lnx et y
/
= ln+x
/
;
2. si y = e
x
, alors y
/
= lny et y
/
= ln+x ;
3. si y =
x
x
, alors y
/
= 1/y, x
/
= 1/x et y
/
= x
/
;
4. si y = +lnx, alors x
/
= lnx et y = +x
/
;
5. si y = e
+x
/(1+e
+x
), alors y
/
= ln
y
1y
et y
/
= +x.
Si Y compte le nombre de certains vnements, la transformation Y
/
=

Y stabilise
souvent la variance.
Considrons les mthodes non formels de vrication de la normalit des rsidus. Si
e
i
N(0,
2
), alors e = HY N(0,
2
H) et e
i
N(0, 1). Souvent les correlations entre e
i
sont petites et on considre e
1
, ..., e
n
comme i.i.d. N(0, 1).
Pour tester la normalit grossirement on peut faire lhystogramme des e
i
. On peut aussi
faire des plots suivants :
soient e
(1)
... e
(n)
les statistiques dordre de e
1
, ..., e
n
. Si Z
( j)
est la j-me statistique
dordre de la loi N(0, 1), ( j = 1, ..., n), alors notons m
( j)
= E(Z
(i j)
). Les esprances m
( j)
ne dpendent pas des paramtres inconnus. Si e
(i)
sont des statistiques dordre de la loi
N(0, 1), alors les points ( e
(i)
, m
(i)
) doivent tre disperss autour de la droite e = m dans le
plan (0em).
On peut utiliser une autre mthode : mettre sur le plan (0eq) les points ( e
(i)
, q
(i)
), o
q
(i)
=
1
_
i1/2
n
_
sont des
_
i1/2
n
_
-quantiles de la loi N(0, 1). Alors ces points doivent
tre disperss autour de la droite e = q.
Indpendance des variables alatoires e
i
peut tre vrie en utilisant le test de Durbin-
Watson.
Considrons la statistique
r
1
=

n
i=2
( e
i1

e)( e
i

e)

n
i=1
( e
i

e)
2
=

n
i=2
e
i1
e
i

n
i=1
e
2
i
,
appele la premire autocorrelation des ( e
1
, e
2
), ( e
2
, e
3
), ... , ( e
n1
, e
n
) ; ici

e =
n
i=1
e
i
. Elle
est trs proche au coefcient de correlation empirique linaire de ces pairs. Alors la statis-
tique
d =

n
i=2
( e
i
e
i1
)
2

n
i=1
e
2
i
2(1r
1
)
est appele la statistique de Durbin-Watson. r
1
est proche zro, si les variables alatoires
e
i
sont indpendantes. Alors la statistique d est proche 2 dans ce cas. La loi de d ne dpend
pas des paramtres inconnus et les valeurs critiques d
i
et d
s
de d sont tabules. On rejette
lhypothse dindpendance, si d < d
i
ou d > d
s
.
265
Mme si le modle est bien choisi, lestimation peut tre mauvaise, si parmi les points
(x
i
,Y
i
) il y a des valeurs aberrantes, i.e. les points avec grands rsidus e
i
= Y
i

Y
i
. La va-
leur aberrante est inuente si son retrait change beaucoup la valeur de lestimateur de .
Linuence de (x
i
,Y
i
) peut tre mesure laide de la distance de Cook. Pour calculer cette
distance, on calcule la valeur prdite ajuste

Y
ia
qui est dtermine comme

Y
i
, utilisant
seulement les points
(x
1
,Y
1
), ..., (x
i1
,Y
i1
), (x
i+1
,Y
i+1
), ..., (x
n
,Y
n
).
La distance de Cook est dtemine par la formule suivante :
C
2
i
=

n
i=1
(

Y
ia

Y
i
)
2
(m+1)MS
R
.
La rgle pratique : si C
2
i
> 1, le point est inuent.
5.2 Annexe
Soit X = (X
1
, ..., X
n
) un chantillon, X
i
N(0, 1). On considre la forme linaire b
T
X,
b = (b
1
, ..., b
n
)
T
et les formes quadratiques X
T
AX, X
T
BX, o A et B sont des matrices sy-
mtriques.
Lemme .
a) Si b
T
A = 0, alors X
T
AX et b
T
X sont indpendantes ;
b) Si AB = 0, alors les formes quadratiques X
T
AX et X
T
BX sont indpendantes.
Dmonstration. a). On suppose que rang(A) =r. Comme A est une matrice symtrique,
on peut crire sa dcomposition spectrale :
A =
r

i=1

i
h
i
h
T
i
, (28)
o
i
, ...,
r
et h
1
, ..., h
r
sont les valeurs propres positives et les vecteurs propres, respecti-
vement, de la matrice A, h
T
i
h
j
= 0 (i ,= j), h
T
i
h
i
= 1. On a
X
T
AX =
r

i=1

i
(h
T
i
X)
2
= (
_

1
h
T
1
X, ...,
_

r
h
T
r
X)(
_

1
h
T
1
X, ...,
_

r
h
T
r
X)
T
.
Lgalit b
T
X = 0 implique
Cov(b
T
X, h
T
i
X) = b
T
Var(X)h
i
= b
T
h
i
=
1
i
b
T
Ah
i
= 0,
b
T
X et h
T
i
X sont des variables alatoires normales et non-corrles, donc indpendantes. Il
sensuit que les variables alatoires X
T
AX et b
T
X sont indpendantes.
266
b) On crit la dcomposition spectrale des matrices A et B :
A =
r

i=1

i
h
i
h
T
i
, B =
p

j=1

j
l
j
l
T
j
.
On a
X
T
AX =
r

i=1

i
(h
T
i
X)
2
, X
T
BX =
p

j=1

j
(b
2
j
X)
2
, Cov(h
T
i
X, l
T
j
X) = h
T
i
l
j
= 0,
donc h
T
i
X et l
T
j
X et par consquent X
T
AX et X
T
BX sont indpendantes. Le lemme est d-
montr.
Lemme . Soit A une matrice idempotente, i.e. A
2
= A, telle que rang(A) = r n. Alors
r = TrA et X
T
AX
2
(r).
Dmonstration. On crit la dcomposition spectrale (28). A est idempotente, donc
1
=
... =
r
= 1 et
X
T
AX =
r

1
(h
T
i
X)
2
. (29)
Les vecteurs propres h
i
et h
j
sont orthogonaux,
Cov(h
T
i
X, h
T
j
X) = h
T
i
h
j
= 0
et donc les variables alatoires h
i
X et h
j
X sont indpendantes. On a
E(h
T
i
X) = h
T
i
E(X) = 0, Var(h
T
i
X) = h
T
i
h
i
= 1,
donc h
T
i
X N(0, 1) et daprs le lemme X
T
AX
2
r
. Le lemme est dmontr.
Thorme. Si X N(, ), det () ,= 0, alors
(X )
T

1
(X )
2
(n).
Dmonstration. La matrice est symtrique, det () ,= 0. Donc il existe une matrice
orthogonale H telle que H
T
H =D soit diagonale. De plus, les lments de cette diagonals

1
, ...,
n
sont positifs. Considrons le vecteur
Y = D
1/2
H
T
(X ).
On a
Var(Y) = D
1/2
H
T
HD
1/2
= I
n
,
donc
(X )
T

1
(X ) =Y
T
D
1/2
H
T

1
HD
1/2
Y =Y
T
Y
2
n
.
Le thorme est dmontr.
Thorme. Soit X = (X
1
, ..., X
n
) un chantillon, X
i
N(,
2
). Alors les moments em-
piriques

X =
1
n
n

i=1
X
i
et S
2
X
=
1
n
n

i=1
(X
i


X)
2
267
sont indpendants et

n(

X )/ N(0, 1), nS
2
X
/
2

2
(n1).
Dmonstration. Notons Y
i
= (X
i
)/ N(0, 1), Y = (Y
1
, ...,Y
n
)
T
,

Y = (

X )/,
S
2
Y
= S
2
X
/
2
.
Il suft de dmontrer que les variables alatoires

Y et S
2
Y
sont indpendantes.
Considrons le vecteur b = (1/n, ..., 1/n)
T
et la matriceB = (1/n)
nn
. On a

Y = b
T
Y, nS
2
Y
= (Y BY)
T
(Y BY) =Y
T
(I
n
B)
2
Y.
La matrice I
n
B est idempotente :
(I
n
B)
2
= I
n
2B+B
2
= I
n
B
et
b
T
(I
n
B) = b
T
b
T
B = b
T
b
T
= 0.
Daprs le lemme, les variables alatoires

Y et S
2
Y
sont indpendantes. On a
Tr(I
n
B) = TrI
n
TrB = n1.
Daprs le lemme nS
2
Y

2
(n1). Le thorme est dmontr.
Exemple 1. Soient X = (X
1
, . . . , X
n
1
)
T
et Y = (Y
1
, . . . ,Y
n
2
)
T
deux chantillons indpen-
dents, X
i
N(
1
,
2
1
), Y
i
N(
2
,
2
2
). Construire le test de rapport de vraisemblance pour
tester lhypothse H
0
:
2
1
=
2
2
=
2
.
Solution. Notons que (
1
,
2
,
2
1
,
2
2
) = RRR
+
R
+
et (
1
,
2
,
2
)
0
=
RRR
+
.
La fonction de vraisemblance pour (
1
,
2
,
2
1
,
2
2
) est
L(
1
,
2
,
2
1
,
2
2
) =
1
(2
2
1
)
n
1
/2
1
(2
2
2
)
n
2
/2
exp
_

1
2
2
1
n
1

i=1
(X
i

1
)
2

1
2
2
2
n
2

i=1
(Y
i

2
)
2
_
.
Le logarithm de la fonction de vraisemblance est
lnL(
1
,
2
,
2
1
,
2
2
) =
n
1
2
(ln(2) +ln
2
1
)
n
2
2
(ln(2) +ln
2
2
)

2
1
n
1

i=1
(X
i

1
)
2

2
2
n
2

i=1
(Y
i

2
)
2
.
Les estimateurs de maximum de vraisemblance vrient le systme des quations
L

1
=
1

2
1
n
1

i=1
(X
i

1
) = 0,
L

2
=
1

2
2
n
2

i=1
(Y
i

2
) = 0,
268
L

2
1
=
n
1
2
2
1
+
1
2
4
1
n
1

i=1
(X
i

1
)
2
= 0,
L

2
2
=
n
2
2
2
2
+
1
2
4
2
n
2

i=1
(Y
i

2
)
2
= 0.
Donc
1
=

X =
1
n
1
n
1

i=1
X
i
,
2
=

Y =
1
n
2
n
2

i=1
Y
i
,
2
1
=s
2
1
=
1
n
1
n
1

i=1
(X
i


X)
2
,
2
2
=s
2
2
=
1
n
2
n
2

i=1
(Y
i

Y)
2
.
Notons n = n
1
+n
2
. Sous H
0
la fonction de vraisemblance pour (
1
,
2
,
2
) est
L
1
(
1
,
2
,
2
) =
1
(2
2
)
n/2
exp
_

1
2
2
_
n
1

i=1
(X
i

1
)
2
+
n
2

i=1
(Y
i

2
)
2
__
.
Le logarithm de la fonction de vraisemblance est
lnL
1
(
1
,
2
,
2
) =
n
2
(ln(2) +ln
2
)
1

2
_
n
1

i=1
(X
i

1
)
2
+
n
2

i=1
(Y
i

2
)
2
_
.
Les estimateurs de maximum de vraisemblance vrient le systme des quations
L
1

1
=
1

2
n
1

i=1
(X
i

1
) = 0,
L
1

2
=
1

2
n
2

i=1
(Y
i

2
) = 0,
L

2
=
n
2
2
+
1
2
4
_
n
1

i=1
(X
i

1
)
2
+
n
2

i=1
(Y
i

2
)
2
_
= 0.
Donc
1
=

X,
2
=

Y,
2
=
1
n
(n
1
s
2
1
+n
2
s
2
2
). Les maximums des fonctions L et L
1
sont

L = L(
1
,
2
,
2
1
,
2
2
) =
1
(2)
n/2
s
n
1
1
s
n
2
2
e
n/2
et

L
1
= L
1
(
1
,
2
,
2
) =
1
(2)
n/2
(
n
1
n
s
2
1
+
n
2
n
s
2
2
)
n/2
e
n/2
.
La rgion critique pour H
0
est dni par lingalit
2ln
_

L
1

L
_
>C.
On a

L
1

L
=
s
n
1
/2
1
s
n
2
/2
2
(
n
1
n
s
2
1
+
n
2
n
s
2
2
)
n/2
=
_
n
1
n
+
n
2
n
s
2
2
s
2
1
_
n
1
/2
_
n
1
n
s
2
1
s
2
2
+
n
2
n
_
n
2
/2
.
269
Donc la rgion critique est dni par lingalit
n
1
ln
_
n
1
n
+
n
2
n
s
2
2
s
2
1
_
+n
2
ln
_
n
1
n
s
2
1
s
2
2
+
n
2
n
_
>C.
Posons x = s
2
2
/s
2
1
et tudions la fonction
g(x) = n
1
ln
_
n
1
n
+
n
2
n
x
_
n
2
ln
_
n
1
nx
+
n
2
n
_
.
Sa drive est
g
/
(x) = n
1
n
2
n
2
x
2
+(n
1
n
2
)x n
1
(n
1
+n
2
x)(n
1
x +n
2
x
2
)
.
Les racines de lquation quadratique
n
2
x
2
+(n
1
n
2
)x n
1
= 0
sont x
1
= 1 et x
2
=
n
1
n
2
. Donc g
/
(x) < 0 si x ]0, 1[, g
/
(x) > 0 si x ]1, +[. La fonction g
est dcroissante sur lintervalle ]0, 1[, croissante sur ]1, +[ et le minimum est atteint dans
le point 1. Lingalit g(x) > C est vrie si et seulement si x < c
1
ou x > c
2
. Donc la
rgion critique pour H
0
est dtermine par les galits
s
2
2
s
2
1
< c
1
ou
s
2
2
s
2
1
> c
2
.
Fixons le niveau de signication . Les constantes c
1
et c
2
sont trouves de lgalits
P
s
2
2
s
2
1
< c
1
[ H
0
= /2, P
s
2
2
s
2
1
> c
2
[ H
0
= /2.
Donc c
1
= f
/2
(n
2
1, n
1
1) et c
2
= f
1/2
(n
2
1, n
1
1) sont des quantiles de la rpar-
tition de Fisher de n
2
1 et n
1
1 dgrs de libert.
Exemple 2. Soit Z = (Z
1
, . . . , Z
n
)
T
un chantillon de la loi normale bivari, i.e.
Z
i
= (X
i
,Y
i
)
T
f
X
i
,Y
i
(x, y),
o la densit
f
X
i
,Y
i
(x, y) =
1
2
1

2
_
1
2
exp
_

1
2(1
2
)
_
(x a
1
)
2

2
1

2(x a
1
)(y a
2
)

2
+
(y a
2
)
2

2
2
__
pour tout (x, y) R
2
.
Construire le test de rapport de vraisemblance pour tester lhypothse H
0
: = 0 qui est
equivalente lhypothse que les variables alatoires x
I
et Y
i
sont indpendantes.
Notons que (
1
,
2
,
2
1
,
2
2
, ) = RRR
+
R
+
[1, 1] et
(
1
,
2
,
2
)
0
= RRR
+

.
270
La fonction de vraisemblance pour (
1
,
2
,
2
1
,
2
2
, ) est
L(
1
,
2
,
2
1
,
2
2
, )
_
1
2
1

2
_
1
2
_
n
exp
_

1
2(1
2
)
n

i=1
_
(X
i
a
1
)
2

2
1

2(X
i
a
1
)(Y
i
a
2
)

2
+
(Y
i
a
2
)
2

2
2
_
_
,
lnL =nln(2)
n
2
ln
2
1

n
2
ln
2
2

n
2
ln(1
2
)

1
2(1
2
)
n

i=1
_
(X
i
a
1
)
2

2
1

2(X
i
a
1
)(Y
i
a
2
)

2
+
(Y
i
a
2
)
2

2
2
_
,
donc
L
a
1
=
1
2(1
2
)
n

i=1
_

2(X
i
a
1
)

2
1
+
2(Y
i
a
2
)

2
_
= 0,
L
a
2
=
1
2(1
2
)
n

i=1
_

2(Y
i
a
2
)

2
2
+
2(X
i
a
1
)

2
_
= 0.
Ces quations impliquent
n

i=1
(Y
i
a
2
) =
n

i=1
(X
i
a
1
)

2

,
n

i=1
(Y
i
a
2
) =
n

i=1
(X
i
a
1
)

1
,
donc
n

i=1
(X
i
a
1
)
_

2

1
_
= 0,
qui implique a
1
=

X, a
2
=

Y.
En drivant par rapport
2
i
, on a
L

2
1
=
n
2
2
1
+
1
2(1
2
)
n

i=1
_
(X
i
a
1
)
2

4
1

(X
i
a
1
)(Y
i
a
2
)

3
1
_
= 0,
L

2
2
=
n
2
2
2
+
1
2(1
2
)
n

i=1
_
(Y
i
a
2
)
2

4
2

(X
i
a
1
)(Y
i
a
2
)

3
2
_
= 0.
Notons
r =
n

i=1
(X
i


X)(Y
i

Y)
s
1
s
2
le coefcient empirique de correlation. Alors les dernires equations on scrivent (on rem-
place a
i
par a
i
) :
(1
2
)
s
2
1

2
1
+r
s
1
s
2

2
= 0,
(1
2
)
s
2
2

2
2
+r
s
1
s
2

2
= 0,
271
qui impliquent s
1
/
1
= s
2
/
2
= (1
2
)/(1r). La dernire driv est
L

=
n
1
2


(1
2
)
2
n

i=1
_
(X
i
a
1
)
2

2
1

2(X
i
a
1
)(Y
i
a
2
)

2
+
(Y
i
a
2
)
2

2
2
_
+
1
1
2
n

i=1
(X
i
a
1
)(Y
i
a
2
)

2
= 0,
donc


1
2
_
s
2
1

2
1
2r
s
1

1
s
2

2
+
s
2
2

2
2
_
+r
s
1

1
s
2

2
= 0.
Remplaant s
2
i
/
2
i
par (1
2
)/(1r) dans la dernire quation, on a =r. Donc s
2
i
/
2
i
=
1, qui donne
2
i
= s
2
i
.
Nous avons obtenu les estimateurs a
1
=

X, a
2
=

Y,
2
i
= s
2
i
, = r.
Sous H
0
les estimateurs sont obtenus dans le problme 1.
Les maximums des fonctions L et L
1
sont

L = L( a
1
, a
2
,
2
1
,
2
2
, ) =
1
(2)
n
s
n
1
s
n
2
(1r
2
)
n/2
e
n
,

L
1
= L
1
( a
1
, a
2
,
2
1
,
2
2
) =
1
(2)
n
s
n
1
s
n
2
e
n
La rgion critique est L
1
/L < c, qui est equivalent r
2
>C.
On peut rmarquer, que dans la rgression logistique simple : Y
i
=
0
+
1
X
i
les estima-
teurs de coefcients sont

1
= r
s
2
s
1
,

0
=

Y

1

X.
Sous lhypothse H :
1
= 0 la v.a.
F =
SS
E
SS
R
/(n2)
suit la loi de Fisher de 1 et ne2 degrs de libert. Notons que
SS
E
=
n

i=1
(

Y
i

Y)
2
,
o

Y
i
=

0
+

1
X
i
=

Y +r
s
2
s
1
(X
i


X), donc
SS
E
= nr
2
s
2
2
, SS
R
= SS
T
SS
E
=
n

i=1
(Y
i

Y)
2
nr
2
s
2
2
= ns
2
2
(1r
2
),
et
F =
r
2
(n2)
1r
2
.
On a r
2
>C si et seulement si F >C
1
. On rejette H
0
si F > F
1
(1, n 2). Le niveau de
signication est .
Exercice 1. Il est donn que entre x et y(x), deux variables en tude, il y a une dpen-
dance polynomiale
y(x) = a
0
+a
1
x +...a
m
x
m
. (30)
272
On suppose que les a
i
et m sont inconnus et que pour tout x
i
la quantit y
i
= y(x
i
) est
mesure avec une erreur e
i
. On observe donc
Y
i
= y
i
+e
i
, i = 1, ..., n. (31)
On suppose aussi que le nombre de mesures n > m, e = (e
1
, ..., e
n
)
T
est un chantillon
normale, cest--dire e
i
N
1
(0,
2
) et donc e N
n
(0,
2
I
n
).
Dans lexpriance on a recu pour
x
i
= h(i 1), i = 1, ..., 30, i.e. x
i
x
i1
= x
i+1
x
i
= h = 0.1.
les 30 observations suivantes :
Y
1
= 1.911 Y
11
= 1.001 Y
21
=1.756
Y
2
= 1.970 Y
12
= 0.7129 Y
22
=1.926
Y
3
= 2.022 Y
13
= 0.4502 Y
23
=2.001
Y
4
= 1.990 Y
14
= 0.1543 Y
24
=1.974
Y
5
= 1.952 Y
15
=0.1462 Y
25
=1.875
Y
6
= 1.881 Y
16
=0.4793 Y
26
=1.620
Y
7
= 1.765 Y
17
=0.7702 Y
27
=1.256
Y
8
= 1.636 Y
18
=1.080 Y
28
=0.7477
Y
9
= 1.448 Y
19
=1.342 Y
29
=0.0425
Y
10
= 1.227 Y
20
=1.578 Y
30
= 0.852
On suppose quil y a seulement 0 ou 1 observation abberante et que m 6.
1. Eliminer lobservation abberante si elle existe parmi les Y
j
.
2. Estimer la degr du polynme dans le modle et construire les estimateurs pour a
j
et

2
par la mthode des moindres carres.
3. Construire la zone de conance pour y(x).
Exercice 2. Soit A = |a
i j
|
nn
= A
n
, det A ,= 0. Notons x = (x
1
, ..., x
n
)
T
un vecteur
arbitraire de R
n
. Montrer que pour tout k R
1
det (A+kxx
T
)
det A
= 1+kx
T
A
1
x.
Exercice 3. Soit A une matrice nondgnre, A = |a
i j
|
nn
, X = |x
i j
|
np
, k R
1
,
telles que
I
p
+kX
T
A
1
X
est nondgnre. Montrer que
(A+kXX
T
)
1
= A
1
kA
1
X(I
p
+kX
T
A
1
X)
1
X
T
A
1
.
Exercice 4. Montrer que
Tr(A
n
+B
n
) = Tr(A
n
) +Tr(B
n
) et Tr(A
n
B
n
) = Tr(B
n
A
n
),
o B
n
=|b
i j
|
nn
et Tr(A
n
) =
n
i=1
a
ii
.
Exercice 5. Montrer que
det (A
n
B
n
) = det A
n
det B
n
.
273
Exercice 6. Soit A une matrice symmtrique,
1

2
...
n
- les valeurs propres
de A
n
.
Montrer que
TrA
n
=
n

i=1

i
, det A
n
=
n

i=1

i
.
5.3 Rgression logistique
On suppose que lon observe un vnement A et que la probabilit de cet vnement
dpend de la valeur dun vecteur de variables explicatives (covariables) x
1
, ..., x
m
. Notons
x = (x
0
, x
1
, ..., x
m
)
T
, x
0
= 1,
(x) = PA[x
et considrons la variable alatoire Y qui prend deux valeurs : 0 et 1 et telle que
PY = 1[x = (x).
On effectue n expriences indpendantes. La i-me exprience est observe sous la cova-
riable x
(i)
= (x
i0
, ..., x
im
)
T
, x
i0
= 1. On xe les valeurs des variables alatoires Y
i
: Y
i
= 1,
si un vnement A se produit pendant la i-me exprience et Y
i
= 0 sinon. Donc on a un
chantillon
(Y
1
, x
(1)
), ..., (Y
n
, x
(n)
).
Les variables alatoires Y
i
suivent la loi de Bernoulli : Y
i
[x
(i)
Bi(1, (x
(i)
)).
Le but est destimer la probabilit (x) pour tous les x E, o E est un ensemble de
covariables. Si x ,= x
(i)
et la forme de (x) est compltement inconnue, lestimation de (x)
sera impossible.
On peut considrer le modle linaire
(x) =
0
+
1
x
1
+... +
m
x
m
, (1)
mais aprs estimation des paramtres = (
0
, ...,
m
) on peut obtenir un estimateur de
(x) qui nappartienne pas lintervalle [0, 1]. En rgle gnrale la loi des estimateurs de
maximum de vraisemblance des paramtres inconnus approche la loi normale quand n est
grand, mais la vitesse de convergence vers la loi normale est plus grande quand la rgion
des valeurs du paramtre est R. Cest le deuxime argument dfavorable lutilisation du
modle (1). Toutes ces restrictions peuvent tre limines en considrant le modle
g(x) = ln
(x)
1(x)
=
0
+
1
x
1
+... +
m
x
m
=
T
x. (2)
Alors
(x) =
e

0
+
1
x
1
+...+
m
x
m
1+e

0
+
1
x
1
+...+
m
x
m
=
e

T
x
1+e

T
x
.
274
Le domaine de variation de la fonction-logit g(x) est R et pour nimporte quelle valeur de
la fonction (x) prend ses valeurs dans ]0, 1[. Donc on a
Le modle de rgression logistique :
Y
i
B(1, (x
(i)
)), o ln
(x)
1(x)
=
0
+
1
x
1
+... +
m
x
m
et Y
1
, ...,Y
n
sont des variables alatoires indpendantes.
Si la j-me variable explicative x
j
est dicrte avec une chelle nominale, par exemple,
la couleur, lethnie, etc., et prend k
j
valeurs diffrentes, on peut utiliser au lieu de x
j
le
vecteur (z
j,1
, ..., z
j,k
j
1
) des codes qui prend k
j
valeurs diffrentes : (0, ..., 0), (1, 0, ..., 0),
(0, 1, 0, ..., 0),....,(0, ...., 0, 1) et le modle (2) est modi :
g(x) =
0
+
1
x
1
+... +
k
j
1

i=1

ji
z
ji
+... +
m
x
m
. (3)
Si, par exemple, x
j
est la couleur qui prend 3 valeurs (noir, bleu, blanc), alors on considre
le vecteur (z
j1
, z
j2
) qui prend les valeurs (0,0)- (noir), (1,0)- (bleu), (0,1)- (blanc). Si x
j
est
le sexe (masculin, fminin), alors on considre la variable code z
j1
qui prend les valeurs 0
(masculin) et 1 (fminin). Parfois le codage est diffrent : (-1,...,-1), (1,0,...,0),...,(0,0,...,1),
etc.
Notons que si on prend deux valeurs x
(1)
j
et x
(2)
j
de x
j
dans (2), alors
g(x
1
, ..., x
(2)
j
, ..., x
m
) g(x
1
, ..., x
(1)
j
, ..., x
m
) =
j
(x
(2)
j
x
(1)
j
)
et donc

(2)
j
/(1
(2)
j
)

(1)
j
/(1
(1)
j
)
=
(x
1
, ..., x
(2)
j
, ..., x
m
)/(1(x
1
, ..., x
(2)
j
, ..., x
m
)
(x
1
, ..., x
(1)
j
, ..., x
m
)/(1(x
1
, ..., x
(1)
j
, ..., x
m
))
= e

j
(x
(2)
j
x
(1)
j
)
. (4)
Le rapport des cotes est donc gal e

j
(x
(2)
j
x
(1)
j
)
et si x
(2)
j
x
(1)
j
= 1, alors il vaut e

j
. La
cote est le rapport des probabilits de succs et dchec pour lvnement A. Le rapport des
cotes montre comment varie la cote quand x
j
passe de x
(1)
j
x
(2)
j
, toutes les autres cova-
riables restant les mmes. Si les probabilits
(i)
j
sont petites, alors le rapport des cotes est
proche
(2)
j
/
(1)
j
, i.e. au risque relatif. Dans ce cas e

j
(x
(2)
j
x
(1)
j
)
montre comment change
la probabilit de succs quand x
j
change sa valeur de x
(1)
j
x
(2)
j
et toutes les autres cova-
riables ne changent pas. Il faut souligner que dans le modle (2) le rapport des cotes est le
mme pour nimporte quelles valeurs xes des autres covariables x
l
(l ,= j), i.e. il ny a
pas dinteractions.
Si x
j
est discrte avec une chelle nominale et (z
(i)
j1
, ..., z
(i)
j,k
j
1
) = (0, ..., 1, ..., 0), o 1
est dans la i-me place, (z
(0)
j1
, ..., z
(0)
j,k
j
1
) = (0, ..., 0), alors
g(x
1
, ..., z
(i)
j1
, ..., z
(i)
j,k
j
1
, ..., x
m
) g(x
1
, ..., z
(0)
j1
, ..., z
(0)
j,k
j
1
, ..., x
m
) =
ji
et alors

(i)
j
/(1
(i)
j
)

(0)
j
/(1
(0)
j
)
= e

ji
, (5)
275
o
(l)
j
= (x
1
, ..., z
(l)
j1
, ..., z
(l)
j,k
j
1
, ..., x
m
) (l = 0, i).
e

ji
est le rapport des cotes qui correspond au changement de valeur de la variable x
j
de
la premire la (i +1)-me quand toutes les autres variables restent xes . Par exemple, si
x
j
est la couleur (noire, blanche, bleue), e

j2
exprime le rapport des cotes qui correspond au
changement de x
j
de la couleur noire la couleur blanche (i = 1).
Si leffet de changement de la valeur de la covariable x
j
est diffrent pour des valeurs
diffrentes des autres covariables, on a une interaction entre x
j
et ces covariables. Alors le
modle (2) peut tre modi pour tenir compte de leffet dinteraction. Par exemple, dans
le cas de deux covariables on a le modle
g(x) =
0
+
1
x
1
+
2
x
2
+
3
x
1
x
2
,
dans le cas de trois covariables
g(x) =
0
+
1
x
1
+
2
x
2
+
3
x
3
+
4
x
1
x
2
+
5
x
1
x
3
+
6
x
2
x
3
+
7
x
1
x
2
x
3
. (6)
Sil y a interaction, alors, par exemple (m = 2),
g(x
(2)
1
, x
2
) g(x
(1)
1
, x
2
) = (
1
+
3
x
2
)(x
(2)
1
x
(1)
1
)
et
e
(
1
+
3
x
2
)(x
(2)
1
x
(1)
1
)
=
(x
(2)
1
, x
2
)/(1(x
(2)
1
, x
2
))
(x
(1)
1
, x
2
)/(1(x
(1)
1
, x
2
))
, (7)
donc le rapport des cotes dpend non seulement de la diffrence x
(2)
1
x
(1)
1
mais aussi de la
valeur de la deuxime covariable x
2
.
5.3.1 Estimation
On a un chantillon (Y
1
, x
(1)
), ..., (Y
n
, x
(n)
), o x
(i)
= (x
i0
, ..., x
im
)
T
, x
i0
= 1. La variable
alatoire Y
i
suit la loi de Bernoulli :
Y
i
[x
(i)
B(1, (x
(i)
)).
La fonction de vraisemblance
L() =
n

i=1
[(x
(i)
)]
Y
i
[1(x
(i)
)]
1Y
i
et
lnL() =
n

i=1
Y
i
ln(x
(i)
) +(1Y
i
)ln(1(x
(i)
)) =
n

i=1
Y
i
ln
(x
(i)
)
1(x
(i)
)
+ln(1(x
(i)
)) =
n

i=1
Y
i
(
0
+
1
x
i1
+... +
m
x
im
) ln(1+e

0
+
1
x
i1
+...+
m
x
im
).
276
Les fonctions score
U
l
() =
lnL()

l
=
n

i=1
x
il
[Y
i
(x
(i)
)] (l = 0, ..., m).
Notons

lestimateur du maximum de vraisemblance. Il vrie le systme dquations
U
l
() = 0 (l = 0, ..., m). Alors la probabilit de lvnement A sous la covariable x =
(1, x
1
, ..., x
m
)
T
est estime par
(x) =
e

T
x
1+e

T
x
.
Quelles sont les notions analogues aux notions de coefcient de dtermination R
2
, de
sommes des carrs : totale SS
T
, de rgression SS
R
, derreur SS
E
, considres dans le chapitre
rgression linaire ?
Notons

Y
i
= (x
(i)
) =
e

x
(i)
1+e

T
x
(i)
les valeurs prdites des (x
(i)
). Dans le cas de la rgression linaire

Y
i
=

T
x
(i)
. La prdic-
tion est bonne si les valeurs observes Y
i
et les valeurs prdites

Y
i
sont proches. Dans le cas
de la rgression linaire la diffrence entre Y
i
et

Y
i
tait dtermin par SS
R
= (Y
i


Y
i
)
2
.
Dans le cas normal SS
R
/
2
suit la loi du chi-deux nm1 degrs de libert..
Si la fonction (x) est compltement inconnue et si
PY
i
= 1[x
(i)
= (x
(i)
) = p
i
,
on estime n paramtres inconnus p
1
, ..., p
n
. On a le modle satur, parce que le nombre des
paramtres estimer est le mme que la taille de lchantillon.
La fonction de vraisemblance
L
0
(p) = L
0
(p
1
, ..., p
n
) =
n

i=1
p
Y
i
i
(1p
i
)
1Y
i
est maximise au point p = ( p
1
, ..., p
n
), o p
i
=Y
i
, donc
L
0
( p) =
n

i=1
Y
Y
i
i
(1Y
i
)
1Y
i
= 1.
On suppose 0
0
= 1. Si on considre le modle (2) avec m+1 < n, on a (m+1) paramtres
inconnus
0
, ...,
m
. Le maximum de la fonction de vraisemblance
L() =
n

i=1
(x
(i)
)
Y
i
(1(x
(i)
))
1Y
i
est
L(

) =
n

i=1

Y
Y
i
i
(1

Y
i
)
1Y
i
L
0
( p).
277
Si

Y
i
et Y
i
sont proches, i.e. la prdiction est bonne, alors L
0
( p) et L(

) sont proches,
donc le rapport des vraisemblances L(

)/L
0
( p) est proche de 1 et
D
R
=2ln
L(

)
L
0
( p)
=2lnL(

)
est proche de zero. Si n est grand et le modle de rgression logistique est vri, la loi de
D
R
est approche par la loi du chi-deux n m1 degrs de libert. Donc un quivalent
de la somme des carrs de rgression SS
R
dans la rgression logistique est D
R
.
Le nombre minimal de paramtres estimer est gal 1. On est dans ce cas, si

1
= ... =
m
= 0 et (x
(i)
) =
e

0
1+e

0
= = const.
Alors la fonction de vraisemblance
L
1
() =
n

i=1

Y
i
(1)
1Y
i
est maximise au point =

Y =
1
n
Y
i
et
L
1
( ) =
n

i=1

Y
Y
i
(1

Y)
1Y
i
L(

) L
0
( p).
La loi de la variable alatoire
D
T
=2ln
L
1
( )
L
0
( p)
=2lnL
1
( )
est proche de la loi du chi-deux n1 degrs de libert. Donc un quivalent de la somme
totale des carrs SS
T
dans la rgression logistique est D
T
.
La loi de la variable alatoire
D
E
=2ln
L
1
( )
L(

)
=
2[
n

i=1
Y
i
ln

Y
i
+
n

i=1
(1Y
i
)ln(1

Y
i
)
n

i=1
Y
i
ln

Y (n
n

i=1
Y
i
)ln(1

Y)]
est proche de la loi du chi-deux m degrs de libert si
1
= ... =
m
= 0 et n est grand. La
variable alatoire D
E
est un quivalent de la somme des carrs derreur SS
E
. On a
D
T
= D
E
+D
R
.
Lquivalent du coefcient de dtermination dans le cas de la rgression logistique
R
2
= 1
D
R
D
T
=
D
E
D
T
.
Si

Y
i
=Y
i
, alors R
2
= 1. Si

Y ,= 0 et

Y ,= 1,

Y
i
=

Y, alors R
2
= 0.
Considrons lhypothse
H
0
:
1
= ... =
m
= 0.
278
Cette hypothse signie quil ny a pas de rgression et la connaissance de la valeur de x
namliore pas la prdiction de (x). Lhypothse H
0
peut tre crite comme H
0
: (x) =
= const. Sous lhypothse H
0
la loi de D
E
est approche par la loi du chi-deux m degrs
de libert. Lhypothse H
0
est rejete avec le niveau de signication , si D
E
>
2
1
(m).
Considrons lhypothse
H
0
:
j
1
= ... =
j
l
= 0, (1 j
1
< ... < j
l
m, l < m).
Notons D
(m)
E
et D
(ml)
E
la statistique D
E
pour le modle (2) avec tous
0
, ...,
m
et sans

j
1
, ...,
j
l
, respectivement. Sous lhypothse H
0
la loi de la variable alatoire D
(m)
E
D
(mk)
E
peut tre approche par la loi du chi-deux k = m(mk) degrs de libert.
On rejette lhypothse H
0
avec le niveau de signication , si
D
(m)
E
D
(mk)
E
>
2
1
(k).
En particulier ce test peut tre appliqu pour tester lhypothse dabsence dinteractions
entre des covariables. Par exemple, dans le modle (6) cette hypothse est quivalente
lhypothse
H
0
:
4
=
5
=
6
=
7
= 0.
La statistique de test D
(7)
E
D
(3)
E
suit la loi de chi-deux de k = 4 degrs de libert.
Lhypothse
H
0
:
j
= 0 ( j = 1, ..., m)
peut aussi tre teste en utilisant la matrice dinformation de Fisher estime.
On cherche la matrice dinformation de Fisher I() = (I
ls
()). On a
I
ls
() =E

2
lnL()

s
=
n

i=1
x
il
x
is
(x
(i)
)(1(x
(i)
)) (l, s = 0, ..., m).
Donc I(

) = X
T
VX, o
X =
_
_
x
10
... x
1m
... ... ...
x
n0
... x
nm
_
_
, V =
_
_
(x
(1)
)(1 (x
(1)
)) ... 0
0 ... 0
0 ... (x
(m)
)(1 (x
(m)
))
_
_
.
Si n est grand, la matrice de covariance de

est approche par I
1
() ou I
1
(

) = (
ls
). Si
x = (x
0
, ..., x
m
), alors la variance de (x) est approche par

2
( (x)) =
_
(x)

s
_
T
1(m+1)
I
1
(

)
_
(x)

s
_
T
(m+1)1
=

2
(x)(1 (x))
2
m

l=0
m

s=0
x
l
x
s

ls
. (8)
Notons

ll
=
2
(

l
),
ls
=

Cov(

l
,

s
).
Si n est grand alors la loi de

est approche par la loi normale N(, I
1
()) et I
1
() est
estime par I
1
(

).
279
La loi de la statistique
W
j
=

j
(

j
)
est approche par la loi N(0, 1), quand n est grand. On rejette lhypothse H
0
:
j
= 0 avec
le niveau de signication , si [W
j
[ > w
1/2
.
La loi de ( (x) (x))/ ( (x)) est approche par la loi normale standard, donc linter-
valle de conance de niveau de conance = 1 pour la probabilit (x) est approch
par
(x) z
1/2
( (x)),
o ( (x)) est donne par la formule (8).
La relation entre les coefcients
j
et les rapports des cotes donne la possibilit de
construire des intervalles de conance pour les rapports de cotes.
Lintervalle de conance de niveau de conance = 1 pour le coefcient
j
est
donn par la formule

j
z
1/2
(

j
) parce que la loi de (

j
)/ (

j
) est approche
par la loi normale standard rduite. Donc les intervalles de conance pour les rapports des
cotes (4), (5) et (7) sont
exp(x
(2)
j
x
(1)
j
)(

j
z
1/2
(

j
)),
exp

ji
z
1/2
(

ji
)
et
exp(x
(2)
1
x
(1)
1
)(

1
+

3
x
2

z
1/2
_

2
(

1
) +2x
2

Cov(

1
,

3
) +x
2
2

2
(

3
),
respectivement.
280
Chapitre 6
ELEMENTS DANALYSE DES
DONNEES CENSUREES ET
TRONQUEES.
6.1 Distribution de survie.
Dans ce chapitre nous allons tudier les notions principales et les modles de base de
lanalyse de survie et de la abilit et seulement quelques nouveaux modles proposs
et tudis par Bagdonaviius et Nikulin en 1994-2000. Les modles plus gnrals et plus
rcents et leurs analyses statistiques on peut trouver, par exemple, dans Bagdonaviius &
Nikulin (1994, 1995, 1996, 1997,1998,1999, 2000), Droesbeke & Fichet et Tassi (1989),
Bagdonaviius, Gerville-Rache, Nikoulina & Nikulin (2000), Charlambidis, Koutras and
Balakrishnan (2000), Meeker and Escobar (1998), Limnios and Nikulin (2000), Ionescu
and Limnios (1999) etc.
Dans ce paragraphe, nous allons dnir les fonctions permettant de dcrire une distri-
bution de survie et prsenter quelques modles paramtriques.
Admettons qu la date t = 0 un lment (un sujet ou un systme) commence fonc-
tionner ( vivre) et qu la date t il se produise une panne (la mort, le dcs).
La variable dure de vie X, dlai entre la date dorigine et la date du dcs (panne) est
une variable alatoire non ngative, X [0, [.
Soit
F(t) = PX t, t R
1
+
. (1)
Nous ne considrons ici que le cas o X est continue, cest--dire que la probabilit de
dcs (de panne) chaque instant est inniment petite.
Dans ce cas la fonction de rpartition F(t) de la variable X est donne par lintgrale
F(t) =
t

0
f (x)dx,
281
o f (t) est la densit de probabilit de X
f (t) = F
/
(t) = lim
h0
Pt X t +h
h
, h > 0. (2)
Donc, F(t) est la probabilit de dcder entre 0 et t, ou la probabilit de dfaillance (de
panne) au cours de lintervalle [0, t].
Dnition 1. La fonction
S(t) =

F(t) = 1F(t), t 0,
sappelle la fonction de survie ou la fonction de abilit (fonction de sjour).
On remarque que S(t) =

F(t) est la probabilit de bon fonctionnement continu durant
[0, t] :
S(t) =

F(t) = PX >t = PX t, t R
1
+
, (3)
ou la probabilit du fonctionnement sans dfaillance de llment au cours du temps t. La
fonction S(t) est monotone dcroissante :
S(0) = 1 et S(t) 0, quand t .
La plus importante caractristique numrique de la dure de survie X est le temps moyen de
survie EX. (On suppose que EX existe). Dans ce cas
EX =


0
tdF(t) =


0
td[1F(t)] =
lim
t
t[1F(t)] +


0
[1F(t)]dt =


0
S(t)dt,
i.e., si EX existe, alors
EX =


0
S(t)dt. (4)
De mme, on peut montrer que, si VarX existe, alors
VarX = 2


0
tS(t)dt (EX)
2
. (5)
En pratique pour estimer EX on utilise la formule :
EX =


0
S(t)dt
k

i=1

(t
i
+t
i+1
)/2
(t
i1
+t
i
)/2
S(t)dt
k

i=1

S(t
i
)
t
i+1
t
i1
2
, (6)
o 0 = t
0
< t
1
< ... < t
k
, et

S(t
i
) est un estimateur statistique de S(t
i
). Considrons un
exemple dans lequel nous soumettons lessai n
i
lments identiques dans les mme condi-
tions au cours du temps t
i
. Si linstant t
i
, o les essais se terminent,
i
lments fonc-
tionnent encore, alors la statistique
i
/n
i
peut-tre considre comme un estimateur de S(t
i
),
puisque daprs la loi de grands nombres
P

i
n
i
S(t
i
), n
i
= 1.
282
Dans ce cas
S(t
i
)

i
n
i
=

S(t
i
)
et donc
EX
1
2
k

i=1

i
n
i
(t
i+1
t
i1
). (7)
Souvent, sil ny a pas de censure, pour estimer EX on utilise aussi la moyenne arithmtique

X
n
=
1
n
n

j=1
X
j
=
1
n
n

j=1
X
( j)
,
o X
(1)
X
(2)
... X
(n)
sont les statistiques dordre, associes avec les dures de survies
X
1
, X
2
, ..., X
n
.
Remarque 1. Soit F
n
(t) la fonction empirique,
EF
n
(t) = F(t).
Dans ce cas S
n
(t) = 1F
n
(t) est lestimateur empirique de la fonction de survie S(t),
ES
n
(t) = S(t), VarS
n
(t) = VarF
n
(t) =
1
n
F(t)S(t).
Puisque
VarlnS
n
(t)
VarS
n
(t)
S
2
(t)
=
F(t)
nS(t)
,
nous pouvons dire que lestimateur S
n
(t) nest pas able quand S(t) est trop petite.
Dautres caractristiques empiriques qui donnent des informations intressantes sur la loi
F sont :
la fonction empirique
F
n
(x) =
1
n
n

j=1
1
],x]
(X
j
),
la variance empirique
s
2
n
=
1
n
n

i=1
(X
i


X
n
)
2
,
la moyenne harmonique

X
H
n
=
n

n
j=1
1
X
j
,
la moyenne gomtrique

X
G
n
=
n

X
1
X
2
...X
n
,
ltendu
R = X
(n)
X
(1)
,
le coefcient de variation
v =
s
n

X
n
.
Dnition 2. Soient X et Y deux dures de survie,
S(t) = PX >t, H(t) = PY >t, t R
1
+
.
283
Nous disons que X est stochastiquement plus grande que Y et notons X _Y si
S(t) H(t) pour tout t R
1
+
. (8)
Le fait que X est stochastiquement plus grande que Y nous pouvons exprimer aussi en disant
que Y est stochastiquement plus petite que X et en notant Y _X. Il est claire que si Y _X,
alors
F
Y
(t) = PY t F
X
(t) = PX t, t R
1
+
, (9)
i.e.,
S(t) H(t) pour tout t R
1
+
.
Thorme 1. Si X _Y, alors
EX EY.
En effet, puisque S(t) H(t) on a
EX =


0
S(t)dt


0
H(t)dt = EY.
6.2 Risque de panne ou taux de dfaillance.
Considrons tout dabord le problme suivant : supposons que llment ait fonctionn
sans dfaillance jusqu lintant u, u > 0. Quelle est la probabilit pour quil ne tombe pas
en panne dans lintervalle ]u, u+t], t > 0 ? Donc, on sintresse la probabilit
S
u
(t) = PX > u+t[X > u, u > 0, t > 0.
La probabilit cherche est alors la probabilit conditionnelle et on a
PX > u+t[X > u =
PX > u+t
PX > u
=
S(u+t)
S(u)
= S
u
(t). (6.1)
De (1) on tire immdiatement que pour tout t > 0
S(t +t) = PX >t +t = S(t)
t
p
t
, (6.2)
o
t
p
t
= PX >t +t[X >t.
Cest une notation utilise en dmographie. De (1) et (2) il suit que la probabilit de panne
(de dcs) au cours de (t, t +t], sachant que X >t est
t
q
t
= Pt < X t +t[X >t = 1
t
p
t
=
S(t) S(t +t)
S(t)
. (6.3)
Dnition 1. On appelle risque instantan de dcs ou taux de dfaillance ou risque de
panne la fonction
(t) =
f (t)

F(t)
=
f (t)
S(t)
, t 0. (6.4)
284
De la dnition 1 il suit que
(t) = lim
t0
Pt < X t +t
tS(t)
= lim
t0
Pt < X t +t
tPX >t
=
= lim
t0
Pt < X t +t[X >t
t
= (6.5)
=
1
S(t)
lim
t0
S(t) S(t +t)
t
=
S
/
(t)
S(t)
. (6.6)
Remarque 1. Des formules (2) et (6) on tire que
(t) =
1
S(t)
lim
t0
S(t) S(t +t)
t
=
=
1
S(t)
lim
t0
S(t +t) S(t)
t
= lim
t0
t
p
t
1
t
= lim
t0
1
t
t
q
t
. (6.7)
De cette remarque on tire aussi que
t
q
t
= Pt < X t +t[X >t (t)t, t 0, (6.8)
tandis que
Pt < X t +t = f (t)t +o(t), t 0.
Donc (t)t est approximativement gale (pour de petites valeurs de t ) la probabilit
de tomber en panne au cours de (t, t +t] condition que llment ait fonctionn sans
dfaillance jusqu la date t. On voit que (t) est une caractristique locale de abilit d-
terminant la abilit de llment chaque instant de temps, do le nom de taux instantan
de dfaillance. Puisque
f (t)dt = S(t)(t)dt
il est clair que
(t) f (t)
pour les petites valeurs de t.
Remarque 2. De (6) il suit que
(t) =
d lnS(t)
dt
, S(0) = 1,
do on tire que
lnS(t) =
t

0
(s)ds, t > 0,
et donc
S(t) = exp
_
_
_

0
(s)ds
_
_
_
. (6.9)
285
On voit que le taux de dfaillance dtermine la distribution F(t) = 1

F(t) = 1S(t).
Dnition 2. On dnit A(t), fonction de risque cumule de (s) entre 0 et t :
A(t) =
t

0
(s)ds, t 0. (6.10)
La fonction A(t) est aussi appele fonction du hasard ou simplement hasard.
De (9) il suit que
A(t) =lnS(t), t 0, (6.11)
et de (4) on tire que
f (t) = (t)S(t) = (t)expA(t), (6.12)
puisque
S(t) = expA(t), t 0. (6.13)
On peut dnir la distribution de probabilit de la dure de survie X partir de lune quel-
conque des fonctions : f (t), (t), S(t), A(t).
La fonction de risque fournit la description la plus concrte dune distribution de survie.
Remarque 3. La fonction de survie conditionnelle S
u
(t) = S(u+t)/S(u) sexprime facile-
ment en termes de la fonction de dfaillance (t). En effet, pour tout u > 0 on a
S
u
(t) = PX > u+t [ X > u =
expA(u+t)
expA(u)
= exp

u+t
u
(x)dx, t R
1
+
. (14)
En faisant le changement des variables v = x u, on en tire que
S
u
(t) = exp

t
0
(v +u)dv, (s, t) R
1
+
R
1
+
. (15)
De (14) il suit que
Pu < X t +u[X > u = 1exp

u+t
u
(x)dx.
Remarque 4. La fonction (t) peut-tre dtermine daprs les rsultats des essais. Si
N = N(0) lments sont soumis aux essais au moment t = 0 et N(t) dsigne le nombre
dlments qui fonctionnent encore au moment t, t > 0, alors (N )
(t) = lim
t0
S(t) S(t +t)
t S(t)

N(t) N(t +t)
t N(t)
=
N(t)
t N(t)
=
N
(t), (16)

N
(t) est le taux de dfaillance empirique.
En pratique cela signie que si on partage lintervalle [0, t] en segments
[0, t
1
[, [t
1
, t
2
[, ..., [t
k1
, t
k
[, ...
de longueur h =t, et
k
dsigne le nombre de pannes au cours de [t
k1
, t
k
[, o
t
k1
= (k 1)h, t
k
= kh, [(k 1)h, kh[[0, t],
286
i.e.,

k
= N(t
k1
) N(t
k
) = N((k 1)h) N(kh) = [NN(kh)] [NN((k 1)h)],
dans ce cas le taux de dfaillance empirique
N
(t) est don par la formule :

N
(t) =

k
(N
1

2

k1
)h
=

k
hN(t
k1
)
, (k 1)h t kh. (17)
Remarque 5. Soit X la dure de vie avec la fonction de rpartition F(t) et la densit f
X
(t) =
F
/
(t). Considrons la transformation Y = X +, > 0. Dans ce cas
PY t = F
_
t

_
et f
Y
(t) =
1

f
X
_
t

_
,
puisque
y = x + x =
y

, dx =
dy

,
do on tire que

Y
(t) =
f
Y
(t)
S
_
t

_ =
1

f
X
_
t

_
S
_
t

_ =
1

X
_
t

_
.
Remarque 6. Dans le cas o X est une variable alatoire discrte,
PX = k = p
k
, k N =1, 2, ...
les fonctions de rpartition F(k), de survie S(k) et de risque de dfaillance (k) de X sont
donnes par les formules suivantes :
F(k) = PX k =

mk
p
m
, (18)
S(k) = PX > k = PX k +1 =

m=k+1
p
m
, (19)
(k) = PX = k [ X > k 1 = PX = k [ X k =
p
k

m=k
p
m
=
p
k
S(k 1)
(20)
pour tout k N (on pose ici, que S(0) = 1).
Comme
1(k) =
S(k 1) p
k
S(k 1)
=
S(k)
S(k 1)
on en tire que
S(k) = [1(k)]S(k 1) =

m=k+1
p
m
=
k

m=1
[1(m)], k N,
puisque
p
k
= (k)S(k 1) = (k)
k1

m=1
[1(m)], k N,
287
en posant p
1
= (1).
Enn on remarque que
EX =

j=1
j p
j
=

j=1
j

k=1
p
k
=

k=1

j=k
p
j
=

k=1
PX k =

k=1
PX > k 1 =

k=1
S(k 1). (21)
Exemple 1. Soit X est uniforme sur X =1, ..., N,
p
k
= PX = k =
1
N
, k X.
Dans ce cas
F(k) = PX k =
k

m=1
p
m
=
k
N
, k X,
S(k) = PX > k = PX k +1 = 1
k
n
=
Nk
N
,
(k) =
p
k
S(k 1)
=
1
Nk +1
, k X.
On remarque que
1
N
= p
1
= (1) < (2) < ... < (N) = 1.
Exemple 2. Soit X suit la loi gomtrique de paramtre p, p ]0, 1[. Dans ce cas
p
m
= PX = m = pq
m1
, m N,
F(k) = PX k = p
k

m=1
q
m1
= 1q
k
,
S(k) = PX > k = p

m=k+1
q
m1
= q
k
(k) =
p
k
S(k 1)
=
pq
k1
q
k1
= p, k N,
do on tire que (k) = const.
Il est facile de dmontrer que (k) = const si et seulement si la variable alatoire discrte
X suit une loi gomtrique.
288
6.3 Modles paramtriques de survie.
Modle exponentiel. Le modle de base est celui pour lequel la fonction de risque dune
variable alatoire continue X est constante :
(t) = = const, > 0, t R
1
+
.
Dans ce modle (t) est constante au cours du temps. On lappelle modle exponentiel de
paramtre parce que la fonction de survie est exponentielle :
S(t) = S(t; ) = exp
_
_
_

0
(s)ds
_
_
_
= expt = e
t
, (1)
donc
F(t) = F(t; ) = PX t = 1S(t) = 1e
t
, t 0. (2)
Ce modle ne dpend que du paramtre et on a
EX =
1

et VarX =
1

2
. (3)
Dnition 1. On dit que la variable de dure de survie X vrie la proprit dindpendance
temporelle (lack-of-memory) si et seulement si
(t) = , t > 0, (4)
o = const, > 0.
Thorme 1. Il y a indpendance temporelle si et seulement si la loi de la dure de survie
X est exponentielle.
Remarque 1. La loi exponentielle est donc la seule loi continue taux de dfaillance
constant.
Thorme 2. Il y a indpendance temporelle si et seulement si lune des conditions sui-
vantes est vrie :
1. les fonctions de survie conditionnelles S
u
(t), u > 0, sont exponentielles de mme
paramtre ( > 0) :
S
u
(t) =
S(u+t)
S(u)
= e
t
, t R
1
+
pour tout u R
1
+
;
2. S(u+t) = S(t)S(u) pour tout t, u R
1
+
.
Remarque 2. La loi exponentielle est donc la seule loi continue possdant la proprit :
S
u
(t) = PX >t +u[X > u = PX >t, t 0, u > 0. (5)
De cette relation il suit que pour tout u R
1
+
EX [ X > u = u+


0
ue
u
du = u+EX. (6)
289
De lautre ct on voit
EX [ X t =

t
0
Pt X u
Pt X
du =

t
0
e
u
e
t
1e
t
du =
1

te
t
1e
t
. (7)
Remarque 3. Si h est petit (h 0), alors
PX h = h+o(h).
Linterprtation de ce rsultat est la suivant. Admettons qu la date t, t > 0, llment
fonctionne. Alors la probabilit de panne dans ]t, t +h] vaut
h+o(h),
pour des petites valeurs de h, h > 0.
Modle de Weibull.
Soit
F(t) = F(t; , ) = PX t =
_
1e
t

_
1
]0,[
(t), > 0, > 0, t R
1
, (8)
i.e., X suit une loi de Weibull W(, ) de paramters et . Dans ce modle
S(t) = S(t; , ) = e
t

1
]0,[
(t), (9)
f (t) = f (t; , ) = t
1
e
t

1
]0,[
(t). (10)
On peut montrer que
EX
k
=
k/

_
k

+1
_
,
et par consquent
EX =
1

1/

_
1

+1
_
, EX
2
=
1

2/

_
2

+1
_
et donc
VarX =
1

2/

_
2

+1
_

2/

2
_
1

+1
_
.
On remarque que le coefcient de variation de X est
v =

VarX
EX
=


_
1+
2

2
_
1+
1

_ 1 =

6
+O
_
1

2
_
, ,
do on tire que la distribution de Weibull devient de plus en plus concentre autour de EX,
quand devient de plus en plus grand. Il est vident que
(t) =
f (t)
S(t)
= t
1
. (11)
Si > 1, le risque de panne (t) croit de faon monotonne, partir de 0, et on dit quil y
a usure. Si < 1, le risque de panne (t) dcroit de faon monotonne et il nest pas born
pour t = 0, dans ce cas on dit quil y a rodage. Si = 1, on obtient une loi exponentielle de
290
paramtre .
Remarque 4. Soit X = (X
1
, . . . , X
n
)
T
un chantillon tel que
PX
i
x = G(x; , )1
]0,[
(x), > 0, > 0 x R
1
, (12)
o G(x; , ) une fonction de rpartition qui vrie les conditions :
lim
x0
G(x; , )
x

= 1, G(x; , ) = 0, x 0,
pour tout et xs.
Soit X
(1)
= X
(n1)
= min(X
1
, X
2
, . . . , X
n
). Alors
n
1/
X
(n1)
L
W(, ), quand n .
En effet, pour tout x > 0 on a
PX
(n1)
> x = [1G(x; , )]
n
et
Pn
1/
X
(n1)
> x =
_
1G
_
x
n
1/
; ,
__
n
,
do on dduit que si n , alors
lnPn
1/
X
(n1)
> x = nln
_
1G
_
x
n
1/
; ,
__
=
= n
_

_
x
n
1/
_

+o
_
1
n
__
=x

+o(1),
do on tire que pour tout x > 0
lim
n
Pn
1/
X
(n1)
> x = e
x

= S(x; , ), (13)
i.e. asymptotiquement (n ) la statistique X
(n1)
suit la loi de Weibull W(, ) de para-
mtres et .
Remarque 5. Soit X W(, ). Considrons la statistique Z = lnX. On a
PZ z = PlnX z = PX e
z
== 1exp(e
z
)

= 1exp
_
exp
_
(z ln
1

)
__
= 1exp
_
exp
z

_
, (14)
o
= ln
1

et =
1

> 0.
Modle gamma.
On suppose que la densit de X est
f (t) = f (t; , p) =

p
(p)
t
p1
e
t
1
]0,[
(t), > 0, p > 0, t R
1
. (15)
291
Alors
EX =
p

, VarX =
p

2
,
et
(t) =
f (t)
S(t)
=
t
p1
e
t

t
x
p1
e
x
dx
. (16)
On peut montrer que si p > 1, alors (t) est croissante et
lim
t
(t) = .
Dun autre ct, si 0 < p < 1, (t) est dcroissante et
lim
t
(t) = .
En effet,
1
(t)
=

t
x
p1
e
x
dx
t
p1
e
t
=

t
_
x
t
_
p1
e
(xt)
dx, t > 0.
Aprs avoir fait le changement de variable dans lintgrale :
u = x t, dx = du, (u > 0),
on obtient que
1
(t)
=

0
_
1+
u
t
_
p1
e
u
du, t > 0.
Posons
g
u
(t) =
_
1+
u
t
_
p1
, t > 0,
pour tout u > 0.
Comme
dg
u
(t)
dt
=(p1)
u
t
2
_
1+
u
t
_
p2
,
on en tire que pour tout u (u > 0)
dg
u
(t)
dt
> 0, si 0 < p < 1,
dg
u
(t)
dt
< 0, si p > 1,
dg
u
(t)
dt
= 0, si p = 1,
do on dduit que pour tout u > 0
g
u
(t) est croissante, si 0 < p < 1,
g
u
(t) = 1, si p = 1,
g
u
(t) est dcroissante, si p > 1,
et par consquent on obtient que
292
(t) est d croissante, si 0 < p < 1,
(t) = , si p = 1, et donc on a la loi exponentielle de paramtre ,
(t) est croissante, si p > 1.
Enn, on remarque que pour tout p > 0
lim
t
1
(t)
=
1

et donc lim
t
(t) = .
Modle de Rayleigh.
Dans ce modle la fonction de survie dune dure de survie X est
S(t) = S(t; c) = expA(t) = exp
_

ct
2
2
_
1
[0,[
(t), c > 0, (17)
f (t) = f (t; c) =S
/
(t) = ct exp
_

ct
2
2
_
1
[0,[
(t), (18)
A(t) =
t

0
(u)du =
t

0
cudu =
ct
2
2
, t 0,
et par consquent (t) = A
/
(t) = ct, et donc dans ce modle (t) est une fonction linaire.
On peut montrer, que
EX =
_

2c
, VarX =
4
2c
.
Il est claire que le modle de Rayleigh reprsente le cas particulier du modle de Weibull
avec = 2 et = c/2.
Modle de Pareto.
Dans ce modle la fonction de survie est
S(t) = S(t; , ) =
_

t
_

1
[,+[
(t), t R
1
, > 0, > 0, (19)
f (t) = f (t; , ) =S
/
(t) =

1
t
+1
1
[,+[
(t), t R
1
, (20)
par consquent
(t) =

t
1
[,+[
(t). (21)
Il est vident que (t) est dcroissante. On emploie ce modle lorquon est assur que la
survie dure au moins jusqu un instant > 0.
Modles de Gompertz et de Makeham (taux de dfaillance exponentiel).
Soit T est une dure de survie dont le taux de dfaillance est
(t) = e
t
1
[0,[
(t), > 0, > 0. (22)
293
Dans ce cas la densit de T est
f (t) = f (t; , ) = e
t
e
[e
t
1]/
(23)
et la fonction de survie est
S(t) = S(t; , ) = exp

(1e
t
). (24)
Souvent on dit que T suit une loi de Gompertz ou Makeham-Gompertz. Parfois on considre
(t) = +e
t
, (25)
o 0, et dans ce cas on dit quil y a une loi de Makeham o de Makeham-Gompertz.
Rcemment Gerville-Rache et Nikulin (2001) ont construit le test de type du chi-deux
pour ce modle.
Classe de Lehmann et le modle de Cox hasard proportionnel.
Soit S(t), t R
1
+
, une fonction de survie, considre comme la fonction de survie de
base. A la base de S(t) on construit soit disant la classe paramtrique de Lehmann
H

=S(t; ), =]0, [
de fonctions de survie S(t; ), en posant
S(t; ) = S

(t), =]0, [= R
1
+
. (26)
Soit T une dure de survie, dont la fonction de survie appartient cette classe de Lehmann :
P

T >t = S(t; ), t R
1
+
.
Il est vident que si = 1, alors on obtient la fonction de survie de base S(t) :
P
1
T >t = S(t; 1) = S(t), t R
1
+
.
De (26) il suit que la fonction de dfaillance de T est
F(t; ) = P

T t = 1S(t; ) = 1S

(t), (27)
do on tire que la densit de T est
f (t; ) = [1F(t)]
1
f (t), (28)
o F(t) = 1 S(t) et f (t) = F
/
(t). De (26) et (28) on trouve que le taux de dfaillance
instantann de T est
(t; ) =
f (t)
S(t)
= (t), (29)
o (t) = f (t)/S(t) est le taux de dfaillance de base, correspondant = 1. Grce (29)
ce modle est connu sous le nom de modle hasard proportionnel.
Remarque 6. Il est clair que le modle exponentiel entre dans une classe dalternatives
de Lehmann. En effet, en choisissant
S(t) = e
t
1
]0,[
(t)
294
comme la fonction de survie de base, on obtient le modle paramtrique exponentiel dont
la fonction de survie est
S(t; ) = e
t
1
[0,[
(t), > 0.
Comme le taux de dfaillance de base (t) = 1, on en tire que le taux de dfaillence de
modle exponentiel est (t; ) .
Soit Z = (Z
1
, ..., Z
p
)
T
R
p
un vecteur de p variables exognes ( explicatives), appel
covariable ou stress, Z E, o E est lensemble des tous les stresses admissibles (pos-
sibles). Soit
r() : E R
1
+
, r(0
p
) = 1,
par exemple r(Z) = e

T
Z
, o et = (
1
, ...,
p
)
T
R
p
est le vecteur reprsentant les effets
estims des variables exognes Z
1
, ..., Z
p
sur T, alors en introduisant les paramtres
= r(Z) = e
z
T

et (t) = (t [ Z = 0
p
), (30)
o z est une ralisation obseve de Z, on obtient le modle (29) dans la forme suivante :
(t; z) = (t [ Z = z) = (t)r(z) = (t)e
z
T

, (31)
connu, au cas r(Z) = e

T
Z
, sous le nom de modle de regression de Cox avec des cova-
riables constantes en temps. Dans ce modle pour tout t R
1
+
le logarithme du taux de
hasard
ln(t [ Z = z) = ln(t) +lnr(Z) = ln(t) +
p

j=1
z
j

j
est donn par une rgression linaire sur des variables explicatives Z
1
, ..., Z
p
.
Souvent Z ne dpend pas de temps, mais en principe le modle de Cox gnrale ladmet.
Le modle (31), comportant un paramtre R
p
et un paramtre fonctionel (t), est
appel semiparamtrique.
On remarque que

k
=

z
k
ln(t [ Z = z), k = 1, ..., p, (32)
et donc nous pouvons dire que le paramtre
k
fournit une bonne approximation de la
modication du taux de hasard correspondant une modication dune unit de la variable
explicative Z
k
. En effet, si, par exemple, une seule variable Z
k
est gale 1, toutes les autres
tant nulles, on obtient que
(t [ Z
1
= ... = Z
k1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1) = (t)e

k
,
i.e.
e

k
=
(t [ Z
1
= ... = z
k1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1)
(t)
, (33)
do on tire que

k
= ln
(t [ Z
1
= ... = Z
k1
= Z
k+1
= ... = Z
p
= 0, Z
k
= 1)
(t)
. (34)
Cest intressant de remarquer que les rapports dans (33) et (34) ne dpendent pas du taux
de dfaillance de base (t). Cest pour cette raison quon utilise le vecteur b pour valuer
295
les effets des variables explicatives (de contrle) Z
1
, ..., Z
p
sur T.
Modle simple de la vie acclres.
Soit S(t), t 0, une fonction de survie, considre comme la fonction de survie de base.
En utilisant S(t) nous pouvons construire une classe de Lehmann
S(t; ), =]0, [
de fonction de survie en posant
S(t; ) = S(t). (35)
Si T une dure de survie, dont la fonction de survie appartient la classe
S(t; ) = S(t), > 0, (36)
i.e., pour tout > 0
P

T >t = S(t; ) = S(t), (37)


nous disons que lon a le modle simple de la vie acclres.
On remarque que si = 1, alors
P
1
T >t = S(t; 1) = S(t), (38)
i.e., la fonction de survie de base S(t) appartient la classe (36).
Notons F(t) = 1 S(t) la fonction de dfaillance de base. Supposons quil existe la
densit
f (t) = F
/
(t). (39)
Dans ce cas pour tout la fonction de dfaillance
F(t; ) = F(t), t 0, (40)
a sa densit
f (t; ) = f (t), t R
1
+
, (41)
do on tire que le risque instantan de T est
(t; ) =
f (t; )
S(t; )
=
f (t)
S(t)
. (42)
Si T est une dure de survie qui suit la loi de base F(t), alors il est claire que la dure de
survie T/ suit la loi F(t; ) = F(t), puisque
P

t = P

T t = F(t) = F(t; ), (43)


do on voit clairement le rle multiplicatif du paramtre (de paramtre dchelle) dans
le modle de la vie acclre : si une dure de survie T suit une loi F(t), considre comme
la loi de base, alors la loi de T/ est
F(t; ) = F(t) pour chaque > 0.
On remarque que de (11) et (29) il suit que les deux modles
S(t), =]0, 1[ et
_
S

(t), =]0, 1[
_
296
coinsident si et seulement si le risque instantan de base est
(t) = t

, > 0, > 0,
i.e. si la fonction de survie de base S(t) appartient une famille de Weibull W(, ), donne
par la formule (11) avec = 1+ et = /(1+).
Enn on remarque quici nous pouvons nous mettre dans la situation du modle de Cox, en
introduisant le paramtre et le vecteur covariable Z telles que
= r(Z) = e
Z
T

, z R
p
, R
p
,
Z E, o E est lensemble des tous les stresses admissibles (possibles),
r() : E R
1
+
, r(0
p
) = 1.
Modle log-logistique.
Soit X une variable alatoire qui suit la loi logistique standard L(0, 1), dont la densit
est
g
X
(x) =
e
x
[1+e
x
]
2
=
e
x
(1+e
x
)
2
, x R
1
. (44)
La fonction de rpartition de X est
G(x) = PX x =
1
1+e
x
=
e
x
1+e
x
.
En utilisant X, on construit une dure de survie T telle que
lnT =ln+
1

X, (45)
i.e.
T = exp
1

X ln (46)
pour tout > 0 et > 0. Par calcul direct on trouve que la densit de T est
f (t; ) =
(t)
1
[1+(t)

]
2
1
[0,[
(t), (47)
o = (, )
T
, > 0, > 0. On dit que T suit une loi log-logistique LL(, ) de paramtre
= (, ). De (47) on trouve
F(t; ) = P

T t =
(t)

1+(t)

, t R
1
+
et donc la fonction de survie de T est
P

T >t = S(t; ) =
1
1+(t)

, t R
1
+
. (48)
De (47) et (48) on tire que le risque instantann de T est
(t; ) =
(t)
1
1+(t)

=

t
[1S(t; )] =

t
F(t; ). (49)
297
De (49) il suit que (t; ) est dcroissante, si 0 < < 1, i.e., dans ce cas T appartient la
classe DFR. Par contre, si > 1, alors (t; ) a un maximum

max
= (1)
(1)/
au point
t =
1

(1)
1/
.
Enn on remarque que si une dure de survie T suit une loi log-logistique LL(, ), alors
ln
S(t; )
F(t; )
= ln
P

T >t
P

T t
=lnt ln, (50)
i.e., le logarithme du rapport de probabilit de survie la probabilit de dfaillance est une
fonction linaire du logarithme du temps t (ici = (, )
T
avec > o, > 0).
Remarque 7. Il est vident que si une fonction de survie S(t; ) est considre comme
la fonction de survie de base, on peut construire la classe dalternative de Lehmann, en
introduisant
S(t; , z) = [S(t; )]
e
z
T

, z R
p
, R
p
.
Dans ce modle le taux de dfaillance (t; , ) est
(t; , z) = (t; )e
z
T

.
Dans cette optique
S(t; ) = S(t; , 0
p
), et (t; ) = (t; , 0
p
),
o 0
p
= (0, ..., 0)
T
R
p
.
6.4 Modles nonparamtriques
.
Dnition 1 (La classe de Polya dordre 2 ( PF
2
)). On dit que T PF
2
, si pour tout s R
1
+
la fonction
g
s
(t) =
f (t)
F(t +s) F(t)
est croissant en t.
Thorme 1. T PF
2
si et seulement si pour tout s R
1
+
la fonction
f (t s)
f (t)
est croissant en t.
On remarque que T PF
2
si et seulement si
f (t +s)
f (t)
298
est dcroissante en t, ce qui est quivalent au thorme 1.
Dnition 2 (IFR). On dit quun lment, dont la dure de survie est T, est vieillissant si
son taux de panne (t) est croissant ( dcroissant), i.e.
(s) (t) 0 < s <t, (s, t) R
1
+
R
1
+
.
On dit aussi que T a IFR (DFR) et on note T IFR (T DFR).
IFR (DFR) vient de Increasing (Decreasing) Failure Rate
Souvent les diffrents modles nonparamtriques sont classe suivant que le risque instan-
tan (t) est croissant ou dcroissant. La fonction F(t) =PT t est alors dite distribution
IFR ou DFR respectivement et on note F IFR, (F DFR).
De la dnition 2 il suit que T IFR si et seulement si la fonction lnS(t) est concave.
Thorme 2. Soit T IFR. Alors
S(t) > e
t/ET
, 0 <t < ET.
Dmostration. Puisque T IRF, on en tire que la fonction (t) est croissante. Comme
A(t) =

t
0
(s)ds, alors A
//
(t) =
/
(t) > 0 et donc la fonction A(t) est convexe, do on tire
que
A(t)
A(ET)
ET
t, 0 t ET.
Puisque A(ET) < 1, alors on a
S(t) = e
A(t)
> e
t/ET
, 0 <t ET.
Thorme 3. Soit T DFR. Alors
S(t)
_
e
t/ET
, si t ET,
1
et
ET, si t ET.
Thorme 4. Si T IFR, alors
ET
2
2(ET)
2
.
Corollaire 1. Si T IFR, alors son coefcient de variation
v =

VarT
ET
1.
Thorme 5. Si T DFR, alors
ET
2
2(ET)
2
.
Corollaire 2. Si T DFR, alors son coefcient de variation
v =

VarT
ET
1.
Souvent pour classer les modles on emploie le risque moyen
RM(t) =
1
t
A(t) =
1
t

t
0
(s)ds.
299
Dnition 3 (IFRA). Si RM(t) est croissant (dcroissant), alors on dit que T a une dis-
tribution taux de dfaillance moyen croissant (dcroissant) en temps et on note T
IFRA (DFRA).
IFRA (DFRA) vient de Increasing (Decreasing) Failure Rate Average.
Thorme 7. Soit F(t) = PT t la fonction de rpartition de T, S(t) = 1 F(t) la
fonction de survie de T. Alors T IFRA si et seulement si pour tout ]0, 1[ on a
S(t) S

(t), t R
1
+
.
Autrement dit, si pour tout ]0, 1[ la dure de survie du modle de la vie acclre corres-
pondante ce donn est stochastiquement plus grande que la dure de survie correspon-
dante de la classe de Lehmann (au modle de Cox).
Thorme 8. Si T IFR, alors T IFRA, i.e. IFR IFRA.
Dmonstration. En effet, comme T IFR, on a
A(t) =

t
0
(s)ds t(t), t R
!
+
,
puisque le risque instantan (t) est croissant, do on tire que
_
A(t)
t
_
/
=
t(t) A(t)
t
2
0,
i.e. A(t)/t est croissante en t, donc T IFRA.
Dnition 4 (NBU). On dit que T NBU ( New Better then Used o Neuf meilleur
Usag) si pour tout u > 0
S
u
(t) S(t), t R
1
+
.
Ici S
u
(t) = 1F
u
(t) = PT > u+t [ T > u.
De cette dnition on tire que T NBU si et seulement si
S(u+t) S(u)S(t) pour tout u, t R
1
+
,
i.e., si et seulement si pour tout u, t R
1
+
A(u+t) A(u) +A(t).
Thorme 9. Si T IFRA, alors T NBU, i.e. IFRA NBU.
Dmonstration. Soit T IFRA. Dans ce cas
A(t)
t
=
1
t

t
0
(s)ds, t R
1
+
,
est croissante en t, do on tire que pour tout ]0, 1[ on a
A(t) A(t) et A((1)t) (1)A(t), t R
1
+
.
De ces deux ingalits on dduit que pour tout ]0, 1[
A(t) +A((1)t) A(t), t R
1
+
.
300
En posant t = u et (1)t = v, on obtient que
A(u) +A(v) A(u+v), u, v R
1
+
,
et donc T NBU.
On remarque que IFR ,= IFRA, i.e. on peut construire une dure de survie T telle que
A(t)
t
est croissante en t, t R
1
+
, mais (t) nest pas croissante. En effet, soit
(t) =
_
_
_
t, si 0 <t 1,
2t, si 1 <t

2,
2

2, si t >

2.
Dans ce cas
1
t
A(t) =
1
t

t
0
(s)ds =
_
_
_
t
2
, si 0 <t 1,
2
t
2

1
t
, si 1 <t

2,
2

2, si t >

2.
On voit que
_
1
t
A(t)
_
/
0, t R
1
+
,
i.e. T IFRA, mais la fonction (t) nest pas croissante, et donc la distribution de T nap-
partient pas IFR.
La dure de vie moyenne restante.
Soit T une dure de survie,
F(t) = PT t, S(t) = 1F(t), t R
1
+
.
Pour tout s 0 nous pouvons considrer la fonction de dfaillance conditionnelle
F
R
s
(t) = F
s
(t) = PT s +t [ T > s = PT s t [ T > s =
Ps < T s +t
PT > s
=
F(s +t) F(s)
S(s)
, t R
1
+
. (1)
On remarque que F
s
(t) = F(t), si s = 0. Comme F
s
(t) a toutes les proprits dune fonction
de rpartition, du thorme de Kolmogorov il suit lexistance dune variable alatoire relle
R
s
admettant F
s
(t) en qualit de sa fonction de rpartition :
F
s
(t) = PR
s
t, t R
1
+
. (2)
Dnition 5. La variable alatoire R
s
est appele la dure de vie restante o rsiduelle (the
residual life) de la dure de survie T qui a atteint lge s.
Donc, pour tout s x, s R
1
+
, R
s
est la dure de vie restante de T, sachant que T > s, et sa
loi est une loi conditionnelle avec la fonction de survie
S
R(s)
(t) = S
s
(t) = 1F
s
(t) = 1
F(s +t) F(s)
S(s)
=
301
S(s) [1S(s +t)] [1S(s)]
S(s)
=
S(s +t)
S(s)
, t R
1
+
. (3)
Donc S
s
(t) est la probabilit de survie au cours de la priod ]s, s +t] sachant que le sujet
a t vivant jusqu s, s R
1
+
. Il faut remarquer ici que de la construction de S
s
(t) il suit
que la famille S
s
(t), s R
1
+
de fonctions de survie conditionnelle caractrise la loi de T.
Du thorme 2 il suit que F
s
(t) = F(t) si et seulement si X suoit une loi exponentielle (on
suppose que F est continue).
Si T a la densit f (t) = F
/
(t), alors la densit de R
s
existe et sexprime par la formule
f
R
s
(t) = f
s
(t) =
f (s +t)
S(s)
, t R
1
+
. (4)
Cette formule sensuit immdiatement de (1).
On remarque que si t = 0, alors
f
s
(0) = lim
t0
F
s
(t) =
f (s)
S(s)
= (s), (5)
o (t) = f (t)/S(t), t R
1
+
, est le risque instantan de T. Dans la remarque 3 de 3 on
a montr que la fonction de survie S(t) de T sexprime en terme du taux de dfaillance
instantan (t) :
S(t) = exp

t
0
(u)du, t R
1
+
,
do on tire que S
s
(t) sexprime aussi en terme de (t) :
S
s
(t) =
S(s +t)
S(s)
= exp

s+t
s
(x)dx = exp

t
0
(u+s)du, (6)
et donc le risque instantan
R
s
(t) de R
s
est

R
s
(t) = (s +t), t R
1
+
, (7)
o (t) est le risque instantan de T.
Soit T une dure de survie. Pour tout s R
1
+
on peut considrer sa vie restante R
s
.
Thorme 10. Le risque instantan de dfaillance (t) de dure de survie T est croissant
si et seulement si R
u
est stochastiquement plus grande que R
v
pour tous u < v, (u, v R
1
+
).
Dmostration. De (6) on a
S
s
(t) = exp

s+t
s
(x)dx, t R
1
+
,
pour tout s R
1
+
, do on tire que

s
S
s
(t) = [(s) (s +t)]S
s
(t). (8)
Puisque S
s
(t) > 0, on tire de (8) que S
s
(t) est dcroissante (croissante) en s si et seulement
si le risque de dfaillance (t) est croissant (dcroissant). Mais si S
s
(t) est dcroissante en
s, alors
S
u
(t) S
v
(t) pour tout u < v, (9)
302
ce qui signie que R
u
est stochastiquement plus grande que R
v
, u < v. Le thorme est
dmontr.
Dnition 6. Lesprance mathmatique r(s) = ER
s
, s R
1
+
, est appele la dure moyenne
de la vie restante R
s
.
De cette dnition on trouve que
r(s) = ER
s
= ET s [ T > s = ET [ T > ss, s R
1
+
, (10)
et en particulier r(0) = ET.
Thorme 11. La dure moyenne r(s), s R
1
+
, de la vie restante R
s
caractrise la loi de la
dure de survie T.
Pour dmontrer ce thorme il suft de montrer que r(s) sexprime en terme de S(s), par
exemple, ce qui nest pas difcile, puisque de la dnition de r(s) il suit que
r(s) =
1
S(s)


s
S(u)du, s R
1
+
, (11)
et rciproquement
S(t) =
r(0)
r(t)
exp

t
0
1
r(x)
dx, t R
1
+
.
Dnition 7 (NBUE). On dit que T NBUE (New is Better than Used in Expectation) si
pour tout s R
1
+
ET ET s [ T > s = ER
s
.
Thorme 12. Si T NBU, alors T NBUE, i.e. NBU NBUE.
Dmonstration. En effet, pour tout s > 0 on a
S
s
(t) S(t), t R
1
+
,
do on tire que


0
S
s
(t)dt


0
S(t)dt,
i.e.
r(s) = ER
s
ET = r(0), s R
1
+
,
donc, T NBUE.
Dnition 8 (DMRL). On dit que T DMRL (Decreasing Mean Residual Life), si pour
tout 0 s <t <
ET s [ T > s ET t [ T >t.
On dit aussi que T a la dure de vie moyenne restante dcroissante.
Thorme 13. Si T DMRL, alors T NBUE, i.e. DMRL NBUE.
Dnition 9 (HNBUE). On dit que T HNBUE (Harmonic New Better than Used in
Expectation) si
1
ET


s
S(t)dt e
s/ET
pour tout s R
1
+
.
Exemple 2. Soit PT t = S(t), o
S(t) =
_
_
_
1, 0 t < 1,
0.25, 1 t < 3,
0, t 3.
303
Il est facile de vrier que T HNBUE.
Enn on introduit encore une classe qui est assez naturelle.
Dnition 10. (IDMRL) On dit que T IDMRL (Increasing and Decreasing Mean Resi-
dual Life), si la vie moyenne restante r(s) de T est unimodale i.e., sil existe s
0
> 0 tel que
r(s) est croissante sur [0, s
0
[ et dcroissante sur [s
0
, [.
De faon analogue lintroduction de la classe DFR on peut introduire les classes sui-
vantes :
DFRA - Decreasing Failure Rate on Average,
NWU - New Worse than Used,
NWUE - New Worse than Used in Expectation,
IMRL - Increasing Mean Residual Life,
HNWUE - Harmonic New Worse than Used in Expectation.
6.5 Types de censure.
1. Censure du type I : temps censure x C.
Dnition 1 (Censure droite). tant donn un chantillon X = (X
1
, ..., X
n
)
T
de dures
de survie X
i
et un nombre positif x C, on dit quil y a censure droite de cet chantillon ,
si au lieu dobserver X
1
, ..., X
n
, on observe n statistiques
(T
1
, D
1
), ..., (T
n
, D
n
),
o
T
i
= X
i
C = min(X
i
,C), D
i
= 1
T
i
=X
i

=
_
1, si X
i
C,
0, si X
i
>C.
(6.1)
Il est clair que
T
i
= X
i
1
X
i
C
+C1
X
i
>C
.
Donc, en realit on observe la dfaillance (le dcs) du sujet i si X
i
C, et la variable
indicatrice D
i
de ltat aux dernires nouvelles vaut 1 dans ce cas. Dans le cas contraire,
X
i
>C et donc lobservation est censure et ltat aux dernires nouvelles D
i
du sujet i vaut
0. Lorsquon ordonne les valeurs de T
i
par ordre croissant, obtenant les statistiques dordre
T
(1)
T
(2)
... T
(n)
,
on ne perd aucune information.
Cest par exemple ce qui se passe lorsquon observe la dure de fonctionnement de n sys-
tmes complexes au cours dune exprience de dure C.
On remarque quen cas de censure non alatoire droite le nombre de dcs (de pannes)
et les dures exactes de survie des sujets dcds sont alatoires. La priode maximale de
lobservation C est xe. Soit f (x
i
; ) la densit de X
i
,
X
i
f (x
i
; ), , x
i
0,
304
et
S(x
i
; ) = 1F(x
i
; ) = P

X
i
> x
i

sa fonction de survie, X
i
est un lment de lchantillon X. Dans ce cas la densit de la
statistique (T
i
, D
i
) est donne par la formule
g(t
i
, d
i
; ) = [ f (t
i
; )]
d
i
[S(t
i
; )]
1d
i
, t
i
> 0; d
i
0, 1,
par rapport la mesure dd, o est la mesure de Lebesgues sur [0, [, et la mesure de
comptage sur 0, 1. Parce que la statistique D
i
, reprsente la partie discrte de la statistique
(T
i
, D
i
), on a
P

T
i
, D
i
= 0 = P

C , X
i
>C = S(C; ),
=
_
S(C; ) si C t
i
,
0 sinon,
=

t
i
0
S(C; )1
v>C
dv,
et donc
g(t
i
, 0; ) = S(C; )1
t
i
>C
.
De lautre ct on a
P

T
i
t
i
, D
i
= 1 = P

X
i
t
i
, X
i
C
=
_
S(C; ) si t
i
C,
0 sinon,
=

t
i
0
f (v; )1
vC
dv,
et donc
g(t
i
, 1; ) = f (t
i
; )1
t
i
C
.
Donc la fonction de vraisemblance, correspondant aux observations (T
1
, D
1
), ..., (T
n
, D
n
),
est
L() =
n

i=1
[ f (T
i
; )]
D
i
[S(C; )]
1D
i
. (6.2)
On remarque que cette distribution est continue par rapport T
i
, et discrte par rapport
D
i
.
Exemple 1. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
f (x
i
; ) = e
x
i
, x
i
> 0, =]0, +[,
i.e., la dure de survie du sujet i suit une loi exponentielle de paramtre . On remarque que
dans ce modle
EX
i
=
1

et VarX
i
=
1

2
.
Supposons que la dure C de ltude est xe lavance.
-
t
0 T
(1)
T
(2)
T
(R)
C
Soient T = (T
1
, ..., T
n
)
T
, o T
i
= min(X
i
,C), et T
()
= (T
(1)
, ..., T
(R)
,C, ...,C)
T
le vecteur
des statistiques dordre associ T,
0 < T
(1)
< T
(2)
< ... < T
(R)
<C.
305
La statistique
R = D
1
+D
2
+ +D
n
= D
(1)
+D
(2)
+... +D
(n)
,
nous indique le nombre de dcs observs, R 0, 1, ..., n. Ici D
(i)
dnote la statistique D
i
associe T
(i)
. De (2) il suit que la fonction de vraisemblance L(), correspondante la
statistique T
()
, est donne par la formule
L() =
n

i=1
_
e
T
i
_
D
i
_
e
T
i
_
1D
i
=
R
exp
_

i=1
T
i
_
, (6.3)
donc la statistique exhaustive est bidimensionnelle,
(R, T) =
_
n

i=1
D
i
,
n

i=1
T
i
_
=
_
n

i=1
D
(i)
,
n

i=1
T
(i)
_
, (6.4)
o
T = T
1
+T
2
+ +T
n
= T
(1)
+T
(2)
+ +T
(n)
.
On note encore une fois que la loi marginale de R est discrte, ici elle est binomiale B(n, p),
p = p() = S(C; ) = P

X
1
>C = e
C
, (6.5)
et la loi marginale de T est continue.
Puisque
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(nR)C, (6.6)
on en tire que la statistique
_
R,
R

i=1
T
(i)
+(nR)C
_
(6.7)
est elle aussi exhaustive.
Pour estimer nous pouvons utiliser la mthode du maximum de vraisemblance. De (3)
et (5), de mme que de (7), on dduit que
lnL() = Rln
_
R

i=1
T
(i)
+(nR)C
_
, (6.8)
do
() =

lnL() =
R

_
R

i=1
T
(i)
+(nR)C
_
, (6.9)
et lestimateur de maximum de vraisemblance

n
du paramtre , qui vrie lquation
() = 0, est

n
=
R
R

i=1
T
(i)
+(nR)C
=
n

i=1
D
i
n

i=1
T
i
. (6.10)
306
On remarque que si R > 10 et n assez grand pour que R/n < 0.1, alors on peut estimer en
sappuyant sur la loi des grands nombres que
R

i=1
T
(i)
= R
1
R
R

i=1
T
(i)
R
C
2
.
On dduit alors de (10) que

R
_
n
R
2

C
.
Remarque 1. On dit que la statistique
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(nR)C
est le temps global de survie (de fonctionnement) des sujets (des lments) au cours des
essais.
Remarque 2. Calculons M() = E

T
i
et D() = Var

T
i
. On a
M() = E

T
i
=
C

0
te
t
dt +CPX
i
>C =
=
1

_
1e
C
Ce
C
_
+Ce
C
=
1

_
1e
C
_
.
D() = Var

T
i
= ET
2
i
(ET
i
)
2
=
=
2

2
_
1e
C
Ce
C
_

2
_
12e
C
+e
2C
_
=
=
1

2
_
12Ce
C
e
2C
_
.
Supposons C 1, cest--dire que les lments sont relativement srs. En dcomposant
lexponentielle en srie, on obtient
e
C
1C+
(C)
2
2

(C)
3
6
,
e
2C
12C+2(C)
2

4
3
(C)
3
,
do, puisque C 1,
M() = E

T
i
C
C
2
2
+

2
C
3
6
=C
_
1
C
2
+
(C)
2
6
_
,
D() = Var

T
i

2
_
2C2(C)
2
+
4
3
(C)
3
2C+2(C)
2
(C)
3
+
(C)
4
3
_
=
=
C
3
3
[1C]
C
3
3
.
307
Si on utilise le thorme limite central, on trouve que si n , alors le temps global de
fonctionnement
T =
n

i=1
T
i
=
R

i=1
T
(i)
+(nR)C
est asymptotiquement normal de paramtres nM() et nD() :
lim
n
P
_
T nM()
_
nD()
x
_
= (x),
do on tire que pour les grandes valeurs de n la variable alatoire
_
_
_
T nC
_
1
C
2
+
(C)
2
6
_
_
n
C
3
3
_
_
_
2
est distribue approximativement comme
2
1
, autrement dit pour de grands n on peut ad-
mettre que
_
T nM()
_
nD()
_
2
=
2
1
.
On peut utiliser ce rsultat pour estimer par intervalle.
2. Censure de type II : jusquau r-ime "dcs".
Si au lieu de dcider lavance de la dure C de ltude on dcide dattendre que parmi
les n sujets initiaux ou les systmes de ltude, r soient morts ou en panne, on a affaire
une censure de type II. En pratique on applique ce type de censure quand la dure de
vie moyenne avant la premire panne du systme est trop leve par rapport la dure de
ltude et on ne xe pas la dure de lexprience, mais le nombre r de pannes que lon
veut observer. Il est vident que dans cette situation le moment darrt de lexprience, le
moment T du dcs de r-ime sujet, cest--dire la dure de lexprience est alatoire. On
rappelle que dans le cas de la censure du type I la dure C de ltude est xe lavance,
mais le nombre de dcs observs R est alatoire.
Dnition 2. (Censure du type II). tant donn un chantillon
X= (X
1
, ..., X
n
)
T
de dures de survie X
i
et un nombre entier positif r, on dit quil y a censure
de type II, si au lieu dobserver X
1
, ..., X
n
on observe n statistiques
(T
1
, D
1
), . . . , (T
n
, D
n
),
o
T
i
= X
i
X
(r)
, D
i
= 1
T
i
=X
i

, (6.11)
X
(r)
est la r-ime statistique dordre, i.e. X
(r)
est la r-ime composante du vecteur des
statistiques dordre X
()
= (X
(1)
, ..., X
(n)
)
T
associ lchantillon X,
0 < X
(1)
< X
(2)
< ... < X
(r)
< ... < X
(n)
. (6.12)
Cest--dire que dans la situation considre la date de censure est X
(r)
et les observations
sont :
T
(i)
= X
(i)
, i = 1, 2, ..., r,
T
(i)
= X
(r)
, i = r, r +1, ..., n.
308
Si
X
i
f (x
i
; ) et S(x
i
; ) = P

X
i
> x
i
, x
i
> 0, ,
alors la fonction de vraisemblance associe aux statistiques
(T
1
, D
1
), (T
2
, D
2
), . . . , (T
n
, D
n
)
est
L() =
n!
(nr)!
n

i=1
f (T
(i)
; )
D
(i)
S(T
(i)
; )
1D
(i)
=
=
n!
(nr)!
r

i=1
f (X
(i)
; )S(X
(r)
; )
nr
, (6.13)
puisque
n

i=1
D
i
= r, o r est donn.
Exemple 2. Soit
X
i
f (x
i
; ) = e
x
i
, x
i
> 0, =]0, +[,
i.e. X
i
suit une loi exponentielle de paramtre , > 0. Dans ce cas la fonction de vraisem-
blance, associe aux donnes censures (censure du type II) est
L() =
n!
(nr)!
_
r

i=1
e
X
(i)
_
_
e
X
(r)
_
nr
=
=
n!
(nr)!

r
exp
r

i=1
X
(i)
expX
(r)
(nr) =
=
n!
(nr)!

r
exp
_

_
r

i=1
X
(i)
+(nr)X
(r)
__
=
=
n!
(nr)!

r
exp
_

_
r

i=1
T
(i)
+(nr)T
(r)
__
.
On voit que dans ce cas la statistique scalaire
T =
r

i=1
T
(i)
+(nr)T
(r)
=
n

i=1
T
(i)
=
n

i=1
T
i
est exhaustive. Elle reprsente le temps global de survie (de fonctionnement). Il est vident
que lestimateur de maximum de vraisemblance

n
est

n
=
n

i=1
D
i
n

i=1
T
i
=
r
r

i=1
T
(i)
+(nr)T
(r)
.
On peut dmontrer que
PT x =
n!
(nr)!

...

0<t
1
<<t
r
r

i=1
t
i
+(nr)t
r
x
exp
_

_
r

i=1
t
i
+(nr)t
r
__
dt
1
dt
r
=
309
= P
2
2r
2x,
i.e.
T =

2
2r
2
.
En effet,
PT x =
n!
(nr)!

...

0<t
1
<<t
r
r

i=1
t
i
+(nr)t
r
x
exp
_

_
r

i=1
t
i
+(nr)t
r
__
dt
1
dt
r
=
=
n!
(nr)!

...

0<t
1
<<t
r
r1

i=1
t
i
+(nr+1)t
r
x
exp
_

_
r1

i=1
t
i
+(nr +1)t
r
__
dt
1
dt
r
.
Aprs avoir fait le changement des variables :
t
1
= u
1
, t
2
= u
1
+u
2
, . . . , t
r1
= u
1
+. . . +u
r1
,
r1

i=1
t
i
+(nr +1)t
r
= u,
o u
i
> 0 et u x, on a
PT x =
n!
(nr)!

...

u
1
>0,...,u
r1
>0
r1

i=1
(nr+1)u
i
<ux
1
nr +1
e
u
du
1
du
r1
d
u
,
puisque
det
_
_
_
_
D(t
1
, . . . , t
r
)
D(u
1
, . . . , u
r1
, u)
_
_
_
_
=
1
nr +1
.
En faisant un nouveau changement des variables :
(ni +1)u
i
= v
i
, i = 1, . . . , r 1, u = v,
on trouve que
PT x =
n!
(nr +1)!

...

v
1
>0,...,v
r1
>0
r1

i=1
v
i
<vx
r+1

i=1
1
ni +1
e
v
dv
1
dv
r1
d
v
=
=
r
x

0
e
v
dv

...

v
1
>0,...,v
r1
>0
r1

i=1
v
i
<v
dv
1
dv
r1
=
310
=
r
x

0
v
r1
e
v
dv =
1
(r)

x
0
y
r1
e
y
dy = P
r
x = P
2
2r
2x.
De ce rsultat il suit que
E

n
= E
2r

2
2r
= 2r

0
1
x
1
2
r

_
2r
2
_x
2r
2
1
e
x/2
dx =
r
r 1
,
et donc

n
=
r 1
r

i=1
T
(i)
+(nr)T
(r)
est ici le meilleur estimateur sans biais (MVUE) pour . On note que
Var

n
=

2
r 2
, r > 2.
Enn, on remarque quen labsence de censure, lestimateur de maximum de vraisemblance

n
, obtenu avec toutes les donnes X
1
, ..., X
n
, est

n
=
n
n

i=1
X
i
=
1

X
n
.
Exercice. Soit X = (X
1
, . . . , X
n
)
T
un chantillon, X
i
suit une loi exponentielle de paramtre
. Notons
Z
i
= (ni +1)(X
(i)
X
(i1)
), (i = 1, 2, ..., n; X
(0)
= 0),

i
= (Z
1
+... +Z
i
)/(Z
1
+... +Z
i+1
), (i = 1, 2, ..., n1),

n
= Z
1
+... +Z
n
, V
i
=
i
i
(i = 1, 2, ..., n1).
Montrer que
a) les variables alatoires
1
, ...,
n
sont indpendantes ;
b) V
i
U(0, 1).
Supposons quon ait une censure du type II avec r = 6, et que les 6 premiers moments de
dfaillance de n = 100 tlviseurs sont :
60, 140, 240, 340, 400, 450 (jours).
c) Vrier lhypothse que la dure de survie des tlviseurs suit une loi exponentielle
de paramtre . Utiliser les rsultats de a), b) et le critre de Kolmogorov.
3. Censure du type III : censure alatoire.
Dnition 3. Etant donn un chantillon X = (X
1
, ..., X
n
)
T
de dures de survie X
i
, on dit
quil y a censure alatoire de cet chantillon sil existe un autre chantillon C
C = (C
1
, ...,C
n
)
T
R
n
+
311
indpendant de X, tel que au lieu dobserver X
1
, ..., X
n
on observe les statistiques
(T
1
, D
1
), (T
2
, D
2
), ..., (T
n
, D
n
), (6.14)
o
T
i
= X
i
C
i
, D
i
= 1
T
i
=X
i

.
Donc en cas de censure alatoire, on associe chaque sujet i (i = 1, 2, ..., n) une statistique
de dimension 2 : (X
i
,C
i
) R
2
+
, dont seulement la plus petite composante est observe :
_
X
i
est la survie ,
C
i
est la censure .
On sait de plus quelle est la nature de cette dure :
si D
i
= 1, cest une survie,
si D
i
= 0, cest une censure.
Nous avons suppos que le dlai de censure C
i
du sujet i est une variable alatoire
indpendante de la dure de survie X
i
. Notons
H(t) = PC
i
t et Q(t) = PC
i
>t
la fonction de rpartition et la fonction de survie de C
i
et h(t) = H
/
(t), densit de C
i
, i =
1, 2, . . . , n. Dans ce cas la densit g(t
i
, d
i
; ) de la statistique (T
i
, D
i
) est
f (t
i
; )Q(t
i
), si D
i
= 1 (X
i
est la survie),
h(t
i
)S(t
i
; ), si D
i
= 0 (C
i
est la censure),
o S(x; ) = 1F(x; ), i.e.,
(T
i
, D
i
) g(t
i
, d
i
; ) = [ f (t
i
; )Q(t
i
)]
d
i
[h(t
i
)S(t
i
; )]
1d
i
.
On obtient donc la fonction de vraisemblance de lchantillon (14)
L() =
n

i=1
[ f (T
i
; )Q(T
i
)]
D
i
[h(C
i
)S(C
i
; )]
1D
i
.
Comme Q(t) et h(t) ne dpendent pas de on en tire que
L() = const
n

i=1
[ f (T
i
; )]
D
i
[S(C
i
; )]
1D
i
.
On remarque que ce rsultat suit immdiatement du fait que T
1
, T
2
, ..., T
n
forment aussi un
chantillon, o T
i
suit la mme loi H(t; ) = 1S(t; )Q(t) :
H(t; ) = P

T
i
t = 1P

T
i
>t = 1P

min(X
i
,C
i
) >t =
1P

X
i
>t,C
i
>t = 1P

X
i
>tPC
i
>t = 1S(t; )Q(t).
312
6.6 Troncature.
Dnition 1. On dit quil y a troncature gauche (respectivement droite) lorsque la va-
riable dintrt T nest pas observable quand elle est infrieure un seuil c > 0 x
(respectivement suprieure un seuil C > 0 x).
On remarque que ce phnomne de troncature est trs diffrent de celui de la censure,
car dans le cas de la censure, on sait que la variable T, non observe, est suprieure (ou
infrieure) une valeur C qui, elle, a t observe. Donc, la troncature limine de ltude
une partie des T, ce qui a pour consquence que lanalyse pourra porter seulement sur la loi
de T conditionnellement lvnement (c < T C), en cas de troncature gauche et droite
simultanes.
Exemple 1. Soit T une variable alatoire, dont la fonction de rpartition est
F(t) = PT t.
Supposons que T ait pour densit f (t) = F
/
(t), et quil y ait troncature gauche et droite
simultanes : pour cette raison T est observable seulement sur lintervalle ]c,C]. Donc, on
a une distribution tronque dont la fonction de rpartition est
F(t[c < T C) =
_

_
0, si t c,
F(t)F(c)
F(C)F(c)
, si c <t C,
1, si t >C.
En termes de fonction de survie de T,
S(t) = PT >t = 1F(t),
la fonction de survie de la loi tronque est
S(t[c < T C) =
_

_
1, si t c,
S(t)S(C)
S(c)S(C)
, si c <t C,
0, si t >C.
Si C = + et c > 0 on a une troncature gauche,
si c = 0 et C < on a une troncature droite.
Il est facile de vrier que si f (t) existe alors la densit de la loi tronque existe aussi et
f (t[c < T C) =
_
f (t)
F(C)F(c)
=
f (t)
S(c)S(C)
, si c <t C,
0, sinon.
Le risque de panne (t[c < T C) de la loi tronque est
(t[c < T C) =
f (t[c < T C)
S(t[c < T C)
=
f (t)
S(t) S(C)
,
qui peut scrire aussi
(t[c < T C) =
f (t)
S(t)
S(t)
S(t) S(C)
= (t)
S(t)
S(t) S(C)
, c <t C.
313
On remarque que le risque de panne ne dpend que de C. Donc, sil ny a que la troncature
gauche (c > 0,C = ), on a S(C) = 0 et
(t[c < T) = (t),
i.e. la troncature gauche ne change pas le risque de panne, tandis que la troncature droite
augmente ce risque.
Notons T
c,C
la variable alatoire, dont la fonction de rpartition conditionnelle est
F(t[c < T C) = F
c,C
(t).
Il est vident que
C

c
f
c,C
(t)dt = 1.
Nous pouvons calculer aussi son esprance mathmatique
ET
c,C
= ET[c < T C =
C

c
t f
c,C
(t)dt.
Par exemple, si F(t) est la fonction de rpartition de la loi uniforme sur [a, d], i.e.
F(t) =
_
_
_
0, t a,
ta
da
, a <t d,
1, t > d,
et
[c,C] ]a, d[,
alors
F(t[c < T C) =
_

_
0, si t c,
F(t)F(c)
F(C)F(c)
, si c <t C,
1, si t >C,
=
_
_
_
0, si t c,
tc
Cc
, si c <t C,
1, si t >C,
et la distribution tronque est de nouveau uniforme, mais sur lintervalle ]c,C].
(Voir Woodroofe (1985), Huber (1989).)
Exemple 2. Modle de la loi normale tronque. Soit T une dure de survie dont la fonc-
tion de rpartition est
F(t; ,
2
) = P
,
2T t =

_
t

_
1
_

_ 1
[0,[
(t), t R
1
,
o () est la fonction de rpartition de la loi normale standard N(0, 1), [[ < ,
2
> 0.
On dit que la dure de survie T suit la loi normale, tronque au zro. La fonction de survie
de T est
S(t; ,
2
) = 1F(t; ,
2
) =
1
_
t

_ 1
[0,[
(t), t R
1
,
314
et la densit de T est
f (t; ,
2
) =
1

_
_
t

_
1
[0,[
(t), t R
1
,
o () =
/
(), do on tire que le risque de panne (t) est
(t) =

_
t

_
t

_1
[0,[
(t), t R
1
,
puisque (x) +(x) 1, x R
1
.
La vie moyenne ET de T est
ET =


0
S(t; ,
2
)dt =
1

_
t

_
dt =

(u)du =

_
_

_
mu

u(u)du
_
=
+

/
(u)du = +

_

_ > .
Pour tudier le comportement de (t) on remarque que
(x)
_
1
4
x
2
_
< (x) < (x)
_
1+
1
x
2
_
, x > 0, (1)
do on tire immdiatement que
_
1
x

1
x
2
_
(x) < 1(x) <
1
x
(x), x > 0, (2)
puisque
1
x
(x) =


0
(u)
_
1+
1
u
2
_
du
et
_
1
x

1
x
3
_
(x) =


x
(u)
_
1
4
u
2
_
du.
Comme
(t) =

_
t

_
t

_1
[0,[
(t), t R
1
,
de (2) on tire que
1
t

1
t
3
<
1
(t)
<
1
t
,
do on obtient que
lim
t
(t)
t
= 1.
315
6.7 Estimateur de Kaplan-Meier.
Si lon ne peut pas supposer a priori que la loi de la dure de survie X obit un modle
paramtrique, on peut estimer la fonction de survie S(t) grce plusieurs mthodes non-
paramtriques dont la plus intressante est celle de Kaplan-Meier, (1958).
Cet estimateur est aussi appel P-L estimateur car il sobtient comme un produit : la
probabilit de survivre au del de linstant t
(n)
est gale au produit suivant :
S(t
(n)
) = PX >t
(n)
= P(X >t
(n)
[X >t
(n1)
) S(t
(n1)
) =

n
p
t
(n1)
S(t
(n1)
),
o 0 =t
(0)
<t
(1)
< ... <t
(n)
,

n
p
t
(n1)
= S
t
(n1)
(
n
),
n
=t
(n)
t
(n1)
,
t
(n1)
est une date antrieure t
(n)
.
-
t
0 t
(1)

1
t
(2)

2
t
(3)

3
t
(n1)
t
(n)

n
Si on renouvelle lopration en choisissant une date t
(n2)
antrieure t
(n1)
, on aura de
mme
S(t
(n1)
) = PX >t
(n1)
= P(X >t
(n1)
[X >t
(n2)
) S(t
(n2)
),
et ainsi de suite, on obtient la formule :
S(t
(n)
) =
n

i=1

i
p
t
(i1)
=
n

i=1
(1

i
q
t
(i1)
),
sachant que S(0) = 1.
Cet estimateur est bien adopt aux cas de la prsence de la censure. Si on choisit pour
dates o lon conditionne celles o sest produit un vnement, quil sagisse dune mort
ou dune censure, t
(i)
= T
(i)
on aura seulement estimer des quantits de la forme :
p
i
= PX > T
(i)
[X > T
(i1)
=

i
p
T
(i1)
,
qui est la probabilit de survivre pendant lintervalle de temps
i
=]T
(i1)
; T
(i)
] quand on
tait vivant au dbut de cet intervalle. On note que
0 = T
(0)
T
(1)
T
(n)
.
Notons :
R
i
=card R(T

(i)
) le nombre des sujets qui sont vivants juste avant linstant T
(i)
, en dsignant
par R(t

) lensemble des sujets risque linstant t

;
M
i
= le nombre de morts linstant T
(i)
;
q
i
= 1p
i
la probabilit de mourir pendant lintervalle
i
sachant que lon tait vivant au
dbut de cet intervalle.
Alors lestimateur naturel de q
i
est
q
i
=
M
i
R
i
.
316
Supposons dabord quil ny ait pas dex-aequo, i.e. on suppose que
0 = T
(0)
< T
(1)
< < T
(n)
.
Dans ce cas,
si D
(i)
= 1, cest quil y a eu un mort en T
(i)
et donc M
i
= 1,
si D
(i)
= 0, cest quil y a eu une censure en T
(i)
et donc M
i
= 0.
Par suite,
p
i
= 1
M
i
R
i
=
_
1
1
R
i
_
D
(i)
=
_
1
1
R
i
, en cas de mort en T
(i)
,
1, en cas de censure en T
(i)
,
donc p
i
nest diffrent de 1 quaux instants de dcs observs.
Lestimateur de Kaplan-Meier pour la fonction de survie S(t) est :

S(t) =

S
n
(t) =

T
(i)
t
p
i
=

T
(i)
t
_
1
1
R
i
_
D
(i)
=
=

T
(i)
t
_
1
1
ni +1
_
D
(i)
.
Il est vident que en absence de la censure, i.e. si D
i
= 1 pour i, alors

S
n
(t) =
_
_
_
1, t T
(1)
,
ni
n
, T
(i)
t < T
(i+1)
,
0, t T
(n)
.
On remarque que R
i
= ni +1 car, mort ou censur le sujet disparait de ltude.
Il est vident que lestimateur de Kaplan-Meier

F
n
(t) de F(t) = 1S(t) est

F
n
(t) = 1

S
n
(t) =
_

_
0 , si t < T
(1)
,
1
T
(i)
t
_
ni
ni+1
_
D
(i)
, si T
(1)
t < T
(n)
,
1, si t T
n
.
Pour estimer la variance de

S
n
(t), on utilise lapproximation de Greenwood, daprs laquelle
Var
_

S
n
(t)

S
n
(t)

i:T
i
t
D
i
(ni)(ni +1)
.
La moyenne EX
i
de survie X
i
est estime par

0

S
n
(t)dt. Enn on remarque que

A
n
(t) =ln

S
n
(t)
peut-tre considr comme lestimateur de Kaplan-Meier de la fonction de risque cumule
A(t).
Quand n est assez grand pour valuer

A
n
(t) on peut utiliser lapproximation de Nelson :

A
n
(t)

i:T
i
t
D
i
ni +1
,
317
puisque
log
_
1
1
n j +1
_

1
n j +1
,
pour les grandes valeurs de n j +1. La statistique
A

n
(t) =

i:T
i
t
D
i
ni +1
est connue comme lestimateur de Nelson pour le taux de hasard cumul A(t).
Thorme 1. Si les lois F et H de la survie X
i
et de la censure C
i
nont aucune discontinuit
commune, la suite destimateurs

S
n
(t) de Kaplan-Meier de la fonction de survie S(t) est
consistante.
Thorme 2. Si lchantillon X = (X
1
, ..., X
n
)
T
et lchantillon de censure
C = (C
1
, ...,C
n
)
T
sont indpendants, alors dans les conditions du thorme 1

n(

S
n
(t) S(t))
L
W(t), n ,
o W(t) est un processus gaussien centr, EW(t) 0, dont la fonction de covariance est
k(s, t) = EW(s)W(t) = S(s)S(t)

st
0
dF(u)
[1F(u)]
2
[1H(u)]
.
Remarque 1. Il est facile voir que
E

S
n
(t)
S(t T
(n)
)
= 1,
et donc
S(t) = E
S(t)
S(t T
(n)
)

S
n
(t) > E

S
n
(t),
i.e. lestimateur de Kaplan-Meier

S
n
(t) nest pas un estimateur sans biais pour S(t).
Remarque 2. Si S(t) est continue, alors pour t < H
1
(1)

S
n
(t) = S(t) +
1
n
n

i=1

i
(t) +r
n
(t),
o
1
(t) sont i.i.d., E
i
(t) = 0, uniformment bornes sur [0, T], et
sup
t[0,T]
[t
n
(t)[ = O(n
1
logn) (mod P)
quand T < H
1
(1), H(t) = PT
i
t.
Thorme 3. Dans les conditions du thorme 2 lestimateur de Nelson A

n
du taux de
hasard cumul A vrie :

n(

A

n
(t) A(t))
L
W(t), n ,
o W(t) est un processus gaussien centr, EW(t) 0, dont la fonction de corrlation est
k(s, t) = EW(s)W(t) =

t
1
t
2
0
dG(t, 1)
S
2
(t)
,
318
o G(t, 1) = PT
i
t, D
i
= 1.
Exemple 1. Sur 10 patients atteints de cancer des bronches on a observ les dures de survie
suivantes, exprimes en mois :
1 3 4
+
5 7
+
8 9 10
+
11 13
+
.
Les donnes suivies du signe
+
correspondent des patients qui ont t perdues de vue la
date considre, i.e. censures.
Lestimateur de Kaplan-Meier

S(t) =

S
10
(t) de la fonction de survie S(t) vaut :

S(0) = 1 et

S(t) = 1 pour tout t dans [0; 1[

S(t) = (1
1
10
)

S(0) = 0.9, 1 t < 3,

S(t) = (1
1
9
)

S(1) = 0.80, 3 t < 5,

S(t) = (1
1
7
)

S(3) = 0.694, 5 t < 8,

S(t) = (1
1
5
)

S(5) = 0.555, 8 t < 9,

S(t) = (1
1
4
)

S(8) = 0.416, 9 t < 11,

S(t) = (1
1
2
)

S(9) = 0.208.
6
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-
t
(mois)
0 1 2 3 4 5 6 7 8 9 10 11 12 13
a
a
a
a
a
a
a -
-
-
-
-
-
-
Mais la plupart du temps il y a des ex-aequo, comme dans le premier exemple qui est
celui des donnes de Freireich de lexemple suivant.
Exemple 2 (Donnes de Freireich). Ces donnes, trs souvent cites dans la littrature
statistique mdicale car les performances des diverses mthodes sont souvent testes sur
elles, ont t obtenues par Freireich, en 1963, lors dun essai thrapeuti- que ayant pour but
de comparer les dures de rmission, exprimes en semaines, de sujets atteints de leucmie
selon quils ont reu de la 6-mercaptopurine (note 6-MP) ou un placebo. Lessai a t
fait en double aveugle, cest--dire que ni le mdecin, ni le patient ne sont informs de
lattribution du traitement ou du placebo.
Le tableau ci-aprs donne, pour chacun des 42 sujets, la dure de rmission.
Traitement Dure de rmission
6-MP
6, 6, 6, 6
+
, 7, 9
+
, 10, 10
+
, 11
+
, 13, 16, 17
+
,
19
+
, 20
+
, 22, 23, 25
+
, 32
+
, 32
+
, 34
+
, 35
+
.
Placebo
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8,
11, 11, 12, 12, 15, 17, 22, 23.
319
Les chiffres suivis du signe
+
correspondent des patients qui ont t perdus de vue la
date considre. Ils sont donc exclus vivants de ltude et on sait seulement deux que leur
dure de vie est suprieure au nombre indiqu. Par exemple, le quatrime patient trait par
6-MP a eu une dure de rmission suprieure 6 semaines. On dit que les perdus de vue ont
t censurs, et ce problme de censure demande un traitement particulier. En effet, si lon
se contentait dliminer les observations incompltes, cest--dire les 12 patients censurs
du groupe trait par le 6-MP, on perdrait beaucoup dinformation : un test de Wilcoxon
appliqu aux 9 patients restant dans le groupe 6-MP et aux 21 patients du groupe placebo
sous-valuerait trs visiblement leffet du traitement.
Cas o il y a des ex-aequo : 0 = T
(0)
T
(1)
... T
(n)
.
1) Si ces ex-aequo sont tous de morts la seule diffrence tient ce que M
i
nest plus gal
1 mais au nombre des morts et lestimateur de Kaplan-Meier devient :

S(t) =

T
(i)
t
_
1
M
i
R
i
_
.
2) Si ces ex-aequo sont des deux sortes, on considre que les observations non censures
ont lieu juste avant les censures. Voyons ce que donne lestimateur de Kaplan-Meier dans
le cas des donnes de Freireich :
Pour le 6-MP :

S(0) = 1 et

S(t) = 1 pour tout t dans [0; 6[,

S(6) = (1
3
21
)

S(0) = 0.857,

S(7) = (1
1
17
)

S(6) = 0.807,

S(10) = (1
1
15
)

S(7) = 0.753,

S(13) = (1
1
12
)

S(10) = 0.690,

S(16) = (1
1
11
)

S(13) = 0.627,

S(22) = (1
1
7
)

S(16) = 0.538,

S(23) = (1
1
7
)

S(22) = 0.448.
320
Pour le Placebo :

S(t) = 1, 0 t < 1,

S(1) = (1
2
21
)

S(0) = 0.905,

S(2) = (1
2
19
)

S(1) = 0.895,

S(3) = (1
1
17
)

S(2) = 0.842,

S(4) = (1
2
16
)

S(3) = 0.737,

S(5) = (1
2
14
)

S(4) = 0.632,

S(8) = (1
4
12
)

S(5) = 0.421,

S(11) = (1
2
8
)

S(8) = 0.316,

S(12) = (1
2
6
)

S(11) = 0.210,

S(15) = (1
1
4
)

S(12) = 0.158,

S(17) = (1
1
3
)

S(15) = 0.105,

S(22) = (1
1
2
)

S(17) = 0.053,

S(23) = (1
1
1
)

S(22) = 0.
Plus dinformation sur le modle de survie on peut voir dans Kaplan and Meier (1958),
Turnbull (1974),(1976), Kalbeisch and Prentice (1980), Lawless (1982), Droesbeke, Fi-
chet & Tassi (1989), Bagdonavi vius et Nikulin (1995, 1998, 1999).
6.8 Modle de Cox.
Le modle de Cox est employ lorsque on cherche valuer leffet de certaines variables
sur la dure de survie. Daprs ce modle on a les 2n variables alatoires indpendantes
X
1
, X
2
, . . . , X
n
et C
1
,C
2
, . . . ,C
n
que sont les dures de survie et les temps de censures des n individus considrs. En ralit,
on observe la suite des n vecteurs (T
i
, D
i
), o T
i
date de dpart du i-me individu (en sup-
posant quils sont entrs linstant 0), D
i
indicatrice de la cause de dpart (D
i
= 1 si cest
la mort, D
i
= 0 sinon),
D
i
= 1
X
i
C
i

.
Mais on a aussi observ sur chacun des individus un vecteur Z
i
= (Z
i1
, . . . , Z
ip
)
T
dont d-
pend la dure de survie X
i
. Ce vecteur Z est gnralement appel covariable.
Le modle des "hasards proportionnels", ou modle de Cox suppose que
(t[Z = z) =
z
(t) =
0
(t)exp
_

T
z
_
,

T
z =
1
z
1
+
2
z
2
+ +
p
z
p
,
o
T
= (
1
, . . . ,
p
)
T
est le vecteur des coefcient de la regression,
0
(t) est le risque
instantan de base. En gnral, ils sont inconnus tous les deux. Cest pour cela on dit
321
souvent que le modle de Cox est semiparamtrique.
Remarque 1. La famille des loi dun tel modle est du type suivant :
toutes les fonctions de survie sont gales une mme fonction de survie S
0
(t) de base,
leve des puissances varies :
S(t; ) = [S
0
(t)]

,
S
0
(t) = exp
_
_
_

0
(u)du
_
_
_
,
= exp
_
p

j=1

j
z
j
_
= exp
_

T
z
_
.
Exemple 1. Prenons le cas le plus simple : 1 seule covariable (p = 1), Z prenant seulement
les valeurs 0 ou 1. Il peut sagir par exemple dun essai thrapeutique destin comparer
leffet dun nouveau traitement (Z =1 pour les patient traits) celui du traitement habituel
ou dun placebo (Z = 0), sur la dure de survie.
On a alors deux populations :
si Z = 0, S(t) = S
0
(t),
si Z = 1, S
1
(t) = [S
0
(t)]

,
o = e

mesure leffet du traitement.


Ce modle comporte donc un paramtre qui est une fonction
0
, considre en gnral
comme nuisible et p paramtre rels
1
,
2
, . . . ,
p
qui sont les quantits estimer, o
tester, car elles reprsent leffet sur la dure de survie de chacune des covariables corres-
pondantes.
Pour liminer le "paramtre" nuisible totalement inconnu quest le risque instantan de
base
0
(t), Cox (1972) considre la vraisemblance "partielle" suivante
V
C
() =

i:D
(i)
=1
exp
_

T
Z
(i)
_

kR
(i)
exp
_

T
Z
(k)
_,
o T
(1)
< T
(2)
< < T
(n)
dsignent la suite des instant o a lieu un vnement (mort ou
censure), et linstant T
(i)
sont observs :
D
(i)
la nature de lvnement ; D
(i)
= 1, si cest une mort, D
(i)
= 0, si cest une censure ;
Z
(i)
la covariable, de dimension p, de lindividu qui est arriv lvnement ;
R
(i)
lensemble des indices des individus encore risque linstant T

(i)
ainsi que la valeur
de leur covariable, Z
(k)
, k R
(i)
.
Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire.
En temps continu, on fait lhypothse quil ny a aucun ex-aequo, et dans ce cas
L
_

n(

n
)
_
N
_
0, I
1
()
_
,
o

n
est lestimateur de maximum de vraisemblance partielle pour ,
V
C
(

n
) = maxV
C
().
322
6.9 Sur lestimation semiparamtrique pour le modle de
Cox
On observe n individus. Notons X
i
et C
i
les dures de survie et les temps de cen-
sures. On suppose que la dure de survie du i-me individu dpend du vecteur Z
i
() =
(Z
i1
(), ..., Z
ip
())
T
des covariables. Posons
T
i
= X
i
C
i
, D
i
= 1X
i
C
i
.
Nous supposons que les statistiques (X
1
,C
1
), ..., (X
n
,C
n
) soient indpendantes. On a un
chantillon (T
i
, D
i
, Z
i
()), (i = 1, ..., n).
Supposons que la censure est indpendante pour chaque individu, i.e.
ci
(t) =
i
(t)
pour tout t : P(T
i
t) > 0, o

ci
(t) = lim
h0
PT
i
[t, t +h[, D
i
= 1[T
i
t
h
,

i
(t) = lim
h0
PX
i
[t, t +h[[X
i
t
h
.
Supposons que les variables alatoires X
1
, ..., X
n
sont absolument continues. Soient N le
nombre, X
(1)
< ... < X
(N)
les moments des dcs observs, (i) lindice de lindividu dcd
au moment X
(i)
, R
(i)
lensemble des indices des individus risque linstant X

(i)
.
Supposons que le modle de Cox ait vri :

Z
i
()
(t) = e

T
Z
i
(t)

0
(t),
o = (
1
, ...,
p
)
T
est le vecteur des coefcients de regression inconnus,
0
(t) le risque
instantan de base inconnu. Alors
p
i
( j[r, t) = P(i) = j[R
(i)
= r, X
(i)
=t = lim
h0
P(i) = j[R
(i)
= r, X
(i)
[t, t +h) =
lim
h0
P(i) = j, R
(i)
= r, X
(i)
[t, t +h)
PR
(i)
= r, X
(i)
[t, t +h)
=
lim
h0
PT
j
[t, t +h), D
j
= 1, T
l
t, l r j, T
l
<t, l / r

sr
PT
s
[t, t +h), D
s
= 1, T
l
t, l r s, T
l
<t, l / r
=
lim
h0
PT
j
[t, t +h), D
j
= 1
lr j
PT
l
t
l / r
PT
l
<t

sr
PT
s
[t, t +h), D
s
= 1
lrs
PT
l
t
l / r
PT
l
<t
=
lim
h0
PT
j
[t, t +h), D
j
= 1[T
j
t
lr
PT
l
t

sr
PX
s
[t, t +h), D
s
= 1[T
s
t
lr
PT
l
t
=

c j
(t)

sr

cs
(t)
=

j
(t)

sr

s
(t)
=
e

T
Z
j
(t)

sr
e

T
Z
s
(t)
.
323
La fonction de vraisemblance partielle est dtermine comme le produit
L() =
N

i=1
p((i)[R
(i)
; X
(i)
) =
N

i=1
e

T
Z
(i)
(X
(i)
)

sR
(i)
e

T
Z
s
(X
(i)
)
.
Alors
logL() =
N

i=1

T
Z
(i)
(X
(i)
)
N

i=1
log

sR
(i)
e

T
Z
s
(X
(i)
)
et
U() =
logL()

=
N

i=1
Z
(i)
(X
(i)
)
N

i=1

sR
(i)
Z
s
(X
(i)
)e

T
Z
s
(X
(i)
)

sR
(i)
e

T
Z
s
(X
(i)
)
.
Lestimateur

vrie lquation U(

) = 0
p
.
Alors on peut dmontrer (voir la section suivante) que
EN(t) = E

t
0
S
(0)
(u, )
0
(u)du,
o
S
(0)
(u, ) =
n

i=1
e

T
Z
i
(u)
Y
i
(u).
Cela implique lestimateur

A
0
(t) pour la fonction A
0
(t) =

t
0

0
(u)du :
N(t) =

t
0
S
(0)
(u,

)d

A
0
(u),
do

A
0
(t) =

t
0
dN(u)
S
(0)
(u,

)
.
Lestimateur de la fonction
A
Z()
(t) =

t
0
e

T
Z(u)
dA
0
(u)
est

A
Z()
(t) =

t
0
e

T
Z(u)
dN(u)
S
(0)
(u,

)
,
et lestimateur de la fonction de survie S
Z()
(t) = e
A
Z()
(t)
:

S
Z()
(t) = e

A
Z()
(t)
.
Les rsultats obtenus nous permettent de construire des tests statistiques pour beaucoup de
problmes importants.
Test dhomognit Considrons lhypothse
H
0
:
1
=
2
= =
p
= 0
324
Sous cette hyphothse la loi de survie ne dpend pas des covariables. Elle peut etre vrie
en utilisant plusieurs tests.
a) Test du score
Sous H
0
:
U(0) N(0, (0)),
o
U(0) =
k

i=1
_
z(X
(i)
)

sR
i
z
s
(X
(i)
)
n
i
_
,
(0) =
k

i=1
_

jR
i
z
r j
(X
(i)
)z
s j
(X
(i)
)
n
i

jR
i
z
r j
(X
(i)
)
n
i

jR
i
z
s j
(X
(i)
)
n
i
_
n
i
=Y(T
(0)
i
) est le nombre des sujets risque juste avant T
(0)
i
. Donc
U
T
(0)(0)
1
U(0)
2
(p).
On rejette H
0
au niveau de signication , si
U
T
(0)(0)
1
U(0) >
2
1
(p).
b) Test de Wald
Sous H
0

N(0,
1
(0)).
Donc

T
(0))


2
(p).
On rejette H
0
au niveau de signication , si

T
(0))

>
2
1
(p).
c) Test du rapport de vraisemblance
On peut montrer que
2(lnL() lnL(

)
2
(p).
Sous H
0
2(lnL(0) lnL(

))
2
(p).
Notons que
lnL(0) =
k

i=1
lnn
i
,
lnL(

) =
k

i=1
_

T
z
i
(X
(i)
) ln

sR
i
e

T
z
l
(X
(i)
)
_
.
On rejette H
0
, si
2(lnL(0) lnL(

)) >
2
1
(p).
Si la seule caractristique dun individu est son appartenance un groupe :
z(t) =
_
1 pour les individus du 1 groupe
0 pour les individus du 2 groupe,
325
le modle de Cox a la forme
h(t [ z) =
_
e

h
0
(t) pour les individus du 1 groupe
h
0
(t) pour les individus du 2 groupe.
Dans ce cas lhypothse H
0
: =0 signie legalit des fonctions de risque de deux groupes
qui est equivalent legalit

des fonctions de survie. Donc les tests du score, de Wald et du


rapport de vraisemblance vrient lhypothses de legalit des lois des deux groupes.
Modle strati
Supposons quon tudie leffet des sous covariables z
(s)
= (z
1
, , z
s
) du vecteur des
covariables z
(p)
= (z
1
, , z
p
) (p > s) sur la survie, mais le modle de Cox nest pas vri
par rapport z
(p)
. Parfois la modication suivante du modle peut tre utile.
Supposons que la rgion des valeurs de z
s+1
, , z
p
est divise en q strates et pour des
sujets de j-me strate le modle de Cox est vri :
h
j
(t [ z
(s)
) = e
(
(s)
))
T
z
(s)
)(t)
h
0j
(t) ( j = 1 q).
Pour chaque strate la fonction de risque de base est differente mais leffet des covariables
z
(s)
est le mme pour toutes strates.
Pour estimer , on commence par la vraisemblance partielle L
j
linterieur de chaque
strate.
La vraisemblance partielle pour tous les sujets est le produit de toutes les vraisem-
blances :
L(
(s)
) =
s

j=1
L
j
.
Test graphique du modle
Si des covariables sont constantes en temps, alors sous le modle de Cox
H(t [ z) =lnS(t [ z) = e

T
z
H
0
(t)
et donc
lnH(t [ z) =
T
z +lnH
0
(t).
Sous des valeures differents de z les graphes des fonctions lnH(t [ z) sont parallls. Donc,
si z est discrte avec valeurs z
(1)
, , z
(s)
, alors on considre les graphs des estimateurs
ln

H(t [ z
( j)
) ( j = 1, , s)
Sous le modle de Cox ces graphs sont approximativement parallels.
Test de lhypothse H
l
:
l+1
= =
p
= 0
Considrons le problme de la vrication de lhypothse
H
l
:
l+1
= =
p
= 0,
o l =1, , p1. Sous H
l
les covariables z
l+1
, , z
p
namliorent pas la prdiction. Donc
si H
l
est vri, on peut exclure ces covariables du modle.
a) Test du rapport de vraisemblance
Soient
h(t [ z
(l)
) = e
(
(l)
))
T
z
(l)
)(t)
h
0
(t)
326
et
h(t [ z
(p)
) = e
(
(p)
))
T
z
(p)
)(t)
h
0
(t)
les modles de Cox avec l et p covariables,respectivement. Alors
2(lnL
l
(
(l)
) lnL
l
(

(l)
))
2
(l),
2(lnL
p
(
(p)
) lnL
p
(

(p)
))
2
(p)
Sous H
l
:
L
l
(
(l)
) = L
p
((
(l)
, 0))
et la difference
L
l,p
=2(lnL
l
(
(l)
) lnL
p
(

(p)
))
2
(pl),
Donc H
l
est rejete si
L
l,p
>
2
1
(pl).
Lhypothse la plus intressante de point de vue pratique est
H
p1
:
p
= 0.
Elle signie que le modle avec (p1) covariables z
1
, , z
p1
donne la mme prediction
que le mod
`
le avec (p) covariables z
1
, , z
p
, i.e. la covariable z
p
peut tre exclue du modle.
Lhypothse H
p1
est rejete, si
L
p1,p
>
2
1
(1).
b) Test de Wald
On crit linverse da la matrice dinformation de Fisher sous la forme

1
() =
o A
11
() et A
22
() ont les dimentions l l et (pl) (pl). Alors
(

l+1
, ,

p
) N
pl
((
l+1
, ,
p
), A
22
()).
Sous H
l
:
W
l,p
= (

l+1
, ,

p
)
T
A
1
22
(

1
, ,

l
, 0, , 0)(

l+1
, ,

p
)
2
(pl).
Lhypothse H
l
:
l+1
= =
p
= 0 est rejete, si
W
l,p
>
2
1
(pl)
Si l = p1, alors
W
p1,p
=

2
p
/A
22
(

1
, ,

p1
, 0)
et lhypothse H
p1
:
p
= 0 est rejete, si
W
p1,p
>
2
1
(1).
327
6.10 Processus de comptage et lestimation non param-
trique
Soient X et C la dure de vie et le moment de censure, respectivement,
T = X C, = I(X C), N(t) = I(T t, = 1), Y(t) = I(T t).
N(t) est le nombre des pannes observes dans lintervalle [0, ], Y(t) est le nombre des
units risque au moment t. N(t) et Y(t) peuvent prendre des valeurs 0 et 1. On suppose
que la variable alatoire X est absolument continue et pour tout t tel que PT t > 0 il
existe la limite

c
(t) = lim
h0
PT [t, t +h[, = 1[T t
h
.

c
(t) montre le risque de panne aprs ou au moment t sachant que une unit tait risque
(pas censure et pas en panne) juste avant le moment t.
On dit que la censure est indpendante, si

c
(t) = (t) = lim
h0
PX [t, t +h[[X t
h
pour tous t : PT t > 0.
Donc la censure ne inuence pas le risque de panne dune unit qui est risque.
Notons que

c
(t) = lim
h0
Pt X <t +h, X C
hPX t,C t
=
lim
h0
PX C[t X <t +hPt X <t +h
hPX t,C t
=
PC X[X =t f
X
(t)
PX t,C t
=
f
X
(t)
S
X
(t)
.
Donc lgalit
c
(t) = (t) est quivalente lgalit
PC t[X =t =
PX t,C t
S
X
(t)
.
Si X et C sont indpendantes, cette galit est videment vrie. De lautre ct on peut
faire aussi une remarque intressante :

c
(t) = lim
h0
Pt X <t +h,C t
h PX t,C t
=

1
PX t,C t

s
[PX s,C t] [
s=t
.
Exemple. Soit le vecteur (X,C) ait une loi exponentielle de trois paramtres > 0, >
0, > 0 :
PX t,C s = exp(t s ts), t > 0, s > 0,
328
do on tire que X suit une loi exponentielle de paramtre ,
PX = exp(t),
et donc (t) = . De lautre ct en utilisant la dernire remarque on trouve que

c
(t) =
1
PX t,C t

s
[PX s,C t] [
s=t
= +t,
et donc on voit que dans cet exemple la censure nest indpendante.
Notons
M(t) = N(t)

t
0
Y(u)(u)du.
Proposition. Si la censure est indpendante, alors EM(t) = 0 pour tout t tel que PT
t > 0.
Preuve. Lgalit
PC t[X =t =
PX t,C t
S
X
(t)
.
implique
EM(t) = EN(t)

t
0
EY(u)(u)du =
PX t, X C

t
0
PX u,C u(u)du =

t
0
PC u[X = u f
X
(u)du

t
0
PC u[X = uS
X
(u)(u)du = 0.
La proposition est dmontre.
De plus on peut montrer le processus M(t) est une martingale par rapport la ltration
F
t
, t 0, o F
t
est la -algbre engendre par les processus N(t) et Y(t) :
F
t
= N(s),Y(s) : 0 s t.
Dans ce cas on a :
EM(t)[F
s
= M(s), pour t s,
ou
EN(t) N(s)[F
s
= E
_

t
s
Y(u)(u)du[F
s
_
,
do on tire que
lim
h0
1
h
EN(t) N(s)[F
s
=
lim
h0
E
_

s+h
s
Y(u)(u)du[F
s
_
= E Y(s)(s)[F
s
=Y(s)(s).
Cette relation montre que le processus
(t) =Y(t)(t)
est lintensite du processus de comptage N(t). Il reprsente le risque instantan observable
au moment t. On dit aussi que lintensit (t) est lintensit multiplicative parce que dans
329
ce modle elle est le produit dun terme dterministe, (t), et dun processus Y(t), qui est
prvisible, cest--dire sa valeur au moment t est connue si lhistoire dans lintervalle [0, t[ :
F
t
= N(s),Y(s) : 0 s <t
est connue.
Nous allons appliquer ces rsultats dans la situation quand on observe n individus. No-
tons X
i
et C
i
les dures de survie et les temps de censures. Posons
T
i
= X
i
C
i
, D
i
= 1X
i
C
i
.
On a un chantillon (T
i
, D
i
), (i = 1, ..., n).
Supposons que la censure est indpendante pour chaque individu et que les variables
alatoires X
1
, ..., X
n
sont absolument continues.
Notons
N
i
(t) = IT
i
t, D
i
= 1, Y
i
(t) = IT
i
t,
N(t) =
n

i=1
N
i
(t), Y(t) =
n

i=1
Y
i
(t).
N(t) est un processus de comptage du nombre de dfaillances observes sur [0, t] par sa
valeur linstant t. Le processus N(t) est un processus cadlag : ses trajectoires sont des
fonctions continues droite et limites gauche. Enn, le processus Y(t) reprsente le
nombre des sujets "risque" juste avant linstant t, i.e. Y(t) montre le nombre de donnes
restant encore en vie.
On introduit la ltration F
t
engendre par tous les processus N
i
(s) et Y
i
(s) :
F
t
= N
i
(s),Y
i
(s) : 0 s t (i = 1, ..., n),
qui reprsente lhistoire des dfaillances et des censures observes jusqu linstant t. No-
tons

i
(t) =

t
0

i
(s)ds.
Parce que
M
i
(t) = N
i
(t)
i
(t)
est une martingale avec EM
i
(t) = 0, on dit que
i
(t) est le compensateur du processus
de comptage N
i
(t).
De mme le processus
(t) =

t
0
(s)ds =

t
0
Y(s)(s)ds =

t
0
Y(s)dA(s)
est lintensit cumule du processus de comptage N(t), o
(t) =
n

i=1

i
(t),
do on obtient la dcomposition de Doob-Meyer pour le processus N(t) :
N(t) = (t) +M(t),
330
o M(t) =
n
i=1
M
i
(t) est une F
t
-martingale,
EM(t)[F
s
= M(s).
On dit que (t) est le le compensateur du processus de comptage N(t). Introduisons le
processus
J(t) = I
Y(t)>0
, t > 0.
Pour estimer le taux de panne cumul A(t) on utilise la mthode des moments. Parce que
EN(t)

t
0
Y(s)dA(s) = 0,
on en tire que pour trouver lestimateur

A
n
(t) il nous faut rsoudre lquation suivante :
dN(t) Y(t) dA(t) = 0,
do on obtient lquation
dA(t) = J(t)
dN(t)
Y(t)
,
ce qui nous donne le fameux estimateur de Nelson-Aalen :

A
n
(t) =

t
0
J(u)
dN(u)
Y(u)
=

t
0
dN(u)
Y(u)
o = maxX
i
. Pour tudier les prorits de lestimateur Nelson-Aalen on utilise la relation
suivante :

A
n
(t) A(t) =

t
0
J(u)
dN(u)
Y(u)
J(u)dA(u) =

t
0
J(u)
dN(u) Y(u)dA(u)
Y(u)
=

t
0
J(u)
dM(u)
Y(u)
,
o M(t) est la martingale dnie plus haut, et donc

A
n
(t) A(t) est une F
t
-martingale, et
donc pour nos tudes nous povons appliquer les rsultas de R. Rebolledo (Central Limit
Theorems for Local Martingales, 1984).
On va prsenter lestimateur de Nelson-Aalen en terme dune somme.
Soit T
(1)
< T
(2)
< < T
(n)
la suite des instants o a lieu un vnement (mort ou cen-
sure). A chaque instant T
(i)
est observe D
(i)
- la nature de lvnement :
D
(i)
= 1, si cest une mort, D
(i)
= 0, si cest une censure. Il est vident que
Y(T
(i)
) = ni +1,
do on tire lestimateur de Nelson pour le taux de hazard cumul A(t) :

A
n
(t) =

i:T
(i)
t
D
(i)
ni +1
=

i:T
i
t
D
i
ni +1
.
Ayant lestimateur dAalen-Nelson pour le risque cumul A(t) on peut facilement obte-
nir le product-limite (Kaplan-Meier) estimateur

S
n
(t) pour la fonction de survie S(t) =
expA(t) :

S
n
(t) =

0<s<t
_
1
N(s)
Y(s)
_
,
331
o N(t) = N(t) N(t

) est un processus F
t
-prvisible.
Pour obtenir cette formule on note dabord que de lquation
dS(t) =S(t)dA(t), S(0) = 1,
il suit que
S(t) = 1

t
0
S(u)dA(u) = 1

t
0
S(u)dA(u).
Puisque
d

A
n
(t) =
dN(t)
Y(t)
on en tire que on a :

S
n
(t) = 1

t
0
S(u)
Y(u)
dN(u)
et
d

S
n
(t) =

S
n
(t)
Y(t)
dN(t).
Donc

S
n
(t)

S
n
(t) =

t
0
S
n
(u)
Y(u)
dN(u)

t
0
S
n
(u)
Y(u)
dN(u) =

S
n
(t)
Y(t)
N(t),
do on tire que

S
n
(t) =

S
n
(t)
_
1
N(t)
Y(t)
_
,

S
n
(0) = 1,
et par la suit on obtient la formule de Kaplan-Meier :

S
n
(t) =

0<s<t
_
1
N(s)
Y(s)
_
.
Le thorme suivant permet dtudier les proprits asymptotiques de lestimateur de Kaplan-
Meier.
Thorme 4. Si S(t) > 0 alors

S
n
(t)
S(t)
= 1

t
0

S
n
(u)
S(u)Y(u)
dM(u).
Dmonstration. On remarque dabord que

t
0
u(s)dv(s) = u(t)v(t) u(0)v(0)

t
0
v(s)du(s).
En utilisant cette relation on trouve que

t
0

S
n
(u)d
1
S(u)
=

S
n
(t)
S(t)

S
n
(0)
S(0)

t
0
1

S(u)
d

S
n
(u).
Donc

S
n
(t)
S(t)
= 1

t
0

S
n
(u)
S
2
(u)
dS(u) +

t
0
1
S
(
u)
d

S
n
(u).
332
Puisque on a
dS(t) =S(t)dA(t), d

S
n
(t) =

S
n
(t)
Y(t)
dN(t),
et
dN(t) = dM(t) +Y(t)dA(t),
on trouve que

S
n
(t)
S(t)
= 1+

t
0

S
n
(u)
S(u)
dA(u)

t
0

S
n
(u)
S(u)Y(u)
dN(u) =
1

t
0

S
n
(u)
S(u)Y(u)
dM(u).
Le thorme est dmontr.
Ce thorme nous permet de calculer
Var

S
n
(t) = E
_
S(t)

t
0

S
n
(u)IN(u) > 0
S(u)Y(u)
dM(u)
_
2
,
do on obtient son estimateur

Var

S
n
(t) =

S
2
n
(t)

t
0
dN(u)
(Y(u) N(u))Y(u)
,
connu comme la formule de Greenwood.
11. Comparaison des fonctions de survie
Supposons quon a deux groupes des individus (units). Le i- me groupe a n
i
individus.
Pour le premier groupe on a un chantillon
(X
11
,
11
), ..., (X
1n
1
,
1n
1
),
o en forme quivalente
(N
11
(t),Y
11
(t), t 0), ..., (N
1n
1
(t),Y
1n
1
(t), t 0).
Pour le deuxime groupe on observe
(X
21
,
21
), ..., (X
2n
2
,
2n
2
),
o
(N
21
(t),Y
21
(t), t 0), ..., (N
2n
2
(t),Y
2n
2
(t), t 0).
Soit S
i
(t) la fonction de survie du i-me groupe. On va tester lhypothse
H
0
: S
1
(t) = S
2
(t) t 0.
Notons H
i
(t) =lnS
i
(t) la fonction de risque cumul pour le i-me groupe.
333
Lestimateur de Nelson-Aalen pour H
i
(t) est

H
i
(t) =

t
0
dN
i
(u)
Y
i
(u)
.
Si lhypothse H
0
est vrie, alors les estimateurs

H
1
(t) et

H
2
(t) doivent tre proches.
Donc le test est bas sur la statistique
V =


0
K(u)d(

H
1
(u)

H
2
(u)) =


0
K(u)
dN
1
(u)
Y
1
(u)


0
K(u)
dN
2
(u)
Y
2
(u)
,
o K(u) est le poids,
N
i
(u) =
n
i

j=1
N
i j
(u), Y
i
(u) =
n
i

j=1
Y
i j
(u).
Sous lhypothse H
0
les valeurs de la statistique V sont disperses autour de zero.
En choisissant des poids diffrents, on obtient des statistiques diffrentes :
1. Test de logrank (Cox, Mantel - Haenchel) :
K
L
(u) = a
n
Y
1
(u)/n
1
Y
2
(u)/n
2
Y(u)/n
,
o Y =Y
1
+Y
2
, n = n
1
+n
2
, a
n
=
_
n
1
n
2
n
.
2. Test de Tarone-Ware :
K
TW
(u) = a
n
Y
1
(u)/n
1
Y
2
(u)/n
2
_
Y(u)/n
.
3. Test de Gehan (gnralisation du test de Wilcoxon) :
K
G
(u) = a
n
Y
1
(u)
n
1
Y
2
(u)
n
2
.
4. Test de Prentice :
K
P
(u) = a
n

S(u)
Y(u)
Y(u) +1
,
o

S(u) =

vu
_
1
N(v)
Y(v) +1
_
, N = N
1
+N
2
, N(u) = N(u) N(u).
5. Test de Efron :
K
E
(u) = a
n

S
1
(u)

S
2
(u)1
Y
1
(u)Y
2
(u)>0
,
o

S
i
est lestimateur de Kaplan-Meier de S
i
.
334
Si n
1
et n
2
sont grands, la loi de V est approche par la loi normale :
V N(0,
2
),
et la variance
2
est estime par :

2
=


0
K
2
(u)
Y
1
(u)Y
2
(u)
_
1
N(u) 1
Y(u) 1
_
dN(u)
P

2
, E
2
=
2
.
Donc
V
2

2

2
(1)
et H
0
est rejete au niveau de signication si
V
2

2
>
2
1
(1).
Des integrals peuvent tre crites en terme des sommes :
V =
m
1

j=1
K(T
0
1j
)
d
1j
n
1j

m
2

j=1
K(T
0
2 j
)
d
2j
n
2j
,
o
T
0
i1
< ... < T
0
im
i
sont des moments distincts des dcs observs du i-me groupe,
d
i j
est le nombre des dcs au moment T
0
i j
pour le i-me groupe,
n
i j
- le nombre des individus risque juste avant le moment T
0
i j
pour le i - me groupe.
Par exemple, pour le test de Gehan
V
G
=


0
K
G
(u)
_
dN
1
(u)
Y
1
(u)

dN
2
(u)
Y
2
(u)
_
=
m
1

j=1
K
G
(T
0
1 j
)
d
1 j
n
1 j

m
2

j=1
K
G
(T
0
2 j
)
d
2j
n
2j
=
a
n
n
1
n
2
_
m
1

j=1
n
2j
d
1 j

m
2

j=1
n
1 j
d
2j
_
.
Considrons une autre expression pour ce test. Notons T

1
<... <T

m
les moments des dcs
observs de tous n = n
1
+n
2
individus,
D
i j
, N
i j
les nombres des dcs au moment T

j
et les nombres des individus risque juste
avant T

j
pour les individus de i-me groupe,
D
j
= D
1 j
+D
2j
, N
j
= N
1 j
+N
2 j
;
Ici D
j
> 0 mais il est possible que D
1 j
= 0 ou D
2 j
= 0. Alors
V
G
=


0
K
G
_
dN
1
(u)
Y
1
(u)

dN
2
(u)
Y
2
(u)
_
=
a
n
n
1
n
2
_


0
Y
2
(u)dN
1
(u)


0
Y
1
(u)dN
2
(u)
_
=
a
n
n
1
n
2
_
m

j=1
N
2 j
D
1 j

j=1
N
1j
D
2j
_
=
335
a
n
n
1
n
2
m

j=1
_
N
2j
D
1j
+N
1 j
D
1 j
N
1 j
D
2 j
_
=
a
n
n
1
n
2
m

j=1
_
N
j
D
1 j
N
1 j
D
j
_
=
a
n
n
1
n
2
m

j=1
N
j
_
D
1 j
D
j
N
1 j
N
j
_
.
Dans la dernire formule D
1 j
reprsente le nombre des dcs du premier groupe au moment
T

j
, E
1j
= D
j
N
1j
N
j
reprsente sous lhypothse H
0
le nombre expect des dcs du premier
groupe sachant que le nombre des dcs de tous les deux groupes est D
j
et la proportion
des individus risque juste avant T

j
est
N
1j
N
j
. Donc
V
G
=
a
n
n
1
n
2
m

j=1
N
j
(D
1 j
E
1 j
).
Si des autres statistiques sont considres, les poids associs (D
1 j
E
1j
) sont diffrents :
V
L
= a
n
n
n
1
n
2
m

j=1
(D
1 j
E
1 j
);
V
TW
= a
n

n
n
1
n
2
m

j=1
_
N
j
(D
1j
E
1j
);
V
P
= a
n
m

j=1

S(T
0
j
)
N
2
j
(N
j
+1)N
1j
N
2 j
(D
1 j
E
1 j
);
V
E
= a
n
m

j=1

S
1
(T
0
j
)

S
2
(T
0
j
)
N
1j
N
2 j
N
j
1
N
1j
N
2 j
>0
.
Lestimateur de la variance
2
de la statistique V peut tre donne en terme des sommes :

2
=
m

j=1
K
2
(T
0
j
)
N
1j
N
2J
_
1
D
j
1
N
j
1
_
D
j
.
6.11 Estimation dans des expriences acclres
6.11.1 Modles de vie acclre
Supposons que des units sont trs ables et il ny a pas de possibilit dobtenir des
pannes pendant le temps t donn par exprience. Dans ce cas on effectue des expriences
sous des stress qui sont suprieurs au stress usuel. On appele ces expriences expriences
acclres. Lapplication des stress acclrs racourci la dure de vie des units et des
pannes peuvent se produire pendant le temps t. Des exemples des stress : temprature,
voltage, poids etc.
336
Dans le cas gnral des stress x peuvent varier en temps et peuvent tre multidimension-
nels :
x = x(), 0, o x : [0, [B R
m
.
Supposons que la dure de vie T
x()
sous le stress x() est la variable alatoire non-
ngative absolument continue de fonction de survie
S
x()
(t) = PT
x()
>t, t 0.
Considrons un ensemble des stress E. Formelement, on dit quun stress x
1
() est suprieur
un stress x
0
(), si S
x
0
()
(t) S
x
1
()
(t) pour tout t 0.
Le but dexpriences acclrs est destimer la abilit des units correspondante aux
conditions usuelles x
0
de fonctionnement en utilisant des donnes de ces expriences. La
solution de ce problme exige construction des modles qui dterminent de quelle faon
la fonction de survie S
x()
ou une autre caractristique (la densit, le taux de pannes, etc. )
change quand on change le stress x().
Soit f
x()
(t) = S
1
x
0
S
x()
(t), o x
0
E est un stress usuel, S
1
x
0
= infs : S
x
0
(s) p est
la fonction inverse de S
x
0
. Alors pour tout x() E
PT
x
0
f
x()
(t) = PT
x()
t.
Pour tout x() E la probabilit de survivre jusquau moment t sous le stress x() est
la mme que la probabilit de survivre jusquau moment f
x()
(t) sous le stress x
0
(t). Le
nombre f
x()
(t) est appel la ressource utilis sous le stress x() jusquau moment t. Il est
clair que f
x()
(0) = 0 pour tout x() E. La variable alatoire R = f
x()
(T
x()
) est la res-
source utilis sous le stress x() jusquau la panne. La fonction de survie de R est S
x
0
et ne
dpend pas de x().
Le modle de vie acclre (VA) est vrif sur E siil existe une fonction r : E R
+
telle que pour tout x() E
d
dt
f
x()
(t) = r[x(t)]. (1)
Le modle VA signie que la vitesse dutilisation de la ressource au moment t ne dpend
que de la valeur du stress appliqu au moment t. La formule (1) implique que
S
x()
(t) = S
x
0
_

t
0
r[x()]d
_
. (2)
Nous nous bornons au modle (2). Pour nombreuses gnralisations et applications voir
Bagdonavi cius & Nikulin (1995, 1997, 1998), voir aussi L.Gerville-Rache & V.Nikoulina
(1998), V. Bagdonavi cius, L.Gerville-Rache, V.Nikoulina & M.Nikulin (2000).
Dans le cas x() x = const le modle (2) implique
S
x
(t) = S
x
0
(r(x)t), (3)
donc le stress ne change que lchelle. Notons que r(x
0
) = 1.
Considrons deux plans dexpriences acclres possibles.
Le premier plan : Soient x
1
, ..., x
k
des stress acclrs : x
0
< x
1
< ... < x
k
et x
0
le stress
usuel. k groupes dunits sont observs. On teste le ime groupe sous le stress x
i
. Donc le
stress usuel x
0
nest pas utilis.
337
Le deuxime plan peut tre utilis si le coefcient de variation de la dure de vie sous
le stress usuel x
0
nest pas trs grand et la plupart des pannes se produisent dans un certain
intervalle [s
1
, s
2
], o s
1
est suprieur au temps t donn pour lexprience. Alors on peut faire
deux expriences : lune sous un stress acclr x
1
et une autre sous le stress x
1
jusquau
moment t
1
< t, en remplaant le stress x
1
par le stress usuel x
0
au moment t
1
. Des units
utilisent beaucoup de ses ressources jusquau moment t
1
sous le stress x
1
donc mme
sous le stress usuel x
0
on peut obtenir des pannes dans lintervalle [t
1
, t]
Dans le cas du premier plan dexpriences on na pas dexprience sous le stress usuel
x
0
. Si la fonction r(t) est completement inconnue, la fonction S
x
0
ne peut pas tre estime
mme si lon connat la famille des distributions laquelle elle appartient.
Par exemple, si S
x
0
(t) = e
(t/)

, alors
S
x
(t) = exp
_

_
r(x)

t
_

_
.
Les paramtres ,
r(x
1
)

, ...,
r(x
k
)

et les fonctions S
x
1
, ..., S
x
k
peuvent tre estims mais puisque
r est compltement inconnu, r(x
0
) et donc S
x
0
(t) ne peuvent pas tre estims.
Donc la fonction r doit tre choisie dans une certaine classe des fonctions.
Considrons choix possible de la fonction r(x). Si le modle (3) est vri sur un en-
semble des stress E, alors pour tous x
1
, x
2
E
S
x
2
(t) = S
x
1
((x
1
, x
2
)t),
o (x
1
, x
2
) = r(x
2
)/r(x
1
) montre comment lchelle de distribution change quand le stress
x
2
est utilis au lieu du stress x
1
. Il est vident que (x, x) = 1. Supposons que des stress
x E sont unidimensionnels : E R. Le taux de changement dchle est dtermin par
la drive
(x) = lim
x0
(x, x +x) (x, x)
x
= [logr(x)]
/
.
Donc pour tout x E
r(x) = exp
_

x
x
0
(v)dv
_
.
Supposons que (x) est proportionnelle une fonction connue u(x) de stress :
(x) = u(x), > 0. (4)
Alors
r(x) = e

0
+
1
z(x)
,
o z(x) est une fonction connue,
0
,
1
- des paramtres inconnus.
Des cas particulers :
a). (x) = , i.e. le taux de changement de lchelle est constant. Alors
r(x) = e

0
+
1
x
,
o
1
> 0. Cest le modle loglinaire. Ce modle est appliqu pour analyser des donns de
fatigue, testant divers composantes lectroniques.
338
b). (x) = /x, alors
r(x) = e

0
+
1
logx
= x

1
,
o
1
> 0. Cest le modle de la rgle de puissance (power rule model).
Ce modle est appliqu quand le stress est le voltage, la charge mcanique.
c). (x) = /x
2
, alors
r(x) = e

0
+
1
/x
= e

1
/x
,
o
1
< 0. Cest le modle dArrhnius.
Ce modle est largement appliqu quand le stress est la temprature.
Sil nest pas clair laquelle de ces trois paramtrisations de r(x) choisir, on peut consi-
drer la plus large paramtrisation :
(x) = x

,
qui est quivalente
r(x) =
_
e

0
+
1
(x

1)/
, si ,= 0,
e

0
+
1
logx
, si = 0.
Dans le cas du deuxime plan la paramtrisation de r nest pas ncessaire. Si le premier
groupe est test sous le stress acclr x
1
et le deuxime groupe sous le stress
x
2
(t) =
_
x
1
, 0 t
1
,
x
0
, t
1
< t
2
,
alors
S
x
1
(u) = S
x
0
(ru),
S
x
2
()
(u) =
_
S
x
0
(ru), 0 u t
1
,
S
x
0
(r(ut
1
) +(ut
1
) 0), t
1
< u t
2
,
o r = r(x
1
)/r(x
0
). Les fonctions S
x
1
et S
x
2
()
peuvent tre toujours estimes. On verra plus
tard que des estimateurs de r et conscutivement de S
x
0
peuvent tre obtenues mme dans
le cas quand la fonction S
x
0
est compltement inconnue.
Le modle (4) peut tre gnralis, en supposant que (x) est la combinaison linaire
des fonctions connues du stress :
(x) =
k

i=1

i
u
i
(x).
Dans ce cas
r(x) = exp
0
+
k

i=1

i
z
i
(x),
o r
i
(x) sont des fonctions du stress connus,
0
, ...,
k
des paramtres inconnus (peut tre
pas tous).
Exemple.
1. (x) = 1/x +/x
2
.
Alors r(x) = e

0
+
1
logx+
2
/x
=
1
xe

2
/x
, o
1
= 1,
2
< 0. Cest le modle dEyring,
on lapplique souvent quand le stress est une temprature.
2. (x) =
k
i=1

i
/x
i
. Alors
r(x) = exp
0
+
1
logx +
k1

i=1

i
/x
i
.
339
Cest le modle dEyring gnralis.
Le stress peut tre multidimensionnel : x = (x
1
, ..., x
m
)
T
. Alors on considre des carac-
tristiques innitsimales
i
(x) donnes par des galits :

i
(x) = lim
x
i
0
(x, x +x
i
e
i
) (x, x)
x
i
=
logr(x)
x
i
,
o e
i
= (0, ..., 1, ..., 0). Lunit est dans la i-me coordon.
Gnralisant le cas unidimensionnel,
i
(x) peut tre paramtris de faon suivant

i
(x) =
k
i

j=1

i j
u
i j
(x),
o u
i j
(x) sont des fonctions connues,
i j
-des constantes inconnues. Dans ce cas
r(x) = exp
0
+
m

i=1
k
i

j=1

i j
z
i j
(x),
o z
i j
(x) sont des fonctions connues,
i j
sont des constantes inconnues.
Exemples.
1.
1
(x) = 1/x
1
+(
11
+
12
x
2
)/x
2
1
,
2
(x) =
21
+
22
/x
1
.
Cest le modle dEyring gnralis. On lapplique pour certains matriels des semi-
conducteurs, quand x
1
est la temprature et x
2
est le voltage.
2.
i
(x) =
i
u
i
(x
i
),
o u
i
sont connues. Alors
r(x) = exp
m

i=1

x
i
x
0
i
u
i
(v)dv = exp
0
+
m

i=1

i
z
i
(x
i
),
o z
j
sont des fonctions connues. Cest le modle dArrhnius gnralis.
Donc dans tous les cas considrs les modles (2) et (3) peuvent tre crits sous la forme
S
x()
(t) = S
x
0
_

t
0
e

T
z()
d
_
, (5)
ou
S
x
(t) = S
x
0
_
e

T
z
t
_
, (6)
o = (
0
, ...,
m
)
T
est un vecteur des paramtres,
z(t) = (z
0
(t), ..., z
m
(t))
T
= (z
0
(x(t)), ..., z
m
(x(t)))
T
, z = (z
0
(x), ..., z
m
(x))
T
sont des vecteurs des fonctions connues du stress, la premire composante z
0
est gale 1.
Ces modles peuvent tre considrs comme paramtriques, si la fonction S
x
0
appar-
tienne une certaine classe des rpartitions, ou comme semiparamtriques si S
x
0
est com-
pltement inconnue.
340
6.11.2 Estimation paramtrique
On suppose, que le modle (6) est considr et le premier plan dexpriences est utilis :
k groupes dunits sont observs ; on xe la dure maximale dexprience t
i
du i -me
groupe et on teste ce groupe sous le stress acclr x
i
(i = 1, ..., k). Notons
z
il
= z
l
(x
i
), z
(i)
= (z
i0
, ..., z
im
)
T
(i = 1, ..., k; l = 0, ..., m).
On suppose que S
x
0
appartienne une classe des rpartitions
S
x
0
(t) = S
0
((t/)

), (, > 0). (7)


Par exemple, si
S
0
(t) = e
t
, (1+t)
1
, 1(lnt),
alors on obtient des classes des rpartitions de Weibull, loglogistique, lognormale respecti-
vement. Ici est la fonction de rpartition de la loi normale standard. Donc le modle (6)
peut tre crit sous la forme :
S
x
(t) = S
_
lnt
T
z

_
, t > 0,
o
S(u) = S
0
(e
u
), u R, = 1/, = (
0
, ...,
m
),
0
= ln
0
,

l
=
l
(l = 1, ..., m).
Dans les cas des lois de Weibull, loglogistique et lognormale
S(u) = e
e
u
, (1+e
u
)
1
, 1(u)
respectivement.
Notons T
i j
la dure de vie (pas ncessairement observe) de jme unit du ime groupe,
X
i j
= ln(T
i j
t
i
),
i j
= IT
i j
t
i
, f (u) =S
/
(u), (u) =
f (u)
S(u)
.
La fonction de survie et la densit de lnT
i j
sont
S
i
(u; , ) = S
_
u
T
z
(i)

_
, f
i
(u; , ) =
1

f
_
u
T
z
(i)

_
, u R.
Donc la fonction de vraisemblance
L(, ) =
k

i=1
n
i

j=1
_
1

_
X
i j

T
z
(i)

__

i j
S
_
X
i j

T
z
(i)

_
.
En drivant par rapport
i
et la fonction lnL(, ), on obtient
U
l
(; ) =
lnL(, )

l
=
1

i=1
z
il
n
i

j=1
a
i j
(, ), (l = 1, ..., m),
341
U
m+1
(; ) =
lnL(, )

=
1

i=1
n
i

j=1
v
i j
(, )a
i j
(, )
i j
,
o
v
i j
(, ) =
X
i j

T
z
(i)

, a
i j
(, ) = (v
i j
(, ))
i j
(ln)
/
(v
i j
(, )).
Des estimateurs de maximum de vraisemblance , peuvent tre obtenus en rsolvant le
systme dquations
U
l
(, ) = 0 (l = 1, ..., m+1).
Notons
I(, ) = (I
lk
(, ))
(m+1)(m+1)
la matrice avec des lments suivants :
I
ls
(, ) =

2
lnL(, )

s
=
1

2
k

i=1
z
il
z
is
n
i

j=1
c
i j
(, ), l, s = 0, ..., m;
I
l,m+1
(, ) =

2
lnL(, )

=
1

U
l
(, ) +
1

2
k

i=1
z
il
n
i

j=1
v
i j
(, )c
i j
(, ), l = 0, ..., m;
I
m+1,m+1
(, ) =

2
lnL(, )

2
=
2

U
m+1
(, ) +
1

2
k

i=1
n
i

j=1
(v
2
i j
(, )c
i j
(, ) +
i j
),
o
c
i j
(, ) =
/
(v
i j
(, ))
i j
(ln)
//
(v
i j
(, )).
Si T
x
0
suit les lois de Weibull, loglogistique ou lognormale, alors
(t) = e
t
; (1+e
t
)
1
; (t)/(1(t)).
respectivement, o
(t) =
1

2
e
t
2
/2
.
Si les estimateurs de maximum de vraisemblance et sont obtenus, alors lestimateurs de
la fonction de survie S
x
0
et de la p-quantile t
p
(x
0
) sont

S
x
0
(t) = S
_
lnt
T
z
(0)

_
,

t
p
(x
0
) = e

T
z
(0)
[S
1
0
(1p)]

.
La loi asymptotique de ( , )
T
quand n
i
sont grands est approche par la loi normale
N((, )
T
, (, )) et la matrice de covariance (, ) peut tre estim par
I
1
( , ) = (I
ls
( , )
(m+2)(m+2)
.
Lestimateur

t
p
(x
0
) est la fonction rgulire de et , donc la loi asymptotique de

t
p
(x
0
) est
aussi normale. Mais t
p
(x
0
) prend des valeurs positives, donc la vitesse de convergence vers
la loi normale est plus grande si on considre la loi limite de

K
p
(x
0
) = ln

t
p
(x
0
) =
T
z
(0)
+ ln[S
1
0
(1p)].
342
La loi de

K
p
(x
0
) est approxime par la loi normale N(K
p
(x
0
),
2
K
p
), o la variance
2
K
p
peut
tre estime par

2
K
p
=
_


K
p
(x
0
)

0
, ...,


K
p
(x
0
)

m
,


K
p
(x
0
)

_
I
1
( , )
_


K
p
(x
0
)

0
, ...,


K
p
(x
0
)

m
,


K
p
(x
0
)

_
T
=
m

l=0
m

s=0
z
0l
z
0s
I
ls
( , )+
2ln[S
1
0
(1p)]
m

l=0
I
l,m+1
( , )z
0l
+ln
2
[S
1
0
(1p)]I
m+1,m+1
( , ).
La loi de

K
p
(x
0
) K
p
(x
0
)

K
p
est approche par la loi N(0, 1). Lintervalle approximatif de conance de niveau de conance
(1) pour K
p
(x
0
) est donn par la formule

K
p
(x
0
)
K
p
w
1/2
,
o w

est la -quantile de la loi de N(0, 1). Lintervalle approximatif pour t


p
(x
0
) est donn
par la formule

t
p
(x
0
)exp
K
p
w
1/2
.
Lestimateur

S
x
0
(t) est aussi la fonction rgulire de et . Notons

Q
x
0
(t) = ln

S
x
0
(t)
1

S
x
0
(t)
et Q
x
0
(t) = ln
S
x
0
(t)
1S
x
0
(t)
.
La fonction Q
x
0
(t) prend ces valeurs dans Rdonc la convergence de

Q
x
0
(t) vers la loi limite
est plus grande que la convergence de

S
x
0
(t) vers sa loi limite. Comme dans le cas de t
p
(x
0
)
on obtient que la loi de
(

Q
x
0
(t) Q
x
0
(t))/
Q
0
est approxime par la loi normale N(0, 1) ; ici

Q
0
=
S
/
(S
1
(

S
x
0
(t)))

2
S
x
0
(t)(1

S
x
0
(t))


2
m

l=0
m

s=0
z
0l
z
0s
I
ls
( , ) 2
T
z
(0)
m

l=0
z
0l
+(
T
z
(0)
)
2
.
Donc les (1)-intervalles approximatifs de conance pour Q
x
0
(t) et S
x
0
(t) sont

Q
x
0
(t)

Q
0
w
1/2
et
_
1+
1

S
x
0
(t)

S
x
0
(t)
exp
Q
0
w
1/2

_
1
.
Exemple 1. Si T
x
0
suit la loi de Weibull, i.e.
S
x
0
(t) = e
(t/)

, t 0,
343
et la paramtrisation dArrhnius est choisie (le stress est la temprature, par exemple), i.e.
r(x) = e

0
+
1
/x
,
alors S(t) = expexp(t), z
00
= 1, z
10
= 1/x
0
, donc

S
x
0
(t) = expexp
lnt
0

1
/x
0

,

t
p
(x
0
) = e

0
+
1
/x
0
(ln(1p))

.
Exemple 2. Si T
x
0
suit la loi loglogistique, i.e.
S
x
0
(t) = (1+(t/)

)
1
, t 0,
et la paramtrisation de la rgle de puissance est choisie (le stress est le voltage, par exemple),
i.e.
r(x) = e

0
+
1
lnx
,
alors
S(t) = (1+e
t
)
1
, z
00
= 1, z
10
= lnx
0
,
donc

S
x
0
(t) =
_
1+exp
_
lnt
0

1
lnx
0

__
1
,

t
p
(x
0
) = e

0
+
1
lnx
0
_
p
1p
_

.
Exemple 3. Si T
x
0
suit la loi lognormale et la paramtrisation dEyring est choisie, i.e.
r(x) = e

0
+
1
lnx+
2
/x
,
alors
z
00
= 1, z
10
= lnx
0
, z
20
= 1/x
0
, S(t) = 1(t)
et

S
x
0
(t) = 1
_
lnt
0

1
lnx
0

2
/x
0

_
,

t
p
(x
0
) = e

0
+
1
lnx
0
+
2
/x
0
+
1
(p)
.
Exemple 4. Supposons que la dure de vie T
x
0
suit la loi de Weibull et le stress x =
(x
1
, x
2
)
T
est bidimensionel (le voltage et la temprature, par exemple) et le modle dAr-
rhnius gnralis avec
1
(x) =
1
/x
1
,
2
/x
2
2
est choisi. Alors
z
00
= 1, z
10
= lnx
10
, z
20
= 1/x
20
et

S
x
0
(t) = expexp
lnt
0

1
lnx
10

2
/x
20

,

t
p
(x
0
) = e

0
+
1
lnx
10
+
2
/x
20
(ln(1p))

.
Les formules sont plus simples, si = 1 dans (7), par exemple dans le cas de la loi
exponentielle :
S
x
0
(t) = e
t/
, t 0, t
p
(x
0
) =e

T
z
(0)
ln(1p).
344
Le modle (6) peut tre crit
S
x
(t) = expexp(
T
z)t,
o
= (
0
, ...,
m
)
T
,
0
=
0
ln,
i
=
i
, (i = 1, ..., m).
La fonction de survie et le taux de pannes de T
i j
sont
S
x
i
(t) = expexp(
T
z
(i)
)t,

x
i
(t) = e

T
z
(i)
.
Notons X
i j
= T
i j
t
i
,
i j
= I(T
i j
t
i
). La fonction de vraisemblance
L() =
k

i=1
n
i

j=1
_

x
i
(X
i j
)

i j
S
x
i
(X
i j
) = exp
k

i=1
n
i

j=1
(
i j

T
z
(i)
+e

T
z
(i)
X
i j
).
Les fonctions score
U
l
() =
lnL()

l
=
k

i=1
z
il
(
i
+e

T
z
(i)
X
i
),
o

i
=
n
i

j=1

i j
, X
i
=
n
i

j=1
X
i j
et la matrice dinformation de Fisher
I() = (I
ls
()), (l, s = 0, ..., m),
o
I
ls
() =E
_

2
lnL()

s
_
= E
_
k

i=1
z
il
z
is
e

T
z
(i)
X
i
_
=
k

i=1
n
i
z
il
z
is
_
1e
e

T
z
(i)
t
i
_
.
Sil ny a pas de censures, i.e. t
i
= , alors
I
ls
() =
k

i=1
n
i
z
il
z
is
ne dpendent pas de .
Notons

I = I( ) la matrice dinformation de Fisher estime.
La loi asymptotique de quand n
i
sont grands est approxime par la loi normale N(, I
1
())
et donc la loi de

K
p
(x
0
) = ln

t
p
(x
0
) =
T
z
(0)
+ln(ln(1p))
est approxime par la loi normale N(K
p
(x
0
),
2
K
p
), o

2
K
p
=
m

l=0
m

s=0
I
ls
()z
0l
z
0s
,
345
Notons

2
K
p
=
m

l=0
m

s=0
I
ls
( )z
0l
z
0s
.
Donc

K
p
(x
0
) K
p
(x
0
)

K
p
est approxime par la loi N(0, 1). Lintervalle approximatif de conance du niveau 1
pour t
p
(x
0
) est donn par la formule

t
p
(x
0
)exp
K
p
w
1/2
.
Lestimateur

S
x
0
(t) est aussi la fonction rgulire de . Notons

Q
x
0
(t) = ln

S
x
0
(t)
1

S
x
0
(t)
et Q
x
0
(t) = ln
S
x
0
(t)
1S
x
0
(t)
.
Comme dans le cas du quantile t
p
(x
0
) on obtient que la loi de

Q
x
0
(t) Q
x
0
(t)

x
0
peut tre approxime par la loi N(0, 1) ; ici

Q
0
= ln

S
x
0
(t)

l=0
m

s=0
z
0l
z
0s
I
ls
( ).
Donc les (1)-intervalles de conance approximatifs pour Q
x
0
(t) et S
x
0
(t) sont

Q
x
0
(t)
Q
0
w
1/2
et
_
1+
1

S
x
0
(t)

S
x
0
(t)
exp
Q
0
w
1/2

_
1
.
Si est lestimateur de maximum de vraisemblance pour , alors

S
x
0
(t) = expe

T
z
(0)
t,

t
p
(x
0
) =expe

T
z
(0)
ln(1p).
Par exemple, dans le cas de modles dArrhnius et de la rgle de puissance il faut prendre
z
il
= 1/x
il
et z
il
= lnx
il
respectivement et on a

S
x
0
(t) = expe

0
+
1
/x
0
t,

S
x
0
(t) = expe

0
+
1
lnx
0
t
respectivement.
Le premier plan dexprience a ses points faibles :
1) des strictes suppositions sur la forme de la fonction r(x) sont faites ;
2) comme dans le cas de tous les modles de rgression la prdiction de variable dpen-
dante pour la valeur de stress x
0
peut tre mauvaise parce que cette valeur nappartient pas
la rgion des stress utiliss pendant des expriences.
346
Donc supposons que le deuxime plan est utilis : le premier groupe darticles de taille
n
1
est test sous le stress acclr x
1
et un chantillon complet T
11
... T
1n
1
est obtenu,
le deuxime groupe de taille n
2
est test sous le stress
x
2
() =
_
x
1
, si 0 t
1
,
x
0
, si t
1
t
2
et un chantillon censur du premier type T
21
... T
2m
2
est obtenu (m
2
n
2
).
Supposons que
S
x
0
(t) = S
0
_
(t/)

_
,
donc le modle (2) peut tre crit
S
x()
(t) = S
0
__

t
0
r[x(t)]d/
_

_
. (8)
La formule (8) implique
S
x
1
(t) = S
0
_
_
rt

_
,
S
x
2
(t) = S
0
_
((r(t
1
t) +(t t
1
) 0)/)

_
,
o r = r(x
1
).
Notons
= lnr, = ln, S(t) = S
0
(e
t
), f (t) =S
/
(t), (t) = f (t)/S(t).
Alors
S
x
1
(t) = S((lnt +));
S
x
2
(t) =
_
S((lnt +)), t t
1
,
S((ln(e

t
1
+t t
1
) )), t >t
1
;
f
x
1
(t) = f ((lnt +))

t
;
f
x
2
(t) =
_
f ((lnt +))

t
, t t
1
,
f ((ln(e

t
1
+t t
1
) ))

e

t
1
+tt
1
, t >t
1
.
Notons r
2
le nombre de pannes du deuxime groupe jusquau moment t
1
. La fonction de
vraisemblance
L =
n
1

j=1
f ((lnT
1j
+))

T
1j
r
2

j=1
f ((lnT
2j
+))

T
2 j

m
2

j=r
2
+1
f ((ln(e

t
1
+T
2j
t
1
) ))

e

t
1
+T
2 j
t
1
S
n
2
m
2
((ln(e

t
1
+t
2
t
1
) )),
donc
U
1
(, , ) =
lnL

=
n
1

j=1
(ln f )
/
(c(T
1 j
))
c(T
1 j
)

+
n
1
+m
2

+
r
2

j=1
(ln f )
/
(c(T
2 j
))
c(T
2j
)

+
m
2

j=r
2
+1
(ln f )
/
(d(T
2 j
))
d(T
2j
)

(n
2
m
2
)(d(t
2
))
d(t
2
)

,
347
U
2
(, , ) =
lnL

=
n
1

j=1
(ln f )
/
(c(T
1j
))+
r
2

j=1
(ln f )
/
(c(T
2 j
))+
m
2

j=r
2
+1
(ln f )
/
(d(T
2 j
))
e

t
1
e

t
1
+T
2 j
t
1

m
2

j=r
2
+1
e

t
1
e

t
1
+T
2j
t
1
(n
2
m
2
)(d(t
2
))
e

t
1
e

t
1
+t
2
t
1
,
U
3
(, , ) =
lnL

=
_
n
1

j=1
(ln f )
/
(c(T
1 j
)) +
r
2

j=1
(ln f )
/
(c(T
2 j
))+
m
2

j=r
2
+1
(ln f )
/
(d(T
2 j
)) (n
2
m
2
)(d(t
2
))
_
,
o
c(u) = (lnu+), d(u) = (ln(e

t
1
+ut
1
) ).
Dans les cas des lois de Weibull, loglogistique et lognormale
(ln f )
/
(t) = e
t
;
1e
t
1+e
t
; t,
respectivement, et
(t) = e
t
; (1+e
t
)
1
;
(t)
1(t)
,
respectivement.
Si les estimateurs de maximum de vraisemblance , , sont obtenus, alors lestima-
teurs de la fonction de survie S
x
0
et de la p-quantile t
p
(x
0
) sont

S
x
0
(t) = S( (lnt )),

t
p
= exp +
1

S
1
(1p).
Dans les cas des lois de Weibull, loglogistique et lognormale
S
1
(p) = ln(ln(1p)); ln(
1
p
1);
1
(1p).
Notons I(, , ) = (I
i j
(, , ) une (3 4) matrice symtrique avec des lments sui-
vantes :
I
11
=

2
lnL

2
=
1

2
_
n
1

j=1
(ln f )
//
(c(T
1 j
))[c(T
1 j
)]
2
n
1
m
2
+
r
2

j=1
(ln f )
//
(c(T
2 j
))[c(T
2 j
)]
2
+
m
2

j=r
2
+1
(ln f )
//
(d(T
2j
))[d(T
2 j
)]
2

(n
2
m
2
)
/
(d(t
2
))[d(t
2
)]
2
_
,
I
12
= I
21
=

2
lnL

=
n
1

j=1
(ln f )
//
(c(T
1j
))c(T
1 j
)
r
2

j=1
(ln f )
//
(c(T
2 j
))
m
2

j=r
2
+1
(ln f )
//
(d(T
2j
))d(T
2j
) +(n
2
m
2
)
/
(d(t
2
))
e

t
1
e

t
1
+t
2
t
1

348
1

U
2
(, , )
1

m
2

j=r
2
+1
e

t
1
e

t
1
+T
2 j
t
1
,
I
13
= I
31
=

2
lnL

=
n
1

j=1
(ln f )
//
(c(T
1j
))c(T
1 j
) +
r
2

j=1
(ln f )
//
(c(T
2j
))c(T
2 j
)+
m
2

j=r
2
+1
(ln f )
//
(d(T
2 j
))d(T
2 j
) (n
2
m
2
)
/
(d(t
2
))d(t
2
)
1

U
3
(, , ),
I
22
=

2
lnL

2
=
2
n
1

j=1
(ln f )
//
(c(T
1 j
))

2
r
2

j=1
(ln f )
//
(c(T
2 j
))
2
m
2

j=r
2
+1
(ln f )
//
(d(T
2 j
))
_
e

t
1
e

t
1
+T
2 j
t
1
_
2

m
2

j=r
2
+1
[(ln f )
/
(d(T
2 j
)) 1]
e

t
1
(T
2 j
t
1
)
(e

t
1
+T
2j
t
1
)
2
+
(n
2
m
2
)
/
(d(t
2
))
_
e

t
1
e

t
1
+t
2
t
1
_
2
+(n
2
m
2
)(d(t
2
))
e

t
1
(t
2
t
1
)
(e

t
1
+t
2
t
1
)
2
,
I
23
= I
32
=

2
lnL

=
2
_
n
1

j=1
(ln f )
//
(c(T
1j
)) +
r
2

j=1
(ln f )
//
(c(T
2 j
))+
m
2

j=r
2
+1
(ln f )
//
(d(T
2 j
))
e

t
1
e

t
1
+T
2 j
t
1
(n
2
m
2
)
/
(d(t
2
))
e

t
1
(e

t
1
+t
2
t
1
)
_
,
I
33
=

2
lnL

2
=
2
_
n
1

j=1
(ln f )
//
(c(T
1 j
)) +
r
2

j=1
(ln f )
//
(c(T
2 j
))+
m
2

j=r
2
+1
(ln f )
//
(d(T
2 j
)) (n
2
m
2
)
/
(d(t
2
))
_
.
Dans les cas des lois de Weibull, loglogistique et lognormale
(ln f )
//
(t) = e
t
;
2e
t
(1+e
t
)
2
; 1,
respectivement, et

/
(t) = e
t
;
e
t
(1+e
t
)
2
; t
(t)
1(t)
+
_
(t)
1(t)
_
2
,
respectivement.
Si n est grand, la loi de ( , , ) peut tre approche par la loi normale de moyenne
(, , ) et la matrice de covariance estime par
I
1
( , , ) = (I
ls
( , , ))
33
.
349
Notons

Q
x
0
(t) = ln

S
x
0
(t)
1

S
x
0
(t)
.
La loi de
(

Q
x
0
(yt) Q
x
0
(t))/
Q
0
est approche par la loi normale N(0, 1), ici

Q
0
=
S
/
(S
1
(

S
x
0
(t)))

S
x
0
(t)(1

S
x
0
(t))

_
(lnt )
2
I
11
( , , ) 2 (lnt )I
13
( , , ) +
2
I
33
( , , ).
Donc les (1) intervalles approximatifs de conance pour Q
x
0
(t) et S
x
0
(t) sont

Q
x
0

Q
0
w
1/2
et
_
1+
1

S
x
0
(t)

S
x
0
(t)
exp
Q
0
w
1/2

_
1
,
respectivement.
Notons

K
p
(x
0
) = ln

t
p
(x
0
) = +
1

S
1
(1p).
La loi de
(

K
p
(x
0
) K
p
(x
0
))/
K
p
est approche par la loi normale N(0, 1) ; ici

2
K
p
=
_
S
1
(1p)

2
_
2
I
11

S
1
(1p)

2
I
13
+I
33
.
Donc les (1) intervalles approximatifs de conance pour
K
p
(x
0
) = lnt
p
(x
0
) et t
p
(x
0
)
sont

K
p
(x
0
) +w
1/2

K
p
et

t
p
(x
0
)exp
K
p
w
1/2

respectivement.
6.11.3 Estimation semiparamtrique
On suppose que le modle (5) est considr et la fonction S
x
0
est inconnue. On considre
le premier plan dexpriences. La fonction de survie sous le stress x
i
est
S
x
i
(t) = S
x
0
(e

T
z
i
t).
Notons N
i
() les nombres des pannes observes du i-me groupe dans lintervalle [0, ],
Y
i
() des nombres dunits a risque ( ltat de fonctionnement et non-censurs) avant le
350
moment , T
i1
... T
im
i
les moments de pannes du i-me groupe, m
i
= N
i
(t
i
). On suppose
dabord que soit connu. Les variables alatoires
e

T
z
i
T
i j
(i = 1, ..., k; j = 1, ..., m
i
)
peuvent tre considres comme des pseudo-pannes observes dans une exprience o
n =
m
i=1
n
i
units avec la fonction de survie S
x
0
ont t tests et n
i
parmi elles ont t
censures au moment e

T
z
i
t
i
(i = 1, 2, ..., k). Alors
N
R
(, ) =
k

i=1
N
i
(e
z
i
)
est le nombre des pannes observes dans lintervalle [0, ] et
Y
R
(, ) =
k

i=1
Y
i
(e
z
i
)
est le nombre des units risque avant le moment t.
La fonction de survie S
x
0
peut tre estime par lestimateur de Kaplan-Meier : pour tous
s max
i
e
z
i
t
i

S
x
0
(s, ) =

s
_
1
N
R
(, )
Y
R
(, )
_
=

s
_
1

m
l=1
N
l
(e
z
i
)

m
l=1
Y
l
(e
z
i
)
_
,
o N
R
(, ) = N
R
(, ) N
R
(, ). On crit

S
0
de faon suivant :

S
x
0
(s, ) =

(i, j):T
i j
expz
i
s
_
1
1

m
l=1
Y
l
(e
(z
i
z
l
)
T
i j
)
_
.
La fonction de vraisemblance
L() =
k

i=1
m
i

j=1
[

S
x
0
(e

T
z
i
T
i j
, )

S
x
0
(e

T
z
i
T
i j
, )]

S
n
i
m
i
x
0
(e

T
z
i
t
i
, ),
o

S
x
0
(u, ) = lim
0

S
x
0
(u, ).
Le facteur qui correspond une panne est le saut de la fonction

S
x
0
parce que la den-
sit f
x
0
= S
/
x
0
est inconnue et peut tre approche dans les points e

T
z
i
T
i j
par le facteur
proportionnel

S
x
0
(e

T
z
i
T
i j
, )

S
x
0
(e

T
z
i
T
i j
, ).
Si on a des ex aequo, alors on note T

1
() < ... < T

q
() les moments diffrents parmi
exp
T
z
i
T
i j
, d
j
- le nombre des pseudopannes au moment T

j
(). Alors pour tout s
max
i
e

T
z
i
t
i

S
x
0
(s, ) =

j:T

j
()s
_
_
1
d
j

m
l=1
Y
l
(e

T
z
l
T

j
())
_
_
351
et
L() =
q

j=1
[

S
x
0
(T

j1
(), )

S
x
0
(T

j
(), )]
d
i
m

i=1

S
n
i
m
i
x
0
(e

T
z
i
t
i
, ).
Notons

= Argmax

L(). La fonction de survie sous le stress normale est estime pour


tous s max
i
e

T
z
i
t
i
par

S
x
0
(s) =

S
x
0
(s,

).
Au lieu destimation par la mthode de maximum de vraisemblance on peut considrer la
mthode des moments modie.
Si est connu, le taux de pannes accumul
A
x
0
(t) = expS
x
0
(t)
peut tre estim par lestimateur de Nelson-Aalen :
pour tout t maxe

T
z
i
t
i
on a

A
x
0
(t, ) =

t
0
dN
R
(u)
Y
R
(u)
=

t
0
d
k
i=1
N
i
(e

T
z
i
u)

k
i=1
Y
i
(e

T
z
i
u)
.
La proposition (annexe) implique que
E
k

i=1
z
i


0
dN
i
(u) Y
i
(u)dA
x
0
(e

T
z
i
u) =
E
k

i=1
z
i


0
dN
i
(u) Y
i
(u)dA
i
(u) = 0.
Donc lestimateur de peut tre trouv en considrant la fonction

U() =
k

i=1
z
i


0
dN
i
(u) Y
i
(u)d

A
x
0
(e
z
i
u, ). (9)
Cest la fonction en escaliers et ces valeurs sont disperses autour zro. Lestimateur de
peut tre dtermin comme

= supArgmin

U().
Le choix de poids z
i
peut tre justi de faon suivante. Si A
x
0
est connue, alors la fonction
de vraisemblance pour
L() =
k

i=1
n
i

j=1

i j
x
i
(X
i j
)S
x
i
(X
i j
)
et donc
U
l
() =
lnL()

l
=
k

i=1
n
i

j=1

i j
z
il
[1+e
z
i
X
i j

/
x
0
(e
z
i
X
i j
)

x
0
(e
z
i
X
i j
)

x
0
(e
z
i
X
i j
)e
z
i
X
i j
] =
k

i=1


0
W
i
(u)(dN
i
(u) Y
i
(u)dA
x
0
(e
z
i
)),
352
o
W
il
= z
il
_
1+e
z
i
u

/
x
0
(e
z
i
u)

x
0
(e
z
i
u)
_
.
Les poids optimaux W
il
dpendent de la loi de T
x
0
. Si T
x
0
suit la loi de Weibull, alors
W
il
(u) = z
il
. Notons
U() = (U
0
(), ...,U
m
())
T
, W
i
(u) = (W
i0
, ...,W
im
(u)).
Alors
U() =
k


0
W
i
(u)(dN
i
(u) Y
i
(u)dA
x
0
(e

T
z
i
u). (10)
Remplaant dans (10) la fonction inconnue A
x
0
(v) par le pseudoestimateur

A
x
0
(v, ) et en
prenant des poids W
il
(u) = z
il
, on obtient la fonction score modie

U(), donne par la
formule (9).
Le choix de poids inuence un peu leffectivit mais pas la validit des procdures
infrentielles. Les poids optimaux dpendent de la drive du taux de pannes et donc ne
peuvent pas tre bien estims quand la loi est inconnue.Donc on utilise les poids les plus
simples W
il
(u) = z
il
qui sont optimaux pour la loi de Weibull.
Aprs avoir trouv lestimateur

par une des mthodes considres on obtient un esti-
mateur de la fonction de survie :

S
x
0
(t) =

S
x
0
(t,

)
ou, de faon alternative,

S
x
0
(t) = exp

A
0
(t,

).
Considrons le deuxime plan dexpriences. Le premier groupe darticles de taille n
1
est
test sous le stress acclr x
1
et un chantillon complet T
11
... T
1n
1
est obtenu. Le
deuxime groupe de taille n
2
est test sous le stress ( ) et un chantillon censur T
21
...
T
2m
2
est obtenu (m
2
n
2
). Notons N
i
() et Y
i
() les nombres des pannes observes dans
lintervalle [0, ], Y
i
() les nombres dunits risque avant le moment du ime groupe :
N
1
() =
n
1

j=1
I(T
1j
), N
2
() =
m
2

j=1
I(T
2 j
),
Y
1
() =
n
1

j=1
I(T
1 j
),Y
2
() =
_
m
2

j=1
I(T
2 j
) +n
2
m
2
_
I( t).
Le modle (8) implique que
S
x
1
(t) = S
x
0
(rt), S
x
2
(t) = S
x
0
(r(t t
1
) +(t t
1
) 0),
o r = r(x
1
). Les moments
R
i j
= rT
i j
et R
2j
= r(T
2j
t
1
) +(T
2 j
t
1
) 0
peuvent tre interprts comme les moments de pannes obtenus dans une exprience pen-
dant laquelle n = n
1
+n
2
units de fonction de survie S
x
0
ont t observs et le temps de
353
censure pour les dernires n
2
units a t gale (rt
1
+t t
1
). Les nombres des pannes,
obsrves dans un intervalle [0, u] serait
N
R
(u) =W
1
(u/r) +N
2
(u/r t
1
+(urt
1
) 0)
et le nombre des units risque
Y
R
(u) =Y
1
(u/r) +Y
2
(u/r t
1
) +(urt
1
) 0).
Donc le pseudoestimateur

A
0
(s, r), dependant de r, de la fonction de pannes accumules
A
0
(t) =lnS
0
(t) est

A
0
(s, r) =

s
0
dN
1
(u/r) +dN
2
((u/r) t
1
+(urt
1
) 0)
Y
1
(u/r) +Y
2
((u/r) t
1
+(urt
1
) 0)
et le pseudoestimateur

S
0
(s, r) de la fonction de survie S
0
est

S
0
(s, r) =

(i, j)B(s)
_
1
1
Y
1
(T
1i
) +Y
2
(t
1
T
1i
+r((T
1i
t
1
) 0))
_

_
1
1
Y
2
(T
2 j
) +Y
1
(t
1
T
2j
+(
T
2j
t
1
r
) 0)
_
,
o
B(s) =(i, j)[ rT
1i
s et r(T
2 j
t
1
) +(T
2j
t
1
) 0 s.
Alors les pseudoestimateurs pour S
1
= S
x
1
et S
2
= S
x
2
sont

S
1
(s, r) =

S
0
(rs, r),

S
2
(s) =

S
0
(r(s t
1
) +(s t
1
) 0).
La fonction de vraisemblance observe
L(r) =
n
1

i=1
[

S
0
(rT
1i
, r)

S
0
(rT
1i
, r)]
m
2

j=1
[

S
0
((r(T
2 j
t
1
) +(T
2 j
t
1
) 0), r)

S
0
(r(T
2 j
t
1
) +(T
2 j
t
1
) 0, r)][

S
0
(rt
1
+t t
1
, r)]
n
2
m
2
.
Considrons la mthode des moments modie. De la mme faon quau cas du premier
plan, on a
E
2

i=1


0
x
i
()(dN
i
() Y
i
()dA
i
(t)) =
x
1
E


0
(dN
1
() Y
1
()dA
0
(r) +E


0
x
2
()dN
2
() Y
2
()dA
0
(r( t
1
) +( t
1
) 0)
Notons n = n
1
+n
2
. Considrons la fonction

U(r) =
1
x
1
x
0
x
1


0
(dN
1
() Y
1
()d

A
0
(r, r)+


0
x
2
()dN
2
( Y
2
()d

A
0
(r(t t
1
) +(t t
1
) 0, r).
354
Il est facile montrer que

U(r) =

t
t
1
Y
2
()dN
1
(t
1
+
t
1
r
) Y
1
(t
1
+
t
1
r
)dN
2
()
Y
1
(t
1
+
t
1
r
) +Y
2
()
ou

U(r) =

j:T
1 j
>t
1
Y
2
(t
1
+r(T
1 j
t
1
))
Y
1
(T
1 j
) +Y
2
(t
1
+r(T
1 j
t
1
))

j:T
2j
>t
1
Y
1
(t
1
+
T
2j
t
1
r
)
Y
1
(t
1
+
T
2j
t
1
r
) +Y
2
(T
2 j
)
.
La fonction

U est dcroissante et en escaliers,

U(0) > 0,

U() < 0 avec une probabilit 1.
Lestimateur du paramtre r :
r =

U
1
(0) = supr :

U(r) 0.
Alors

A
0
(s) =

s
0
dN
1
(
u
r
) +dN
2
_
u
r
t
1
+(u rt
1
) 0

Y
1
(
u
r
) +Y
2
_
u
r
t
1
+(u rt
1
) 0
=

j: T
1j

s
r
1
Y
1
(T
1j
) +Y
2
[T
1 j
t
1
+ r(T
1 j
t
1
) 0]
+

j: T
2j

s
r
t
1
+(s rt
1
)0
1
Y
1
[T
2 j
t
1
+
T
2j
t
1
r
0] +Y
2
(T
2 j
)
.
La fonction de survie S
x
0
peut tre estime par lestimateur

S
x
0
(t) =

S
x
0
(t,

)
ou de faon alternative

S
x
0
(t) = exp

A
0
(t).
Les proprits asymptotiques des estimateurs et construction des intervalles de conance
approximatifs sont donnes dans Bagdonavi cius & Nikulin (1997).
355
356
Chapitre 7
INFERENCE BAYESIENNE
7.1 La rgle Bayesienne
Soit (X, )
T
un vecteur alatoire valeurs dans lespace et soit p(x, ) sa densit.
Alors
() =

p(x, )dx et q(x) =

p(x, )d (7.1)
sont les densits marginales de et X, respectivement. Lapproche bayesienne suppose que
pendant lexprience on nobserve que des ralisations de X, i.e. on suppose que X est une
variable (un vecteur) observable appele un chantillon. Par contre la deuxime composante
est inconnue et non observe et est considre comme un paramtre. Supposons que la
densit conditionnelle de X sachant la valeur de est connue. Notons
(x[) =
p(x, )
()
(7.2)
la densit conditionnelle de X sachant que = , et soit
q([x) =
p(x, )
q(x)
(7.3)
la densit conditonnelle de sachant que X = x. Puisque
p(x, ) = (x[)() = q([x)q(x), (7.4)
de (1)-(4) on tire les formules de Bayes :
q([x) =
(x[)()
q(x)
=
(x[)()

(x[)()d
(7.5)
et
(x[) =
q([x)q(x)
()
=
q([x)q(x)

q([x)q(x)dx
. (7.6)
La densit marginale () de est appele la densit priori et la densit conditionnelle
q([x) de sachant X = x est appele la densit posteriori
357
Exemple 1. Supposons que suit la loi normale N(,
2
), i.e. la densit priori est
() =
1

_
, R
1
, (7.7)
o (u) est la densit de la loi normale standard N(0, 1), et sont connus, [[ <,
2
> 0.
On suppose que la loi conditionnelle de X sachant que = est normale N(,
2
) i.e., la
densit conditionnelle de X sachant = est
(x[) =
1

_
x

_
, (7.8)

2
> 0,
2
est connu. Calculons la densit q(x) de la loi marginale de X. Daprs (1)-(3) on
a
q(x) =

(x[)()d =

_
x

_
1

_
d
=

2
2
exp
_

1
2
2
(x )
2
_
1

2
2
exp
_

1
2
2
()
2
_
d
=
1
2

exp
_

1
2
_
x
2
2x+
2

2
+

2
2+
2

2
__
d
=
1
2
exp
_

1
2
_
x
2

2
+

2

2
__

exp
_

1
2
_

2
2
_
x

2
+

2
_
+

2

2
__
d
=
1
2
exp
_

1
2
_
x
2

2
+

2

2
__

exp
_

1
2
_

2
_
1

2
+
1

2
_
2
_
x

2
+

2
_
+
_
x

2
+

2
_
2

_
x

2
+

2
_
2
__
d
=
1
2
exp
_

1
2

2
x
2
+
2

2
_

exp
_

2
+
2
2
2

2
_

2
2

2
x +
2

2
+
2
+
_

2
x +
2

2
+
2
_
2

2
x +
2

2
+
2
_
2
__
d
=
1
2
exp
_

1
2

2
x
2
+
2

2
_

exp
_

2
+
2
2
2

2
_

2
x +
2

2
+
2
_
2
_
exp
_
(x
2
+
2
)
2
2
2

2
(
2
+
2
)
_
d
=
1

2
+
2
exp
_

2
x
2
+
2

2
+
(x
2

2
+
2

2
)
2
2
2

2
(
2
+
2
)
_
358
=
1

2
+
2
exp
_

1
2(
2
+
2
)
(x )
2
_
, (7.9)
i.e. la loi marginale de X est normale N(,
2
+
2
) de paramtres
EX = et VarX =
2
+
2
. (7.10)
Daprs (2) la densit p(x, ) du vecteur (X, )
T
est
p(x, ) = (x[)() =
1

_
x

_
1

_
. = (7.11)
1
2
1

2
_
1
2
exp
_

1
2(1
2
)
_
(x )
2

2
+
2
2
(x )()

2
+
2
+
()
2

2
__
,
o

2
=

2

2
+
2
,
2
1
=
2
+
2
,
2
2
=
2
,
i.e. (X, )
T
suit la loi normale bidimensionnelle de paramtres a = (, )
T
et , o

2
+
2

Linfrence statistique sur dans loptique de lapproche bayesienne est donne en


utilisant la densit posteriori q([x) base sur lchantillon X, puisque toute information
probabiliste sur est exprime en termes de q([X). Sil est ncessaire destimer la va-
leur U(), o est une ralisation non-observe du paramtre alatoire , alors on utilise
lesprance conditionnelle EU()[X comme lestimateur ponctuel pour U().
7.2 Estimation ponctuelle
Supposons que pendant une exprience une ralisation de X est observe et la ralisation
correspondante de est inconuue. Il faut estimer la valeur de la ralisation non observe
de . Soit

(X) (7.1)
un estimateur ponctuel de . Lerreur systmatique de

est
E

[X = E

[XE[X, (7.2)
o
E[X = x =

q([x)d et E

[X = x =

(x). (7.3)
Dnition 1. Lestimateur

(X) est sans biais si lerreur systmatique est gale zro,
i.e., si

(x) E[X = x. (7.4)


359
Il sensuit que lestimateur sans biais est unique presque srement.
Soit

=

(X) un autre estimateur de . Puisque

(x) = [

(x)

(x)] +[

(x) ],
on a
E(

)
2
[X = x
= [

(x)

(x)]
2
+2[

(x)

(x)]E

(X) [X = x+E[

(X) ]
2
[X = x
= [

(x)

(x)]
2
+E[

(X) ]
2
[X = x E[

(X) ]
2
[X = x. (7.5)
Donc lestimateur sans biais

minimize le risque quadratique postriori. Lingalit
implique quavec la probabilit 1
E(

)
2
[X E(

)
2
[X. (7.6)
Prenant lesprance de la gauche et de la droite, on a
E(

)
2
[X E(

)
2
(7.7)
Lingalit (7) implique que lestimateur sans biais

(X) = E[X =

q([X)d (7.8)
est le meilleur dans le sens du minimum du risque quadratique.
Dnition 2. Lestimateur sans biais

(X) est appel lestimateur bayesien.
Remarque 1. Lestimateur bayesien

est lesprance de la rpartition posteriori.
Remarque 2. De (1.1) - (1.4) on a
Eq([X) =

q()[x)q(x)dx =

p(x, )dx = (),


i.e., q([X) lestimateur sans biais de la densit priori ().
Exemple 1. Soit (X, )
T
un vecteur alatoire o est une variable alatoire suivant la
loi uniforme [0, 1], i.e. la densit priori est
() =
_
1, si = [0, 1],
0, sinon .
(7.9)
et la rpartition conditionnelle de X sachant = est la rpartition de Bernoulli B(1, ),
i.e.,
(x[) =
_

x
(1)
1x
, x =0, 1,
0, sinon .
(7.10)
On peut estimer en utilisant lestimateur du maximum de vraisemblance X, qui est le
meilleur estimateur sans biais pour , et le risque quadratique de X est (1).
On va construire lestimateur bayesien

=

(X). De (1.5), (9) (10) on a
q([x) =
(x[)()

(x[)()d
=
_

x
(1)
1x

1
0

x
(1)
1x
d
, si, x ,
0 , sinon ,
360
=
_
_
_
2(1), si x = 0, ,
2, si x = 1, ,
0, sinon .
Supposons que X = 0. Alors

(0) =

1
0
q([0)d = 2

1
0
(1)d =
1
3
.
Dans le cas X = 1 on a

(1) =

1
0
q([1)d = 2

1
0

2
d =
2
3
.
Le risque quadratique de lestimateur bayesien

=

(X) est
E(

)
2
[ = = E(

)
2
= (
1
3
)
2
PX = 0+(
2
3
)
2
PX = 1
= (
1
3
)
2
(1) +(
2
3
)
2
=
1
3
(
2
+
1
3
).
Il peut tre compar avec le risque quadratique (1 ) de lestimateur de maximum de
vraisemblance X de .
Exemple 2. Soit (X, )
T
le modle bayesien o
N(,
2
),
et la rpartition conditionnelle de X sachant = est normale N(,
2
), ,
2
,
2
sont
connus. Dans lexemple 1.1 on a t montr que la rpartition marginale q(x) de X est
normale N(,
2
+
2
), i.e.,
q(x) =
1

2
+
2
exp
_

1
2(
2
+
2
)
(x )
2
_
=
1

2
+
2

_
x

2
+
2
_
et la densit de (X, )
T
est
p(x, ) = (x[)() =
1

_
x

_
1

_
, (7.11)
do la densit posteriori q([x) peut tre trouv :
q([x) =
p(x, )
q(x)
=
1

_
x

_
1

_
1

2
+
2

_
x

2
+
2
_
=

2
+
2

2
+
2

2
_
x

2
+

2
__
_
,
=
1

_
1

2
_
x

2
+

2
__
_
, (7.12)
361
o
2
=

2

2
+
2
. i.e. la rpartition posteriori est normale de paramtres

2
_
x

2
+

2
_
et
2

2
:
P [X = x =
_
1

2
_
x

2
+

2
__
_
,
do lestimateur bayesien est obtenu :

= E[X =

q([X)d =
2

2
_
X

2
+

2
_
.
La statistique X est lestimateur de maximum de vraisemblance de et est le meilleur
estimateur sans biais. Notons que si
2
est x et
2
, alors
2
1, do

(x) x.
Ca signie que quand est grand alors

(X) X,
et le gain dutilisation de lestimateur bayesien est petit. De mme, si
2
est x et
2
0.
Dautre part si
2
1 et
2
0, alors
2
1 et

(x) , i.e.

. Donc
2
et
2
reprsentent les poids relatives donns X, et la moyenne priori .
Remarque 3. Soit T = T(X) la statistique exhaustive pour dans le modle bayesien
(X, )
T
de paramtre , . Alors, pour toute rpartition priori () on a
q([x) = q

([t(x)),
o q([x) est la densit posteriori de sachant X et q

([t(x)) est la densit posteriori


de sachant T. En effet, daprs la rgle bayesienne on a
q([x) =
(x[)()
q(x)
.
Puisque T est la statistique exaustive pour on a
p(x, ) = (x[)() =

(T(x)[)()w(x)
o w(x) est une fonction nonngative. Donc
(x[) =

(T(x)[)w(x).
Il sensuit immdiatement que
q([x) = q

([t(x)).
Notons que dans lapproche bayesienne la notion de lexhaustivit joue le mme rle comme
dans la statistique classique. De plus, la statistique T = T(X) est exhaustive si la rpartition
posteriori de , sachant T, est la mme que la rpartition posteriori de , sachant X.
Donc,

=

(T) =

(T[)w(X)()d

(T[)w(X)()d
=
362

(T[)()d

(T[)()d
=

(T[)()d
q

(T)
.
Exemple 3. Supposons que sachant = les composantes X
1
, X
2
, , X
n
du vecteur
observ X = (X
1
, X
2
, , X
n
)
T
sont des variables indpendantes Bernoulli B(1, ), X
1
prend
la valeur 1 avec la probabilit et la valeur 0 avec la probabilit 1, = [0, 1], i.e.,
pour tout i = 1, 2, , n on a
PX
i
= x[ = ) =
x
(1)
1x
, x =0, 1.
Alors T
n
= X
1
+X
2
+ +X
n
est la statistique exhaustive et
PT
n
= k[ = =
_
n
k
_

k
(1)
nk
, k = 0, 1, , n. (7.13)
Lestimateur de maximum de vraisemblance

de est le meilleur estimateur de ,

= X
n
=
1
n
T
n
(7.14)
EX
n
[ = = etVarX
n
[ = =
(1)
n
. (7.15)
Construisons lestimateur bayesien

. La densit de la rpartition conditionnelle de la v.a.
X
i
sachant que = est donn par la formule
(x[) =
x
(1)
1x
, x =0, 1.
Supposons que x
1
, x
2
, , x
n
sont les valeurs observes des variables alatoires X
1
, X
2
, , X
n
.
Dans ce cas la densit de la rpartition posteriori du paramtre sachant que
X
1
= x
1
, X
2
= x
2
, , X
n
= x
n
est
q([x
1
, , x
n
) = q

([t) =
()
t
(1)
nt

1
0
()
t
(1)
nt
d
= (7.16)

t
(1)
nt

1
0

t
(1)
nt
d
,
o t = x
1
+x
2
+ +x
n
est une ralisation de la statistique exhaustive
T
n
= X
1
+X
2
+ +X
n
, (7.17)
et q

([t) est la densit de la rpartition posteriori de sachant T


n
. De plus, supposons
que suit la loi uniforme sur = [0, 1], i.e., la densit () de la rpartition priori est
() =
_
1, si = [0, 1],
0, sinon .
(7.18)
Puisque
PT
n
t[= =
t

k=0
_
n
k
_

k
(1)
nk
I
1
(nt, t +1) 1I

(t +1, nt) (7.19)


363
et

t
(1)
nt

(t +1)(nt +1)
(n+2)
d
d
I

(t +1, nt +1), (7.20)


on a

1
0

t
(1)
nt
d =
t!(nt)!
(n+1)!
=
(t +1)(nt +1)
(n+2)
(7.21)
et donc
q

([t) =

t
(1)
nt

1
0

t
(1)
nt
d
(n+2)
(t +1)(nt +1)

t
(1)
nt
=
1
B(t +1, nt +1)

t
(1)
nt
. (7.22)
Pour tout t = 0, 1, , n, la fonction I

(t +1, n t +1), comme la fonction de dans lin-


tervalle [0, 1] est la fonction de rpartition, voir 2.3, avec la densit
f

(; t +1, nt +1) =
1
B(t +1, nt +1)

t
(1)
nt
, = [0, 1], (7.23)
de la loi beta, i.e., pour tout = [0, 1] on a
P[T
n
=t = I

(t +1, nt +1). (7.24)


Soit Z une variable de la loi donne par (23). Dans ce cas
EZ
k
=
(n+2)
(t +1)(nt +1)
(t +k +1)(nt +1)
(n+k +2)
=
(n+2)(t +k +1)
(n+k +2)(t +1)
.
Cette formule et (24) impliquent
E[T
n
=t =
t +1
n+2
et E
2
[T
n
=t =
(t +1)(t +2)
(n+2)(n+3)
, (7.25)
i.e.,
Var[T
n
=t = E
2
[T
n
=t(E[T
n
=t)
2
=
(t +1)(nt +1)
(n+2)
2
(n+3)
=
1
n+3
t +1
n+2
_
1
t +1
n+2
_
. (7.26)
Utilisant (16), (22), (23) et (25) on a

= E[X
1
, , X
n
= E[T
n
=
T
n
+1
n+2
. (7.27)
(27) et (14) impliquent que pour grandes valeurs de n on a

n
(7.28)
et (26) implique
Var

[X
1
= x
1
, , X
n
= x
n
= Var

[T
n
=t
t
n
(1
t
n
)
n
. (7.29)
364
Exemple 4. (continuation de lExemple 2). Supposons que la densit priori () dans
lexemple 2 suit la loi beta de paramtres a et b, a > 0, b > 0 :
() =
1
B(a, b)

a1
(1)
b1
, = [0, 1]. (7.30)
Il est vident que si a = b = 1 alors on a la densit () de la loi uniforme sur [0, 1],
considre en (18). La statistique
T
n
= X
1
+X
2
+ +X
n
est sufsante et la loi conditionnelle de T
n
, sachant = , est donne par (13). De (16) on
a que la densit posteriori q([t) sachant T
n
=t,
q([t) =

a+t1
(1)
b+n1

1
0

a+t1
(1)
b+nt1
d
=

a+t1
(1)
b+nt1
B(a+t, b+nt)
, (7.31)
i.e. cest la densit beta de paramtres a +t et b +n t, do lestimateur bayesien

=

(T
n
) est

1
0
q([T
n
)d =
1
B(a+T
n
, b+nT
n
)

1
0

a+T
n
(1)
b+nT
n
1
d =
T
n
+a
a+b+n
.
(7.32)
On peut voir que pour grands valeurs de n on a

n
(7.33)
pour tout a et b, a > 0, b > 0.
Exemple 5. Supposons que, sachant , le vecteur alatoire X = (X
1
, , X
n
)
T
est un
chantillon de la loi exponentielle de la moyenne 1/, i.e. , la densit conditionnelle (x[)
de X
i
sachant = est
(x[) =
_
e
x
, x > 0,
0, sinon ,
(7.34)
EX
i
[ = =
1

, VarX
i
[ = =
1

2
. (7.35)
Trouvons lestimateur bayesien pour
PX
i
>t[ = = e
t
. (7.36)
On suppose que la rpartition priori est gamma de p degrs de libert et de paramtre
dechelle (p et sont connus), i.e., la densit () de , = (0, +), est
() =
_

p
(p)

p1
e

, > 0,
0, sinon .
(7.37)
On sait que
E =

p
et Var =

p
2
. (7.38)
365
Dans ce modle la statistique
T
n
= X
1
+ +X
n
(7.39)
est exhaustive pour , et
PT
n
t[ = =

n
(n)

t
0
x
n1
e
x
dx, t 0, (7.40)
i.e. sachant = la statistique exhaustive T
n
suit la loi gamma de n degrs de libert et de
paramtre , i.e. la densit conditionnelle (t[) de la statistique exhaustive T
n
sachant
est
(t[) =

n
(n)
t
n1
e
t
, t > 0, = (0, ), (7.41)
et
ET
n
[ = =
n

, VarT
n
[ = =
n

2
. (7.42)
Daprs (1.5) la densit q([t) de la loi posteriori, i.e. la densit de sachant T
n
=t, est
q([t) =
(t[)()

0
(x[)()d
=

n+p1
e
(t+)

0

n+p1
e
(t+)
d
=
=
(t +)
n+p

n+p1
e
(t+)

0
u
n+p1
e
u
du
=
(t +)
n+p
(n+ p)

n+p1
e
(t+)
, (7.43)
i.e., q([t) est la densit de la loi gamma de n+p degrs de libert et de paramtre dchelle
t +. On peut trouver lestimateur bayesien S(T
n
) pour e
t
. On a
S(T
n
) = Ee
t
[T
n
=


0
e
t
q([T
n
)d =
=


0
e
t
(+T
n
)
n+p
(n+ p)

n+q1
exp[(T
n
+)d =
=
(+T
n
)
n+p
(+t +T
n
)
n+p
1
(n+ p)


0
u
n+p1
e
u
du =
_
1+
t
+T
n
_
(n+p)
. (7.44)
On peut vrier, voir par exemple Voinov & Nikulin (1993), que le meilleur estimateur sans
biais de e
t
est
U(T
n
) =
_
_
1
t
T
n
_
n1
, si T
n
>t,
0, sinon .
(7.45)
Exemple 6. Soit (X, )
T
le modle bayesien, o N(0, 1), i.e. la densit priori
() de est la densit de la loi standard normale
() =
1

2
exp
_

2
2
_
= (), R
1
. (7.46)
De plus, supposons que sachant , X = (X
1
, , X
n
)
T
est un chantillon de la loi normale
N(, 1). Dans ce cas, sachant = , la statistique
X
n
=
1
n
n

i=1
X
i
366
est sufsante pour , et puisque la loi conditionnelle de X
n
est N(,
1
n
) i.e.
PX
n
x[ = ) =

exp
_

n
2
(u)
2
_
du = [

n(x )],
la densit conditionnelle de X
n
, sachant = , est
(x[) =

2
exp
_

n
2
(x )
2
_
=

n(

n(x )), x R
1
. (7.47)
Utilisant (46) et (47) on peut trouver la densit q(x) de la loi marginale de X
n
:
q(x) =

(x[)()d =

n(

n(x ))()d =
=

exp
_

n
2
(x )
2
_
1

2
exp
_

2
2
_
d
=

n
2

exp
_

nx
2
2
+nx
n
2
2

2
2
_
d
=
1

2
_
n
n+1
exp
_

nx
2
2(n+1)
_
=
_
n
n+1

__
n
n+1
x
_
, (7.48)
i.e., la loi marginale de X
n
est normale N(0,
n+1
n
) de paramtres 0 et (n+1)/n. De la formule
de Bayes on peut obtenir la densit q([x) de la loi posteriori, sachant X
n
= x :
q([x) =
(x[)()
q(x)
=

n(

n(x ))()
_
n
n+1

_
x
_
n
n+1
_
=

n+1

2
exp
_

nx
2
2
+
nx
2
2(n+1)
+nx

2
2
(n+1)
_
=

n+1

2
exp
_

n+1
2
_

nx
n+1
_
2
_
=

n+1
_

n+1
_

nx
n+1
__
, (7.49)
i.e. la loi posteriori de , sachant X
n
= x, est normale N
_
nx
n+1
,
1
n+1
_
,
P [X
n
= x =
_

n+1
_

nx
n+1
__
,
do lestimateur bayesien

de est

= E[X
n
=

q([X
n
)d = X
n
_
1
1
n+1
_
.
Nous savons dj que lestimateur de maximum de vraisemblance, qui est le meilleur esti-
mateur sans biais pour , est

n
= X
n
.
On peut vrier que si N(,
2
), o et
2
sont connus,
2
> 0, et sachant =
on a X
i
N(,
2
),
2
est connu,
2
> 0. Alors
P [X
n
=
_

n
2
+
2

_
n
2
n
2
+
2
X
n
+

2
n
2
+
2

_
_
, (7.50)
367
i.e.,
E[X
n
=
n
2
n
2
+
2
X
n
+

2
n
2
+
2
et Var[X
n
=

2

2
n
2
+
2
.
Exemple 7. Soit (X, )
T
le modle bayesien de paramtre , = (0, ). Sachant
, soit X la variable alatoire de Poisson de paramtre :
PX = x[ = =

x
x!
e

, x = 0, 1, . (7.51)
Supposons que la densit priori () est la densit de la loi gamma de m degrs de libert
et de paramtre dchelle , i.e.
() =

m
(m)

m1
e

, (7.52)
et m sont connus, > 0 , m > 0. Dans ce cas, la densit marginale q(x) de X est
q(x) =


0
(x[)()d =

x
x!
e


m
(m)

m1
e

d
=

m
x!(m)

x+m1
e
(+1)
d =

m
(x +1)(m)(+1)
x+m


0
u
x+m1
e
u
du
=
(x +m)
m
(x +1)(m)(+1)
x+m
=
(x +m)
(x +1)(m)
_
1
1+
_
m
_

1+
_
x
, (7.53)
i.e. la loi marginale de X est la loi binomiale negative, donne dans la section 0.3. Lesti-
mateur bayesien

=

(X) pour est


0
q([X)d =


0
(x[)()
q(X)
d =
1
q(X)

X
X!
e


m
(m)

m1
e

d
=

m
(m)q(X)(X +1)

X+m
e
(+1)
d
=

m
(X +m+1)
(m)q(X)(X +1)(+1)
X+m+1
=
X +m
1+
. (7.54)
Remarque 4. Considrons le modle bayesien (X, )
T
de paramtre , R
1
,
et soit q([x) la densit de la loi posteriori de sachant X = x. Utilisant la densit
posteriori q([x) on peut construire (1) -intervalle de conance ((X), (X)) pour ,
tel que
P[X = x = 1, 0 < < 0.5. (7.55)
En effet, soit et deux nombres positifs tels que + = . Dnissons = (x, )
comme le -quantile suprieur de la loi posteriori, i.e., est la racine de lquation
P[X = x =

(x,)

q([x)d = 1. (7.56)
De mme, on peut trouver le -quantile infrieur = (x, ) de la loi posteriori comme
la racine de lquation
P [X = x =

(x,)

q([x)d = . (7.57)
368
Dans ce cas on obtient lestimateur par intervalle ((X), (X)) pour de coefcient de
conance P = 1 :
P [X = x =

q([x)d = 1 = 1 = P. (7.58)
Il existe une autre approche qui permet de construire le plus court" intervalle de conance
pour . Sachant X = x soit I(x, c) un esemble dans tel que
I(x, c) = : q([x) > c, (7.59)
o c est la constante positive, et soit
P(x.c) =

I(x,c)
q([x)d = P I(x, c)[X = x
= Pq([X) > c[X = x = 1Pq([X) c[X = x. (7.60)
Choisissons c = c

tel que le coefcient de conance P = 1, i.e., tel que


P(x, c) = P = 1. (7.61)
Dans ce cas I(X, c

) est un estimateur par intervalle de de coefcient de conance P=1


, on le tire de (58) et (60). Montrons que I(X, c

) est le plus court intervalle de conance


pour entre tous les intervalles avec le mme coefcient de conance P. En effet, soit J(X)
un autre intervalle de conance pour , J(X) , tel que
P J(X)[X = x = P = 1. (7.62)
Notons que
I = (I J)

[I(I J)] = (I J)
I
(7.63)
et
J = (I J)

[J(I J)] = (I J)
J
. (7.64)
De (58) et (60) et de la dnition de
I
et
J
on a

J
q([x)d =

I
q([x)d. (7.65)
Dun autre ct on a
c

mes
j

J
q([x)d =

I
q([x)d c

mes
I
, (7.66)
do
mes
j
mes
I
, (7.67)
o
mes
j
=

J
d.
Exemple 8. Soit (X, )
T
le modle bayesien de paramtre , N(0, 1). Sachant ,
les lments X
1
, X
2
, , X
n
dchantillon X sont les variables normales N(, 1) indpen-
dantes. La loi posteriori de est normale de paramtres
E[X
n
= X
n
_
1
1
n+1
_
et Var[X
n
=
1
n+1
, (7.68)
369
o X
n
= (X
1
+X
2
+ +X
n
)/n. De la symtrie de la densit de la loi normale on tire que
le plus court (1)-intervalle de conance pour est
_
X
n
_
1
1
n+1
_

x
/2

n+1
; X
n
_
1
1
n+1
_
+
x
/2

n+1
_
(7.69)
On peut remarquer que cet intervalle bayesien est plus court que (1 )-intervalle de
conance classique
_
X
n

x
/2

n
; X
n
+
x
/2

n
_
7.3 Approche bayesienne empirique
Lapproche bayesienne empirique permet de faire des conclusions sur le paramtre non
observ dans le modle bayesien (X, )
T
mme si sa loi priori () est inconnue. Soit
(x[) la densit de la rpartition conditionnelle de X sachant . On suppose que (x[) est
connu. Lestimateur bayesien pour est

= E[X =

q([X)d =
1
q(X)

(X[)()d, (7.1)
o q([x) est la densit posteriori de sachant X, et
q(x) =

(x[)()d (7.2)
est la densit de la loi marginale de X. Si la densit priori () est inconnue, il est im-
possible de calculer les valeurs de

et q(x). Mais si la taille n de X = (X
1
, X
2
, , X
n
)
T
est sufsament grande, il est possible de construire un estimateur consistant q(X) de q(x).
S.N. Bernstein (1941) a propos destimer en remplacant q(x) par q(X) dans (2), et cher-
chant la solution () de cette quation intgrale. Aprs on peut estimer , en utilisant
() et q(X) au lieu de () et q(x) dans (1). Cependant la mthode de Bernstein est dif-
cile, puisque trouver la solution dquation (2) est le problme difcile de la thorie des
quations intgrales. Nous allons donner un exemple (Nikulin, 1978), o est dmontr que
la rpartition posteriori de la variable alatoire X
n
, X
n
B(n, ) sachant , peut tre ap-
proxime par la loi beta, si le paramtre n de la loi binomiale tend vers linni et la densit
priori est continue. Ici nous allons suivre larticle de Nikulin (1992).
7.4 Exemple
7.4.1 La loi beta et ses proprits
Soit la variable alatoire suivant la loi beta de paramtres a et b. La densit de est
p(y[a, b) =
(a+b)
(a)(b)
y
a1
(1y)
b1
, 0 < y < 1, a > 0, b > 0, (7.1)
370
la fonction de rpartition de est
P y = I
y
(a, b), (7.2)
o I
y
(a, b) vrie lidentit
I
y
(a, b) +I
1y
(b, a) 1, 0 y 1, 0, b > 0, (7.3)
On suppose que
I
y
(a, 0) 1I
1y
(0, a) 0, 0 y 1, a > 0. (7.4)
Sous cette hypothse pour tout x = 0, 1, 2, , n (n est un entier positif) on a une identit
x

k=0
_
n
k
_

k
(1)
nk
I
1
(nx, x +1) 1I

(x +1, nx). (7.5)


par rapport , [0, 1]. Notons que
E =
a
a+b
et Var =
ab
(a+b)
2
(a+b+1)

1
4(a+b+1)
(7.6)
et donc de lingalit de Chebyshevs on obtient que
P
_
[
a
a+b
[
_
(a+b+1)
1/2
, = 1/2(a+b+1)
1/4
. (7.7)
7.5 Rsultats principaux.
Soit (X
n
, ) une suite des vecteurs alatoires o est la variable alatoire, [0, 1],
dont la densit p() est continue sur [0, 1]. On suppose que la loi conditionelle de X
n
sachant
= est binomiale B(n, ) :
PX
n
= x[ = =
_
n
x
_

x
(1)
nx
; x = 0, 1, , n. (7.8)
Soit u() une fonction borne sur [0, 1], [u()[ U , o U est une constante. On considre
une fonction E
n
(u[x, p) qui reprsente lesprance conditionnelle de la statistique u() sa-
chant X
n
= x. Daprs la formule de Bayes cette fonctionnelle peut tre reprsente comme
le rapport
E
n
(u[x, p) = Eu()[X
n
= x =
J
n
(x; u, p)
J
n
(x; 1, p)
, (7.9)
o, comme il sensuit de (1) et (8),
J
n
(x; u, p) =

1
0
u()p([x +1, nx +1)p()d. (7.10)
Lemme. Soit u() et v() deux fonctions continues sur [0, 1]. Alors lorsque n
R
n
(x; u, p) = J
n
(x; u, v) v
_
x +1
n+2
_

1
0
u()p([x +1, nx +1)d 0 (7.11)
371
uniformment par rapport x = 0, 1, 2, , n.
Dmonstration. On considre un ensemble
A

=
_
: [
x +1
n+2
[ < , 0 1
_
,
o daprs (7)
2 = (n+3)
1/4
.
Dans ce cas en utilisant (10) on obtient
R
n
= R
n
(x; u, v) =

1
0
_
v() v
_
x +1
n+2
__
u()p([x +1, nx +1)d =

.
Do daprs la dnition de la variable altoire (sous conditions a =x+1 et b =nx+1)
on a
[R
n
[
U
sup
A

[v() v
_
x +1
n+2
_
[ +2
_
max
01
v()
_
P
_
[
x +1
n+2
[
_
,
o U = max
01
u(). Le premier terme tend vers zro uniformment par rapport x,
puisque v est une fonction continue sur [0, 1]. Le second terme tend vers zro uniformment
en x daprs (7), do (12) est dmontr.
Considrons un ensemble
V =v = v() : v C[0, 1], v() 0
de toutes fonctions non ngatives continues sur [0, 1], telles que pour tout v V on a
: v() = 0 : p() = 0,
do il sensuit que la densit priori p() appartient V.
Corollaire 1. Si v V, alors avec la probabilit 1
E
n
(u[X
n
, v)

1
0
u()p([X
n
+1, nX
n
+1)d 0 (7.12)
lorsque n =.
Dmonstration. Daprs (9), (10) et le lemme sachant X
n
= x on a
E(u[x, v) =
v
_
x+1
n+2
_
1
0
u()p([x +1, nx +1)d+R
n
(x; u, v)
v
_
x+1
n+2
_
+R
n
(x; 1, v)
,
o le reste R
n
dans le numrateur et dans le dnominateur tend vers zro uniformment par
rapport x = 0, 1, 2, , n, lorsque n (bien sr, la vitesse de convergence dpend du
choix de la fonction v). Pour la statistique (X
n
+1)/(n +2) la loi de grands nombres est
vrie et puisque la fonction v() est continue on a
P
_
v
_
X
n
+1
n+2
_
v(), n [ =
_
= 1. (7.13)
De plus, puisque v V on a
Pv() > 0 = 1Pv() = 0 1Pp() = 0 = 1. (7.14)
372
Do, sachant la probabilit conditionnelle de la relation limite (12) gale 1, et par
consquent la probabilit non conditionnelle est aussi gale 1.
Corollaire 2. Si v V, alors avec la probabilit 1 on a lorsque n
P [X
n
= x
n+1

k=x+1
_
n+1
k
_

k
(1)
nk+1
0, (7.15)
ou, qui est quivalent,
P [X
n
= xPX
n+1
x +1[ = 0, (7.16)
et
E
k
[X
n
= x.
x!(n+k +1)!
(x +k)!(n+1)!
1 (7.17)
uniformment par rapport , 0 1 ; (k est un entier positif).
Pour dmontrer (15) on peut remarquer que (15) suit immdiatement de (12), si on pose
u(t)
_
1, t ,
0, t > .
La formule (17) peut tre obtenue de (12) avec u(t) =t
k
.
Particulirement de (17) il sensuit que pour toutes les grandes valeurs de n lestimateur
bayesien

= E[X
n
= x,
qui est le meilleur estimateur ponctuel (dans le sens de minimum du risque quadratique)
pour la valeur inconnue du paramtre , vrie les relations

= E[X
n
= x
x +1
n+2
and

2
= E
2
[X
n
= x
(x +2)(x +1)
(n+3)(n+2)
,
do

(
2
) (

)
2

(x +1)(nx +1)
(n+2)
2
(n+3)
=
1
(n+3)
_
1
x +1
n+2
_
x +1
n+2
,
i.e., pour les grandes valeurs de n on a
E

[X
n
= x
x +1
n+2

x
n
,
Var

[X
n
= x
x +1
(n+2)(n+3)
_
1
x +1
n+2
_

x
n
_
x
n
_
n
.
7.6 Aproximations
Le Corollaire 2 donne la possibilit de construire une approximation normale et de
Poisson pour la loi posteriori de .
373
Approximation normale. Si 0 <
0

1
< 1 et v V, alors avec la probabilit 1
on a lorsque n =
P > [X
n
= x
_
x (n+1)+0.5
_
(n+1)(1)
_
0. (7.18)
Ce rsultat ne diffre que par des dtails non signicatifs du thorme de S. Berstein (1946),
connu comme le thorme inverse de Laplace".
Approximation de Poisson. Si x x
0
(x
0
est une constante positive) et v V, alors
avec la probabilit 1 on a, lorsque n ,
P > [X
n
= x
x

k=1
[(x, n, )]
k
k!
e
(x,n,)
0 (7.19)
uniformment par rapport , [0, 1], o
(x, n, ) = (2nx +2)/(2).
Remarque 1. Supposons que la densit priori p() est positive sur [0, 1]. Dans ce cas,
dans les Corollaires (18) et (19) on peut omettre des mots avec la probabilit 1" et aprs
les relations (12)-(19) ajouter uniformment par rapport X
n
= x = 0, 1, 2, , n",
Remarque 2. Les relations (15) - (17) dans certains sens approuvent le choix de M. De
Groot de la famille des lois beta comme la famille conjugue des rpartitions priori pour
des chantillons de la loi Bernoulli.
Remarque 3. (Nikulin (1978)). Considrons V = v = v() : v L
r
[0, 1] tel que si x
0
est un point de Lebesgue de v V, alors

1
2h

x
0
+h
x
0
h
[v(x) v(x
0
)[
r
dx

1/r
= o
_
1
[lnln
1
h
]
1/2r
_
.
Dans ce cas avec la probabilit 1 les relations (15) - (17) sont vries pour toute densit
priori de V, lorsque n . .
Plus de dtails ce problme on peut trouver dans Nikulin (1992), (1978), Voinov and
Nikulin (1996), et C. Robert (1992).
374
Chapitre 8
EXERCICES.
1. Soit X= (X
1
, . . . , X
n
)
T
un vecteur alatoire, dont la densit est f(x) =f(x
1
, x
2
, . . . , x
n
), x R
n
.
Notons
A =x R
n
: x
1
x
2
. . . x
n
.
Montrer que la densit
f

X
(1)
,...,X
(n)
(x
1
, x
2
, . . . , x
n
) = f

(x
1
, x
2
, . . . , x
n
)
du vecteur des statistiques dordre
X
(n)
= (X
(1)
, X
(2)
, . . . , X
(n)
)
T
est donne par la formule
f

(x
1
, x
2
, . . . , x
n
) =
_

(r
1
,...,r
n
)
n
f(x
r
1
, x
r
2
, . . . , x
r
n
), si x A,
0, sinon ,
o
n
est lensemble de toutes les permutations de (1, 2, . . . , n).
2. Soit X = (X
1
, . . . , X
n
)
T
un chantillon tel que
PX
i
x = F(x) et f (x) = F
/
(x)
est la densit de X
i
, i =1, . . .,n. Montrer que dans ce cas la densit de r premires statistiques
dordre X
(r)
n
= (X
(1)
, X
(2)
, . . . , X
(r)
)
T
, (1 r n) est donne par la formule suivante
f

X
(1)
,...,X
(r)
(x
1
, x
2
, . . . , x
r
) =
n!
(nr)!
[1F(x)]
nr
f (x
1
) . . . f (x
r
)
pour tout x A. Il est vident que si r = n, dans ce cas X
(n)
n
= X
(n)
.
3. Trouver la densit de
X
(r)
n
= (X
(1)
, X
(2)
, . . . , X
(r)
)
T
, 1 r n,
quand
375
f (x; ) = e
x
, x 0, > 0.
4. (suite) On suppose que la dure de la vie de certains produits suit une loi exponentielle
de paramtre , > 0. On considre un chantillon X = (X
1
, .., X
n
)
T
de cette distribution et
on arrte lexprience ds quon a obtenu la r-me (1 r n) dfaillance. Le rsultat de
lexprience est donc une ralisation du vecteur
X
(r)
n
= (X
(1)
, X
(2)
, . . . , X
(r)
)
T
.
a) Trouver la statistique exhaustive minimale associe ce problme et sa fonction de r-
partition.
b) Estimer le paramtre par la mthode du maximum de vraisemblence,
c) Trouver le biais de cet estimateur. Construire le meilleur estimateur sans biais pour E

X
i
sachant que E

X
i
= 1/ .
d) Trouver lestimateur de maximum de vraisemblance et le meilleur estimateur sans biais
S

(t) pour la fonction de survie


S(t; ) = 1F(t; ) = expt, t > 0.
5. Soit X = (X
1
, . . . , X
n
)
T
un chantillon. Notons
W
n
= X
(n)
X
(1)
.
Cette statistique est appelle ltendue de lchantillon. On suppose que X
i
suive une loi
continue, dont la densit f ne dpend que des paramtres de translation et dchelle ,
X
i

f (
x

), [ [< , > 0.
a) Montrer quil existe une constante c
n
telle que
EW
n
= c
n
.
b) Construire un estimateur sans biais pour .
c) Trouver c
n
quand X
i
est uniforme sur [, +].
6. Soit X= (X
1
, . . . , X
n
)
T
un chantillon et f (x) la densit de X
i
. On dsigne R
i
le numro
de X
i
dans la suite des statistiques dordre
X
(1)
X
(2)
. . . X
(n)
.
On dit que R
i
est le rang de X
i
.
Montrer que la distribution conditionelle de la statistique des rangs R = (R
1
, . . . , R
n
)
T
,
condition que
X
(n)
= x, x = (x
1
, . . . , x
n
)
T
A,
est donne par la formule :
PR
1
= r
1
, . . . , R
n
= r
n
[ X
(1)
= x
1
, . . . , X
(n)
= x
n
) =
f(x
r
1
, . . . , x
r
n
)
f

(x
1
, . . . , x
n
)
pour tout r = (r
1
, . . . , r
n
)
T

n
.
376
7. Soient X = (X
1
, . . . , X
n
)
T
un chantillon et f (x) la densit de X
i
.
Montrer que dans ce cas les statistiques R et X
(n)
sont indpendantes et que
PR = r = PR
1
= r
1
, . . . , R
n
= r
n
=
1
n!
, r = (r
1
, . . . , r
n
)
n
,
PR
i
1
= r
i
1
, . . . , R
i
m
= r
i
m
=
(nm)!
n!
, (i
1
, . . . , i
m
) 1, 2, . . . , n,
ER
i
=
n+1
2
, VarR
i
=
n
2
1
12
, Cov(R
i
, R
j
) =
n+1
12
.
8. Soient X = (X
1
, ..., X
n
)
T
et Y = (Y
1
, ...,Y
n
)
T
deux chantillons peut tre dpendants.
On range (X
i
,Y
i
) de faon que les X
i
forment une suite nondcroissante. On remplace les X
i
et les Y
i
par leur rangs. On a les statistiques de rangs :
R
(1)
= (R
11
, R
12
, ..., R
1n
)
T
et R
(2)
= (R
21
, R
22
, ..., R
2n
)
T
.
Le coefcient de correlation linaire empirique entre les vecteurs R
(1)
et R
(2)
:
r
s
=
n

i=1
(R
1i


R
1
)(R
2i


R
2
)
_
n

i=1
(R
1i


R
1
)
2
n

i=1
(R
2i


R
2
)
2
est appel le coefcient de correlation de Spearman.
Montrer que
a) r
s
= 1
6
n(n
2
1)
n

i=1
(R
1i
R
2i
)
2
;
b) r
s
= 1, si R
1i
= R
2i
et r
s
=1, si R
2i
= n+1R
1i
;
c) Er
s
= 0, Varr
s
=
1
n1
, si X
i
et Y
i
sont indpendantes.
9. Soient X = (X
1
, . . . , X
n
)
T
et Y = (Y
1
, . . . ,Y
m
)
T
deux chantillons indpendants,
PX
i
x = F(x), PY
j
y = G(y).
Notons X
(n)
et Y
(m)
les statistiques dordre correspondant ces deux chantillons. Notons
Z
(N)
le vecteur des statistiques dordre, N = n+m, correspondant la statistique
Z = (X
1
, . . . , X
n
,Y
1
, . . . ,Y
m
)
T
.
Soit R
i
le rang de X
i
dans Z
(N)
. On dit que
W =
n

i=1
R
i
est la statistique de Wilcoxon. Montrer que sous lhypothse H
0
: F(x) = G(x)
EW =
n(N+1)
2
et VarW =
nm(N+1)
12
.
10. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
X
i

f (
x

), [ [< , > 0,
377
o
f (x) = exp(x)1
[0,[
(x).
a) Estimer les paramtres et en utilisant la mthode des moments ;
b) estimer les paramtres et en utilisant la mthode de maximum de vraisemblance.
11. Supposons que, pour trouver une constante , on ait fait n mesures indpendantes.
Supposons de plus que les resultats de lexprience sont libres derreur systmatique et
que les erreurs de mesure suivent une loi normale N(0,
2
). Pour estimer la variance
2
de
lerreur de mesure on a propos deux formules :

2
1
=
1
n1
n

i=1
(x
i
x)
2
,
2
2
=
1
2(n1)
n1

i=1
(x
i+1
x
i
)
2
.
Peut-on dire que
2
1
et
2
2
sont des valeurs de deux estimateurs sans biais pour la variance ?
Quel est le meilleur de ces deux estimateurs ?
12. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
H
0
: X
i
f
r
(x, ) =
1

r
(r)
x
r1
e
x/
1
]0,+[
(x),
i.e. X
i
suit une loi gamma avec deux paramtres r et , qui sont inconnus, r N et =
]0, [.
a) Trouver par la mthode des moments les estimateurs r

n
et

n
pour r et .
b) Peut-on dire que les suites r

n
et

n
sont consistantes ?
c) Supposons que n = 10 et on a reu :
X
1
= 0.117, X
2
= 0.438, X
3
= 0.054, X
4
= 0.732, X
5
= 0.601,
X
6
= 0.443, X
7
= 0.016, X
8
= 0.129, X
9
= 0.871, X
10
= 0.104.
Calculer les ralisations des statistiques r

10
et

10
.
13. Soit X = (X
1
, ...,X
n
)
T
un chantillon de taille n,
H
0
: X
i
f (x; ) =

x
x
!
e

, x X =0, 1, . . ., =]0, [,
i.e. X
i
suit la loi de Poisson de paramtre . Notons
T = X
1
+. . . +X
n
la statistique exhaustive pour .
a) Montrer que les statistiques

I
=
1
2n

2
1
1
(2T) et
S
=
1
2n

2
(2T +2)
sont
1
-limite infrieure de conance et
2
-limite suprieure de conance pour , o
2

(n)
dsigne -quantile de la distribution du chi-deux de n degrs de libert.
b) Trouver -intervalle de conance pour :
= E

X, b() = E

X
2
, c() =
ln(1+)
1+
.
378
c) Le nombre de coups de tlphone venus au commutateur pendant une unit de temps est
une ralisation dune variable alatoire qui suit la loi de Poisson de parametre . On a reu
X = 3 coups de tlephone. Construire 0.95-intervalle de conance pour et 0.95-limites de
conance pour la probabilit
p
0
() = P

X = 0.
14. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
H
0
: X
i
f (x; ) =
1

exp
x

1
(x>0)
,
i.e. X
i
suit la loi exponentielle de parametre dchelle , > 0.
a) Construire -limites de conance pour .
b) Supposons que n = 5 et que
X
1
= 0.71, X
2
= 1.02, X
3
= 0.28, X
4
= 2.49, X
5
= 0.62.
Construire 0.9-intervalle de conance pour .
c) Soit X
(r)
n
= (X
(1)
, . . . , X
(r)
)
T
un chantillon censur, li avec X (r reprsente le nombre
des dfaillances observes de certains produits dans un exprience).
Trouver le -intervalle de conance pour et pour la fonction de survie
S(x; ) = P

X x.
d) Soit n = 20 ; le rsultat dexprience est donn par le vecteur
X
(8)
20
= (X
(1)
, . . . , X
(r)
)
T
= (10, 15, 41, 120, 159, 181, 222, 296)
T
.
Trouver les 0.95-limites infrieures pour et S(400; ).
15. Soit X = (X
1
, . . . , X
n
)
T
un chantillon,
H
0
: X
i
f (x, ) =
x
(1)
1x
, x X =0, 1, =]0, 1[,
i.e. X
i
suit la loi de Bernoulli de parametre .
a) Trouver les -limites de conance pour .
b) Soit n = 3 et T
3
= X
1
+X
2
+X
3
= 2, i.e. on a eu 2 "succs". Trouver les 0.95-limites de
conance pour et 0.95-intervalle de conance pour .
16. Soit X une variable alatoire, dont la fonction de rpartition
F(x; ), =]0, 1[,
est donne par la formule :
F(x; ) = 1
x
, si x > 0,
F(x; ) = 0, sinon.
Supposons que dans lexprience on a observ X = 1. Construire un intervalle de conance
de niveau P pour dans deux cas :
a)X est continue ;
b)
X est discrte, PX x = F([x]).
379
17. Soit X
1
et X
2
deux variables alatoires indpendantes,
H
0
: X
i
e
(x)
1
[,[
(x), = R
1
.
Trouver le plus petit -intervalle de conance pour .
18. Soit X
1
et X
2
deux variables alatoires indpendantes, X
i
suit la loi uniforme sur
]1, +1[.
Trouver le plus court 0.81-intervalle de conance pour .
19. Soit 20.76 et 20.98 deux mesures indpendantes dun angle, qui ont la mme prci-
sion, et soient
21.64, 21.54, 22.32, 20.56, 21.43 et 21.07
6 autres mesures indpendantes du mme angle, faites avec une prcision 4 fois plus petite.
On suppose que les erreurs alatoires des mesures suivent une loi normale. Trouver les
0.95-limites de conance pour la diffrence des erreurs systmatiques des deux instruments
utiliss pour obtenir les mesures donnes.
20. Quelles sont les valeurs de la moyenne et de la variance de la loi empirique construite
daprs les valeurs successivement observes suivantes :
3.92, 4.04, 4.12, 4.35, 4.55?
Peut on, avec le niveau de signication = 0.05, retenir lhypothse H
0
selon laquelle
ces nombres sont les ralisations des variables alatoires X
1
, . . . , X
n
, qui forment un chan-
tillon ?
21. (suite de 9.) Montrer que la rpartition de la statistique de Wilcoxon ne dpend pas
des paramtres inconnus si lhypothse H
0
: F(x) = G(x) est vraie.
Comment dnir la rgion critique pour lhypothse H
0
contre lalternative bilatrale
H
1
: F(x) ,= G(x) et unilatrale H
2
: F(x) > G(x) ?
22. Soit X = (X
1
, ..., X
n
)
T
un chantillon,
X
i
f (x; ) = e
x
1
(]0,+[)
, > 0.
Trouver le test uniformment le plus puissant (UPP) pour lhypothse simple H
0
: =

0
contre lalternative compose H
1
: <
0
. Le niveau de signication est . Trouver la
fonction de puissance et faire son graphe.
23. Quelle est le plus petit nombre des mesures indpendantes suivant la mme loi nor-
male avec lesprance et variance
2
= 1 qui verie lhypothse = 0 contre lalternative
= 1 avec les probabilits derreurs de premire et seconde espce infrieures ou gales
0.01 ?
24. Soit X = (X
1
, ..., X
n
)
T
un chantillon, X
i
U(0, ), > 0. Trouver
a) le test UPP pour lhypothse H
0
: =
0
contre lalternative H
1
: >
0
;
b) le test UPP pour lhypothse H
0
: =
0
contre lalternative H
2
: <
0
;
c) le test UPP pour lhypothse H
0
: =
0
contre lalternative H
3
: ,=
0
.
25. Dans la suite des preuves indpendantes de Bernoulli la probabilit de succes est gale
p. Construire un critre pour vrier lhypothse p =0 contre lalternative p =0.01 et d-
terminer la valeur minimale de taille dchantillon, pour laquelle les probabilites derreurs
de premire et de seconde espces sont infrieures ou gales 0.01.
26. Cinq variables alatoires indpendantes X
1
, X
2
, . . . , X
5
qui suivent la mme loi ont
pris les valeurs : 47,46,49,53,50. Vrier lhypothse H
0
, avec le niveau de signication
380
= 0.1, que X
i
suit une loi de Poisson. Calculer, sous lhypothse H
0
, la loi conditionelle
de X
i
sachant
5

i=1
X
i
.
27. Aprs 8000 preuves indpendantes les vnements A, B,C se sont realiss respec-
tivement 2014, 5012 et 974 fois.
Tester lhypothse
H : P(A) = 0.52a, P(B) = 0.5+a, P(C) = a,
(0 < a < 0.25 ; niveau du test = 0.05).
28. Au cours de la premire heure de travail le compteur a enregistr 150 impulsions
dun processus poissonien, pendant les deux heures suivantes - 250 impulsions. Est-ce que
lintensit darrive des impulsions une unit de temps est la mme ? (Prendre le niveau
du test gal 0.05.
29. Au cours du premier jour de travail on a enregistr 20026 impulsions dun processus
de Poisson, tandis que le jour suivant on na enregistr que 19580 impulsions. Y a-t-il
des raisons dafrmer que pendant le deuxime jour lintensit darrive des impulsions a
diminu ? (Prendre le seuil = 0.05.)
30. Parmi 300 etudiants 97 ont obtenu dexcellentes notes lexamen de n dtudes
et 48 lexamen dentre luniversit. 18 parmi eux ont eu dexcellentes notes aux deux
la fois. Vrier lhypothse de lindpendance des rsultats des examens. Niveau de signi-
cation : = 0.1.
31. Le premier groupe de 300 tudiants a obtenu les notes suivantes lexamen :
excellent : 144,
bon : 80 ;
mdiocre : 43 ;
mauvais : 33.
Les rsultats pour le deuxime groupe sont 154,72,35,39. Peut-on afrmer avec le ni-
veau de signication = 0.05 que les tudiants de ces groupes ont les mmes connais-
sances ?
32. Soit X
t

t0
un processus homogne de Poisson de paramtre , > 0. (X
0
= 0).
Supposons que aux moments 0 <t
1
<t
2
< ... <t
n
on observe les ralisations X
t
1
, ..., X
t
n
.
Montrer que

n
(X
t
1
, ..., X
t
n
) =
1
t
n
X
t
n
est lestimateur sans biais pour de variance minimale (MVUE).
33. Soit W(t), t 0, un processus de Wiener,
EW(t) = at, VarW(t) =
2
t
Cov(W(s),W(t)) =
2
min(s, t), s 0, t 0,
[a[ < , > 0.
Supposons que nous observons W(t
1
), ...,W(t
n
) (n ralisations de W(t) dans les points 0 <
t
1
< ... <t
n
). Notons

k
=t
k
t
k1
, y
k
=
W(t
k
) W(t
k1
)

k
, t
0
=W(0) = 0.
381
Montrer que en statistique
a
n
=
1
t
n
n

k=1

k
y
k
et
n
=
1
n1
n

k=1

k
(y
k
a
n
)
2
sont les estimateurs sans biais pour a et
2
de variances minimales (MVUEs).
34. Soit W(t), t 0, un processus de Wiener
EW(t) =t, VarW(t) =
2
t.
Supposons que lon observe W(t) sur un intervalle [0, ], > 0.
Soit 0 =t
0
<t
1
< ... <t
n1
<t
n
= , t
i
=
i
n
,
S
2
n
=
1

n1

i=0
[W(t
i+1
) W(t
i
)]
2
.
Montrer que
S
2
n
P

2
, n .
382
Chapitre 9
SOLUTIONS.
1. Soit F(x) = F(x
1
, . . . , x
n
) la fonction de rpartition de X
(n)
, x R
n
. Dans ce cas pour tout
x A =x R
n
: x
1
x
2
. . . x
n

on a
F(x
1
, . . . , x
n
) = PX
(1)
x
1
, . . . , X
(n)
x
n
=
=

(r
1
,...,r
n
)
n
PX
r
1
x
1
, X
r
2
x
2
, . . . , X
r
n
x
n
=
=

(r
1
,...,r
n
)
n
x
1

. . .
x
n

f
X
r
1
,...,X
r
n
(u
1
, u
2
, . . . , u
n
)du
1
. . . du
n
=
=
x
1

. . .
x
n

(r
1
,...,r
n
)
n
f
X
r
1
,...,X
r
n
(u
1
, u
2
, . . . , u
n
)du
1
. . . du
n
,
do on tire que pour tout x A on a
f

(x
1
, x
2
, . . . , x
n
) =

(r
1
,...,r
n
)
n
f
X
r
1
,...,X
r
n
(x
1
, x
2
, . . . , x
n
) =
=

(r
1
,...,r
n
)
n
f(x
r
1
, x
r
2
, . . . , x
r
n
).
On remarque que sil existe au moins deux numros i et j pour lesquels x
i
> x
j
, (i < j),
cest dire si x , A ,dans ce cas
F(x
1
, . . . , x
n
) = PX
(1)
x
1
, . . . , X
(n)
x
n
= 0.
2. X =X est un chantillon, i.e. X
1
, . . . , X
n
sont indpendantes et suivent la mme loi, dont
la densit est f (x). Dans ce cas, comme il suit du problme 1, pour tout x A la densit de
X
(r)
n
= (X
(1)
, X
(2)
, . . . , X
(r)
)
T
est donne par la formule :
383
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
) =

. . .

X
(1)
,...,X
(n)
(x)dx
r+1
. . . dx
n
.
Mais
f

X
(1)
,...,X
(n)
(x) = 0, si x , A,
et donc
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
) =

x
r
dx
r+1

x
r+1
dx
r+2
. . .

x
n1
f

X
(1)
,...,X
(n)
(x)dx
n
.
Parce que X est un chantillon, on en tire que pour tout x A :
f

(x) = n! f (x
1
) f (x
2
). . . f (x
n
),
et donc
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
) =
= n! f (x
1
) f (x
2
). . . f (x
r
)

x
r
f (x
r+1
)dx
r+1
. . .

x
n1
f (x
n
)dx
n
.
Notons que

x
n1
f (x
n
)dx
n
= S(x
n1
),
o S(x) = 1F(x), et donc

x
n2
f (x
n1
)S(x
n1
)dx
n1
=

x
n2
S(x
n1
)dS(x
n1
) =
1
2
S
2
(x
n2
).
En procdant de la mme faon on en tire que

x
r
f (x
r+1
)
1
(nr 1)!
S
nr+1
(x
r+1
)dx
r+1
=
1
(nr)!
S
nr
(x
r
),
et par conscence on trouve que
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
) =
n!
(nr)!
S
nr
(x
r
) f (x
1
). . . f (x
r
).
3. En cas de la loi exponentielle on a X
i
f (x; ), =]0, [, o pour tout
f (x; ) = expx, x 0,
et
384
S(x; ) = 1 F(x; ) = e
x
, x 0, F(x; ) = PX
i
x; = P

X
i
x, et donc avec la
probabilit 1
X
(n)
A =x R
n
: 0 x
1
x
2
. . . x
n
,
do on trouve que la densit de X
(r)
n
est donne par la formule :
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
; ) =
n!
(nr)!

r
expt, x A,
o
t =
r

i=1
x
i
+(nr)x
r
.
4. a) La statistique
T =
r

i=1
X
(i)
+(nr)X
(r)
est exhaustive pour , parce que la fonction de vraisemblance L(X
(r)
n
; ) de la statistique
X
(r)
n
peut tre prsente comme un produit
L(X
(r)
n
; ) = g(T; )h(X
(r)
n
) =
n!
(nr)!

r
exp
_

i=1
X
(i)
+(nr)X
(r)
_
1
X
(1)
0
,
et donc selon le critre de factorisation de Neyman-Fisher la statistique T est exhaustive. On
remarque que la fonction de vraisemblence de la statistique X
(n)
est donne par la formule :
L(X
(n)
; ) = n! f (X
(1)
; ) f (X
(2)
; ). . . f (X
(n)
; ).
Par la tradition on dit que T est la survie sommaire de tout n produits observs dans lexp-
rience.
b) Pour trouver lestimateur du maximum de vraisemlence

n
pour , il nous faut maximi-
ser L(X
(r)
n
; ) par rapport , ce qui est quivalent la maximisation de lnL(X
(r)
n
; ) par
rapport . Donc pour trouver lestimateur du maximum de vraisemblance

n
il nous faut
rsoudre lquation de maximum de vraisemblance
d
d
lnL(X
(r)
n
; ) = 0.
Parce que
lnL(X
(r)
n
; ) = ln
n!
(nr)!
+ rlnT,
on trouve que

n
=
r
T
.
On remarque que

n
ne dpend que de la statistique exhaustive T. Sachant

n
nous pouvons
construire tout de suite lestimateur de maximum de vraisemblance

S(x) pour S(x; ) pour
tout x x :
385

S(x) = exp
_

rx
T
_
.
Tout dabord on remarque que dans ce problme on nobserve que la statistique
X
(r)
n
= (X
(1)
, . . . , X
(r)
)
T
, (1 r n)
et pas X ou X
(n)
, et pour cette raison on dit que on a un chantillon censur.
c). Pour apprendre des proprits des estimateurs, bases sur la statistique exhaustive T,
il nous faut savoir la distribution de T. On remarque que la statistique T peut tre prsente
dans la forme suivante :
T = nX
(1)
+(n1)(X
(2)
X
(1)
) +. . . +(nr 1)(X
(r)
X
(r1)
),
parce que n produits ont fonctionns jusqu la premire dfaillance, (n1) restants entre
la premire et la seconde dfaillances, etc.
Soit
Z = (Z
1
, . . . , Z
r
)
T
= UX
(r)
n
,
une statistique dont les coordonnes Z
i
sont dtermines par la transformation linaire z =
Ux, x A, avec la matrice U, dont les lments u
i j
sont
u
ii
= ni +1, i = 1, . . . , r,
u
i j
=(n j +1), j = i 1; i = 2, . . . , r,
u
i j
= 0 dans tout les autres cas,
et donc
z
i
= (ni +1)(x
i
x
i1
), i = 1, . . . , r; x
0
= 0.
Dans ce cas
Z
i
= (ni +1)(X
(i)
X
(i1)
), i = 1, . . . , r, X
(0)
= 0,
do on tire que dans les terms de Z
i
la statistique T est donne par la formule suivante
T = Z
1
+. . . +Z
r
.
Tout dabord nous allons montrer que les statistiques Z
1
, . . . , Z
r
sont indpendantes et suivent
la mme loi. Pour prouver cela il nous faut trouver la densit f
Z
(z; ) de la statistique
Z = UX
(r)
n
. Sachant que la densit de X
(r)
n
est
f

X
(1)
,...,X
(r)
(x
1
, . . . , x
r
; ) =
n!
(nr)!

r
exp
_
[
r

i=1
x
i
+(nr)x
r
]
_
,
pour trouver la densit f
Z
(z; ), il nous faut calculer le Jacobian de la transformation U
1
.
Parce que
det U = n!/(nr)!,
on trouve que
386
f
Z
(z; ) =
r
exp(z
1
+. . . +z
r
) = f (z
1
; ). . . f (z
r
; ),
do on voit bien que les statistiques Z
1
, . . . , Z
r
sont indpendantes et suivent la loi expo-
nentielle de paramtre . Mais dans ce cas la satistique T suit la loi gamma avec r degrs
de libert, dont la densit est donne par la formule :
f
T
(t; ) =

r
(r)
t
r1
e
t
, t > 0.
En utilisant ce rsultat on trouve que
E

n
= E

r
T
=

0
r
t
f
T
(t; )dt =
r
r 1
,
do on trouve que le meilleur estimateur sans biais pour est

=
r 1
T
.
d). Pour trouver le meilleur estimateur sans biais S

(x) pour S(x; ) nous pouvons ap-


pliquer lapproche de Rao-Blackwell-Kolmogorov, dapres laquelle tout dabord il nous
faut trouver nimporte quel estimateur sans biais, et apres calculer son esprance condi-
tionelle par rapport la statistique exhaustive T, qui est complte, parce que la famille
f
T
(t; ), est complte. En qualit de lestimateur primaire pour S(x; ) il est raison-
nable de choisir la statistique

S(x) = 1
Z
1
>x
,
parce que
E


S(x) = PZ
1
> x; = e
x
= S(x; ),
et donc le meilleur estimateur sans biais pour S(x; ) est
S

(x) = E

S(x) [ T.
On remarque que cette esprance conditionelle ne dpend pas de , parce que la statistique
T est exhaustive. Pour trouver la densit conditionnelle de Z
1
par rapport T, il nous faut
savoir la densit de la statistique (Z
1
, T)
T
. On remarque que la densit de
(Z
1
, T Z
1
)
T
= (Z
1
, Z
2
+Z
3
+. . . +Z
r
)
T
,
est donne par la formule
f
Z
1
,TZ
1
(z, v; ) = e
z

r1
v
r2
(r 1)
e
v
, z 0; v 0,
sinon f
Z
1
,TZ
1
(z, v; ) = 0, do on trouve, par le changement de variables
z = z et t = z +v,
la densit f
Z
1
,T
(z, t; ) de la statistique (Z
1
, T)
T
:
387
f
Z
1
,T
(z, t; ) = e
z

r1
(r 1)
(t z)
r2
e
(tz)
, t z 0,
parce que le Jacobian de la transformation est gal 1. En utilisant ce rsultat on trouve
immdiatement la densit conditionelle
f
Z
1
[T=t
(z) =
f
Z
1
,T
(z, t)
f
T
(t)
=
r 1
t
r1
(t z)
r2
, t z 0,
sinon f
Z
1
[T=t
(z) = 0. Donc si T x on a
E

S(x) [ T =
T

x
1
r 1
T
(1
z
T
)
r2
dz = (1
x
T
)
r1
,
sinon E

S(x) [ T = 0. Donc
S

(x) = E

S(x) [ T =
_
(1
x
T
)
r1
, si T x
0, sinon.
En n on remarque que si T >> x, alors
S

(x) = (1
x
T
)
r1
= exp(r 1)ln(1
x
T
) =
= exp(r 1)[
x
T
+o(
x
T
)]

= expr
x
T
=

S(x).
6. Pour tout x A et r = (r
1
, . . . , r
n
)
n
on a :
PR = r [ X
(n)
= x = lim
h
1
,...,h
n
0
PR = r [ x
1
< X
(1)
x
1
+h
1
, . . . , x
1
< X
(n)
x
n
+h
n
=
= lim
h
1
,...,h
n
0
PR
1
= r
1
, . . . , R
n
= r
n
, x
1
< X
(1)
x +h
1
, . . . , x
n
< X
(n)
x
n
+h
n
Px
1
< X
(1)
x
n
+h
n
, . . . , x
n
< X
(n)
x
n
+h
n

=
= lim
h
1
,...,h
n
0
Px
r
1
< X
1
x
r
1
+h
r
1
, . . . , x
r
n
< X
n
x
r
n
+h
r
n
h
1
h
2
. . . h
n
Px
1
< X
(1)
x
1
+h
1
, . . . , x
n
< X
(n)
x
n
+h
n
h
1
. . . h
n
=
f(x
r
1
,...
x
r
n
)
f

(x)
.
13. a) La statistique exhaustive T =
n

i=1
X
i
suit la loi de Poisson de paramtre n ( >
0) : T P(n). La fonction de rpartition de T
G(k; ) =
k

i=1
(n)
i
i!
e
n
= P
2
(2k +2) 2n =P(2n, 2k +2),
o
P(x, n) = P
2
(n) x.
On a
G(k 0, ) =
k1

i=1
(n)
i
i!
e
n
=P(2n, 2k) (k = 1, 2, ...),
388
G(k 0, ) = 0, si k = 0.
Les fonctions I et S du thorme de Bolshev
I(; X) =P(2n, 2T), si X ,= 0,
I(; X) = 0, si X = 0,
S(; X) =P(2n, 2T +2).
La fonction S est strictement dcroissante pour toutes valeurs de T, la fonction I est stricte-
ment dcroissante pour T ,= 0.
On dduit du thorme de Bolshev que
1
-limite infrieure de conance
i
et
2
-limite
suprieure de conance
s
pour peuvent tre trouves des quations
P(2n
i
, 2T) =
1
,
P(2n
s
, 2T +2) = 1
2
o

i
=
1
2n

2
1
1
(2T)

s
=
1
2n

2
(2T +2). (1)
Si T = 0, I(; X) = 0. Dans ce cas il nexiste pas tel que I(; X)
1
> 1/2. On dduit
du thorme de Bolshev que

i
= inf
>0
= 0.
b) Pour obtenir -intervalle de conance ]
i
,
s
[ pour il faut prendre
1
+
2
= 1+ dans
les formules (1) . Dans le cas
1
=
2
on a
1
=
2
= (1+)/2.
c) Si n = 1, T = X = 3, on a

i
=
1
2

2
1
1
(6),
s
=
1
2

2
(6).
Pour obtenir 0.95-intervalle de conance il faut prendre

1
=
2
= (1+0.95)/2 = 0.975.
On a

i
=
1
2

2
0.025
(6) =
1
2
1.237 = 0.6185,

s
=
1
2

2
0.975
(8) =
1
2
17.535 = 8.7675.
Si p
0
() = e

, on a

i
< e

i
> e

,
s
> e

s
< e

,
donc 0.95-intervalle de conance pour p
0
() est ]P
i0
, P
s0
[ avec
P
i0
= e

1
2

2
0.95
(8)
= e

1
2
15.507
0.000431.
389
P
s0
= e

1
2

2
0.05
(6)
= e

1
2
1.635
0.441.
14. a) Notons
T = X
1
+... +X
n
.
La statistique T suit une loi gamma G(n;
1

) de paramtres n and 1/ :
PT t =
1
(n1)!
n

t
0
u
n1
e
u/
du, t 0,
et donc T/ suit la loi gamma G(n; 1), et par consquant
2T

=
2
2n
.
Dans cet exemple les fonctions I et S peuvent tre choisies de faons suivante
I(; X) = S(; X) = 1P
_
2T

, 2n
_
.
Ces fonctions sont dcroissantes en et du thorme de Bolshev il suit que les limites
infrieure
i
et suprieure
s
peuvent tre trouves des quations
1P
_
2T

i
, 2n
_
= et 1P
_
2T

s
, 2n
_
= 1,
cest--dire
2T

i
=
2

(2n) and
2T

s
=
2
1
(2n),
do on trouve que

i
=
2T

(2n)
et
s
=
2T

2
1
(2n)
.
c) La statistique
T
r
=
r

k1
X
(k)
+(nr)X
(r)
suit une loi gamma G(r;
1

), et par consquant -intervalle de conance pour est ]


i
,
s
[,
o

i
=
2T
r

2
1+
2
(2r)
et
s
=
2T
r

2
1
2
(2r)
.
Puisque la fonction de survie S(x; b) = e
x/
1
[0,[
(x) est croissante en , nous avons -
intervalle de conance ]S
i
, S
s
[ pour S(x; ) avec
S
i
= e
x/
i
et S
s
= e
x/
s
.
15. a) Il est clair que la statistique
T =
n

i=1
X
i
suit une loi binomialle B(n, ) de paramtres n et . La fonction de rpartition de T est
G(k; ) = P

T k =
k

i=0
_
n
i
_

i
(1)
ni
=
390
I
1
(nk, k +1) = 1I

(k +1, nk), k = 0, 1, ..., n1,


G(k; ) = 1, si k = n,
o I
x
(a, b) est la fonction de rpartition de la loi beta de paramtres a et b, et
G(k 0; ) =
k1

i=0
_
n
i
_

i
(1)
ni
= 1I

(k, nk +1), k = 1, 2, ..., n,


G(k 0; ) = 0, si k = 0.
Les fonctions I et S sont
I(; X) =
_
I
1
(nT +1, T), si T ,= 0
0, sinon ,
S(; X) =
_
I
1
(nT, T +1), si T ,= n
1, si T = n.
On remarque que S(; X) est strictement dcroissante en pour T ,= n, et I(; X) est stric-
tement decroissante en pour T ,= 0, et par consquant du thorme de Bolshev il suit
que
I
1
i
(nT +1, T) =
1
pour T ,= 0,
et donc

i
= 0, si T = 0,
I
1
s
(nT, T +1) = 1
1
pour T ,= n,
et donc

s
= 1, si T = n.
Donc,

i
=
_
1x(
1
; nT +1, T), si T ,= 0
0, si T = 0,

s
=
_
1x(1
1
; nT, T +1), si T ,= n
1, si T = n,
o x(
1
; a, b) est le
1
-quantil de la distribution beta de paramtres a et b.
16. b) Dans ce cas
I(X; ) = F(X 0; ) et S(X; ) = F(X; ).
Si X = 1 alors
I(1; ) = F(10; ) = F(0; ) = 0.
Du thorme de Bolshev il suit que la limite infrieure de conance
i
pour du niveau de
conance suprieur ou gal
1
est

i
= inf = inf ]0, 1[ = 0.
Si
1
= 1, alors P
i
=
1
, et donc
i
= 0 est la limite infrieure de 1-conance pour
. De lautre ct la fonction
S(1; ) = F(1; ) = 1, ]0, 1[,
391
est dcroissante en et donc du thorme de Bolshev nous avons
S(1;
s
) = 1
2
,
do il sensuit que
s
=
2
. Donc
1
= 1 et
2
limites de conance pour sont 0 et
2
, et
-intervalle de conance pour est ]0, [, puisque pour
1
= 1 lgalit =
1
+
2
1 est
juste quand
2
= .
17. La fonction de vraisemblance
L = exp(X
1
+X
2
2)1X
(1)
,
l = lnL = (2X
1
X
2
)1 X
(1)
.
l = max, si

= X
(1)
, parce que sur lintervalle ] , X
(1)
[ la fonction l est croissante. On a
PX
(1)
> x = PX
1
> x, X
2
> x =
_
_

x
e
(x)
dx
_
_
2
= e
2(x)
, x .
La fonction de rpartition de X
(1)
G(x) = F
X
(1)
(x) = 1e
2(x)
, x .
Notons T = X
(1)
. Les fonctions I et S du thorme de Bolshev
I(; X) = S(; X) = G(X
(1)
) = 1e
2(X
(1)
)
sont dcroissantes, do on dduit que
1e
2(X
(1)

i
)
=
1
,
1e
2(X
(1)

s
)
= 1
2
,
o

i
= X
(1)
+
1
2
ln(1
1
),

s
= X
(1)
+
1
2
ln
2
.
Lintervalle ]
i
,
s
[ est -intervalle de conance pour si =
1
+
2
1.
La longueur de cet intervalle

i
=
1
2
(ln
2
ln(1
1
)).
On cherche
1
et
2
tels que

1
+
2
= 1+, 0.5 <
i
1 (i = 1, 2)
et pour lesquels la longeur
s

i
est minimale. on considre
s

i
comme fonction de
2
.
la drive
(
s

i
)
/
=
1
2
(ln
2
ln
2
)
/
=
392
1
2
_
1

_
< 0.
cette fonction est dcroissante, donc
s

i
= min si
2
= 1 et
1
= 1+
2
= , do on
tire que

i
= x
(1)
+
1
2
ln(1);

s
= x
(1)
.
18. il est vident que y
i
suit la loi uniforme sur [-1,1], do il suit que la rpartition
de la variable alatoire
t = x
1
+x
2
2 = y
1
+y
2
ne dpend pas de . il est facile montrer que
g(y) = pt y =
_

_
0, y 2,
1
8
(y +2)
2
, 2 y 0,
1
(y2)
2
8
, 0 y 2,
1, y 2.
la fonction
g(t) = g(x
1
+x
2
2), r
1
,
est dcroissant en . du thorme de bolshev il sensuit que les limites de conance, inf-
rieure et suprieure, de niveau de conance
1
et
2
respectivement (0.5 <
i
1) vrient
les quations
g(x
1
+x
2
2
i
) =
1
et g(x
1
+x
2
2
s
) = 1
2
,
do nous trouverons

i
=
x
1
+x
2
2
1+
_
2(1
1
) et
s
=
x
1
+x
2
2
+1
_
2(1
2
).
il est facile montrer que pour =
1
+
2
1 donn la fonction

i
= 2
_
2(1
1
)
_
2(1
2
)
prend sa valeur minimale (considre comme fonction de
1
, 0.5 <
1
1) quand

1
=
1+
2
.
dans ce cas
2
=
1
2
, et donc le -intervalle de conance le plus court pour est ]
i
,
s
[
avec

i
=
X
1
+X
2
2
1+
_
1 et
s
=
X
1
+X
2
2
+1
_
1.
22. La fonction de vraisemblance est :
L(X; ) =
n
exp
_

i=1
X
i
_
1X
(1)
> 0.
Le rapport de vraisemblance sera suprieur c :
L(X; )/L(X;
0
) =
_

0
_
n
exp
_
(
0
)
n

i=1
X
i
_
> c
393
si et seulement si
n

i=1
X
i
> c
1
o c
1
est une constante. On a utilis le fait que <
0
. On cherche c
1
tel que :
= P

0
_
n

i=1
X
i
> c
1
_
= P

0
_
2
0
n

i=1
X
i
> 2
0
c
1
_
= P
_

2
(2n) > 2
0
c
1
_
,
do
2
0
c
1
=
2
1
(2n)
et donc
c
1
=
1
2
0

2
1
(2n).
Le test ne dpends pas de , donc il est UPP pour lalternative <
0
. La fonction de
puissance est :
() = P

_
n

i=1
X
i
> c
1
_
= P

2
(2n) > 2c
1
_
=P(2c
1
, 2n) =P
_

2
1
(2n), 2n
_
,
o P(x, n) = P
_

2
(n) > x
_
. (
0
) est dcroissante,
lim
0+0
() =P(0, n) = 1, (
0
) = .
Figure 1.
Le test est biais pour lalternatives >
0
.
23. La fonction de vraisemblance est
L(X; ) = const exp
_

1
2
n

i=1
(X
i
)
2
_
.
Le rapport de vraisemblance sera suprieur c :
L(X; 1)/L(X; 0) = exp
_

1
2
n

i=1
[(X
i
1)
2
X
2
i
]
_
= exp
_
n

i=1
(X
i
1/2)
_
> c
394
si et seulement si

X =
1
n
n

i=1
X
i
> c.
Les risques de premire et deuxime espce sont :
= P
0

X > c 0.01,
= P
1
(

X c 0.01.
Si = 0,

X N(0,
1
n
),

n

X N(0, 1).
Si = 1,

X N(1,
1
n
),

n(

X 1) N(0, 1).
Donc
1(

nc) 0.01
(

n(c 1)) 0.01


o

nc
1
(0.99)

n(c 1) 1
1
(0.99).
(1)
Notons a =
1
(0.99) 2.326, m =

n. Il faut trouver le plus petit m vriant


mc a,
m(c 1) a,
o
c
a
m
, c 1
a
m
. (2)
Figure 2
La fonction g(m) =
a
m
est dcroissante, la fonction h(m) = 1
a
m
est croissante. On
cherche le point dintersection m

:
a
m
= 1
a
m
,
395
donc m

= 2a 4.652.
lim
m
g(m) = 0, lim
m
h(m) = 1, lim
m0+0
g(m) = +,
lim
m0+0
h(m) =; h(m) = 0, si m = a 2.326.
Dans la rgion hachure (gure 2) les ingalits (1) sont vries.
Parce que
2 2.325 < m

< 2 2.33
et
21.6 < (m

)
2
< 21.8,
le plus petit nombre naturel pour lequel les ingalits (1) sont vries est n = [(m

)
2
] +1 =
22.
24. La fonction de vraisemblance est
L() =
1

n
10 X
(1)
X
(n)
.
a) H : =
0
,

H : >
0
.
On cherche le test pur de Neyman-Pearson de niveau :
(X) =
_
1, si L() > kL(
0
)
0, sinon
Si X
(n)

0
, lingalit
L() > kL(
0
) (1)
est vrie pour k > 0, si et seulement si
_

_
n
> k.
Si X
(n)
>
0
, lingalit (1) est toujours vrie. Prenons k <
_

_
n
:
= P

0
X
(n)

0
+P

0
X
(n)
>
0
= 1+0 = 1.
Il ny a pas de test pur de niveau < 1.
Prenons k
_

_
n
:
= P

0
X
(n)
>
0
= 0.
Il ny a pas non plus de test pur de niveau de signication . On cherche le test randomis
de Neyman-Pearson
(X) =
_
_
_
1, si L() > kL(
0
),
, si L() = kL(
0
),
0, sinon .
(2)
Si X
(n)

0
, lgalit
L() = kL(
0
) (3)
396
est vrie pour k > 0 si et seulement si
_

_
n
= k.
Si X
(n)
>
0
, lgalit (3) nest pas vrie. Prenons k =
_

_
n
:
(X) =
_
1, X
(n)
>
0
,
, X
(n)

0
,
car lgalit (1) est vrie si X
(n)
>
0
.
Le niveau de signication est :
= E

0
(X) = P

0
X
(n)
>
0
+P

0
X
(n)

0
= .
Donc on a
(X) =
_
1, X
(n)
>
0
,
, X
(n)

0
.
Daprs le lemme de Neyman-Pearson le test est UPP car il ne dpend pas de >
0
.
b) H : =
0
,

H : <
0
. On cherche le test pur de Neyman-Pearson.
Si X
(n)
, lingalit (1) est vrie pour k > 0 si et seulement si
_

_
n
> k.
Si X
(n)
> , lingalit (1) nest pas vrie.
Prenons k <
_

_
n
. Dans ce cas
(X) =
_
1, X
(n)
,
0, sinon ,
et
= P

0
X
(n)
=
_

0
_
n
.
Le niveau de signication est pour lalternative
1
=
0

1/n
. Sous cette alternative
(X) =
_
1, X
(n)

1/n
,
0, sinon .
Dans le cas dautres alternatives cherchons le test randomis (2).
Si X
(n)
, lgalit (3) est vrie si et seulement si
_

_
n
= k.
Pour X
(n)
> , lgalit (3) nest pas vrie.
Prenons k =
_

_
n
. Le test de Neyman-Pearson donne

1
(X) =
_
, X
(n)
,
0, sinon ,
397
= E

1
(X) = PX
(n)
=
_

0
_
n
,
=
_

_
n
.
Lingalit 1 est vrie si
0

1/n
.
Le test de Neyman-Pearson nexiste pas quand <
0

1/n
.
Pour
0

1/n
(X) =
_

_
n
.
On cherche la puissance de et
1
pour
0

1/n
:
E

(X) = P

X
(n)

1/n
=
_

1/n

_
n
=
_

_
n
,
E

1
(X) =
_

_
n
P

X
(n)
=
_

_
n
.
La puissance de est la mme que la puissance du test le plus puissant
1
pour lalternative

0

1/n
. Si <
0

1/n
E

(X) = P

X
(n)

1/n
= 1.
Donc, le test est le plus puissant pour toutes alternatives > 0.
c) On a obtenu que le test
(X) =
_
1, X
(n)
>
0
, X
(n)

0
est le plus puissant pour lalternative >
0
et le test

0
(X) =
_
1, X
(n)

1/n
0, sinon
est le plus puissant pour lalternative <
0
et les puissances de ces tests
E

(X) = P

X
(n)
>
0
+P

X
(n)

0
,
E

0
(X) = P

X
(n)

1/n
.
Dnissons

2
(X) =
_
1, si X
(n)
>
0
ou X
(n)

1/n
0, sinon .
Ce test a le niveau car
E

2
(X) = P

0
X
(n)

1/n
= .
La puissance de
2
:
E

2
(X) = P

X
(n)
>
0
+P

X
(n)

1/n
.
398
Si <
0
E

2
(X) = P

X
(n)

1/n
= E

0
(X),
si >
0
E

2
(X) = P

X
(n)
>
0
+
_

_
n
=
P

X
(n)
>
0
+P

X
(n)

0
= E

(X),

2
est le test UPP pour lhypothse H : =
0
contre lalternative bilatrale

H : ,=
0
.
399
BIBLIOGRAPHIE.
Aguirre N. (1993). Test dajustement du chi-deux pour une loi logistique. XXV Journe
de Statistique, Vannes, Session 35 (191).
Aguirre N. and Nikulin M. (1994) Chi squared goodness-of-t test for the family of
logistic distributions. Kybernetika, 30 3, p. 214-222.
Aalen, O. (1980). A model for nonparametric regression analysis of counting processes.
In. Mathematical Statistics and Probability Theory, Lecture Notes in Statistics, 2, (Eds. W.
Klonecki, A. Kozek and J. Rosinski), New York : Springer Verlag, 1-25.
Achtziger W., Bendse M.P. Taylor J.E. (1998). Bounds on the effect of progressive
structural degradation. J. Mech. Phys. Solids, 46, 6, 1055-1087.
Anderson T.W. (1962). On the distribution of the two-sample Cramer-von Mises crite-
rion. Annals of the Mathematical Statistics, 33, p.1148- 1159.
Anderson T.W. and Darling D.A. (1952). Asymptotic theory of certain "Goodness of
t" criteria based on stochastic processes. Annals of the Mathematical Statistics, 23, p.193-
212.
P.K.Andersen and R.D.Gill. (1982). "Coxs regression model for counting processes :
A large sample study", Ann. Statist, 10, p. 1100-1120.
P.K.Andersen, O.Borgan, R.D.Gill and N.Keiding, (1993). Statistical Models Based
on Counting Processes, New York : Springer-Verlag.
Andersen, P.K. (1991). Survival analysis 1981-1991 : The second decade of the pro-
portional hazards regression model. Statistics in Medicine, 10, # 12, 1931-1941.
V.Bagdonavi cius. (1978.) "Testing the hyphothesis of the additive accumulation of da-
mages". Probab. Theory and its Appl., 23, pp. 403-408.
V.Bagdonavi cius and M.Nikulin. (1994). " Stochastic models of accelerated life". In :
Advanced Topics in Stochastic Modelling, (eds. J.Gutierrez, M.Valderrama), Singapore :
World Scient.
Bagdonavi cius, V., Nikulin, M. (1995). Semiparametric models in accelerated life tes-
ting. Queens Papers in Pure and Applied Mathematics. Queens University, Kingston, On-
tario, Canada. 98, 70p.
V.Bagdonavi cius and M.Nikulin. (1996). Analyses of generalized additive semipara-
metric models , Comptes Rendus, Academie des Sciences de Paris, 323, 9, Srie I, 1079-
1084.
V.Bagdonavi cius and M.Nikulin. (1997a). "Transfer functionals and semiparametric
regression models", Biometrika, vol. 84 pp. 365-378.
V.Bagdonavi cius and M.Nikulin. (1997b). "Asymptotic analysis of semiparametric
models in survival analysis and accelerated life testing", Statistics, vol. 29 pp. 261-283.
V.Bagdonavi cius and M.Nikulin. (1997). "Semiparametric estimation in the generali-
zed additive multiplicative model". In : Probability and Statistics, 2, (Eds : I.A. Ibragimov,
V.A. Sudakov), Proceeding of the Steklov Mathematical Institute, St. Petersbourg, 7-27.
V.Bagdonavi cius and M.Nikulin. (1997). Statistical analysis of the generalized addi-
tive semiparametric survival model with random covariates, Qestii, Qestii, 21, # 1-2,
p. 273-291.
V.Bagdonavi cius and M.Nikulin. (1997). Sur lapplication des stress en escalier dans
les expriences acclres , Comptes Rendus, Academie des Sciences de Paris, 325, Srie
I, p. 523-526.
400
V.Bagdonavi cius and M.Nikulin. (1997). Accelerated life testing when a process of
production is unstable, Statistics and Probabilit Letters, 1997, 35, p. 269-279.
V.Bagdonavi cius and M.Nikulin. (1997). Transfer functionals and semiparametric
regression models, Biometrika, 1997, 84, 2, p. 365-378.
V.Bagdonavi cius and M.Nikulin. (1997). Analysis of general semiparametric models
with random covariates, Revue Roumaine de mathmatiques Pures et Appliques, 42, #
5-6, p. 351-369.
V.Bagdonavi cius and M.Nikulin. (1997). Asymptotic analysis of semiparametric mo-
dels in survival analysis and accelerated life testing, Statistics, 29, p.261-283.
V.Bagdonavi cius and M.Nikulin. (1997). Some rank tests for multivariate censored
data. In : Advances in the Theory and Practice of Statistics : A volume in Honor of Samuel
Kotz. (eds. N.L.Johnson and N.Balakrishnan), New York : J. Wiley and Sons, 193-207.
V.Bagdonavi cius and M.Nikulin. (1998a). Additive and multiplicative semiparametric
models in accelerated life testing and survival analysis. Queens Papers in Pure and Applied
Mathematics, vol. 108, Kingston : Queens University, Canada.
V.Bagdonavi cius and M.Nikulin. (1998b). "Estimation in generalized proportional ha-
zards
model". C.R.Acad.Sci.Paris, Serie I, 326, pp. 1415-1420.
V.Bagdonavi cius, S.Malov and M.Nikulin. (1998). Characterizations and semipa-
rametric regression estimation in Archimedean copulas, Journal of Applied Statistical
Sciences, 8, 549-562.
V.Bagdonavi cius, V.Nikoulina and M.Nikulin. (1998). Bolshevs method of con-
dence interval construction, Qestii, 21, # 3, 549-562.
V.Bagdonavi cius and M.Nikulin. (1999). "Generalized proportional hazards model ba-
sed on modied partial likelihood" , Life Data Analysis, 5, 329-350.
Bagdonavi cius, V. and Nikulin, M. (2001). Estimation in Degradation Models with
Explanatory variables, Lifetime Data Analysis, 7, 85-103.
V.Bagdonavi cius and M.Nikulin. (1999). Model Buildings in Reliabilty", In : Proba-
bilistic and Statistical Models in Reliability , (Eds. N. Limnios and D. Ionescu), Boston :
Birkhauser, 51-74.
V.Bagdonavi cius and M.Nikulin. (1999). On Nonparametric Estimation From Ac-
celerated Experiments", In : Probabilistic and Statistical Models in Reliability, (Eds. N.
Limnios and D. Ionescu), Boston : Birkhauser, 75-90.
V.Bagdonavi cius and M.Nikulin. (2000)"Modle statistique de dgradation avec des
covariables dpendant de temps", Comptes Rendus, Academie des Sciences de Paris, 2000,
329, Srie I, p. 131-134.
V.Bagdonavi cius and M.Nikulin. (2000). "On goodness-of-t for the Linear Transfor-
mation and Frailty models", Statistics and Probability Letters, 47, #2, 177-188.
V.Bagdonavi cius and M.Nikulin. (2000). "On nonparametric estimation in accelerated
experiments with step-stresses", Statistics, 33, 349-365.
V.Bagdonavi cius, L.Gerville-Rache, V.Nikoulina, M.Nikulin. (2000) "Expriences
Acclres : Analyse Statistique du Modle Standard de Vie Acclre", Revue de Statis-
tique Applique, XLVIII, #3, 5-38.
V.Bagdonavi cius and M.Nikulin. (2001). Accelerated Life Models, Chapman&Hall/CRC,
348p.
V.Bagdonavi cius, M.Nikulin. (2003) Stochastical Modeling in survival analysis and its
inuence on duration analysis. In : " Advances in Survival Analysis. v.23 ". (by N.Balakrishnan
401
and C.R.Rao) North-Holland.
V.Bagdonavi cius, M.Nikulin. (2003) " Semiparametric statistical analysis for aging
and longevity ". In : "Advances in statistical inferential methods : theory and applications"
(Ed. by V. Voinov), Gylym : Almaty, ISBN 9965-07-253-, p.17-30.
Bagdonavi cius, V., Bikelis, A., Kazakevi cius, A. and Nikulin, M. (2002). Non-parametric
estimation from simultaneous degradation and failure data, Comptes Rendus, Academie des
Sciences de Paris, v. 335, 183-188.
V.Bagdonavi cius, A.Bikelis, V.Kazakevicius, M.Nikulin. (2003) Estimation from si-
multaneous degradation and failure time data. In : Mathematical and Statistical Methods in
Reliability,(B. Lindqvist and Kjell A Doksum, eds.), World Scientic Publishing, Series on
Quality,Reliability and Engineering Statistics, 7, p.301-318.
Bagdonaviius,V., Hafdi,M., Himdi, K., Nikulin,M.. (2003). "Statistical analysis of
the Generalised Linear Proportionnal Hazards model." Proceedings of the Steklov Mathe-
matical Institute, St.Petersburg, : Probability and Statistics, 6., v.294, p.5-18, (ISSN 0373-
2703).
Bagdonaviius,V., Haghighi, F., Nikulin, M. (2003). Statistical Analysis of General
Degradation Path Model and Failure time data with Multiple failure modes, Preprinte de
lIFR-99 San Publique, Universit Victor Segalen Bordeaux 2.
Bagdonavi cius, V. (1978). Testing the hyphothesis of the additive accumulation of da-
mages. Probab. Theory and its Appl., 23, No. 2, 403-408.
Bagdonavi cius V., M.Hafdi and Nikulin M. (2002). The Generalized Proportional
Hazards Model and its Application for Statistical Analysis of the Hsieh Model. In : Procee-
dings of The Second Euro-Japanese Workshop on Stochastic Risk Modelling for Finance,
Insurance, Production and Reliability, September 18-20, Chamonix, France, (Eds. T.Dohi,
N.Limnios, S.Osaki), p. 42-53.
Bagdonavi cius V., Hafdi, M., El Himdi, K. and Nikulin M. (2002). Analyse du mo-
dle des hazards proportionnels gnralis. Application sur les donns du cancer des pou-
mons. Preprint 0201, I.F.R. "Sant Publique".
Bagdonavi cius V., Hafdi, M., El Himdi, K. and Nikulin, M. (2002). Analysis of Sur-
vival Data with Cross-Effects of Survival Functions. Applications for Chemo and Radiothe-
rapy Data. Preprint 0202, I.F.R. "Sant Publique".
Bagdonavi cius, V. and Nikulin, M. (2004). Semiparametric analysis of Degradation
and Failure Time Models. In : Semiparametric Models and Applications for Reliability, Sur-
vival Analysis and Quality of Life, (Eds. : M.Nikulin, N.Balakrishnan, M.Mesbah, N.Limnios),
Birkhauser : Boston.
Balakrishnan N., Ed. (1992) Handbook of the logistic distribution. New York : Marcel
Dekker.
Balakrishnan, E., Nelson, M. I., Wake, G. C. (1999). Radiative ignition of combus-
tible materials. I. Polymeric materials undergoing nonaming thermal degradation :the cri-
tical storage problem.Math. Comput. Modelling,30, # 11-12, 177-195.
Berger T., Zhang Z. (1983). Minimum breakdown degradation in binary source enco-
ding. IEEE Trans. Inform. Theory, 29, # 6, 807-814.
Boulanger,M., Escobar, L.A.(1994). Experimental design for a class of accelerated
degradation tests. Technometrics, 36, 260-272.
Burchard A. (1994). Substrate degradation by a mutualistic association of two species
in the chemostat. J. Math. Biol., 32, #5, 465-489.
Busenberg S., Tang B. (1994). Mathematical models of the early embryonic cell cycle :
402
the role of MPF activation and cyclin degradation. J.Math.Biol., 32, #6, 573-596.
Birnbaum Z.W. (1952). Numerical tabulation of the distribution of Kolmogorovs sta-
tistic for nite sample size. JASA, v.47, p.425.
Bolshev L.N. and Nikulin M.S. (1975) One solution of the problem of homogeneity.
Serdika, Bulgarsko Mathematichesko Spicanie, v.1, p.104-109.
Bolshev L.N. and Smirnov N.N. (1968). Tables of mathematical statistics. Moscow :
Nauka (in russian).
S.C.Cheng, L.J.Wei and Z.Ying. (1995). "Analysis of tranformation models with cen-
sored data", Biometrika, vol. 82 pp. 835-846.
Chernoff H., Lehmann E.L. (1954) The use of maximum likelihood estimator in
2
tests for goodness of t. Ann. Math. Stat., 25, 579-586.
Cantrell R.S., Cosner C., Fagan W. F.(1998). Competitive reversals inside ecological
reserves : the role of external habitat degradation. J. Math. Biol., 37, #6, 491-533.
Carasso A.S., Sanderson J.G.., Hyman J.M. (1978). Digital removal of random media
image degradations by solving the diffusion equation backwards in time. SIAM J. Numer.
Anal. 15, #2, 344-367.
Carey, M.B., Koenig,R.N. (1991). "Reliability assessment based on accelerated degra-
dation : a case study. IEEE Transactions on Reliability",40, 499-506.
Chiao, C.H., Hamada, M. (1996). Using Degradation Data from an Experimet to
Achive Robust Reliability for Light Emmitining Diodes, Quality and Reliability Enginee-
ring International, 12, 89-94.
Cinlar,E. (1980). On a generalization of gamma processes, J.Appl.Probab.,17, 467-480.
Cramer H. (1946). Mathematical methods of statistics. Princeton University Press,
Princeton, N.J.
D.R.Cox. (1972). "Regression models and life tables", J.Roy.Statist. Soc., B, vol. 34 pp.
187-220.
D.R.Cox and D.Oakes. (1984). Analysis of Survival Date, London : Chapman and Hall.
Cox, D.R. (1975) Partial likelihood. Biometrika, 62, 269-276.
Cox, D.R.(1999). Some Remarks on Failure-times, Surrogate Markers, Degradation,
Wear, and the Quality of Life, Lifetime Data Analysis, 5, 307-314, 1999.
D.M.Dabrowska and K.A.Doksum. (1988a). "Estimation and Testing in a Two-Sample
Generalized Odds-Raparte Model", JASA, 83 pp. 744-749.
D.M.Dabrowska and K.A.Doksum. (1988b). "Partial likelihood in transformation mo-
del with censored data", Scand. J. Statist., 15, pp. 1-23.
Darling D.A. (1957) The Kolmogorov-Smirnov, Cramer-fon-Mises tests. Ann. Math.
Statist.,28, p.1-7.
Dowling, N.E.(1993). Mechanical Behavior of Materials, Prentice Hall : Englewood
Cliffs.
Doksum, K.A., Hoyland, A.(1992). Models for variable-stress accelerated life testing
experiment based on Wiener processes and the inverse Gaussian distribution, Technome-
trics, 34, 74-82.
Doksum,K.A., Normand, S.-L.T.(1995). "Gaussian Models for Degradation Processes
- Part I : Methods for the Analysis of Biomarker Data", Lifetime Data Analysis,1, 131-144.
Doksum K.A., Normand S.-L.T. (1996). Models for degradation processes and event
times based on Gaussian processes. Lifetime data : models in reliability and survival analy-
sis (Cambridge, MA, 1994), 85-91.Dordrecht : Kluwer Acad. Publ.
403
Droesbeke, J.-J., Fichet B. & Tassi P., (1989). Analyse statistique des dures de vie,
Paris : Economica.
Drost F. (1988) Asymptotics for generalized chi-square goodness-of-t tests, Amster-
dam : Center for Mathematics and Computer Sciences, CWI Tracts, 48.
Dzhaparidze, K.O. and Nikulin M.S. (1974). On a modication of the standard sta-
tistics of Pearson. Theory of probability and its applications, 19, #4, p.851-852.
Dzhaparidze, K.O. and Nikulin M.S. (1982). Probability distributions of the Kolmo-
gorov and omega-square statistics for continuous distributions with shift and scale para-
meters. Journal of Soviet Mathematics, 20, p.2147-2163.
Dzhaparidze, K.O., Nikulin, M.S. (1995), On the computation of the chi-square type
statistics, Journal of Mathematical Sciences, 75, 5, 1910-1921.
Fasano A., Primicerio M., Rosso F. (1992). On quasi-steady axisymmetric ows of
Bingham type with stress-induced degradation. Computing,49, # 3, 213-237.
Friedrich J. (1999). A dual reciprocity boundary element model for the degradation of
strongly eroded archaeological signs. Math. Comput. Simulation, 48, 3, 281-293.
Gajewski, H., Sparing, H.-D. (1992).On a model of a polycondensation process with
thermal degradation. Z. Angew. Math. Mech., 62, #11, 615-626.
Garrigoux, C., Meeker, W.Q. (1994). A reliability model for planning in-service ins-
pections for components subject to degradation failure. Pakistan J. Statist., 10, 1, 79-98.
Gupta, R. (1991). Analysis of a two-unit cold standby system with degradation and
linearly increasing failure rates. Internat. J. Systems Sci., 22, #11, 2329-2338.
Gerville-Rache L., Nikulin, M. (2000). " Analyse statistique du modle de Makeham
" Revue Roumaine Math. Pure et Appl., 45, #6, 947-957.
Gihman, I.I. (1961) On the empirical distribution function in the case of grouping data.
In : Selected Translation in Mathematical Statistics and Probability, 1, p.77-81.
Grizzle, J.E. (1961) A new method of testing hypotheses and estimating parameters for
the logistic model. Biometrics, 17, p.372-385.
Habib, M.G., Thomas, D.R. (1986). Chi-square goodness-of-t tests for randomly cen-
sored data. Annals of Statistics, 14,759-765.
Haghighi, F., Nikulin, M (2003). Chi-square type test for power generalized Weibull
family. In : Advances in statistical inferential methods : theory and applications, (Ed. by V.
Voinov), Gylym : Almaty, p.89-105.
Hamada, M.(1995). "Analysis of Experiments for Reliability Improvement and Robust
Reliability", In : Recent Advances in Life-Testing and Reliability, (Ed. N. Balakrishnan),
CRC Press : Boca Raton.
Hald, A. (1952) Statistical Theory with Engineering Applications. Wiley, New York.
Hougaard, P. (1986) Survival models for heterogeneous populations derived from stable
distributions, Biometrika, 73, 3, 387-396.
Hsieh, F. (2001). On heteroscedastic hazards regression models : theory and application.
Journal of the Royal Statistical Society, Series B 63, 63-79.
Huber-Carol C. (1989). Statistique au PCEM . Masson, Paris .
Huber C and Nikulin M.S. (1993). Classical random walks and some statistical pro-
blems. In : Rings and modules. Limit theorems of probability theory.#3. St. Petersburg State
University.
Huber C. (1991). Modeles log-lineaires. Preprinte de lUniversit Paris 5, DEA STA-
TISTIQUE ET SANTE, 50 p.
404
Huber-Carol C. (1991). Statistique. Preprinte de lUniversit Paris 5, Maitrise de Sciences
Biologiques et Medicales dInformatique, Statistique et Epidmiologie et DUPESB, 134 p.
Huber C. (1991). Elements de statistique gnrale. Choix et rduction dun modele
statistique. Preprinte de lUniversit Paris 5, 48 p.
Huber C. (2000). Censored and Truncated Lifetime Data. In : Recent Advances in Re-
liability Theory. (Eds. N. Limnios, M.Nikulin). Boston : Birkhauser, 291-306.
C.Huber and M.Nikulin. (1997). Remarques sur le maximum de vraisemblance,
Qestii, 21, # 1-2, p. 37-58 (avec C. Huber).
Igaki N., Sumita U., Kowada M., (1998). On a generalized M/G/1 queue with service
degradation/enforcement. J. Oper. Res. Soc. Japan, 41, 3, 415-429.
Jayanti P, Chandra T. D., Toueg S. (1999). The cost of graceful degradation for omis-
sion failures. Inform. Process. Lett., 71, # 3-4, 167-172.
Kleinbaum, D. (1996). Survival Analysis : A Self-Learning text. New York : Springer-
Verlag.
Klein, J.P. and Moeschberger, M.L. (1997). Survival Analysis, New York : Springer.
Kalbeisch J.D., Prentice R.L. (1980) The Statistical Analysis of Failure Time Data.
New York : J. Wiley and Sons.
Kaplan E.L. and Meier P. (1958) Monparametric estimation from incomplete obser-
vations. J.Am.Stat.Assoc., 53, p.457-481.
Khalna N.M. (1983) Some asymptotic results associated with the Chauvenet test for
multidimensional random variables. Journal of Soviet Mathematics, 23, #1, p.99-106.
Klinger D.J..(1992). "Failure time and rate constant of degradation : an argument for
the inverse relationship". Microelectronics and Reliability,32, 987-994.
Klimontovich, Yu. L. (1997). Chaoticity, degradation and self-organization in open
systems. Self-organization of complex structures, ( Berlin, 1995), 37-50. Amsterdam : Gor-
don and Breach.
Koike T., Kameda H. (1973). Reliability theory of structures with strength degradation
in load history. Mem. Fac. Engrg. Kyoto Univ., 35, 331-360.
Kolmogorov A.N. (1933). Sulla determinizione empirica di una legge di distribuzione.
Giorn.Ist.Ital.Attuari, 4, p.83-91.
Kolmogorov A.N. (1951). Une gnralisation dune formule de Poisson. Uspekhi Mat.Nauk.,
6,p. 133-134.
Lawless J.F. (1982) Statistical Models and Methods for Lifetime Data. New York : J.
Wiley and Sons.
Lawless,J.,Hu,J., and Cao, J.(1995). Methods for the estimation of failure distributions
and rates from automobile warranty data, Lifetime Data Analysis, 1, 227-240.
LeCam, L., Mahan,C., Singh, A. (1983). An extension of a Theorem of H.Chernoff
and E.L.Lehmann. In : Recent advances in statistics, Academic Press, Orlando, 303-332.
Lehmann E.H. (1973). On two modication of the Cramer-von Mises statistic. Journal
of the Royal Statist.Soc.,Ser, 35, p.523.
Lin, D.Y., and Ying, Z. (1996). " Semiparametric analysis of the general additive-
multiplicative hazard models for counting processes", Ann. Statist., 23, p. 1712-1734.
Lin, D.Y., Geyer, C.J. (1992). Computational methods for semiparametric linear re-
gression with censored data. Journal Comput. and Graph. Statist.,, 1, 77-90.
Lu, C.J. (1995). "Degradation processes and related reliability models", Ph.D. thesis,
McGill University, Montreal, Canada.
405
Lu,C.J.,Meeker.W.Q.(1993). "Using degradation Measures to Estimate a Time-to-Failure
Distribution", Technometrics, 35,161-174.
Lu C. J., Meeker W.Q., Escobar L.A. (1996). Acomparison of degradation and failure-
time analysis methods for estimating a time-to-failure distribution. Statist. Sinica, 6, 3, 531-
546.
Mann, N.R., Schafer, R.E. and Singpurwalla, N. (1974) Methods for Statistical Ana-
lysis of Reliability and Life Data. New York : John Wiley and Sons.
Mann H.B. and Whitney D.R. (1947). Annals of Mathematical Statistics, v.18, p.50-
60.
Mardia K.V. and Zemroch P.J. (1978). Tables of the F- and related distributions with
algorithms. Academic Press.
McKeague, I.W., Sasieni, P.D.(1994). A partly parametric additive risk model. Biome-
trika, 81,#3, 501-514.
Meinhold R.J. and Singpurwalla N.D. (1987) A Kalman-Filter Smoothing Approach
for Extrapolation in Certain Dose - Response. Damage Assessment. and Accelerated-Life-
Testing Studies. The American Statistician, 41, p.101-106.
Margolis S. B. (1979). An analytical solution for the multidimensional degradation of
a packed bed thermocline. J. Franklin Inst., 307, #1, 39-58.
Meeker,W.Q., Escobar,L.A., Lu, C.J. (1998)."Accelerated Degradation Tests : Mode-
ling and Analysis", Technometrics, 40, 89-99.
Meeker,W.Q., Escobar,L.A. (1998).Statistical Methods for Reliability Data, John Wi-
ley and Sons : New York.
Mine H., Kawai H. (1976). Marginal checking of a Markovian degradation unit when
checking interval is probabilistic. J. Operations Res. Soc. Japan, 19, 2, 158-173.
Mitsuo,F.(1991). "Reliability and Degradation of Semiconductor Lasers and LEDs",
Artech House : Norwood.
Meeker, W.Q. and Escobar, L. (1998). Statistical Analysis for Reliability Data, John
Wiley and Sons, New York.
Miller L. (1956). Table of percentage points of Kolmogorov statistics. JASA, 51, p.111.
Mises R. von (1931). Warhrscheinlichkeit, Statistik und Wahrheit. Springer-Verlag.
Molenar W. (1970). Approximations to the Poisson,Binomial and Hypergeometric Dis-
tribution Functions Amsterdam, Mathematical centre tracts, 31.
Moore D. and Spruill M. (1975). Unied large-sample theory of general chi-squared
statistics for tests of t, Ann. Statist.,, 3, 599-616.
S.A.Murphy. (1995). "Asymptotic theory for the frailty model", Annals of Statist., vol.
23 pp. 182-198.
S.A.Murphy, A.J.Rossini and A.W. van der Vaart. (1997). Maximum likelihood es-
timation in the proportional odds model, JASA., 92, p. 968-976.
Nelson, W. (1990). Accelerated Testing : Statistical Models, Test Plans, and Data Ana-
lysis, John Wiley and Sons : New York.
Nikulin M.S. (1973) Chi-square test for continuous distributions with shift and scale
parametres. Theory of probability and its applications, 18, p.559-568.
Nikulin M.S. (1973). On a chi-square test for continuous distributions.Theory of pro-
bability and its applications, 18, p.638-639.
Nikulin M.S. (1979). Hypothesis testing for a parameter difference in binomial distri-
butions. Theory of probability and its applications, v.24, #2, p.392-396.
406
Nikulin M.S. (1984). F-distributions and its relations with others distributions. In :
Mardia K.V. and Zemroch P.J. Tables of the F- and related distributions with algorithms.
Academic Press. Moscow, Nauka (in russian).
Nikulin M.S. (1991). Some recent results on chi-squared tests. Queens papers in pure
and applied mathematics, 86, Queens University, Kingston, Canada, 74 p.
Nikulin M.S., Nacerra Seddik-Ameur (1991). Analyse statistique des donnes binor-
males. Seminaire 90-91, Universit Paris 5, p.87-110.
Nikulin M.S. (1992). Gihman statistic and goodness-of-t tests for grouped data. C.R.
Math. Rep. Acad. Sci. Canada, 14, #4, p.151-156.
M.Nikulin and V.Solev. (1999). Chi-squared goodness of t test for doubly censored
data, applied in Survival Analysis and Reliability, In : Probabilistic and Statistical Models
in Reliability, (Eds. N. Limnios and D. Ionescu), Boston : Birkhauser, 101-112.
M.Nikulin, M.Novak, D.Turetaev, V.Voinov. (2000). Estimating Environmental Ra-
dioactive Contamination in Kazakhstan, Central Asian Journal of Economics, Management
and Social Research, # 1, 59-71. (ISBN 9965-9047-3-1)
Nikulin, M., Pya, N., Voinov,V. (2003). Chi-squared goodness-of-t tests for the family
of logistic distributions. Preprinte "Statistique Mathmatique et ses Applications, Universit
Victor Segalen Bordeaux 2, France.
Oliver F.R. (1964). Methods of estimating the logistic growth function. Appl. Statist.,
13, p.57-66.
Olson W.H. (1977). Non-uniform breakage-mechanism branching processes and de-
gradation of long-chain polymers. J. Appl. Probability, 14, 1, 1-13.
E.Parner. (1998). Asymptotic theory for the correlated gamma-frailty model, Ann. Sta-
tist., 26, p. 183-214.
Patnaik P.B. (1949) . The non-central
2
and F distributins and their applications. Bio-
metrika, 36, p.202-232.
Pearson E.S. (1959). Note on an approximation to the distribution of non-central
2
.
Biometrika, 46, p.364.
Pearson E.S. and Hartley H.O. (1966). Biometrika tables for statisticians, 1. Cam-
bridge University Press.
Pearson E.S. and Hartley H.O. (1972). Biometrika tables for statisticians, 2. Cam-
bridge University Press.
Pearson K. (1934). Tables of the incomplete -fonction. Cambridge University Press.
Pearson K. (1968). Tables of the incomplete Beta-function. Cambridge University Press.
Pearl R., Reed L.J. (1920). On the rate of growth of the population of the United States
since 1790 and its mathematical representation. Proc. of National Acad. Sci., 6, p.275-288.
Pearlman W.A. (1976). A limit on optimum performance degradation in xed-rate co-
ding of the discrete Fourier transform. IEEE Trans. Information Theory, IT-22, 4, 485-488.
Pinon, C. (2003) Estimators non-paramtriques et semi-paramtriques efcaces dans
lanalyse des donnes censures multivaries, Thse de lUniversit Paris XI, Facult de
MEDECINE PARIS-SUD.
Prkopa A. (1954). Statistical treatment of the degradation process of long chain poly-
mers. Magyar Tud. Akad. Alkalm. Mat. Int. Kozl., 2, 103-123 .
Pettit L. I., Young K. D. S. (1999). Bayesian analysis for inverse Gaussian lifetime data
with measures of degradation. J. Statist. Comput. Simulation, 63, 3, 217-234.
Redinbo G.R. (1979). Optimum soft decision decoding with graceful degradation. In-
form. and Control,41, #2, 165-185.
407
Rao C.R. (1965) Linear Statistical Inferece and its application. New York : J.Wiley and
Sons.
Rao K.C., Robson D.S. (1974). A chi-squared statistic for goodness-of-t tests within
the exponential distribution, Commun. Statist., 3, 1139-1153.
Reed L.J., Berkson J. (1929). The application of the logistic function to the experi-
mental data. Journal Physical Chemistry, 33, p.760-779.
Sedyakin, N.M. (1966). On one physical principle in reliability theory.(in russian).
Techn. Cybernetics, 3,80-87.
Singpurwalla, N.D.(1995). Survival in Dynamic Environnements. Statistical Science,l,10,
86-103.
Singpurwalla,N.D.(1997). Gamma processes and their generalizations : an overview. In
Engineering Probabilistic Design and Maintenance for Flood Protection, (R.Cook, M.Mendel
and H.Vrijling, eds.) Kluwer Acd.Publishers, 67-73.
Singpurwalla,N.D., Youngren, M.A.(1998). Multivariate distributions induced by dy-
namic environments, Scandinavian Journal of Statistics, 20, 251-261.
Schiffer, M. (1993). Quantum fog and the degradation of information by the gravitatio-
nal eld. Gen. Relativity Gravitation, 25, # 7, 721-752.
Srinivasan S. K., Mehata K. M. (1972). A stochastic model for polymer degradation.
J. Appl. Probability, 9,43-53.
Suzuki,K., Maki,K., Yokogawa, S. (1993). An analysis of degradation data of a carbon
lm and properties of the estimators. In : Statistical Sciences and Data Analysis, (Eds.
K.Matusita, M.Puri,T.Hayakawa), Utrecht, Netherlands :VSP.
Smirnov N.V. (1936). Sur la distribution de
2
.[C.R.Acad.Sci. de Paris, 202, p.449-452.
Smirnov N.V. (1939). On estimating the discrepancy between empirical distribution
functions in two independent samples. The Bulletin of the Moscows Gos.University, ser.A,
2, p.3-14.
Smirnov N.V. (1937). On the distribution of Mises
2
-test. Math.Sbornik, 2, p.973-994.
Smirnov N.V. (1939). On deviation of the empirical distribution function.Math. Sbor-
nik, 6, p.3-26.
Smirnov N.V. (1944). Approximate distribution laws for random variables, constructed
from empirical data.Uspekhi Math.Nauk, 10, p.197-206.
Stablein, D. M., Koutrouvelis, I. A. (1985). A two sample test sensitive to crossing
hazards in uncensored and singly censored data. Biometrics 41, 643-652.
Thompson C.M. (1963). Tables of percentage points of the
2
-distribution. Biometrika,
32, p.187-191.
Thompson C.M. (1941) . Tables of percentage of the incomplete Beta-function. Biome-
trika, 32, p.151-181.
Thompson W.R. (1935). On a criterion for the rejection of observations and the dis-
tribution of the ratio of deviation to sample standard deviation. Annals of mathematical
statistics, v.6, p.214-219.
Tseng,S.T., Hamada,M.S. and Chiao,C.H.(1994). Using degradation data froma frac-
tional experiment to improve uorescent lamp reliability. Research Report RR-94-05. The
Institute for Improvement in Quality and Productivity, University of Waterloo, Waterloo,
Ontario, Canada.
A.A.Tsiatis. (1981). A large sample study of Coxs regression model, Ann. Statist., 9, p.
93-108.
Tumanian S.Kh. (1956). Asymptotic distribution of
2
criterion when the number of
408
observations and classes increase simultaneously. Theory of Probability and its Applica-
tions, 1, #1, p.131-145.
Turnbull B.W. (1974). Non parametric estimation of survivorship function with doubly
censored data. JASA, 69, 169-173.
Turnbull B.W. (1976). The empirical distribution function with arbitrarily grouped,
censored, and truncated Data. .Royal Statist. Soc. B 38, p.290-295.
J.W.Vaupel, K.G.Manton and E.Stallard. (1979). The impact of heterogeneity in in-
dividual frailty on the dynamics of mortality, Demography, 16, p. 439-454.
Van der Vaart, A. W. (2000). Asymptotic Statistics. Cambridge : UK.
Verdooren L.R. (1963). Extended tables of critical values for Wilcoxons test statis-
tic.Biometrica, v.50, p.177-186.
Voinov V.G. and Nikulin M.S. (1993). Unbiased estimators and their applications, v.1
Univariate case, Dordrecht : Kluwer Academic Publishers.
Voinov V.G. and Nikulin M.S. (1996). Unbiased estimators and their applications, v.2
Multivariate case, Dordrecht : Kluwer Academic Publishers.
Woodroofe M. (1985). Estimating a distribution function with truncates data. Ann.
Statist., 13, p.163-177.
Wulfsohn, M. and Tsiatis, A. (1997). A Joint Model for Survival and Longitudinal
Data Measured with Error. Biometrics, 53, 330-339.
Whitmore,G.A..(1995). Estimating Degradation By a Wiener Diffusion Process Sub-
ject to Measurement Error. Lifetime Data Analysis, 1, 307-319.
Whitmore, G.A., Schenkelberg,F.(1997). Modelling Accelerated Degradation data
Using Wiener Diffusion With a Time Scale Transformation, Lifetime Data Analysis, 3, 27-
45.
Whitmore, G.A., Crowder,M.I. and Lawless, J.F.(1998). Failure inference from a
marker process based on bivariate model, Lifetime Data Analysis, 4, 229-251.
Wu S.-J., Shao J. (1999). Reliability analysis using the least squares method in nonli-
near mixed-effect degradation models. Statist. Sinica, 9, # 3, 855877.
Yanagisava, T. (1997). Estimation of the degradation of amorphous silicon cells, Mi-
croelectronics and Reliability, 37, 549-554.
Yu H.-F., Tseng S.-T. (1999). Designing a degradation experiment. Naval Res. Logist.,
46, #6, 689-706.
Zeleny M. (1995). The ideal-degradation procedure : searching for vector equilibria.
Advances in multicriteria analysis, 117-127, Nonconvex Optim. Appl., 5, Kluwer Acad.
Publ., Dordrecht.
Zacks S. (1971) The theory of statistical inference. New York : Wiley and Sons.
Zerbet A. (2001) Statistical tests for normal family in the presence of outlying obser-
vations. In : Goodness-of-t tests and Validity of Models (Eds. C.Huber, N.Balakrishnan,
M.Nikulin, M.Mesbah), Boston : Birkhauser.
Zerbet, A., Nikulin, M. (2003). A new statistics for detecting outliers in exponential
case, Communications in Statistics : Theory and Methods,32, 573-584.
Zhang B. (1999) A chi-squared goodness-of-t test for logistic regression models based
on case-control data, Biometrika, 86, #3, 531-539.
Zdorova-Cheminade, O. (2003) Modlisation du processus dvolution de lincapa-
cit chez les personnes ages, Mmoire de DEA "Epidmiologie et Intervention en Sant
Publique", Universit Bordeaux 2, Juin 2003, 77 pages.
409

Vous aimerez peut-être aussi