Académique Documents
Professionnel Documents
Culture Documents
Modlisation statistique
1.1 Un exemple . . . . . . . . . . . . . .
1.2 Principe fondamental de la statistique
1.3 Modle statistique . . . . . . . . . . .
1.4 Domination dans un modle statistique
1.5 Estimation . . . . . . . . . . . . . . .
1.6 Construction des estimateurs . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
7
9
11
12
14
.
.
.
.
.
17
17
21
23
24
25
.
.
.
.
29
29
31
35
39
Test statistique
55
5.1 Problme de test . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 57
. 60
. 62
. 65
. 66
.
.
.
.
.
.
69
69
71
73
74
74
75
.
.
.
.
.
.
Chapitre 1
Modlisation statistique
1.1
Un exemple
Une pice a une probabilit p0 ]0, 1[ de tomber sur "pile". Sur les 1000 lancers raliss indpendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tent de conclure que p0 0.52. Cependant, de la mme manire quil est sans intrt de donner une valeur approche dune intgrale sans
prciser lerreur dapproximation, ce rsultat na que peu de valeur, car il ne nous
renseigne pas sur lerreur commise.
Nous allons examiner de quelle manire la construction dun modle permet
de combler cette lacune. On note x1 , , xn les rsultats des n = 1000 lancers de
pice, avec la convention suivante : xi = 1 si le i-me lancer a donn "pile", et 0
dans le cas contraire. Le principe de base de lestimation statistique est de considrer que x1 , , xn est une ralisation de la loi B(p0 )n , si pour chaque p [0, 1],
B(p) dsigne la loi de Bernouilli de paramtre p (i.e. B(p) = p1 + (1 p)0 ,
avec 0 et 1 les mesures de Dirac en 0 et 1). En labsence dinformations sur la
valeur de p0 , on ne peut en fait que supposer que x1 , , xn est une ralisation de
lune des lois {B(p)n , p ]0, 1[}.
De cet ensemble de probabilits, appel modle statistique, on cherche dduire la valeur de p qui sajuste le mieux aux observations x1 , , xn . Une rponse
raisonnable est base sur lintuition suivante : compte tenu des informations dont
on dispose, la meilleure approximation de p0 que lon puisse donner est une valeur
5
Cest le principe de construction dune valeur approche -on parlera destimateurde p0 par maximisation de la vraisemblance. Selon ce principe, la valeur qui
sajuste le mieux aux observations est la moyenne empirique des observations :
1 n
xn = xi .
n i=1
On retrouve ainsi la valeur xn = 0.52 du dbut.
Lintroduction dun modle nous permet en plus de donner une erreur dans
lapproximation. Soit p ]0, 1[, et X1 , , Xn des v.a. i.i.d. sur lespace probabilis
( , F , P) de loi commune B(p). On peut calculer le risque quadratique, cest-dire le carr de la distance L2 entre la cible p et lestimateur Xn = (1/n) ni=1 Xi
obtenu par le principe de maximisation de la vraisemblance :
1
1
2
E (Xn p) = EX1 (1 EX1 ) = p(1 p).
n
n
Comme p(1
p) 1/4, lerreur quadratique moyenne commise est donc majore par 1/(2 n) 0.016. Cependant, si le rsultat donne des informations sur la
qualit de lapproximation, ce nest quune valuation en moyenne, qui ne dpend
donc pas des observations.
Bien dautres principes peuvent tre envisags pour prciser la qualit de lapproximation. Par exemple, supposons que lon veuille construire un intervalle dans
lequel p0 doit se trouver, avec une probabilit de 0.95 par exemple. Le principe
de construction est le suivant : pour chaque p ]0, 1[, on cherche dans un premier
temps un intervalle de confiance par excs I(X1 , , Xn ) construit avec la suite de
v.a. X1 , , Xn tel que
P (p I(X1 , , Xn )) 0.95.
On peut alors conclure, avec les observations x1 , , xn , que p0 I(x1 , , xn ),
avec une probabilit de 95% au moins. Dans lexemple qui nous intresse, lingalit de Bienaym-Tchebytchev nous donne, pour tout > 0 :
P(|Xn p| )
1
var(Xn ) var(X1 ) p(1 p)
=
=
.
2
n 2
n 2
4n 2
1.2
f dn
Z
Rd
f d.
Z
Rd
exp(it T x)(dx),
Thorme [VARADARAJAN ] Soient X1 , X2 , des v.a.i.i.d. sur ( , F , P) valeurs dans Rk , de loi commune . On note n la mesure empirique des n premires
v.a., i.e.
1 n
n = Xi .
n i=1
Alors, P-p.s., la suite de mesures (n )n converge troitement vers .
Preuve Pour simplifier la preuve, on suppose que X1 est intgrable. Daprs le
critre de Lvy, il suffit de montrer que
P t Rd : n (t) (t)
= 1,
si n et dsignent les transformes de Fourier de n et . Or, la loi forte des
grands nombres nous montre que pour tout t Rd , lvnement
p )| + |(t
p ) (t)|
| n (t) (t)|
| n (t) n (t p )| + | n (t p ) (t
!
1 n
p )|
kt t p k
kX j ()k + EkX1 k + | n (t p ) (t
n j=1
En faisant enfin tendre p vers linfini, on peut en dduire que pour tout 0 et
1.3
Modle statistique
10
de base de la statistique est de considrer que (x1 , , xn ) est rgit par lune des
lois dun modle P, avec P0 P. Cette tape de modlisation tant acheve, il
sagira de chercher quelle loi de ce modle sajuste le mieux aux observations.
Par exemple, lorsque les expriences ont t menes indpendamment les unes
des autres, lobservation (x1 , , xn ) est rgie par la loi P0 = Qn
0 , et le modle stan
n
tistique est un ensemble de probabilits sur H contenant Q0 .
A noter, donc : linverse du probabiliste, le statisticien travaille plutt sur
lespace des observations, qui constitue un cadre dtude plus naturel. Par ailleurs,
le statisticien ne suppose pas que la loi des observations est connue, linverse du
probabiliste.
Exemple En utilisant des observations indpendantes x1 , , xn de la dure de vie
de n ampoules du mme type, on veut connatre la loi suivie par la dure de vie de
ce type dampoule. La 1re tape consiste dfinir le modle statistique associ,
dont lespace des observations est Rn+ . Du point de vue de la modlisation, il est
raisonnable daffirmer quune v.a. X sur ( , F , P) qui reprsente la dure de vie
de lampoule est sans mmoire, i.e.
L (X t|X t) = L (X), t 0.
Cette proprit signifie que lampoule "ne se souvient pas davoir vieilli". Par
ailleurs, on peut aussi supposer que la loi de X est densit par rapport la mesure de Lebesgue. On sait alors quil existe > 0 tel que X E ( ). Comme les
observations des dures de vie sont indpendantes, x1 , , xn est une ralisation
dune loi E (0 )n , pour un certain 0 > 0 quil sagira de trouver. Le modle statistique associ cette exprience alatoire est donc (Rn+ , {E ( )n } >0 ). Nous
verrons dans la suite comment trouver une valeur de qui sajuste aux observations.
Dans lexemple de la section 1.1, comme les lancers de pice sont indpendants, la loi dont sont issues les rsultats de lexprience est clairement lune des
lois du modle P = {B(p)n , p ]0, 1[}. Remarquons aussi que lapplication
p 7 B(p)n est injective : cette proprit, appele identifiabilit, te tout ambiguit dans le modle, en permettant dassocier des observations une, et une seule
loi du modle.
Dfinitions Soit P = {P } un modle statistique.
11
1.4
12
fi, i.e.
conv(P) =
anPn, avec Pk P, ak 0 et an = 1
.
CC
n1
La probabilit Q telle que dQ = f d, qui est dans conv(P), admet f pour densit par rapport . Comme (Cs ) > 0 et f > 0 -p.p. sur Cs , on a Cs C . Par
ailleurs, on a aussi (Cs ) = supCC (C).
Montrons maintenant que Q domine P. Soit P P, de densit pR par rapport
, et A un vnement tel que Q(A) = 0. Comme 0 = Q(A Cs ) = ACs f d et
que f > 0 -p.p. sur Cs , on a (A Cs ) = 0, do P(A Cs ) = 0 car P . Par
ailleurs, P(Csc ) = 0. En effet, il est clair que Cs { f + p > 0} -p.p., et comme
{ f + p > 0} C , la proprit de maximalit de Cs montre que Cs = { f + p >
0} -p.p. Comme P , on a aussi
Cs = { f + p > 0} P-p.p. et donc P(Csc ) =
R
P({ f + p = 0}) P({p = 0}) = {p=0} pd = 0. En remarquant finalement que
A (A Cs ) Csc , on en dduit que P(A) = 0, cest--dire que P Q. Comme
Q conv(P), le thorme est dmontr.
1.5
Estimation
Soit le modle statistique paramtrique (H n , {P } ), avec un espace dobservations individuelles H Rk et un espace de paramtres Rd . Dans ce
modle, le paramtre dintrt est . Si les n expriences du phnomne sont indpendantes, on a alors P = Qn
pour chaque .
1.5. ESTIMATION
13
14
1.6
= (Xi Xn ) .
n i=1
Dautres procds de construction destimateurs sont envisageables, en fonction
15
Un autre estimateur, construit cette fois avec la mesure empirique est, par
exemple,
1
= Xn .
2
16
Chapitre 2
Principes de linfrence statistique
On sintresse ici des critres de performance des estimateurs, posant ainsi les
bases de linfrence statistique.
Le modle statistique considr est (H n , {P } ), avec H Rk et Rd .
Rappelons que, pour simplifier les critures, on suppose que le paramtre dintrt, i.e. le paramtre que lon souhaite estimer avec les observations, est . Dans
ce qui suit, toutes les dfinitions et les rsultats gnraux stendent au cas o le
paramtre dintrt est une fonction g( ) de .
On dsignera par E la moyenne sous la loi P : sous la proprit dintgrabilit adquate,
E g(.) = E g(X1 , , Xn ) =
Z
Hn
g(x)P (dx),
2.1
La premire proprit que lon puisse exiger dun estimateur est quil se comporte en moyenne comme son paramtre cible. Cest le concept de biais, dcrit
ci-dessous.
Dornavant, on dira quune statistique est dordre p si L p (P ) pour
chaque .
17
18
19
Par suite, si var p et cov p dsignent la variance et la covariance sous la loi B(p)n :
K 0 (p)) = E p K
0 (p) =
cov p (,
1 , in )L0 (p; i1 , , in )
(i
i1 , ,in {0,1}
d
E p = 1,
dp
cov p (,
p (K (p)),
on a donc
var p ()
1
.
var p (K 0 (p))
Or,
1
1
n2
nXn +
nXn = 2
var p (Xn )
p
1 p
p (1 p)2
n
1
= (R(p; Xn )) .
p(1 p)
(2.1.1)
On a donc obtenu
= var p ()
R(p; Xn ),
R(p; )
cest--dire que Xn est VUMSB. Cette preuve, qui peut sembler ici miraculeuse,
sera formalise dans les sections 3.3 et 4.1.
Exercice [C AS O LE PARAMTRE D INTRT EST UNE FONCTION DE ] Soit
le modle statistique (Rn , {Qn
} ) tel que pour chaque , Q admet un
moment dordre 2. Pour un chantillon (X1 , , Xn ) de loi Qn
, on note :
1 n
1 n
2
Xn = Xi , et Sn2 =
(Xi Xn) .
n i=1
n 1 i=1
Montrer que Xn et Sn2 sont des estimateurs sans biais de la moyenne et de la variance de la loi Q , respectivement.
On note dornavant, pour deux vecteurs alatoires X,Y de carrs intgrables
et valeurs dans Rd :
K (X,Y ) = E (X E X)T (Y E Y ) = E X T Y E X T E Y et
V (X) = K (X, X) = E kX E Xk2 .
20
Noter que K (X,Y ) = K (Y, X). Par ailleurs, K et V ne reprsentent pas la covariance et la variance sous la loi P (respectivement notes cov et var ), sauf
lorsque d = 1.
Proposition [D COMPOSITION B IAIS -VARIANCE ] Soit un estimateur dordre
2. On a alors la dcomposition :
R( ; ) = kE k2 +V ( ).
Preuve Pour toute la preuve, fixons . Supposons que est VUMSB. Soit
une statistique dordre 2 telle que E = 0. Pour tout R, lestimateur =
+ est sans biais. Comme est sans biais et VUMSB, on a alors :
+ 2V ().
V ( ) = R( ; ) R( ; ) = V ( ) = V ( ) + 2K ( , )
Par suite, on a pour tout R :
+ 2V ()
0.
2K ( , )
= 0.
Ce polynme en ne peut garder un signe positif que si K ( , )
21
R( ; )
V ( ) = R( ; ),
= V ( ) +V ()
ce qui montre que est VUMSB.
Thorme Soient et 0 des estimateurs VUMSB. Alors, pour chaque ,
= 0 P -p.s.
Preuve Fixons . Comme la statistique = 0 vrifie les hypothses du
thorme prcdent, on a :
V ( 0 ) = E ( 0 )T ( 0 )
= E ( 0 )T ( ) E ( 0 )T (0 )
= K ( 0 , ) K ( 0 , 0 ) = 0,
ce qui montre que = 0 P -p.s., car et 0 sont sans biais.
2.2
22
sans biais. Pour se convaincre du second point par exemple, considrons le modle statistique (Rn , {N(m, 1)n }m]0,1[ ), et lestimateur m issu de lchantillon
(X1 , , Xn ) de la loi N(m, 1)n , pour m ]0, 1[ :
m = Xn +
1
1
,
F( n) {Xn 0}
m
faible des grands nombres montre que m
m, si Pm = N(m, 1)n . Par ailleurs,
comme Xn N(m, 1/n) :
1
Pm (Xn 0) =
2
Z mn
et
2 /2
dt F( n),
1 n
2
(Xi Xn ) .
n i=1
23
doit tre importante. Nanmoins, il ne faut pas oublier quun estimateur performant doit aussi pouvoir tre calcul via un algorithme de complexit raisonnable.
Comme, en principe, ces 2 contraintes sopposent, il est important de savoir raliser un compromis entre ces exigences.
Remarque Un estimateur qui possde la proprit 1. de la dfinition ci-dessus est
consistant. En effet, fixons . On suppose pour simplifier que (vn )n est croissante, et que `( ) est une loi sans atomes (sinon, il suffit de travailler sur lensemble des points de continuit de la fonction de rpartition de la loi de k`( )k ;
toutes fins utiles, rappelons que lensemble des points de discontinuit dune v.a.r.
est au plus dnombrable). Pour chaque > 0, on a
P (k k ) P (vn k k v p ),
pour tout p n. On en dduit que pour tout p,
lim sup P (k k ) P (k`( )k v p ).
n
P
En faisant finalement tendre p vers +, on peut conclure que
.
L /B(p)n
n (Xn p) N(0, p(1 p)).
Exercice Soit le modle statistique (Rn , {U ([ , + 1])n } [0,1] ). Construire et
tudier des estimateurs du paramtre , en utilisant les statistiques minin Xi ,
maxin Xi et Xn issues dun chantillon (X1 , , Xn ) de la loi U ([ , + 1])n .
2.3
Intervalles de confiance
24
2.3.1
25
Si F est continue, F(qr ) = r. Si, de plus, F est strictement croissante, alors qr est
lunique solution de lquation F(.) = r.
Preuve Il suffit de remarquer que, comme F est croissante et continue droite,
F(q
r ) r F(qr ), si F(qr ) est la limite gauche de F en qr .
Exemple Considrons le modle statistique {N(m,
1)n }mR . Pour (X1 , , Xn )
Pm n |Xn m| t0 = 2(t0 ) 1 = 1 .
Si
les observations x1 , , xn sont rgies par la loi N(m0 , 1), [xn t0 / n, xn +
t0 / n] est un intervalle de confiance pour m0 , au niveau 1 .
Si lobtention dune telle proprit est hors datteinte, ou si Tn est trop complexe pour pouvoir tre utilis, on se retranche sur une proprit asymptotique.
2.3.2
(2.3.1)
Notons q1/2 et q/2 les quantiles dordre 1 /2 et /2 de la loi N(0, 1). Par
symtrie de la loi N(0, 1), q1/2 = q/2 . Si q = q1/2 > 0, alors :
P q vn ( ) q 1 .
26
L /P
L /P
(2.3.2)
L /P
N(0, 1).
q
P
; +
1 .
vn
vn
Comme les quantits et qui interviennent dans cet intervalle peuvent tre calcules pour les observations x1 , , xn , cette proprit nous donne lintervalle de
confiance asymptotique recherch.
27
L /P
1
L /E ( )n
N(0, 1/ 2 ).
n Xn
1
1
L /E ( )n 1
n
Xn
Finalement, en utilisant lestimateur consistant 1/Xn , le lemme de Slutsky nous
donne
1
L /E ( )n
3
n
Xn
N(0, 1).
Xn
Lintervalle de confiance asymptotique sen dduit facilement.
28
Chapitre 3
Vraisemblance
La mthode de construction des estimateurs par maximisation de la vraisemblance
est sans doute la plus rpandue. Le principe de la construction est intuitivement
vident : il sagit de choisir comme estimateur le paramtre pour lequel lobservation est la plus probable, ou la plus vraisemblable ...
Dans tout le chapitre, lespace des observations individuelles est H Rk , et
lespace des paramtres est Rd .
3.1
Le concept de vraisemblance
Dfinition On appelle vraisemblance du modle statistique (H n , {P } ) domin par toute application L : H n R+ telle que, pour chaque ,
lapplication partielle L(.; ) : H n R+ soit un lment de la classe dquivalence de la densit de P par rapport .
Remarque La vraisemblance, dont lexistence est acquise grce au thorme de
Radon-Nikodym, dpend donc du choix de la mesure dominante du modle, qui
nest pas unique. De plus, en raison du fait que que chaque densit dP /d nest
unique qu une quivalence prs, une vraisemblance elle-mme nest pas unique.
Malgr cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,
le choix dune vraisemblance simpose souvent par ses proprits analytiques.
Exemples
1. Dans le modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la section 1.1, qui
29
30
CHAPITRE 3. VRAISEMBLANCE
est domin par la mesure (0 + 1 )n , la vraisemblance L sexprime par :
n
(x1 , , xn , ) 7 L(xi ; ),
i=1
n
est la vraisemblance du modle (H n , {Qn
} ) pour la mesure dominante .
L(xi; ),
i=1
n
est une version de la densit de Qn
par rapport .
31
sajuste le mieux aux observations. Cest cette observation qui motive le concept
de maximum de vraisemblance.
Dfinition Soit (H n , {P } ) un modle statistique domin, et L la vraisemblance associe. Un estimateur du maximum de vraisemblance (EMV) est une
statistique g valeurs dans qui vrifie :
L(x; g(x)) = sup L(x; ), x H n .
ln Ln (x1 , , xn ; ) = ln L(xi ; ).
i=1
Lintrt pratique est clair, ltape de maximisation tant en principe plus facile
mener.
Exemple LEMV du modle statistique (Rn , {N(m, 1)n }mR ) est la moyenne
empirique.
3.2
Consistance de lEMV
Lun des outils de base pour ltude des EMV est dcrit ci-dessous :
Dfinition-Proposition Soit (H n , {P } ) un modle statistique identifiable
et domin par , de vraisemblance L. Pour chaque , , on suppose que
ln L(.; ) L1 (P ). On note :
K(, ) = E ln
L(.; )
L(.; )
32
CHAPITRE 3. VRAISEMBLANCE
K(, ) =
ln
Supposons que K(, ) = 0. On est alors dans un cas dgalit dans lingalit
de Jensen. Comme t 7 lnt dfinie sur R?+ est strictement convexe, on en dduit quil existe C R+ tel que L(.; ) = CL(.; ) P -p.s. Or, P est absolument
continue par rapport P , de densit L(.; )/L(.; ). Par suite, pour tout borlien
A H n,
Z
Z
L(.; )
dP = CP (A).
P (A) = L(.; )d =
A
A L(.; )
On en dduit tout dabord que C = 1 (prendre A = H n ), puis que P = P , ce qui
contredit lidentifiabilit du modle.
Cette proprit de linformation de Kullback permet didentifier le paramtre
inconnu en tant que seule solution de lquation K(., ) = 0. Cest en ce sens
que linformation de Kullback donne des informations sur le modle.
A priori, il ny a pas de raison pour quun EMV soit consistant, comme en
atteste lexemple suivant :
Exemple Soit (Rn , {C ( )n } >0 ) un modle statistique, o C ( ) dsigne la loi
sur R, de densit
1
, x R.
2
+ x2
Notons (X1 , , Xn ) un chantillon de la loi C ( )n , avec > 0. Un simple calcul
nous montre que lEMV est la seule solution de lquation n (.) = 1/2, o lon
a not
1 n
1
n () =
, > 0.
n i=1 1 + (Xi /)2
33
1 n
1
.
2
n i=1 1 + Xi2
Par labsurde, supposons que est consistant. La loi des grands nombres et cette
ingalit nous montrent que
C ( )
n ( ) E
n
1
1 + (X/ )2
1
1
, > 0,
=
1 + (X/ )2 2
Ln (x1 , , xn ; ) = L(xi ; )
i=1
du modle (H n , {Qn
} ). Alors, est consistant.
Preuve On fixe et on note P = Qn
. Soit (X1 , , Xn ) un chantillon de la
loi P et, pour chaque :
1 n
1
Un () = ln Ln (X1 , , Xn ; ) = ln L(Xi ; )
n
n i=1
U() = E ln L(.; ).
Remarquons que Un ( ) = inf Un et, par hypothse, que U est continue. Daprs
P
34
CHAPITRE 3. VRAISEMBLANCE
montrer que cette convergence est en fait uniforme. Pour tout > 0, on dsigne
par g(., ) la fonction dfinie pour chaque x H n par
g(x, ) =
sup
k k
N
[
B( j , ).
j=1
max
j=1, ,N B( ,)
j
j=1, ,N
sup |U( j ) U|
+ max
j=1, ,N B( ,)
j
n
1
max |Un ( j ) U( j )| + E g(., ).
g(Xi, ) + j=1,
,N
n i=1
P
max |Un ( j ) U( j )| /3
j=1, ,N
!
1 n
+P
g(Xi, ) /3 .
n i=1
Or, daprs la la loi des grands nombres, on a la fois :
P
max |Un ( j ) U( j )|
0 et
j=1, ,N
1 n
P
g(Xi , )
E g(., ) < /3.
n i=1
P
35
Comme est compact et U est continue, il existe t tel que U(t) = inf U.
Par suite :
P
Un ( ) Un ( )
U(t) U( ) = K(t, ).
De plus,
Un ( ) Un ( ) = inf Un Un ( ) 0.
3.3
Information de Fisher
36
CHAPITRE 3. VRAISEMBLANCE
.
I : 7 var ( ln L(.; )) = cov
ln L(.; ),
ln L(.; )
i
j
i, j=1, ,d
Lorsque nous parlerons dinformation de Fisher, il sera sous-entendu que les
hypothses imposes dans cette dfinition seront satisfaites.
Linformation de Fisher est donc une fonction valeurs dans lensemble des
matrices semi-dfinies positives qui value le pouvoir de discrimination du modle entre 2 valeurs proches du paramtre dintrt. En effet, on voit directement
dans le cas d = 1 que I( ) grand traduit une grande variation de la nature des
probabilits du modle au voisinage de P , do une discrimination de la vraie
valeur du paramtre inconnu facilite. A linverse, si I( ) est petit, la loi est trs
pique : cest mauvais, car on est amen rechercher le maximum de la vraisemblance dans une rgion trs vaste. Ce sont ces proprits de I( ) qui fournissent
une information sur le modle.
Pour illustrer ces affirmations, reprenons le modle de la section 1.1, pour
lequel la vraisemblance vaut, si p ]0, 1[ et x1 , , xn {0, 1} :
n
n
.
p(1 p)
Dans ce modle, lincertitude est faible pour p proche de 0 et 1 alors quelle est
grande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pour
p proche de 0 et 1, et minimale pour p = 1/2.
Dans une situation dchantillonage i.i.d., linformation de Fisher est proportionnelle la taille de lchantillon. Cette proprit, que nous montrons cidessous, lgitime encore plus ce concept en tant que mesure dune quantit dinformation.
Proposition Soit (H , {Q } ) un modle statistique domin dinformation de
Fisher I. Alors, linformation de Fisher In du modle (H n , {Qn
} ) vaut In ( ) =
37
Ln (x1 , , xn ; ) = L(xi ; ).
i=1
ln Ln (x1 , , xn ; ) = ln L(xi ; ).
i=1
In ( ) = var
ln L(Xi; )
i=1
Du point de vue des calculs, on se rfrera souvent la proposition qui suit,
dont lobjectif principal est de donner une forme simplifie pour la matrice dinformation de Fisher. Dans la suite, 2 g( ) dsigne la matrice Hessienne de g :
R value en .
Proposition Soit (H n , {P } ) un modle statistique domin par , de vraisemblance L et dinformation de Fisher I. Soit . On suppose quil existe un
voisinage V de tel que supV kL(.; )k L1 (). Alors :
(i) E ln L(.; ) = 0.
(ii) si, en outre, supV k2 L(.; )k L1 (), on a I( ) = E 2 ln L(.; ).
Les conditions de cette proposition ne sont pas aussi restrictives quelle peuvent
le sembler, car elle sont satisfaites par bon nombre de modles statistiques. Comme
nous allons le voir, il sagit essentiellement de donner des conditions pour faire
passer lopration de drivation sous une intgrale.
Preuve On commence par remarquer que, sous la condition supV kL(.; )k
L1 (), on a daprs le thorme de Lebesgue :
Z
Hn
L(x; )(dx) =
Hn
L(x; )(dx) = 0.
38
CHAPITRE 3. VRAISEMBLANCE
Par suite,
Z
E ln L(.; ) =
Hn
Hn
L(x; )(dx) = 0,
do (i). Pour montrer (ii), on remarque dans un premier temps que daprs (i),
I( ) =
cov
ln L(.; ),
ln L(.; )
i
j
i, j=1, ,d
.
(3.3.1)
=
E
ln L(.; )
ln L(.; )
i
j
i, j=1, ,d
Soit alors i, j = 1, , d. Pour x H n , on a
2
2
L(x;
)
L(x;
)
L(x;
i j
i
j
ln L(x; ) =
.
i j
L(x; )
L2 (x; )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (P ) : cest clair pour le 1er
terme car 2 L(.; ) L1 () ; cest vrai aussi pour le 2nd membre sous la condition
dexistence de linformation de Fisher, i.e. ln L(.; ) L2 (P ). Le thorme de
Lebesgue montre que sous lhypothse supV k2 L(.; )k L1 (), on a :
2
2
L(x; )(dx) =
i j
H n i j
Z
Hn
L(x; )(dx) = 0.
Par suite,
2
E
ln L(.; ) =
i j
2
ln L(x; ) L(x; )(dx)
H n i j
Z
L(x; )
L(x; )
(dx)
=
j
L(x; )
H n i
= E
ln L(.; )
ln L(.; ).
i
j
Z
39
3.4
Ln (x1 , , xn ; ) = L(xi ; )
i=1
n , {Qn }
).
du modle (H
normal, de vitesse
L /Qn
n N(0, I( )1 ), .
Remarque Si les conditions de rgularit du modle ne sont certainement pas
optimales pour garantir un tel rsultat, il nen reste pas moins quil est ncessaire dimposer une certaine rgularit. Considrons en effet le cas du modle
(Rn+ , {U ([0, ])n } >0 ). Sa vraisemblance Ln scrit pour > 0 :
n
si 0 x1 , , xn ;
Ln (x1 , , xn ; ) =
0
sinon.
LEMV calcul partir dun chantillon (X1 , , Xn ) de loi U ([0, ])n est donc
= max1in Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation P = U ([0, ])n , on a pour chaque 0 < t < n :
t
P n t = 1 P max Xi <
1in
n
t n
= 1 1
.
n
40
CHAPITRE 3. VRAISEMBLANCE
Ln () = ln Ln (X1 , , Xn ; ) = ln L(Xi ; ).
i=1
0 = Ln ( ) = Ln ( ) +
Ln + t( ) dt ( ).
(3.4.1)
0
Nous examinons sparment chacun des termes qui interviennent dans cette relation. Rappelons que, puisque le modle est rgulier,
E ln L(.; ) = 0.
Par ailleurs, var ( ln L(.; )) = I( ). Donc, daprs le thorme de la limite centrale :
1
1 n
L /P
Ln ( ) = ln L(Xi ; ) N(0, I( )).
(3.4.2)
n
n i=1
Montrons maintenant que :
1
n
Z 1
0
P
2 Ln + t( ) dt
I( )
sup
k kr
Z 1
0
Z
1 n 1 2
Ln + t( ) dt =
ln L Xi ; + t( ) dt,
n i=1 0
2
41
on obtient :
Z 1
1
2
P
Ln + t( ) dt + I( )
n 0
!
1 n Z 1
2 ln L Xi ; + t( ) 2 ln L(Xi ; ) dt
P
2
n i=1 0
!
1 n
+P
2 ln L(Xi ; ) + I( )
2
n i=1
!
1 n
P
(Xi , r)
+ P k k r
n i=1
2
!
1 n
+P
2 ln L(Xi ; ) + I( )
.
n i=1
2
Le passage la dernire ingalit a t obtenu par une intersection avec lvnement {k k < r}. Or, E (., r) < /2 et E 2 ln L(.; ) = I( ) car le
modle est rgulier. Comme est consistant, on a donc, daprs la loi des grands
nombres :
Z
1 1 2
P
Ln + t( ) dt
I( ).
n 0
En particulier, I( ) tant inversible,
Z1
1
2
P
Ln + t( ) dt inversible 1.
n 0
Or, sur ce dernier vnement, daprs (3.4.1) :
1
n( ) =
n
Z1
1
1
2
Ln + t( ) dt
Ln ( ).
n 0
n I( )1 N(0, I( )) = N(0, I( )1 ),
do le thorme.
42
CHAPITRE 3. VRAISEMBLANCE
Chapitre 4
Classification des statistiques
Comme dans tout domaine des mathmatiques, classer les objets en fonction de
proprits communes est un moyen efficace pour entreprendre leurs tudes.
4.1
Estimateurs efficaces
On suppose dans cette section que lespace des paramtres R est un ouvert,
que H Rk et que (H n , {P } ) est un modle statistique rgulier domin par
, de vraisemblance L et dinformation de Fisher I.
Dans la section 2.1, nous nous sommes intresss des bornes du risque quadratique, et donc de la variance, dans la famille des estimateurs sans biais. Nous
poursuivons ici dans cette tude. Avant tout, nous aurons besoin de la dfinition
suivante qui prendra tout son sens avec lingalit de Cramer-Rao.
Dfinition On dit que est un estimateur rgulier si il est dordre 2 et
Z
Hn
(.)L(.; )d =
Z
Hn
(.)L(.; )d.
Lintrt de cette dfinition rside dans la remarque suivante : sous les notations de cette dfinition, si lestimateur rgulier est sans biais, alors
Z
H
(.)L(.; )d = E (.) = 1.
44
(4.1.1)
Par dfinition de I( ), il suffit donc de montrer que cov , ln L(.; ) = 1.
Comme est rgulier et sans biais, on a
Z
Hn
(x)L(x; )(dx) = 1.
Z
cov , ln L(.; ) =
Hn
(x)L(x; )(dx)
= 1,
do le thorme.
Reprenons lexemple du modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la
section 1.1. Nous avons montr dans la section 2.1 que lestimateur Xn construit
partir dun chantillon (X1 , , Xn ) de la loi B(p)n est VUMSB, ce qui sexprime par la proprit :
p(1 p)
var p ( ) = R(p; ) R(p; Xn ) = var p (Xn ) =
,
n
pour tout autre estimateur sans biais . Un simple calcul nous montre aussi que
linformation de Fisher de ce modle est prcisment
I(p) =
n
.
p(1 p)
45
P p.s.
Comme est sans biais et ln L(.; ) est P -centre, la proposition est prouve.
Bien sr, cette proposition est un "miroir aux alouettes", dans la mesure o
lestimateur uniformment efficace est alors dcrit via le paramtre inconnu . En
fait, lintrt dune telle reprsentation rside dans le fait que lon peut quelquefois en dduire quun estimateur est uniformment efficace. On peut ainsi facilement retrouver le fait que la moyenne empirique est lestimateur VUMSB dans le
modle statistique ({0, 1}n , {B(p)n } p]0,1[ ). Pour changer dexemple, considrons plutt le modle statistique (Rn , {N(m, 2 )n } >0 ), avec m R connu. Si
(X1 , , Xn ) est un chantillon de la loi N(m, 2 )n , lestimateur
1 n
2 = (Xi m)2
n i=1
46
est sans biais -car m est connu- et rgulier. Par ailleurs, la vraisemblance L scrit,
pour > 0 et x1 , , xn R :
!
n
1
1
exp 2 (xi m)2 .
L(x1 , , xn ; 2 ) =
n/2
2
2 i=1
(2 )
Par suite, sa log-vraisemblance vrifie :
n
1 n
2
ln L(x1 , , xn ; ) =
+ 4 (xi m)2
2
2
2
2 i=1
n
=
2 4
!
1 n
(xi m)2 2 .
n i=1
4.2
Statistiques exhaustives
47
48
(4.2.1)
P g (A) = P (g A) =
Z
=
A
g1 (A)
L(.; )d =
g1 (A)
E [L(.; ) | g] d
E [L(.; ) | g = x] g1 (dx).
Z
ZH
ZH
ZH
Rq
1B 1A g(.) (g(.), ) d
E [1B 1A g(.) (g(.), ) |g] d
(B |g) 1A g(.) (g(.), ) d
49
Z
ZA
=
A
(B |g = x) (x, ) g1 (dx)
(B |g = x) P g1 (dx)
Z
ZA
Z
g1 (A)
1B L(.; )d =
Ces galits tant vraies pour tout A B(Rq ), on en dduit que g1 -p.s. :
E [1B (g(.), ) | g = .] = (B | g = .)(., ) = E [1B L(.; ) | g = .].
Par suite, on a -p.s. :
i
h
E 1B ((g(.), ) L(.; )) g = 0,
50
T
,
( E )
g = E |g
( E )
E ( E )
T ( E )
= ( )
= 0,
ce qui montre que
E
T
= E E
( E )
T
i
g = 0.
( E )
51
Z
{Xn A}
{Xn A}
X1 dPp =
{Xn A}
X j dPp
E p [X j |Xn ]dPp .
j=1
4.3
Statistiques compltes
52
Exemple Le modle binomial ({0, , `}, {B(`, )} ]0,1[ ) est complet. En effet,
soit une fonction numrique dintgrale nulle sous P = B(`, ), et ceci pour
chaque ]0, 1[. Alors,
`
0=
(k)C`k k (1 )`k
k=0
= (1 )
(k)C`k
k=0
k
.
Comme cette galit est valable pour tout ]0, 1[, il en rsulte que = 0 sur
{0, , `}, donc = 0 P -p.s., i.e. le modle binomial est complet.
Le concept prend tout son sens grce au rsultat suivant :
Thorme [L EHMANN -S CHEFF ] Soit un estimateur sans biais dordre 2. Si
g est une statistique exhaustive complte, alors la statistique E [ |g] est lunique
estimateur VUMSB.
Preuve Soit 0 un autre estimateur sans biais et tel que 0 L2 (P ) pour chaque
. On fixe , et on note
= E [ |g] et 0 = E [ 0 |g].
Par exhaustivit de g, et 0 sont des estimateurs. En outre, ils sont sans biais et
dans L2 (P ). Daprs le lemme de Doob, il existe une fonction borlienne telle
que 0 = g. Donc, comme et 0 sont sans biais :
0 = E ( 0 ) = E g,
ce qui montre que 0 = g = 0 P -p.s. car g est une statistique complte.
Pour finir, on remarque que daprs lingalit de Jensen pour les esprances
conditionnelles (applique la fonction convexe x 7 kxk2 ) :
R( ; ) = R( ; 0 ) = V ( 0 ) = E kE [ 0 |g] k2
E E [k 0 k2 |g] = V ( 0 ) = R( ; 0 ),
ce qui entrane que est VUMSB.
Ainsi, ds que lon dispose dune statistique complte, tout estimateur sans
biais, mme draisonnable, suffit pour dterminer lestimateur VUMSB. Pour
illustrer cette affirmation, reprenons le modle ({0, 1}n , {B(p)n } p]0,1[ ) de la
53
section 1.1. Nous allons nouveau montrer, cette fois laide du thorme de
Lehmann-Scheff, que lestimateur Xn construit avec lchantillon (X1 , , Xn )
de la loi Pp = B(p)n est VUMSB. Comme X1 est un estimateur sans biais, que
Xn est une statistique exhaustive et que E p [X1 |Xn ] = Xn , il reste prouver que Xn
est une statistique complte. Sous Pp , la loi de nXn est B(n, p). Donc, pour chaque
fonction valeurs relles,
n
k
E p (Xn ) =
Cnk pk (1 p)nk .
n
k=0
Si E p (Xn ) = 0 pour chaque p ]0, 1[, on a alors (k/n) = 0 pour chaque k
{0, , n} et donc (Xn ) = 0 Pp -p.s. Par suite, Xn est une statistique complte.
54
Chapitre 5
Test statistique
Reprenons la problmatique de la section 1.1. Au niveau de confiance 95%, lintervalle de confiance obtenu pour la valeur de p0 (la probabilit que la pice tombe
sur pile) est [0.45, 0.59]. On nest donc pas en mesure de prciser si la pice est
ou non quilibre : un intervalle de confiance ne fournit pas, en gnral, une procdure de dcision.
Lobjet de ce chapitre est de construire une procdure de dcision, le test statistique. Il faut avoir lesprit que, outre le fait que cette procdure doit rendre
une dcision, elle doit aussi garder un contrle sur ses propres erreurs.
On considre dans ce chapitre un modle statistique (H n , {P } ). Il faut
noter que ni H , ni nest spcifi.
5.1
Problme de test
Pour une raison ou une autre, on est amen penser que la vraie valeur du paramtre , i.e. celle qui est issue de lobservation x1 , , xn , se trouve dans un sousensemble 0 de . On formule alors une hypothse, appele hypothse nulle, et
note H0 : 0 . Cependant, cette hypothse peut malgr tout tre fausse, et
on est amen introduire lhypothse alternative H1 : 1 , avec 1 0c . Un
problme de test est la confrontation de lhypothse nulle H0 contre lhypothse
alternative H1 .
A ce niveau, il convient de formuler 2 observations :
55
56
57
P ROCDURE DE DCISION D UN TEST. Soit T un test stochastique. Pour lobservation x, T (x) est la probabilit de rejeter H0 . On ralise alors un tirage alatoire
dans {0, 1} selon une loi B(T (x)) : si le rsultat du tirage est 0, on dcide que H0
est accepte ; sinon, H0 est rejete.
5.2
Un test doit tre construit partir dune erreur fixe au pralable. Le 1er type derreur que lon peut dgager est la probabilit de rejeter H0 tort :
Dfinition Soit T un test stochastique. Son risque (ou erreur) de 1re espce est
lapplication qui, chaque 0 , donne la probabilit de rendre la mauvaise
dcision :
0 [0, 1]
7 E T.
On dit que le test est de niveau (resp. de seuil) si la probabilit maximale de
rejeter H0 tort, i.e. lerreur de 1re espce maximale sup 0 E T , est gale
(resp. infrieure) .
Si le niveau du test est suffisamment proche de 0 (en pratique infrieur 5%),
la dcision de rejeter H0 est donc convaincante.
Exemple Considrons le modle statistique (Rn , {N( , 1)n } R ). Pour un paramtre 0 R fix, on veut construire un test pur de niveau pour le problme de
test H0 : 0 contre H1 : > 0 . Soit R fix, et (X
1 , , Xn ) un chantillon
n
de loi P = N( , 1) . On utilise la statistique de test n (Xn ) dont la loi est
N(0, 1). Notons z() le quantile dordre 1 de la loi N(0, 1), et
P (R) = P
n(Xn ) + n( 0 ) z()
P
n(Xn ) z() = ,
avec galit lorsque = 0 . Par suite, le test T = 1R est de niveau .
58
59
1
P (R) = P
n(Xn 0 ) z() = P
n + N 0 z()
n
= P n( 0 ) + N z() .
Si T = 1R est le test pur, la fonction puissance 7 E T = P (R) dfinie sur
]0 , [ est donc croissante, minore par et tend vers 1 lorsque tend vers linfini.
Exemple Reprenons le modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la section
1.1. Supposons que lon veuille dcider si oui ou non la pice est quilibre, en
sappuyant sur les observations x1 , , xn telles que xn = 0.52. Ces observations,
qui sont rgies par la loi B(p0 ) nous indiquent que, si la pice nest pas quilibre,
lalternative raisonnable est que p0 > 1/2. On envisage donc de construire un test
pur de H0 : p = 1/2 contre H1 : p > 1/2 au seuil 5%. Soit t R et une rgion de
rejet du type :
R = {(z1 , , zn ) {0, 1}n : zn > t}.
Le test pur qui est associ cette rgion de rejet est T = 1R . Pour un chantillon
(X1 , , Xn ) de la loi P1/2 = B(1/2)n :
E1/2 T = P1/2 (Xn > t)
60
avec t 0.53, le test T = 1R est de seuil 5%. Par ailleurs, la valeur t = 0.53 donne
le test de puissance maximale. En conclusion, le test T = 1R avec
R = {(z1 , , zn ) {0, 1}n : zn > t},
est de seuil 5% et de puissance maximale. Avec la valeur de xn = 0.52, lobservation (x1 , , xn )
/ R cest--dire quon est amen accepter H0 au niveau 5% :
il est donc envisageable, au vu des observations, de considrer que la pice est
quilibre.
5.3
Pour un test T , une puissance trop faible signifie que lon peut trouver dans 1 un
point pour lequel E T est faible. Lorsque cette dernire valeur est plus petite
que le niveau du test, on se retrouve dans la situation paradoxale o la probabilit
daccepter H1 raison est plus petite que la probabilit daccepter H1 tort ! Dans
un tel contexte, le test ne spare pas bien les hypothses H0 et H1 . La notion de
test sans biais formalise cet cueil quil convient dviter.
Dfinition Un test stochastique T de seuil est dit sans biais si pour tout 1 ,
on a E T .
Rien ne nous certifie, en gnral, quun test sans biais existe. Nous reviendrons
sur ce problme crucial de la thorie des tests dans la section suivante.
Exemple Pour chaque R, on note Q la loi de densit
exp ((x )) 1[ ,[ (x).
On souhaite tester H0 : 0 contre H1 : > 0 au niveau ]0, 1[, dans le
modle statistique (Rn , {Qn
} R ). Le test T = 1R associ la rgion de rejet
ln
n
R = (x1 , , xn ) R : min xi
i=1, ,n
n
est un test pur pour H0 contre H1 , de niveau et sans biais. Pour R, notons
61
P = Qn
et (X1 , , Xn ) un chantillon de loi P . Si 0 :
ln
ln n
E T = P
min Xi
= P X1
i=1, ,n
n
n
Z
n
e(t ) dt = en ,
=
ln /n
62
5.4
0
si L(x; 1 ) < kL(x; 0 ),
Lensemble T sappelle famille des tests de Neyman-Pearson. Lensemble Tc
est le sous-ensemble de T constitu des tests pour lesquels la fonctions est
constante. Il convient de remarquer quun test de Neyman-Pearson associ une
fonction 0 est un test pur.
Il est essentiel de remarquer laspect constructif des rsultats qui suivent, tous
les tests considrs faisant partie de la famille T .
Le 1er rsultat est relatif lexistence dun test UPP. Il nous montre quil existe
toujours un test de Tc de niveau donn.
Thorme Soit ]0, 1[.
1. Il existe un test de Tc de niveau ;
2. Si un test de Tc est de niveau , alors il est UPP.
Preuve
1. Un test T Tc associ aux paramtres k et est de niveau si
= E0 T = P0 (L(.; 1 ) > kL(.; 0 )) + P0 (L(.; 1 ) = kL(.; 0 )) .
63
(5.4.2)
E1 T E1 T = E1 (T T ) =
k
Z
Hn
Z
H
(T ? T )L(.; 1 )d
(T T )L(.; 0 )d = k E0 T ? E0 T .
64
Rd =
Rd > 0
{R>0}
Hn
(T T )L(.; 1 )d > k
Z
Hn
(T ? T )L(.; 0 )d.
(T ? T )L(.; 0 )d = E0 T ? E0 T 0,
Z
H
(T ? T )L(.; 1 )d > 0.
5.5
65
Or, T est UPP dans le problme de test de H00 contre H10 , donc E1 T E1 T ? .
Comme 1 a t choisi arbitrairement dans 1 , on en dduit que T est UPP dans
le problme de test de H0 contre H1 .
Exemple Reprenons le modle statistique (Rn , {N( , 1)n } R ). On a vu que,
dans le problme de test de H0 : 0 contre H1 : > 0 , le test T = 1R de
rgion de rejet
66
o z() est le quantile dordre 1 de la loi N(0, 1), est un test de niveau .
Nous allons montrer que ce test est UPP en utilisant le thorme prcdent.
On remarque tout dabord que E0 T = P0 (R) = . Fixons maintenant 1 > 0 .
Pour tout R et x = (x1 , , xn )T Rn , on a lcriture
(
!)
n
n
o
1
1 n
2
2
L(x; ) = exp (xn )
exp (xi xn )
.
2
2 i=1
(2)n/2
On en dduit la forme suivante pour le rapport des vraisemblances :
h n
i
L(x; 1 )
= exp (xn 1 )2 (xn 0 )2
L(x; 0 )
2
n
= exp n(1 0 )
n(xn 0 )
(1 0 ) .
2
Par suite, pour tout k > 0 :
L(x; 1 )
>k
L(x; 0 )
ln k
n
n(xn 0 ) >
+
(1 0 ).
n(1 0 )
2
ln k0
n
z() =
+
(1 0 ),
n(1 0 )
2
et notons T1 le test de Tc associ aux paramtres (k0 , 0), i.e.
T1 = 1{L(.;1 )>k0 L(.;0 )} .
On a alors T = T1 . Daprs le thorme prcdent, T est donc UPP.
5.6
Tests asymptotiques
Comme les lois distance finie ne sont pas toujours videntes obtenir, on est
amen, linstar des intervalles de confiance asymptotiques, dfinir la notion de
test asymptotique.
On considre le problme de test de H0 : 0 contre H1 : 1 , avec
0 ,1 et 0 1 = 0.
/ Le modle statistique (H n , {P } ) dpend de n :
67
dans le cadre des tests asymptotiques, on fait donc apparatre la taille n de lchantillon dans la notation du test.
Dfinition Un test asymptotique de seuil ]0, 1[ est la donne dune suite de
tests (Tn )n tels que
sup lim sup E Tn .
0
La procdure de dcision est alors calque sur celle des tests taille dchantillon finie. La seule diffrence notable est quun test asymptotique est construit
pour contrler lerreur de 1re espce, mais seulement asymptotiquement.
Dfinition Un test asymptotique (Tn )n est dit convergent si
1
lim E Tn = 1.
n
68
Chapitre 6
Statistique des chantillons
gaussiens
Ltude statistique des chantillons gaussiens est base sur 2 rsultats fondamentaux portant sur la nature particulire de la projection vecteurs gaussiens. Dans
tout ce chapitre, Nd (m, ) dsigne une loi gaussienne sur Rd , de moyenne m Rd
et de matrice de variance Md (R).
6.1
Toutes les variables alatoires de cette section sont implicitement dfinies sur un
espace probabilis ( , F , P).
Le thorme ci-dessous est essentiel dans toute la thorie des modles gaussiens. On rappelle que la loi de Chi 2 d degrs de libert, note d2 , est la loi
de la somme des carrs de d v.a.r.i.i.d. de lois N1 (0, 1). Par ailleurs, k.k dsigne
toujours la norme euclidienne.
Thorme [C OCHRAN ] Soit X Nn (0, 2 Id) avec > 0, et L1 L p une
dcomposition de Rn en sous-espaces orthogonaux de dimensions r1 , , r p . Les
projections orthogonales 1 , , p de X sur L1 , , L p sont des vecteurs gaussiens indpendants, et pour chaque i = 1, , p :
1
ki k2 r2i .
2
69
70
Preuve Soit (eij )i, j une base orthonorme de Rn telle que pour chaque i = 1, , p,
(eij ) j=1, ,ri est une base orthonorme de Li . Pour chaque i = 1, , p, on a :
ri
i =
(X T eij )eij .
j=1
Les vecteurs (eij )i, j tant orthogonaux, pour tout i 6= k, la matrice de covariance
entre i et k , i.e.
cov(i , k ) = E (i Ei ) (k Ek )T = Ei kT = 0.
Comme (1 p )T est un vecteur gaussien (toute combinaison linaire des v.a.r.
(X T eij )i, j est gaussienne), 1 , , p sont donc des vecteurs gaussiens indpendants, do le premier point.
Fixons i = 1, , p, et calculons tout dabord, pour tout j = 1, , ri , la loi de
la v.a.r. X T eij . Il est clair que X T eij est une v.a.r. gaussienne centre, comme combinaison linaire des composantes dun vecteur gaussien centr. De plus, comme
les composantes du vecteur X = (X1 Xn )T sont i.i.d. de loi N1 (0, 2 ),
n
var(X T eij ) =
o lon a not eij = (eij (1) eij (n))T . Par suite, X T eij N1 (0, 2 ). Dautre part,
comme le vecteur alatoire (X T ei1 X T eiri )T est gaussien (car toute combinaison
linaire de ses composantes est une v.a.r. gaussienne), il suffit de montrer que
pour tout j 6= j0 , cov(X T eij , X T eij0 ) = 0 pour en dduire que X T ei1 , , X T eiri sont
indpendantes. Or, si j 6= j0 :
n
k,k =1
n
Nous avons donc montr que les v.a.r. (X T eij / 2 ) j sont i.i.d., de mme loi N1 (0, 1).
Par suite,
ri X T ei 2
1
j
2
ki k =
r2i ,
2
j=1
71
do le thorme.
La loi de Student n degrs de libert, note Tn , est la loi du quotient
o X
Y , X N1 (0, 1) et Y n2 .
nX/ Y ,
n(Xn m)/
(b) Daprs la loi forte des grands nombres, Sn p.s. Par suite, lassertion (iii),
le thorme de la limite centrale unidimensionnel et le lemme de Slutsky montrent
que Tn converge en loi vers la loi N1 (0, 1).
Preuve Pour simplifier, on considre le cas m = 0 et = 1. Soit L le s.e.v. de
Rn engendr par e = (1, , 1)T . Le projecteur orthogonal P sur L est la matrice
n n dont tous les coefficients valent 1/n. On a alors PX = Xn e et (Id P)X =
(X1 Xn , , Xn Xn )T . Comme (Id P)X est la projection orthogonale de X sur
lorthogonal de L, on dduit du thorme de Cochran que PX
(Id P)X, et
2
en particulier que Xn
Sn2 , do (i). De plus, (n 1)Sn2 = k(Id P)Xk2 n1
daprs
le thorme de Cochran, do (ii). Enfin, (iii) est consquence du fait que
6.2
On se donne dans cette partie un modle statistique (Rn , {N1 (m, 2 )n }mR, >0 ).
Le but est de construire des tests ou des intervalles de confiance sur la valeur des
paramtres m0 et 02 dun chantillon x1 , , xn issu de la loi N1 (m0 , 02 ). Comme
72
on la vu dans les chapitres prcdents, il faut alors construire une statistique dont
la loi ne dpend pas des paramtres inconnus du modle.
Notons (X1 , , Xn ) un chantillon de loi Pm, = N1 (m, 2 )n . On sait alors
que
Xn m
n
N1 (0, 1).
2
Cependant, cette statistique, en faisant intervenir simultanment les 2 paramtres
inconnus m et , nest pas utilisable. On se tourne alors vers le thorme de Fisher,
qui nous donne les galits en loi :
(n 1)
Xn m
Sn2
2
Tn1 .
n1
et n
2
Sn
et
s2n (y) =
1 n
(yi yn )2 .
n 1 i=1
73
n1 1
n1
Sn2
= Pm, (n 1) 2 < n1 () = 1 .
6.3
Comparaison de 2 chantillons
On suppose dans cette partie que lon a 2 suites indpendantes dobservations indpendantes x = (x1 , , xn ) et y = (y1 , , y p ), chacune issue de lune des lois
des modles statistiques {N1 (m, 2 )n }mR, >0 et {N1 (m, 2 )p }mR, >0 . On
suppose que ces suites dobservations ont mme variance (cest lhypothse dite
dhomoscdasticit), et on veut construire un test pur portant sur lgalit des
moyennes des suites x et y.
Si m1 et m2 reprsentent les moyennes de chaqun des 2 chantillons, le problme de test sexprime donc H0 : m1 = m2 contre H1 : m1 6= m2 , dont nous allons
construire un test pur au niveau . Notons X un chantillon (X1 , , Xn ) de la loi
N1 (m1 , 2 )n et Y un chantillon (Y1 , ,Yp ) de la loi N1 (m1 , 2 )p . Compte tenu
des hypothses exprimentales, on peut supposer que X et Y sont indpendantes.
De plus, Sn2 (X) et S2p (Y ) dsignent les variances empiriques sans biais de X et Y .
Introduisons la statistique
Q=
(Xn Yp ) (m1 m2 )
q
.
1
1
n+p
74
Puisque X T et Y T sont 2 vecteurs gaussiens indpendants, Q est une v.a.r. gaussienne, comme combinaison linaire dun vecteur gaussien. Il est clair que Q est
centre, et on montre facilement que la variance de Q est 2 . En consquence,
Q N1 (0, 2 ). Cependant, est en gnral un paramtre inconnu, donc la statistique Q nest pas utilisable directement pour construire un test statistique.
Notons alors
W 2 = (n 1)Sn2 (X) + (p 1)S2p (Y ).
2 et (p1)S2 (Y ) 2 2 .
Daprs le thorme de Fisher, (n1)Sn2 (X) 2 n1
p
p1
2
2
2
2
2
Q
Comme, par ailleurs, Sn (X)
S p (Y ), on a donc W n+p2 . De plus, W
daprs le thorme de Fisher. Par dfinition de la loi de Student, on a donc
p
Q
M = n + p 2 Tn+p2 .
W
Comme la loi de M est libre, i.e. elle ne dpend pas de paramtres inconnus, la
statistique de test utiliser est M. Dsignons par tn+p2 () le quantile dordre
1 /2 de la loi Tn+p2 . En utilisant le fait que la loi de Student est symtrique,
on vrifie comme dans la section prcdente que, avec des notations videntes,
lensemble
s
1
1
+
|xn y p |
n
p
(x y)T Rn+p : q
tn+p2 ()
n+ p2
(n 1)s2 (x) + (p 1)s2 (y)
n
6.4
6.4.1
On suppose dans cette section que lon dispose de k jeux indpendants dobservations indpendantes x1 , , xk . On est encore dans le cadre dun modle gaussien,
75
car pour tout i, xi est une observation du modle statistique {N1 (m, 2 )ni }mR, >0 .
Comme dans la section prcdente, on impose lhypothse dhomoscdasticit du
modle, i.e. les variances de chacun des jeux dobservations sont les mmes. Lobjectif est de construire un test pur portant sur lgalit des moyennes de ces k jeux
dobservations.
Sous lhypothse dhomoscdasticit, on peut introduire les chantillons indpendants X1 N1 (m1 , 2 )n1 , , Xk N1 (mk , 2 )nk pour construire la statistique de test. Le problme de test sexprime donc par
H0 : m1 = = mk
Ii =
e j,
j=n1 ++ni1 +1
= mi Ii ,
i=1
E lespace vectoriel engendr par les vecteurs I1 , , Ik , et H le sous-espace vectoriel de Rn engendr par le vecteur (1 1)T . Avec cette criture, le problme de
test snonce ainsi :
H0 : H
6.4.2
contre H1 : E \ H.
Statistique de test
76
La loi de Fisher de paramtres (i, j), note F(i, j), est dfinie comme suit :
F(i, j)
jU
, si U
V, et U i2 ,
iV
V 2j .
n k kXE XH k2
F(k 1, n k).
k 1 kX XE k2
77
x=
ni
xi( j) en1++ni1+ j ,
i=1 j=1