Cours

Statistique mathmatique pour le Master 1
Cours de lENS Cachan Bretagne

Benot Cadre
4 juin 2010
Table des matires

1
Modlisation statistique
1.1 Un exemple . . . . . . . . . . . . . .
1.2 Principe fondamental de la statistique
1.3 Modle statistique . . . . . . . . . . .
1.4 Domination dans un modle statistique
1.5 Estimation . . . . . . . . . . . . . . .
1.6 Construction des estimateurs . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Principes de linfrence statistique

2.1 Critres de performance en moyenne . . . . . . . . . . . . . . .
2.2 Critres de performance asymptotique . . . . . . . . . . . . . .
2.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Intervalle de confiance pour une taille dchantillon finie
2.3.2 Intervalle de confiance asymptotique . . . . . . . . . . .
Vraisemblance
3.1 Le concept de vraisemblance . . .
3.2 Consistance de lEMV . . . . . .
3.3 Information de Fisher . . . . . . .
3.4 Normalit asymptotique de lEMV
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
7
9
11
12
14
.
.
.
.
.
17
17
21
23
24
25
.
.
.
.
29
29
31
35
39
Classification des statistiques

43
4.1 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2 Statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Statistiques compltes . . . . . . . . . . . . . . . . . . . . . . . . 51
Test statistique
55
5.1 Problme de test . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3
TABLE DES MATIRES

5.2
5.3
5.4
5.5
5.6
Erreurs dun test . . . . . . . . . . .

Comparaison des tests . . . . . . . .
Optimalit dans les tests simples . .
Optimalit dans les tests composites
Tests asymptotiques . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Statistique des chantillons gaussiens

6.1 Projection de vecteurs gaussiens . . . . . . . . .
6.2 Tests sur les paramtres . . . . . . . . . . . . . .
6.3 Comparaison de 2 chantillons . . . . . . . . . .
6.4 Modle linaire gaussien . . . . . . . . . . . . .
6.4.1 Le problme et sa formulation vectorielle
6.4.2 Statistique de test . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 57
. 60
. 62
. 65
. 66
.
.
.
.
.
.
69
69
71
73
74
74
75
.
.
.
.
.
.
Chapitre 1
Modlisation statistique
1.1
Un exemple
Une pice a une probabilit p0 ]0, 1[ de tomber sur "pile". Sur les 1000 lancers raliss indpendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tent de conclure que p0 0.52. Cependant, de la mme manire quil est sans intrt de donner une valeur approche dune intgrale sans
prciser lerreur dapproximation, ce rsultat na que peu de valeur, car il ne nous
renseigne pas sur lerreur commise.
Nous allons examiner de quelle manire la construction dun modle permet
de combler cette lacune. On note x1 , , xn les rsultats des n = 1000 lancers de
pice, avec la convention suivante : xi = 1 si le i-me lancer a donn "pile", et 0
dans le cas contraire. Le principe de base de lestimation statistique est de considrer que x1 , , xn est une ralisation de la loi B(p0 )n , si pour chaque p [0, 1],
B(p) dsigne la loi de Bernouilli de paramtre p (i.e. B(p) = p1 + (1 p)0 ,
avec 0 et 1 les mesures de Dirac en 0 et 1). En labsence dinformations sur la
valeur de p0 , on ne peut en fait que supposer que x1 , , xn est une ralisation de
lune des lois {B(p)n , p ]0, 1[}.
De cet ensemble de probabilits, appel modle statistique, on cherche dduire la valeur de p qui sajuste le mieux aux observations x1 , , xn . Une rponse
raisonnable est base sur lintuition suivante : compte tenu des informations dont
on dispose, la meilleure approximation de p0 que lon puisse donner est une valeur
5
CHAPITRE 1. MODLISATION STATISTIQUE
qui maximise la fonction

n
p 7 B(p) ({x1 , , xn }) = B(p)({xi }) = pi=1 xi (1 p)ni=1 xi .

i=1
Cest le principe de construction dune valeur approche -on parlera destimateurde p0 par maximisation de la vraisemblance. Selon ce principe, la valeur qui
sajuste le mieux aux observations est la moyenne empirique des observations :
1 n
xn = xi .
n i=1
On retrouve ainsi la valeur xn = 0.52 du dbut.
Lintroduction dun modle nous permet en plus de donner une erreur dans
lapproximation. Soit p ]0, 1[, et X1 , , Xn des v.a. i.i.d. sur lespace probabilis
( , F , P) de loi commune B(p). On peut calculer le risque quadratique, cest-dire le carr de la distance L2 entre la cible p et lestimateur Xn = (1/n) ni=1 Xi
obtenu par le principe de maximisation de la vraisemblance :
1
1
2
E (Xn p) = EX1 (1 EX1 ) = p(1 p).
n
n
Comme p(1
p) 1/4, lerreur quadratique moyenne commise est donc majore par 1/(2 n) 0.016. Cependant, si le rsultat donne des informations sur la
qualit de lapproximation, ce nest quune valuation en moyenne, qui ne dpend
donc pas des observations.
Bien dautres principes peuvent tre envisags pour prciser la qualit de lapproximation. Par exemple, supposons que lon veuille construire un intervalle dans
lequel p0 doit se trouver, avec une probabilit de 0.95 par exemple. Le principe
de construction est le suivant : pour chaque p ]0, 1[, on cherche dans un premier
temps un intervalle de confiance par excs I(X1 , , Xn ) construit avec la suite de
v.a. X1 , , Xn tel que
P (p I(X1 , , Xn )) 0.95.
On peut alors conclure, avec les observations x1 , , xn , que p0 I(x1 , , xn ),
avec une probabilit de 95% au moins. Dans lexemple qui nous intresse, lingalit de Bienaym-Tchebytchev nous donne, pour tout > 0 :
P(|Xn p| )
1
var(Xn ) var(X1 ) p(1 p)
=
=
.
2
n 2
n 2
4n 2
1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE
De ce fait, P(|Xn p| ) 0.05 au moins si 1/(4n 2 ) 0.05 soit, tous calculs

faits, si 0.07. Par suite,
P (p [Xn 0.07, Xn + 0.07]) 0.95.
En utilisant les observations x1 , , xn on a xn = 0.52, et donc p0 [0.45, 0.59]
avec une probabilit 0.95 au moins. Le moins que lon dire ici est que cette information est peu satisfaisante, eu gard au grand nombre dobservations !
Comment amliorer ces rsultats ? Si la question pose est "la pice est-elle
quilibre ?", lintervalle ci-dessus ne permet pas de donner une rponse ; ds lors,
quelle stratgie de dcision envisager ? Lobjet de ce cours est de donner quelques
lments de rponse ces questions. Dans un premier temps, il convient de fixer
les objectifs de linfrence statistique, ainsi que le contexte mathmatique.
1.2
Principe fondamental de la statistique
Le phnomne alatoire fournit n observations x1 , , xn de lespace topologique

H . Celles-ci sont supposes tre les ralisations dune loi Q0 sur lespace probabilisable (H , B(H )). Le principe de base de linfrence statistique est dutiliser
ces n observations pour en dduire des informations sur Q0 . Cette approche estelle raisonnable ? De manire plus ambitieuse, est-il possible de reconstruire un
approximation de Q0 partir des observations x1 , , xn ? Nous allons voir que
la rponse est affirmative, au moins dans le cas o le phnomne alatoire global
consiste en n phnomnes indpendants et rgis par la mme loi.
Au pralable, rappelons que la suite de probabilits (n )n sur Rd converge
troitement vers si, pour chaque fonction f : Rd R continue borne, on a :
Z
Rd
f dn
Z
Rd
f d.
Le critre de convergence de Lvy nous affirme que (n )n converge troitement
vers si, pour chaque t Rd , la suite ( n (t))n converge vers (t),

o dsigne
la tranforme de Fourier de , i.e. la fonction
: t 7
et idem pour n .
Z
Rd
exp(it T x)(dx),

Dans la suite, x dsigne la mesure de Dirac en x Rd .
Thorme [VARADARAJAN ] Soient X1 , X2 , des v.a.i.i.d. sur ( , F , P) valeurs dans Rk , de loi commune . On note n la mesure empirique des n premires
v.a., i.e.
1 n
n = Xi .
n i=1
Alors, P-p.s., la suite de mesures (n )n converge troitement vers .
Preuve Pour simplifier la preuve, on suppose que X1 est intgrable. Daprs le
critre de Lvy, il suffit de montrer que

P t Rd : n (t) (t)
= 1,
si n et dsignent les transformes de Fourier de n et . Or, la loi forte des
grands nombres nous montre que pour tout t Rd , lvnement
(t) = { n (t) (t)}

est de probabilit. Soit T Rd un ensemble dnombrable dense, et
(
)
\
\\ 1 n
0 =
(t)
kX j k EkX1k ,
n j=1
tT
o k.k dsigne la norme euclidienne de Rd . Comme X1 est intgrable et T est
dnombrable, on a P(0 ) = 1 daprs la loi forte des grands nombres et car
P( (t)) = 1 pour tout t. Fixons t Rd et 0 . On choisit une suite (t p ) p
de T telle que t p t, et on note pour tout s Rd , n (s) la ralisation en de
n (s), i.e.
1 n
n (s) = exp(isT X j ()).
n j=1
Soit p fix. On a :
p )| + |(t
p ) (t)|
| n (t) (t)|
| n (t) n (t p )| + | n (t p ) (t
!
1 n
p )|
kt t p k
kX j ()k + EkX1 k + | n (t p ) (t
n j=1
1.3. MODLE STATISTIQUE
Par suite, pour tout p :
lim sup | n (t) (t)|

2kt t p kEkX1 k.
n
En faisant enfin tendre p vers linfini, on peut en dduire que pour tout 0 et
tout t Rd , n (t) (t).

Comme P(0 ) = 1, le rsultat est dmontr.
Reprenons le contexte o les observations (x1 , , xn ) H n sont issues de n
phnomnes alatoires indpendants et rgis par la mme loi Q0 sur H = Rd . Le
thorme de Varadarajan montre que si (X1 , , Xn ) suit la loi Qn
0 alors la mesure
empirique
1 n
Xi
n i=1
est proche de la mesure Q0 , lorsque n est assez grand. Autrement dit, en multipliant les expriences, la mesure discrte
1 n
xi
n i=1
est proche de la mesure Q0 . Ce rsultat donne un appui thorique la dmarche
statistique consistant tenter de reconstruire la mesure thorique Q0 laide des
observations x1 , , xn . Toute dmarche en statistique infrentielle asymptotique
est base sur ce thorme, qui mrite donc son titre de "Thorme fondamental de
la statistique".
1.3
Modle statistique
Formalisons le concept de modle statistique vu dans la section 1.1. Dans ce cadre,

lespace des observations tait {0, 1}n .
Dfinitions Un modle statistique est un couple (H n , P), o H est lespace
-suppos topologique- de chaque observation, et P est une famille de lois de probabilits sur H n muni de sa tribu borlienne. Le modle statistique (H n , P) est
paramtr par si P = {P }
Lexprience alatoire sous-jacente fournit n observations (x1 , , xn ) H n
du mme phnomne alatoire, qui est rgit par la loi inconnue P0 . Le principe
10
de base de la statistique est de considrer que (x1 , , xn ) est rgit par lune des
lois dun modle P, avec P0 P. Cette tape de modlisation tant acheve, il
sagira de chercher quelle loi de ce modle sajuste le mieux aux observations.
Par exemple, lorsque les expriences ont t menes indpendamment les unes
des autres, lobservation (x1 , , xn ) est rgie par la loi P0 = Qn
0 , et le modle stan
n
tistique est un ensemble de probabilits sur H contenant Q0 .
A noter, donc : linverse du probabiliste, le statisticien travaille plutt sur
lespace des observations, qui constitue un cadre dtude plus naturel. Par ailleurs,
le statisticien ne suppose pas que la loi des observations est connue, linverse du
probabiliste.
Exemple En utilisant des observations indpendantes x1 , , xn de la dure de vie
de n ampoules du mme type, on veut connatre la loi suivie par la dure de vie de
ce type dampoule. La 1re tape consiste dfinir le modle statistique associ,
dont lespace des observations est Rn+ . Du point de vue de la modlisation, il est
raisonnable daffirmer quune v.a. X sur ( , F , P) qui reprsente la dure de vie
de lampoule est sans mmoire, i.e.
L (X t|X t) = L (X), t 0.
Cette proprit signifie que lampoule "ne se souvient pas davoir vieilli". Par
ailleurs, on peut aussi supposer que la loi de X est densit par rapport la mesure de Lebesgue. On sait alors quil existe > 0 tel que X E ( ). Comme les
observations des dures de vie sont indpendantes, x1 , , xn est une ralisation
dune loi E (0 )n , pour un certain 0 > 0 quil sagira de trouver. Le modle statistique associ cette exprience alatoire est donc (Rn+ , {E ( )n } >0 ). Nous
verrons dans la suite comment trouver une valeur de qui sajuste aux observations.
Dans lexemple de la section 1.1, comme les lancers de pice sont indpendants, la loi dont sont issues les rsultats de lexprience est clairement lune des
lois du modle P = {B(p)n , p ]0, 1[}. Remarquons aussi que lapplication
p 7 B(p)n est injective : cette proprit, appele identifiabilit, te tout ambiguit dans le modle, en permettant dassocier des observations une, et une seule
loi du modle.
Dfinitions Soit P = {P } un modle statistique.
1.4. DOMINATION DANS UN MODLE STATISTIQUE
11
1. Il est dit identifiable si lapplication 7 P dfinie sur est injective.

2. Il est dit paramtrique si il existe d N tel que Rd . Sinon, il est non
paramtrique.
Le modle statistique {N(m, 2 ); m R, > 0} est paramtrique et identifiable, mais {N(m, 2 ); m R, 6= 0}, qui est aussi paramtrique, nest pas identifiable car N(m, 2 ) = N(m, ( )2 ). Par ailleurs, le modle constitu de toutes
les lois densit est non paramtrique.
On sintressera dans ce cours aux modles paramtriques. Cette restriction
confre au modle un atout majeur : en limitant lespace des probabilits explorer, elle permet dobtenir de meilleurs rsultats quantitatifs.
1.4
Domination dans un modle statistique
Soit le modle statistique paramtrique (H n , P), avec un espace dobservations

individuelles H Rk .
Rappelons que, pour 2 mesures -finies et sur R p , est absolument continue par rapport , et on note , si pour tout A B(R p ) tel que (A) = 0, on
a (A) = 0. Dans ce cas, le thorme de Radon-Nikodym nous donne lexistence
dune fonction mesurable f et -p.p. positive, appele densit de par rapport
, telle que d = f d. Si est la mesure de Lebesgue, on parle plus simplement
de la densit de . Enfin, si est borne, f est -intgrable.
Dfinition Le modle statistique (H n , P) est dit domin si il existe une mesure
-finie telle que P pour chaque P P. La mesure est appele mesure
dominante du modle.
Les modles {N(m, 2 ); m R, > 0} et {B(p)n ; p ]0, 1[} sont domins : une mesure dominante du premier est la mesure de Lebesgue sur R, alors
quune mesure dominante du second est (0 + 1 )n . De manire plus gnrale,
les exemples de modles domins que nous rencontrerons le seront soit par rapport une mesure de comptage, soit par rapport une mesure de Lebesgue.
Thorme Supposons que (H n , P) est domin, et notons conv(P) son convexi-
12
fi, i.e.

conv(P) =
anPn, avec Pk P, ak 0 et an = 1

.
Alors, il existe une probabilit de conv(P) qui domine P.

Preuve Soit une mesure dominante. On note C lensemble des vnements C
tels que (C) > 0 et tels quil existe PC conv(P) dont la densit fC par rapport
vrifie fC > 0 -p.p. sur C. Choisissons (Cn )n1 , une suite de C , telle que :
lim (Cn ) = sup (C) +.
CC
On note PCn la probabilit associe chaque Cn , et fCn la densit associe. On

pose :
[
Cs =
Cn , f = 2n fCn .
n1
n1
La probabilit Q telle que dQ = f d, qui est dans conv(P), admet f pour densit par rapport . Comme (Cs ) > 0 et f > 0 -p.p. sur Cs , on a Cs C . Par
ailleurs, on a aussi (Cs ) = supCC (C).
Montrons maintenant que Q domine P. Soit P P, de densit pR par rapport
, et A un vnement tel que Q(A) = 0. Comme 0 = Q(A Cs ) = ACs f d et
que f > 0 -p.p. sur Cs , on a (A Cs ) = 0, do P(A Cs ) = 0 car P . Par
ailleurs, P(Csc ) = 0. En effet, il est clair que Cs { f + p > 0} -p.p., et comme
{ f + p > 0} C , la proprit de maximalit de Cs montre que Cs = { f + p >
0} -p.p. Comme P , on a aussi
Cs = { f + p > 0} P-p.p. et donc P(Csc ) =
R
P({ f + p = 0}) P({p = 0}) = {p=0} pd = 0. En remarquant finalement que
A (A Cs ) Csc , on en dduit que P(A) = 0, cest--dire que P Q. Comme
Q conv(P), le thorme est dmontr.
1.5
Estimation
Soit le modle statistique paramtrique (H n , {P } ), avec un espace dobservations individuelles H Rk et un espace de paramtres Rd . Dans ce
modle, le paramtre dintrt est . Si les n expriences du phnomne sont indpendantes, on a alors P = Qn
pour chaque .
1.5. ESTIMATION
13
Dans un soucis de simplicit, on se limitera dans tout le cours au cas o le

paramtre dintrt est , tant entendu que les dfinitions et la plupart des proprits qui suivent sadaptent sans difficult au cas o le paramtre dintrt est
une fonction borlienne de .
Dfinition Un chantillon de loi P est une v.a. canonique sur (H n , P ).
On rappelle quune v.a. canonique (X1 , , Xn ) sur (H n , P ) est une v.a. qui
vrifie pour chaque i = 1, , n :
Xi : (x1 , , xn ) H n 7 xi H .
La taille de lchantillon est le nombre dexpriences alatoires. Dans lexemple
de la section 1.1, la taille de lchantillon est n = 1000, et une suite X1 , , Xn de
v.a.i.i.d. issues de la loi B(p) constitue, aprs concatnation, un chantillon de la
loi B(p)n . A laide de cette modlisation stochastique, lenjeu est de construire
une fonction de lchantillon, qui fournira linformation sur le paramtre inconnu,
not p0 dans la section 1.1. Ceci nous amne la notion destimateur, qui est une
quantit cens tre proche du paramtre. Diffrentes notions de proximit seront
abordes au chapitre 2.
Dfinitions
1. Une statistique est une v.a. dfinie sur H n indpendante de , i.e. une
fonction borlienne dfinie sur H n indpendante de .
2. Un estimateur (de ) est une statistique valeurs dans un sur-ensemble de
.
Remarque Un chantillon de loi P tant une v.a. canonique (X1 , , Xn ), il sensuit quune statistique scrit aussi :
g(.) = g(X1 , , Xn ).
On utilisera lune ou lautre de ces reprsentations, selon le contexte. Par exemple,
pour insister sur le fait que la statistique dpend de lchantillon, on utilisera la
reprsentation g(X1 , , Xn ). Pour distinguer une statistique dun estimateur, on
notera ce dernier avec un chapeau.
Dans lexemple de la section 1.1, si (X1 , , Xn ) est un chantillon de la loi
B(p)n , X1 et Xn sont des estimateurs de p. Ces 2 estimateurs nont videmment
14
pas le mme intrt ; la terminologie du chapitre 2 permettra dentreprendre une

premire classification.
1.6
Construction des estimateurs
Soit le modle statistique paramtrique (H n , {Qn

} ), avec un espace dobk
servations individuelles H R et un espace de paramtres Rd .
Pour construire un estimateur raisonnable, on utilise en gnral lune ou lautre
des 2 procdures suivantes : le principe de la vraisemblance maximale, qui fera
lobjet du chapitre 3, ou une mthode ad hoc dans laquelle, par le calcul, on observe tout dabord ce que reprsente le paramtre pour la loi Q , puis on en
construit une version empirique.
Examinons en dtail la 2me mthode. Dans un premier temps, on regarde ce
que ce paramtre reprsente pour la loi Q , puis on remplace
la mesure Q par sa
R
version empirique. Supposons par exemple que = H f dQ , pour une certaine
fonction connue f L1 (Q ). En vertu de la loi des grands nombres, un estimateur
raisonnable sera :
1 n
= f (Xi ).
n i=1
Un tel procd de construction sappelle mthode des moments, bien quil ne
concerne pas ncessairement les moments de la loi Q . Bien entendu, ce nest
quun procd de construction, et rien ne nous assure en gnral quun estimateur
construit de la sorte ait de bonnes proprits statistiques. Nanmoins, on retrouve
des estimateurs naturels. Par exemple, si reprsente la moyenne de la loi Q ,
lestimateur construit par cette mthode sera la moyenne empirique :
1 n
Xn = Xi .
n i=1
Par ailleurs, si reprsente la variance de la loi Q , lestimateur sera la variance
empirique :
1 n
2
2
= (Xi Xn ) .
n i=1
Dautres procds de construction destimateurs sont envisageables, en fonction
1.6. CONSTRUCTION DES ESTIMATEURS
15
du modle statistique tudi.

Exemples
1. Dans le modle (Rn+ , {E ( )n } >0 ), le paramtre reprsente linverse
de la moyenne de la loi E ( ). Un estimateur naturel de , construit avec
lchantillon (X1 , , Xn ) de la loi E ( )n est donc
1
= .
Xn
2. Dans le modle (Rn+ , {U ([0, ])n } >0 ), reprsente le maximum des
valeurs prises par une ralisation de la loi U ([0, ]). Lestimateur naturel
construit avec lchantillon (X1 , , Xn ) de la loi U ([0, ])n est donc
= max Xi .
1in
Un autre estimateur, construit cette fois avec la mesure empirique est, par
exemple,
1
= Xn .
2
16
Chapitre 2
Principes de linfrence statistique
On sintresse ici des critres de performance des estimateurs, posant ainsi les
bases de linfrence statistique.
Le modle statistique considr est (H n , {P } ), avec H Rk et Rd .
Rappelons que, pour simplifier les critures, on suppose que le paramtre dintrt, i.e. le paramtre que lon souhaite estimer avec les observations, est . Dans
ce qui suit, toutes les dfinitions et les rsultats gnraux stendent au cas o le
paramtre dintrt est une fonction g( ) de .
On dsignera par E la moyenne sous la loi P : sous la proprit dintgrabilit adquate,
E g(.) = E g(X1 , , Xn ) =
Z
Hn
g(x)P (dx),
pour g : H n R et (X1 , , Xn ) un chantillon de loi P .
2.1
Critres de performance en moyenne
La premire proprit que lon puisse exiger dun estimateur est quil se comporte en moyenne comme son paramtre cible. Cest le concept de biais, dcrit
ci-dessous.
Dornavant, on dira quune statistique est dordre p si L p (P ) pour
chaque .
17
18
CHAPITRE 2. PRINCIPES DE LINFRENCE STATISTIQUE
Dfinitions Soit un estimateur dordre 1.

1. Le biais de en est E ;
2. est sans biais lorsque son biais est nul en chaque .
3. est asymptotiquement sans biais si pour chaque , limn E = .
Pour revenir lexemple de la section 1.1, lorsque (X1 , , Xn ) est un chantillon de la loi B(p)n , les 2 estimateurs X1 et Xn sont sans biais.
L2
La proximit entre lestimateur et sa cible peut tre value grce la distance

entre les 2 quantits. Dans ce qui suit, k.k dsigne la norme euclidienne de Rd .
Dfinitions Soit un estimateur dordre 2.

1. Le risque quadratique de sous P est
R( ; ) = E k k2 .
2. Soit 0 un autre estimateur dordre 2. On dit que est prfrable 0
lorsque pour chaque , R( ; ) R( ; 0 ).
3. Supposons que est sans biais. On dit que est de variance uniformment
minimum parmi les estimateurs sans biais (VUMSB) si il est prfrable
tout autre estimateur sans biais dordre 2.
Lexistence dun estimateur VUMSB nest en gnral pas acquise. Nous reviendrons sur ce problme dans la partie 4.3.
Dans la section 1.1, on a remarqu que lorsque (X1 , , Xn ) est un chantillon
de la loi B(p)n , R(p; Xn ) = p(1 p)/n. Ainsi, mesure que lon acquiert de
linformation en multipliant les expriences alatoires, lestimateur Xn gagne en
prcision. Ce nest pas le cas pour lestimateur X1 , dont le risque quadratique vaut
R(p; X1 ) = p(1 p). Comme on pouvait sy attendre, Xn est donc prfrable
X1 . En fait, Xn est VUMSB. Pour le montrer, considrons un estimateur sans biais
1 , , Xn ), et notons :
quelconque := (X
L(p; X1 , , Xn ) = pnXn (1 p)nnXn , et

K(p) = ln L(p; X1 , , Xn ).
On remarque dans un premier temps que :

1
1
0
nXn
(n nXn ) = 0.
E p K (p) = E p
p
1 p
2.1. CRITRES DE PERFORMANCE EN MOYENNE
19
Par suite, si var p et cov p dsignent la variance et la covariance sous la loi B(p)n :
K 0 (p)) = E p K
0 (p) =
cov p (,
1 , in )L0 (p; i1 , , in )
(i
i1 , ,in {0,1}
d
E p = 1,
dp
car est sans biais. Comme, daprs lingalit de Cauchy-Schwarz,

2
0
K 0 (p)) var p ()var
cov p (,
p (K (p)),
on a donc

var p ()
1
.
var p (K 0 (p))
Or,

var p (K (p)) = var p

=

1
1
n2
nXn +
nXn = 2
var p (Xn )
p
1 p
p (1 p)2
n
1
= (R(p; Xn )) .
p(1 p)
(2.1.1)
On a donc obtenu
= var p ()
R(p; Xn ),
R(p; )
cest--dire que Xn est VUMSB. Cette preuve, qui peut sembler ici miraculeuse,
sera formalise dans les sections 3.3 et 4.1.
Exercice [C AS O LE PARAMTRE D INTRT EST UNE FONCTION DE ] Soit
le modle statistique (Rn , {Qn
} ) tel que pour chaque , Q admet un
moment dordre 2. Pour un chantillon (X1 , , Xn ) de loi Qn
, on note :
1 n
1 n
2
Xn = Xi , et Sn2 =
(Xi Xn) .
n i=1
n 1 i=1
Montrer que Xn et Sn2 sont des estimateurs sans biais de la moyenne et de la variance de la loi Q , respectivement.
On note dornavant, pour deux vecteurs alatoires X,Y de carrs intgrables
et valeurs dans Rd :
K (X,Y ) = E (X E X)T (Y E Y ) = E X T Y E X T E Y et
V (X) = K (X, X) = E kX E Xk2 .
20
Noter que K (X,Y ) = K (Y, X). Par ailleurs, K et V ne reprsentent pas la covariance et la variance sous la loi P (respectivement notes cov et var ), sauf
lorsque d = 1.
Proposition [D COMPOSITION B IAIS -VARIANCE ] Soit un estimateur dordre
2. On a alors la dcomposition :
R( ; ) = kE k2 +V ( ).
Pour un risque donn, abaisser le biais revient donc augmenter la variation,

et rciproquement.
Preuve On a :
R( ; ) = E k( E ) + (E )k2
= E k E k2 + kE k2 + 2E ( E )T (E ).
Le rsultat en dcoule, car E ( E ) = 0 et V ( ) = E k E k2 .
Proposition Soit un estimateur dordre 2. Alors, est VUMSB si, et seulement
si, pour tout estimateur dordre 2 tel que E = 0 pour chaque , on a :
) = 0,
K (,
Preuve Pour toute la preuve, fixons . Supposons que est VUMSB. Soit
une statistique dordre 2 telle que E = 0. Pour tout R, lestimateur =
+ est sans biais. Comme est sans biais et VUMSB, on a alors :
+ 2V ().
V ( ) = R( ; ) R( ; ) = V ( ) = V ( ) + 2K ( , )
Par suite, on a pour tout R :
+ 2V ()
0.
2K ( , )
= 0.
Ce polynme en ne peut garder un signe positif que si K ( , )
2.2. CRITRES DE PERFORMANCE ASYMPTOTIQUE
21
Rciproquement, tout estimateur sans biais tel que L2 (P ) scrit =

o = est une statistique telle que E = 0 et L2 (P ). Par
,
= 0 et la statistique vrifie donc :
hypothse, on a alors K ( , )
= V ( )
= V ( ) +V ()
2K ( , )
R( ; )
V ( ) = R( ; ),
= V ( ) +V ()
ce qui montre que est VUMSB.
Thorme Soient et 0 des estimateurs VUMSB. Alors, pour chaque ,
= 0 P -p.s.
Preuve Fixons . Comme la statistique = 0 vrifie les hypothses du
thorme prcdent, on a :
V ( 0 ) = E ( 0 )T ( 0 )
= E ( 0 )T ( ) E ( 0 )T (0 )
= K ( 0 , ) K ( 0 , 0 ) = 0,
ce qui montre que = 0 P -p.s., car et 0 sont sans biais.
2.2
Critres de performance asymptotique
A mesure que la taille n de lchantillon crot, lchantillon contient de plus en

plus dinformations sur la vraie valeur du paramtre. On est alors amen sintresser aux proprits asymptotiques des estimateurs. Dans la suite, sauf mention
explicite du contraire, toute proprit de convergence sera entendue pour une taille
dchantillon n qui tend vers linfini.
Dfinition On dit que lestimateur est consistant lorsque pour chaque ,
P

.
Dans lexemple de la section 1.1, lestimateur Xn construit avec un chantillon
B(p)n
(X1 , , Xn ) de loi B(p)n est consistant, car Xn p pour chaque p ]0, 1[.
Remarque Un estimateur peut tre asymptotiquement sans biais sans tre consistant. De mme, un estimateur peut tre consistant sans tre asymptotiquement
22
sans biais. Pour se convaincre du second point par exemple, considrons le modle statistique (Rn , {N(m, 1)n }m]0,1[ ), et lestimateur m issu de lchantillon
(X1 , , Xn ) de la loi N(m, 1)n , pour m ]0, 1[ :
m = Xn +
1
1
,
F( n) {Xn 0}
o F dsigne la fonction de rpartition de la loi N(0, 1). Comme m > 0, la loi

P
m
faible des grands nombres montre que m
m, si Pm = N(m, 1)n . Par ailleurs,
comme Xn N(m, 1/n) :
1
Pm (Xn 0) =
2
Z mn
et
2 /2
dt F( n),
car m 1. Donc Em m m + 1, et m nest pas asymptotiquement sans biais.

Exercice [C AS O LE PARAMTRE D INTRT EST UNE FONCTION DE ] Soit
le modle statistique (Rn , {Qn
} ) tel que pour chaque , Q admet un
moment dordre 2. Pour un chantillon (X1 , , Xn ) de loi Qn
, on note :
n2 =
1 n
2
(Xi Xn ) .
n i=1
Montrer que n2 est un estimateur biais de la variance de Q , mais quil est

asymptotiquement sans biais et consistant.
Cette proprit ne doit tre vue que comme une proprit minimale que doit
satisfaire un estimateur raisonnablement constitu. Cependant, elle ne permet pas
de prciser lerreur commise. Cest prcismment lobjet de la dfinition qui suit.
Dfinitions Soit (vn )n une suite de rels positifs telle que vn . On dit que
lestimateur est :
1. de vitesse (vn )n si, pour chaque , il existe une loi `( ) telle que
L /P
vn ( ) `( ).
2. asymptotiquement normal si, en outre, les lois `( ) sont gaussiennes.
La performance dun estimateur est notamment value sur sa vitesse car, pour
une prcision donne, plus la vitesse est rapide, moins la taille de lchantillon
2.3. INTERVALLES DE CONFIANCE
23
doit tre importante. Nanmoins, il ne faut pas oublier quun estimateur performant doit aussi pouvoir tre calcul via un algorithme de complexit raisonnable.
Comme, en principe, ces 2 contraintes sopposent, il est important de savoir raliser un compromis entre ces exigences.
Remarque Un estimateur qui possde la proprit 1. de la dfinition ci-dessus est
consistant. En effet, fixons . On suppose pour simplifier que (vn )n est croissante, et que `( ) est une loi sans atomes (sinon, il suffit de travailler sur lensemble des points de continuit de la fonction de rpartition de la loi de k`( )k ;
toutes fins utiles, rappelons que lensemble des points de discontinuit dune v.a.r.
est au plus dnombrable). Pour chaque > 0, on a
P (k k ) P (vn k k v p ),
pour tout p n. On en dduit que pour tout p,
lim sup P (k k ) P (k`( )k v p ).
n
P
En faisant finalement tendre p vers +, on peut conclure que
.
Dans lexemple de la section 1.1, on a vu que lestimateur Xn construit avec un

chantillon (X1 , , Xn ) de loi B(p)n est asymptotiquement normal, de vitesse
n, car pour chaque p [0, 1],
L /B(p)n
n (Xn p) N(0, p(1 p)).
Exercice Soit le modle statistique (Rn , {U ([ , + 1])n } [0,1] ). Construire et
tudier des estimateurs du paramtre , en utilisant les statistiques minin Xi ,
maxin Xi et Xn issues dun chantillon (X1 , , Xn ) de la loi U ([ , + 1])n .
2.3
Intervalles de confiance
Nous avons dj vu, dans la section 1.1, un exemple de construction dintervalle de

confiance. Lobjectif de cette section est den rappeler le principe, sans toutefois
rentrer dans un formalisme excessif, qui pourrait tre prjudiciable la comprhension de la dmarche.
Dans cette section, le modle statistique est (H n , {P } ), avec R.
Lobservation (x1 , , xn ) H n est issue dune loi P0 , avec 0 inconnu.
24
2.3.1
Intervalle de confiance pour une taille dchantillon finie
On fixe ]0, 1[.

Dfinition Soit Tn une fonction dfinie sur H n et valeurs dans les intervalles de
R telle que pour chaque :
P ( Tn (.)) = (resp. ) 1 .
Tn (x1 , , xn ) sappelle intervalle de confiance (resp. par excs) pour 0 , au niveau de confiance 1 .
Ainsi, 0 Tn (x1 , , xn ) avec une P0 -probabilit (resp. au moins) 1 . On
peut remarquer demble quun intervalle de confiance est dautant plus intressant quil est de longueur faible, pour un niveau de confiance lev. Comme ces 2
exigences sopposent, il est impratif de raliser un compromis.
Exemple Considrons le cas dun modle statistique {P } = {Qn
} pour
R
R
lequel H x2 Q (dx) 1 et = H xQ (dx) pour tout . Soit (X1 , , Xn ) un
chantillon de la loi Qn
. Daprs lingalit de Bienaym-Tchebytchev :
var (Xn ) var (X1 )
1
P (|Xn | > t)
=
2 , t > 0.
2
2
t
nt
nt
Si t vrifie (nt 2 )1 , on a donc
P (|Xn | > t) .
Pour un tel t, [xn t, xn + t] est donc un intervalle de confiance par excs pour 0 ,
au niveau de confiance 1 . On peut trouver des intervalles de confiance plus
prcis en utilisant, au lieu de lingalit de Bienaym-Tchebytchev, une ingalit
exponentielle (ingalit de Bernstein, ingalit de Hoeffding, ...), forcment plus
prcise.
Souvent, lun des ingrdients de base pour construire un intervalle de confiance
est le quantile dune loi sur R.
Dfinition-Proposition Soit F la fonction de rpartition dune loi sur R. Le
quantile dordre r ]0, 1[ de la loi est dfini par
qr = inf{x R : F(x) r}.
25
Si F est continue, F(qr ) = r. Si, de plus, F est strictement croissante, alors qr est
lunique solution de lquation F(.) = r.
Preuve Il suffit de remarquer que, comme F est croissante et continue droite,
F(q
r ) r F(qr ), si F(qr ) est la limite gauche de F en qr .
Exemple Considrons le modle statistique {N(m,
1)n }mR . Pour (X1 , , Xn )
un chantillon de la loi Pm = N(m, 1)n , on a n(Xn m) N(0, 1). Soit t0 le

quantile dordre 1 /2 de la loi N(0, 1) : si est la fonction de rpartition de
la loi N(0, 1), on sait que (t0 ) = 1 /2. Comme la loi N(0, 1) possde une
densit paire :
Pm n |Xn m| t0 = 2(t0 ) 1 = 1 .
Si
les observations x1 , , xn sont rgies par la loi N(m0 , 1), [xn t0 / n, xn +
t0 / n] est un intervalle de confiance pour m0 , au niveau 1 .
Si lobtention dune telle proprit est hors datteinte, ou si Tn est trop complexe pour pouvoir tre utilis, on se retranche sur une proprit asymptotique.
2.3.2
Intervalle de confiance asymptotique
Soit ]0, 1[.

Dfinition Soit, pour chaque n, Tn une fonction dfinie sur H n et valeurs dans
les intervalles de R telle que pour chaque :
P ( Tn (.)) 1 .
Tn (x1 , xn ) sappelle intervalle de confiance asymptotique pour 0 au niveau de
confiance 1 .
Exemple Supposons par exemple que est un estimateur asymptotiquement normal, de vitesse (vn )n : pour chaque ,
L /P
vn ( ) N(0, 1).
(2.3.1)
Notons q1/2 et q/2 les quantiles dordre 1 /2 et /2 de la loi N(0, 1). Par
symtrie de la loi N(0, 1), q1/2 = q/2 . Si q = q1/2 > 0, alors :

P q vn ( ) q 1 .
26
Lintervalle de confiance asymptotique au niveau 1 est donc :

q
q
(x1 , , xn ) ; (x1 , , xn ) +
.
vn
vn
Pour la construction des intervalles de confiance asymptotiques, le lemme de

Slutsky (au programme du L3) est souvent utile.
Lemme [S LUTSKY ] Soient (Xn )n et (Yn )n des suites de v.a.r. sur ( , F , P). Si il
L /P
L /P
existe une v.a.r. Y et un rel a tels que Xn a et Yn Y , alors (Xn ,Yn )

L /P
L /P
(X,Y ). En particulier, XnYn aY et Xn +Yn a +Y .

Exemple Supposons nouveau que est un estimateur asymptotiquement normal, de vitesse (vn )n : pour chaque , il existe 2 > 0 tel que
L /P
vn ( ) N(0, 2 ).
(2.3.2)
Soit un estimateur consistant de . On a recours au lemme de Slutsky pour en

dduire de (2.3.2) que pour chaque :
vn
L /P
N(0, 1).
Par suite, avec les notations de lexemple prcdent :

!

q 1 ,
P q vn
ou bien, avec une criture quivalente :

q
P
; +
1 .
vn
vn
Comme les quantits et qui interviennent dans cet intervalle peuvent tre calcules pour les observations x1 , , xn , cette proprit nous donne lintervalle de
confiance asymptotique recherch.
27
La -mthode est aussi souvent utilise pour la construction dintervalle de confiance

asymptotiques.
Lemme [ - MTHODE ] Soit (Xn )n une suite de v.a.r. sur ( , F , P), g : R R
une fonction continment drivable en x0 et (vn )n une suite de rels tendant vers
L /P
L /P
+. Si vn (Xn x0 ) X, alors vn (g(Xn ) g(x0 )) g0 (x0 )X.

Preuve Daprs la formule de Taylor-Lagrange, il existe n compris entre x0 et Xn
tel que
g(Xn ) = g(x0 ) + (Xn x0 )g0 (n ).
Comme g0 est continue en x0 et (Xn )n converge en probabilit vers x0 , on a donc
L /P
vn (g(Xn ) g(x0 )) = vn (Xn x0 )g0 (n ) g0 (x0 )X,

daprs le lemme de Slutsky.
Exemple Supposons que lon veuille construire un intervalle de confiance asymptotique au niveau 1 pour le paramtre , dans le modle {E ( )n } >0 . Soit
(X1 , , Xn ) un chantillon de la loi E ( )n . Daprs le thorme de la limite
centrale :

1
L /E ( )n
N(0, 1/ 2 ).
n Xn
On a recours la -mthode pour en dduire que

1
1
L /E ( )n 1
n
N(0, 1/ 2 ) = 3 N(0, 1).

2
Xn
Finalement, en utilisant lestimateur consistant 1/Xn , le lemme de Slutsky nous
donne

1
L /E ( )n
3
n
Xn
N(0, 1).
Xn
Lintervalle de confiance asymptotique sen dduit facilement.
28
Chapitre 3
Vraisemblance
La mthode de construction des estimateurs par maximisation de la vraisemblance
est sans doute la plus rpandue. Le principe de la construction est intuitivement
vident : il sagit de choisir comme estimateur le paramtre pour lequel lobservation est la plus probable, ou la plus vraisemblable ...
Dans tout le chapitre, lespace des observations individuelles est H Rk , et
lespace des paramtres est Rd .
3.1
Le concept de vraisemblance
Dfinition On appelle vraisemblance du modle statistique (H n , {P } ) domin par toute application L : H n R+ telle que, pour chaque ,
lapplication partielle L(.; ) : H n R+ soit un lment de la classe dquivalence de la densit de P par rapport .
Remarque La vraisemblance, dont lexistence est acquise grce au thorme de
Radon-Nikodym, dpend donc du choix de la mesure dominante du modle, qui
nest pas unique. De plus, en raison du fait que que chaque densit dP /d nest
unique qu une quivalence prs, une vraisemblance elle-mme nest pas unique.
Malgr cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,
le choix dune vraisemblance simpose souvent par ses proprits analytiques.
Exemples
1. Dans le modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la section 1.1, qui
29
30
CHAPITRE 3. VRAISEMBLANCE
est domin par la mesure (0 + 1 )n , la vraisemblance L sexprime par :
n
L(x1 , , xn ; p) = B(p)n ({x1 , , xn }) = pi=1 xi (1 p)ni=1 xi ,

pour p ]0, 1[ et x1 , , xn {0, 1}.
2. Dans le modle (Rn , {N(m, 2 )n }mR, R?+ ), qui est domin par la mesure de Lebesgue sur Rn , la vraisemblance est :

ni=1 (xi m)2
1
2
exp
,
L(x1 , , xn ; m, ) =
2 2
( 2 2 )n
pour xi R, m R et R?+ .
Dans le cadre de modles statistiques issus dobservations indpendantes, lexpression naturelle de la vraisemblance est simple, comme le montre la proposition
ci-dessous.
Proposition Soit (H , {Q } ) un modle statistique domin par la mesure ,
et de vraisemblance L. Alors, la fonction
Ln : H n R
n
(x1 , , xn , ) 7 L(xi ; ),
i=1
n
est la vraisemblance du modle (H n , {Qn
} ) pour la mesure dominante .
Preuve Il suffit de remarquer que, pour chaque ,

n
L(xi; ),
i=1
n
est une version de la densit de Qn
par rapport .
Reprenons lexemple de la section 1.1. Les lancers de la pice ont fourni

une suite dobservations x1 , , xn {0, 1}. Il est naturel de considrer que la
loi B(p0 ) qui rgit ces observations est la loi qui apporte la plus forte probabilit cette ralisation. Cest ainsi que, pour donner une valeur approche de
la vraie valeur du paramtre, on est amen maximiser en p la vraisemblance
L(x1 , , xn ; p) : lide sous-jacente est que la valeur de p obtenue est celle qui
3.2. CONSISTANCE DE LEMV
31
sajuste le mieux aux observations. Cest cette observation qui motive le concept
de maximum de vraisemblance.
Dfinition Soit (H n , {P } ) un modle statistique domin, et L la vraisemblance associe. Un estimateur du maximum de vraisemblance (EMV) est une
statistique g valeurs dans qui vrifie :
L(x; g(x)) = sup L(x; ), x H n .

Ainsi, si (X1 , , Xn ) est un chantillon de la loi P , lEMV (de ) est g(X1 , , Xn ).

Bien entendu, ni lexistence, ni lunicit des EMV ne sont en gnral pas acquises.
Dans le modle statistique issu dobservations indpendantes de la proposition
prcdente, on prfre calculer lEMV en maximisant la "log-vraisemblance" cest--dire le logarithme de la vraisemblance- plutt que la vraisemblance, car
celle-ci sexprime comme :
n
ln Ln (x1 , , xn ; ) = ln L(xi ; ).
i=1
Lintrt pratique est clair, ltape de maximisation tant en principe plus facile
mener.
Exemple LEMV du modle statistique (Rn , {N(m, 1)n }mR ) est la moyenne
empirique.
3.2
Consistance de lEMV
Lun des outils de base pour ltude des EMV est dcrit ci-dessous :
Dfinition-Proposition Soit (H n , {P } ) un modle statistique identifiable
et domin par , de vraisemblance L. Pour chaque , , on suppose que
ln L(.; ) L1 (P ). On note :
K(, ) = E ln
L(.; )
L(.; )
32
linformation de Kullback entre les lois P et P . Alors, K(, ) 0 et de plus

K(, ) = 0 = .
Preuve Tout dabord, il est clair que K( , ) = 0. Soient donc 6= . Comme la
fonction t 7 lnt dfinie sur R?+ est convexe, on a avec lingalit de Jensen :
L(.; )
dP
L(.; )
H
Z
Z
L(.; )
ln
dP = ln
L(.; )d = 0.
H n L(.; )
Hn
K(, ) =
ln
Supposons que K(, ) = 0. On est alors dans un cas dgalit dans lingalit
de Jensen. Comme t 7 lnt dfinie sur R?+ est strictement convexe, on en dduit quil existe C R+ tel que L(.; ) = CL(.; ) P -p.s. Or, P est absolument
continue par rapport P , de densit L(.; )/L(.; ). Par suite, pour tout borlien
A H n,
Z
Z
L(.; )
dP = CP (A).
P (A) = L(.; )d =
A
A L(.; )
On en dduit tout dabord que C = 1 (prendre A = H n ), puis que P = P , ce qui
contredit lidentifiabilit du modle.
Cette proprit de linformation de Kullback permet didentifier le paramtre
inconnu en tant que seule solution de lquation K(., ) = 0. Cest en ce sens
que linformation de Kullback donne des informations sur le modle.
A priori, il ny a pas de raison pour quun EMV soit consistant, comme en
atteste lexemple suivant :
Exemple Soit (Rn , {C ( )n } >0 ) un modle statistique, o C ( ) dsigne la loi
sur R, de densit
1
, x R.
2
+ x2
Notons (X1 , , Xn ) un chantillon de la loi C ( )n , avec > 0. Un simple calcul
nous montre que lEMV est la seule solution de lquation n (.) = 1/2, o lon
a not
1 n
1
n () =
, > 0.
n i=1 1 + (Xi /)2
3.2. CONSISTANCE DE LEMV
33
Par ailleurs, on vrifie facilement que pour tous 1 , 2 > 0 :

|n (1 ) n (2 )| |12 22 |
1 n
1
.
2
n i=1 1 + Xi2
Par labsurde, supposons que est consistant. La loi des grands nombres et cette
ingalit nous montrent que
C ( )
n ( ) E
n
1
1 + (X/ )2
pour chaque > 0. Par suite,

E
1
1
, > 0,
=
1 + (X/ )2 2
ce qui est impossible car le terme de gauche tend vers 1 lorsque .

Il est donc ncessaire de donner des conditions suffisantes de consistance des
EMV.
Thorme Soit (H , {Q } ) un modle statistique identifiable et domin, de
vraisemblance L. On suppose que est compact, et que :
(i) x H , ln L(x; .) est continu sur ;
(ii) , il existe H L1 (Q ) telle que sup | ln L(.; )| H.
On note lEMV de associ la vraisemblance
n
Ln (x1 , , xn ; ) = L(xi ; )
i=1
du modle (H n , {Qn
} ). Alors, est consistant.
Preuve On fixe et on note P = Qn
. Soit (X1 , , Xn ) un chantillon de la
loi P et, pour chaque :
1 n
1
Un () = ln Ln (X1 , , Xn ; ) = ln L(Xi ; )
n
n i=1
U() = E ln L(.; ).
Remarquons que Un ( ) = inf Un et, par hypothse, que U est continue. Daprs
P
la loi des grands nombres, Un

U ponctuellement ; nous allons tout dabord
34
montrer que cette convergence est en fait uniforme. Pour tout > 0, on dsigne
par g(., ) la fonction dfinie pour chaque x H n par
g(x, ) =
| ln L(x; ) ln L(x; )|.
sup
k k
On fixe maintenant > 0. Comme g(., ) 2H avec H L1 (P ) et g(x, ) 0 si

0 pour tout x H n , on a E g(., ) < /3 daprs le thorme de Lebesgue,
pour une certaine valeur de que nous fixons dornavant. On recouvre le compact
par N boules fermes de de rayon :
=
N
[
B( j , ).
j=1
On a dans un premier temps :

sup |Un U|
max
sup |Un Un ( j )| + max |Un ( j ) U( j )|
j=1, ,N B( ,)
j
j=1, ,N
sup |U( j ) U|
+ max
j=1, ,N B( ,)
j
n
1
max |Un ( j ) U( j )| + E g(., ).
g(Xi, ) + j=1,
,N
n i=1
On en dduit dans un second temps que, puisque E g(., ) < /3 :

!

1 n
P sup |Un U|
P
max |Un ( j ) U( j )| 2/3
g(Xi, ) + j=1,
,N
n i=1

P
max |Un ( j ) U( j )| /3
j=1, ,N
!
1 n
+P
g(Xi, ) /3 .
n i=1
Or, daprs la la loi des grands nombres, on a la fois :
P
max |Un ( j ) U( j )|
0 et
j=1, ,N
1 n
P
g(Xi , )
E g(., ) < /3.
n i=1
P
Ces observations nous permettent de dduire que sup |Un U|

0. En particulier,
P
Un ( ) = inf Un
inf U.
(3.2.1)
3.3. INFORMATION DE FISHER
35
Comme est compact et U est continue, il existe t tel que U(t) = inf U.
Par suite :
P
Un ( ) Un ( )
U(t) U( ) = K(t, ).
De plus,
Un ( ) Un ( ) = inf Un Un ( ) 0.
On a donc K(t, ) 0, ce qui montre que K(t, ) = 0 do t = . Daprs (3.2.1),

P
Un ( )
U( ) et, puisque Un converge uniformment vers U en probabilit, on
en dduit que
P
K( , ) = U( ) U( )
0.
Soit > 0. Il existe > 0 tel que si vrifie k k , alors K(, ) .
Par consquent,

P k k P K( , ) 0,
donc tend vers en probabilit.
3.3
Information de Fisher
Dans le cadre dun modle statistique (H n , {P } ) de vraisemblance L telle

que pour chaque x H n , ln L(x; .) C 1 , la fonction score au point dfinie par
x 7 ln L(x; ),
et dans laquelle dsigne le gradient par rapport , value la variabilit du modle. Cest une notion intrinsque au modle, en ce sens quelle ne dpend ni de
la mesure dominante, ni de la vraisemblance. Cest ce qui justifie la dfinition qui
suit.
Par convention, ds que lon parle de gradient (resp. hessienne), il est sousentendu que la fonction est de classe C 1 (resp. C 2 ).
Dfinition Soit (H n , {P } ) un modle statistique domin de vraisemblance
L. On suppose que est ouvert, et que pour chaque : ln L(.; ) L2 (P ).
36
On appelle information de Fisher la fonction

.
I : 7 var ( ln L(.; )) = cov
ln L(.; ),
ln L(.; )
i
j
i, j=1, ,d
Lorsque nous parlerons dinformation de Fisher, il sera sous-entendu que les
hypothses imposes dans cette dfinition seront satisfaites.
Linformation de Fisher est donc une fonction valeurs dans lensemble des
matrices semi-dfinies positives qui value le pouvoir de discrimination du modle entre 2 valeurs proches du paramtre dintrt. En effet, on voit directement
dans le cas d = 1 que I( ) grand traduit une grande variation de la nature des
probabilits du modle au voisinage de P , do une discrimination de la vraie
valeur du paramtre inconnu facilite. A linverse, si I( ) est petit, la loi est trs
pique : cest mauvais, car on est amen rechercher le maximum de la vraisemblance dans une rgion trs vaste. Ce sont ces proprits de I( ) qui fournissent
une information sur le modle.
Pour illustrer ces affirmations, reprenons le modle de la section 1.1, pour
lequel la vraisemblance vaut, si p ]0, 1[ et x1 , , xn {0, 1} :
n
L(x1 , , xn ; p) = pi=1 xi (1 p)ni=1 xi .

On a dj vu dans la relation (2.1.1) que :
I(p) = var p ( ln L(.; p)) =
n
.
p(1 p)
Dans ce modle, lincertitude est faible pour p proche de 0 et 1 alors quelle est
grande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pour
p proche de 0 et 1, et minimale pour p = 1/2.
Dans une situation dchantillonage i.i.d., linformation de Fisher est proportionnelle la taille de lchantillon. Cette proprit, que nous montrons cidessous, lgitime encore plus ce concept en tant que mesure dune quantit dinformation.
Proposition Soit (H , {Q } ) un modle statistique domin dinformation de
Fisher I. Alors, linformation de Fisher In du modle (H n , {Qn
} ) vaut In ( ) =
3.3. INFORMATION DE FISHER
37
nI( ) pour chaque .

Preuve Si L dsigne la vraisemblance du modle (H , {Q } ), la vraisemblance Ln du modle (H n , {Qn
} ) est :
n
Ln (x1 , , xn ; ) = L(xi ; ).
i=1
Le score de ce dernier modle est donc :

n
ln Ln (x1 , , xn ; ) = ln L(xi ; ).
i=1
Si (X1 , , Xn ) est un chantillon de la loi P = Qn

, on a alors par indpendance :
!
n
In ( ) = var
ln L(Xi; )
i=1
= var ( ln L(Xi ; )) = nI( ).

i=1

Du point de vue des calculs, on se rfrera souvent la proposition qui suit,
dont lobjectif principal est de donner une forme simplifie pour la matrice dinformation de Fisher. Dans la suite, 2 g( ) dsigne la matrice Hessienne de g :
R value en .
Proposition Soit (H n , {P } ) un modle statistique domin par , de vraisemblance L et dinformation de Fisher I. Soit . On suppose quil existe un
voisinage V de tel que supV kL(.; )k L1 (). Alors :
(i) E ln L(.; ) = 0.
(ii) si, en outre, supV k2 L(.; )k L1 (), on a I( ) = E 2 ln L(.; ).
Les conditions de cette proposition ne sont pas aussi restrictives quelle peuvent
le sembler, car elle sont satisfaites par bon nombre de modles statistiques. Comme
nous allons le voir, il sagit essentiellement de donner des conditions pour faire
passer lopration de drivation sous une intgrale.
Preuve On commence par remarquer que, sous la condition supV kL(.; )k
L1 (), on a daprs le thorme de Lebesgue :
Z
Hn
L(x; )(dx) =
Hn
L(x; )(dx) = 0.
38
Par suite,
Z
E ln L(.; ) =
Hn
( ln L(x; )) L(x; )(dx) =
Hn
L(x; )(dx) = 0,
do (i). Pour montrer (ii), on remarque dans un premier temps que daprs (i),

I( ) =
cov
ln L(.; ),
ln L(.; )
i
j
i, j=1, ,d

.
(3.3.1)
=
E
ln L(.; )
ln L(.; )
i
j
i, j=1, ,d
Soit alors i, j = 1, , d. Pour x H n , on a
2

2
L(x;
)
L(x;
)
L(x;
i j
i
j
ln L(x; ) =
.
i j
L(x; )
L2 (x; )
Il est bon de remarquer que chacune des expressions qui interviennent dans le
membre de droite est une fonction de x qui est dans L1 (P ) : cest clair pour le 1er
terme car 2 L(.; ) L1 () ; cest vrai aussi pour le 2nd membre sous la condition
dexistence de linformation de Fisher, i.e. ln L(.; ) L2 (P ). Le thorme de
Lebesgue montre que sous lhypothse supV k2 L(.; )k L1 (), on a :
2
2
L(x; )(dx) =
i j
H n i j
Z
Hn
L(x; )(dx) = 0.
Par suite,
2
E
ln L(.; ) =
i j

2
ln L(x; ) L(x; )(dx)
H n i j

Z
L(x; )
L(x; )
(dx)
=
j
L(x; )
H n i
= E
ln L(.; )
ln L(.; ).
i
j
Z
Daprs (3.3.1), cette dernire quantit coincide avec I( )i j , do (ii).

Cette proposition lgitime la dfinition qui suit.
Dfinition On dit que le modle statistique domin (H n , {P } ) domin et de
vraisemblance L est rgulier si pour chaque :
3.4. NORMALIT ASYMPTOTIQUE DE LEMV
39
(i) son information de Fisher en existe et est inversible ;

(ii) E ln L(.; ) = 0 et I( ) = E 2 ln L(.; ).
La proposition prcdente nous donne donc des conditions suffisantes de rgularit dun modle. A nouveau, il est entendu dans cette dfinition que les
conditions dexistence de linformation de Fisher sont satisfaites. De mme, on
nvoque lesprance dune v.a. que lorsque celle-ci existe.
3.4
Normalit asymptotique de lEMV
Thorme Soit (H , {Q } ) un modle domin rgulier, de vraisemblance L

et dinformation de Fisher I tel que, pour chaque , il existe un voisinage
V de avec supV k2 ln L(.; )k L1 (P ). On note lEMV de associ
la vraisemblance
n
Ln (x1 , , xn ; ) = L(xi ; )
i=1
n , {Qn }
).

du modle (H
normal, de vitesse
Si est consistant, alors il est asymptotiquement

n et de variance asymptotique I( )1 :
L /Qn
n N(0, I( )1 ), .
Remarque Si les conditions de rgularit du modle ne sont certainement pas
optimales pour garantir un tel rsultat, il nen reste pas moins quil est ncessaire dimposer une certaine rgularit. Considrons en effet le cas du modle
(Rn+ , {U ([0, ])n } >0 ). Sa vraisemblance Ln scrit pour > 0 :
n
si 0 x1 , , xn ;
Ln (x1 , , xn ; ) =
0
sinon.
LEMV calcul partir dun chantillon (X1 , , Xn ) de loi U ([0, ])n est donc
= max1in Xi . Calculons maintenant sa vitesse de convergence. En adoptant la
notation P = U ([0, ])n , on a pour chaque 0 < t < n :

t
P n t = 1 P max Xi <
1in
n

t n
= 1 1
.
n
40
Comme la limite est 1 exp(t/ ) ds que t > 0, on a donc montr que

L /P
n E (1/ ).
Ainsi, dans cet exemple de modle non rgulier, ni la vitesse de lEMV, ni la loi
limite, ne correspondent celles du thorme.
Preuve On fixe et on pose P = Qn
. Dans la suite, (X1 , , Xn ) est un
chantillon de loi P . Pour chaque , on note :
n
Ln () = ln Ln (X1 , , Xn ; ) = ln L(Xi ; ).
i=1
Comme maximise Ln , un dveloppement de Taylor avec reste intgral nous

donne :
Z 1

2
0 = Ln ( ) = Ln ( ) +
Ln + t( ) dt ( ).
(3.4.1)
0
Nous examinons sparment chacun des termes qui interviennent dans cette relation. Rappelons que, puisque le modle est rgulier,
E ln L(.; ) = 0.
Par ailleurs, var ( ln L(.; )) = I( ). Donc, daprs le thorme de la limite centrale :
1
1 n
L /P
Ln ( ) = ln L(Xi ; ) N(0, I( )).
(3.4.2)
n
n i=1
Montrons maintenant que :
1
n
Z 1
0

P
2 Ln + t( ) dt
I( )
Notons, pour chaque x H n et r > 0 :

(x, r) =
sup
k2 ln L(x; ) 2 ln L(x; )k.
k kr
Or, (., r) L1 (P ) pour r assez petit et de plus, ln L(x; .) C 2 pour chaque

x H n . Fixons > 0. Daprs le thorme de Lebesgue, il existe r > 0 tel que
E (., r) < /2. Par ailleurs, comme
1
n
Z 1
0
Z

1 n 1 2
Ln + t( ) dt =
ln L Xi ; + t( ) dt,
n i=1 0
2
3.4. NORMALIT ASYMPTOTIQUE DE LEMV
41
on obtient :

Z 1

1

2

P
Ln + t( ) dt + I( )
n 0

!

1 n Z 1

2 ln L Xi ; + t( ) 2 ln L(Xi ; ) dt
P
2
n i=1 0

!

1 n

+P 2 ln L(Xi ; ) + I( )
2
n i=1
!

1 n
P
(Xi , r)
+ P k k r
n i=1
2

!
1 n

+P 2 ln L(Xi ; ) + I( )
.
n i=1
2
Le passage la dernire ingalit a t obtenu par une intersection avec lvnement {k k < r}. Or, E (., r) < /2 et E 2 ln L(.; ) = I( ) car le
modle est rgulier. Comme est consistant, on a donc, daprs la loi des grands
nombres :
Z

1 1 2
P
Ln + t( ) dt
I( ).
n 0
En particulier, I( ) tant inversible,
Z1

1
2
P
Ln + t( ) dt inversible 1.
n 0
Or, sur ce dernier vnement, daprs (3.4.1) :
1
n( ) =
n
Z1
1

1
2
Ln + t( ) dt
Ln ( ).
n 0
En runissant toutes les pices, on en dduit de (3.4.2) que

L /P
n I( )1 N(0, I( )) = N(0, I( )1 ),
do le thorme.
42
Chapitre 4
Classification des statistiques
Comme dans tout domaine des mathmatiques, classer les objets en fonction de
proprits communes est un moyen efficace pour entreprendre leurs tudes.
4.1
Estimateurs efficaces
On suppose dans cette section que lespace des paramtres R est un ouvert,
que H Rk et que (H n , {P } ) est un modle statistique rgulier domin par
, de vraisemblance L et dinformation de Fisher I.
Dans la section 2.1, nous nous sommes intresss des bornes du risque quadratique, et donc de la variance, dans la famille des estimateurs sans biais. Nous
poursuivons ici dans cette tude. Avant tout, nous aurons besoin de la dfinition
suivante qui prendra tout son sens avec lingalit de Cramer-Rao.
Dfinition On dit que est un estimateur rgulier si il est dordre 2 et
Z
Hn
(.)L(.; )d =
Z
Hn
(.)L(.; )d.
Lintrt de cette dfinition rside dans la remarque suivante : sous les notations de cette dfinition, si lestimateur rgulier est sans biais, alors
Z
H
(.)L(.; )d = E (.) = 1.
Comme le montre le rsultat qui suit, le risque quadratique est uniformment

minor dans la famille des estimateurs rguliers et sans biais, nous donnant ainsi
43
44
CHAPITRE 4. CLASSIFICATION DES STATISTIQUES
une vitesse seuil quil serait illusoire de vouloir amliorer.

Thorme [C RAMER -R AO ] Pour tout estimateur rgulier et sans biais, on a :
R( , ) I( )1 , .
Le terme I( )1 sappelle borne de Cramer-Rao.
Preuve Soit . Lingalit de Cauchy-Schwarz nous donne :
2
cov , ln L(.; )
R( , ) = var ( )
.
var ( ln L(.; ))
(4.1.1)

Par dfinition de I( ), il suffit donc de montrer que cov , ln L(.; ) = 1.
Comme est rgulier et sans biais, on a
Z
Hn
(x)L(x; )(dx) = 1.
Par ailleurs, E ln L(.; ) = 0 car le modle est rgulier. En consquence :

L(x; )
P (dx)
(x)
L(x; )
Hn
Z

cov , ln L(.; ) =
Hn
(x)L(x; )(dx)
= 1,
do le thorme.
Reprenons lexemple du modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la
section 1.1. Nous avons montr dans la section 2.1 que lestimateur Xn construit
partir dun chantillon (X1 , , Xn ) de la loi B(p)n est VUMSB, ce qui sexprime par la proprit :
p(1 p)
var p ( ) = R(p; ) R(p; Xn ) = var p (Xn ) =
,
n
pour tout autre estimateur sans biais . Un simple calcul nous montre aussi que
linformation de Fisher de ce modle est prcisment
I(p) =
n
.
p(1 p)
4.1. ESTIMATEURS EFFICACES
45
Ainsi, la borne de lingalit de Cramer-Rao, communment appele borne de

Cramer-Rao, est atteinte. Cette remarque donne tout son sens la dfinition qui
suit :
Dfinition Un estimateur sans biais dordre 2 est dit uniformment efficace si il
atteint la borne de Cramer-Rao du modle.
Si tout estimateur uniformment efficace est VUMSB, la rciproque nest pas
vraie, et ces 2 notions ne sont donc pas les mmes. La proposition suivante nous
montre quil est possible de dcrire les estimateurs uniformment efficaces.
Proposition Soit un estimateur rgulier et sans biais. Alors, est uniformment
efficace si, et seulement si, il existe une fonction : R telle que
, = + ( ) ln L(.; ) P p.s.
Preuve Soit . Daprs (4.1.1), est uniformment efficace si et seulement
si
2
var ( )var ( ln L(.; )) = cov ( , ln L(.; ) .
On est donc dans un cas dgalit dans lingalit de Cauchy-Schwarz, ce qui
signifie quil existe ( ) tel que
E = ( ) ( ln L(.; ) E ln L(.; ))
P p.s.
Comme est sans biais et ln L(.; ) est P -centre, la proposition est prouve.
Bien sr, cette proposition est un "miroir aux alouettes", dans la mesure o
lestimateur uniformment efficace est alors dcrit via le paramtre inconnu . En
fait, lintrt dune telle reprsentation rside dans le fait que lon peut quelquefois en dduire quun estimateur est uniformment efficace. On peut ainsi facilement retrouver le fait que la moyenne empirique est lestimateur VUMSB dans le
modle statistique ({0, 1}n , {B(p)n } p]0,1[ ). Pour changer dexemple, considrons plutt le modle statistique (Rn , {N(m, 2 )n } >0 ), avec m R connu. Si
(X1 , , Xn ) est un chantillon de la loi N(m, 2 )n , lestimateur
1 n
2 = (Xi m)2
n i=1
46
est sans biais -car m est connu- et rgulier. Par ailleurs, la vraisemblance L scrit,
pour > 0 et x1 , , xn R :
!
n
1
1
exp 2 (xi m)2 .
L(x1 , , xn ; 2 ) =
n/2
2
2 i=1
(2 )
Par suite, sa log-vraisemblance vrifie :
n
1 n
2
ln L(x1 , , xn ; ) =
+ 4 (xi m)2
2
2
2
2 i=1
n
=
2 4
!
1 n
(xi m)2 2 .
n i=1
On en dduit de la proposition prcdente que 2 est uniformment efficace.
4.2
Statistiques exhaustives
Dans cette partie, le modle statistique tudi est (H n , {P } ), avec H Rk

et Rd .
Le principe dexhaustivit dune statistique est un principe de rduction des donnes, qui est bas sur la notion de loi conditionnelle. Dans la suite, LP (Z1 |Z2 )
dsigne la loi conditionnelle, sous P , de Z1 sachant Z2 .
Dfinition La statistique g est dite exhaustive si, pour chaque ,
LP (X1 , , Xn |g(X1 , , Xn ))
ne dpend pas de , o (X1 , , Xn ) est un chantillon de loi P .
En clair, lchantillon napporte pas plus dinformation sur la valeur du paramtre inconnu quune statistique exhaustive. Autrement dit, une statistique exhaustive limine toute linformation superflue dans lchantillon, en ne retenant
que la partie informative sur le paramtre inconnu.
Reprenons le cas du modle ({0, 1}n , {B(p)n } p]0,1[ ) introduit dans la section 1.1. Lordre dans lequel sont observs les tirages de "pile" ou "face" napporte aucune information supplmentaire sur le paramtre inconnu. Du coup, on
4.2. STATISTIQUES EXHAUSTIVES
47
peut rsumer la suite des observations x1 , , xn par leur somme x1 + + xn ,

ce qui indique que lestimateur Xn issu de lchantillon (X1 , , Xn ) de la loi
B(p)n est exhaustif. Faisons le calcul pour tayer cette intuition. Pour chaque
y1 , , yn {0, 1} et z {0, , n} tels que y1 + + yn = z :

n

B(p)
X1 = y1 , , Xn = yn

B(p)n X1 = y1 , , Xn = yn nXn = z =
B(p)n (nXn = z)
1
pz (1 p)nz
= z.
=
z z
nz
Cn p (1 p)
Cn
Sous B(p)n , la loi de (X1 , , Xn ) sachant nXn est donc la loi uniforme sur lensemble {y {0, 1}n : y1 + + yn = nXn }. Cette loi ne dpend pas du paramtre
p, donc Xn est une statistique exhaustive : toute linformation sur p contenue dans
lchantillon (X1 , , Xn ) est en fait contenue dans Xn .
Le thorme ci-dessous nous donne une caractrisation simple de lexhaustivit.
Thorme [N EYMAN -F ISHER ] Supposons que le modle (H n , {P } ) est domin par . Une statistique g valeurs dans Rq est exhaustive si, et seulement si,
il existe 2 applications borliennes : Rq R+ et : H n R+ telles que
la vraisemblance L pour scrit :
L(x; ) = (g(x), )(x), (x, ) H n .
Il est alors trs facile de montrer avec ce thorme quune statistique est exhaustive. Par exemple, la moyenne empirique est une statistique exhaustive dans le
modle (Rn , {N(m, 1)n }mR ), car la vraisemblance pour la mesure de Lebesgue
sur Rn vaut
!)
(

n
1
1
1
,
L(x; m) = exp n(xn m)2
exp (xi xn )2
2
2 i=1
(2)n/2
pour tout x = (x1 , , xn )T Rn et m R.
Preuve On a vu en dans la section 1.4 quil existe, dans le convexifi de {P } ,
une probabilit qui domine le modle statistique. Pour simplifier la preuve, on va
48
supposer que la mesure dominante est cette mesure, i.e.

= an Pn ,
n
avec (n )n et (an )n [0, 1] tel que n an = 1. Dans ce cadre, nous allons

montrer que g est exhaustive si, et seulement si
L(x; ) = (g(x), ) (x, ) H n ,
(4.2.1)
pour une fonction mesurable : Rq R+ . Au pralable, remarquons que

la loi P g1 de g est absolument continue par rapport g1 , et de densit
(., ) = E [L(.; ) | g = .], si E dsigne lesprance sous . En effet, on a pour
tout A B(Rq ) :
1
P g (A) = P (g A) =
Z
=
A
g1 (A)
L(.; )d =
g1 (A)
E [L(.; ) | g] d
E [L(.; ) | g = x] g1 (dx).
daprs le thorme de transfert et par dfinition de lesprance conditionnelle.

On suppose tout dabord que L se factorise comme dans (4.2.1). Soit .
Comme P g1 est la loi de g, il faut montrer que pour tout A B(Rq ) et tout
B B(H n ) :
Z
P ({g A} B) =
K(x, B)P g1 (dx),
avec K un noyau indpendant de . Pour tout A B(Rq ) et B B(H n ) :

P ({g A} B) =
=
=
=
Z
ZH
ZH
ZH
Rq
1B 1A g(.) (g(.), ) d
E [1B 1A g(.) (g(.), ) |g] d
(B |g) 1A g(.) (g(.), ) d
(B | g = x) 1A (x) (x, ) g1 (dx),
o on a not (B | g) = E [1B | g]. Pour la dernire chane dgalits, on a utilis

successivement la dfinition de lesprance conditionnelle et lune de ses proprits fondamentales (E [XY |G ] = XE [Y |G ] si X est G -mesurable, ds que XY et
4.2. STATISTIQUES EXHAUSTIVES
49
Y sont dans L1 ()), puis le thorme de transfert. Comme E [L(.; ) | g = .] =

(., ) est la densit de P g1 par rapport g1 , on a donc obtenu :
P ({g A} B) =
Z
ZA
=
A
(B |g = x) (x, ) g1 (dx)
(B |g = x) P g1 (dx)
Le noyau de transition K(x, B) = (B | g = x) associ la loi conditionnelle sous

P de lchantillon sachant g est indpendant de , cest--dire que g est une statistique exhaustive.
Supposons maintenant que g est exhaustive. Soit . Comme g est exhaustive, la loi conditionnelle P (. | g = .) est indpendante de ; notons-l P(. | g = .).
Alors, pour tout B B(H n ) et x Rq :
(B | g = x) = an Pn (B | g = x) = P(B | g = x),
n
i.e. les lois conditionnelles P(. | g = .) et (. | g = .) sont les mmes g1 -p.s.

Par suite, pour tous A B(Rq ) et B B(H n ) :
P ({g A} B) =
Z
ZA
P(B | g = x)P g1 (dx)

(B | g = x)(x, ) g1 (dx),
car (., ) = E [L(.; ) | g = .] est la densit de P g1 par rapport g1 . Par

ailleurs, on a aussi par dfinition de lesprance conditionnelle :
P ({g A} B) =
Z
g1 (A)
1B L(.; )d =
E [1B L(.; ) | g = x] g1 (dx).
Ces galits tant vraies pour tout A B(Rq ), on en dduit que g1 -p.s. :
E [1B (g(.), ) | g = .] = (B | g = .)(., ) = E [1B L(.; ) | g = .].
Par suite, on a -p.s. :
i
h

E 1B ((g(.), ) L(.; )) g = 0,
50
et donc, en particulier, pour tout B B(H n ) :

E [1B ((g(.), ) L(.; ))] = 0.
Ceci tant vrai pour tout B B(H n ), on a bien L(.; ) = (g(.), ) -p.s., do
la factorisation (4.2.1)
Une fois caractris par des moyens simples, on remarque -comme on pouvait
sy attendre- que le concept dexhaustivit permet damliorer un estimateur, en
terme de risque. Cest lobjet du thorme ci-dessous.
Thorme [R AO -B LACKWELL ] Soit g une statistique, et un estimateur dordre
2. Si g est exhaustive, alors la statistique E [ |g] est un estimateur prfrable
, et de mme biais que .
Preuve On fixe . Comme g est exhaustive, E [ |g], qui ne dpend pas de
Comme
, est donc un estimateur. Notons-le .
E = E E [ |g] = E ,
les 2 estimateurs ont mme biais. Par ailleurs,

2
+ ( E )
V ( ) = E ( )
2 +V ()
+ 2E
= E k k
T
,
( E )
o lon a utilis le fait que et ont mme biais. Or,

i
h

T
T
g = E |g
( E )
E ( E )
T ( E )
= ( )
= 0,
ce qui montre que
E
T
= E E
( E )
T
i
g = 0.
( E )
do, daprs la dcomposition Biais-Variance :

Donc, V ( ) V ()
= kE k2 +V ()
kE k2 +V ( ) = R( , ),
R( , )
4.3. STATISTIQUES COMPLTES
51
ce qui nous donne le rsultat.

Reprenons le cas du modle ({0, 1}n , {B(p)n } p]0,1[ ) introduit dans la section 1.1. Lorsque (X1 , , Xn ) est un chantillon de la loi Pp = B(p)n , on sait que
X1 est un estimateur sans biais, et que Xn lui est prfrable. Nous allons retrouver
ce rsultat en utilisant le thorme de Rao-Blackwell. On a dj montr que Xn
est une statistique exhaustive. Daprs le thorme de Rao-Blackwell, E p [X1 |Xn ]
est donc un estimateur prfrable X1 . Or, comme X1 , , Xn sont i.i.d., on a pour
tout j {1, , n} et A B(R) :
Z
{Xn A}
E p [X1 |Xn ]dPp =
Z
{Xn A}
{Xn A}
X1 dPp =
{Xn A}
X j dPp
E p [X j |Xn ]dPp .
Ceci tant vrai pour chaque A B(R), on en dduit de lunicit de lesprance

conditionnelle que E p [X1 |Xn ] = E p [X j |Xn ] Pp -p.s. Par suite :
1
E p [X1 |Xn ] =
n
E p[X j |Xn] = E p[Xn|Xn] = Xn, Pp p.s.
j=1
Lestimateur prfrable construit avec le thorme de Rao-Blackwell nest autre

que linvitable moyenne empirique !
4.3
Statistiques compltes
Dans cette partie, le modle statistique tudi est (H n , {P } ), avec H Rk

et Rd . Dans la suite, on note aussi :

L = f : H n R : f L1 (P )
Dfinition On dit quune statistique g valeurs dans Rq est complte si, pour
toute fonction : Rq R telle que g L :
E g(.) = 0, = g = 0 P p.s., .
De plus, lorsque g = Id, le modle statistique est dit complet.
52
Exemple Le modle binomial ({0, , `}, {B(`, )} ]0,1[ ) est complet. En effet,
soit une fonction numrique dintgrale nulle sous P = B(`, ), et ceci pour
chaque ]0, 1[. Alors,
`
0=
(k)C`k k (1 )`k
k=0
= (1 )
(k)C`k
k=0
k
.
Comme cette galit est valable pour tout ]0, 1[, il en rsulte que = 0 sur
{0, , `}, donc = 0 P -p.s., i.e. le modle binomial est complet.
Le concept prend tout son sens grce au rsultat suivant :
Thorme [L EHMANN -S CHEFF ] Soit un estimateur sans biais dordre 2. Si
g est une statistique exhaustive complte, alors la statistique E [ |g] est lunique
estimateur VUMSB.
Preuve Soit 0 un autre estimateur sans biais et tel que 0 L2 (P ) pour chaque
. On fixe , et on note
= E [ |g] et 0 = E [ 0 |g].
Par exhaustivit de g, et 0 sont des estimateurs. En outre, ils sont sans biais et
dans L2 (P ). Daprs le lemme de Doob, il existe une fonction borlienne telle
que 0 = g. Donc, comme et 0 sont sans biais :
0 = E ( 0 ) = E g,
ce qui montre que 0 = g = 0 P -p.s. car g est une statistique complte.
Pour finir, on remarque que daprs lingalit de Jensen pour les esprances
conditionnelles (applique la fonction convexe x 7 kxk2 ) :
R( ; ) = R( ; 0 ) = V ( 0 ) = E kE [ 0 |g] k2
E E [k 0 k2 |g] = V ( 0 ) = R( ; 0 ),
ce qui entrane que est VUMSB.
Ainsi, ds que lon dispose dune statistique complte, tout estimateur sans
biais, mme draisonnable, suffit pour dterminer lestimateur VUMSB. Pour
illustrer cette affirmation, reprenons le modle ({0, 1}n , {B(p)n } p]0,1[ ) de la
4.3. STATISTIQUES COMPLTES
53
section 1.1. Nous allons nouveau montrer, cette fois laide du thorme de
Lehmann-Scheff, que lestimateur Xn construit avec lchantillon (X1 , , Xn )
de la loi Pp = B(p)n est VUMSB. Comme X1 est un estimateur sans biais, que
Xn est une statistique exhaustive et que E p [X1 |Xn ] = Xn , il reste prouver que Xn
est une statistique complte. Sous Pp , la loi de nXn est B(n, p). Donc, pour chaque
fonction valeurs relles,

n
k
E p (Xn ) =
Cnk pk (1 p)nk .
n
k=0
Si E p (Xn ) = 0 pour chaque p ]0, 1[, on a alors (k/n) = 0 pour chaque k
{0, , n} et donc (Xn ) = 0 Pp -p.s. Par suite, Xn est une statistique complte.
54
Chapitre 5
Test statistique
Reprenons la problmatique de la section 1.1. Au niveau de confiance 95%, lintervalle de confiance obtenu pour la valeur de p0 (la probabilit que la pice tombe
sur pile) est [0.45, 0.59]. On nest donc pas en mesure de prciser si la pice est
ou non quilibre : un intervalle de confiance ne fournit pas, en gnral, une procdure de dcision.
Lobjet de ce chapitre est de construire une procdure de dcision, le test statistique. Il faut avoir lesprit que, outre le fait que cette procdure doit rendre
une dcision, elle doit aussi garder un contrle sur ses propres erreurs.
On considre dans ce chapitre un modle statistique (H n , {P } ). Il faut
noter que ni H , ni nest spcifi.
5.1
Problme de test
Pour une raison ou une autre, on est amen penser que la vraie valeur du paramtre , i.e. celle qui est issue de lobservation x1 , , xn , se trouve dans un sousensemble 0 de . On formule alors une hypothse, appele hypothse nulle, et
note H0 : 0 . Cependant, cette hypothse peut malgr tout tre fausse, et
on est amen introduire lhypothse alternative H1 : 1 , avec 1 0c . Un
problme de test est la confrontation de lhypothse nulle H0 contre lhypothse
alternative H1 .
A ce niveau, il convient de formuler 2 observations :
55
56
CHAPITRE 5. TEST STATISTIQUE

. 1 nest pas ncessairement gal 0c : ceci illustre le fait que, dans un
problme de test, il faut choisir une hypothse alternative qui, en cas de
rejet de H0 , prsente plus de pertinence que H0 ;
. dissymtrie entre H0 et H1 , car le test est construit partir de la prsomption que H0 est vraie. De mme que dans un procs aux assises, il y a prsomption dinnocence, dans un problme de test, il y a prsomption de H0 .
Comme dans un procs o il faut alors prouver avec certitude que le dtenu
est coupable pour le condamner, le corollaire de ce principe est quil faut
montrer que H0 est peu probable pour la rejeter. De ce point de vue, la dcision la plus convaincante est donc de rejeter H0 !
A linstar des estimateurs, toute procdure de dcision sur un problme de test

est labore partir dune observation (x1 , , xn ) H n . Un test peut alors tre
reprsent par une fonction de lobservation, qui vaut 0 lorsque celle-ci conduit
accepter H0 et qui vaut 1 dans le cas contraire.
Dfinition Un test pur est une statistique T valeurs dans {0, 1} : pour lobservation x H n , si T (x) = 0 alors H0 est accepte ; si T (x) = 1 alors H0 est rejete.
La zone de rejet (resp. dacceptation) du test est T 1 ({1}) (resp. T 1 ({0}).
Un test pur correspond donc une dcision binaire, qui ne correspond gnralement pas la complexit des situations envisages. Considrons en effet le cas
dun problme de test H0 : = 0 contre H1 : 6= 0 (i.e. 0 = {0} et 1 = R? ).
Pour une observation menant une valeur estime de non nulle, mais proche
de 0, doit-on pour autant considrer que H1 est vraie ? Pour assouplir la nature
du test, on est amen utiliser une statistique de test T prenant ses valeurs dans
lintervalle [0, 1].
Dfinition Un test stochastique est une statistique T valeurs dans [0, 1] : pour
lobservation x H n , T (x) est la probabilit de rejeter H0 . La zone de rejet (resp.
dacceptation) du test est T 1 ({1}) (resp. T 1 ({0}). La zone dhsitation du test
est T 1 (]0, 1[).
Par dfaut, un test est considr comme tant stochastique, et sa dcision est
rendue par un lancer de pice ! Plus prcismment, examinons de quelle manire
rendre une dcision dans le cadre dun tel test :
5.2. ERREURS DUN TEST
57
P ROCDURE DE DCISION D UN TEST. Soit T un test stochastique. Pour lobservation x, T (x) est la probabilit de rejeter H0 . On ralise alors un tirage alatoire
dans {0, 1} selon une loi B(T (x)) : si le rsultat du tirage est 0, on dcide que H0
est accepte ; sinon, H0 est rejete.
5.2
Erreurs dun test
Un test doit tre construit partir dune erreur fixe au pralable. Le 1er type derreur que lon peut dgager est la probabilit de rejeter H0 tort :
Dfinition Soit T un test stochastique. Son risque (ou erreur) de 1re espce est
lapplication qui, chaque 0 , donne la probabilit de rendre la mauvaise
dcision :
0 [0, 1]
7 E T.
On dit que le test est de niveau (resp. de seuil) si la probabilit maximale de
rejeter H0 tort, i.e. lerreur de 1re espce maximale sup 0 E T , est gale
(resp. infrieure) .
Si le niveau du test est suffisamment proche de 0 (en pratique infrieur 5%),
la dcision de rejeter H0 est donc convaincante.
Exemple Considrons le modle statistique (Rn , {N( , 1)n } R ). Pour un paramtre 0 R fix, on veut construire un test pur de niveau pour le problme de
test H0 : 0 contre H1 : > 0 . Soit R fix, et (X
1 , , Xn ) un chantillon
n
de loi P = N( , 1) . On utilise la statistique de test n (Xn ) dont la loi est
N(0, 1). Notons z() le quantile dordre 1 de la loi N(0, 1), et

R = (y1 , , yn ) Rn : n(yn 0 ) z() .

Alors, pour chaque 0 :
P (R) = P
n(Xn ) + n( 0 ) z()
P
n(Xn ) z() = ,
avec galit lorsque = 0 . Par suite, le test T = 1R est de niveau .
58
Pour un test de niveau suffisamment proche de 0, la dcision daccepter H0

peut tre sujette caution : le test nul, i.e. T 0, pour lequel H0 est toujours choisie, possde un niveau nul. Un tel test nest pas informatif, car il conclut toujours
accepter H0 , ceci mme si elle nest pas vraie. Cette observation nous amne
distinguer un autre type derreur, la probabilit daccepter H0 tort :
Dfinition Soit T un test stochastique. Son risque (ou erreur) de 2me espce est
lapplication qui, chaque 1 , donne la probabilit de rendre la mauvaise
dcision :
1 [0, 1]
7 1 E T.
Comme lerreur de 1re espce, lerreur de 2me espce se doit dtre faible.
Un autre concept quivalent est frquemment utilis, la probabilit daccepter H1
raison.
Dfinition Soit T un test stochastique. Sa puissance est lapplication qui, chaque
1 , donne la probabilit de rendre la bonne dcision :
1 [0, 1]
7 E T.
Le test nul, qui possde un niveau nul, a en revanche un risque de 2me espce
maximal (il vaut 1) et une puissance nulle. En gnral, diminuer lerreur de 1re
espce se fait au dtriment de lerreur de 2me espce, qui a alors tendance augmenter. Il est donc important de sorienter vers un compromis entre ces 2 types
derreurs. De mme que dans un procs aux assises, o le principe de prsomption
dinnocence du prvenu conduit lavocat gnral devoir tayer ses accusations
de manire (quasi) irrfutable, le principe de prsomption sur H0 conduit minimiser en priorit le niveau du test en imposant quil ne dpasse pas une valeur
fixe. Puis, le test est construit de telle sorte que son erreur de 2me espce soit
minimale. Cette dmarche en deux temps porte le nom de principe de Neyman.
Exemple Reprenons le modle statistique (Rn , {N( , 1)n } R ). Pour 0 R
fix, on a construit un test pur de niveau pour le problme de test H0 : 0
5.2. ERREURS DUN TEST
59
contre H1 : > 0 . Celui-ci est associ la rgion de rejet

R = (y1 , , yn ) Rn : n(yn 0 ) z() ,

avec z() le quantile dordre 1 de la loi N(0, 1). Soit R fix, et (X1 , , Xn )
n
un chantillon de loi P = N(
, 1) . Si N est une variable alatoire sur ( , F , P)
de loi N(0, 1), Xn et + N/ n ont mme loi. Par suite,

1
P (R) = P
n(Xn 0 ) z() = P
n + N 0 z()
n
= P n( 0 ) + N z() .
Si T = 1R est le test pur, la fonction puissance 7 E T = P (R) dfinie sur
]0 , [ est donc croissante, minore par et tend vers 1 lorsque tend vers linfini.
Exemple Reprenons le modle statistique ({0, 1}n , {B(p)n } p]0,1[ ) de la section
1.1. Supposons que lon veuille dcider si oui ou non la pice est quilibre, en
sappuyant sur les observations x1 , , xn telles que xn = 0.52. Ces observations,
qui sont rgies par la loi B(p0 ) nous indiquent que, si la pice nest pas quilibre,
lalternative raisonnable est que p0 > 1/2. On envisage donc de construire un test
pur de H0 : p = 1/2 contre H1 : p > 1/2 au seuil 5%. Soit t R et une rgion de
rejet du type :
R = {(z1 , , zn ) {0, 1}n : zn > t}.
Le test pur qui est associ cette rgion de rejet est T = 1R . Pour un chantillon
(X1 , , Xn ) de la loi P1/2 = B(1/2)n :
E1/2 T = P1/2 (Xn > t)
= P1/2 2 n (Xn 1/2) > 2 n (t 1/2)

= 1 F 2 n(t 1/2) + O(n1/2 ),

si F est la fonction de rpartition de la loi N(0, 1), en vertu de lingalit de BerryEssen. Les valeurs de la fonction de rpartitionde la loi N(0, 1) sont tabules :
on trouve alors, pour les valeurs de t telles que 2 n(t 1/2) 1.64 i.e. t 0.53
car n = 1000, que
1 F 2 n(t 1/2) 5%.

En ngligeant le terme en O(n1/2 ), on obtient E1/2 T 5%. Autrement dit, pour
les rgions de rejet :
R = {(z1 , , zn ) {0, 1}n : zn > t},
60
avec t 0.53, le test T = 1R est de seuil 5%. Par ailleurs, la valeur t = 0.53 donne
le test de puissance maximale. En conclusion, le test T = 1R avec
R = {(z1 , , zn ) {0, 1}n : zn > t},
est de seuil 5% et de puissance maximale. Avec la valeur de xn = 0.52, lobservation (x1 , , xn )
/ R cest--dire quon est amen accepter H0 au niveau 5% :
il est donc envisageable, au vu des observations, de considrer que la pice est
quilibre.
5.3
Comparaison des tests
Pour un test T , une puissance trop faible signifie que lon peut trouver dans 1 un
point pour lequel E T est faible. Lorsque cette dernire valeur est plus petite
que le niveau du test, on se retrouve dans la situation paradoxale o la probabilit
daccepter H1 raison est plus petite que la probabilit daccepter H1 tort ! Dans
un tel contexte, le test ne spare pas bien les hypothses H0 et H1 . La notion de
test sans biais formalise cet cueil quil convient dviter.
Dfinition Un test stochastique T de seuil est dit sans biais si pour tout 1 ,
on a E T .
Rien ne nous certifie, en gnral, quun test sans biais existe. Nous reviendrons
sur ce problme crucial de la thorie des tests dans la section suivante.
Exemple Pour chaque R, on note Q la loi de densit
exp ((x )) 1[ ,[ (x).
On souhaite tester H0 : 0 contre H1 : > 0 au niveau ]0, 1[, dans le
modle statistique (Rn , {Qn
} R ). Le test T = 1R associ la rgion de rejet

ln
n
R = (x1 , , xn ) R : min xi
i=1, ,n
n
est un test pur pour H0 contre H1 , de niveau et sans biais. Pour R, notons
5.3. COMPARAISON DES TESTS
61
P = Qn
et (X1 , , Xn ) un chantillon de loi P . Si 0 :

ln
ln n
E T = P
min Xi
= P X1
i=1, ,n
n
n
Z
n
e(t ) dt = en ,
=

ln /n
avec galit si = 0, i.e. le test T est de niveau . De plus, si > 0, on a :

Z
n
ln n
(t )
=
e
dt .
E T = P X1
n
max( , ln /n)
Selon que est plus grand ou plus petit que ln /n, E T vaut 1 ou en .
Comme > 0, E T > , et T est donc un test sans biais.
Dfinition Soit [0, 1]. On dit quun test T de seuil est uniformment plus
puissant parmis tous les tests de seuil (UPP) si, pour tout autre test T 0 de seuil
, on a E T E T 0 pour chaque 1 .
La notion doptimalit envisage est claire, un test UPP tant de puissance
maximale pour un niveau fix. En revanche, la question plus dlicate de la caractrisation des tests UPP fera lobjet de la section suivante. Examinons demble
quelques proprits videntes des tests UPP.
Proposition Soit [0, 1]. Un test T de seuil et UPP est sans biais.
Preuve Soit T 0 le test tel que T 0 . Comme T est UPP, pour tout 1 , on
a E T E T 0 = . Donc T est sans biais.
Proposition Soient [0, 1], T un test et une statistique exhaustive. Alors
E [T | ] est un test de mme puissance et niveau que T . En particulier, E [T | ]
est UPP si T est UPP.
Preuve Il suffit de remarquer que, pour chaque , E [T | ] est une statistique
indpendante de par exhaustivit de et que E T = E E [T | ].
62
5.4
Optimalit dans les tests simples
Dans toute la section, on suppose que le modle statistique (H n , {P } ) est

domin par , et de vraisemblance L. On fixe aussi 2 paramtres 0 6= 1 , et
on sintresse au problme de test simple suivant :
H0 : = 0 contre H1 : = 1 .
Nous allons tudier, pour ce problme de test simple, des conditions ncessaires et
suffisantes pour quun test soit UPP. Du fait de leur caractre fondateur dans toute
la thorie des tests, et afin de faire mention de leurs auteurs, ces rsultats sont regroups sous la dnomination de "lemme fondamental de Neyman-Pearson".
On considre la famille des tests T suivante : T T si il existe k R+ et
: H n [0, 1] mesurable tels que pour chaque x H n :
si L(x; 1 ) > kL(x; 0 );

1
(x) si L(x; 1 ) = kL(x; 0 );
T (x) =
0
si L(x; 1 ) < kL(x; 0 ),
Lensemble T sappelle famille des tests de Neyman-Pearson. Lensemble Tc
est le sous-ensemble de T constitu des tests pour lesquels la fonctions est
constante. Il convient de remarquer quun test de Neyman-Pearson associ une
fonction 0 est un test pur.
Il est essentiel de remarquer laspect constructif des rsultats qui suivent, tous
les tests considrs faisant partie de la famille T .
Le 1er rsultat est relatif lexistence dun test UPP. Il nous montre quil existe
toujours un test de Tc de niveau donn.
Thorme Soit ]0, 1[.
1. Il existe un test de Tc de niveau ;
2. Si un test de Tc est de niveau , alors il est UPP.
Preuve
1. Un test T Tc associ aux paramtres k et est de niveau si
= E0 T = P0 (L(.; 1 ) > kL(.; 0 )) + P0 (L(.; 1 ) = kL(.; 0 )) .
5.4. OPTIMALIT DANS LES TESTS SIMPLES
63
Il suffit donc de trouver (k, ) R+ [0, 1] vrifiant lgalit prcdente. Comme

P0 (L(.; 0 ) 6= 0) = 1, on peut crire :

L(.; 1 )
L(.; 1 )
P0
> k + P0
= k = .
(5.4.1)
L(.; 0 )
L(.; 0 )
Notons k0 un rel qui vrifie

L(.; 1 )
L(.; 1 )
P0
> k0 P0
k0 .
L(.; 0 )
L(.; 0 )
Un tel rel existe car t 7 P0 (L(.; 1 )/L(.; 0 ) > t) est dcroissante. Dans le cas
o P0 (L(.; 1 )/L(.; 0 ) = k0 ) = 0, tout couple (k0 , ) vrifie (5.4.1). Dans le cas
contraire, le couple (k0 , 0 ) avec

1)
P0 L(.;
>
k
0
L(.;0 )

,
0 =
1)
P0 L(.;
L(.; ) = k0
0
vrifie (5.4.1). Ainsi, il existe T Tc de niveau .

2. Soit T ? Tc un test de niveau . On note (k, ) les paramtres associs T ?
et, pour simplifier, on suppose que ]0, 1[. Soit T un test de seuil . On a alors
les inclusions :
{T ? T > 0} {T ? > 0} {L(.; 1 ) kL(.; 0 )} car > 0;
{T ? T < 0} {T ? < 1} {L(.; 1 ) kL(.; 0 )} car < 1.
Par suite, pour tout x H n , (T ? (x) T (x))(L(x; 1 ) kL(x; 0 )) 0, et donc
(T ? (x) T (x))L(x; 1 ) k(T ? (x) T (x))L(x; 0 ).
(5.4.2)
On en dduit alors que

?
E1 T E1 T = E1 (T T ) =
k
Z
Hn
Z
H
(T ? T )L(.; 1 )d

(T T )L(.; 0 )d = k E0 T ? E0 T .
Or, comme T ? est de niveau et T de seuil , E0 T ? = E0 T do E1 T ?

E1 T , i.e. T ? est UPP.
64
Le 2nd rsultat, en nous montrant que la famille des tests de Neyman-Pearson

est suffisamment riche, nous donne des conditions ncessaires pour quun test soit
UPP.
Thorme Soient ]0, 1[ et T un test UPP. Il existe T 0 T tel que T = T 0
-p.p.
Preuve Soit T ? Tc un test de niveau et UPP. On note (k, ) R+ [0, 1]
les paramtres associs au test T ? Tc . Pour simplifier, on suppose que ]0, 1[ ;
dans ce cas, on a vu dans la preuve du thorme prcdent (cf ingalit 5.4.2) que
R := (T ? T )(L(.; 1 ) kL(.; 0 )) 0.
Par labsurde, supposons que (R > 0) > 0. Alors,
Z
Hn
Rd =
Rd > 0
{R>0}
et, par suite :

Z
Hn
(T T )L(.; 1 )d > k
Z
Hn
(T ? T )L(.; 0 )d.
Comme T ? est de niveau et T est de seuil ,

Z
H
(T ? T )L(.; 0 )d = E0 T ? E0 T 0,
ce qui montre que

E1 T ? E1 T =
Z
H
(T ? T )L(.; 1 )d > 0.
Or, puisque T et T ? sont UPP, E1 T ? = E1 T do la contradiction. Il sensuit

que (R > 0) = 0 soit, comme R 0 : R = 0 -p.p. Ainsi,
T = T ? p.p. sur {L(.; 1 ) 6= kL(.; 0 )}.
Dfinissons maintenant le test T 0 tel que pour x H n :
?
T (x) si L(x; 1 ) 6= kL(x; 0 );
0
T (x) =
T (x) si L(x; 1 ) = kL(x; 0 ),
Alors, T 0 T et T = T 0 -p.p., do le thorme.
5.5. OPTIMALIT DANS LES TESTS COMPOSITES
5.5
65
Optimalit dans les tests composites
Le contexte de la section prcdente, en ne traitant que le cas dun problme de

test simple, est trs restrictif. Nanmoins, il est possible de ltendre au cas dhypothses dites composites. Soient 0 ,1 avec 0 1 = 0.
/ Le problme de
test que nous allons tudier est :
H0 : 0 contre H1 : 1 .
Puisque nous allons faire appel des rsultats du type Neyman-Pearson, nous
supposons aussi que le modle statistique (H n , {P } ) est domin par , et de
vraisemblance L.
Thorme Soit T un test de niveau ]0, 1[ tel quil existe 0 0 vrifiant
E0 T = . Si, pour tout 1 1 , il existe un test T1 Tc de H00 : = 0 contre
H10 : = 1 vrifiant T = T1 , alors T est UPP.
Preuve Fixons 1 1 . Comme E0 T = , pour le problme de test simple
H00 : = 0 contre H10 : = 1 ,
le test T est de niveau . Comme T = T1 Tc , T est UPP dans le problme de
test de H00 contre H10 .
Soit maintenant T ? un test de H0 contre H1 de seuil . Alors, T ? est de seuil
pour le problme de test de H00 contre H10 car
E0 T ? sup E T ? .
0
Or, T est UPP dans le problme de test de H00 contre H10 , donc E1 T E1 T ? .
Comme 1 a t choisi arbitrairement dans 1 , on en dduit que T est UPP dans
le problme de test de H0 contre H1 .
Exemple Reprenons le modle statistique (Rn , {N( , 1)n } R ). On a vu que,
dans le problme de test de H0 : 0 contre H1 : > 0 , le test T = 1R de
rgion de rejet

R = (x1 , , xn ) Rn : n(xn 0 ) > z() ,
66
o z() est le quantile dordre 1 de la loi N(0, 1), est un test de niveau .
Nous allons montrer que ce test est UPP en utilisant le thorme prcdent.
On remarque tout dabord que E0 T = P0 (R) = . Fixons maintenant 1 > 0 .
Pour tout R et x = (x1 , , xn )T Rn , on a lcriture
(
!)
n
n
o
1
1 n
2
2
L(x; ) = exp (xn )
exp (xi xn )
.
2
2 i=1
(2)n/2
On en dduit la forme suivante pour le rapport des vraisemblances :
h n
i
L(x; 1 )
= exp (xn 1 )2 (xn 0 )2
L(x; 0 )
2

n
= exp n(1 0 )
n(xn 0 )
(1 0 ) .
2
Par suite, pour tout k > 0 :
L(x; 1 )
>k
L(x; 0 )
ln k
n
n(xn 0 ) >
+
(1 0 ).
n(1 0 )
2
Choisissons maintenant k0 > 0 tel que
ln k0
n
z() =
+
(1 0 ),
n(1 0 )
2
et notons T1 le test de Tc associ aux paramtres (k0 , 0), i.e.
T1 = 1{L(.;1 )>k0 L(.;0 )} .
On a alors T = T1 . Daprs le thorme prcdent, T est donc UPP.
5.6
Tests asymptotiques
Comme les lois distance finie ne sont pas toujours videntes obtenir, on est
amen, linstar des intervalles de confiance asymptotiques, dfinir la notion de
test asymptotique.
On considre le problme de test de H0 : 0 contre H1 : 1 , avec
0 ,1 et 0 1 = 0.
/ Le modle statistique (H n , {P } ) dpend de n :
5.6. TESTS ASYMPTOTIQUES
67
dans le cadre des tests asymptotiques, on fait donc apparatre la taille n de lchantillon dans la notation du test.
Dfinition Un test asymptotique de seuil ]0, 1[ est la donne dune suite de
tests (Tn )n tels que
sup lim sup E Tn .
0
La procdure de dcision est alors calque sur celle des tests taille dchantillon finie. La seule diffrence notable est quun test asymptotique est construit
pour contrler lerreur de 1re espce, mais seulement asymptotiquement.
Dfinition Un test asymptotique (Tn )n est dit convergent si
1
lim E Tn = 1.
n
68
Chapitre 6
Statistique des chantillons
gaussiens
Ltude statistique des chantillons gaussiens est base sur 2 rsultats fondamentaux portant sur la nature particulire de la projection vecteurs gaussiens. Dans
tout ce chapitre, Nd (m, ) dsigne une loi gaussienne sur Rd , de moyenne m Rd
et de matrice de variance Md (R).
6.1
Projection de vecteurs gaussiens
Toutes les variables alatoires de cette section sont implicitement dfinies sur un
espace probabilis ( , F , P).
Le thorme ci-dessous est essentiel dans toute la thorie des modles gaussiens. On rappelle que la loi de Chi 2 d degrs de libert, note d2 , est la loi
de la somme des carrs de d v.a.r.i.i.d. de lois N1 (0, 1). Par ailleurs, k.k dsigne
toujours la norme euclidienne.
Thorme [C OCHRAN ] Soit X Nn (0, 2 Id) avec > 0, et L1 L p une
dcomposition de Rn en sous-espaces orthogonaux de dimensions r1 , , r p . Les
projections orthogonales 1 , , p de X sur L1 , , L p sont des vecteurs gaussiens indpendants, et pour chaque i = 1, , p :
1
ki k2 r2i .
2
69
70
CHAPITRE 6. STATISTIQUE DES CHANTILLONS GAUSSIENS
Preuve Soit (eij )i, j une base orthonorme de Rn telle que pour chaque i = 1, , p,
(eij ) j=1, ,ri est une base orthonorme de Li . Pour chaque i = 1, , p, on a :
ri
i =
(X T eij )eij .
j=1
Les vecteurs (eij )i, j tant orthogonaux, pour tout i 6= k, la matrice de covariance
entre i et k , i.e.
cov(i , k ) = E (i Ei ) (k Ek )T = Ei kT = 0.
Comme (1 p )T est un vecteur gaussien (toute combinaison linaire des v.a.r.
(X T eij )i, j est gaussienne), 1 , , p sont donc des vecteurs gaussiens indpendants, do le premier point.
Fixons i = 1, , p, et calculons tout dabord, pour tout j = 1, , ri , la loi de
la v.a.r. X T eij . Il est clair que X T eij est une v.a.r. gaussienne centre, comme combinaison linaire des composantes dun vecteur gaussien centr. De plus, comme
les composantes du vecteur X = (X1 Xn )T sont i.i.d. de loi N1 (0, 2 ),
n
var(X T eij ) =
var(Xk )(eij (k))2 = 2keij k2 = 2,

k=1
o lon a not eij = (eij (1) eij (n))T . Par suite, X T eij N1 (0, 2 ). Dautre part,
comme le vecteur alatoire (X T ei1 X T eiri )T est gaussien (car toute combinaison
linaire de ses composantes est une v.a.r. gaussienne), il suffit de montrer que
pour tout j 6= j0 , cov(X T eij , X T eij0 ) = 0 pour en dduire que X T ei1 , , X T eiri sont
indpendantes. Or, si j 6= j0 :
n
cov(X T eij , X T eij0 ) = E(X T eij )(X T eij0 ) =
E(Xk Xk0 )eij (k)eij0 (k0 )
k,k =1
n
E(Xk2)eij (k)eij (k) = 2(eij )T eij0 = 0.

k=1
Nous avons donc montr que les v.a.r. (X T eij / 2 ) j sont i.i.d., de mme loi N1 (0, 1).
Par suite,
ri X T ei 2
1
j
2
ki k =
r2i ,
2
j=1
6.2. TESTS SUR LES PARAMTRES
71
do le thorme.
La loi de Student n degrs de libert, note Tn , est la loi du quotient
o X
Y , X N1 (0, 1) et Y n2 .
nX/ Y ,
Thorme [F ISHER ] Soient X = (X1 , , Xn )T Nn (m,

2 Id) et m = (m, , m)T
avec > 0 et m R. On note
1 n
1 n
Xn = Xi et Sn2 =
(Xi Xn)2.
n i=1
n 1 i=1
Alors,
(i) Xn
Sn ;
2
2
2
(ii) (n
1)Sn / n1 ;
(iii) n(Xn m)/Sn Tn1 .
Remarques
(a) Le rsultat en (iii) est comparer au rsultat classique :
N1 (0, 1).
n(Xn m)/
(b) Daprs la loi forte des grands nombres, Sn p.s. Par suite, lassertion (iii),
le thorme de la limite centrale unidimensionnel et le lemme de Slutsky montrent
que Tn converge en loi vers la loi N1 (0, 1).
Preuve Pour simplifier, on considre le cas m = 0 et = 1. Soit L le s.e.v. de
Rn engendr par e = (1, , 1)T . Le projecteur orthogonal P sur L est la matrice
n n dont tous les coefficients valent 1/n. On a alors PX = Xn e et (Id P)X =
(X1 Xn , , Xn Xn )T . Comme (Id P)X est la projection orthogonale de X sur
lorthogonal de L, on dduit du thorme de Cochran que PX
(Id P)X, et
2
en particulier que Xn
Sn2 , do (i). De plus, (n 1)Sn2 = k(Id P)Xk2 n1
daprs
le thorme de Cochran, do (ii). Enfin, (iii) est consquence du fait que
n(Xn m)/ et (n 1)Sn2 / 2 sont indpendantes, et de lois respectives N1 (0, 1)

2 .
et n1
6.2
Tests sur les paramtres
On se donne dans cette partie un modle statistique (Rn , {N1 (m, 2 )n }mR, >0 ).
Le but est de construire des tests ou des intervalles de confiance sur la valeur des
paramtres m0 et 02 dun chantillon x1 , , xn issu de la loi N1 (m0 , 02 ). Comme
72
on la vu dans les chapitres prcdents, il faut alors construire une statistique dont
la loi ne dpend pas des paramtres inconnus du modle.
Notons (X1 , , Xn ) un chantillon de loi Pm, = N1 (m, 2 )n . On sait alors
que
Xn m
n
N1 (0, 1).
2
Cependant, cette statistique, en faisant intervenir simultanment les 2 paramtres
inconnus m et , nest pas utilisable. On se tourne alors vers le thorme de Fisher,
qui nous donne les galits en loi :
(n 1)
Xn m
Sn2
2
Tn1 .
n1
et n
2
Sn
Lutilisation de ces statistiques permet de construire facilement des intervalles de

confiance pour les valeurs de m0 et 0 , partir des valeurs observes x1 , , xn .
Considrons par exemple le problme de test H0 : m m1 contre H1 : m < m1
au niveau , avec m1 un rel fix. Si tn1 () est le quantile dordre de la loi
Tn1 , on a sous H0 :

S
S
n
n
Pm, Xn < m + tn1 ()
Pm, Xn < m1 + tn1 ()
n
n

Xn m
= Pm,
n
< tn1 () = .
Sn
Notons pour chaque y = (y1 , , yn ) Rn ,
1 n
yn = yi
n i=1
et
s2n (y) =
1 n
(yi yn )2 .
n 1 i=1
Le test de Student est le test pur de rgion de rejet

sn (y)
n
Rmoy = y = (y1 , , yn ) R : yn < m1 + tn1 ()
.
n
Ce test est de niveau , et la procdure de dcision est dfinie ainsi : on accepte
H0 au niveau si (x1 xn )T
/ Rmoy .
6.3. COMPARAISON DE 2 CHANTILLONS
73
Etudions maintenant le problme de test de H0 : 1 contre H1 : < 1

2 ,
au niveau , avec 1 > 0 fix. Si n1 () est le quantile dordre de la loi n1
on a sous H0 :

n1 () 2
n1 () 2
2
2
Pm, Sn <
Pm, Sn <
n1 1
n1

Sn2
= Pm, (n 1) 2 < n1 () = 1 .
Le test de Fisher est le test pur de rgion de rejet

n1 () 2
n
2
Rvar = y = (y1 , , yn ) R : sn (y) <
.
n1 1
Ce test est de niveau , et la procdure de dcision est dfinie ainsi : on accepte
H0 au niveau si (x1 xn )T
/ Rvar .
6.3
Comparaison de 2 chantillons
On suppose dans cette partie que lon a 2 suites indpendantes dobservations indpendantes x = (x1 , , xn ) et y = (y1 , , y p ), chacune issue de lune des lois
des modles statistiques {N1 (m, 2 )n }mR, >0 et {N1 (m, 2 )p }mR, >0 . On
suppose que ces suites dobservations ont mme variance (cest lhypothse dite
dhomoscdasticit), et on veut construire un test pur portant sur lgalit des
moyennes des suites x et y.
Si m1 et m2 reprsentent les moyennes de chaqun des 2 chantillons, le problme de test sexprime donc H0 : m1 = m2 contre H1 : m1 6= m2 , dont nous allons
construire un test pur au niveau . Notons X un chantillon (X1 , , Xn ) de la loi
N1 (m1 , 2 )n et Y un chantillon (Y1 , ,Yp ) de la loi N1 (m1 , 2 )p . Compte tenu
des hypothses exprimentales, on peut supposer que X et Y sont indpendantes.
De plus, Sn2 (X) et S2p (Y ) dsignent les variances empiriques sans biais de X et Y .
Introduisons la statistique
Q=
(Xn Yp ) (m1 m2 )
q
.
1
1
n+p
74
Puisque X T et Y T sont 2 vecteurs gaussiens indpendants, Q est une v.a.r. gaussienne, comme combinaison linaire dun vecteur gaussien. Il est clair que Q est
centre, et on montre facilement que la variance de Q est 2 . En consquence,
Q N1 (0, 2 ). Cependant, est en gnral un paramtre inconnu, donc la statistique Q nest pas utilisable directement pour construire un test statistique.
Notons alors
W 2 = (n 1)Sn2 (X) + (p 1)S2p (Y ).
2 et (p1)S2 (Y ) 2 2 .
Daprs le thorme de Fisher, (n1)Sn2 (X) 2 n1
p
p1
2
2
2
2
2
Q
Comme, par ailleurs, Sn (X)
S p (Y ), on a donc W n+p2 . De plus, W
daprs le thorme de Fisher. Par dfinition de la loi de Student, on a donc
p
Q
M = n + p 2 Tn+p2 .
W
Comme la loi de M est libre, i.e. elle ne dpend pas de paramtres inconnus, la
statistique de test utiliser est M. Dsignons par tn+p2 () le quantile dordre
1 /2 de la loi Tn+p2 . En utilisant le fait que la loi de Student est symtrique,
on vrifie comme dans la section prcdente que, avec des notations videntes,
lensemble
s
1
1
+
|xn y p |
n
p
(x y)T Rn+p : q
tn+p2 ()
n+ p2
(n 1)s2 (x) + (p 1)s2 (y)
n
est une rgion de rejet pour tester H0 contre H1 , au niveau .

Supposons maintenant que lon veuille tester lgalit des moyennes dans 3
chantillons gaussiens indpendants. On peut bien sr reprendre la mthodologie
prcdente, et raliser 2 tests dgalit de moyenne. Mais alors, le niveau du test
global ainsi construit est de lordre de la somme des niveaux des 2 tests. Pour
viter cette perte de niveau, il faut adopter une dmarche radicalement diffrente,
comme nous allons le constater dans la section qui suit.
6.4
6.4.1
Modle linaire gaussien

Le problme et sa formulation vectorielle
On suppose dans cette section que lon dispose de k jeux indpendants dobservations indpendantes x1 , , xk . On est encore dans le cadre dun modle gaussien,
6.4. MODLE LINAIRE GAUSSIEN
75
car pour tout i, xi est une observation du modle statistique {N1 (m, 2 )ni }mR, >0 .
Comme dans la section prcdente, on impose lhypothse dhomoscdasticit du
modle, i.e. les variances de chacun des jeux dobservations sont les mmes. Lobjectif est de construire un test pur portant sur lgalit des moyennes de ces k jeux
dobservations.
Sous lhypothse dhomoscdasticit, on peut introduire les chantillons indpendants X1 N1 (m1 , 2 )n1 , , Xk N1 (mk , 2 )nk pour construire la statistique de test. Le problme de test sexprime donc par
H0 : m1 = = mk
contre H1 : il existe i 6= j tel que mi 6= m j .
Dans cette formulation, m1 , , mk sont des paramtres rels et > 0.

Soit n = n1 + + nk , n0 = 0 et, pour chaque i = 1, , k,
n1 ++ni
Ii =
e j,
j=n1 ++ni1 +1
o, pour tout j = 1, , n, e j est le j-me vecteur de la base canonique de Rn .

Notons alors
k
= mi Ii ,
i=1
E lespace vectoriel engendr par les vecteurs I1 , , Ik , et H le sous-espace vectoriel de Rn engendr par le vecteur (1 1)T . Avec cette criture, le problme de
test snonce ainsi :
H0 : H
6.4.2
contre H1 : E \ H.
Statistique de test
Dans la suite, zF dsigne la projection orthogonale de z Rn sur le sous-espace

vectoriel F. Si X = (X1 Xk )T , on a la dcomposition :
X = + ,
o Nn (0, Id). Cette formulation porte le nom de modle linaire gaussien.
Dans ce cadre, on observe que :
76

. XE = + E car E. En particulier, XE est la projection orthogonale
de sur E ;
. X XE = E est la projection orthogonale de sur lorthogonal de E.
Cette quantit ne contient pas dinformation sur la valeur de , mais elle
contient des informations sur la dispersion des observations.
En exploitant ces constatations, on obtient directement avec le thorme de

Cochran :
Proposition
(i) XE est un estimateur sans biais de ;
(ii) XE
X XE ;
2 . En particulier, kX X k2 /(nk) est un estimateur
(iii) kX XE k2 2 nk
E
2
sans biais de ;
(iv) kXE k2 2 k2 .
Sous H0 , XH = + H et donc XE XH = E H . Le thorme de Cochran
appliqu au vecteur gaussien nous montre alors que
2
, et XE = E
XE XH .
kXE XH k2 2 k1
La loi de Fisher de paramtres (i, j), note F(i, j), est dfinie comme suit :
F(i, j)
jU
, si U
V, et U i2 ,
iV
V 2j .
Daprs la proposition prcdente et les observations ci-dessus, sous H0 , on connat

donc la loi de la statistique
F=
n k kXE XH k2
F(k 1, n k).
k 1 kX XE k2
Pour construire la rgion de rejet, on observe que, si P dsigne la loi de X, on a

sous H0 ,
P(F f ()) = ,
si f () dsigne le quantile dordre 1 de la loi F(k 1, n k). La rgion de
rejet

2
n n k kzE zH k
R= zR :
f ()
k 1 kz zE k2
6.4. MODLE LINAIRE GAUSSIEN
77
dfini donc un test pur de H0 contre H1 , au niveau .

Rn .
Concatnons les jeux dobservations x1 , , xk pour obtenir un vecteur x de

Plus prcismment, x = (x1 xn )T est le vecteur de Rn tel que
k
x=
ni
xi( j) en1++ni1+ j ,
i=1 j=1
si, pour chaque i = 1, , k, xi = (xi (1), , xi (ni ))T . La procdure de dcision

snonce alors ainsi : on accepte H0 au niveau si x
/ R.

Cours

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Droits d'auteur :

Formats disponibles

Statistique mathmatique pour le Master 1

Cours de lENS Cachan Bretagne

Table des matires

Principes de linfrence statistique

Classification des statistiques

TABLE DES MATIRES

Erreurs dun test . . . . . . . . . . .

Statistique des chantillons gaussiens

CHAPITRE 1. MODLISATION STATISTIQUE

qui maximise la fonction

p 7 B(p) ({x1 , , xn }) = B(p)({xi }) = pi=1 xi (1 p)ni=1 xi .

1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE

De ce fait, P(|Xn p| ) 0.05 au moins si 1/(4n 2 ) 0.05 soit, tous calculs

Principe fondamental de la statistique

Le phnomne alatoire fournit n observations x1 , , xn de lespace topologique

Le critre de convergence de Lvy nous affirme que (n )n converge troitement

vers si, pour chaque t Rd , la suite ( n (t))n converge vers (t),

CHAPITRE 1. MODLISATION STATISTIQUE

(t) = { n (t) (t)}

1.3. MODLE STATISTIQUE

Par suite, pour tout p :

lim sup | n (t) (t)|

tout t Rd , n (t) (t).

Formalisons le concept de modle statistique vu dans la section 1.1. Dans ce cadre,

CHAPITRE 1. MODLISATION STATISTIQUE

1.4. DOMINATION DANS UN MODLE STATISTIQUE

1. Il est dit identifiable si lapplication 7 P dfinie sur est injective.

Domination dans un modle statistique

Soit le modle statistique paramtrique (H n , P), avec un espace dobservations

CHAPITRE 1. MODLISATION STATISTIQUE

Alors, il existe une probabilit de conv(P) qui domine P.

On note PCn la probabilit associe chaque Cn , et fCn la densit associe. On

Dans un soucis de simplicit, on se limitera dans tout le cours au cas o le

CHAPITRE 1. MODLISATION STATISTIQUE

pas le mme intrt ; la terminologie du chapitre 2 permettra dentreprendre une

Construction des estimateurs

Soit le modle statistique paramtrique (H n , {Qn

1.6. CONSTRUCTION DES ESTIMATEURS

du modle statistique tudi.

CHAPITRE 1. MODLISATION STATISTIQUE

pour g : H n R et (X1 , , Xn ) un chantillon de loi P .

Critres de performance en moyenne

CHAPITRE 2. PRINCIPES DE LINFRENCE STATISTIQUE

Dfinitions Soit un estimateur dordre 1.

La proximit entre lestimateur et sa cible peut tre value grce la distance

Dfinitions Soit un estimateur dordre 2.

L(p; X1 , , Xn ) = pnXn (1 p)nnXn , et

2.1. CRITRES DE PERFORMANCE EN MOYENNE

car est sans biais. Comme, daprs lingalit de Cauchy-Schwarz,

var p (K (p)) = var p

CHAPITRE 2. PRINCIPES DE LINFRENCE STATISTIQUE

Pour un risque donn, abaisser le biais revient donc augmenter la variation,

2.2. CRITRES DE PERFORMANCE ASYMPTOTIQUE

Rciproquement, tout estimateur sans biais tel que L2 (P ) scrit =

Critres de performance asymptotique

A mesure que la taille n de lchantillon crot, lchantillon contient de plus en

CHAPITRE 2. PRINCIPES DE LINFRENCE STATISTIQUE

o F dsigne la fonction de rpartition de la loi N(0, 1). Comme m > 0, la loi

car m 1. Donc Em m m + 1, et m nest pas asymptotiquement sans biais.

Montrer que n2 est un estimateur biais de la variance de Q , mais quil est

2.3. INTERVALLES DE CONFIANCE

Dans lexemple de la section 1.1, on a vu que lestimateur Xn construit avec un

n, car pour chaque p [0, 1],

Nous avons dj vu, dans la section 1.1, un exemple de construction dintervalle de