Modlisation statistique
1.1 Un exemple
Une pice a une probabilit p0 ]0, 1[ de tomber sur "pile". Sur les 1000 lan-
cers raliss indpendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tent de conclure que p0 0.52. Cependant, de la mme ma-
nire quil est sans intrt de donner une valeur approche dune intgrale sans
prciser lerreur dapproximation, ce rsultat na que peu de valeur, car il ne nous
renseigne pas sur lerreur commise.
3
4 CHAPITRE 1. MODLISATION STATISTIQUE
i=1
Lintroduction dun modle nous permet en plus de donner une erreur dans
lapproximation. Soit p ]0, 1[, et X1 , , Xn des v.a. i.i.d. sur lespace probabilis
( , F , P) de loi commune B(p). On peut calculer le risque quadratique, cest-
-dire le carr de la distance L2 entre la cible p et lestimateur Xn = (1/n) ni=1 Xi
obtenu par le principe de maximisation de la vraisemblance :
2 1 1
E (Xn p) = EX1 (1 EX1 ) = p(1 p).
n n
Comme p(1 p) 1/4, lerreur quadratique moyenne commise est donc majo-
re par 1/(2 n) 0.016. Cependant, si le rsultat donne des informations sur la
qualit de lapproximation, ce nest quune valuation en moyenne, qui ne dpend
donc pas des observations.
Comment amliorer ces rsultats ? Si la question pose est "la pice est-elle
quilibre ?", lintervalle ci-dessus ne permet pas de donner une rponse ; ds lors,
quelle stratgie de dcision envisager ? Lobjet de ce cours est de donner quelques
lments de rponse ces questions. Dans un premier temps, il convient de fixer
les objectifs de linfrence statistique, ainsi que le contexte mathmatique.
1 n
n = Zi .
n i=1
Soit p fix. On a :
En faisant enfin tendre p vers linfini, on peut en dduire que pour tout 0 et
tout t Rk , n (t) (t). Comme P(0 ) = 1, le rsultat est dmontr. !
1 n
Xi
n i=1
est proche de la mesure Q0 , lorsque n est assez grand. Autrement dit, en multi-
pliant les expriences, la mesure discrte
1 n
xi
n i=1
est proche de la mesure Q0 . Ce rsultat donne un appui thorique la dmarche
statistique consistant tenter de reconstruire la mesure thorique Q0 laide des
observations x1 , , xn . Toute dmarche en statistique infrentielle asymptotique
est base sur ce thorme, qui mrite donc son titre de "Thorme fondamental de
la statistique".
Par exemple, lorsque les expriences ont t menes indpendamment les unes
des autres, lobservation (x1 , , xn ) est rgie par la loi P0 = Qn
0 , et le modle sta-
n
tistique est un ensemble de probabilits sur H contenant Q0 . n
L (X t|X t) = L (X), t 0.
Cette proprit signifie que lampoule "ne se souvient pas davoir vieilli". Par
ailleurs, on peut aussi supposer que la loi de X est densit par rapport la me-
sure de Lebesgue. On sait alors quil existe > 0 tel que X E ( ). Comme les
observations des dures de vie sont indpendantes, (x1 , , xn ) est une ralisation
dune loi E (0 )n , pour un certain 0 > 0 quil sagira de trouver. Le modle sta-
tistique associ cette exprience alatoire est donc (Rn+ , {E ( )n } >0 ). Nous
verrons dans la suite comment trouver une valeur de qui sajuste aux observa-
tions.
1.4. DOMINATION DANS UN MODLE STATISTIQUE 9
Dans lexemple de la section 1.1, comme les lancers de pice sont indpen-
dants, la loi dont sont issues les rsultats de lexprience est clairement lune des
lois du modle P = {B(p)n , p ]0, 1[}. Remarquons aussi que lapplication
p % B(p)n est injective : cette proprit, appele identifiabilit, te tout ambi-
guit dans le modle, en permettant dassocier des observations une, et une seule
loi du modle.
La probabilit Q = !1 2! PC! , qui est dans conv(P), admet f pour densit par
rapport . Comme (C) > 0 et f > 0 -p.p. sur C, on a C C . Par ailleurs, on
a aussi (C) = supCC (C) car, pour chaque ! :
1.5 Estimation
Soit le modle statistique paramtrique (H n , {P } ), avec un espace dob-
servations individuelles H Rk et un espace de paramtres Rd . Dans ce
modle, le paramtre dintrt est . Si les n expriences du phnomne sont in-
dpendantes, on a alors P = Qn pour chaque . Les dfinitions qui suivent
sadaptent sans difficult au cas o le paramtre dintrt est une fonction bor-
lienne de .
On rappelle quune v.a. canonique (X1 , , Xn ) sur (H n , P ) est une v.a. qui
vrifie pour chaque i = 1, , n :
Xi : (x1 , , xn ) H n % xi H .
Dfinitions
1. Une statistique est une v.a. dfinie sur H n , i.e. une fonction borlienne
dfinie sur H n .
12 CHAPITRE 1. MODLISATION STATISTIQUE
g(.) = g(X1 , , Xn ).
Exemples
1. Dans le modle (Rn+ , {E ( )n } >0 ), le paramtre reprsente linverse
de la moyenne de la loi E ( ). Un estimateur naturel de , construit avec
lchantillon (X1 , , Xn ) de la loi E ( )n est donc
1
= .
Xn
= max Xi .
1in
Un autre estimateur, construit cette fois avec la mesure empirique est, par
exemple,
1
= Xn .
2