Vous êtes sur la page 1sur 11

Chapitre 1

Modlisation statistique

1.1 Un exemple

Une pice a une probabilit p0 ]0, 1[ de tomber sur "pile". Sur les 1000 lan-
cers raliss indpendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tent de conclure que p0 0.52. Cependant, de la mme ma-
nire quil est sans intrt de donner une valeur approche dune intgrale sans
prciser lerreur dapproximation, ce rsultat na que peu de valeur, car il ne nous
renseigne pas sur lerreur commise.

La construction dun modle permet de combler cette lacune. On note x1 , , xn


les rsultats des n = 1000 lancers de pice, avec la convention suivante : xi = 1 si
le i-me lancer a donn "pile", et 0 dans le cas contraire. Le principe de base de
lestimation statistique consiste considrer que (x1 , , xn ) est une ralisation
de la loi B(p0 )n , si pour chaque p [0, 1], B(p) dsigne la loi de Bernouilli de
paramtre p : B(p) = p1 + (1 p)0 . En labsence dinformations sur la valeur
de p0 , on ne peut en fait que supposer que (x1 , , xn ) est une ralisation de lune
des lois {B(p)n , p ]0, 1[}.

De cet ensemble de probabilits, appel modle statistique, on cherche d-


duire la valeur de p qui sajuste le mieux aux observations x1 , , xn . Une rponse
raisonnable est base sur lintuition suivante : compte tenu des informations dont
on dispose, la meilleure approximation de p0 que lon puisse donner est une valeur

3
4 CHAPITRE 1. MODLISATION STATISTIQUE

qui maximise lapplication


n n
p % B(p)n ({x1 , , xn }) = B(p)({xi }) = pi=1 xi (1 p)ni=1 xi .
n

i=1

Cest le principe de construction dune valeur approche -on parlera destimateur-


de p0 par maximisation de la vraisemblance. Selon ce principe, la valeur qui
sajuste le mieux aux observations est la moyenne empirique des observations :
1 n
xn = xi.
n i=1
On retrouve ainsi la valeur xn = 0.52 du dbut.

Lintroduction dun modle nous permet en plus de donner une erreur dans
lapproximation. Soit p ]0, 1[, et X1 , , Xn des v.a. i.i.d. sur lespace probabilis
( , F , P) de loi commune B(p). On peut calculer le risque quadratique, cest-
-dire le carr de la distance L2 entre la cible p et lestimateur Xn = (1/n) ni=1 Xi
obtenu par le principe de maximisation de la vraisemblance :
2 1 1
E (Xn p) = EX1 (1 EX1 ) = p(1 p).
n n
Comme p(1 p) 1/4, lerreur quadratique moyenne commise est donc majo-
re par 1/(2 n) 0.016. Cependant, si le rsultat donne des informations sur la
qualit de lapproximation, ce nest quune valuation en moyenne, qui ne dpend
donc pas des observations.

Dautres principes peuvent tre envisags pour prciser la qualit de lapproxi-


mation. Supposons que lon veuille construire un intervalle dans lequel p0 doit
se trouver, avec une probabilit de 0.95 par exemple. Pour chaque p ]0, 1[, on
cherche dans un premier temps un intervalle de confiance par excs I(X1 , , Xn )
construit avec la suite de v.a. X1 , , Xn tel que
P (p I(X1 , , Xn )) 0.95.
On pourra donc conclure, avec les observations x1 , , xn , que p0 I(x1 , , xn ),
avec une probabilit de 95% au moins. Daprs lingalit de Bienaym-Tchebytchev,
on a pour tout > 0 :
var(Xn ) var(X1 ) p(1 p) 1
P(|Xn p| ) = = .
2 n 2 n 2 4n 2
1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE 5

De ce fait, P(|Xn p| ) 0.05 au moins si 1/(4n 2 ) 0.05 soit, tous calculs


faits, si 0.07. Par suite,
P (p [Xn 0.07, Xn + 0.07]) 0.95.
En utilisant les observations x1 , , xn on a xn = 0.52, et donc p0 [0.45, 0.59]
avec une probabilit 0.95 au moins. Le moins que lon dire ici est que cette infor-
mation est peu satisfaisante, eu gard au grand nombre dobservations !

Comment amliorer ces rsultats ? Si la question pose est "la pice est-elle
quilibre ?", lintervalle ci-dessus ne permet pas de donner une rponse ; ds lors,
quelle stratgie de dcision envisager ? Lobjet de ce cours est de donner quelques
lments de rponse ces questions. Dans un premier temps, il convient de fixer
les objectifs de linfrence statistique, ainsi que le contexte mathmatique.

1.2 Principe fondamental de la statistique


Le phnomne alatoire fournit n observations x1 , , xn de lespace topologique
H . Celles-ci sont supposes tre les ralisations dune loi Q0 sur lespace pro-
babilisable (H , B(H )). Le principe de linfrence statistique est dutiliser ces n
observations pour en dduire Q0 . Cette approche est-elle raisonnable ? En dautre
termes, est-il possible de reconstruire un approximation de Q0 partir des obser-
vations x1 , , xn ? Nous allons voir que la rponse est affirmative, au moins dans
le cas o le phnomne alatoire global consiste en n phnomnes indpendants
et rgis par la mme loi.

Au pralable, rappelons que la suite de probabilits (n )n sur Rk converge


troitement vers la probabilit si, pour chaque fonction f : Rk R continue
borne, on a : ! !
f dn f d.
Rk Rk
Le critre de convergence de Lvy nous affirme que (n )n converge troitement
vers si la suite (n )n converge simplement vers , o dsigne la transforme
de Fourier de , i.e. la fonction
!
: t % exp(it T x)(dx),
Rk
et idem pour n .
6 CHAPITRE 1. MODLISATION STATISTIQUE

Dans la suite, x dsigne la mesure de Dirac en x Rk .

Thorme [VARADARAJAN ] Soit Z1 , Z2 , des v.a.i.i.d. sur ( , F , P) valeurs


dans Rk , de loi commune . On note n la mesure empirique des n 1res v.a., i.e.

1 n
n = Zi .
n i=1

Alors, P-p.s., la suite de mesures (n )n converge troitement vers .

Preuve Pour simplifier la preuve, on suppose que Z1 est intgrable. Daprs le


critre de Lvy, il suffit de montrer que
" #
P t Rk : n (t) (t) = 1,

si n et dsignent les transformes de Fourier de n et . Or, la loi forte des


grands nombres nous montre que pour tout t Rk , lvnement

(t) = {n (t) (t)}

est de probabilit 1. Soit T Rk un ensemble dnombrable dense, et


% &
$ $$ 1 n
0 = (t)
n ,Z j , E,Z1, .
tT j=1

Comme Z1 est intgrable et T est dnombrable, on a P(0 ) = 1 daprs la loi forte


des grands nombres et car P( (t)) = 1 pour tout t. Fixons t Rk et 0 . On
choisit une suite (t p ) p de T telle que t p t, et on note pour tout s Rk , n (s) la
ralisation en de n (s), i.e.
n
1
n (s) =
n exp(isT Z j ()).
j=1

Soit p fix. On a :

|n (t) (t)| |n (t) n (t p )| + |n (t p ) (t p )| + |(t p ) (t)|


' (
1 n
,t t p , ,Z j (), + E,Z1, + |n (t p) (t p)|
n j=1
1.3. MODLE STATISTIQUE 7

Par suite, pour tout p :


lim sup |n (t) (t)| 2,t t p ,E,Z1 ,.
n

En faisant enfin tendre p vers linfini, on peut en dduire que pour tout 0 et
tout t Rk , n (t) (t). Comme P(0 ) = 1, le rsultat est dmontr. !

Reprenons le contexte o les observations x1 , , xn H sont issues de n


phnomnes alatoires indpendants et rgis par la mme loi Q0 sur H . Dans ce
cadre, Q0 sappelle mesure thorique. Le thorme de Varadarajan montre que si
(X1 , , Xn ) suit la loi Qn
0 alors la mesure empirique

1 n
Xi
n i=1
est proche de la mesure Q0 , lorsque n est assez grand. Autrement dit, en multi-
pliant les expriences, la mesure discrte
1 n
xi
n i=1
est proche de la mesure Q0 . Ce rsultat donne un appui thorique la dmarche
statistique consistant tenter de reconstruire la mesure thorique Q0 laide des
observations x1 , , xn . Toute dmarche en statistique infrentielle asymptotique
est base sur ce thorme, qui mrite donc son titre de "Thorme fondamental de
la statistique".

Cependant, ce thorme ne nous donne pas dinformation sur la proximit


entre la mesure empirique et la mesure thorique. En ralit, un tel objectif est
hors de porte en rgle gnrale, sans plus dinformation sur la forme de la loi
thorique. De ce fait, il est donc ncessaire de restreindre lensemble des lois de
probabilits censes reprsenter lexprience alatoire ; cette ide va tre formali-
se dans la section suivante.

1.3 Modle statistique


Formalisons le concept de modle statistique vu dans la section 1.1. Dans ce cadre,
lespace des observations tait {0, 1}n .
8 CHAPITRE 1. MODLISATION STATISTIQUE

Dfinitions Un modle statistique est un couple (H n , P), o H est lespace


-suppos topologique- de chaque observation, et P est une famille de lois de pro-
babilits sur H n muni de sa tribu borlienne. Le modle statistique (H n , P) est
paramtr par si P = {P }

Lexprience alatoire sous-jacente fournit n observations (x1 , , xn ) H n


du mme phnomne alatoire, qui est rgit par la loi inconnue P0 . Le principe
de base de la statistique est de considrer que (x1 , , xn ) est rgit par lune des
lois dun modle P, avec P0 P. Cette tape de modlisation tant acheve, il
sagira de chercher quelle loi de ce modle sajuste le mieux aux observations.

Par exemple, lorsque les expriences ont t menes indpendamment les unes
des autres, lobservation (x1 , , xn ) est rgie par la loi P0 = Qn
0 , et le modle sta-
n
tistique est un ensemble de probabilits sur H contenant Q0 . n

A noter, donc : linverse du probabiliste, le statisticien travaille plutt sur


lespace des observations, qui constitue un cadre dtude plus naturel. Par ailleurs,
le statisticien ne suppose pas que la loi des observations est connue, linverse du
probabiliste.

Exemple En utilisant des observations indpendantes x1 , , xn de la dure de vie


de n ampoules du mme type, on veut connatre la loi suivie par la dure de vie de
ce type dampoule. La 1re tape consiste dfinir le modle statistique associ,
dont lespace des observations est Rn+ . Du point de vue de la modlisation, il est
raisonnable daffirmer quune v.a. X sur ( , F , P) qui reprsente la dure de vie
de lampoule est sans mmoire, i.e.

L (X t|X t) = L (X), t 0.

Cette proprit signifie que lampoule "ne se souvient pas davoir vieilli". Par
ailleurs, on peut aussi supposer que la loi de X est densit par rapport la me-
sure de Lebesgue. On sait alors quil existe > 0 tel que X E ( ). Comme les
observations des dures de vie sont indpendantes, (x1 , , xn ) est une ralisation
dune loi E (0 )n , pour un certain 0 > 0 quil sagira de trouver. Le modle sta-
tistique associ cette exprience alatoire est donc (Rn+ , {E ( )n } >0 ). Nous
verrons dans la suite comment trouver une valeur de qui sajuste aux observa-
tions.
1.4. DOMINATION DANS UN MODLE STATISTIQUE 9

Dans lexemple de la section 1.1, comme les lancers de pice sont indpen-
dants, la loi dont sont issues les rsultats de lexprience est clairement lune des
lois du modle P = {B(p)n , p ]0, 1[}. Remarquons aussi que lapplication
p % B(p)n est injective : cette proprit, appele identifiabilit, te tout ambi-
guit dans le modle, en permettant dassocier des observations une, et une seule
loi du modle.

Dfinitions Soit P = {P } un modle statistique.


1. Il est dit identifiable si lapplication % P dfinie sur est injective.
2. Il est dit paramtrique si est inclus dans un espace vectoriel de dimen-
sion finie. Sinon, il est non paramtrique.

Le modle statistique {N(m, 2 ); m R, > 0} est paramtrique et identi-


fiable, mais {N(m, 2 ); m R, .= 0}, qui est aussi paramtrique, nest pas iden-
tifiable car N(m, 2 ) = N(m, ( )2 ). Par ailleurs, le modle constitu de toutes
les lois densit est non paramtrique.

On sintressera dans ce cours aux modles paramtriques. Le cadre est plus


restrictif, mais cet inconvnient confre aussi au modle un atout majeur car, le
cadre tant plus restreint, les rsultats obtenus seront meilleurs.

1.4 Domination dans un modle statistique


Soit le modle statistique paramtrique (H n , P), avec un espace dobservations
individuelles H Rk .

Rappelons que, pour 2 mesures -finies et sur R p , est absolument conti-


nue par rapport , et on note / , si pour tout A B(R p ) tel que (A) = 0, on
a (A) = 0. Dans ce cas, le thorme de Radon-Nikodym nous donne lexistence
dune fonction mesurable f et -p.p. positive, appele densit de par rapport
, telle que d = f d. Si est la mesure de Lebesgue, on parle plus simplement
de la densit de . Enfin, si est borne, f est -intgrable.

Dfinition Le modle statistique (H n , P) est dit domin si il existe une mesure


-finie telle que P / pour chaque P P. La mesure est appele mesure
dominante du modle.
10 CHAPITRE 1. MODLISATION STATISTIQUE

Les modles {N(m, 2 ); m R, > 0} et {B(p)n ; p ]0, 1[} sont domi-


ns : une mesure dominante du premier est la mesure de Lebesgue sur R, alors
quune mesure dominante du second est (0 + 1 )n . De manire plus gnrale,
les exemples de modles domins que nous rencontrerons le seront soit par rap-
port une mesure de comptage, soit par rapport une mesure de Lebesgue.

Thorme Supposons que (H n , P) est domin, et notons conv(P) son convexi-


fi, i.e.
% &
conv(P) = a!P!, avec P! P, a! 0 et a! = 1 .
! !

Alors, il existe une probabilit de conv(P) qui domine P.

Preuve Soit une mesure dominante. On note C lensemble des vnements C


tels quil existe PC conv(P) dont la densit fC par rapport vrifie fC > 0
-p.p. sur C. Choisissons (C! )!1 , une suite de C , telle que :

lim (C! ) = sup (C) +.


! CC

On note PC! la probabilit associe chaque C! , et fC! la densit associe. Soit


aussi : )
C = C! , f = 2! fC! .
!1 !1

La probabilit Q = !1 2! PC! , qui est dans conv(P), admet f pour densit par
rapport . Comme (C) > 0 et f > 0 -p.p. sur C, on a C C . Par ailleurs, on
a aussi (C) = supCC (C) car, pour chaque ! :

(C! ) (C) sup (C).


CC

Montrons maintenant que Q domine P. Soit P P, de densit p par rapport


, et A un vnement tel que Q(A) = 0. Nous devons montrer que P(A) = 0.
Comme !
0 = Q(A C) = f d
AC
et que f > 0 -p.p. sur C, on a (A C) = 0, do P(A C) = 0 car P / . Par
ailleurs, P(Cc ) = 0. En effet, il est clair que C { f + p > 0} -p.p., et comme
1.5. ESTIMATION 11

{ f + p > 0} C (considrer la probabilit (P + Q)/2 conv(P)), la proprit de


maximalit de C montre que (C) = ({ f + p > 0}). Par suite, C = { f + p > 0}
-p.p. car C { f + p > 0} -p.p. Comme P / , on a aussi C = { f + p > 0}
P-p.p. et donc !
P(Cc ) = pd = 0.
{ f +p=0}

En remarquant finalement que A (A C) Cc , on en dduit que P(A) = 0, cest-


-dire que P / Q. Comme Q conv(P), le thorme est dmontr. !

1.5 Estimation
Soit le modle statistique paramtrique (H n , {P } ), avec un espace dob-
servations individuelles H Rk et un espace de paramtres Rd . Dans ce
modle, le paramtre dintrt est . Si les n expriences du phnomne sont in-
dpendantes, on a alors P = Qn pour chaque . Les dfinitions qui suivent
sadaptent sans difficult au cas o le paramtre dintrt est une fonction bor-
lienne de .

Dfinition Un chantillon de loi P est une v.a. canonique sur (H n , P ).

On rappelle quune v.a. canonique (X1 , , Xn ) sur (H n , P ) est une v.a. qui
vrifie pour chaque i = 1, , n :

Xi : (x1 , , xn ) H n % xi H .

La taille de lchantillon est le nombre dexpriences alatoires. Dans lexemple


de la section 1.1, la taille de lchantillon est n = 1000, et une suite X1 , , Xn de
v.a.i.i.d. issues de la loi B(p) constitue, aprs concatnation, un chantillon de la
loi B(p)n . A laide de cette modlisation stochastique, lenjeu est de construire
une fonction de lchantillon, qui fournira linformation sur le paramtre inconnu,
not p0 dans la section 1.1. Ceci nous amne la notion destimateur, qui est une
quantit cens tre proche du paramtre. Diffrentes notions de proximit seront
abordes au chapitre 2.

Dfinitions
1. Une statistique est une v.a. dfinie sur H n , i.e. une fonction borlienne
dfinie sur H n .
12 CHAPITRE 1. MODLISATION STATISTIQUE

2. Un estimateur (de ) est une statistique indpendante de valeurs dans


un sur-ensemble de .

Remarque Un chantillon de loi P tant une v.a. canonique (X1 , , Xn ), il sen-


suit quune statistique scrit aussi :

g(.) = g(X1 , , Xn ).

On utilisera lune ou lautre de ces reprsentations, selon le contexte. Par exemple,


pour insister sur le fait que la statistique dpend de lchantillon, on utilisera la
reprsentation g(X1 , , Xn ). Pour distinguer une statistique dun estimateur, on
notera ce dernier avec un chapeau.

Dans lexemple de la section 1.1, si (X1 , , Xn ) est un chantillon de la loi


B(p)n , X1 et Xn sont des estimateurs de p. Ces 2 estimateurs nont videmment
pas le mme intrt ; la terminologie du chapitre 2 permettra dentreprendre une
premire classification.

1.6 Construction des estimateurs


Soit le modle statistique paramtrique (H n , {Qn
} ), avec un espace dob-
servations individuelles H R et un espace de paramtres Rd .
k

Pour construire un estimateur raisonnable, on utilise en gnral lune ou lautre


des 2 procdures suivantes : le principe de la vraisemblance maximale, qui fera
lobjet du chapitre 3, ou une mthode ad hoc dans laquelle, par le calcul, on ob-
serve tout dabord ce que reprsente le paramtre pour la loi Q , puis on en
construit une version empirique.

Examinons en dtail la 2me mthode. Dans un premier temps, on regarde ce


que ce paramtre reprsente pour la loi Q , puis on remplace
*
la mesure Q par sa
version empirique. Supposons par exemple que = H f dQ , pour une certaine
fonction connue f L1 (Q ). En vertu de la loi des grands nombres, un estimateur
raisonnable sera :
1 n
= f (Xi ),
n i=1
1.6. CONSTRUCTION DES ESTIMATEURS 13

si (X1 , , Xn ) est un chantillon de loi Qn


. Un tel procd de construction sap-
pelle mthode des moments, bien quil ne concerne pas ncessairement les mo-
ments de la loi Q . Bien entendu, ce nest quun procd de construction, et rien
ne nous assure en gnral quun estimateur construit de la sorte ait de bonnes pro-
prits statistiques. Nanmoins, on retrouve des estimateurs naturels. Par exemple,
si reprsente la moyenne de la loi Q , lestimateur construit par cette mthode
sera la moyenne empirique :
1 n
Xn = Xi .
n i=1
Par ailleurs, si reprsente la variance de la loi Q , lestimateur sera la variance
empirique :
1 n
2 = (Xi Xn ) .
2
n i=1

Dautres procds de construction destimateurs sont envisageables, en fonction


du modle statistique tudi.

Exemples
1. Dans le modle (Rn+ , {E ( )n } >0 ), le paramtre reprsente linverse
de la moyenne de la loi E ( ). Un estimateur naturel de , construit avec
lchantillon (X1 , , Xn ) de la loi E ( )n est donc

1
= .
Xn

2. Dans le modle (Rn+ , {U ([0, ])n } >0 ), reprsente le maximum des


valeurs prises par une ralisation de la loi U ([0, ]). Lestimateur naturel
construit avec lchantillon (X1 , , Xn ) de la loi U ([0, ])n est donc

= max Xi .
1in

Un autre estimateur, construit cette fois avec la mesure empirique est, par
exemple,
1
= Xn .
2