Académique Documents
Professionnel Documents
Culture Documents
Statistique Infrentielle
Jean-Yves DAUXOIS
Universit de Franche-Comt
Anne scolaire 2011-2012
Ce polycopi contient le cours, les sujets dexercice et leurs corrigs ainsi que les
sujets des devoirs proposs.
Les noncs des exercices sont donns en fin de chapitre auxquelles ils font rfrence.
Il est vivement conseill dessayer de faire srieusement les exercices, sans aller trop
rapidement voir leurs corrections dtailles en fin de polycopi. On sait en effet que,
pour quune correction soit efficace, il faut quelle vienne aprs une priode de recherche
personnelle de la solution.
Les devoirs, quant eux, ne sont pas des exercices supplmentaires (ces derniers
accompagns de leurs corrections sont dj assez nombreux !). Pour quils apportent
rellement autre chose que les exercices, ils doivent tre faits dans les conditions dun
devoir surveill ou dun examen. En consquence, il vous est vivement conseill de faire
les devoirs et de menvoyer votre copie (ventuellement les unes aprs les autres). En
retour vous recevrez votre copie corrige et galement une correction type du devoir. Le
premier des devoirs peut tre rsolu ds que lon est parvenu la fin de la seconde section
du Chapitre 5. Le second est lui ralisable aprs avoir travaill lensemble du Chapitre
5. Les trois autres, mme sils peuvent tre attaqus plus tt, ne seront ralisables
quune fois assimil lensemble des notions. Ils peuvent fournir de bons exercices de
rvision en perspective de lexamen.
Enfin, ce polycopi contient certainement de nombreuses coquilles et mrite encore
dtre amlior. Merci davance aux lecteurs attentifs de transmettre leur remarques,
suggestions ou indications sur la localisation des coquilles. Un petit mail ladresse
jean-yves.dauxois@univ-fcomte.fr et lamlioration est prise en compte...
Bon courage !
Chapitre 1. Introduction
5
7
11
11
15
15
16
17
18
Partie 2.
21
Estimation ponctuelle
23
27
27
29
29
30
33
37
37
39
40
43
46
48
51
51
54
54
56
57
57
3
59
59
60
60
Partie 3.
65
Intervalles de confiance
61
62
63
67
71
73
Partie 4.
75
77
85
99
119
129
Partie 5.
135
Devoirs
Partie 1
CHAPITRE 1
Introduction
Considrons un problme de Fiabilit o lon tudie la dure de vie X dun matriel.
Il est raisonnable dadmettre que celle-ci est alatoire et X est alors une variable alatoire (v.a.) de fonction de rpartition (f.d.r.) F . Supposons que lon soit prcisment
intress par lvaluation de la probabilit que le matriel soit en marche aprs un temps
t0 de fonctionnement, cest dire valuer
F (t0 ) = P (X > t0 ) = 1 F (t0 ).
Pour cela on observe le fonctionnement n matriels
Pnsimilaires et on relve leurs temps
de panne respectifs: x1 , . . . , xn . On note Kn =
i=1 1lxi t0 le nombre de matriels
tombes en panne au temps t0 . Il en reste donc n Kn encore en marche cet instant.
Il est assez naturel destimer la probabilit F (t0 ) par :
n
X
b (t ) = nombre de cas favorables = n Kn = 1
F
1l{xi >t0 } .
0
nombre de cas possibles
n
n i=1
Posons maintenant une hypothse supplmentaire. On suppose (on sait ou on a pu
vrifier) que la loi de X est une loi exponentielle E(), mais dont on ignore le paramtre
.
Calculons lesprance de X. On a
Z +
Z
1 + u
(2)
x
E(X) =
xe dx =
ue du =
,
0
0
o
Z
u1 eu du
() =
0
est la fonction Gamma. On sait que (n) = (n 1)!, ce qui nous donne ici E(X) = 1/.
Il est assez naturel destimer lesprance de X par la moyenne empirique des temps
observs, i.e. par
n
1X
x =
xi .
n i=1
Ainsi peut tre estim par :
= 1 = Pnn .
x
i=1 xi
7
Chapitre 1. Introduction
ex dx = exp(t0 )
t0
0.
La thorie des tests dhypothses permet de rpondre, entre autres, toutes ces
questions. Dans ce domaine les erreurs sont galement possibles : celles de choisir
lune des deux hypothses alors que cest lautre qui est vraie. Lobjectif est alors
naturellement de chercher rduire au maximum ces deux erreurs mais nous verrons
rapidement que cela nest pas possible conjointement. Ici aussi se posera galement la
question de loptimalit (dans un sens dfinir) de la procdure de test choisi.
Dune manire gnrale.
Statisticien confront des donnes : brutes (rsultat du contrle qualit dun
produit, taille dindividus, ge de la mre la naissance du premier enfant, concentration en ozone de latmosphre etc...) ou rsultats dexpriences (expriences biologiques,
pharmaceutiques, agronomiques etc...).
Travail du statisticien. Extraire de linformation (rsume et pertinente) de ces
donnes (comme par exemple la taille moyenne des individus). Modliser la part dala
(par exemple dterminer la loi de la dure de vie X du matriel). Tirer des conclusions
sur la population totale partir dobservations sur un chantillon).
Mais il peut aussi avoir (donner les moyens pour) prendre des dcisions (comme par
exemple lactivation du plan antipollution en raison dune trop grande concentration
dozone). Effectuer des prvision (prvision du temps en mtorologie, prvision du
cours dune action en finance).
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 2
Modle Statistique
Lobjet de ce chapitre est de prsenter le socle sur lequel vont sappuyer toutes les
techniques statistiques prsentes dans les parties ou chapitres suivants. Ainsi nous
prsenterons la notion fondamentale de modle statistique et en donnerons quelques
cas particuliers importants que nous retrouverons dans les dveloppements ultrieurs.
Nous prsenterons aussi une notion trs lie la notion de modle statistique : la
vraisemblance. Elle est galement trs importante en statistique.
1. Dfinition
Exemple 2.1. Un problme de Fiabilit et modle de Bernoulli
Revenons notre problme introductif de Fiabilit du Chapitre prcdent et sa
premire partie sur lestimation ponctuelle. On a cherch connatre la vraie valeur de
la fonction de rpartition F (t0 ) de la dure de vie du matriel en un instant t0 . Il est
intressant de dcrire ce problme dune autre manire.
Utilisons une v.a. Y valeurs {0, 1} pour modliser ltat du matriel au temps
t0 . On note {Y = 1} si le matriel est en marche et {Y = 0} sil est en panne. On a
p0 = P (Y = 1) = F (t0 ) et P (Y = 0) = 1 p0 . La v.a. Y est de loi de Bernoulli de
paramtre p0 , o p0 a une valeur inconnue dans [0, 1].
On a donc fait comme si lon avait une infinit de lois possibles pour Y : toutes les
lois de Bernoulli B(1, p), avec p dans [0, 1]. Et le problme tait alors de trouver la vraie
valeur p0 , partir des
Prsultats observs pour les n machines testes, nots y1 , . . . , yn .
On a estim p0 par ( yi )/n. On parle de modle et estimation paramtriques : restait
seulement estimer un paramtre. Cest essentiellement le cadre considr par ce cours
dans sa partie estimation ponctuelle.
Notons la prsence des ensembles suivants :
E=espace des observations possibles={0, 1} ;
E=tribu des vnements sur E=P(E), ensemble des parties de E ;
Une famille de Probabilits constitue par toutes les lois de Bernoulli,
P = {B(1, p) : p [0, 1]}.
Nous verrons quils dfinissent un modle paramtrique qui dans le cas prsent est
appel modle de Bernoulli.
En revanche, si lon sintresse lestimation de F (t) pour tout t dans R+ , il faudrait
estimer une infinit de paramtres : toutes les valeurs prises par la fonction F . On parle
alors destimation non-paramtrique. Cest un sujet que nous ne ferons quaborder,
essentiellement quand nous traiterons le sujet des tests non-paramtriques.
3
11
12
Nous constatons une diffrence avec un modle probabiliste (E, E, P ). Dans modle
probabiliste il y a une seule probabilit et les seules questions qui se posent sont de
lordre du calcul (que lon sait ou ne sait pas faire). Avec un modle statistique (E, E, P),
ces mmes questions peuvent ventuellement apparatre dans un deuxime temps, mais
avant il faut grer la prsence dun ensemble de probabilits. Autrement dit la probabilit sous jacente au phnomne est pas connue ou pas entirement (cest surtout ce
cas l que lon traite dans ce cours). Le Statisticien cherchera la dterminer, lestimer.
Ce modle
(E, E, P) = (E, E, {B(1, p) : p [0, 1]})
peut tre utilis pour modliser dautres phnomnes, situations.
Exemples.
1) Jeu de pile ou face. Le problme est de connatre la probabilit p dobtenir pile
(par exemple), ce qui revient admettre que le d peut tre pip. On note Y = 1 si on
obtient pile, Y = 0 sinon on obtient une face. Dire que la pice peut tre pipe, revient
dire que le rsultat dun lancer Y est de loi de Bernoulli B(1, p) avec p inconnu dans
[0, 1]. On fait n lancers, rsultats nots y1 , . . . , yn et on cherchera estimer p.
2) Sondage dintention de vote au second tour des lections prsidentielles. On
suppose que seulement deux candidats A et B se prsentent une lection. On note
p la proportion de votant pour le candidat A et 1 p pour B. En notant {Y = 1}
lvnement llecteur vote pour A, et {Y = 0} sil vote pour B, le vote peut tre
modlis par une v.a. Y de loi de Bernoulli B(1, p), avec encore une fois p qui peut
prendre nimporte quelle valeur dans [0, 1]. On sonde n lecteurs sur leurs intentions,
rsultats nots y1 , . . . , yn et on cherche estimer p.
Dfinition 2.1. On appelle modle statistique, la donne dun espace des observations E, dune tribu E dvnements sur E et dune famille de probabilits P sur
lespace probabilisable (E, E). On le note (E, E, P) ou, quand il ny a pas de risque de
confusion, plus simplement P.
On supposera que la vraie loi sous-jacente au phnomne que lon tudie appartient
au modle statistique que lon sest donn. Il existe des outils pour vrifier si cette
hypothse est raisonnable ou pas. Mais nous ne les prsenterons pas dans le cadre de
ce cours, car ils font appels la thorie des tests qui nest pas au programme de cet
enseignement.
On note X la v.a. qui modlise le phnomne alatoire que lon tudie. Autrement
dit la v.a. X engendre les observations dont on dispose. Elle est valeurs dans (E, E)
et sa loi de probabilit P inconnue est dans la famille P. On appellera parfois X v.a.
gnrique du modle statistique.
Dfinition 2.2. On dit quun modle statistique est paramtrique sil existe un
entier d et un sous ensemble de Rd tels que la famille de probabilits P puisse tre
paramtre par , i.e. tels que lapplication :
P
7 P
c
Jean-Yves Dauxois
Juillet
2011
1. Dfinition
13
est surjective.
On note P = {P : }.
Dans le cas contraire on parle de modle non-paramtrique.
Le modle de Bernoulli utilis dans la modlisation du fonctionnement du matriel
au temps t0 , pour le lancer de la pice de monnaie ou encore le sondage dintention de
vote au second tour est un exemple de modle paramtrique.
Le paramtrage nest pas forcment unique. Dans exemple prcdent de Bernoulli,
on peut paramtrer par la probabilit que le matriel soit en panne au temps t0 , cest
dire 1 p, ou bien encore par toute fonction (bijective) de p. Comme par exemple par
= ln(p/(1 p)), ce qui veut dire que p = e /(1 + e ). Dans ce dernier cas le modle
statistique scrit :
(E, E, P) = (E, E, {B(1, e /(1 + e )) : R})
Nous verrons un peu plus loin (dans la partie sur les familles exponentielles) que cette
paramtrisation nest pas aussi farfelue quon aurait pu le penser de prime abord.
Remarquons que lon peut toujours paramtrer la famille P, ne serait-ce quen
prenant = P et donc lapplication identit entre les deux espaces. Pour que lon
parle de modle paramtrique, il faut que lespace soit de dimension finie, do
lhypothse quil soit inclus dans un Rd .
Exemple 2.2. Un problme de contrle de la Qualit.
Considrons une entreprise de fabrique de vis. On constate que les mesures du
diamtre X dune vis varient dune pice lautre. Cet ala peut tre d au procd de
fabrication et/ou aux ventuelles erreurs de mesure. Supposons que lon ne connaisse
pas la valeur moyenne (rigoureusement lesprance) du diamtre . Cherchons prciser
un modle statistique adapt une telle situation.
Il est souvent raisonnable dadmettre que la loi de X est normale. En effet de
manire non rigoureuse on peut supposer que lala est symtrique et dcroissant autour
de la moyenne. On modlise donc souvent cette variation sous la forme :
X = + ,
o est de loi N (0, 2 ). Autrement dit, on a
X N (, 2 ).
On suppose dans un premier temps 2 connu.
Pour modliser cette situation on a donc recours au modle statistique :
(E = R, E = BR , P = {N (, 2 ) : R}).
Dans ce cas, on = R et = .
Si 2 est lui aussi inconnu, alors le modle devient
(R, BR , P = {N (, 2 ) : R, 2 > 0})
c
Jean-Yves Dauxois
Juillet
2011
14
2
et lon a : = R R+
et = (, ). Le paramtre est dit bi-dimensionnel. On
peut aussi construire un modle o lesprance est connue et cest la variance qui est
inconnue.
3
Dfinition 2.3. Un modle paramtrique (E, E, P) est dit identifiable si la fonction 7 P de la Dfinition 2.2 est de plus injective, i.e. si
1 6= 2 P1 6= P2 .
Dans la plupart des cas le modle est identifiable, quitte prendre une autre
paramtrisation. On supposera dans la suite que le modle statistique est identifiable.
Abus de langage et de notation. Si la v.a. X est absolument continue, la
densit de P est note f . Cest une fonction intgrable de R (ou une partie de R) vers
R+ . Si la v.a. X est discrte, on appellera galement densit la fonction f dfinie en
tout x de lespace E, o la X prend ses valeurs, par : f (x) = P (X = x). On peut
en effet montrer grce la thorie de la mesure, que dans ce dernier cas la loi de X
est absolument
R continue par rapport la mesure de comptage sur E. Les intgrales
de la forme x dx utilises dans le cas
P de v.a. absolument continues seront alors
remplaces par des sommes
de
la
forme
x . Ainsi,
R
Ppar exemple,
Plesprance scrit
dans le cas continu xf (x)dx et dans le cas discret x xf (x) = x xP (X = x).
Dfinition 2.4. On appelle support de la loi P lensemble :
supp(P ) = {x E : f (x) > 0}.
On constate quil est dnombrable dans le cas de v.a. discrtes et infini non dnombrable dans le cas de v.a. absolument continues. Ce support peut dpendre de . Il en
est ainsi par exemple dans le cas du modle uniforme {U[0,] ; > 0}
Exemple 2.3.
Dans le cas de lExemple 2.1, on a :
f (x) = px (1 p)1x ,
pour tout x supp(P ) = {0, 1}.
Dans le cas de lExemple 2.2, on a :
1
(x )2
f (x) = exp
,
2 2
2
3
c
Jean-Yves Dauxois
Juillet
2011
3. Vraisemblance
15
2. Modle dchantillonnage
pour tout x de E . Si on considre le produit de droite non plus comme une fonction
de x mais comme une fonction du paramtre , pour un x = (x1 , . . . , xn ) fix, on parle
de vraisemblance.
3. Vraisemblance
Dfinition 2.6. Dans un modle statistique paramtrique (E, E, P), on appelle
vraisemblance de lobservation x la fonction
L(x; ) : R+
7 L(x; ) = f (x).
c
Jean-Yves Dauxois
Juillet
2011
16
n
Y
f (xi ).
i=1
Cest donc la loi conjointe du n-chantillon value aux valeurs observes et considre comme fonction du paramtre .
4. Familles Exponentielles
Un modle paramtrique important en Statistique est celui des familles exponentielles. Il recouvre de nombreux modle paramtriques classiques : normal, binomial,
poisson, gamma etc...
Dfinition 2.7. Un modle statistique (E, E, P) sur un espace des observations E
est dit famille exponentielle gnrale sil existe un entier p, des fonctions , T , C
et h tels que les densits puisse scrire, pour tout de , sous la forme :
f (x) = eh(),T (x)i C()h(x),
avec les contraintes que
T soit une fonction mesurable valeurs dans Rp ;
soit une fonction valeurs dans Rp ;
C soit une fonction relle positive qui ne dpend pas x ;
h soit une fonction borlienne positive qui ne dpend pas de .
Le vecteur alatoire T (X) est appel statistique canonique du modle. Si la fonction
T est lidentit, la famille exponentielle est dite naturelle.
On parle de forme canonique dune famille exponentielle gnrale quand les densits de probabilits ont la forme
f (x) = eh,T (x)i C()h(x),
pour tout de , ce quil est toujours possible dobtenir quitte reparamtriser la
famille par 0 = (). Dans ce cas le paramtre de la famille exponentielle est appel
paramtre canonique.
Exemple 2.4.
Revenons sur le modle de Bernoulli. La densit scrit :
x
p
p
x
1x
fp (x) = = p (1 p)
=
(1 p) = exp x ln
(1 p)
1p
1p
= exp (h(p), T (x)i) C(p)h(x),
avec
(p) = ln
p
1p
, T (x) = x, C(p) = (1 p) et h(x) = 1.
c
Jean-Yves Dauxois
Juillet
2011
5. Modle position-chelle
17
Le modle de Bernoulli est donc une famille exponentielle naturelle puisque T = Id.
De plus, le modle Bernoulli paramtr en fonction de
(E, E, P) = (E, E, {B(1, e /(1 + e )) : R})
est sous forme canonique.
Modle chantillonnage construit partir dune famille exponentielle gnrale canonique reste une famille exponentielle gnrale canonique.
En effet si X = (X1 , . . . , Xn ) est un chantillon de loi de densit
f (x) = eh,T (x)i C()h(x),
alors le vecteur alatoire X a pour densit
P
h, n
i=1 T (xi )i
f (x1 , . . . , xn ) = e
C ()
n
Y
h(xi )
i=1
Pn
et
5. Modle position-chelle
Dfinition 2.9. Considrons un vecteur alatoire X de loi P connue sur (Rn , BRn )
et A un sous espace de Rn . Pour tout a dans A et tout b dans R+ , on note Pa,b la loi
du vecteur Y = a + bX.
Le modle paramtrique
PA,b = {Pa,b : a A, b R+ }
est appel modle position-chelle engendr par P (ou par X). Le paramtre a est
appel paramtre de position et b paramtre dchelle.
Si b est fix (par exemple 1) on parle de modle de position. Dans le cas o A ne
contient que le vecteur nul de Rn , on parle de modle chelle.
Exemple 2.5. Le Modle gaussien unidimensionnel
Reprise de lExemple 2.2. Le modle
P = {N (, 2 ) : R}
est un modle position engendr par la loi N (0, 2 ). Il correspond aux diffrentes lois
du modle pour le diamtre X de la vis. Rappelons que X = + , o varie dans R
et est de loi N (0, 2 ).
c
Jean-Yves Dauxois
Juillet
2011
18
P = {N (, 2 ) : R, 2 > 0}
est un modle position-chelle engendr par la loi N (0, 1). Le diamtre X de la vis peut
en effet scrire X = + , o est de loi N (0, 1).
3
6. Exercices
Exercice 1 (Familles Exponentielles)
On considre les modles suivants :
Modle Binomial {B(m, p) : p [0, 1]} ;
Modle de Poisson {P() : > 0} ;
Modle gaussien variance fixe {N (, 2 ) : R} ;
Modle gaussien paramtre bi-dimensionnel {N (, 2 ) : R, 2 > 0} ;
1 x
Modle Gamma {G(, ) : > 0, > 0} = {f, (x) = ()
x e 1lR+ (x) :
> 0, > 0} ;
Modle uniforme {U[0,] : > 0} ;
1
Modle de Cauchy {f (x) = (1+(x)
2 ) : R} ;
Pk
Modle Multinomial {M(n, p1 , . . . , pk ) : 0 < pi < 1, i = 1, . . . , k et
i=1 pi =
1}.
Pour tous ces modles, rpondre aux questions suivantes.
1) Quelle est lexpression de la densit f (x) ?
2) Le modle constitue-t-il une famille exponentielle gnrale ? Naturelle ? Quel
est le paramtre canonique du modle ?
3) Quelle est la vraisemblance dun chantillon x = (x1 , . . . , xn ) ?
Exercice 2 (Modles position-chelle)
1) Construire un modle position-chelle partir de la loi exponentielle E(1). Prciser la forme des f.d.r. des lois de ce modle ainsi que leurs densits.
2) Montrer que le modle uniforme {U[a,b] : < a < b < +} est un modle
position-chelle.
6. Exercices
19
Lapplication
X(i) : X(i) ()
ainsi dfinie pour chaque i est une v.a.r. dite ie`me statistique dordre.
1) Calculer la loi de X(n) = sup{X1 , . . . , Xn } (f.d.r. et densit).
2) Calculer la loi de X(1) = inf{X1 , . . . , Xn } (f.d.r. et densit).
3) Calculer la loi du couple (X(1) , X(n) ). En dduire celle de ltendue R = X(n) X(1)
(on donnera sa f.d.r et sa densit en fonction de F et f ).
4) Soit Ny le nombre de Xi infrieurs y. Quelle est la loi de Ny ? Que dire des
vnements {Ny k} et {X(k) y} ? En dduire la f.d.r. de X(k) .
5) On pourrait du rsultat prcdent tirer la densit de la v.a. X(k) . Mais cest
fastidieux. Il y a bien plus simple en attaquant le problme directement, ce que lon
propose de faire maintenant. On pourra utiliser le rsultat suivant : Si f est continue
sur un intervalle [a, b], alors, pour tout x dans cet intervalle, on a :
P (X ]x, x + h])
f (x) = lim+
h0
h
Calculer la densit de X(k) .
6) Montrer que si E(X) existe alors E(X(k) ) aussi.
7) Calculer la densit du vecteur (X(1) , . . . , X(n) ).
(Ind. on pourra calculer P ((X(1) , . . . , X(n) ) B), pour tout borlien B de BRn ).
c
Jean-Yves Dauxois
Juillet
2011
Partie 2
Estimation ponctuelle
CHAPITRE 3
Statistique et Estimateur
Comme nous lavons dit une Statistique est une rduction de linformation apporte
par un chantillon. Plus prcisment voici sa dfinition.
Dfinition 3.1. Soit (E n , E n , P n = {Pn : }) un modle dchantillonnage.
On appelle statistique la v.a. T (X) = T (X1 , . . . , Xn ) o T est une fonction mesurable
connue de (E n , E n , P n = {Pn : }) vers un espace probabilisable (F, F) :
n
E
F
T :
.
x = (x1 , . . . , xn ) 7 T (x1 , . . . , xn )
Insistons bien sur le fait quune statistique est une v.a. Les valeurs quelle prendra
dpendront des valeurs prises par lchantillon. Si le modle statistique est non trivial
(i.e. non rduit une seule probabilit) alors la loi de la statistique T (X), o X =
(X1 , . . . , Xn ), est inconnue. Cela vient de la non connaissance de la loi de lchantillon.
En revanche la fonction T est, elle, connue. Reprenons lexemple de lestimation de la
fiabilit vu au dbut du chapitre prcdent. La fonction
n
1X
T : (x1 , . . . , xn )
1l[t ,+[ (xi )
n i=1 0
est parfaitement connue. En revanche, la loi de la statistique T (X1 , . . . , Xn ) nest pas
entirement connue puisque lon sait seulement que la loi de nT (X1 , . . . , Xn ) est une
Binomiale B(n, F (t0 ), o la valeur de F (t0 ) est inconnue.
Souvent lespace darrive de T est de dimension infrieure et plus simple que E n
(signe dune effective rduction de linformation). Dire que la statistique est connue,
signifie en particulier que la fonction connue T ne doit pas dpendre du paramtre
(inconnu) (ou de la loi P dans P). En revanche, la loi de la statistique T (X) dpendra
en gnral du paramtre du modle.
Une statistique dpend de la taille n de lchantillon, et on notera parfois Tn (X)
pour le souligner. Par abus de langage on appellera galement statistique la suite
T (X) = (Tn (X))nN de statistiques quand la taille de lchantillon augmente.
On a dj vu dans lexemple inaugural quun problme en statistique est destimer
un paramtre . On peut aussi vouloir estimer g(), limage de par une fonction g.
Pour rester le plus gnral, on considrera dans la suite le cas gnral de lestimation
de g(). Pour ce faire, on utilise alors une statistique qui peut alors porter le nom
destimateur.
23
24
+
pour R .
Supposons que lon cherche estimer le paramtre partir dun chantillon
X1 , . . . , Xn tir de ce modle. Plusieurs estimations sont possibles :
Assez naturellement on pense en premier lieu 1 = max(X1 , . . . , Xn ). On sent
naturellement (et on pourra le vrifier plus tard) quil sapproche en croissant de
quand la taille de lchantillon augmente. Mais seulement, il a le dsavantage
dtre toujours infrieur la vraie valeur . On peut essayer de remdier
ce problme en proposant dautres estimateurs.
On peut se dire que les ralisations de lchantillon vont se rpartir de manire
constituer n + 1 intervalles de longueurs (trs) approximativement gales.
Do lide de considrer
1
n+1
2 = 1 +
1 .
=
n
n
On peut aussi remarquer que la distance qui spare 1 = max(X1 , . . . , Xn ) de
devrait tre environ gale celle qui spare 0 de min(X1 , . . . , Xn ). On peut
donc proposer lestimateur
3 = min(X1 , . . . , Xn ) + max(X1 , . . . , Xn ).
+
On peut aussi
adopter une dmarche radicalement diffrente base sur lintuition
= (Pn Xi )/n devrait tre un bon estimateur du centre du support
que X
i=1
de la loi uniforme, savoir /2. Aussi, on peut sintresser lestimateur :
4 = 2X.
On pourrait proposer de manire assez irraisonne (puisque non base sur
lchantillon) 5 = 2011 ou tout autre valeur.
Il y aurait bien dautres possibilits explorer...
3
Deux questions se posent la suite de cet exemple. Existe-t-il des mthodes
gnrales pour construire de (bons) estimateurs ? Et ensuite comment les comparer
c
Jean-Yves Dauxois
Juillet
2011
0.
25
ou savoir quel est le meilleur ? Ces questions font respectivement lobjet des deux
sections suivantes.
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 4
Construction destimateurs
1. Estimateurs empiriques (des moments)
On a dj vu dans exemple introductif et lExemple 3.1, comment estimer lesprance
mathmatique dune v.a. tudions davantage cet estimateur qui est la base de nombreuses mthodes statistiques.
Soit donc X une v.a. gnrique dun modle dchantillonnage (E n , E n , P n =
n
{P : }). Cest dire que X1 , . . . , Xn est un chantillon de mme loi que X.
Notons E () et Var () respectivement les oprateurs esprance et variance sous la loi
P , en supposant que ces quantits sont bien dfinies. Pour simplifier les notations, on
notera m = E (X) et 2 = Var (X).
dfinie, pour
Dfinition 4.1. On appelle moyenne empirique, la statistique X
une taille n dchantillon, par :
n
1X
Xn =
Xi .
n i=1
Quand on peut crire lesprance de la v.a. gnrique X en fonction du paramtre
du modle, i.e. quand il existe une fonction g telle que m = g() (ce qui est souvent le
On dira alors quil estime m .
cas), alors on pourra donner le titre destimateur X.
Proposition 4.2. La moyenne empirique est telle que
n ) = m
E (X
n) =
Var(X
2
.
n
28
Sn2
1X 2
2.
X X
=m
(2) (m
(1)) =
n
n i=1 i
2
Sn2
1X
n 2 .
Xi X
=
n i=1
Sn2
1X
n 2 .
=
Xi X
n i=1
Cette mthode destimation empirique des moments est trs gnrale. Elle peut,
par exemple, sappliquer pour lestimation de la fonction de rpartition. Il suffit en
effet de remarquer que lon peut crire
F (x) = P (X x) = E (1l{Xx} ) = E(Y ),
avec Y = 1l],x] (X). On peut donc estimer F (x) par
n
1X
1X
Yi =
1l],x] (Xi )
F (x) =
n i=1
n i=1
et on retrouve lestimateur de la fonction de rpartition empirique.
c
Jean-Yves Dauxois
Juillet
2011
29
2. Mthode de substitution
= Sn2 = t
n i=1
c
Jean-Yves Dauxois
Juillet
2011
30
scrit sous la forme h() = E ((X)) avec h(x) = 1/x et est lidentit sur R+ . En
estimant par
!
n
X
1
1
= h1
Xi = ,
n i=1
Xn
on retrouve lestimateur utilis dans lexemple introductif sur la fiabilit des matriels. 3
Exemple 4.2. Modles gaussiens unidimensionnels.
Considrons les modles statistiques introduits pour des problmes de contrle de
la qualit dans lExemple 2.2. Dans le premier modle,
P = {N (, 2 ) : R}
n , en
lestimation par la mthode des moments redonne lestimateur intuitif de par X
prenant h et gales aux fonctions identit puisque = E(X).
Dans le second modle,
P = {N (, 2 ) : R, 2 R+ },
on peut crire la relation h() = E ((X)) en prenant = (, 2 ), h() = (, 2 + 2 )
et (x) = (x, x2 ) application de R vers R R+ . En effet on sait que lon a E(X 2 ) =
Var(X) + E2 (X). Comme h1 (u, v) = (u, v u2 ), on obtient comme estimateur du
paramtre multidimensionnel par la mthode des moments :
!
n
X
n
n
1
X
X
1
1
Pn
Pn
n (X) = h
=
(Xi ) = h
1
1
2
2
2 .
n i=1
i=1 Xi
i=1 Xi Xn
n
n
On retrouve les estimateurs vus par la mthode des moments empiriques.
On parle de la mthode des moments, mais il faut bien retenir que lunicit porte
sur la mthode (qui est trs gnrale) et non sur le nombre destimateurs dun mme
paramtre que lon peut obtenir par cette mthode. Nous verrons dans un exercice que,
par exemple, dans le modle de la loi exponentielle (comme dans dautres), la mthode
des moments permet dobtenir de nombreux autres estimateurs du paramtre . On
sinspirera en particulier des relations E(X 2 ) = 2/2 et F (t0 ) = P (X > t0 ) pour obtenir
deux autres estimateurs par cette mthode des moments.
4. Maximum de vraisemblance
Pour introduire cette approche, considrons deux urnes contenant toutes les deux
des boules bleues et rouges mais en proportion diffrentes : proportion p1 = 90% de
boules bleues dans la premire et proportion p2 = 15% de boules bleues dans la seconde.
On tire au hasard une boule dans une des deux urnes sans savoir de laquelle il sagit.
On constate que la boule est bleue. Naturellement on parierait plutt que la boule tire
est issue de lurne 1. On a pris lurne qui maximise la probabilit de lvnement que
lon a obtenu : avoir une boule bleue. On a choisi la situation la plus vraisemblable.
On va voir que cest celle qui maximise la vraisemblance. En effet, le modle est ici :
{B(p); p {0.9, 0.15}},
c
Jean-Yves Dauxois
Juillet
2011
4. Maximum de vraisemblance
31
n
X
xi +
i=1
n
X
!
xi
!
ln(1 p) .
i=1
Pn
Pn
p
1p
i=1
et drive seconde
00
Pn
(p) =
i=1
p2
xi
P
n ni=1 xi
(1 p)2
qui est ngative puisque les xi sont dans {0, 1}. La fonction est donc concave et son
maximum atteint en la valeur p qui annule la drive premire, i.e.
Pn
P
n ni=1 xi
i=1 xi
=
p
1 p
Pn
ce qui donne p = x = ( i=1 xi )/n. Remarquons que lon obtiendrait le mme estimateur en utilisant la mthode des moments puisque E(X) = p. Mais il ny a pas aucune
raison que cette mthode conduise toujours aux mmes estimateurs.
On peut gnraliser cette mthode pour un modle statistique quelconque.
Dfinition 4.5. Soit (E, E, P = {P : }) un modle statistique paramtrique
et X sa v.a. gnrique. On appelle estimateur du maximum de vraisemblance la
c
Jean-Yves Dauxois
Juillet
2011
32
statistique (X)
o est une application :
E
x 7 (x)
telle que
L(x; (x))
L(x; )
pour tout . On note
(x)
= ArgmaxL(x; ).
(X)
= ArgmaxL(X; ).
Soit (X)
un estimateur du maximum de vraisemblance dans un modle paramtrique
(E, E, P = {P : }). Soit g une fonction bijective, mesurable et connue de vers
0 = g(). Lestimateur du maximum de vraisemblance de = g() dans le modle
5. Exercices
33
5. Exercices
1 x
x e 1lR+ (x).
()
o x(1) et x(n) sont respectivement les observations des statistiques dordre X(1) et X(n) .
2) Donner lestimateur du maximum de vraisemblance du paramtre .
c
Jean-Yves Dauxois
Juillet
2011
34
5. Exercices
35
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 5
1. Estimateur convergent
Lorsque lon augmente la taille de lchantillon, on augmente la quantit dinformation dont on dispose sur le phnomne alatoire que lon tudie. Aussi, il est assez
naturel de souhaiter quun estimateur ait tendance sapprocher de la valeur quil
estime, lorsque la taille de lchantillon crot.
37
38
Dfinition 5.1. Un estimateur T (X) = (Tn (X))nN de g() est dit (faiblement)
convergent ou consistant si la suite (Tn (X))nN converge en probabilit (sous la loi
P ) vers g(), i.e.
P
Tn (X)
g(),
quand n +.
Si T (X) et g() sont dans R, la dfinition de la convergence de lestimateur signifie
que lon a, pour tout > 0 :
P (|Tn (X) g()| > ) 0,
quand n +.
Si T (X) et g() sont dans Rp , la dfinition de la convergence de lestimateur scrit
partir de la notion prcdente sous la forme :
P
vers 0 quand n +.
Supposons toujours que la variance de X existe et scrive sous la forme Var (X) =
h() dans ce modle. On peut montrer que, sous certaines conditions, lestimateur Sn2
de la variance empirique, vu dans la Dfinition 4.4, est un estimateur consistant de
Var (X). En effet, en utilisant lcriture
n
Sn2
1X 2
n2 .
=
X X
n i=1 i
c
Jean-Yves Dauxois
Juillet
2011
39
et en supposant par exemple lexistence de moment dordre 4 pour la v.a.r. X (ce qui
permet dappliquer galement la loi des grands nombres pour la moyenne empirique des
Xi2 , pour i = 1, . . . , n), on obtient, grce la loi des grands nombres et au thorme de
Slutsky (transformation continue), la convergence
P
Sn2
E (X 2 ) E2 (X) = Var (X),
quand n +.
2. Estimateur sans biais
40
X
1X
2 = 1
2
(Xi X)
(Xi E (X) + E (X) X)
n i=1
n i=1
n
1X
1X
2
=
(Xi E (X))2 +
(E (X) X)
n i=1
n i=1
n
X
2(E (X) X)
+
(Xi E (X))
n
i=1
n
1X
2 2(E (X) X)
2
=
(Xi E (X))2 + (E X X)
n i=1
n
1X
E (X))2 .
(Xi E (X))2 (X
n i=1
Ainsi il vient :
n
E Sn2
1X
E (X))2 = Var (X) Var (X)
=
E (Xi E (X))2 E (X
n i=1
n1 2
2
=
.
n
n
Lestimateur de la variance empirique est donc un estimateur biais. En revanche, il
est clairement asymptotiquement sans biais.
Mais on peut aisment dduire de cet estimateur un estimateur non biais de la
variance 2 .
3
= 2
Sn2 =
1 X
2.
(Xi X)
n 1 i=1
41
peut tre vue comme le choix dune valeur d (qui sera donne par la ralisation de la
statistique T (X)) dans lensemble g() pour estimer la valeur inconnue g().
Pour prendre une telle dcision, on se donne en premier lieu un critre mesurant et
pnalisant lcart entre la valeur choisie d et la vraie valeur g(). On parle de fonction
de cot.
Dfinition 5.5. On appelle fonction de cot (ou de perte) toute fonction L de
g() vers R+ , mesurable en sa premire coordonne, qui en (d, ) donne le cot
L(d, ) de dcider d alors que la vraie valeur est g().
42
4. Information de Fisher
43
Ainsi on peut, par exemple, sintresser aux estimateurs admissibles dans la classe
des estimateurs sans biais de g().
Par ailleurs, un estimateur non admissible na aucun intrt. On prfrera utiliser
lestimateur qui lui est prfrable et qui est admissible.
Dfinition 5.10. Un estimateur T (X) de g() est dit otpimal (resp. T -optimal)
sil est prfrable tous les estimateurs de g() (resp. dans une classe destimateurs T
de g()).
Sauf dans les cas triviaux, il nexiste pas destimateur optimal dans la classe de tous
les estimateurs possibles. En revanche, si lon restreint la classe des estimateurs que
lon considre (par exemple les estimateurs sans biais, linaires etc...) on peut parfois
trouver des estimateurs optimaux intressants.
4. Information de Fisher
Nous venons de voir la notion de risque qui mesure la qualit dun estimateur de g().
Elle mesure la qualit dun estimateur. Naturellement se pose la question de lexistence
dune borne infrieure pour ce risque. Autrement dit, existe-t-il une fonction Binf (),
ventuellement dpendante de la taille n de lchantillon observ, telle que lon ait pour
tout estimateur T (X) de g() :
R(T (X), ) Binf (),
pour tout de ? On verra que, sous certaines conditions, une telle borne existe et
est appele borne de Cramer-Rao. Elle fait intervenir la notion dinformation apporte
par un modle, appele information de Fisher.
Pour simplifier les notations, on suppose dans ce paragraphe que le paramtre
est dans R. Les rsultats resteront vrais avec les adaptations ncessaires au cas o
est multidimensionnel (ces adaptations seront voques en fin de paragraphe). On
note L0 (x; ) (resp. L00 (x; )) la drive premire (resp. seconde) en de la fonction
vraisemblance L(x; ), pour la valeur x de lobservation dans le modle paramtrique
considr.
Dans la suite on supposera que le modle paramtrique (E, E, {P : }), de v.a.
gnrique X, vrifie les hypothses suivantes.
H1 Lespace des paramtres est un ouvert.
H2 Les lois P ont toutes mme support, qui ne dpend donc pas de .
H3 Les drives premires et secondes L0 (x; ) et L00 (x; ) de la vraisemblance existent pour tout x dans E.
H4 Les fonctions L0 (x; ) et L00 (x; ), vues cette fois-ci comme fonction de la variable x (cest dire les densits), sont intgrables pour tout de et on peut
c
Jean-Yves Dauxois
Juillet
2011
44
L(x; )dx =
L0 (x; )dx,
A
Z
ZA
2
L(x; )dx =
L00 (x; )dx,
2 A
A
pour tout A dans E.
Considrons la v.a.
L0 (X, )
S(X, ) =
ln L(X; ) =
,
L(X, )
qui, en tant que fonction de , est parfois appele fonction score. Sous les hypothses
prcdentes, cette v.a. est centre. On a en effet :
Z
Z
Z
0
L (x; )dx =
L(x; )dx = 0,
E (S(X, )) =
ln L(x; )L(x; )dx =
E
E
E
puisque la dernire intgrale vaut 1 par dfinition dune densit.
Posons maintenant lhypothse supplmentaire :
H5 la fonction score est de carr intgrable.
Dfinition 5.11. On appelle information de Fisher la variance du score, i.e.
2 !
I() = E
S(X, ) = E
ln L(X; ) .
2
Preuve. On remarque que lon peut crire :
L0 (x, )
L00 (x, ) (L0 (x, ))2
L00 (x, )
=
S(x, ) =
=
S(x, )2
L(x, )
L(x, )
(L(x, ))2
L(x, )
Ainsi, on a :
00
L (X, )
E
S(X, ) = E
I().
L(X, )
En remarquant que
00
Z
Z
L (X, )
2
00
E
=
L (x, )dx = 2
L(x, )dx = 0,
L(X, )
E
E
justifie par lhypothse H4, on a bien le rsultat annonc.
Exemple 5.4. Information de Fisher dans le cas dun modle gaussien rel avec
variance 2 connue.
c
Jean-Yves Dauxois
Juillet
2011
4. Information de Fisher
45
On considre le modle :
P = {N (, 2 ) : R}.,
o 2 est suppos connu.
La log-vraisemblance pour lobservation x est :
(x )2
ln L(x; ) = ln( 2)
.
2 2
Do :
x
1
S(x, ) =
S(x, ) = 2 .
et
2
i=1
X 2
X
2
S(X1 , . . . , Xn ; ) = 2 ln L(X1 , . . . , Xn ; ) =
ln
L(X
;
)
=
S(Xi ; ),
i
i=1
i=1
ce qui prouve la proposition suivante.
Proposition 5.13. Linformation de Fisher pour un modle dchantillonnage, i.e.
pour lchantillon X1 , . . . , Xn est n fois celle de la variable gnrique X de cet chantillon. Cest dire que lon a :
In () = nI()
o In () est linformation de Fisher de lchantillon X1 , . . . , Xn et I() celle de X.
Exemple 5.5. Information de Fisher pour un chantillon dans le cas dun modle
gaussien rel avec variance 2 connue (suite de lExemple 5.4).
c
Jean-Yves Dauxois
Juillet
2011
46
3
Remarque. Dans le cas o le paramtre est multidimensionnel.
Les fonctions L0 (x; ) et L00 (x; ) sont en fait le gradient et la matrice Hessienne
de la fonction vraisemblance L(x; ).
Le score est un vecteur alatoire, composition du gradient de la log-vraisemblance
et de la v.a. gnrique X. On a S(X, ) = ln L(X, ).
Linformation de Fisher est une matrice et correspond la matrice de covariance du score S(X, ). Cest galement loppos de lesprance de la matrice
Hessienne de la log-vraisemblance en X. On a
I() = S(X,) = E 2 ln L(X, ).
T (x)L(x; )dx =
T (x)L0 (x; )dx.
E
E
Supposons enfin que linformation de Fisher I() soit strictement positive pour tout
de .
Alors la fonction g est drivable et lon a pour tout dans :
Var(T (X))
(g 0 ())2
.
I()
47
Remarques.
Si on considre un modle dchantillonnage de taille n, la borne de CramerRao devient naturellement (g 0 ())2 /(In ()).
La borne de Cramer-Rao ne dpend que du modle paramtrique, de ce que lon
veut estimer (g()) et de la taille de lchantillon. Plus la taille de lchantillon
augmente, plus cette borne diminue (ce qui est intuitif et heureux !).
Rien ne dit que le minimum est atteint.
Dans le cas o le paramtre est multidimensionnel, valeurs dans Rp , la
fonction g valeurs dans Rk et la matrice dinformation de Fisher inversible,
la borne de Cramer-Rao pour la matrice de covariance T (X) est :
T (X) 0 g()I 1 () g(),
o g() est le gradient en de la fonction g.
Dfinition 5.15. Un estimateur sans biais atteignant la borne de Cramer-Rao est
dit efficace.
Il est dit asymptotiquement efficace si
(g 0 ())2
= 1,
n+ In ()Var (Tn (X))
lim
48
Notons quun estimateur sans biais efficace est forcment optimal, dans la classe des
estimateurs sans biais. La rciproque est fausse, la borne ntant pas ncessairement
atteinte.
Exemple 5.6. Information de Fisher pour un chantillon dans le cas dun modle
gaussien rel avec variance 2 (suite des exemples 5.4 et 5.5).
n est de variance
On a vu que la variance de lestimateur de la moyenne empirique X
/n. Cette quantit est gale la borne de Cramer-Rao dans un modle gaussien rel
n tant sans
avec la variance connue (seule lesprance est inconnue). Lestimateur X
biais, il est donc efficace dans ce modle pour estimer le paramtre .
3
2
6. Exercices
Exercice 1(Qualit des estimateurs dans les modles de Poisson et de la loi exponentielle)
On considre deux modles :
celui de la loi de Poisson (N, P(N), {P() : > 0}) , o P() dsigne la loi de
Poisson de paramtre ;
celui de la loi de exponentielle (R+ , BR+ , {E() : > 0}), o E() dsigne la
loi exponentielle de paramtre .
On a vu que ces modles sont en particulier utiles pour modliser des problmes de
Fiabilit.
Pour chacun de ces modles, rpondre lensemble des questions suivantes. On
considrera chaque fois lobservation dun chantillon X1 , . . . , Xn .
1) Rappeler lexpression de lestimateur du maximum de vraisemblance dans ce
modle (on a vu quil est galement estimateur par la mthode des moments).
2) tudier la consistance, le biais et le risque quadratique de cet estimateur.
3) Si cet estimateur est biais, est-il asymptotiquement sans biais ? Donner, si
ncessaire, un estimateur sans biais. Lestimateur sans biais (linitial ou le second)
est-il efficace ? Sinon lest-il asymptotiquement ? Est-il consistant ?
Exercice 2 (Fiabilit et fonction de rpartition empirique)
Un matriel a une dure de vie modlise par une v.a. X de f.d.r. F . Un tudiant
en Licence de Mathmatiques sait quil devra lutiliser pendant un temps x0 . Il souhaite
naturellement quil ny ait pas de panne durant cette priode.
Cet tudiant, ayant suivi le module de Statistique Infrentielle, cherche en premier
lieu estimer la loi (en fait la f.d.r.) de cette dure de vie, cest dire estimer F (x)
pour tout x de R+ . Il a alors lide de faire fonctionner, sur banc dessai, n machines
identiques celle quil utilisera dans lavenir. Il note x1 , . . . , xn les n temps de panne
observs, qui sont donc les ralisations des v.a. X1 , . . . , Xn i.i.d. de mme loi que X.
1) Par la mthode des moments il propose un estimateur de F (x), pour tout x dans
+
R . Pouvez-vous en faire autant ?
c
Jean-Yves Dauxois
Juillet
2011
6. Exercices
49
2) Son estimateur est-il consistant ? Que dire de son biais et de son risque quadratique ?
3) Se souvenant de ses cours, il sait que, pour tre prcis, il aurait d, au pralable,
introduire un modle paramtrique. Quel(s) modle(s) pourrait-il proposer ? Que sont
les observations sous ce(s) modle(s) ? Une estimation par maximum de vraisemblance
nous donnerait-elle quelque chose de diffrent dans ce modle ?
4) Que dire alors de lefficacit de lestimateur propos dans la premire question ?
50
o les c1 , . . . , cn sont des rels donns. Calculer le risque dun estimateur dans cette
classe (en fonction des c1 , . . . , cn ). On cherche lestimateur otpimal dans cette classe.
En admettant que la fonction minimiser est convexe, montrer que que le minimum est
atteint pour les ci tous gaux 2 /(2 +n2 ). En dduire quil nexiste pas destimateur
optimal dans cette classe.
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 6
Amlioration destimateurs
On a signal, maintes reprises, quune statistique constitue souvent une rduction
de linformation de manire ne retenir que ce qui nous paraissait utile et ncessaire
dans lestimation du paramtre du modle (ou dune fonction g() de celui-ci). De
plus, nous avons introduit quelques critres pour tudier et comparer la qualit des
estimateurs.
Des questions se posent alors naturellement.
Comment sassurer que nous navons pas perdu une partie importante de
linformation apporte dans lchantillon dans notre problme destimation ?
Nous navons en effet pas valu la qualit de cette rduction dinformation.
Comment amliorer un estimateur obtenu par les mthodes prcdentes de
manire ce quil ne prenne en compte que le strict ncessaire dans linformation apporte par lchantillon ?
Existe-t-il une(des) mthode(s) pour construire un estimateur optimal ?
Telles sont les questions auxquelles nous allons apporter quelques rponses dans les
paragraphes qui suivent.
1. Statistique exhaustive
Dans la plupart des exemples considrs prcdemment, la statistique utilise tait
une v.a. T (X1 , . . . , Xn ) avec T fonction de E n valeurs dans R ou R2 . On a ainsi
rduit linformation apporte par lchantillon sous forme dun vecteur (x1 , . . . , xn ) en
un scalaire ou un vecteur de dimension bien infrieure. On a donc naturellement perdu
de linformation. Le problme est de savoir si cette information perdue aurait pu ou
pas tre utile lestimation du paramtre g(). Si linformation perdue savre inutile
dans loptique de lestimation de g(), on dira alors que la statistique est exhaustive,
quelle prserve donc toute linformation exploitable pour rsoudre le problme pos.
Exemple 6.1. Exhaustivit dans un modle de Bernoulli pour le contrle statistique
de la qualit.
Un industriel voudrait connatre la proportion p de pices dfectueuses quil fabrique
dans une journe. Pour cela il prlve n pices alatoirement dans lensemble de sa
production de la journe. Il suppose que la qualit de sa production na pas volu
au cours de la journe, autrement dit que cette proportion na pas vari. Il note alors
le nombre k de pices dfectueuses observes dans cet chantillon et estime la qualit
de sa production par k/n. Il nglige donc toute une partie de linformation apporte
51
52
par lchantillon de son contrle, comme celle de savoir quelles pices se sont rvles
dfectueuses. Est-ce handicapant pour la qualit de son estimation ? Intuitivement on
sent bien que non. Montrons le rigoureusement...
En premier lieu, notons que le modle statistique pour une telle exprience est le
modle dchantillonnage associ au modle de la loi de Bernoulli : ({0, 1}, P({0, 1}, {B(p) :
p [0, 1]}) de v.a. gnrique X. De lobservation x = (x1 , . . . , xn ) dun chantillon
X = (X1 , . . . , Xn ) dans ce modle, lindustriel a donc retenu seulement linformation
apporte par la statistique
n
X
Xi ,
T (X) =
i=1
c
Jean-Yves Dauxois
Juillet
2011
2. Statistique exhaustive
53
Pn
i=1
xi
(1 p)n
Pn
i=1
xi
On peut crire :
L(x1 , . . . , xn ; p) = gp (T (x))h(x),
avec gp (x) = px (1p)nx et h gale 1. Grce au thorme de factorisation on retrouve
que la Statistique
n
X
T (X) =
Xi
i=1
est bien exhaustive pour le paramtre p dans ce modle. On constate aisment que la
moyenne empirique
n = T (X)
X
n
est galement une statistique exhaustive dans ce modle. De nombreuses autres statistiques sont exhaustives comme en particulier les statistiques
T1 (X) = (X1 , . . . , Xn ),
T2 (X) = (X1 + X2 , X3 + + Xn ),
T3 (X) = (X1 , X2 , X3 + + Xn ).
Mais lon voit bien quelles rduisent moins linformation que les deux statistiques prc n . Elles seront donc moins intressantes.
dentes T (X) et X
3
Proposition 6.3. Sil existe une statistique exhaustive, lestimateur du maximum
de vraisemblance en est une fonction.
Preuve. Notons T (X) cette statistique exhaustive. Daprs le thorme de factorisation la vraisemblance peut scrire sous la forme :
L(x; ) = g (T (x))h(x).
On a donc
= Argmax L(x; )
= Argmax g (T (x))
c
Jean-Yves Dauxois
Juillet
2011
54
dira que deux statistiques sont quivalentes sil existe une relation bijective mesurable entre
les deux. Si deux statistiques S et T sont quivalentes, alors la premire est exhaustive si, et seulement
si, la seconde lest. On pourra donc raisonner sur les classes dquivalence des statistiques exhaustives,
cest dire sur les ensembles des statistiques quivalentes. Aussi, quand on parlera de statistique
exhaustive, cela pourra tre une bijection prs
2
La minimalit est rigoureusement dfinie sur lensemble des classes dquivalence avec lordre
dfini, pour deux statistiques non quivalentes S et T , par S T sil existe une fonction mesurable
non bijective telle que S = h(T )
c
Jean-Yves Dauxois
Juillet
2011
3. Thorme de Rao-Blackwell
55
leur qualit. Nous avons vu empiriquement (en cours et en TD) comment dduire dun
estimateur biais un estimateur sans biais. Mais nous navons pas encore vu de mthode
permettant damliorer un estimateur en diminuant son risque.
Cest lintrt du thorme de Rao-Blackwell qui est bas sur lutilisation dune
statistique exhaustive pour le paramtre .
Thorme 6.5. (Thorme de Rao-Blackwell) Soit (E, E, P = {P : })
un modle paramtrique et X = (X1 , . . . , Xn ) un chantillon dans ce modle. Soit T (X)
un estimateur de g() de carr intgrable.
Si le modle possde une statistique exhaustive S(X) pour le paramtre , alors
lestimateur
Te(X) = E (T (X)|S(X))
de g() a un risque quadratique infrieur T (X), cest dire que lon a :
R(Te(X), ) R(T (X), ),
pour tout dans .
De plus cette ingalit est stricte pour au moins un de , i.e. Te(X) est prfrable
T (X), sauf si T (X) est sans biais et une fonction de la statistique exhaustive S(X).
Si T (X) est un estimateur sans biais de g() alors Te(X) est galement sans biais
pour g() et lingalit sur les risques quadratiques se traduit galement sur les variances.
Rappel.
Par manque de maturit mathmatique, en particulier en thorie de la mesure, on
ne peut ici dfinir proprement la notion desprance conditionnelle. En consquence,
on se contentera de la dfinition un peu approximative suivante de E(Y /X), suivant
que les v.a. X et Y sont discrtes ou continues.
* Soient X et Y deux v.a. discrtes dont les lois PX et PY sont concentres respectivement sur I et J. Pour tout xi dans I, on dfinit :
X
E(Y /X = xi ) =
yj PYX=xi (yj )
yj J
yj P (Y = yj /X = xi ).
yj J
Dans les deux cas, la fonction e : x E(Y /X = x) est une fonction relle dune variable relle. On peut montrer quelle est mesurable et on peut considrer sa composition
avec la variable alatoire X, i.e. considrer e X. Celle-ci dfinit une variable alatoire
relle que lon appelle esprance conditionnelle de Y sachant X, note E(Y /X).
c
Jean-Yves Dauxois
Juillet
2011
56
Ce thorme est admis bien que non difficile dmontrer, au moins quand on domine
assez bien loutil esprance conditionnelle. Remarquons cependant que la statistique
obtenue par ce conditionnement est bien un estimateur puisque la loi de X (et donc
de T (X)) conditionnelle S(X) ne dpend pas de , par dfinition dune statistique
exhaustive.
On amliore donc un estimateur en prenant son esprance conditionnelle par rapport
une statistique exhaustive. Le nouvel estimateur obtenu est alors une fonction de la
statistique exhaustive (proprit de lesprance conditionnelle). Un bon estimateur doit
ainsi tre fonction de toutes les statistiques exhaustives du paramtre du modle et
donc, si elle existe, de la statistique exhaustive minimale.
4. Thorme de Lehmann-Scheff
Le thorme prcdent nous permet dj damliorer la qualit dun estimateur.
Mais il ne nous assure pas de tomber sur un estimateur optimal. Lobtention directe
dun estimateur optimal sera possible grce au Thorme de Lehmann-Scheff donn
ci-dessous. Mais il nous faut auparavant introduire la notion de statistique complte
quil utilise.
Dfinition 6.6. Soit (E, E, P = {P : }) un modle paramtrique et X =
(X1 , . . . , Xn ) un chantillon dans ce modle. Une statistique T (X) est dite complte
(ou totale) si toute fonction borlienne f vrifiant E |f (T (X))| < + et E (f (T (X))) =
0 pour tout de est ncessairement telle que
f (T (X)) = 0, P p.s.
pour tout de .
c
Jean-Yves Dauxois
Juillet
2011
6. Exercices
57
5. Cas des familles exponentielles
58
Il est courant de constater que le nombre dappels reus en une heure par un standard
tlphonique suit une loi de Poisson. On sintresse au problme de lestimation de la
probabilit quil ny ait pas dappel en une heure. Pour cela, on considre le modle
statistique (N, P(N), {P() : > 0}), de v.a. gnrique X. On note X = (X1 , . . . , Xn )
un chantillon dans un modle et on cherche donc estimer g() = P (X = 0) =
exp().
1) Proposer un estimateur W (X) de g() fonction des v.a. 1l{Xi =0} , pour i =
1, . . . , n.
2) Donner son biais, son risque quadratique et sa loi.
3) Lestimateur propos W (X) est-il fonction de la statistique exhaustive :
n
X
T (X) =
Xi ?
i=1
W (X).
8) Montrer que la statistique T (X) est galement complte. Conclure.
Exercice 4 (Estimation optimale dans le modle uniforme)
On considre le modle de la loi uniforme (R+ , BR+ , {U[0,] : > 0}) et un chantillon
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 7
L
n(Tn (X) g()) Nd (0, ()),
quand n tend vers +. La matrice de covariance () est appele matrice de covariance
asymptotique.
Quand g() est un rel, on dit que lestimateur est asymptotiquement normal et
la convergence en loi scrit :
L
n(Tn (X) g()) N (0, 2 ),
quand n tend vers +. La variance 2 est appele variance asymptotique.
Remarquons quun estimateur de g() asymptotiquement gaussien est forcment
consistant. On a en effet, quand n tend vers + :
1
P
Tn (X) g() =
n(Tn (X) g()) 0,
n
grce au thorme de Slutsky.
59
60
Xn m L
n
N (0, 1).
m
(p) m (p),
m
(p) m (p) L
n p
N (0, 1).
Var (X p )
Rappelons galement la version multidimensionnelle du thorme de la limite centrale. Notons pour cela zn,1 , . . . , zn,p les p-coordonnes dun vecteur zn de Rp et z n le
vecteur des moyennes des composantes des n premiers vecteurs de la suite (zn ), i.e.
1 Pn
z
j,1
j=1
n
..
zn =
.
.
P
n
1
j=1 zj,p
n
Thorme 7.3. (Thorme de la limite centrale multidimensionnel)
Soit (Zn ) une suite de vecteurs alatoires dans (Rp , BRp ), indpendants, de mme
loi desprance et de matrice de covariance . On a alors :
L
n(Z n ) Np (0, ),
quand n +.
4. La -mthode
61
L
n(n (X) ) Np (0, I 1 ()),
quand n tend vers +. Lestimateur du maximum de vraisemblance est donc asymptotiquement gaussien et efficace.
On peut donc dire quasymptotiquement, cest dire pour un chantillon de grande
taille n, lestimateur du maximum de vraisemblance est approximativement de loi normale centre sur le paramtre et de matrice de covariance linverse de linformation
de Fisher In () associe au modle dchantillonnage, i.e.
n (X)
n grand
Np (, In1 ()).
L
n(n (X) ) N (0, 2 ),
quand n tend vers +.
c
Jean-Yves Dauxois
Juillet
2011
62
Soit g une fonction drivable de dans 0 R telle que g(n (X)) soit de carr
intgrable.
Alors lestimateur g(n (X)) de g() est galement asymptotiquement normal. Plus
prcisment, on a :
L
n g(n (X)) g() N (0, 2 (g 0 ())2 ),
quand n tend vers +.
Preuve. Lide principale est deffectuer un dveloppement de Taylor de g(n (X))
autour de g(). On a en effet :
g(n ) g() = (n ) (g 0 () + (n )) ,
avec (n ) qui tend vers 0 quand n tend vers 0.
On peut donc crire ici :
0
L
n(n (X) ) Np (0, ()),
alors
L
n g(n (X)) g() Nq (0, Jg ()()Jg0 ()),
o
Jg () =
gi
()
j
i=1,...,q;j=1,...,p
6. Exercices
63
L
n(n (X) ) N 0, Var ((X)) (h1 )0 ()
.
Preuve. Par la loi forte des grands nombres et le thorme de Slustky, on a la
convergence
p.s.
n (X) h1 (E ((X))) = ,
quand n +.
P
Le thorme de la limite centrale applique n1 ni=1 (Xi ) et la -mthode permettent dobtenir le caractre asymptotiquement gaussien.
2
6. Exercices
Les exercices concernant cette partie constituent souvent les premires questions des
exercices sur les intervalles de confiance.
c
Jean-Yves Dauxois
Juillet
2011
Partie 3
Intervalles de confiance
Cest pourquoi on cherchera aussi parfois donner un intervalle (resp. une rgion
dans le cas o g() est un vecteur) de valeurs possibles pour g(). On parle dintervalle
ou de rgion de confiance. Le terme fourchette destimation est galement utilis.
On construira cet intervalle partir des observations dun chantillon et on souhaitera quil contienne la vraie valeur g(), avec un probabilit suffisamment faible de se
tromper.
CHAPITRE 8
68
/ n
En notant z le quantile dordre de la loi N (0, 1), i.e. le rel tel que
P (Z z ) = ,
on peut crire
P (z1/2 Z z1/2 ) = 1
si lon veut (ce sera souvent le cas) rpartir la probabilit derreur quitablement au
dessus et au dessous de lintervalle.
Or, on a :
z1/2 Z z1/2
n z1/2 X
n + z1/2 .
X
n
n
Ainsi, lintervalle
Xn z1/2 , Xn + z1/2
n
n
est un intervalle de confiance 1 pour lesprance du modle gaussien. On constate
clairement dans cet exemple que les bornes de lintervalle de confiance sont alatoires. 3
Il est vident que, plus on augmente la confiance de lintervalle (i.e. plus on diminue
), plus lintervalle sera grand, comme le souligne lapplication numrique suivre.
Exemple 8.2. Modle gaussien rel avec variance 2 connue (A.N. de lExemple
8.1).
laide dun logiciel statistique (par exemple R) on simule un chantillon
de taille
Pn
n = 20 dune loi normale N (0, 1). La statistique exhaustive T (X) = i=1 Xi pour ce
modle nous donne sur cet chantillon T (x) = 8.2314. En prenant une valeur = 5%,
on trouve (par exemple laide de tables statistiques ou avec le mme logiciel) que le
quantile dordre 1 /2 est : z1/2 = 1.96. Ainsi lintervalle de confiance 1 = 95%
est : [0.0267, 0.8498].
Comme nous lavons dit plus haut, si lon augmente la confiance de lintervalle,
lintervalle de confiance sera plus grand. Ainsi, si lon souhaite un intervalle de confiance
99% (i.e. = 1%), le quantile dordre 1 /2 est : z1/2 = 2.5758 (les tables donnent
2.58). Avec les valeurs prcdentes de lchantillon, lintervalle de confiance 99% est
alors : [0.1644, 0.9875]. Lintervalle obtenu est contient donc le prcdent.
Supposons maintenant que lon simule dix nouvelles observations dans ce mme
modle (on dispose maintenant de 30 observations) et que la nouvelle valeur de la
statistique exhaustive (avec n = 30) soit T (x) = 6.2539. Lintervalle de confiance 95%
devient alors : [0.1494, 0.5663], ce qui illustre bien que, quand n augmente, lintervalle
a tendance se rtrcir et se centrer sur la valeur thorique de (ici 0).
3
c
Jean-Yves Dauxois
Juillet
2011
0.
69
n
X
n
est bien une fonction de X et du paramtre . Elle est de loi connue N (0, 1), clairement
indpendante du paramtre . Il sagit donc une variable pivotale pour dans le modle
gaussien rel avec variance connue.
3
Z=
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 9
(X n , g()) Z,
o Z est une v.a. de loi ne dpendant pas de .
Exemple 9.1. Variable asymptotiquement pivotale pour lesprance dans un modle
statistique paramtrique.
Considrons un modle paramtrique (R, BR , P = {P : }) tel que la v.a.
gnrique X soit de carr intgrable, desprance qui scrive sous la forme g() et de
variance 2 . Soit enfin, pour tout n dans N, un chantillon X n dans ce modle.
Daprs le thorme de la limite centrale, on sait que
n g() L
X
(X n , g()) = n
N (0, 1),
2
quand n +. Ainsi, la suite de v.a. ((X n , g()))nN est asymptotiquement pivotale.
3
Dune manire gnrale, les rsultats dasymptotique normalit prsents pour les
estimateurs de la moyenne empirique, du maximum de vraisemblance ou obtenus par la
mthode des moments, permettent de construire des suites de v.a. asymptotiquement
pivotale.
Une v.a. asymptotiquement pivotale permet naturellement de construire des intervalles de confiance asymptotiques.
Dfinition 9.2. Soit un rel dans [0, 1]. On appelle intervalle de confiance
asymptotique 1 pour g() toute suite (Cn (X n ))nN = ([Ln (X n ), U (X n )])nN dintervalles tels que
lim P (Cn (X n ) 3 g()) = 1 .
n+
71
72
n + z1/2 .
n z1/2 , X
X
n
n
Insistons bien sur le fait que ce rsultat nest valable que si la variance 2 est
connue. 3
c
Jean-Yves Dauxois
Juillet
2011
CHAPITRE 10
n
X
1) En utilisant la proprit vue en cours sur lestimateur du maximum de vraisem n est asymptotiquement normal (on prcisera bien
blance, montrer que lestimateur
la convergence en loi obtenue).
2) Retrouver le rsultat de la question prcdente en utilisant en particulier la mthode.
n , un intervalle de
3) Dduire, de ce comportement asymptotiquement normal de
confiance asymptotique 1 pour .
4) Montrer que si Y est une v.a. de loi Gamma G(, ), alors la v.a. Y est de loi
G(, 1).
73
74
c
Jean-Yves Dauxois
Juillet
2011
Partie 4
78
x1 , . . . , xn est :
L(x1 , . . . , xn ; p) =
n
Y
m
i=1
xi
xi
mxi
p (1 p)
=p
Pn
i=1 xi
(1 p)
nm
Pn
i=1 xi
n
Y
m
i=1
xi
e x
x!
= exp{x ln }e
1
.
x!
En posant
1
, T (x) = x et () = ln ,
x!
on vrifie que ce modle est une famille exponentielle naturelle de paramtre canonique
= ln(). La vraisemblance de lchantillon x1 , . . . , xn est :
C() = e , h(x) =
L(x1 , . . . , xn ; ) =
n
Y
e xi
i=1
xi !
Pn
en
= Qn
i=1
i=1
xi !
xi
2
x2
1
x
2
= exp 2 + 2 2
2
2
2
n o 1
2
x2
exp 2 exp 2 .
= exp x 2
2
2
2
En posant
2
x2
1
C() = exp 2 , h(x) = exp 2 , T (x) = x et () = 2 ,
2
2
2
il apparat que ce modle constitue une famille exponentielle naturelle de paramtre
canonique = / 2 . La vraisemblance est
(
(
)
2 )
n
n
Y
1
1
1 xi
1 X
exp
L(x1 , . . . , xn ; ) =
=
exp 2
(xi )2 .
n
n
2
2
2
( 2)
i=1
i=1
Modle Statistique de la loi normale deux paramtres {N (, 2 ) : R, 2 > 0}
c
Jean-Yves Dauxois
Juillet
2011
79
2
1
2
2
= exp h(, ), T (x)i exp 2 ,
2
2
o
2
(, ) =
1
,
2 2 2
et T (x) = (x, x2 ).
En posant
1
2
C(, ) = exp 2 et h(x) = 1,
2
2
on constate que ce modle est une famille exponentielle gnrale de paramtre canonique
= (/ 2 , 1/(2 2 )).
2
1lR+ (x).
= exp{( 1) ln x x}
()
En posant
C(, ) =
ce modle scrit sous la forme dune famille exponentielle gnrale. Le lecteur trouvera
sans peine le paramtre canonique et lexpression de la vraisemblance.
Modle statistique de la loi uniforme {U[0,] : > 0}
La densit est
1
f (x) = 1l[0,] (x)
et on constate que lon ne peut pas lcrire sous la forme dune famille exponentielle.
1
Modle statistique de la loi de Cauchy f (x) =
:R
(1 + (x )2 )
La densit est
1
1
f (x) =
1 + (x )2
n
o
1
= exp ln(1 + (x )2 )
que lon ne peut pas crire sous la forme f (x) = C()h(x) exp{h(), T (x)i}. Ainsi, il
ne sagit pas dune famille exponentielle.
c
Jean-Yves Dauxois
Juillet
2011
80
n!
px1 pxkk
x1 ! xk ! 1
= exp {x1 ln p1 + + xk ln pk }
Soit = {(x1 , . . . , xk ) Nk :
Pk
i=1
n!
.
x1 ! xk !
xi = n}. En posant
C(p1 , . . . , pk ) = 1
n!
h(x1 , . . . , xk ) =
1l (x1 , . . . , xn )
x1 ! xk !
ln x1
ln p1
() = ... et T (x) = ... ,
ln xk
ln pk
il apparat que le modle de la loi multinomiale est une famille exponentielle. Ici aussi
nous laissons le soin au lecteur de trouver le paramtre canonique et lexpression de la
vraisemblance.
Exercice 2 (Modles position-chelle)
1) Construire un modle position-chelle partir de la loi exponentielle E(1). Prciser la forme des f.d.r. des lois de ce modle ainsi que leurs densits.
2) Montrer que le modle uniforme {U[a,b] : < a < b < +} est un modle
position-chelle.
Solution
1) Soit X E(1). Cette v.a.r. est valeurs dans R+ et sa f.d.r. est F (x) = 1 ex ,
pour x strictement positif. Posons Y = x0 + X/. Cette v.a.r est valeurs dans
]x0 , +[ et a pour f.d.r., pour tout y > x0 :
F (y) = P (Y y)
1
= P x0 + X y
= P (X (y x0 ))
= 1 e(yx0 ) .
Sa densit est alors :
f (y) = F0 (y) = e(yx0 ) ,
pour tout y > x0 . On obtient un modle position chelle de paramtre de position x0
et de paramtre dchelle 1/.
c
Jean-Yves Dauxois
Juillet
2011
81
2) Soit X une v.a.r.de loi uniforme U[0,1] . Sa f.d.r. est F (x) = x sur [0, 1]. Posons
Y = a + (b a)X. Cette v.a.r. est clairement valeurs dans [a, b]. Sa fonction de
rpartition est donne, pour tout y dans [a, b] par
P (Y y) = P (a + (b a)X y)
ya
=P X
ba
ya
=
.
ba
Remarquons que lon aurait pu obtenir le mme rsultat en dterminant la loi de Y en
utilisant le thorme du changement de variable.
Le modle considr est donc un modle position chelle engendr par la loi U[0,1]
de paramtre de position a et de paramtre dchelle c = b a.
c
Jean-Yves Dauxois
Juillet
2011
82
(ni=1 {Xi
x}) =
n
Y
P (Xi x) = F n (x),
i=1
o lavant dernire galit est justifie par lindpendance entre les v.a.r. X1 , . . . , Xn .
Cette fonction tant drivable (puisque F lest) sur R+ , la densit de Xn est :
fX(n) (x) = nF n1 (x)f (x).
2) On a
P (X(1) > x) = P
(ni=1 {Xi
> x}) =
n
Y
i=1
o lavant dernire galit est ici aussi justifie par lindpendance entre les v.a.r.
X1 , . . . , Xn . Do
FX(1) (x) = 1 (1 F (x))n
et
fX(n) (x) = n(1 F (x))n1 (f (x)) = n(1 F (x))n1 f (x).
3) Supposons dans un premier temps que x1 xn . On peut crire :
P (X(1) x1 , X(n) xn ) = P (X(n) xn ) P (X(1) > x1 , X(n) xn )
= F n (xn ) P (ni=1 {Xi ]x1 , xn ]}) = F n (xn ) (F (xn ) F (x1 ))n .
En drivant deux fois, on obtient
et
FX(1) ,X(n)
(x1 , xn ) = n (F (xn ) F (x1 ))n1 f (x1 )
x1
2
FX(1) ,X(n)
(x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn ).
x1 xn
Maintenant si x1 > xn , on a
P (X(1) x1 , X(n) xn ) = P (X(n) xn ) = F n (xn )
qui en drivant par rapport x1 et xn sannule. On a donc la densit du couple
(X(1) , X(n) ) :
f(X(1) ,X(n) ) (x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn )1l{x1 xn } .
Disposant de la densit du couple (X(1) , X(n) ), pour trouver la densit de la v.a.r. R =
X(n) X(1) , on peut dans un premier calculer la densit du couple (Q, R), o Q = X(1) ,
et ensuite calculer la loi marginale de la seconde coordonne de ce couple.
Le calcul de la loi du couple (Q, R) seffectue facilement grce la formule du
changement de variable. Prenons la fonction (u, v) = (u, v u) qui est videmment
c
Jean-Yves Dauxois
Juillet
2011
83
fR (x)dx.
FR (r) =
0
4) On a
Ny =
n
X
1lXi y .
i=1
Les v.a.r. 1lXi y , pour i = 1, . . . , n, tant i.i.d. de loi de Bernoulli de paramtre F (y),
la loi de Ny est une Binomiale de paramtres n et F (y), i.e.
Ny B(n, F (y)).
Par ailleurs, on a lgalit entre les vnements :
{Ny k} = {Il y a un nombre suprieur ou gal k de Xi infrieurs y} = {X(k) y}.
Ainsi, il vient :
FX(k) (x) = P (X(k) x) = P (Nx k) =
n
X
i=k
84
XZ
n
Z
=
n!
B
n
Y
!
f (ui ) du1 dun
i=1
n
Y
!
f (ui ) 1lu1 <u2 <<un du1 dun .
i=1
c
Jean-Yves Dauxois
Juillet
2011
1 x
1
x
x e dx =
()
()
x ex dx.
u eu
E, (X) =
=
( + 1) = .
() 0
()
1
De la mme manire on montre que lon a :
( + 1)
E(X 2 ) =
.
2
Ainsi
( + 1) 2
( + 1)
.
et E, (X 2 ) =
que ( + 2) = ( + 1)().
85
86
avec
( + 1)
,
et (X) = (X, X 2 ).
h(, ) =
2
Des estimateurs de et par la mthode des moments sont alors
!
!
n
n
n
X
X
X
1
1
1
= h1
(
, )
(Xi ) = h1
Xi ,
X2 .
n i=1
n i=1
n i=1 i
= Pn
2
Pn
1
1
2
X
X
i
i
i=1
i=1
n
Pn n
1
Xi
= Pn n i=1 Pn
2 .
1
1
2
X
X
i
i
i=1
i=1
n
n
1
n
Xi X
=
n i=1
n
Pn
n
X
+X
Xi2 2Xi X
!
2
i=1
n
n
n
1X
1X 2
1 X 2
=
X 2X
Xi +
X
n i=1 i
n i=1
n i=1
n
1X 2
2 + X
2
=
X 2X
n i=1 i
n
1X 2
2.
Xi X
=
n i=1
Une nouvelle expression des estimateurs
et est alors :
P
2
( ni=1 Xi )
= Pn
2
n i=1 Xi X
Pn
Xi
= Pn i=1
.
2
Xi X
i=1
3) On a vu que
E, (X) =
et Var, (X) = 2 .
c
Jean-Yves Dauxois
Juillet
2011
87
Les estimateurs empiriques des moments dordre 1 et 2 de X nous donnent ainsi des
fonctions des estimateurs de et sous la forme :
n
1X
=
Xi
n i=1
1X
2.
=
Xi X
n i=1
2
De ces quations on tire
=
Pn
1
i=1
n
Pn
1
i=1 Xi
n
Xi
2
et
Pn
n
2
X
(
1
i=1 Xi )
=
X i = Pn
.
2
n i=1
n i=1 Xi X
On retrouve donc les mmes estimateurs que dans la question prcdente.
x e
E(X ) =
0
Z
dx =
0
u2 u du
(3)
2!
2
e
= 2 = 2 = 2,
2
2
c
Jean-Yves Dauxois
Juillet
2011
88
peut scrire sous la forme E((X)]) = h(), o (x) = x2 et h(x) = 2/x2 . La fonction
h : R+ R+ tant bijective de rciproque
r
2
1
h (y) =
,
y
la mthode des moments nous donne
! s
n
X
2
1
= h1
Pn
Xi2 =
1
2
n i=1
i=1 Xi
n
comme estimateur de .
Par ailleurs, on sait (calcul ais !) que pour une loi exponentielle on a
F (t0 ) = et0 .
Posons
(x) = 1l]t0 ,+[ (x) et h() = et0
o h : R+ [0, 1] est bijective de rciproque h1 (y) = (ln y)/t0 .
La mthode des moments nous donne :
!
!
n
n
X
X
1
1
= h1 1
(Xi ) = ln
1l{Xi >t0 } .
n i=1
t0
n i=1
Exercice 3(Maximum de vraisemblance pour un modle gaussien)
1) On considre le modle gaussien {N (, 2 ) : R}. Donner lestimateur du
maximum de vraisemblance du paramtre bas sur une observation x1 , . . . , xn dun
chantillon issu de ce modle.
2) On considre maintenant le modle gaussien avec paramtre bidimensionnel, i.e.
{N (, 2 ) : R, 2 > 0}. Donner lestimateur du maximum de vraisemblance du
paramtre = (, 2 ), pour le modle dchantillonnage associ.
Solution
1) La vraisemblance pour un chantillon x1 , . . . , xn est :
(
2 )
n
n
Y
Y
1
1 xi
L(x1 , . . . , xn ; ) =
f (xi ) =
exp
2
2 2
i=1
i=1
(
)
n
2
n
1
1 X xi
=
exp
.
2 i=1
2 2
Le logarithme de la vraisemblance est alors :
2
n
1X
xi
2
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ; ) = n ln
2
.
2 i=1
Les fonctions
7
xi
2
,
c
Jean-Yves Dauxois
Juillet
2011
89
`(x1 , . . . , xn ; ) = 0.
On a :
n
1X
xi
`(x1 , . . . , xn ; ) = 0
(1) = 0.
2
2 i=1
2
Lestimateur du maximum de vraisemblance est donc :
n
1X
Xi = X
=
n i=1
2) La log-vraisemblance est toujours :
n
n
n
1X
`(x1 , . . . , xn ; , ) = ln L(x1 , . . . , xn ; , ) = ln 2 ln 2
2
2
2 i=1
2
xi
2
.
xi
2
`(, ; x1 , . . . , xn ) =
2
i=1
et on a :
`(x1 , . . . , xn ; , 2 ) =
2
n
n
1 X (xi )2
ln 2 ln 2
2
2
2 i=1
2
n
n
1X
n
1 X (xi )2
(xi )2
= 2
= 2 +
.
(1)
2
2 i=1
4
2
2 i=1
4
En annulant ces deux drives partielles, on doit rsoudre en et 2 le systme :
Pn
x P
=
i=1 (xi ) = 0
Pn (xi )2
.
n
1
n
)2 = 2
= 2
i=1 (xi x
n
i=1
4
Il apparat alors que les estimateurs du maximum de vraisemblance concident avec les
estimateurs empiriques de lesprance et de la variance :
=X
.
2
= Sn2
Exercice 4 (Maximum de vraisemblance pour un modle de loi uniforme)
On considre le modle uniforme {U[0,] : > 0}.
c
Jean-Yves Dauxois
Juillet
2011
90
o x(1) et x(n) sont respectivement les observations des statistiques dordre X(1) et X(n) .
2) Donner lestimateur du maximum de vraisemblance du paramtre .
Solution
1) La densit de la v.a.r. gnrique dans ce modle de la loi uniforme est :
1
f (x) = 1l[0,] (x).
1
1
1l
(
inf
x
)1l
(
sup
x
)
=
1l[0,+[ (x(1) )1l],] (x(n) ).
i
i
[0,+[
[0,]
i=1,...,n
n
n
i=1,...,n
91
n
X
)
xi
1lRn+ (x1 , . . . , xn ).
i=1
n
X
)
xi
1lRn+ (x1 , . . . , xn )
i=1
c
Jean-Yves Dauxois
Juillet
2011
92
et la log-vraisemblance
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ; ) = n ln
n
X
xi + ln 1lRn+ (x1 , . . . , xn ).
i=1
On a :
n X
`(x1 , . . . , xn ; ) =
xi
i=1
et
2
n
`(x1 , . . . , xn ; ) = 2 < 0.
2
Ainsi, la log-vraisemblance est concave et son maximum est atteint en la valeur qui
annule la drive premire, cest dire en tel que :
n
n X
xi = 0.
i=1
Lestimateur du maximum de vraisemblance est donc :
1
= Pnn
= .
X
i=1 Xi
3) On a
P (X > t0 ) = et0 .
On cherche donc estimer = g(), o g(x) = et0 x . Daprs le cours, lestimateur
par maximum de vraisemblance de est donn par
t0
0
t
g() = e
= exp .
X
4) La relation E(X) = 1/ suggre destimer par
= 1.
X
On retrouve le mme estimateur que par maximisation de la vraisemblance.
Par ailleurs on peut crire :
= P (X > t0 ) = E 1l{X>t0 } .
La mthode des moments suggre destimer par
n
1X
=
1l{Xi >t0 } ,
n i=1
qui est un estimateur diffrent de celui obtenu par la mthode du maximum de vraisemblance.
5) Lvnement {K = 0} revient dire que la premire panne est intervenue aprs
le temps t0 . On peut donc crire :
P (K = 0) = P (X > t0 ) = exp (t0 ).
c
Jean-Yves Dauxois
Juillet
2011
93
()
u1
1
u du
,
LG(,) (s) =
=
e
=
1
() R+ ( s)
s
() ( s)
1 s
pour s < .
La loi exponentielle tant une loi Gamma particulire de paramtres 1 et , sa
transforme de Laplace est
1
.
LE() (s) =
1 s
Calculons la transforme de Laplace de la v.a. Tk = X1 + + Xk , modlisant le
temps coul jusqu obtenir k pannes. Puisque les v.a.r. X1 , . . . , Xn sont indpendantes
et de mme loi exponentielle de paramtre , on a :
LTk (s) = E(e
s(X1 ++Xk )
)=
k
Y
sXi
E(e
i=1
)=
k
Y
i=1
1
1
=
k .
s
1
1 s
On reconnat la transforme de Laplace dune loi G(k, ). Par la proprit de caractrisation de la loi par la transforme de Laplace, on en dduit que cette dernire est
donc la loi de la v.a. Tk .
7) On a
{K = k} = {Tk t0 < Tk+1 } = {Tk t0 < Tk + Xk+1 }.
Ainsi,
ZZ
P (K = k) = P (Tk t0 < Tk + Xk+1 ) =
Z +
k k1 u
v
=
u e
e dv du
ut0 <u+v
ut0 (k)
t0 u
Z
Z
k k1 u (t0 u)
k t0 t0 k1
(t0 )k t0
=
u e e
du =
e
u du =
e
.
(k)
k!
ut0 (k)
0
ZZ
k k1 u v
u e e dudv =
(k)
On a vu dans la question 5) que cette formule est galement vraie pour k = 0. Ainsi la
loi de la v.a.r. K est une Poisson de paramtre t0 .
c
Jean-Yves Dauxois
Juillet
2011
94
n
Y
(t0 )ki et0
ki !
i=1
Pn
La log-vraisemblance est :
`(k1 , . . . , kn ; ) =
n
X
!
ki
ln(t0 ) nt0 ln
i=1
n
Y
!
ki ! .
i=1
`(; k1 , . . . , kn ) =
Pn
i=1
ki )t0
t0
nt0
et sa drive seconde
Pn
ki
2
`(; k1 , . . . , kn ) = i=1
,
2
2
qui est clairement ngative. La fonction log-vraisemblance est donc concave et son maximum atteint en la valeur qui annule la drive premire. Lestimateur du maximum de
vraisemblance est donc :
Pn
= i=1 Ki .
nt0
10) Effectuons le calcul de lesprance dune loi de Poisson de paramtre , mme
si ce rsultat est connu
+
+ k
+
X
X
X
k1
k e
= e
= e
= e e = .
E(X) =
k
k!
(k
1)!
k!
k=1
k=0
k=0
Dans notre cas, on a donc E(X) = t0 . Ainsi un estimateur par la mthode des
moments de est :
Pn
Ki
1
= K = k=1 ,
t0
nt0
qui est le mme que celui obtenu par la mthode du maximum de vraisemblance.
95
Pour les modles suivants, donner lestimateur du maximum de vraisemblance associ lobservation dun chantillon X1 , . . . , Xn .
1) Modle de la loi exponentielle dcale :
(R+ , BR+ , {Et0 () : > 0, t0 R}).
On rappelle que la densit de la loi exponentielle dcale Et0 () est :
f,t0 (x) = exp((x t0 ))1l[t0 ,+[ (x).
2) Modle de la loi Bta un seul paramtre :
(R+ , BR+ , {Beta(1, ) : > 1}).
On rappelle que la densit de la loi Beta(a, b) est :
1
xa1 (1 x)b1 1l[0,1] (x),
fa,b (x) =
(a, b)
o (a, b) est la valeur de la fonction Eulrienne Bta prise en a et b.
Ind. On pourra montrer en premier lieu que la densit pour le modle considr
est :
f (x) = (1 x)1 1l[0,1] (x).
Solution
1) La vraisemblance de lchantillon observ x1 , . . . , xn est donne par :
n
n
o
X
L(x1 , . . . , xn ; , t0 ) = n exp
(xi t0 ) 1l[t0 ,+[n (x1 , . . . , xn )
i=1
= n exp
n
o
X
est drivable et concave (on le vrifiera plus loin) sur R+ . Elle atteint donc son maximum
en la valeur qui annule la drive premire par rapport ou pour simplifier les calculs
la drive de son logarithme. On a
n
X
`(, t0 ; x1 , . . . , xn ) = ln L(, t0 ; x1 , . . . , xn ) = n ln
xi + nx(1) .
i=1
c
Jean-Yves Dauxois
Juillet
2011
96
n
`(, t0 ; x1 , . . . , xn ) =
!
xi nx(1) .
i=1
La drive seconde est alors n/2 qui est bien ngative et donc la fonction concave.
Lestimateur du maximum de vraisemblance est alors :
n
= Pn
i=1 Xi nX(1)
En rsum, pour ce modle lestimateur du maximum de vraisemblance de =
(, t0 ), est :
n
, X(1)
= (, t0 ) = Pn
i=1 Xi nX(1)
2) La densit dune loi Beta(1, ) est
1
f (x) =
(1 x)1 1l[0,1] (x) = (1 x)1 1l[0,1] (x)
(1, )
puisque
(1)()
1
(1)()
=
= .
( + 1)
()
i=1
et la log-vraisemblance
`(x1 , . . . , xn ; ) = ln L(x1 , . . . , xn ) = n ln +
n
X
( 1) ln(1 xi ) + ln C,
i=1
n X
`(x1 , . . . , xn ; ) = +
ln(1 xi ) = 0
i=1
n
2
`(x1 , . . . , xn ; ) = 2 .
2
7 L(x1 , . . . , x, ; )
c
Jean-Yves Dauxois
Juillet
2011
97
c
Jean-Yves Dauxois
Juillet
2011
Exercice 1(Qualit des estimateurs dans les modles de Poisson et de la loi exponentielle)
On considre deux modles :
celui de la loi de Poisson (N, P(N), {P() : > 0}) , o P() dsigne la loi de
Poisson de paramtre ;
celui de la loi de exponentielle (R+ , BR+ , {E() : > 0}), o E() dsigne la
loi exponentielle de paramtre .
On a vu que ces modles sont en particulier utiles pour modliser des problmes de
Fiabilit.
Pour chacun de ces modles, rpondre lensemble des questions suivantes. On
considrera chaque fois lobservation dun chantillon X1 , . . . , Xn .
1) Rappeler lexpression de lestimateur du maximum de vraisemblance dans ce
modle (on a vu quil est galement estimateur par la mthode des moments).
2) tudier la consistance, le biais et le risque quadratique de cet estimateur.
3) Si cet estimateur est biais, est-il asymptotiquement sans biais ? Donner, si
ncessaire, un estimateur sans biais. Lestimateur sans biais (linitial ou le second)
est-il efficace ? Est-il consistant ?
Solution
Modle de Poisson
1) On a vu que lestimateur du maximum de vraisemblance est :
n
X
n = 1
Xi = X
n i=1
2) Par la loi forte des grands nombres, on a p.s.
n
1X
n =
Xi E (X) = , quand n +,
n i=1
n est donc un estimateur consistant.
et
De plus, on a :
n = E (X) =
E
et cet estimateur est galement sans biais.
99
100
Calculons maintenant son risque quadratique. Comme lestimateur est sans biais,
on a :
n , ) = Var (X
n ) = 1 Var (X)
R(
n
On sait2 que la variance dune loi exponentielle de paramtre est . Ainsi, on a
2
n , ) = E
n = .
R(
n
n , ) 0, quand n +, et on a donc aussi la
Remarquons au passage que R(
2
n.
L -convergence de
3) On a vu que
n
2
1 X
xi ,
`(; x1 , . . . , xn ) = 2
2
i=1
.
n
n , ), lestimateur du maximum de vraisemblance est efficace.
Comme elle est gale R(
BCR =
1
=
Xn
i=1 Xi
est lestimateur du maximum de vraisemblance.
2) Par la loi forte des grands nombres, on a :
1
p.s.
n
X
E (X) = , quand n +,
X
X
k
k2
E(X(X 1)) =
k(k 1) e = 2 e
= 2 .
k!
(k 2)!
k=0
k=2
Do
Var(X) = E X 2 (E(X))2 = E(X(X 1)) + E(X) (E(X))2 = 2 + 2 = .
c
Jean-Yves Dauxois
Juillet
2011
101
E (n ) = E Pn
=
x e dx =
x e dx
x (n)
(n) 0
0
i=1 Xi
Z
Z +
nn
nn + y n2 y dy
=
y n2 ey dy
=
e
(n) 0
(n)n1 0
n(n 1)
n
=
=
,
(n 1)(n 1)
n1
o la quatrime galit est obtenue par le changement de variable y = x. Lestimateur
n est donc un estimateur biais.
bn () = E n =
1 =
.
n1
n1
n est donne par :
De plus, la variance de
2
2
Var (n ) = E (n ) E (n )
On a :
E
Z
n2 n n1 x
n2 n + n3 x
x e dx
x e dx =
x2 (n)
(n) 0
0
Z
Z +
n2 n + y n3 y dy
n2 n
=
=
y n3 ey dy
e
n2
(n) 0
(n)
0
2 n
2 2
n (n 2)
n
= n2
=
,
(n 1)(n 2)(n 2)
(n 1)(n 2)
Z
2
n =
(n 1)(n 2) (n 1)2
et
n2 2
n2 2
2
n , ) =
+
R(
(n 1)(n 2) (n 1)2 (n 1)2
2
2
2
=
n
(n
1)
n
(n
2)
+
(n
2)
(n 1)2 (n 2)
2
=
n2 + n 2
2
(n 1) (n 2)
c
Jean-Yves Dauxois
Juillet
2011
102
3) Nous avons vu que cet estimateur est biais. Il apparat clairement asymptotiquement sans biais.
Un estimateur sans biais de est donn par :
n1
n = n 1
n = n 1 Pnn
= Pn
.
n
n
i=1 Xi
i=1 Xi
Son risque quadratique est donn par :
n , ) = Var (
n)
R(
n 1
= Var
n
n
2
n1
n)
=
Var (
n
2
n1
(n 1)n2 n2 (n 2)
2
=
n
(n 1)2 (n 2)
n1n+2
= 2
n2
2
=
n2
Par ailleurs, on a vu que :
2
n
`(; x1 , . . . , xn ) = 2 .
2
n
`(; X1 , . . . , Xn ) = 2 .
In () = E
2
notre estimateur n natteint pas la borne de Cramer-Rao et nest donc pas efficace.
En revanche comme on a :
BCR
1
2 n 2
n2
=
=
=
1, quand n +,
2
n , )
n)
n
n
R(
In ()Var (
il est asymptotiquement efficace.
Pour la consistance, on sait que
p.s.
n
et donc
p.s.
n
,
n
c
Jean-Yves Dauxois
Juillet
2011
103
1X
F (x) =
1l{Xi x}
n i=1
2) Par la loi forte des grands nombres, on a pour tout x dans R+ :
n
1X
p.s.
1l{Xi x} F (x) = E 1l{Xi x} ,
F (x) =
n i=1
quand n + et F (x) est donc un estimateur consistant.
Par ailleurs,
n
1X
E(F (x)) =
E 1l{Xi x} = F (x)
n i=1
et F (x) est donc un estimateur sans biais.
c
Jean-Yves Dauxois
Juillet
2011
104
Comme lestimateur est sans biais son risque quadratique est gal sa variance et
il est donc gal :
!
n
n
X
1 X
1
Var 1l{Xi x}
R(F (x), F (x)) = Var F (x) = 2 Var
1l{Xi x} = 2
n
n i=1
i=1
n
1 X
F (x)F (x)
= 2
,
F (x)F (x) =
n i=1
n
4) On a vu dans le cours que la drive seconde, par rapport p, de la logvraisemblance `(y1 , . . . , yn ; p) dans un modle de Bernoulli est donne par
P
n
n ni=1 yi
2
1 X
`(y1 , . . . , yn ; p) = 2
yi
p2
p i=1
(1 p)2
Linformation de Fisher est donc donne par :
2
`(Y1 , . . . , Yn ; p)
In (p) = Ep
p2
P
n
n ni=1 E(Yi )
1 X
= 2
E(yi ) +
p i=1
(1 p)2
n np
np
+
p2
(1 p)2
n
=
.
p(1 p)
c
Jean-Yves Dauxois
Juillet
2011
105
Lestimateur F (x) atteint donc la borne de Cramer-Rao et est par consquent un estimateur efficace.
106
X 2 + X22
S1 + S2
= 1
.
2
2
On a
1
E S4 = (E X12 + E X22 ) = 2 + 2 .
2
Cet estimateur est donc biais de biais 2 . Grce lindpendance sa variance peut
scrire :
1
1
Var S4 = Var(X12 + X22 ) = (Var(X12 ) + Var(X22 )) = 4 + 22 2 .
4
4
On en dduit son biais :
R(S4 , ) = 4 + 22 2 + 4 = 2 4 + 22 2 .
Cet estimateur est donc moins bon que S3 qui est sans biais et de risque infrieur, qui
lui est donc prfrable.
* Le cinquime estimateur est dfini par :
2
X1 + X2
S5 =
.
2
c
Jean-Yves Dauxois
Juillet
2011
107
4
2
2
Var
+ 2
+ 22 2 .
= Var Y = 2
=
2
4
2
2
Ainsi, le risque quadratique de S5 est :
4
4
3 4
+ 22 2 +
=
+ 22 2 .
2
4
4
Certes, comparativement S3 , lestimateur S5 est biais mais son risque quadratique
est infrieur. Au sens du risque quadratique, il est donc prfrable S3 .
R(S5 , ) = Var (S5 ) + b2S5 () =
1X
E Xi2 = 2 + 2 .
E S4 =
n i=1
Ainsi S4 est donc biais de biais 2 . De plus,
n
1 X
2
Var S4 = 2
Var Xi2 = ( 4 + 22 2 ).
n i=1
n
Le risque quadratique de cet estimateur est
2
R(S4 , ) = ( 4 + 22 2 ) + 4 ,
n
4
qui tend vers , quand n +.
n est de loi N (, 2 /n), on peut crire :
Pour lestimateur S5 , comme on sait que X
2
+ 2 .
n
Ainsi, cet estimateur S5 est biais de biais 2 /n. Il est clairement asymptotiquement
sans biais.
2 = Var X
n + E2 X
E S5 = E X
n
n =
c
Jean-Yves Dauxois
Juillet
2011
108
b2S5 ()
=2
2
4
2
+
2
n2
n
+
2
4
3 4
2
.
=
+
4
n2
n2
n
R(S5 , ) =
+ 42 .
2
n
n
R(S4 , ) =
Or,
n2 (2 + n) 3n = 2n2 + n3 3n = n(n2 + 2n 3)
et le dernier terme est positif ds n = 1. Ainsi
2+n
3
> 2
n
n
et donc
R(S4 , ) > R(S5 , )
pour n 1. Au sens du risque quadratique, S5 est donc toujours meilleur que S4 .
Comparons les maintenant en terme de consistance. Par la loi forte des grands
nombres nous avons p.s. :
n
1X 2
S4 =
X E X 2 = 2 + 2 ,
n i=1 i
quand n +. Cet estimateur nest donc pas consistant. En revanche lestimateur
n vers
S5 lest puisque la loi des grands nombres nous donne la convergence p.s. de X
2
et donc de S5 vers (par le thorme de Slustky). Cet estimateur est donc en
fait fortement consistant. Notons que lon aurait pu retrouver ce type de rsultats en
regardant leurs risques quadratiques. On constate en effet que
R(S4 , ) = E (S4 2 )2 4
R(S5 , ) = E (S5 2 )2 0,
quand n +. Ainsi S4 nest pas L2 -consistant alors que S5 lest.
3) On cherche estimer g() = 2 . Or, on sait que lestimateur du maximum de
n . La proprit de lestimation par maximum
vraisemblance de dans ce modle est X
de vraisemblance vue en cours permet daffirmer que lestimateur du maximum de
n2 , cest dire S5 .
vraisemblance de 2 est X
Exercice 4 (Comparaison destimateurs dans un modle uniforme)
On considre le modle uniforme {U[0,] : > 0}. On considre un chantillon
X1 , . . . , Xn et on note X(1) et X(n) respectivement la premire et la dernire statistique
dordre.
c
Jean-Yves Dauxois
Juillet
2011
109
On a vu en cours que lon pouvait proposer les estimateurs suivants pour le paramtre
.
1 = X(n)
n+1
X(n)
2 =
n
3 = X(1) + X(n)
n,
4 = 2X
n est lestimateur de la moyenne empirique.
o X
1) Rappeler brivement lide la base de la proposition de chacun de ces estimateurs.
2) Pour chacun dentre eux, tudier la consistance, le biais et donner lexpression
de son risque quadratique.
3) Comparer les fonctions de risque quadratique. Quen conclure ?
Solution
1) Voir la fin du Chapitre 3.
2)
* Considrons le premier estimateur 1 = sup Xi = X(n) .
i=1,...,n
n
Y
i=1
0
x
FX (x) =
1
est
if x 0;
if x [0, ]; .
if x .
Do
FX(n) (x) =
x n
if x 0;
if x [0, ];
if x .
On a alors
P (|X(n) | > ) = P (X(n) > ) + P (X(n) < )
= P (X(n) > + ) + P (X(n) < )
= 1 FX(n) ( + ) + FX(n) ( ) = FX(n) ( )
n
n
=
= 1
c
Jean-Yves Dauxois
Juillet
2011
110
qui tend vers 0 quand n +, au moins quand 0 < < . La probabilit prcdente
tant toujours nulle si > (X(n) et ne pouvant tre distants de plus de puisque
X(n) est dans [0, ]), On a donc
P
1 = X(n) ,
0
0
n+1
n
n
= n
=
.
n+1
n+1
Lestimateur 1 est donc biais de biais :
n
=
n+1
n+1
Calculons enfin le risque quadratique de 1 . On a
Z
Z
x n1 dx
n
2
2
(x ) n (
R(1 , ) = E (1 ) =
= n
xn1 (x )2 dx
0
0
Z 1
n+2 Z 1
n
n
= n
(n)n1 2 (n 1)2 du =
(u)n1 2 (u 1)2 du
0
n
0
Z
n+2
nn+2 1 n1
n
(n)2!
=
u (1 u)2 du =
n
n
(n + 2)(n + 1)n(n)
0
22
,
=
(n + 2)(n + 1)
b1 () = E 1 =
en se souvenant que
Z
(n, 3) =
un1 (1 u)2 du =
(n)(3)
,
(n + 3)
111
On a de plus
E 2 =
n+1
n+1 n
n+1
E X(n) =
E 1 =
= .
n
n
n n+1
R(2 , ) = Var
1 =
Var (1 )
n
n
2
n + 1 2
n+1
22
2
2
=
R(1 , ) b1 () =
n
n
(n + 2)(n + 1) (n + 1)2
2
2
n+1
2(n + 1) (n + 2)
2
2
n
=
.
=
=
n
(n + 1)2 (n + 2)
n2 (n + 2)
n(n + 2)
n
(1 FX ()) = 1
i=1
qui tend vers 0 quand n tend vers +. Par le thorme de Slustky, les convergences
en probabilits respectives de X(1) et X(n) vers 0, entranent la convergence
P
3 ,
n
.
n+1
Toujours dans lexercice 3 du Chapitre 2, nous avons vu que la densit de X(1) est :
fX(1) (x) = n (1 F (x))n1 f (x).
c
Jean-Yves Dauxois
Juillet
2011
112
0
0
(n + 1)
(2)(n)
=
=
= n(2, n) = n
(n + 2)
(n + 1)(n + 1)
n+1
Ainsi
E 3 =
+
=
n+1
n+1
i=1,...,n
i=1,...,n
22
et b1 () =
.
(n + 1)(n + 2)
n+1
Do
22
2
(n + 1)(n + 2) (n + 1)2
2
n2
=
(2(n
+
1)
(n
+
2))
=
.
(n + 1)2 (n + 2)
(n + 1)2 (n + 2)
Var X(n) = Var(1 ) = R(1 , ) b21 () =
113
dudv
2
0<u<v<
Z
n(n 1)
uv(v u)n2 dudv
=
n
0<u<v<
Z Z v
u
n(n 1)
u n2
n
=
v
1
du dv
n
v
0 v
0
Z 1
Z
n(n 1) n
n2
v
w(1 w) vdw dv
=
n
0
0
Z
n(n 1) (2)(n 1) v n+2
n(n 1) n+1
v (2, n 1)dv =
=
n
n
(n + 1)
n+2 0
0
n(n 1)
2
(n 1)
= 2
=
.
n + 2 n(n 1)(n 1)
n+2
Ainsi,
2
n
2
n2
2
Cov X(1) , X(n) =
=
.
n+2 n+1n+1
n + 2 (n + 1)2
(n + 1)2 (n + 2)
On a maintenant tout ce quil faut pour calculer le risque de lestimateur 3 . Celui-ci
est donc gal :
2n2
22
n ) = 4 Var(X)
R(4 , ) = Var 4 = 4Var (X
n
Or,
Var (X) = E X 2 E2 X
c
Jean-Yves Dauxois
Juillet
2011
114
et
2
E X =
0
x2
dx
2
= .
Il vient
2 2
2
=
3
4
12
dont on dduit le risque quadratique de notre estimateur
2
4 2
=
.
R(4 , ) =
n 12
3n
Var(X) =
R(3 , ) =
(n + 1)(n + 2)
2
.
R(4 , ) =
3n
On constate que 1 et 3 ont mme risque. De plus,
R(1 , )
2n(n + 2)
2n
=
=
(n + 1)(n + 2)
n+1
R(2 , )
R(1 , ) =
qui est strictement plus grand que 1, ds que n > 1. Ainsi, R(2 , ) < R(1 ) = R(3 , ),
pour tout n > 1. Enfin,
R(4 , )
n(n + 2)
n+2
=
=
3n
3
R(2 , )
qui est aussi strictement plus grand que 1 pour n > 1. Thus, R(2 , ) < R(4 , ), pour
tout n > 1.
En conclusion 2 est prfrable tous les autres estimateurs proposs. Ces derniers
ne sont donc pas admissibles. Mais ceci ne garantie pas que 2 le soit. On peut en fait
montrer que lestimateur optimal dans la classe des estimateurs de la forme X(n) est
n+2
=
X(n) .
n+1
c
Jean-Yves Dauxois
Juillet
2011
115
o les c1 , . . . , cn sont des rels donns. Calculer le risque dun estimateur dans cette
classe (en fonction des c1 , . . . , cn ). On cherche lestimateur otpimal dans cette classe.
En admettant que la fonction minimiser est convexe, montrer que le minimum est
atteint pour les ci tous gaux 2 /(2 +n2 ). En dduire quil nexiste pas destimateur
optimal dans cette classe.
Solution
1) Un estimateur linaire est de la forme :
T (X) =
n
X
ci X i ,
i=1
o c1 , . . . , cn sont des rels fixs. Pour quil soit sans biais, on doit avoir E (T (X)) = ,
cest dire :
n
X
ci E Xi = .
i=1
Comme toutes les variables Xi ont mme esprance , il faut bien que lon ait :
n
X
ci = 1.
i=1
Comme cet estimateur est suppos sans biais, son risque scrit :
R(T (X), ) = Var T (X) = Var
n
X
i=1
ci X i =
n
X
i=1
c2i Var Xi
n
X
i=1
c2i ,
116
i=1
i=1
i=1
dont on tire :
n
1 X 2
ci .
n
i=1
On a donc :
R(T (X), ) = 2
n
X
c2i
i=1
2
n , ),
= R(X
n
n
X
ci X i
i=1
un estimateur linaire mais pas forcment sans biais de . Son biais est :
!
n
n
X
X
bS () = E S(X) =
ci =
ci 1 .
i=1
i=1
n
X
c2i + 2
i=1
!2
n
X
ci 1
i=1
La fonction
(c1 , . . . , cn ) f (c1 , . . . , cn ) = 2
n
X
c2i + 2
i=1
n
X
!2
ci 1
i=1
tant convexe, son minimum est atteint en la valeur qui annule le gradient
P
22 c1 + 22 ( ni=1 ci 1)
..
.
f (c1 , . . . , cn ) =
.P
22 cn + 22 ( ni=1 ci 1)
Or,
(1) f (c1 , . . . , cn ) = 0 22 ci + 22
n
X
!
ci 1
= 0, pour i = 1, . . . , n.
i=1
c
Jean-Yves Dauxois
Juillet
2011
117
Pour que la fonction f atteigne son minimum, il faut donc dj que c1 , . . . , cn soient
tels que :
!
n
n
X
X
2
ci + n2
ci 1 = 0
i=1
n
X
i=1
ci 2 + n2 = n2
i=1
n
X
i=1
ci =
n2
.
2 + n2
S (X) = 2
Xi
+ n2 i=1
est donc celle qui minimise le risque quadratique. Mais ce nest pas une statistique
puisquelle dpend du paramtre inconnu du modle.
c
Jean-Yves Dauxois
Juillet
2011
i=1
u n
xi !
; g (u) = e
et T (x) =
n
X
xi .
i=1
Pn
i=1
i=1
en posant
h(x) = 1 ; g (t) = n et et T (x) =
n
X
xi .
i=1
Pn
i=1
120
2
i=1
(
2 )
n
1
1 X xi
n exp
=
2 i=1
n 2
!)
(
n
n
X
X
1
1
n exp 2
x2i 2
xi + n2
=
n
2
2
i=1
i=1
)
(
)
(
n
n
2
n
X
1
1 X 2
n exp
=
xi 2 exp 2
x
2 i=1
2
2 i=1 i
n 2
= g (T (x)) h(x),
en posant
(
)
n
1 X 2
h(x) = exp 2
x
2 i=1 i
n2
1
n exp
t 2
g (t) =
2
2
n 2
n
X
xi .
T (x) =
i=1
Pn
i=1
2
avec
n
X
1
h(x) = 1 ; g2 (t) =
(xi )2 .
n exp 2 t et T (x) =
n
2
2
i=1
P
Le thorme de factorisation nous assure que la statistique T (x) = ni=1 (xi )2 est
exhaustive pour 2 .
1
n
n exp 2
L( 2 ; x1 , . . . , xn ; ) =
x2i + 2
xi 2
n
2
2
i=1
i=1
= g,2 (T (x)) h(x)
c
Jean-Yves Dauxois
Juillet
2011
121
avec
h(x) = 1
1
1
n2
n exp
g,2 (s, t) =
s 2t 2
2
2
2
n 2
!
n
n
X
X
T (x) =
xi ,
x2i .
i=1
i=1
Pn
i=1
xi ,
Pn
i=1
x2i )
i=1
Or,
kn
k1
e kn ! e
k1 !
P
P ( ni=1 Xi = k)
P (X1 = k1 , . . . , Xn = kn )
P (X1 = k1 ) P (Xn = kn )
Pn
P
=
=
P ( i=1 Xi = k)
P ( ni=1 Xi = k)
=
Cette dernire ne dpendant pas de , la statistique T (X) =
la dfinition, une statistique exhaustive pour .
Pn
k!
1
.
k1 ! kn ! nk
i=1
122
P
1) Montrer que ni=1 T (Xi ) est une statistique exhaustive pour le modle dchantillonnage associ.
2) En utilisant un rsultat obtenu dans lExercice 1 du chapitre 2, montrer que la
n est une statistique exhaustive dans un modle dchantillonnage
moyenne empirique X
de la loi Binomiale.
Solution
1) Rappelons quune famille exponentielle gnrale est un modle paramtrique o
les densits sont de la forme :
f (x) = exp {h(), T (x)i} C()h(x)
o T (x) est la statistique canonique.
La vraisemblance dun chantillon x1 , . . . , xn est alors :
(
)
n
n
X
Y
n
L(x1 , . . . , xn ; ) = exp h(),
T (xi )i (C())
h(xi )
i=1
i=1
= g (S(x)) h(x)
o
h(x) =
n
Y
h(xi )
i=1
123
n
X
Xi ?
i=1
W (X).
8) Montrer que la statistique T (X) est galement complte. Conclure.
Solution
1) On a
g() = P (X = 0) = E 1l{X=0} .
Ainsi un estimateur par la mthode des moments est :
n
W (X) =
1X
1l{Xi =0} .
n i=1
2) On a :
1
nP (X = 0) = g(),
n
ce qui prouve que W (X) est un estimateur sans biais de g() = P (X = 0).
E (W (X)) =
Par ailleurs, puisque W (X) est sans biais, son risque quadratique scrit :
!
n
X
1
R(W (X), ) = Var (W (X)) = 2 Var
1l{Xi =0}
n
i=1
On sait que
n
X
i=1
124
P
Dterminons maintenant la loi de W (X). Comme ni=1 1l{Xi =0} est de loi binomiale
de paramtres n et g(), la statistique W (X) est une v.a. discrte valeurs dans
1
n1
0, , ,
,1
n
n
telle que :
!
n
X
k
P W (X) =
= P
1l{Xi =0} = k
n
i=1
n
=
(g())k (1 g())nk
k
nk
n k
=
e
1 e
.
k
Pn3) La statistique W (X) nest pas une fonction de la statistique exhaustive T (X) =
i=1 Xi . Ainsi, grce au thorme de Rao-Blackwell, lestimateur
W (X) = E ((W (X)|T (X))
a un risque quadratique infrieur celui de W (X).
4) Effectuons le calcul pour X1 . Par symtrie le rsultat sera vrai pour tout i =
1, . . . , n.
P
Rappelons nous que ni=1 Xi est de loi de Poisson P(n). Conditionnellement
{T = t}, la valeur X1 est valeur dans {0, 1, . . . , t} et on a :
P
P (X1 = k, ni=2 Xi = t k)
P (X1 = k, T = t)
P
P (X1 = k|T = t) =
=
P (T = t)
P ( ni=1 Xi = t)
=
=
k
e
k!
((n1))tk (n1)
e
t!
(tk)!
=
(n)t n
k!(t
e
t!
k
tk
t!
k!(t k)!
1
n
1
n
(n 1)tk
k)!
nt
125
6) On a :
!
n
X
1
W (X) = E (W (X)|T (X)) = E
Yi T (X)
n i=1
T
T
n
n
1
1X
1X
1
= 1
=
E (Yi |T (X)) =
1
n i=1
n i=1
n
n
Comme W (X) tait un estimateur sans biais, le thorme de Rao-Blackwell nous assure
que W (X) est galement sans biais.
7) On a :
E z
T (X)
z P (T (X) = t) =
t=0
= en
t=0
X
(nz)t
t!
t=0
t
t (n) n
t!
On sait que
Var z
T (X)
= E
T (X) 2
E z T (X)
2
Or,
E
T (X) 2
= E (z 2 )T (X) = exp n(z 2 1) ,
126
pour tout . On a :
E (f (T (X))) =
+
X
f (t)P (T (X) = t) =
t=0
+
X
f (t)
t=0
(n)t n
e ,
t!
qui est une fonction de . Notons h la fonction dfinie pour tout > 0 par :
h() =
+
X
f (t)
t=0
nt t
.
t!
Il sagit dune srie entire que lon sait pouvoir scrire sous la forme :
h() =
+ (t)
X
h (0)
t=0
t!
t ,
= g (T (x)) h(x),
L(; x1 , . . . , xn ) =
c
Jean-Yves Dauxois
Juillet
2011
127
avec
1
1l[0,] (t) et T (x) = x(n) .
n
Daprs le thorme de factorisation, la statistique T (x) = x(n) est exhaustive pour
le paramtre .
h(x) = 1 ; g (t) =
(n)
fX(1)
=x(n)
(x1 ) =
Or, nous avons vu dans lexercice 3 du chapitre 2 que la loi de la n-ime statistique
dordre est de densit :
fX(n) (xn ) = nF n1 (xn ) f (xn )
et que celle du couple X(1) , X(n) est :
fX(1) ,X(n) (x1 , xn ) = n(n 1) (F (xn ) F (x1 ))n2 f (x1 )f (xn )1lx1 xn
Comme dans notre cas les v.a. initiales sont de loi uniforme, on a
x n1 1
n
1l[0,] (xn )
fX(n) (xn ) = n
x
x1 n2 1
n
fX(1) ,X(n) (x1 , xn ) = n(n 1)
1l0<x1 xn <
2
n(n 1)
=
(xn x1 )n2 1l0x1 xn .
n
Ainsi,
X
(n)
fX(1)
=xn
(x1 ) =
n(n1)
n
(xn x1 )n2
n n1
x
n n
= (n 1)
(xn x1 )n2
1l[0,xn ] (x1 )
xn1
n
On a alors :
E X(1) |X(n) = xn
(xn x1 )n2
=
x1 (n 1)
dx1
xn1
0
n
n2
Z xn
x1
x1
= (n 1)
1
dx1
xn
xn
0
Z 1
= (n 1)
u(1 u)n2 xn du
Z
xn
= xn (n 1)(2, n 1),
o lavant dernire galit est obtenue par le changement de variable u = x1 /xn . Comme
(2, n 1) =
1 (n 1)
1
(2)(n 1)
=
=
,
(n + 1)
n(n 1)(n 1)
n(n 1)
c
Jean-Yves Dauxois
Juillet
2011
128
on a
x(n)
E X(1) |X(n) = xn =
n
et finalement :
X(n)
.
E X(1) |X(n) =
n
3) Lestimateur (X)
amlior par le thorme de Rao-Blackwell est :
(X) = E (X)|X(n)
= E X(1) + X(n) |X(n)
= E X(1) |X(n) + X(n)
X(n)
=
+ X(n)
n
n+1
=
X(n) .
n
4) Pour toute fonction h mesurable telle que lintgrale suivante existe, on peut
crire :
Z
xn1
nh(xn ) nn dxn .
Eh(X(n) ) =
0
Ainsi, la condition
Eh(X(n) ) = 0, > 0
est quivalente
Z
h(xn )xn1
n dxn = 0, > 0.
Si la fonction h est continue, on obtient en diffrentiant par rapport que lon doit
avoir :
h(x)xn1 = 0, x > 0 et donc h(x) = 0, x > 0.
Si h nest pas continue on pourrait montrer que le rsultat reste vrai sauf sur un ensemble
de P mesure nulle.
c
Jean-Yves Dauxois
Juillet
2011
pn p
L
N (0, 1),
n p
n
p(1 p)
dont on tire
n (
pn p) N (0, p(1 p)) .
n
L
n (
pn p) N 0, I 1 (p) ,
n
129
130
L
n (
pn p) N (0, p(1 p)) .
n
Fn (x) = Yn =
Yi .
n i=1
En utilisant les rsultats de la question 1 on a :
L
n Fn (x) F (x) N (0, F (x)(1 F (x))) .
n
pn p
(X n , p) = n p
,
p(1 p)
de laquelle nous dduirions un intervalle de confiance asymptotique 1 pour p. Mais
on voit vite quil nest pas ais disoler p partir de la double ingalit
!
pn p
z1/2 n p
z1/2
p(1 p)
c
Jean-Yves Dauxois
Juillet
2011
131
pn p
(X n , p) = n p
pn (1 pn )
qui converge, elle aussi, vers une loi N (0, 1) :
L
(X n , p) N (0, 1).
(2)
On a en effet
p p
pn
p(1 p)
et
!
L
N (0, 1)
p(1 p) p.s.
1,
pn (1 pn ) n
la dernire convergence tant justifie par la proprit de forte consistance de lestimateur
du maximum de vraisemblance (Cf. Thorme 7.5). On aurait pu galement invoquer
ici la loi des grands nombres.
On peut alors crire :
!
pn p
z1/2 n p
z1/2
pn (1 pn )
r
r
pn (1 pn )
pn (1 pn )
z1/2
pn p z1/2
n
n
r
r
pn (1 pn )
pn (1 pn )
p pn + z1/2
pn z1/2
n
n
De la convergence obtenue en (2) on tire :
!
!
pn p
P z1/2 n p
z1/2 1 .
n
pn (1 pn )
Ainsi, lintervalle
"
r
pn z1/2
pn (1 pn )
, pn + z1/2
n
pn (1 pn )
n
v
v
u
u
u F (x) 1 F (x)
u F (x) 1 F (x)
n
n
t n
t n
n (x) + z1/2
Fn (x) z1/2
,
F
n
n
est un intervalle de confiance asymptotique (1 ) pour F (x).
c
Jean-Yves Dauxois
Juillet
2011
132
n
X
1) En utilisant la proprit vue en cours sur lestimateur du maximum de vraisem n est asymptotiquement normal (on prcisera bien
blance, montrer que lestimateur
la convergence en loi obtenue).
2) Retrouver le rsultat de la question prcdente en utilisant en particulier la mthode.
n , un intervalle de
3) Dduire, de ce comportement asymptotiquement normal de
confiance asymptotique 1 pour .
4) Montrer que si Y est une v.a. de loi Gamma G(, ), alors la v.a. Y est de loi
G(, 1).
5) En utilisant le rsultat de la question prcdente et celui vu dans lexercice 5
(partie 2) du chapitre 4, montrer que lintervalle
#
" 2
/2 (2n) 21/2 (2n)
n , 2nX
n
2nX
est un intervalle de confiance 1 exact pour , o 2 (n) est le quantile dordre
dune loi 2 (n). (Ind. On rappelle quune loi 2 (n) est une loi G(n/2, 1/2))
Solution
1) Grce nouveau au Thorme 7.5 sur le comportement asymptotique de lestimateur
du maximum de vraisemblance, on a :
L
n n N 0, I 1 () .
n
Xn EX
L
n
N (0, 1)
n
X
c
Jean-Yves Dauxois
Juillet
2011
133
Xn 1
1
N (0, 1).
On en dduit que
1
1
L
n Xn
N (0, 2 ).
n
1
1
0
n ) g(1/) N 0,
g
,
n g(X
n
2
cest dire
L
n
n
N
1
0, 2
n
n
= n
n
1/2
2 !
= N (0, 2 ).
L
N (0, 1)
n n
(X n , ) = n
n
z1/2
z1/2 n
n
n
n
n
z1/2
z1/2
n
n
n
n
n
n +
z1/2
z1/2 .
n
n
Comme on a
P
z1/2
!
z1/2
1 ,
n z1/2 ,
n + z1/2
n
n
est un intervalle de confiance asymptotique (1 ) pour .
c
Jean-Yves Dauxois
Juillet
2011
134
0
Z
1 1 u
h(u)
=
u e du,
(u)
0
en effectuant le changement de variable u = y dans la premire intgrale pour obtenir
la seconde. Ainsi, daprs le critre des fonctions positives, la v.a.r. Y est de loi
G(, 1).
5) On sait, daprs lExercice 5 du Chapitre 4, que si les v.a.r. X1 , . . . , Xn sont
i.i.d. de loi E(), on a :
n
X
Xi G(n, ).
i=1
i=1
Ainsi
n G
2nX
2n 1
,
2 2
= 2 (2n).
La v.a.r.
n
(X n , ) = 2nX
est alors une variable pivotale.
En notant 2/2 (2n) et 21/2 (2n) les quantiles dordre respectifs /2 et 1 /2 de
la loi 2 (2n), on a alors :
n 21/2 (2n)) = 1 .
P (2/2 (2n) 2nX
Or,
n 2
2/2 (2n) 2nX
1/2 (2n)
21/2 (2n)
2/2 (2n)
n 2nX
n .
2nX
Un intervalle de confiance exacte 1 pour est donc :
" 2
#
/2 (2n) 21/2 (2n)
.
n , 2nX
n
2nX
c
Jean-Yves Dauxois
Juillet
2011
Partie 5
Devoirs
Devoir no1
Ce devoir peut tre abord ds que les sections 1 et 2 du Chapitre 5 ont t travailles
(ainsi que les chapitres prcdents bien sr !).
Exercice 1
1) On considre le modle statistique paramtrique des lois uniformes sur [, a] pour
a fix, i.e. P = {U[,a] : < a}. On rappelle que la densit dune loi U[,a] est :
1
f (x) =
1l[,a] (x).
a
On suppose que lon observe un chantillon X1 , . . . , Xn dans ce modle. Donner au
moins deux estimateurs du paramtre . Quel est lestimateur du maximum de vraisemblance dans ce modle (justifier votre rponse) ?
2) Quel est lestimateur du maximum de vraisemblance si on considre maintenant
le modle :
P = {U[,+a] : > 0},
o a est toujours un rel fix ?
Exercice 2
On considre un modle statistique paramtrique (R+ , BR+ , {Pa : a R+ }), o Pa
est une loi de probabilit continue de densit
fa (x) =
(k + 1)xk
1l[0,a] (x),
ak+1
137
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.
Devoir no2
Ce devoir peut tre abord ds que le Chapitre 5 a t travaill (ainsi que les chapitres
prcdents bien sr !).
Exercice 1
On considre le modle constitu par lensemble des lois de Poisson de paramtre
pour > 0. Dterminer lestimateur du maximum de vraisemblance de la probabilit
P (X = 0). Cet estimateur est-il consistant ?
Exercice 2 On considre le modle statistique paramtrique dont la v.a. gnrique
X est discrte de loi dfinie, pour k N, par :
P (X = k) =
k
,
(1 + )k+1
3On
pourra utiliser la somme de la srie gomtrique et pour la variance calculer E (X(X 1)).
c
Jean-Yves Dauxois
Juillet
2011
138
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.
Devoir no3
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable quune
fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice de
rvision puisquil porte sur lensemble du programme.
Soit g une fonction de R vers R suppose positive, paire, intgrable et dintgrale 1.
Pour dans [1, 1], on dsigne par P la loi de probabilit sur (R, BR ) continue et de
densit :
f (x) = g(x)[(1 )1lR (x) + (1 + )1lR+ (x)].
On considre le modle statistique (R, BR , {P : [1, 1]}) et X = (X1 , . . . , Xn )
un chantillon dans ce modle. On dfinit la statistique
n
X
T (X) =
Yi ,
i=1
c
Jean-Yves Dauxois
Juillet
2011
139
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.
Devoir no4
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable
quune fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice
de rvision puisquil porte sur lensemble du programme.
On considre le modle de la loi Bta un seul paramtre :
(R+ , BR+ , {Beta(1, ) : > 0}).
On rappelle que la densit de la v.a. gnrique X dans ce modle est
f (x) = (1 x)1 1l[0,1] (x).
On suppose que lon observe un chantillon X1 , . . . , Xn dans ce modle.
1) Donner un estimateur de par la mthode des moments
2) crire la vraisemblance de lchantillon observ x1 , . . . , xn .
3) Donner une statistique exhaustive.
4) Donner lestimateur du maximum de vraisemblance de . On note cet estimateur.
5) Montrer que la v.a. Y = ln(1 X) est de loi exponentielle de paramtre .
6) Lestimateur est-il consistant
Pn ?
7) Montrer que la v.a. Z = i=1 Yi , o Yi = ln(1 Xi ) pour tout i = 1, . . . , n,
est de loi Gamma de paramtre n et .
8) Calculer lesprance de et en dduire que
n1
=
Z
est un estimateur sans bais de .
9) Ce dernier estimateur est-il consistant ?
10) Calculer linformation de Fisher apporte par lchantillon.
11) Lestimateur est-il efficace ? Sinon, lest-il asymptotiquement ?
12) On note Y la moyenne empirique des v.a. Y1 , . . . , Yn . Montrer que lon a la
convergence en loi
L
n(Y 1) N (0, 1),
quand n +.
13) En dduire un intervalle de confiance asymptotique 1 pour .
c
Jean-Yves Dauxois
Juillet
2011
140
Quelques rappels
On rappelle que la fonction Bta est dfinie par
Z 1
xa1 (1 x)b1 dx,
(a, b) =
0
(a) =
0
c
Jean-Yves Dauxois
Juillet
2011
141
Licence de Mathmatiques 3me anne,
CTU, Universit de Franche-Comt,
Anne 2011/2012.
Devoir no5
Ce devoir peut tre rsolu progressivement mais ne sera entirement ralisable
quune fois lensemble du cours et des exercices travaills. Il peut servir de bon exercice de rvision puisquil porte sur lensemble du programme.
On dit quune v.a.r. X est de loi de Pareto de paramtres (suppos strictement
suprieur 1) et (suppos strictement positif) si elle est absolument continue de
densit
f, (x) = ( 1)1 x 1l[,+[ (x).
Cette loi est trs utilise en gestion de la qualit, en actuariat ou bien encore en thorie
des files dattente (par exemple pour la modlisation des rseaux internet). Lobjet de
ce problme est dtudier cette loi et quelques problmes dinfrence statistique dans ce
cadre.
Partie A Quelques rsultats de probabilits (utiles dans la suite du problme)
1) Montrer que la fonction de rpartition dune telle v.a.r. est non nulle seulement
si x > et que dans ce cas elle peut scrire sous la forme :
1
F (x) = 1
.
x
2) Soit Y la v.a.r. dfinie par
Y = log
.
rappelle quune v.a.r. est dite de loi exponentielle de paramtre si elle est absolument
continue de densit :
f (x) = ex 1lR+ (x).
c
Jean-Yves Dauxois
Juillet
2011
142
2) Donner lestimateur du maximum de vraisemblance
. On justifiera bien quil
sagit dun maximum.
3) Montrer que cet estimateur est fortement consistant.
4) Montrer, en utilisant les rsultats sur le comportement asymptotique des estimateurs du maximum de vraisemblance, que lon a :
L
n(
) N (0, ( 1)2 ),
quand n +.
5) Retrouver ce rsultat par une autre mthode5.
6) Donner un intervalle de confiance asymptotique 95% pour .
Partie C Infrence sur le paramtre , en supposant connu
Dans cette partie, on suppose que le paramtre est connu et que ne lest plus.
On considre donc le modle paramtrique
(R+ , BR+ , {P : > 0}),
o P est la loi de Pareto de paramtre et . On suppose que lon observe un
chantillon X1 , . . . , Xn dans ce modle.
1) Donner une statistique exhaustive pour le paramtre .
2) Donner lestimateur du maximum de vraisemblance de .
3) Calculer la loi de cet estimateur.
Partie D Infrence dans le modle gnral
On considre maintenant le modle paramtrique
(R+ , BR+ , {P, : > 1, > 0}),
o P, est la loi de Pareto de paramtre et . On suppose que lon observe un
chantillon X1 , . . . , Xn dans ce modle.
1) Donner une statistique exhaustive dans ce modle.
2) Quel est lestimateur du maximum de vraisemblance du paramtre multidimensionnel (, ) ?
5On