Vous êtes sur la page 1sur 25

Première partie I

Cours 1 à 3 : Introduction, Modèles statistiques,


Bornes d’estimation (version corrigée, 27 fév. 2007)

Introduction

MAP433 Statistique

L’équipe enseignante
Cours Olivier Cappé, laboratoire traitement et
communication de l’information, CNRS — ENST
Petites classes
Randal Douc, département de mathématiques
appliquées, Ecole Polytechnique
Gabriel Lang, laboratoire Gestion du Risque en
Sciences de l’Eau, ENGREF
Stéphane Grégoir, Centre de Recherche en
Économie et Statistique, INSEE
Introduction

MAP433 Statistique
Le cours
Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,
9 mars, 16 mars, 30 mars, 6 avril, 20 avril
Les transparents du cours sont disponibles à
partir de
http://www.catalogue.polytechnique.fr/
Les codes scilab utilisées pour illustrer le cours
sont également disponibles (même adresse)
Tutorat Le mardi à 17h30, à partir du 27 fév. (informations
auprès de la scolarité)
Projet facultatif Les sujets seront présentés le 9 mars, s’incrire
pour le 30 mars, à rendre pour le 1er juin
(impérativement)
CC Mercredi 2 mai (attention : date modifiée)

Introduction

1 Introduction
Introduction à la statistique
Un exemple élémentaire
Statistiques descriptives

2 Modélisation statistique

3 Bornes d’estimation
Introduction Introduction à la statistique

La statistique

A pour but de fournir un ensemble de méthodes permettant, à


partir d’observations,
d’analyser (de décrire) les données observées,
mais également d’en déduire des traitements
(modèles/interprétations) :
aide à la décision, mise en évidence de facteurs explicatifs,
prédiction du comportement futur, . . .
Repose sur la modélisation probabiliste des observations

Introduction Introduction à la statistique

Exemples

Prédire le résultat d’une élection, à partir de sondage(s)


Dire si la qualité de l’air s’est ou non améliorée suite à un
aménagement routier, à partir de données de pollution
Analyser les résultats d’un vote, à partir de questionnaires
Analyser les facteurs d’échec scolaire, à partir de données
sociologiques recueillies lors de recensements
Valider l’efficacité d’un traitement médicamenteux, sur la base
d’essais cliniques
Mesurer l’impact d’un site web, à partir de mesure de
connectivité (analyse des liens hypertextes)
Détecter automatiquement des courriels non-sollicités, à partir
de corpus d’exemples
Optimiser une stratégie de gestion de portefeuille, à partir de
données historiques
Introduction Introduction à la statistique

Les observations sont vues comme des réalisations de variables


aléatoires définies sur un espace probabilisable (Ω, F)
Probabilités

Loi de probabilité Observations

Statistique

La théorie des probabilités vise à évaluer le comportement des


observations (espérance, moments, probabilités de
dépassement, comportement de sommes, . . .) étant
donné la loi de probabilité P
La statistique fournit des méthodes pour résoudre le problème
inverse dit d’inférence statistique : caractériser P au
vu des observations

Introduction Introduction à la statistique

En général, l’objectif de déterminer complètement P à partir


d’observations est trop ambitieux et il est nécessaire
1 de faire des hypothèses plus restrictives sur la loi P ; ces
hypothèses reflètent nos connaissances a priori sur le
processus qui génère les données (cf. cours suivant)
2 de considérer des observations dont la structure probabiliste
est raisonnablement simple

Modèle statique ou d’échantillonnage


Dans ce cours, on considérera uniquement le cas d’observations
Y1 , . . . , Yn indépendantes et, le plus souvent, de même loi
Introduction Un exemple élémentaire

Modèle d’échantillonnage de Bernoulli


On suppose que les observations Y1 , . . . , Yn sont des variables
indépendantes et de même loi (ou IID) à valeur dans {0, 1}
Le modèle statistique le plus simple, néanmoins rencontré dans de
nombreuses applications (tests de qualité, questionnaires . . .)

1 La loi des observations est entièrement déterminée par


def
θ = P(Yi = 1)*
2 L’inférence statistique, (( déterminer θ à partir des
observations )), est un objectif raisonnable du fait de la loi des
grands nombres
n
1 X p.s.
Yi −→ θ
n
i=1

*
Un petit souci de notation ici (cf. cours suivant)
Introduction Un exemple élémentaire

Dans ce modèle particulièrement simple, on sait également


quantifier les performances de l’inférence statistique à l’aide de
résultats
Asymptotiques comme le théorème de la limite centrale
n
!
√ 1X L
n Yi − θ −→ N (0, θ(1 − θ))
n
i=1

c’est à dire

n
"r #
n 1 X

P Yi − θ > ε → 2 (1 − Φ(ε))

θ(1 − θ) n


i=1

Non-asymptotiques comme l’inégalité d’Hoeffding


" n #
1 X
Yi − θ > ε ≤ 2 exp −2nε2

P

n
i=1
Introduction Un exemple élémentaire

n = 10 n = 100 n = 1000
2.0 0.50 0.50
1.8 0.45 0.45
1.6 0.40 0.40
1.4 0.35 0.35
1.2 0.30 0.30
1.00 1.0 0.25 0.25
0.8 0.20 0.20
0.6 0.15 0.15
0.95 0.4 0.10 0.10
0.2 0.05 0.05
0.0 0.00 0.00
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
0.90

3 3 3
0.85
2 2 2

1 1 1
0.80
0 0 0

−1 −1 −1
0.75
−2 −2 −2

0.70 −3 −3 −3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

0.65 n
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

Pn p Histogrammes
Fig.: Pn et QQ-plots de
Fig.: 1/n i=1 Yi 1/ nθ(1 − θ) i=1 (Yi − θ)
(θ = 0.9, 10 réalisations) (θ = 0.9, 100 réalisations)

quantiles empiriques

Introduction Un exemple élémentaire

Approcher θ par n1 ni=1


P
Yi constitue un exemple d’estimation : θ
est un paramètre et n1 ni=1 Yi un estimateur
P

On peut également s’intéresser


aux tests, par ex., (( les données sont-elles compatibles avec
l’hypothèse θ = θ0 ? ))
aux régions de confiance (( au vu des données, quelles sont les
valeurs de θ qui sont crédibles ? ))
Introduction Un exemple élémentaire

Une réponse possible (via Hoeffding)


" n r #
1 X log(1/α)
P Yi − θ > ≤ 2α

n 2n
i=1

q
Si n i=1 Yi − θ0 est supérieur à log(1/α)
1 Pn
2n , par exemple
pour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable
q
Les valeurs de θ situées au delà de n1 ni=1 Yi ± log(1/α)
P
2n
sont peu crédibles

Introduction Un exemple élémentaire

1.5

1.0

0.5

0.0

−0.5

−1.0

−1.5 n
0 50 100 150 200 250 300

Pn
Fig.: 1/n pi=1 (Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)
comparé à log(1/α)/2n pour α = 0.025
Introduction Un exemple élémentaire

Plus généralement

Au delà ce cas très simple


L’inférence statistique est-elle toujours un objectif
raisonnable ?
Quel type de modélisation utiliser pour la loi des observations ?
Comment systématiser l’intuition basée sur la loi des grands
nombres ?
Peut-on traiter les cas où la loi des observations dépend de
façon plus complexe des paramètres θ ?
Comment quantifier les performances de l’estimation ?
Le comportement en n observé précédemment est-il
généralisable ?
Peut-on rationaliser et généraliser les constructions de test et
de région de confiance ?

Introduction Statistiques descriptives

Un peu de terminologie
L’échantillon désigne l’ensemble des données observées Y1 , . . . , Yn
Une statistique est une fonction P des observations :
par exemple, Sn = ni=1 Yi et
Rn = max{Yi } − min{Yi } sont des statistiques ; les
estimateurs sont des statistiques bien choisies en
fonction d’un objectif
Les statistiques sont des variables aléatoires . . .
Les moments empiriques
Moyenne 1/n ni=1 Yi
P

Variance 1/n ni=1 Yi2 − (1/n ni=1 Yi )2


P P
Pn  Pn 2
= 1/n i=1 Yi − 1/n j=1 Yj
Les quantiles empiriques
Médiane Xi tel que nj=1 1{Xj ≥ Xi } = bn/2c
P
Quartiles médianes de {Xj : Xj ≤ médiane} et
{Xj : Xj ≥ médiane} QQ-plot
Introduction Statistiques descriptives

Représentations graphiques
0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00
−50 −40 −30 −20 −10 0 10 20 30 40 50

Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :


Données, histogramme, moyenne, quartiles

Introduction Statistiques descriptives

Nous considérerons souvent des données multivariées


temperature

20

15

10

−5

−10

−15

−20 latitude
25 30 35 40 45 50

Fig.: Températures relevées aux Etats-Unis : Température en fonction de


la latitude
Modélisation statistique

1 Introduction

2 Modélisation statistique
Modèles statistiques
Modèles conditionnels
Problèmes statistiques

3 Bornes d’estimation

Modélisation statistique Modèles statistiques

Modèle statistique, modèle dominé [Définitions 1.1, 1.6]


Famille de lois de probabilité P = {Pθ , θ ∈ Θ} sur un espace Y
Un modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet une
densité notée `(y; θ) par rapport à une mesure de domination µ
fixe*

Classes de modèles statistiques


Modèle paramétrique
P = {Pθ , θ ∈ Θ ⊂ Rp }, θ est le paramètre du modèle

Exemple (Modèle de Bernoulli pour des réponses binaires)


Y = {0, 1}, Pθ (Y = 1) = θ, θ ∈ [0, 1]

*
On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice de
variance-covariance) pour une valeur de θ donnée
Modélisation statistique Modèles statistiques

Classes de modèles statistiques (suite)

Modèle paramétrique avec paramètre(s) de nuisance (ou non


identifiable)
P = {Pθ , θ ∈ Θ ⊂ Rp }, g(θ) est le paramètre d’intérêt

Exemple (Modèle de dispersion gaussien)

(y − µ)2
 
1
Y = R, `(y; µ, σ) = √ exp − 2
, µ ∈ R, σ ∈ R+
2πσ 2σ

Modélisation statistique Modèles statistiques

Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas un


sous ensemble d’un espace vectoriel de dimension finie
Exemple (Estimation d’une loi discrète) Y = N, F est
l’ensemble des probabilités sur N

Modèle semi-paramétrique
P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt

Exemple (Modèle de translation) Y = R, Θ = R,


`(y; θ) = f (y − θ) où f est une densité de probabilité symétrique
(inconnue) sur R
Modélisation statistique Modèles statistiques

Modèle à variable latente


L’observation Y est une fonction d’une variable aléatoire Z, dont
la loi dépend de θ, et qui n’est pas totalement observable

Exemples
Données censurées Y = min(Y ∗ , τ )
avec Y = R, Y ∗ ∼ Pθ , τ ∈ R
Données bruitées Y = Y ∗ + U
où Y ∗ ∼ Pθ et U et Y sont indépendants
Données corrompues (par des valeurs aberrantes)
(
Y1∗ si U > ε
Y =
Y2∗ sinon

avec Y1∗ ∼ Pθ , Y2∗ ∼ Q, U ∼ Uniforme([0, 1]) (Y1∗ , Y2∗ et U


indépendants) et ε ∈]0, 1[

Modélisation statistique Modèles conditionnels

Modèle conditionnel [Section 2.2]


Les observations sont formées de couples X, Y tels que
La famille de lois conditionnelles Pθ,x (ou de densités
conditionnelles `(y|x; θ) pour un modèle dominé) dépend du
paramètre θ ∈ Θ ⊂ Rp
X est de loi marginale inconnue, ne dépendant pas de θ

Dans le cadre de ce cours, on considérera uniquement les modèles


statiques (ou M.C.S.) dans lesquels les couples (Xi , Yi ) observés
sont indépendants et de même loi
Y est dite variable endogène ou de réponse
X est dite variable exogène ou explicative
Modélisation statistique Modèles conditionnels

Modèle de régression linéaire [Section 2.2.2]


Y = R, X = Rp , β ∈ Rp ,

Eθ [Y |X] = X 0 β ou, de façon équivalente Y = X 0β + U

avec Eθ [U |X] = 0

C’est toujours un modèle semi-paramétrique (si on ne spécifie pas


la loi de X), mais conditionnellement, il sera dit
1 Paramétrique Si la loi conditionnelle de U sachant X est
spécifiée (par ex. U |X ∼ N (0, σ 2 Id) — modèle gaussien ou
normal)
2 Semi-paramétrique Si on suppose juste, par exemple, que
Eθ [kU k2 |X] < ∞

Modélisation statistique Modèles conditionnels

0.12
temperature
0.10

20
0.08

0.06
15
0.04

10 0.02

0.00 latitude
25 30 35 40 45 50

0 Fig.: Histogramme
−5
des latitudes
−10

−15

−20 latitude
25 30 35 40 45 50

Fig.: Température en fonction de la latitude dans


56 villes américaines
Modélisation statistique Modèles conditionnels

Dans le polycopié une grande partie des résultats sont données


dans le cas (plus général) où X est aléatoire, mais on s’intéresse
aussi souvent au cas ou X est déterministe

Exemple (Données de durée du jour)

ms

3.0

2.5

2.0
FIG. : Variation de
1.5
la durée du jour en
1.0 ms (mesures
0.5 journalières sur 10
0.0 ans)
−0.5

−1.0

−1.5 année
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Modélisation statistique Modèles conditionnels

Notation
EX espérance par rapport à la loi des variables exogènes
Principales propriétés de l’espérance conditionnelle
1 Soit h et g des fonctions (Eθ |h(Y )| < ∞, Eθ |g(X)h(Y )| < ∞)

Eθ [g(X)h(Y )|X] = g(X)Eθ [h(Y )|X]

2 Soit une fonction h (Eθ |h(Y )| < ∞)

Eθ [h(Y )] = E {Eθ [h(Y )|X]}

3 Soit une fonction h (Eθ [h(Y )2 ] < ∞)

Vθ [h(Y )] = V {Eθ [h(Y )|X]} + E {Vθ [h(Y )|X]}


h i
def 2
où Vθ [h(Y )|X] = Eθ (h(Y ) − Eθ [ h(Y )| X]) X
Modélisation statistique Problèmes statistiques

Les grandes classes de problèmes statistiques [Section 1.2]


Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (où
g n’est pas nécessairement injective) ; réponse :
valeur estimée θ̂ ∈ Θ
Test Déterminer si θ (ou g(θ)) est ou non élément de
G ⊂ Θ ; réponse : décision binaire ∈ {0, 1}
Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;
réponse : Ĝ ⊂ Θ
Dans les trois cas, on souhaite fournir, en plus du résultat, une
façon de quantifier sa fiabilité

Remarque : Les observations étant aléatoires, les résultats de


l’inférence statistiques le sont aussi. Il existe donc toujours une
probabilité non nulle de fournir un résultat (( incorrect )). On peut
néanmoins s’attendre à ce que cette probabilité devienne
arbitrairement faible lorsque le nombre d’observations augmente
Bornes d’estimation

1 Introduction

2 Modélisation statistique

3 Bornes d’estimation
Risque quadratique, biais, variance
Conditions de régularité
Information de Fisher
Borne de Cramer-Rao (Inégalité d’information)
Modèles exponentiels
Bornes d’estimation Risque quadratique, biais, variance

Risque quadratique (cas scalaire) [Section 4.1]


Pour quantifier la performance d’un estimateur θ̂ = δ(Y )
On définit une fonction de perte l(ϕ; θ) à valeur dans R+ qui
représente la pénalité liée à l’approximation de θ par ϕ
Pour un paramètre θ réel, le choix le plus courant est la perte
quadratique l(ϕ; θ) = (ϕ − θ)2
Le risque mesure, en moyenne, la perte liée à l’estimation de θ
par l’estimateur θ̂
Dans le cas de la perte quadratique, on obtient le risque
quadratique :
r(θ̂; θ) = Eθ (δ(Y ) − θ)2

Bornes d’estimation Risque quadratique, biais, variance

Décomposition biais/variance

r(θ̂; θ) = Vθ (δ(Y )) + b2 (θ̂; θ)


où
def
b(θ̂; θ) = Eθ [δ(Y )] − θ est le biais,
Vθ [θ̂] = Eθ (δ(Y ) − Eθ [δ(Y )])2 est la variance de l’estimateur

Preuve

(δ(Y ) − θ)2 = {[δ(Y ) − Eθ (δ(Y ))] + [Eθ (δ(Y )) − θ]}2

Puis développer le carré et prendre l’espérance


Bornes d’estimation Risque quadratique, biais, variance

Exemple (Estimateur à rétrécissement)


Soit θ̂ un estimateur sans biais de θ de variance υ(θ)

L’estimateur γ θ̂, υ(θ)


avec γ ∈ [0, 1], a
pour risque θ2
quadratique : θ2 υ(θ)
θ2 +υ(θ)
(γ − 1)2 θ2 + γ 2 υ(θ)
θ2
| {z } | {z }
biais2 variance 0 2
θ +υ(θ) 1
p
Si |θ| est suffisamment faible, en particulier si |θ| ≤ υ(θ), γ θ̂ est
préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|

En général, le risque quadratique ne permet pas d’ordonner


totalement les estimateurs

Bornes d’estimation Risque quadratique, biais, variance

Risque quadratique (cas vectoriel) [Proposition 4.2]


Dans le cas vectoriel, on définit le risque matriciel d’un estimateur
θ̂ = δ(Y ) par

r(θ̂; θ) = Eθ (δ(Y ) − θ)(δ(Y ) − θ)0


 

Comme dans le cas scalaire,

r(θ̂; θ) = (Eθ [δ(Y )] − θ) (Eθ [δ(Y )] − θ)0 + Vθ [δ(Y )]


| {z } | {z }
biais matrice de
covariance

Si r(θ̃; θ)  r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même à


θ fixé, il s’agit d’une relation d’ordre partiel)
Bornes d’estimation Risque quadratique, biais, variance

Les bornes d’estimation


On cherche à répondre à la question (( quelles sont les meilleures
performances envisageables en terme de risque quadratique ? ))
Intuitivement, la réponse à cette question est liée à la sensibilité de
la vraisemblance `(·; θ) vis à vis de θ :

θ
θ+∆θ
θ−∆θ

θ
θ+∆θ
θ−∆θ

Bornes d’estimation Conditions de régularité

Modèle régulier [Section 3.3.1]


Le modèle {Pθ , θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp est
dominé par une mesure µ avec des densités de probabilités
{`(y, θ), θ ∈ Θ} telles que
C1 `(y; θ) > 0 (modèle homogène)
C2 `(y; θ) est deux fois différentiable en θ
∂ log `(Y ;θ) 2

C3 Eθ ∂θ <∞
R
C4 Pour tout B ∈ B(Y), B `(y; θ)µ(dy) peut être dérivé deux
fois sous l’intégrale

Estimateur régulier [Section 4.4]


Un estimateur θ̂ = δ(Y ) de θ est dit régulier si
Eθ kδ(Y )k2 < ∞, pour tout θ ∈ Θ
R
δ(y)`(y; θ)µ(dy) peut être dérivé en θ sous le signe intégrale
Bornes d’estimation Information de Fisher

Information de Fisher [Définition 3.7]


Pour un modèle régulier, la matrice d’information de Fisher* est
définie par  
∂ log `(Y ; θ)
IF (θ) = Vθ
∂θ
où, pour un paramètre vectoriel, Vθ désigne la matrice de
covariance

Propriété [Théorème 3.8]

∂ 2 log `(Y ; θ)
 
IF (θ) = −Eθ
∂θ∂θ0

*
Ronald A. Fisher (1890 – 1962)
Bornes d’estimation Information de Fisher

Preuve

∂ 2 log `(Y ; θ)
 
− Eθ =
∂θ∂θ0
1 ∂ 2 `(Y ; θ)
 
1 ∂`(Y ; θ) ∂`(Y ; θ)
− Eθ − 2
`(Y ; θ) ∂θ∂θ0 ` (Y ; θ) ∂θ ∂θ0
| {z } | {z }
R ∂ 2 `(y;θ) ∂ log `(Y ;θ) ∂ log `(Y ;θ)
∂θ∂θ 0
µ(dy) ∂θ ∂θ 0
 
∂ log `(Y ; θ)
= Vθ
∂θ
R
En notant que `(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que
h i R 2
∂ log `(Y ;θ)
Eθ ∂θ et ∂∂θ∂θ
`(y;θ)
0 µ(dy) sont nuls
Bornes d’estimation Information de Fisher

Propriétés de l’information de Fisher



∂ log `(Y ;θ)
IF (θ) = 0 ssi ∂θ = 0 avec Pθ probabilité 1
Si X et Y sont indépendants, IFX,Y (θ) = IFX (θ) + IFY (θ)
en particulier, si Y1 , . . . , Yn sont IID,

IFY1 ,...,Yn (θ) = nIFY1 (θ)

De façon générale, IFX,Y (θ)  IFX (θ), avec égalité uniquement


si la loi conditionnelle de Y sachant X ne dépend pas de θ,
avec Pθ probabilité 1 [Section 3.2]
Dans un modèle conditionnel,
(  2 )
∂ log `(Y |X; θ)
IF (θ) = E −Eθ X
∂θ∂θ0
| {z }
information conditionnelle

Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]


Si le modèle est régulier et IF (θ) est définie positive pour tout
θ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais de
θ
Vθ [δ(Y )]  IF−1 (θ)

Remarque M1  M2 ⇐⇒ ∀α ∈ Rp , αM1 α0 ≥ αM2 α0 , d’où


p
!
X
Vθ αk θ̂k ≥ αIF−1 (θ)α0
k=1

Rd ), IF−1 (θ) kk

(pour tout vecteur α ∈ en particulier Vθ (θ̂k ) ≥

*
Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)
Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Preuve (Cas d’un paramètre scalaire)


Z R
d log `(y; θ) d `(y; θ)µ(dy)
`(y; θ)µ(dy) = =0 (1)
dθ dθ
θ
zZ }| {
Z d δ(y)`(y; θ)µ(dy)
d log `(y; θ)
δ(y) `(y; θ)µ(dy) = = 1 (2)
dθ dθ
d’où Z
d log `(y; θ)
(δ(y) − θ) `(y; θ)µ(dy) = 1

et par application de l’inégalité de Cauchy-Schwarz

d log `(y; θ) 2
Z Z  
12 ≤ (δ(y) − θ)2 `(y; θ)µ(dy) `(y; θ)µ(dy)

| {z }| {z }
Vθ (θ̂) IF (θ)

Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Preuve (Cas d’un paramètre vectoriel) En procédant comme


précédemment
 
Z 1
∂ log `(y; θ) def  ..
(δ(y) − θ) `(y; θ)µ(dy) = Id =

| {z } | ∂θ 0 | {z } . 
a(y)
{z }
λ(dy) 1
b0 (y)

def R
a(y)b0 (y)λ(dy) = Id et M = b(y)b0 (y)λ(dy)  0 implique
R
Puis
Z
0
a(y) − M −1 b(y) a(y) − M −1 b(y) λ(dy)  0


| R
{z }
a(y)a0 (y)λ(dy)−M −1

c’est à dire Z
a(y)a0 (y)λ(dy)  M −1
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Exemple (Modèle d’échantillonnage de Poisson)


Y1 , . . . , Yn sont indépendants de loi 0.40
0.5
5
0.35 10

y
−θ θ
0.30

Pθ (Y = y) = e pour y ∈ N 0.25

y! 0.20

0.15

0.10

(Eθ [Y ] = θ, Vθ [Y ] = θ) 0.05

0.00
0 2 4 6 8 10 12 14 16 18 20

IFY1 (θ) Y1
= 1θ , d’où IFY1 ,...,Yn (θ) = n

= Vθ −1 + θ θ et

θ
Vθ (θ̂n ) ≥
n

pour tout estimateur θ̂n non biaisé


1 Pn
θ̂n = n i=1 Yi atteint la borne, il est dit estimateur efficace
de θ

Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Remarque En examinant la preuve de l’inégalité de FDCR (cas


scalaire), on obtient un critère d’efficacité puisque cette dernière
correspond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,
c’est à dire au cas où
d log `(y; θ)
∃C ∈ R : δ(y) − θ = C (Pθ presque partout)

La fonction s(y; θ) = d logdθ


`(y;θ)
est dite fonction de score (nous
avons en particulier montré que Eθ [s(Y ; θ)] = 0)
Dans le cas du modèle de Poisson s(y; θ) = −1 + Y /θ, ce qui
montre l’efficacité

Le critère se généralise au cas multidimensionnel


Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Généralisation [Théorème 4.9]


Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr

∂g(θ) −1 ∂g 0 (θ)
Vθ (δ(Y ))  I (θ)
∂θ0 F ∂θ

(voir la preuve dans le polycopié)

Remarque (1) Dans le cas où ϕ = g(θ) correspond à une


reparamétrisation (g bijective), on a
−1 −1
∂g 0 (θ)
 
∂g(θ)
IF (ϕ) = IF (θ)
∂θ ∂θ0
0
∂ g −1 (ϕ) ∂g −1 (ϕ)
= IF (θ)
∂ϕ ∂ϕ0

(où θ = g −1 (ϕ))
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)

Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est un


estimateur non biaisé de g(θ) = b(θ) + θ d’où
0 (θ)
   
∂b(θ) −1 ∂b
Vθ (θ̂)  Id + IF (θ) Id +
∂θ0 ∂θ

Remarque (3) La borne n’est pas nécessairement atteignable


[Example 4.10]

Dans un modèle régulier, la variance d’un estimateur θ̂n régulier


décroı̂t (au mieux) à la vitesse 1/n
Bornes d’estimation Modèles exponentiels

Modèle exponentiel [Définition 3.20]


Un modèle statistique est dit exponentiel sous forme naturelle si

`(y; θ) = C(θ)h(y) exp θ0 T (y)


 

où T (y) est la statistique canonique (vectorielle) et θ le paramètre


naturel du modèle

Exemples

Loi exponentielle f (y; θ) = θ exp(−θy)


Loi gaussienne à variance connue

(y − µ)2
 
1
f (y; µ) = √ exp −
2πσ 2σ 2
µ2 y2
   
1 h y i
=√ exp − 2 exp − 2 exp µ 2
2πσ 2σ 2σ σ

Bornes d’estimation Modèles exponentiels

Exhaustivité de la statistique naturelle [Proposition 3.21]


La statistique T (y) est exhaustive, ce qui implique en particulier
T (Y )
que IF (θ) = IFY (θ)

Modèle d’échantillonnage de Bernoulli


Si Y1 , . . . , Yn ∈ {0, 1} sont IID de loi Pθ (Yi = 1) = θ,
n
Y
`n (Y1 , . . . , Yn ; θ) = f (Yi ; θ) =
i=1
n n Yi 
Y Y θ 1
θiY (1 − θ)Yi −1 = =
1−θ1−θ
i=1 i=1
n n
"   #  !
Y 1 θ  n X
exp Yi log = 1 + eβ exp β Yi
1−θ 1−θ
i=1 | {z } i=1
paramètre naturel β
Bornes d’estimation Modèles exponentiels

Information dans le modèle exponentiel [Proposition 3.22]

IF (θ) = Vθ [T (Y )]

On montre de plus que les conditions de régularité du modèle se


ramènent au fait que la matrice de covariance Vθ [T (Y )] soit
définie positive (pour tout θ)

Bornes d’estimation Modèles exponentiels

Preuve `(y; θ) = C(θ)h(y) exp [θ0 T (y)] implique que


∂ log `(y; θ) ∂ log C(θ)
= + T (y)
∂θ ∂θ
R 0
−1
Par ailleurs, C(θ) = h(y) exp [θ T (y)] µ(dy) , donc
Z
∂ log C(θ)
T (y)C(θ)h(y) exp θ0 T (y) µ(dy)
 
=−
∂θ
| {z }
Eθ [T (Y )]

D’où
 0
IF (θ) = Eθ (T (y) − Eθ [T (Y )]) (T (y) − Eθ [T (Y )])
= Vθ [T (Y )]

Vous aimerez peut-être aussi