Vous êtes sur la page 1sur 25

Premi`ere partie I

Cours 1 `a 3 : Introduction, Mod`eles statistiques, Bornes d’estimation

(version corrig´ee, 27 f´ev. 2007)

Introduction

MAP433 Statistique

L’´equipe enseignante

Cours Olivier Capp´e, laboratoire traitement et

communication de l’information, CNRS — ENST

Petites classes

Randal Douc, d´epartement de math´ematiquesde l’information, CNRS — ENST Petites classes appliqu´ees, Ecole Polytechnique Gabriel Lang, laboratoire

appliqu´ees, Ecole Polytechnique

Gabriel Lang, laboratoire Gestion du Risque ende math´ematiques appliqu´ees, Ecole Polytechnique Sciences de l’Eau, ENGREF St´ephane Gr´egoir, Centre de

Sciences de l’Eau, ENGREF

St´ephane Gr´egoir, Centre de Recherche enPolytechnique Gabriel Lang, laboratoire Gestion du Risque en Sciences de l’Eau, ENGREF ´ Economie et Statistique,

´

Economie et Statistique, INSEE

Introduction

MAP433 Statistique

Le cours

Amphis & PC Vendredi 2 f´evrier, 9 f´evrier, 16 f´evrier, 2 mars, 9 mars, 16 mars, 30 mars, 6 avril, 20 avril

Les transparents du cours sont disponibles `a partir de http://www.catalogue.polytechnique.fr/ http://www.catalogue.polytechnique.fr/

Les codes scilab utilis´ees pour illustrer le cours sont ´egalement disponibles (mˆeme adresse) scilab utilis´ees pour illustrer le cours sont ´egalement disponibles (mˆeme adresse)

Tutorat Le mardi `a 17h30, `a partir du 27 f´ev. (informations aupr`es de la scolarit´e)

Projet facultatif Les sujets seront pr´esent´es le 9 mars, s’incrire pour le 30 mars, `a rendre pour le 1er juin (imp´erativement)

CC Mercredi 2 mai (attention : date modifi´ee)

Introduction

1
1

Introduction Introduction `a la statistique

Introduction Introduction `a la statistique
Un exemple ´el´ementaire

Un exemple ´el´ementaire

Statistiques descriptives

Statistiques descriptives

2
2

Mod´elisation statistique

3
3

Bornes d’estimation

La statistique

Introduction

Introduction `a la statistique

A pour but de fournir un ensemble de m´ethodes permettant, `a partir d’ observations , m´ethodes permettant, `a partir d’observations,

d’analyser (de d´ecrire) les donn´ees observ´ees, analyser (de d´ecrire) les donn´ees observ´ees,

mais ´egalement d’en d´eduire des traitements (mod`eles/interpr´etations) : traitements (mod`eles/interpr´etations) :

aide `a la d´ecision, mise en ´evidence de facteurs explicatifs, pr´ediction du comportement futur,

Repose sur la mod´elisation probabiliste des observations mod´elisation probabiliste des observations

Introduction

Introduction `a la statistique

Exemples

Pr´edire le r´esultat d’une ´election, `a partir de sondage(s)Exemples Dire si la qualit´e de l’air s’est ou non am´elior´ee suite `a un am´enagement routier,

Dire si la qualit´e de l’air s’est ou non am´elior´ee suite `a unle r´esultat d’une ´election, `a partir de sondage(s) am´enagement routier, `a partir de donn´ees de pollution

am´enagement routier, `a partir de donn´ees de pollution

Analyser les r´esultats d’un vote, `a partir de questionnairesam´enagement routier, `a partir de donn´ees de pollution Analyser les facteurs d’´echec scolaire, `a partir de

Analyser les facteurs d’´echec scolaire, `a partir de donn´eesles r´esultats d’un vote, `a partir de questionnaires sociologiques recueillies lors de recensements Valider

sociologiques recueillies lors de recensements

Valider l’efficacit´e d’un traitement m´edicamenteux, sur la basede donn´ees sociologiques recueillies lors de recensements d’essais cliniques Mesurer l’impact d’un site web, `a

d’essais cliniques

Mesurer l’impact d’un site web, `a partir de mesure detraitement m´edicamenteux, sur la base d’essais cliniques connectivit´e (analyse des liens hypertextes) D´etecter

connectivit´e (analyse des liens hypertextes)

D´etecter automatiquement des courriels non-sollicit´es, `a partirde mesure de connectivit´e (analyse des liens hypertextes) de corpus d’exemples Optimiser une strat´egie de gestion

de corpus d’exemples

Optimiser une strat´egie de gestion de portefeuille, `a partir deD´etecter automatiquement des courriels non-sollicit´es, `a partir de corpus d’exemples donn´ees historiques

donn´ees historiques

Introduction

Introduction `a la statistique

Les observations sont vues comme des r´ealisations de variables al´eatoires d´efinies sur un espace probabilisable (Ω, F )

Probabilités

sur un espace probabilisable (Ω , F ) Probabilités Loi de probabilité Observations Statistique La th´eorie
Loi de probabilité
Loi de probabilité
Observations
Observations
(Ω , F ) Probabilités Loi de probabilité Observations Statistique La th´eorie des probabilit´es vise `a

Statistique

La th´eorie des probabilit´es vise `a ´evaluer le comportement des observations (esp´erance, moments, probabilit´es de

d´epassement, comportement de sommes, donn´e la loi de probabilit´e P

.) ´etant

La statistique fournit des m´ethodes pour r´esoudre le probl`eme inverse dit d’inf´erence statistique : caract´eriser P au vu des observations

Introduction

Introduction `a la statistique

En g´en´eral, l’objectif de d´eterminer compl`etement P `a partir d’observations est trop ambitieux et il est n´ecessaire

de faire des hypoth`eses plus restrictives sur la loi P ; ces hypoth`eses refl`etent nos connaissances a priori sur le processus qui g´en`ere les P ; ces hypoth`eses refl`etent nos connaissances a priori sur le processus qui g´en`ere les donn´ees (cf. cours suivant)

de consid´erer des observations dont la structure probabiliste est raisonnablement simplele processus qui g´en`ere les donn´ees (cf. cours suivant) Mod`ele statique ou d’ ´echantillonnage Dans ce

Mod`ele statique ou d’´echantillonnage

Dans ce cours, on consid´erera uniquement le cas d’observations

Y 1 ,

, Y n ind´ependantes et, le plus souvent, de mˆeme loi

Introduction

Un exemple ´el´ementaire

Mod`ele d’´echantillonnage de Bernoulli

On suppose que les observations Y 1 ,

, Y n sont des variables

ind´ependantes et de mˆeme loi (ou IID) `a valeur dans {0, 1}

Le mod`ele statistique le plus simple, n´eanmoins rencontr´e dans de

nombreuses applications (tests de qualit´e, questionnaires

.)

1
1

La loi des observations est enti`erement d´etermin´ee par

θ

def = P(Y i = 1) *

2
2

L’inf´erence statistique, ✭✭ d´eterminer θ `a partir des

observations ✮✮, est un objectif raisonnable du fait de la loi des

grands nombres

1

n

n

i=1

Y

i

p.s.

−→ θ

* Un petit souci de notation ici (cf. cours suivant)

Introduction

Un exemple ´el´ementaire

Dans ce mod`ele particuli`erement simple, on sait ´egalement

quantifier les performances de l’inf´erence statistique `a l’aide de

r´esultats

Asymptotiques comme le th´eor`eme de la limite centrale

n

1

n

n

i=1

Y i θ

L

−→ N (0, θ(1 θ))

c’est `a dire

P

n

n

1

θ(1 θ)

n

i=1

Y i θ > ε 2 (1 Φ(ε))

Non-asymptotiques comme l’in´egalit´e d’Hoeffding

P

1

n

n

i=1

Y i θ > ε 2 exp 22

Introduction

1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0 500 1000 1500 2000 2500 3000
1.00
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Fig.: 1/n n
i=1 Y i

n

(θ = 0.9, 10 r´ealisations)

Introduction

Un exemple ´el´ementaire

n = 10 n = 100 n = 1000 2.0 0.50 0.50 1.8 0.45 0.45
n = 10
n = 100
n = 1000
2.0
0.50
0.50
1.8
0.45
0.45
1.6
0.40
0.40
1.4
0.35
0.35
1.2
0.30
0.30
1.0
0.25
0.25
0.8
0.20
0.20
0.6
0.15
0.15
0.4
0.10
0.10
0.2
0.05
0.05
0.0
0.00
0.00
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
3
3
3
3
2
2
2
1
1
1
0
0
0
−1
−1
−1
−2
−2
−2
−3
−3
−3
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
3
−3
−2
−1
0
1
2
3

Fig.: Histogrammes et QQ-plots de

1/ (1 θ) i=1 n (Y i θ) (θ = 0.9, 100 r´ealisations)

quantiles empiriques

quantiles empiriques

Un exemple ´el´ementaire

Approcher θ par

est un param`etre et

n n

1

i=1 Y i constitue un exemple d’estimation : θ

1

n n

i=1 Y i un estimateur

On peut ´egalement s’int´eresser

aux tests , par ex., ✭✭ les donn´ees sont-elles compatibles avec l’hypoth`ese θ = θ 0 tests, par ex., ✭✭ les donn´ees sont-elles compatibles avec l’hypoth`ese θ = θ 0 ? ✮✮

aux r´egions de confiance ✭✭ au vu des donn´ees, quelles sont les valeurs de θ qui r´egions de confiance ✭✭ au vu des donn´ees, quelles sont les valeurs de θ qui sont cr´edibles ? ✮✮

Introduction

Un exemple ´el´ementaire

Une r´eponse possible (via Hoeffding)

P

1

n

n

i=1

Y i θ

> log(1)

2n

2α

n n i =1 Y i − θ > log(1 /α ) 2 n ≤ 2

est sup´erieur `a log(1/α) , par exemple

2n

Si

pour α = 0.025, l’affirmation ✭✭ θ = θ 0 ✮✮ est peu vraisemblable

n n

1

i=1 Y i θ 0

Les valeurs de θ situ´ees au del`a de θ situ´ees au del`a de

sont peu cr´edibles

i=1 Y i ± log(1)

2n

n n

1

Introduction

Un exemple ´el´ementaire

1.5 1.0 0.5 0.0 −0.5 −1.0 −1.5 0 50 100 150 200 250 300
1.5
1.0
0.5
0.0
−0.5
−1.0
−1.5
0
50
100
150
200
250
300

n

Fig.: 1/n i=1 n (Y i 0.9) pour θ = 0.9 et θ = 0.75 (5 r´ealisations)

compar´e `a log(1)/2n pour α = 0.025

Introduction

Plus g´en´eralement

Au del`a ce cas tr`es simple

Un exemple ´el´ementaire

L’inf´erence statistique est-elle toujours un objectif raisonnable ?Au del`a ce cas tr`es simple Un exemple ´el´ementaire Quel type de mod´elisation utiliser pour la

Quel type de mod´elisation utiliser pour la loi des observations ?statistique est-elle toujours un objectif raisonnable ? Comment syst´ematiser l’intuition bas´ee sur la loi des

Comment syst´ematiser l’intuition bas´ee sur la loi des grands nombres ?de mod´elisation utiliser pour la loi des observations ? Peut-on traiter les cas o`u la loi

Peut-on traiter les cas o`u la loi des observations d´epend de fa¸con plus complexe des param`etres θ ? θ ?

Comment quantifier les performances de l’estimation ?d´epend de fa¸con plus complexe des param`etres θ ? Le comportement en n observ´e pr´ec´edemment est-il

Le comportement en n observ´e pr´ec´edemment est-il g´en´eralisable ? n observ´e pr´ec´edemment est-il g´en´eralisable ?

Peut-on rationaliser et g´en´eraliser les constructions de test et de r´egion de confiance ?en n observ´e pr´ec´edemment est-il g´en´eralisable ? Introduction Un peu de terminologie Statistiques

Introduction

Un peu de terminologie

Statistiques descriptives

L’´echantillon d´esigne l’ensemble des donn´ees observ´ees Y 1 ,

, Y n

Une statistique est une fonction des observations :

par exemple, S n = n

i=1 Y i et

R n = max{Y i } − min{Y i } sont des statistiques ; les estimateurs sont des statistiques bien choisies en fonction d’un objectif

des statistiques bien choisies en fonction d’un objectif Les statistiques sont des variables al´eatoires Les moments

Les statistiques sont des variables al´eatoires

Les moments empiriques

Moyenne 1 /n n 1/n n

i=1 Y i

Variance 1 /n n 1/n n

i=1 Y i

2

(1/n n

i=1 Y i ) 2

= 1/n i=1 n Y i 1/n

n j=1 Y j 2

Les quantiles empiriques

M´ediane X i tel que j = 1 { X j ≥ X i } = X i tel que j=1 {X j X i } = n/2

Quartiles m´edianes de { X j : X j ≤ m´ediane } et m´edianes de {X j : X j m´ediane} et

n

{X j : X j m´ediane}

QQ-plot
QQ-plot

Introduction

Statistiques descriptives

Repr´esentations graphiques

0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00

graphiques 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 −50 −40 −30 −20 −10

−50

−40

−30

−20

−10

0

10

20

30

40

50

Fig.: Mesures historiques de la vitesse de la lumi`ere (Newcomb, 1891) :

Donn´ees, histogramme, moyenne, quartiles

Introduction

Statistiques descriptives

Nous consid´ererons souvent des donn´ees multivari´ees

temperature 20
temperature
20
souvent des donn´ees multivari´ees temperature 20 15 10 5 0 −5 −10 −15 −20 25 30

15

10

5

0

−5

−10

−15

−20

25

30

35

40

45

50

latitude

Fig.: Temp´eratures relev´ees aux Etats-Unis : Temp´erature en fonction de la latitude

Mod´elisation statistique

1
1

Introduction

2
2

Mod´elisation statistique

Mod`eles statistiques1 Introduction 2 Mod´elisation statistique Mod`eles conditionnels Probl`emes statistiques 3 Bornes

Mod`eles conditionnelsIntroduction 2 Mod´elisation statistique Mod`eles statistiques Probl`emes statistiques 3 Bornes d’estimation

Probl`emes statistiquesIntroduction 2 Mod´elisation statistique Mod`eles statistiques Mod`eles conditionnels 3 Bornes d’estimation

3
3

Bornes d’estimation

Mod´elisation statistique

Mod`eles statistiques

Mod`ele statistique, mod`ele domin´e

[D´efinitions 1.1, 1.6]

Famille de lois de probabilit´e P = {P θ , θ Θ} sur un espace Y Un mod`ele est dit domin´e lorsque pour tout θ Θ, P θ admet une densit´e not´ee (y; θ) par rapport `a une mesure de domination µ fixe *

Classes de mod`eles statistiques

Mod`ele param´etrique

P

= {P θ , θ Θ R p }, θ est le param`etre du mod`ele

Exemple (Mod`ele de Bernoulli pour des r´eponses binaires)

Y = {0, 1}, P θ (Y

= 1) = θ, θ [0, 1]

* On note P θ la probabilit´e, E θ l’esp´erance, V θ la variance (ou matrice de variance-covariance) pour une valeur de θ donn´ee

Mod´elisation statistique

Mod`eles statistiques

Classes de mod`eles statistiques (suite)

Mod`ele param´etrique avec param`etre(s) de nuisance (ou non identifiable)

P

= {P θ , θ Θ R p }, g(θ) est le param`etre d’int´erˆet

Exemple (Mod`ele de dispersion gaussien)

Y = R,

(y; µ, σ) = 2πσ exp

1

Y = R , ( y ; µ , σ ) = √ 2 πσ exp

(y µ) 2

2σ 2

Mod´elisation statistique

Mod`eles statistiques

, µ R, σ R +

Mod`ele non-param´etrique P = {P f , f ∈ F} o`u F n’est pas un

sous ensemble d’un espace vectoriel de dimension finie

Exemple (Estimation d’une loi discr`ete) Y = N, F est

l’ensemble des probabilit´es sur N

Mod`ele semi-param´etrique

P

= {P θ,f , θ Θ, f ∈ F}, θ est le param`etre d’int´erˆet

Exemple (Mod`ele de translation) Y = R, Θ = R,

(y; θ) = f (y θ) o`u f est une densit´e de probabilit´e sym´etrique

(inconnue) sur R

Mod´elisation statistique

Mod`eles statistiques

Mod`ele `a variable latente

L’observation Y est une fonction d’une variable al´eatoire Z , dont

la loi d´epend de θ, et qui n’est pas totalement observable

Exemples

Donn´ees censur´ees Y = min( Y ∗ , τ ) Y = min(Y , τ)

avec Y = R, Y P θ , τ R

Donn´ees bruit´ees Y = Y ∗ + U Y = Y + U

o`u Y P θ et U et Y sont ind´ependants

Donn´ees corrompues (par des valeurs aberrantes)Y ∗ ∼ P θ et U et Y sont ind´ependants Y = Y Y ∗

Y

= Y

Y

1

2

si U > ε

sinon

avec Y

1

P θ , Y

2

Q, U Uniforme([0, 1]) (Y

1

ind´ependants) et ε ]0, 1[

Mod´elisation statistique

Mod`eles conditionnels

, Y

2

et U

Mod`ele conditionnel

[Section 2.2]

Les observations sont form´ees de couples X, Y tels que

 
La famille de lois conditionnelles P θ , x (ou de densit´es

La famille de lois conditionnelles P θ,x (ou de densit´es

conditionnelles (y|x; θ) pour un mod`ele domin´e) d´epend du

param`etre θ Θ R p

X est de loi marginale inconnue, ne d´ependant pas de θ

X

est de loi marginale inconnue, ne d´ependant pas de θ

Dans le cadre de ce cours, on consid´erera uniquement les mod`eles

statiques (ou M.C.S.) dans lesquels les couples (X i , Y i ) observ´es

sont ind´ependants et de mˆeme loi

est dite variable endog`ene ou de r´eponse endog`ene ou de r´eponse

Y

est dite variable exog`ene ou explicative exog`ene ou explicative

X

Mod´elisation statistique

Mod`eles conditionnels

Mod`ele de r´egression lin´eaire

 

[Section 2.2.2]

Y = R, X = R p , β R p ,

 

E θ [Y |X] = X β

ou, de fa¸con ´equivalente

Y

= X β + U

avec E θ [U|X] = 0

C’est toujours un mod`ele semi-param´etrique (si on ne sp´ecifie pas la loi de X ), mais conditionnellement, il sera dit

Param´etrique Si la loi conditionnelle de U sachant X est sp´ecifi´ee (par ex. U | X Si la loi conditionnelle de U sachant X est sp´ecifi´ee (par ex. U |X ∼ N (0, σ 2 Id) — mod`ele gaussien ou normal)

Semi-param´etrique Si on suppose juste, par exemple, que E θ [ U 2 | X ] Si on suppose juste, par exemple, que E θ [ U 2 |X] <

Mod´elisation statistique

Mod`eles conditionnels

temperature 20 15 10 5 0 −5 −10 −15 −20 25 30 35 40 45
temperature
20
15
10
5
0
−5
−10
−15
−20
25
30
35
40
45
50

latitude

0.12

0.10

       

0.08

0.06

0.04

0.02

25
25
 

latitude

0.00

 

30

35

40

45

50

Fig.: Histogramme des latitudes

Fig.: Temp´erature en fonction de la latitude dans 56 villes am´ericaines

Mod´elisation statistique

Mod`eles conditionnels

Dans le polycopi´e une grande partie des r´esultats sont donn´ees

dans le cas (plus g´en´eral) o`u X est al´eatoire, mais on s’int´eresse

aussi souvent au cas ou X est d´eterministe

Exemple (Donn´ees de dur´ee du jour) ms 3.0 2.5 FIG. : Variation de 2.0 la
Exemple (Donn´ees de dur´ee du jour)
ms
3.0
2.5
FIG. : Variation de
2.0
la dur´ee du jour en
1.5
ms (mesures
1.0
0.5
journali`eres sur 10
0.0
ans)
−0.5
−1.0
−1.5
année
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007

Mod´elisation statistique

Notation

Mod`eles conditionnels

E X esp´erance par rapport `a la loi des variables exog`enes

Principales propri´et´es de l’esp´erance conditionnelle

1
1

Soit h et g des fonctions (E θ |h(Y )| < , E θ |g(X)h(Y )| < )

E θ [g(X )h(Y )|X ] = g(X )E θ [h(Y )|X]

Soit une fonction h ( E θ | h ( Y ) | < ∞ ) h (E θ |h(Y )| < )

E θ [h(Y )] = E {E θ [h(Y )|X]}

3
3

Soit une fonction h (E θ [h(Y ) 2 ] < )

V θ [h(Y )] = V {E θ [h(Y )|X]} + E{V θ [h(Y )|X]}

o`u V θ [h(Y )|X] def =E θ (h(Y ) E θ [ h(Y )| X ]) 2 X

Mod´elisation statistique

Probl`emes statistiques

Les grandes classes de probl`emes statistiques [Section 1.2]

Estimation D´eterminer la valeur du param`etre θ, ou de g(θ) (o`u

g n’est pas n´ecessairement injective) ; r´eponse :

ˆ

valeur estim´ee θ Θ

Test D´eterminer si θ (ou g(θ)) est ou non ´el´ement de

G Θ ; r´eponse : d´ecision binaire ∈ {0, 1}

R´egion de confiance D´eterminer un ensemble G Θ contenant θ ;

r´eponse :

ˆ

G Θ

Dans les trois cas, on souhaite fournir, en plus du r´esultat, une

fa¸con de quantifier sa fiabilit´e

Remarque : Les observations ´etant al´eatoires, les r´esultats de

l’inf´erence statistiques le sont aussi. Il existe donc toujours une

probabilit´e non nulle de fournir un r´esultat ✭✭ incorrect ✮✮. On peut

n´eanmoins s’attendre `a ce que cette probabilit´e devienne

arbitrairement faible lorsque le nombre d’observations augmente

Bornes d’estimation

1
1

Introduction

2
2

Mod´elisation statistique

3
3

Bornes d’estimation

Risque quadratique, biais, varianceMod´elisation statistique 3 Bornes d’estimation Conditions de r´egularit´e Information de Fisher Borne de

Conditions de r´egularit´eBornes d’estimation Risque quadratique, biais, variance Information de Fisher Borne de Cramer-Rao (In´egalit´e

Information de Fisherquadratique, biais, variance Conditions de r´egularit´e Borne de Cramer-Rao (In´egalit´e d’information) Mod`eles

Borne de Cramer-Rao (In´egalit´e d’information)Risque quadratique, biais, variance Conditions de r´egularit´e Information de Fisher Mod`eles exponentiels

Mod`eles exponentielsbiais, variance Conditions de r´egularit´e Information de Fisher Borne de Cramer-Rao (In´egalit´e d’information)

Bornes d’estimation

Risque quadratique, biais, variance

Risque quadratique (cas scalaire)

 

[Section 4.1]

 

ˆ

Pour quantifier la performance d’un estimateur θ = δ(Y )

On d´efinit une fonction de perte l ( ϕ ; θ ) `a valeur dans R + qui fonction de perte l(ϕ; θ) `a valeur dans R + qui

repr´esente la p´enalit´e li´ee `a l’approximation de θ par ϕ

Pour un param`etre θ r´eel, le choix le plus courant est la perte

quadratique l(ϕ; θ) = (ϕ θ) 2

 

Le risque mesure, en moyenne, la perte li´ee `a l’estimation de θ risque mesure, en moyenne, la perte li´ee `a l’estimation de θ

ˆ

par l’estimateur θ

Dans le cas de la perte quadratique, on obtient le risque

quadratique :

 

ˆ

r( θ; θ) = E θ (δ(Y ) θ) 2

Bornes d’estimation

Risque quadratique, biais, variance

D´ecomposition biais/variance

 
 

r( θ; θ) = V θ (δ(Y )) + b 2 ( θ; θ)

ˆ

ˆ

o`u

b( θ ; θ ) d e f ( θ; θ) def

ˆ

=E θ [δ(Y )] θ est le biais,

 

ˆ

V θ [ θ ] = E θ ( δ ( Y ) − E θ θ [ θ] = E θ (δ(Y ) E θ [δ(Y )]) 2 est la variance de l’estimateur

Preuve

(δ(Y ) θ) 2 = {[δ(Y ) E θ (δ(Y ))] + [E θ (δ(Y )) θ]} 2

Puis d´evelopper le carr´e et prendre l’esp´erance

E θ ( δ ( Y ))] + [E θ ( δ ( Y )) −

Bornes d’estimation

Risque quadratique, biais, variance

Exemple (Estimateur `a r´etr´ecissement) ˆ Soit θ un estimateur sans biais de θ de variance
Exemple (Estimateur `a r´etr´ecissement)
ˆ
Soit θ un estimateur sans biais de θ de variance υ(θ)
ˆ
υ(θ)
L’estimateur γ θ,
avec γ ∈ [0, 1], a
pour risque
θ 2
quadratique :
θ 2 υ(θ)
θ 2 +υ(θ)
(γ − 1) 2 θ 2 + γ 2 υ(θ)
θ 2
variance
0
1
biais 2
θ 2 +υ(θ)
ˆ
Si |θ| est suffisamment faible, en particulier si |θ| ≤ υ(θ), γ θ est
ˆ
pr´ef´erable `a
θ ; l’inverse est vrai pour les grandes valeurs de |θ|

En g´en´eral, le risque quadratique ne permet pas d’ordonner

totalement les estimateurs

Bornes d’estimation

Risque quadratique, biais, variance

Risque quadratique (cas vectoriel)

[Proposition 4.2]

Dans le cas vectoriel, on d´efinit le risque matriciel d’un estimateur

ˆ

θ

= δ(Y ) par

ˆ

r( θ; θ) = E θ (δ(Y ) θ)(δ(Y ) θ)

Comme dans le cas scalaire,

ˆ

r( θ; θ) = (E θ [δ(Y )] θ) (E θ [δ(Y )] θ) + V θ [δ(Y )]

biais

matrice de

covariance

˜

ˆ

ˆ

˜

Si r( θ; θ) r( θ; θ), l’estimateur θ sera dit pr´ef´erable `a

θ (mˆeme `a

θ fix´e, il s’agit d’une relation d’ordre partiel)

Bornes d’estimation

Les bornes d’estimation

Risque quadratique, biais, variance

On cherche `a r´epondre `a la question ✭✭ quelles sont les meilleures

performances envisageables en terme de risque quadratique ? ✮✮

Intuitivement, la r´eponse `a cette question est li´ee `a la sensibilit´e de

la vraisemblance (·; θ) vis `a vis de θ : θ θ+∆θ θ−∆θ
la vraisemblance (·; θ) vis `a vis de θ :
θ
θ+∆θ
θ−∆θ
θ θ+∆θ θ−∆θ
θ
θ+∆θ
θ−∆θ

Bornes d’estimation

Conditions de r´egularit´e

Mod`ele r´egulier

[Section 3.3.1]

Le mod`ele {P θ , θ Θ}, avec Θ sous-ensemble ouvert de R p est

domin´e par une mesure µ avec des densit´es de probabilit´es

{ (y, θ), θ Θ} telles que

C1 (y; θ) > 0 (mod`ele homog`ene)

C2 (y; θ) est deux fois diff´erentiable en θ

C3

E θ

log (Y ;θ)

∂θ

2

<

C4 Pour tout B ∈ B(Y ), B (y; θ)µ(dy ) peut ˆetre d´eriv´e deux

fois sous l’int´egrale

Estimateur r´egulier

[Section 4.4]

ˆ

Un estimateur θ = δ (Y ) de θ est dit r´egulier si

E θ δ ( Y ) 2 < ∞ , pour tout θ ∈ Θ θ δ(Y ) 2 < , pour tout θ Θ

δ ( y ) ( y ; θ ) µ ( dy ) peut ˆetre δ (y) (y; θ)µ(dy ) peut ˆetre d´eriv´e en θ sous le signe int´egrale

Bornes d’estimation

Information de Fisher

Information de Fisher

[D´efinition 3.7]

Pour un mod`ele r´egulier, la matrice d’information de Fisher * est

d´efinie par

I F (θ) = V θ log (Y ; θ)

∂θ

o`u, pour un param`etre vectoriel, V θ d´esigne la matrice de

covariance

Propri´et´e

[Th´eor`eme 3.8]

I F (θ) = E θ 2 log (Y ; θ)

∂θ∂θ

* Ronald A. Fisher (1890 – 1962)

Bornes d’estimation

Information de Fisher

Preuve

E θ 2 log (Y ; θ)

∂θ∂θ

=

E θ

1

2 (Y ; θ)

(Y ; θ)

∂θ∂θ

R

2 (y;θ)

θθ µ(dy)

1

(Y ; θ) (Y ; θ)

2 (Y ; θ)

∂θ

∂θ

log (Y ;θ)

∂θ

log (Y ;θ)

∂θ

= V θ log (Y ; θ)

∂θ

En notant que (y; θ)µ(dy) = 1 pour tout θ Θ implique que

E θ log (Y ;θ) et

∂θ

2 (y;θ)

∂θ∂θ

µ(dy) sont nuls

∈ Θ implique que E θ ∂ log ( Y ; θ ) et ∂θ ∂

Bornes d’estimation

Information de Fisher

Propri´et´es de l’information de Fisher

I F ( θ ) = 0 ssi F (θ) = 0 ssi

log (Y ;θ)

∂θ

= 0 avec P θ probabilit´e 1

log ( Y ; θ ) ∂θ = 0 avec P θ probabilit´e 1 Si X

Si X et Y sont ind´ependants, I

F

X,Y

X

(θ) = I

F

Si X et Y sont ind´ependants, I F X,Y X ( θ ) = I F

en particulier, si Y 1 ,

, Y n sont IID,

Y

(θ) + I

F

Y 1 ,

I

F

,Y

n

Y

(θ) = nI

1

F

(θ)

(θ)

De fa¸con g´en´erale, I I

F

X,Y

X

(θ) I

F

(θ), avec ´egalit´e uniquement

si la loi conditionnelle de Y sachant X ne d´epend pas de θ,

avec P θ probabilit´e 1

[Section 3.2]

Dans un mod`ele conditionnel,pas de θ , avec P θ probabilit´e 1 [Section 3.2] I F ( θ )

I F (θ) = E

E θ 2 log (Y |X ; θ)

∂θ∂θ

X

information conditionnelle

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Borne de (Fr´echet-Darmois)-Cram´er-Rao *

 

[Th´eor`eme 4.9]

Si le mod`ele est r´egulier et I F (θ) est d´efinie positive pour tout

 

ˆ

θ Θ R p ; pour tout estimateur r´egulier θ = δ(Y ) sans biais de

θ

 

V θ [δ(Y )] I

1

(θ)

 

F

Remarque M 1 M 2 ⇐⇒ α R p , αM 1 α αM 2 α , d’o`u

V θ

p

k=1

α

k

θ k αI

ˆ

1

F

(θ)α

(pour tout vecteur α R d ), en particulier V θ ( θ k ) I

F

ˆ

1

(θ) kk

* Maurice Fr´echet (1878 – 1973), Georges Darmois (1888 – 1960) Harald Cram´er (1893 – 1985), Calyampudi R. Rao (1920)

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Preuve (Cas d’un param`etre scalaire)

d log (y; θ)

(y; θ)µ(dy) = d (y; θ)µ(dy) dθ

= 0

δ(y) d log (y; θ)

(y; θ)µ(dy) =

θ

d δ(y) (y; θ)µ(dy)

dθ

d’o`u

(δ(y) θ) d log (y; θ)

(y; θ)µ(dy) = 1

 

(1)

= 1

(2)

et par application de l’in´egalit´e de Cauchy-Schwarz

1 2 (δ(y) θ) 2 (y; θ)µ(dy)

ˆ

V θ ( θ)

d log (y; θ)

dθ

2

(y; θ)µ(dy)

I F (θ)

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Borne de Cramer-Rao (In´egalit´e d’information) Preuve (Cas d’un param`etre vectoriel) En proc´edant

Preuve (Cas d’un param`etre vectoriel) En proc´edant comme

pr´ec´edemment

(δ(y) θ)

a(y)

log (y; θ)

∂θ

b (y)

(y; θ)µ(dy) = Id def

=

λ(dy)

1

.

.

.

1

Puis a(y)b (y)λ(dy) = Id et M def

= b(y)b (y)λ(dy) 0 implique

a(y) M 1 b(y) a(y) M 1 b(y) λ(dy)

R a(y)a (y)λ(dy)M 1

0

c’est `a dire

a(y)a (y)λ(dy) M 1

) λ ( dy ) R a ( y ) a ( y ) λ (

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Exemple (Mod`ele d’´echantillonnage de Poisson) Y 1 , , Y n sont ind´ependants de loi
Exemple (Mod`ele d’´echantillonnage de Poisson)
Y 1 ,
, Y n sont ind´ependants de loi
0.40
0.5
5
0.35
10
y
0.30
0.25
P θ (Y = y) = e −θ θ y!
pour y ∈ N
0.20
0.15
0.10
0.05
(E θ [Y ] = θ, V θ [Y ] = θ)
0.00
0
2
4
6
8
10
12
14
16
18
20
Y
Y 1 ,
,Y
1
n
I
(θ) = V θ −1 + Y 1 = 1 θ , d’o`u I
(θ) = n et
F
θ
F
θ
ˆ
θ n ) ≥ θ
V θ (
n
ˆ
pour tout estimateur θ n non biais´e
ˆ
1
n n
θ n =
i=1 Y i atteint la borne, il est dit estimateur efficace
de θ

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Remarque En examinant la preuve de l’in´egalit´e de FDCR (cas

scalaire), on obtient un crit`ere d’efficacit´e puisque cette derni`ere

correspond au cas d’´egalit´e dans l’in´egalit´e de Cauchy-Schwarz,

c’est `a dire au cas o`u

C R : δ(y) θ = C d log (y; θ) dθ

(P θ presque partout)

La fonction s(y; θ) = d log (y;θ)

dθ

est dite fonction de score (nous

avons en particulier montr´e que E θ [s(Y ; θ)] = 0)

Dans le cas du mod`ele de Poisson s(y; θ) = 1 + Y /θ, ce qui

montre l’efficacit´e

Le crit`ere se g´en´eralise au cas multidimensionnel

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

G´en´eralisation

[Th´eor`eme 4.9]

Si δ(Y ) est un estimateur sans biais de g(θ) R r

 
 

V θ (δ(Y )) g(θ) I ∂θ

1

F

(θ) ∂g (θ)

∂θ

(voir la preuve dans le polycopi´e)

Remarque (1) Dans le cas o`u ϕ = g(θ) correspond `a une

reparam´etrisation (g bijective), on a

I F (ϕ) = g (θ) ∂θ

1 I F (θ) ∂g(θ)

∂θ

=

g 1 (ϕ) I F (θ) ∂g 1 (ϕ)

∂ϕ

∂ϕ

(o`u θ = g 1 (ϕ))

1

Bornes d’estimation

Borne de Cramer-Rao (In´egalit´e d’information)

Remarque (2) Si

ˆ

θ est un estimateur biais´e de θ, c’est un

estimateur non biais´e de g(θ) = b(θ) + θ d’o`u

V θ ( θ) Id + b(θ) I

ˆ

∂θ

1

F

(θ) Id + b (θ) ∂θ

Remarque (3) La borne n’est pas n´ecessairement atteignable

[Example 4.10]

ˆ

Dans un mod`ele r´egulier, la variance d’un estimateur θ n r´egulier

d´ecroˆıt (au mieux) `a la vitesse 1/n

Bornes d’estimation

Mod`eles exponentiels

Mod`ele exponentiel

[D´efinition 3.20]

Un mod`ele statistique est dit exponentiel sous forme naturelle si

(y; θ) = C (θ)h(y) exp θ T(y)

o`u T (y) est la statistique canonique (vectorielle) et θ le param`etre

naturel du mod`ele

Exemples

Loi exponentielle f ( y ; θ ) = θ exp( − θy ) f (y; θ) = θ exp(θy)

 

Loi gaussienne `a variance connue 

 

1

(y µ) 2

f(y; µ) =

2πσ exp

f ( y ; µ ) = √ 2 πσ exp − 2 σ 2 =

2σ 2

=

2πσ exp

1

f ( y ; µ ) = √ 2 πσ exp − 2 σ 2 =

2

2 exp

µ

2σ

2

2 exp µ y

σ

y

2σ

2

Bornes d’estimation

Mod`eles exponentiels

Exhaustivit´e de la statistique naturelle

[Proposition 3.21]

La statistique T (y) est exhaustive, ce qui implique en particulier

que I

T(Y )

F

(θ) = I

Y

F

(θ)

Mod`ele d’´echantillonnage de Bernoulli

 

Si Y 1 ,

, Y n ∈ {0, 1} sont IID de loi P θ (Y i = 1) = θ,

 
 

n

n (Y 1 ,

 

, Y n ; θ) =

f(Y i ; θ) =

 
 

i=1

 

n

θ

i Y (1 θ) Y i 1 =

n

1 θ 1 θ Y i

1

θ

=

i=1

n

i=1

1 θ exp Y i

1

i=1

log

1 θ

θ

= 1 + e β n exp β

n

i=1

Y i

 

param`etre naturel β

 

Bornes d’estimation

Mod`eles exponentiels

Information dans le mod`ele exponentiel

[Proposition 3.22]

I F (θ) = V θ [T (Y )]

On montre de plus que les conditions de r´egularit´e du mod`ele se ram`enent au fait que la matrice de covariance V θ [T (Y )] soit d´efinie positive (pour tout θ)

Bornes d’estimation

Mod`eles exponentiels

Preuve (y; θ) = C (θ)h(y) exp [θ T (y)] implique que

log (y; θ)