Cours1-3 2pp

Première partie I
Cours 1 à 3 : Introduction, Modèles statistiques,

Bornes d’estimation (version corrigée, 27 fév. 2007)
Introduction
MAP433 Statistique
L’équipe enseignante
Cours Olivier Cappé, laboratoire traitement et
communication de l’information, CNRS — ENST
Petites classes
Randal Douc, département de mathématiques
appliquées, Ecole Polytechnique
Gabriel Lang, laboratoire Gestion du Risque en
Sciences de l’Eau, ENGREF
Stéphane Grégoir, Centre de Recherche en
Économie et Statistique, INSEE
Introduction
MAP433 Statistique
Le cours
Amphis & PC Vendredi 2 février, 9 février, 16 février, 2 mars,
9 mars, 16 mars, 30 mars, 6 avril, 20 avril
Les transparents du cours sont disponibles à
partir de
http://www.catalogue.polytechnique.fr/
Les codes scilab utilisées pour illustrer le cours
sont également disponibles (même adresse)
Tutorat Le mardi à 17h30, à partir du 27 fév. (informations
auprès de la scolarité)
Projet facultatif Les sujets seront présentés le 9 mars, s’incrire
pour le 30 mars, à rendre pour le 1er juin
(impérativement)
CC Mercredi 2 mai (attention : date modifiée)
Introduction
1 Introduction
Introduction à la statistique
Un exemple élémentaire
Statistiques descriptives
2 Modélisation statistique
3 Bornes d’estimation
Introduction Introduction à la statistique
La statistique
A pour but de fournir un ensemble de méthodes permettant, à

partir d’observations,
d’analyser (de décrire) les données observées,
mais également d’en déduire des traitements
(modèles/interprétations) :
aide à la décision, mise en évidence de facteurs explicatifs,
prédiction du comportement futur, . . .
Repose sur la modélisation probabiliste des observations
Exemples
Prédire le résultat d’une élection, à partir de sondage(s)

Dire si la qualité de l’air s’est ou non améliorée suite à un
aménagement routier, à partir de données de pollution
Analyser les résultats d’un vote, à partir de questionnaires
Analyser les facteurs d’échec scolaire, à partir de données
sociologiques recueillies lors de recensements
Valider l’efficacité d’un traitement médicamenteux, sur la base
d’essais cliniques
Mesurer l’impact d’un site web, à partir de mesure de
connectivité (analyse des liens hypertextes)
Détecter automatiquement des courriels non-sollicités, à partir
de corpus d’exemples
Optimiser une stratégie de gestion de portefeuille, à partir de
données historiques
Les observations sont vues comme des réalisations de variables

aléatoires définies sur un espace probabilisable (Ω, F)
Probabilités
Loi de probabilité Observations
Statistique
La théorie des probabilités vise à évaluer le comportement des

observations (espérance, moments, probabilités de
dépassement, comportement de sommes, . . .) étant
donné la loi de probabilité P
La statistique fournit des méthodes pour résoudre le problème
inverse dit d’inférence statistique : caractériser P au
vu des observations
En général, l’objectif de déterminer complètement P à partir

d’observations est trop ambitieux et il est nécessaire
1 de faire des hypothèses plus restrictives sur la loi P ; ces
hypothèses reflètent nos connaissances a priori sur le
processus qui génère les données (cf. cours suivant)
2 de considérer des observations dont la structure probabiliste
est raisonnablement simple
Modèle statique ou d’échantillonnage

Dans ce cours, on considérera uniquement le cas d’observations
Y1 , . . . , Yn indépendantes et, le plus souvent, de même loi
Introduction Un exemple élémentaire
Modèle d’échantillonnage de Bernoulli

On suppose que les observations Y1 , . . . , Yn sont des variables
indépendantes et de même loi (ou IID) à valeur dans {0, 1}
Le modèle statistique le plus simple, néanmoins rencontré dans de
nombreuses applications (tests de qualité, questionnaires . . .)
1 La loi des observations est entièrement déterminée par

def
θ = P(Yi = 1)*
2 L’inférence statistique, (( déterminer θ à partir des
observations )), est un objectif raisonnable du fait de la loi des
grands nombres
n
1 X p.s.
Yi −→ θ
n
i=1
*
Un petit souci de notation ici (cf. cours suivant)
Dans ce modèle particulièrement simple, on sait également

quantifier les performances de l’inférence statistique à l’aide de
résultats
Asymptotiques comme le théorème de la limite centrale
n
!
√ 1X L
n Yi − θ −→ N (0, θ(1 − θ))
n
i=1
c’est à dire

n
"r #
n 1 X

P Yi − θ > ε → 2 (1 − Φ(ε))

θ(1 − θ) n

i=1
Non-asymptotiques comme l’inégalité d’Hoeffding

" n #
1 X
Yi − θ > ε ≤ 2 exp −2nε2

P

n
i=1
n = 10 n = 100 n = 1000
2.0 0.50 0.50
1.8 0.45 0.45
1.6 0.40 0.40
1.4 0.35 0.35
1.2 0.30 0.30
1.00 1.0 0.25 0.25
0.8 0.20 0.20
0.6 0.15 0.15
0.95 0.4 0.10 0.10
0.2 0.05 0.05
0.0 0.00 0.00
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
0.90
3 3 3
0.85
2 2 2
1 1 1
0.80
0 0 0
−1 −1 −1
0.75
−2 −2 −2
0.70 −3 −3 −3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
0.65 n
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Pn p Histogrammes
Fig.: Pn et QQ-plots de
Fig.: 1/n i=1 Yi 1/ nθ(1 − θ) i=1 (Yi − θ)
(θ = 0.9, 10 réalisations) (θ = 0.9, 100 réalisations)
quantiles empiriques
Approcher θ par n1 ni=1

P
Yi constitue un exemple d’estimation : θ
est un paramètre et n1 ni=1 Yi un estimateur
P
On peut également s’intéresser

aux tests, par ex., (( les données sont-elles compatibles avec
l’hypothèse θ = θ0 ? ))
aux régions de confiance (( au vu des données, quelles sont les
valeurs de θ qui sont crédibles ? ))
Une réponse possible (via Hoeffding)

" n r #
1 X log(1/α)
P Yi − θ > ≤ 2α

n 2n
i=1
q
Si n i=1 Yi − θ0 est supérieur à log(1/α)
1 Pn
2n , par exemple
pour α = 0.025, l’affirmation (( θ = θ0 )) est peu vraisemblable
q
Les valeurs de θ situées au delà de n1 ni=1 Yi ± log(1/α)
P
2n
sont peu crédibles
1.5
1.0
0.5
0.0
−0.5
−1.0
−1.5 n
0 50 100 150 200 250 300
Pn
Fig.: 1/n pi=1 (Yi − 0.9) pour θ = 0.9 et θ = 0.75 (5 réalisations)
comparé à log(1/α)/2n pour α = 0.025
Plus généralement
Au delà ce cas très simple

L’inférence statistique est-elle toujours un objectif
raisonnable ?
Quel type de modélisation utiliser pour la loi des observations ?
Comment systématiser l’intuition basée sur la loi des grands
nombres ?
Peut-on traiter les cas où la loi des observations dépend de
façon plus complexe des paramètres θ ?
Comment quantifier les performances de l’estimation ?
Le comportement en n observé précédemment est-il
généralisable ?
Peut-on rationaliser et généraliser les constructions de test et
de région de confiance ?
Introduction Statistiques descriptives
Un peu de terminologie
L’échantillon désigne l’ensemble des données observées Y1 , . . . , Yn
Une statistique est une fonction P des observations :
par exemple, Sn = ni=1 Yi et
Rn = max{Yi } − min{Yi } sont des statistiques ; les
estimateurs sont des statistiques bien choisies en
fonction d’un objectif
Les statistiques sont des variables aléatoires . . .
Les moments empiriques
Moyenne 1/n ni=1 Yi
P
Variance 1/n ni=1 Yi2 − (1/n ni=1 Yi )2

P P
Pn Pn 2
= 1/n i=1 Yi − 1/n j=1 Yj
Les quantiles empiriques
Médiane Xi tel que nj=1 1{Xj ≥ Xi } = bn/2c
P
Quartiles médianes de {Xj : Xj ≤ médiane} et
{Xj : Xj ≥ médiane} QQ-plot
Représentations graphiques
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
−50 −40 −30 −20 −10 0 10 20 30 40 50
Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :

Données, histogramme, moyenne, quartiles
Nous considérerons souvent des données multivariées

temperature
20
15
10
−5
−10
−15
−20 latitude
25 30 35 40 45 50
Fig.: Températures relevées aux Etats-Unis : Température en fonction de

la latitude
Modélisation statistique
1 Introduction
Modèles statistiques
Modèles conditionnels
Problèmes statistiques
Modélisation statistique Modèles statistiques
Modèle statistique, modèle dominé [Définitions 1.1, 1.6]

Famille de lois de probabilité P = {Pθ , θ ∈ Θ} sur un espace Y
Un modèle est dit dominé lorsque pour tout θ ∈ Θ, Pθ admet une
densité notée `(y; θ) par rapport à une mesure de domination µ
fixe*
Classes de modèles statistiques

Modèle paramétrique
P = {Pθ , θ ∈ Θ ⊂ Rp }, θ est le paramètre du modèle
Exemple (Modèle de Bernoulli pour des réponses binaires)

Y = {0, 1}, Pθ (Y = 1) = θ, θ ∈ [0, 1]
*
On note Pθ la probabilité, Eθ l’espérance, Vθ la variance (ou matrice de
variance-covariance) pour une valeur de θ donnée
Classes de modèles statistiques (suite)
Modèle paramétrique avec paramètre(s) de nuisance (ou non

identifiable)
P = {Pθ , θ ∈ Θ ⊂ Rp }, g(θ) est le paramètre d’intérêt
Exemple (Modèle de dispersion gaussien)
(y − µ)2

1
Y = R, `(y; µ, σ) = √ exp − 2
, µ ∈ R, σ ∈ R+
2πσ 2σ
Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas un

sous ensemble d’un espace vectoriel de dimension finie
Exemple (Estimation d’une loi discrète) Y = N, F est
l’ensemble des probabilités sur N
Modèle semi-paramétrique
P = {Pθ,f , θ ∈ Θ, f ∈ F}, θ est le paramètre d’intérêt
Exemple (Modèle de translation) Y = R, Θ = R,

`(y; θ) = f (y − θ) où f est une densité de probabilité symétrique
(inconnue) sur R
Modèle à variable latente

L’observation Y est une fonction d’une variable aléatoire Z, dont
la loi dépend de θ, et qui n’est pas totalement observable
Exemples
Données censurées Y = min(Y ∗ , τ )
avec Y = R, Y ∗ ∼ Pθ , τ ∈ R
Données bruitées Y = Y ∗ + U
où Y ∗ ∼ Pθ et U et Y sont indépendants
Données corrompues (par des valeurs aberrantes)
(
Y1∗ si U > ε
Y =
Y2∗ sinon
avec Y1∗ ∼ Pθ , Y2∗ ∼ Q, U ∼ Uniforme([0, 1]) (Y1∗ , Y2∗ et U

indépendants) et ε ∈]0, 1[
Modélisation statistique Modèles conditionnels
Modèle conditionnel [Section 2.2]

Les observations sont formées de couples X, Y tels que
La famille de lois conditionnelles Pθ,x (ou de densités
conditionnelles `(y|x; θ) pour un modèle dominé) dépend du
paramètre θ ∈ Θ ⊂ Rp
X est de loi marginale inconnue, ne dépendant pas de θ
Dans le cadre de ce cours, on considérera uniquement les modèles

statiques (ou M.C.S.) dans lesquels les couples (Xi , Yi ) observés
sont indépendants et de même loi
Y est dite variable endogène ou de réponse
X est dite variable exogène ou explicative
Modèle de régression linéaire [Section 2.2.2]

Y = R, X = Rp , β ∈ Rp ,
Eθ [Y |X] = X 0 β ou, de façon équivalente Y = X 0β + U
avec Eθ [U |X] = 0
C’est toujours un modèle semi-paramétrique (si on ne spécifie pas

la loi de X), mais conditionnellement, il sera dit
1 Paramétrique Si la loi conditionnelle de U sachant X est
spécifiée (par ex. U |X ∼ N (0, σ 2 Id) — modèle gaussien ou
normal)
2 Semi-paramétrique Si on suppose juste, par exemple, que
Eθ [kU k2 |X] < ∞
0.12
temperature
0.10
20
0.08
0.06
15
0.04
10 0.02
0.00 latitude
25 30 35 40 45 50
0 Fig.: Histogramme
−5
des latitudes
−10
−15
−20 latitude
25 30 35 40 45 50
Fig.: Température en fonction de la latitude dans

56 villes américaines
Dans le polycopié une grande partie des résultats sont données

dans le cas (plus général) où X est aléatoire, mais on s’intéresse
aussi souvent au cas ou X est déterministe
Exemple (Données de durée du jour)
ms
3.0
2.5
2.0
FIG. : Variation de
1.5
la durée du jour en
1.0 ms (mesures
0.5 journalières sur 10
0.0 ans)
−0.5
−1.0
−1.5 année
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Notation
EX espérance par rapport à la loi des variables exogènes
Principales propriétés de l’espérance conditionnelle
1 Soit h et g des fonctions (Eθ |h(Y )| < ∞, Eθ |g(X)h(Y )| < ∞)
Eθ [g(X)h(Y )|X] = g(X)Eθ [h(Y )|X]
2 Soit une fonction h (Eθ |h(Y )| < ∞)
Eθ [h(Y )] = E {Eθ [h(Y )|X]}
3 Soit une fonction h (Eθ [h(Y )2 ] < ∞)
Vθ [h(Y )] = V {Eθ [h(Y )|X]} + E {Vθ [h(Y )|X]}

h i
def 2
où Vθ [h(Y )|X] = Eθ (h(Y ) − Eθ [ h(Y )| X]) X
Modélisation statistique Problèmes statistiques
Les grandes classes de problèmes statistiques [Section 1.2]

Estimation Déterminer la valeur du paramètre θ, ou de g(θ) (où
g n’est pas nécessairement injective) ; réponse :
valeur estimée θ̂ ∈ Θ
Test Déterminer si θ (ou g(θ)) est ou non élément de
G ⊂ Θ ; réponse : décision binaire ∈ {0, 1}
Région de confiance Déterminer un ensemble G ⊂ Θ contenant θ ;
réponse : Ĝ ⊂ Θ
Dans les trois cas, on souhaite fournir, en plus du résultat, une
façon de quantifier sa fiabilité
Remarque : Les observations étant aléatoires, les résultats de

l’inférence statistiques le sont aussi. Il existe donc toujours une
probabilité non nulle de fournir un résultat (( incorrect )). On peut
néanmoins s’attendre à ce que cette probabilité devienne
arbitrairement faible lorsque le nombre d’observations augmente
Bornes d’estimation
1 Introduction
Risque quadratique, biais, variance
Conditions de régularité
Information de Fisher
Borne de Cramer-Rao (Inégalité d’information)
Modèles exponentiels
Bornes d’estimation Risque quadratique, biais, variance
Risque quadratique (cas scalaire) [Section 4.1]

Pour quantifier la performance d’un estimateur θ̂ = δ(Y )
On définit une fonction de perte l(ϕ; θ) à valeur dans R+ qui
représente la pénalité liée à l’approximation de θ par ϕ
Pour un paramètre θ réel, le choix le plus courant est la perte
quadratique l(ϕ; θ) = (ϕ − θ)2
Le risque mesure, en moyenne, la perte liée à l’estimation de θ
par l’estimateur θ̂
Dans le cas de la perte quadratique, on obtient le risque
quadratique :
r(θ̂; θ) = Eθ (δ(Y ) − θ)2
Décomposition biais/variance
r(θ̂; θ) = Vθ (δ(Y )) + b2 (θ̂; θ)

où
def
b(θ̂; θ) = Eθ [δ(Y )] − θ est le biais,
Vθ [θ̂] = Eθ (δ(Y ) − Eθ [δ(Y )])2 est la variance de l’estimateur
Preuve
(δ(Y ) − θ)2 = {[δ(Y ) − Eθ (δ(Y ))] + [Eθ (δ(Y )) − θ]}2
Puis développer le carré et prendre l’espérance

Exemple (Estimateur à rétrécissement)

Soit θ̂ un estimateur sans biais de θ de variance υ(θ)
L’estimateur γ θ̂, υ(θ)

avec γ ∈ [0, 1], a
pour risque θ2
quadratique : θ2 υ(θ)
θ2 +υ(θ)
(γ − 1)2 θ2 + γ 2 υ(θ)
θ2
| {z } | {z }
biais2 variance 0 2
θ +υ(θ) 1
p
Si |θ| est suffisamment faible, en particulier si |θ| ≤ υ(θ), γ θ̂ est
préférable à θ̂ ; l’inverse est vrai pour les grandes valeurs de |θ|
En général, le risque quadratique ne permet pas d’ordonner

totalement les estimateurs
Risque quadratique (cas vectoriel) [Proposition 4.2]

Dans le cas vectoriel, on définit le risque matriciel d’un estimateur
θ̂ = δ(Y ) par
r(θ̂; θ) = Eθ (δ(Y ) − θ)(δ(Y ) − θ)0

Comme dans le cas scalaire,
r(θ̂; θ) = (Eθ [δ(Y )] − θ) (Eθ [δ(Y )] − θ)0 + Vθ [δ(Y )]

| {z } | {z }
biais matrice de
covariance
Si r(θ̃; θ) r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même à

θ fixé, il s’agit d’une relation d’ordre partiel)
Les bornes d’estimation

On cherche à répondre à la question (( quelles sont les meilleures
performances envisageables en terme de risque quadratique ? ))
Intuitivement, la réponse à cette question est liée à la sensibilité de
la vraisemblance `(·; θ) vis à vis de θ :
θ
θ+∆θ
θ−∆θ
θ
θ+∆θ
θ−∆θ
Bornes d’estimation Conditions de régularité
Modèle régulier [Section 3.3.1]

Le modèle {Pθ , θ ∈ Θ}, avec Θ sous-ensemble ouvert de Rp est
dominé par une mesure µ avec des densités de probabilités
{`(y, θ), θ ∈ Θ} telles que
C1 `(y; θ) > 0 (modèle homogène)
C2 `(y; θ) est deux fois différentiable en θ
∂ log `(Y ;θ) 2

C3 Eθ ∂θ <∞
R
C4 Pour tout B ∈ B(Y), B `(y; θ)µ(dy) peut être dérivé deux
fois sous l’intégrale
Estimateur régulier [Section 4.4]

Un estimateur θ̂ = δ(Y ) de θ est dit régulier si
Eθ kδ(Y )k2 < ∞, pour tout θ ∈ Θ
R
δ(y)`(y; θ)µ(dy) peut être dérivé en θ sous le signe intégrale
Bornes d’estimation Information de Fisher
Information de Fisher [Définition 3.7]

Pour un modèle régulier, la matrice d’information de Fisher* est
définie par
∂ log `(Y ; θ)
IF (θ) = Vθ
∂θ
où, pour un paramètre vectoriel, Vθ désigne la matrice de
covariance
Propriété [Théorème 3.8]
∂ 2 log `(Y ; θ)

IF (θ) = −Eθ
∂θ∂θ0
*
Ronald A. Fisher (1890 – 1962)
Preuve
∂ 2 log `(Y ; θ)

− Eθ =
∂θ∂θ0
1 ∂ 2 `(Y ; θ)

1 ∂`(Y ; θ) ∂`(Y ; θ)
− Eθ − 2
`(Y ; θ) ∂θ∂θ0 ` (Y ; θ) ∂θ ∂θ0
| {z } | {z }
R ∂ 2 `(y;θ) ∂ log `(Y ;θ) ∂ log `(Y ;θ)
∂θ∂θ 0
µ(dy) ∂θ ∂θ 0

∂ log `(Y ; θ)
= Vθ
∂θ
R
En notant que `(y; θ)µ(dy) = 1 pour tout θ ∈ Θ implique que
h i R 2
∂ log `(Y ;θ)
Eθ ∂θ et ∂∂θ∂θ
`(y;θ)
0 µ(dy) sont nuls
Propriétés de l’information de Fisher

∂ log `(Y ;θ)
IF (θ) = 0 ssi ∂θ = 0 avec Pθ probabilité 1
Si X et Y sont indépendants, IFX,Y (θ) = IFX (θ) + IFY (θ)
en particulier, si Y1 , . . . , Yn sont IID,
IFY1 ,...,Yn (θ) = nIFY1 (θ)
De façon générale, IFX,Y (θ) IFX (θ), avec égalité uniquement

si la loi conditionnelle de Y sachant X ne dépend pas de θ,
avec Pθ probabilité 1 [Section 3.2]
Dans un modèle conditionnel,
( 2 )
∂ log `(Y |X; θ)
IF (θ) = E −Eθ X
∂θ∂θ0
| {z }
information conditionnelle
Bornes d’estimation Borne de Cramer-Rao (Inégalité d’information)
Borne de (Fréchet-Darmois)-Cramér-Rao* [Théorème 4.9]

Si le modèle est régulier et IF (θ) est définie positive pour tout
θ ∈ Θ ⊂ Rp ; pour tout estimateur régulier θ̂ = δ(Y ) sans biais de
θ
Vθ [δ(Y )] IF−1 (θ)
Remarque M1 M2 ⇐⇒ ∀α ∈ Rp , αM1 α0 ≥ αM2 α0 , d’où

p
!
X
Vθ αk θ̂k ≥ αIF−1 (θ)α0
k=1
Rd ), IF−1 (θ) kk

(pour tout vecteur α ∈ en particulier Vθ (θ̂k ) ≥
*
Maurice Fréchet (1878 – 1973), Georges Darmois (1888 – 1960)
Harald Cramér (1893 – 1985), Calyampudi R. Rao (1920)
Preuve (Cas d’un paramètre scalaire)

Z R
d log `(y; θ) d `(y; θ)µ(dy)
`(y; θ)µ(dy) = =0 (1)
dθ dθ
θ
zZ }| {
Z d δ(y)`(y; θ)µ(dy)
d log `(y; θ)
δ(y) `(y; θ)µ(dy) = = 1 (2)
dθ dθ
d’où Z
d log `(y; θ)
(δ(y) − θ) `(y; θ)µ(dy) = 1
dθ
et par application de l’inégalité de Cauchy-Schwarz
d log `(y; θ) 2
Z Z
12 ≤ (δ(y) − θ)2 `(y; θ)µ(dy) `(y; θ)µ(dy)
dθ
| {z }| {z }
Vθ (θ̂) IF (θ)
Preuve (Cas d’un paramètre vectoriel) En procédant comme

précédemment
 
Z 1
∂ log `(y; θ) def  ..
(δ(y) − θ) `(y; θ)µ(dy) = Id =

| {z } | ∂θ 0 | {z } . 
a(y)
{z }
λ(dy) 1
b0 (y)
def R
a(y)b0 (y)λ(dy) = Id et M = b(y)b0 (y)λ(dy) 0 implique
R
Puis
Z
0
a(y) − M −1 b(y) a(y) − M −1 b(y) λ(dy) 0

| R
{z }
a(y)a0 (y)λ(dy)−M −1
c’est à dire Z
a(y)a0 (y)λ(dy) M −1
Exemple (Modèle d’échantillonnage de Poisson)

Y1 , . . . , Yn sont indépendants de loi 0.40
0.5
5
0.35 10
y
−θ θ
0.30
Pθ (Y = y) = e pour y ∈ N 0.25
y! 0.20
0.15
0.10
(Eθ [Y ] = θ, Vθ [Y ] = θ) 0.05
0.00
0 2 4 6 8 10 12 14 16 18 20
IFY1 (θ) Y1
= 1θ , d’où IFY1 ,...,Yn (θ) = n

= Vθ −1 + θ θ et
θ
Vθ (θ̂n ) ≥
n
pour tout estimateur θ̂n non biaisé

1 Pn
θ̂n = n i=1 Yi atteint la borne, il est dit estimateur efficace
de θ
Remarque En examinant la preuve de l’inégalité de FDCR (cas

scalaire), on obtient un critère d’efficacité puisque cette dernière
correspond au cas d’égalité dans l’inégalité de Cauchy-Schwarz,
c’est à dire au cas où
d log `(y; θ)
∃C ∈ R : δ(y) − θ = C (Pθ presque partout)
dθ
La fonction s(y; θ) = d logdθ

`(y;θ)
est dite fonction de score (nous
avons en particulier montré que Eθ [s(Y ; θ)] = 0)
Dans le cas du modèle de Poisson s(y; θ) = −1 + Y /θ, ce qui
montre l’efficacité
Le critère se généralise au cas multidimensionnel

Généralisation [Théorème 4.9]

Si δ(Y ) est un estimateur sans biais de g(θ) ∈ Rr
∂g(θ) −1 ∂g 0 (θ)
Vθ (δ(Y )) I (θ)
∂θ0 F ∂θ
(voir la preuve dans le polycopié)
Remarque (1) Dans le cas où ϕ = g(θ) correspond à une

reparamétrisation (g bijective), on a
−1 −1
∂g 0 (θ)

∂g(θ)
IF (ϕ) = IF (θ)
∂θ ∂θ0
0
∂ g −1 (ϕ) ∂g −1 (ϕ)
= IF (θ)
∂ϕ ∂ϕ0
(où θ = g −1 (ϕ))
Remarque (2) Si θ̂ est un estimateur biaisé de θ, c’est un

estimateur non biaisé de g(θ) = b(θ) + θ d’où
0 (θ)

∂b(θ) −1 ∂b
Vθ (θ̂) Id + IF (θ) Id +
∂θ0 ∂θ
Remarque (3) La borne n’est pas nécessairement atteignable

[Example 4.10]
Dans un modèle régulier, la variance d’un estimateur θ̂n régulier

décroı̂t (au mieux) à la vitesse 1/n
Bornes d’estimation Modèles exponentiels
Modèle exponentiel [Définition 3.20]

Un modèle statistique est dit exponentiel sous forme naturelle si
`(y; θ) = C(θ)h(y) exp θ0 T (y)

où T (y) est la statistique canonique (vectorielle) et θ le paramètre

naturel du modèle
Exemples
Loi exponentielle f (y; θ) = θ exp(−θy)

Loi gaussienne à variance connue
(y − µ)2

1
f (y; µ) = √ exp −
2πσ 2σ 2
µ2 y2

1 h y i
=√ exp − 2 exp − 2 exp µ 2
2πσ 2σ 2σ σ
Exhaustivité de la statistique naturelle [Proposition 3.21]

La statistique T (y) est exhaustive, ce qui implique en particulier
T (Y )
que IF (θ) = IFY (θ)
Modèle d’échantillonnage de Bernoulli

Si Y1 , . . . , Yn ∈ {0, 1} sont IID de loi Pθ (Yi = 1) = θ,
n
Y
`n (Y1 , . . . , Yn ; θ) = f (Yi ; θ) =
i=1
n n Yi
Y Y θ 1
θiY (1 − θ)Yi −1 = =
1−θ1−θ
i=1 i=1
n n
" # !
Y 1 θ n X
exp Yi log = 1 + eβ exp β Yi
1−θ 1−θ
i=1 | {z } i=1
paramètre naturel β
Information dans le modèle exponentiel [Proposition 3.22]
IF (θ) = Vθ [T (Y )]
On montre de plus que les conditions de régularité du modèle se

ramènent au fait que la matrice de covariance Vθ [T (Y )] soit
définie positive (pour tout θ)
Preuve `(y; θ) = C(θ)h(y) exp [θ0 T (y)] implique que

∂ log `(y; θ) ∂ log C(θ)
= + T (y)
∂θ ∂θ
R 0
−1
Par ailleurs, C(θ) = h(y) exp [θ T (y)] µ(dy) , donc
Z
∂ log C(θ)
T (y)C(θ)h(y) exp θ0 T (y) µ(dy)

=−
∂θ
| {z }
Eθ [T (Y )]
D’où
0
IF (θ) = Eθ (T (y) − Eθ [T (Y )]) (T (y) − Eθ [T (Y )])
= Vθ [T (Y )]

Cours1-3 2pp

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours1-3 2pp

Transféré par

Droits d'auteur :

Formats disponibles

Première partie I

Cours 1 à 3 : Introduction, Modèles statistiques,

A pour but de fournir un ensemble de méthodes permettant, à

Introduction Introduction à la statistique

Prédire le résultat d’une élection, à partir de sondage(s)

Les observations sont vues comme des réalisations de variables

Loi de probabilité Observations

La théorie des probabilités vise à évaluer le comportement des

Introduction Introduction à la statistique

En général, l’objectif de déterminer complètement P à partir

Modèle statique ou d’échantillonnage

Modèle d’échantillonnage de Bernoulli

1 La loi des observations est entièrement déterminée par

Dans ce modèle particulièrement simple, on sait également

Non-asymptotiques comme l’inégalité d’Hoeffding

Introduction Un exemple élémentaire

Approcher θ par n1 ni=1

On peut également s’intéresser

Une réponse possible (via Hoeffding)

Introduction Un exemple élémentaire

Au delà ce cas très simple

Introduction Statistiques descriptives

Variance 1/n ni=1 Yi2 − (1/n ni=1 Yi )2

Fig.: Mesures historiques de la vitesse de la lumière (Newcomb, 1891) :

Introduction Statistiques descriptives

Nous considérerons souvent des données multivariées

Fig.: Températures relevées aux Etats-Unis : Température en fonction de

Modélisation statistique Modèles statistiques

Modèle statistique, modèle dominé [Définitions 1.1, 1.6]

Classes de modèles statistiques

Exemple (Modèle de Bernoulli pour des réponses binaires)

Classes de modèles statistiques (suite)

Modèle paramétrique avec paramètre(s) de nuisance (ou non

Exemple (Modèle de dispersion gaussien)

Modélisation statistique Modèles statistiques

Modèle non-paramétrique P = {Pf , f ∈ F} où F n’est pas un

Exemple (Modèle de translation) Y = R, Θ = R,

Modèle à variable latente

avec Y1∗ ∼ Pθ , Y2∗ ∼ Q, U ∼ Uniforme([0, 1]) (Y1∗ , Y2∗ et U

Modélisation statistique Modèles conditionnels

Modèle conditionnel [Section 2.2]

Dans le cadre de ce cours, on considérera uniquement les modèles

Modèle de régression linéaire [Section 2.2.2]

Eθ [Y |X] = X 0 β ou, de façon équivalente Y = X 0β + U

C’est toujours un modèle semi-paramétrique (si on ne spécifie pas

Modélisation statistique Modèles conditionnels

Fig.: Température en fonction de la latitude dans

Dans le polycopié une grande partie des résultats sont données

Exemple (Données de durée du jour)

Modélisation statistique Modèles conditionnels

Eθ [g(X)h(Y )|X] = g(X)Eθ [h(Y )|X]

2 Soit une fonction h (Eθ |h(Y )| < ∞)

Eθ [h(Y )] = E {Eθ [h(Y )|X]}

3 Soit une fonction h (Eθ [h(Y )2 ] < ∞)

Vθ [h(Y )] = V {Eθ [h(Y )|X]} + E {Vθ [h(Y )|X]}

Les grandes classes de problèmes statistiques [Section 1.2]

Remarque : Les observations étant aléatoires, les résultats de

Risque quadratique (cas scalaire) [Section 4.1]

Bornes d’estimation Risque quadratique, biais, variance

r(θ̂; θ) = Vθ (δ(Y )) + b2 (θ̂; θ)

(δ(Y ) − θ)2 = {[δ(Y ) − Eθ (δ(Y ))] + [Eθ (δ(Y )) − θ]}2

Puis développer le carré et prendre l’espérance

Exemple (Estimateur à rétrécissement)

Si r(θ̃; θ) r(θ̂; θ), l’estimateur θ̂ sera dit préférable à θ̃ (même à

De façon générale, IFX,Y (θ) IFX (θ), avec égalité uniquement

Remarque M1 M2 ⇐⇒ ∀α ∈ Rp , αM1 α0 ≥ αM2 α0 , d’où