Académique Documents
Professionnel Documents
Culture Documents
1/55
Cours 2/10
Estimation ponctuelle
Objectifs du cours 2
◮ Savoir quantifier les performances d’un estimateur.
◮ Savoir comparer des estimateurs.
◮ Introduire l’approche asymptotique.
2/55
Plan du cours
5 – Exercices d’échauffement
3/55
Plan du cours
5 – Exercices d’échauffement
Rappel : cadre mathématique
Données
◮ Formellement, un élément x d’un ensemble X .
◮ ex : X = Rn , Rn×d , {mots}, un espace fonctionnel, etc.
Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )
◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.
Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )
◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.
Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )
◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.
Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.
Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.
Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.
Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.
Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.
Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.
Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.
7/55
Exemple 1 (suite)
Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?
8/55
Exemple 1 (suite)
Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?
8/55
Autres exemples
Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.
Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.
9/55
Autres exemples
Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.
Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.
9/55
Autres exemples (suite)
Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.
Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.
10/55
Autres exemples (suite)
Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.
Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.
10/55
Autres exemples (suite et fin)
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
◮ θ = P, la loi inconnue,
◮ Θ = {lois de proba sur (R, B(R))},
◮ g (θ) = F : fonction de répartition des Xi .
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.
5 – Exercices d’échauffement
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur
Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par
12/55
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur
Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par
12/55
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur
Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par
12/55
Risque quadratique
Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire :
Rθ (η̂) = Eθ kg (θ) − η̂k2 .
Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.
13/55
Risque quadratique
Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire :
Rθ (η̂) = Eθ kg (θ) − η̂k2 .
Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.
13/55
Exemple 1 (rappel)
14/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1
Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :
σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n
Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1
Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :
σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n
Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)
On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1
Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1
16/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)
On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1
Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1
16/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.
bθ (η̂) = 0, ∀θ ∈ Θ.
Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.
bθ (η̂) = 0, ∀θ ∈ Θ.
Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Décomposition biais-variance
18/55
Décomposition biais-variance
18/55
Exemple 1 : risque de quelques estimateurs
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
σ2
µ̂5 = med(X1 , . . . , Xn ) Rθ (µ̂5 ) ≈ 1.57 + 02 (n → +∞)
n
19/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).
Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).
Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.
21/55
Plan du cours
5 – Exercices d’échauffement
Motivation
22/55
Motivation
22/55
Condition de régularité C1
Condition de régularité C1
Les densités fθ ont même support : ∃S ∈ A ,
∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.
Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.
23/55
Condition de régularité C1
Condition de régularité C1
Les densités fθ ont même support : ∃S ∈ A ,
∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.
Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.
23/55
Condition de régularité C1 : exemples / contre-exemple
Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !
24/55
Condition de régularité C1 : exemples / contre-exemple
Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !
24/55
Une autre condition de régularité
On suppose que C1 est vraie.
Condition de régularité C2
i Θ est un ouvert de Rp ,
ii θ 7→ fθ (x) est dérivable ν-presque pour tout x,
iii et, en tout point θ ∈ Θ, on a
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0.
S S
Autrement dit : ∀θ ∈ Θ, ∀k ≤ p,
Z Z
∂fθ (x) ∂
ν(dx) = fθ (x) ν(dx) = 0.
S ∂θk ∂θk S
25/55
Le vecteur score
Définition / propriété : score
Supposons C1 , C2 -i et C2 -ii vérifiées, et posons pour tout x ∈ S
∂ ln f (x)
θ
∂θ1
..
Sθ (x) = ∇θ (ln fθ (x)) =
. .
∂ ln fθ (x)
∂θp
Alors
i On appelle score le vecteur aléatoire Sθ = Sθ (X ).
ii C2 -iii ⇔ ∀θ ∈ Θ, le score Sθ est centré sous Pθ .
Remarques :
◮ Bien défini puisque X ∈ S Pθ -ps, ∀θ ∈ Θ.
◮ L’estimateur du maximum de vraisemblance annule le score
(rappel : on suppose Θ ⊂ Rp ouvert).
26/55
Le vecteur score (démonstration)
Remarquons que
1
∇θ (ln fθ ) = ∇θ fθ ,
fθ
et donc, pour tout θ ∈ Θ,
Z
Eθ (Sθ ) = Sθ (x) fθ (x) ν(dx)
ZS
1
= ∇θ fθ (x) fθ (x) ν(dx)
S fθ (x)
Z
= ∇θ fθ (x) ν(dx).
S
Ainsi,
Z
Eθ (Sθ ) = 0 ⇔ ∇θ fθ (x) ν(dx) = 0 (C2 -iii).
S
27/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Remarque sur la condition C2 -iii
Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S
29/55
Remarque sur la condition C2 -iii
Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S
29/55
Inégalité de Cramér-Rao (cas scalaire)
Soit un modèle statistique vérifiant C1 , C2 et ∀θ ∈ Θ, varθ (Sθ ) > 0.
Soit η̂ un estimateur de η = g (θ) ∈ R, tq Eθ η̂ 2 < +∞, ∀θ ∈ Θ.
Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors
In (θ) = n I1 (θ).
1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Information de Fisher (cas scalaire)
On suppose toujours les conditions C1 et C2 .
Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors
In (θ) = n I1 (θ).
1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Démonstration
et donc
n
X
varθ (Sθ (X )) = varθ (Sθ (Xi )) = n varθ (Sθ (X1 ))
i=1
32/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .
σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .
σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que
◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P
1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .
2 σ4
varθ σ̂n2 = ,
n−1
2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que
◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P
1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .
2 σ4
varθ σ̂n2 = ,
n−1
2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Corrigé de l’exercice
5 – Exercices d’échauffement
Motivation / notations
Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))
Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,
Mn = X n , A ⊗n , P⊗n
θ , θ ∈ Θ ,
Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))
Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,
Mn = X n , A ⊗n , P⊗n
θ , θ ∈ Θ ,
m.q.
proba loi
p.s.
36/55
Rappel de proba : modes de convergence
✐ convergence presque sûre :
ps
Tn −→ T si P (Tn → T ) = 1
L2
Tn −→ T si E kTn − T k2 → 0
(j) L2
ssi ∀j ≤ p, Tn −→ T (j)
✐ convergence en probabilité :
P
Tn −
→T si ∀ε > 0, P (kTn − T k ≥ ε) → 0
✐ convergence en loi :
loi
Tn −→ T si ∀ϕ, E (ϕ(Tn )) → E (ϕ(T )) ,
Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)
Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)
2 1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Rappel de proba : loi des grands nombres
Soit (Xk )k≥1 une suite de VA réelles ou vectorielles.
2 1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Consistance : exemples
39/55
Consistance : exemples
39/55
Consistance : exemples (suite)
15
10
X̄n
0
0 50 100 150 200
n
Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .
41/55
Consistance : exemples (suite)
Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .
41/55
Consistance : exemples (suite)
60 Histogram of x1
Frequency
40
20
0
2 3 4 5
x1
42/55
Consistance : exemples (suite)
43/55
Consistance : exemples (suite)
43/55
Estimateur asymptotiquement sans biais
Rappel : bθ (η̂) = Eθ (η̂) − g (θ).
Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)
Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)
iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.
45/55
Estimateur asymptotiquement sans biais : exemple
iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.
45/55
Consistance de l’EMV
L’EMV minimise le critère
n
1 1X
γn (θ) = − ln fθ (X ) = − ln fθ (Xi ).
n n
k=1
iid
Fixons θ⋆ ∈ Θ et supposons Xi ∼ fθ⋆ . Alors, ∀θ ∈ Θ,
n Z
1 X fθ⋆ (Xi ) n→+∞ fθ⋆ (x)
γn (θ)−γn (θ⋆ ) = ln −−−−→ ln fθ (x) ν1 (dx).
n fθ (Xi ) ps S1 fθ (x) ⋆
k=1
fθ⋆ (Xi )
(en supposant que Zi = fθ (Xi )
est du premier ordre).
1 Pn fθ⋆ (Xi )
Posons ∆n (θ⋆ , θ) = n k=1 ln fθ (Xi ) et ∆(θ⋆ , θ) = DKL (fθ⋆ ||fθ ).
Pθ −ps
On a ∆n (θ⋆ , θ) −−⋆−−→ ∆(θ⋆ , θ) pour tout θ, et ∆(θ⋆ , θ⋆ ) = 0.
n→+∞
5 – Exercices d’échauffement
Exercice 1 (risque quadratique)
iid
Soient X1 , . . . , Xn ∼ N (µ, σ 2 ) avec θ = (µ, σ 2 ) ∈ Θ = R × R+
∗.
On souhaite estimer g (θ) = µ. On s’intéresse aux estimateurs
1 1
µ̂1 = X̄n , µ̂2 = µ0 , µ̂3 = µ0 + X̄n , µ̂4 = X̄n + c,
2 2
où µ0 et c sont des réels fixés.
Questions
1 Montrer la formule de décomposition biais-variance dans le cas
scalaire (transparent 18)
2 Calculer le risque quadratique de chacun des estimateurs.
3 Montrer que µ̂2 et µ̂3 ne sont pas comparables.
4 Montrer que µ̂4 n’est pas admissible.
46/55
Exercice 2 (efficacité d’un estimateur)
iid
Soient X1 , . . . , Xn ∼ B(θ) avec θ ∈ Θ = ]0, 1[.
1 Pn
◮ l’EMV s’écrit θ̂n = Xi .
n i=1
Questions
1 Vérifier que le modèle satisfait aux hypothèses de l’inégalité de
Cramér-Rao, et calculer la borne de Cramér-Rao.
2 L’EMV θ̂n est-il efficace ?
47/55
Corrigé de l’exercice 1
➊ Décomposition biais-variance
Rθ (η̂) = Eθ (η̂ − g (θ))2 = varθ (η̂) + bθ (η̂)2 .
Démonstration
Rθ (η̂) = Eθ (η̂ − g (θ))2
= Eθ (η̂ − Eθ (η̂) + bθ (η̂))2
= Eθ (η̂ − Eθ (η̂))2 + bθ (η̂)2 + 2 Eθ (η̂ − Eθ (η̂)) bθ (η̂)
| {z } | {z }
varθ (η̂) =0
48/55
Corrigé de l’exercice 1 (suite)
µ0 µ0 µ0 − µ 0 (µ0 − µ)2
1
1 1 1 σ2 1 σ2 1 2
2 µ0 + X̄n 2 (µ0 + µ) 2 (µ0 − µ) 4 n 4 n + 4 (µ0 − µ)
σ2 σ2
X̄n + c µ+c c n n + c2
49/55
Corrigé de l’exercice 1 (suite)
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
50/55
Corrigé de l’exercice 1 (suite)
Pour θ = (µ0 , 1) on a
1
Rθ (µ̂2 ) = 0, Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) < Rθ (µ̂3 ) .
4n
Pour θ = µ0 + √1 , 1 on a
n
1 1
Rθ (µ̂2 ) = , Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) > Rθ (µ̂3 ) .
n 2n
Donc les estimateurs µ̂2 et µ̂3 ne sont pas comparables.
51/55
Corrigé de l’exercice 1 (suite)
➍ On a :
σ2
Rθ (µ̂4 ) =
+ c2
n
R (µ̂ ) = σ2
θ 1
n
Donc, ∀θ = (µ, σ 2 ) ∈ Θ = R × R+
∗ , Rθ (µ̂4 ) > Rθ (µ̂1 )
52/55
Corrigé de l’exercice 2
∂(ln fθ ) n
Sθ (X ) = (Xi ) = X̄n − θ
∂θ θ(1 − θ)
53/55
Corrigé de l’exercice 2 (suite)
n
est centré : Eθ (Sθ (X )) = Eθ (X̄n ) − θ = 0.
θ(1 − θ)
54/55
Corrigé de l’exercice 2 (suite)
1 Pn
➋ L’estimateur θ̂n = n i=1 Xi est sans biais :
Eθ (θ̂n ) = Eθ (X1 ) = θ,
et sa variance vaut
1 θ(1 − θ)
var(θ̂) = var(X1 ) = = I (θ)−1 .
n n
Il est donc efficace.
Remarque : on peut vérifier facilement que θ̂n est un estimateur régulier (voir
définition slide 30), puisque
a la densité fθ est dérivable par rapport à θ,
b les intégrales se réduisent à des sommes finies sur {0, 1}n .
55/55