Vous êtes sur la page 1sur 104

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet


(prenom.nom@centralesupelec.fr)

Enseignement : CentraleSupélec / Département de Mathématiques


Recherche : Laboratoire des signaux & systèmes (L2S)

: Coordinateur du cours

1/55
Cours 2/10
Estimation ponctuelle

Objectifs du cours 2
◮ Savoir quantifier les performances d’un estimateur.
◮ Savoir comparer des estimateurs.
◮ Introduire l’approche asymptotique.

2/55
Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement

3/55
Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement
Rappel : cadre mathématique
Données
◮ Formellement, un élément x d’un ensemble X .
◮ ex : X = Rn , Rn×d , {mots}, un espace fonctionnel, etc.

Des données aux VA


◮ Point de vue a priori : avant réalisation de l’expérience.
◮ Modélisation : VA X à valeur dans (X , A ),
◮ mais la loi de X est inconnue.

Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )

◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .


4/55
Rappel : cadre mathématique
Données
◮ Formellement, un élément x d’un ensemble X .
◮ ex : X = Rn , Rn×d , {mots}, un espace fonctionnel, etc.

Des données aux VA


◮ Point de vue a priori : avant réalisation de l’expérience.
◮ Modélisation : VA X à valeur dans (X , A ),
◮ mais la loi de X est inconnue.

Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )

◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .


4/55
Rappel : cadre mathématique
Données
◮ Formellement, un élément x d’un ensemble X .
◮ ex : X = Rn , Rn×d , {mots}, un espace fonctionnel, etc.

Des données aux VA


◮ Point de vue a priori : avant réalisation de l’expérience.
◮ Modélisation : VA X à valeur dans (X , A ),
◮ mais la loi de X est inconnue.

Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )

◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .


4/55
Rappel : cadre mathématique (suite)

Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.

Famille paramétrée de probabilités


◮ Usuellement, on écrit P = {Pθ , θ ∈ Θ}.
◮ θ : paramètre inconnu (scalaire, vectoriel, fonctionnel. . . )
◮ Dans la suite, on suppose un modèle paramétrique : Θ ⊂ Rp .

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)


◮ X = X n , avec X ⊂ Rd , munis de leurs tribus boréliennes,
iid X
◮ X = (X1 , . . . , Xn ) avec Xi ∼ Pθ , et donc Pθ = P⊗n
θ .
5/55
Rappel : cadre mathématique (suite)

Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.

Famille paramétrée de probabilités


◮ Usuellement, on écrit P = {Pθ , θ ∈ Θ}.
◮ θ : paramètre inconnu (scalaire, vectoriel, fonctionnel. . . )
◮ Dans la suite, on suppose un modèle paramétrique : Θ ⊂ Rp .

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)


◮ X = X n , avec X ⊂ Rd , munis de leurs tribus boréliennes,
iid X
◮ X = (X1 , . . . , Xn ) avec Xi ∼ Pθ , et donc Pθ = P⊗n
θ .
5/55
Rappel : cadre mathématique (suite)

Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.

Famille paramétrée de probabilités


◮ Usuellement, on écrit P = {Pθ , θ ∈ Θ}.
◮ θ : paramètre inconnu (scalaire, vectoriel, fonctionnel. . . )
◮ Dans la suite, on suppose un modèle paramétrique : Θ ⊂ Rp .

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)


◮ X = X n , avec X ⊂ Rd , munis de leurs tribus boréliennes,
iid X
◮ X = (X1 , . . . , Xn ) avec Xi ∼ Pθ , et donc Pθ = P⊗n
θ .
5/55
Estimation (ponctuelle)

Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.

Définition informelle : estimation


Deviner (inférer) la valeur de η à partir d’une réalisation x de X .

Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.

Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.


En pratique on confond les deux et on notera (abusivement) η̂ = η̂(X ).
6/55
Estimation (ponctuelle)

Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.

Définition informelle : estimation


Deviner (inférer) la valeur de η à partir d’une réalisation x de X .

Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.

Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.


En pratique on confond les deux et on notera (abusivement) η̂ = η̂(X ).
6/55
Exemple 1

n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec


iid
◮ X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),

◮ θ = µ, σ 2 ,
◮ Θ = R × ]0; +∞[.

Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;



◮ ici η = µ et g : θ = µ, σ 2 7→ µ,
◮ σ 2 est inconnu aussi (paramètre de nuisance).

7/55
Exemple 1 (suite)

Quelques estimateurs possibles. . .


P
◮ µ̂1 = X̄n = n1 ni=1 Xi (méthode des moments / EMV),
◮ µ̂2 = µ0 pour un µ0 ∈ R fixé,
◮ µ̂3 = 21 µ0 + 12 X̄n ,
◮ µ̂4 = X̄n + c pour un c 6= 0 fixé,
◮ µ̂5 = med(X1 , . . . , Xn ),
◮ ...

Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?

8/55
Exemple 1 (suite)

Quelques estimateurs possibles. . .


P
◮ µ̂1 = X̄n = n1 ni=1 Xi (méthode des moments / EMV),
◮ µ̂2 = µ0 pour un µ0 ∈ R fixé,
◮ µ̂3 = 21 µ0 + 12 X̄n ,
◮ µ̂4 = X̄n + c pour un c 6= 0 fixé,
◮ µ̂5 = med(X1 , . . . , Xn ),
◮ ...

Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?

8/55
Autres exemples

Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.

Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.

9/55
Autres exemples

Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.

Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.

9/55
Autres exemples (suite)

Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.

Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.

10/55
Autres exemples (suite)

Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.

Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.

10/55
Autres exemples (suite et fin)
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
◮ θ = P, la loi inconnue,
◮ Θ = {lois de proba sur (R, B(R))},
◮ g (θ) = F : fonction de répartition des Xi .

Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
 R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.

Exemples 3 et 4 : statistique non-paramétrique (hors programme).


11/55
Autres exemples (suite et fin)
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
◮ θ = P, la loi inconnue,
◮ Θ = {lois de proba sur (R, B(R))},
◮ g (θ) = F : fonction de répartition des Xi .

Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
 R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.

Exemples 3 et 4 : statistique non-paramétrique (hors programme).


11/55
Autres exemples (suite et fin)
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
◮ θ = P, la loi inconnue,
◮ Θ = {lois de proba sur (R, B(R))},
◮ g (θ) = F : fonction de répartition des Xi .

Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
 R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.

Exemples 3 et 4 : statistique non-paramétrique (hors programme).


11/55
Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur

On se donne une fonction de perte L : N × N → R.


◮ Rappel : N = g (Θ) est l’ensemble des valeurs possibles de η.
◮ Interprétation : on perd L(η, η ′ ) si l’on estime η ′ alors que la
valeur vraie est η.

Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

12/55
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur

On se donne une fonction de perte L : N × N → R.


◮ Rappel : N = g (Θ) est l’ensemble des valeurs possibles de η.
◮ Interprétation : on perd L(η, η ′ ) si l’on estime η ′ alors que la
valeur vraie est η.

Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

12/55
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur

On se donne une fonction de perte L : N × N → R.


◮ Rappel : N = g (Θ) est l’ensemble des valeurs possibles de η.
◮ Interprétation : on perd L(η, η ′ ) si l’on estime η ′ alors que la
valeur vraie est η.

Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

12/55
Risque quadratique

Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire : 
Rθ (η̂) = Eθ kg (θ) − η̂k2 .

Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.

13/55
Risque quadratique

Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire : 
Rθ (η̂) = Eθ kg (θ) − η̂k2 .

Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.

13/55
Exemple 1 (rappel)

n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec


iid
◮ X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),

◮ θ = µ, σ 2 ,
◮ Θ = R × ]0; +∞[.

Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;



◮ ici η = µ et g : θ = µ, σ 2 7→ µ,
◮ σ 2 est inconnu aussi (paramètre de nuisance).

14/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1


Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :

Risque quadratique de la moyenne empirique

  σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n

Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1


Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :

Risque quadratique de la moyenne empirique

  σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n

Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)

On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1

Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1

16/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)

On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1

Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1

16/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.

Définitions : biais / estimateur sans biais


On définit le biais de l’estimateur η̂ au point θ ∈ Θ par

bθ (η̂) = Eθ (η̂) − g (θ).

On dit que η̂ est un estimateur sans biais (ESB) si

bθ (η̂) = 0, ∀θ ∈ Θ.

Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.

Définitions : biais / estimateur sans biais


On définit le biais de l’estimateur η̂ au point θ ∈ Θ par

bθ (η̂) = Eθ (η̂) − g (θ).

On dit que η̂ est un estimateur sans biais (ESB) si

bθ (η̂) = 0, ∀θ ∈ Θ.

Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Décomposition biais-variance

Rappel : on considère toujours le risque quadratique.



Soit η̂ un estimateur de η = g (θ) tq Eθ kη̂k2 < +∞, ∀θ ∈ Θ.

Proposition : Décomposition biais-variance (cas scalaire)


Si le paramètre à estimer est scalaire (η ∈ R), on a :

Rθ (η̂) = Eθ (η̂ − g (θ))2 = varθ (η̂) + bθ (η̂)2 .

Remarque : en sommant sur le composantes, on généralise au cas vectoriel :

Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,




où varθ (η̂) est la matrice de covariance de η̂.

18/55
Décomposition biais-variance

Rappel : on considère toujours le risque quadratique.



Soit η̂ un estimateur de η = g (θ) tq Eθ kη̂k2 < +∞, ∀θ ∈ Θ.

Proposition : Décomposition biais-variance (cas scalaire)


Si le paramètre à estimer est scalaire (η ∈ R), on a :

Rθ (η̂) = Eθ (η̂ − g (θ))2 = varθ (η̂) + bθ (η̂)2 .

Remarque : en sommant sur le composantes, on généralise au cas vectoriel :

Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,




où varθ (η̂) est la matrice de covariance de η̂.

18/55
Exemple 1 : risque de quelques estimateurs

σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
σ2
µ̂5 = med(X1 , . . . , Xn ) Rθ (µ̂5 ) ≈ 1.57 + 02 (n → +∞)
n

Exercice : Calculer Rθ (µ̂j ), 2 ≤ j ≤ 4

Remarque : seul le résultat pour µ̂5 utilise le caractère gaussien.

19/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).

Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),

Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).

Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Exemple 1 (suite)

σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n

◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.

21/55
Exemple 1 (suite)

σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n

◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.

21/55
Exemple 1 (suite)

σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n

◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.

21/55
Exemple 1 (suite)

σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n

◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.

21/55
Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement
Motivation

On présente dans cette partie une borne de la forme

varθ (η̂) ≥ vmin (θ), ∀θ ∈ Θ,

valable pour (presque) tous les estimateurs sans biais de g (θ).

Remarque : pour un ESB, Rθ (η̂) = varθ (η̂).

Utilité d’une telle borne ?


1 Établir qu’un certain niveau de précision n’est pas atteignable
par un estimateur sans biais.
2 Établir qu’un ESB donné est optimal (situation rare).
3 Établir qu’un ESB donné est proche de l’optimalité.

22/55
Motivation

On présente dans cette partie une borne de la forme

varθ (η̂) ≥ vmin (θ), ∀θ ∈ Θ,

valable pour (presque) tous les estimateurs sans biais de g (θ).

Remarque : pour un ESB, Rθ (η̂) = varθ (η̂).

Utilité d’une telle borne ?


1 Établir qu’un certain niveau de précision n’est pas atteignable
par un estimateur sans biais.
2 Établir qu’un ESB donné est optimal (situation rare).
3 Établir qu’un ESB donné est proche de l’optimalité.

22/55
Condition de régularité C1

Modèle dominé : il existe une mesure (σ-finie) ν sur (X , A ) tq


Z
∀A ∈ A , Pθ (X ∈ A) = fθ (x) ν(dx).
A

Condition de régularité C1
Les densités fθ ont même support : ∃S ∈ A ,

∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.

Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.

23/55
Condition de régularité C1

Modèle dominé : il existe une mesure (σ-finie) ν sur (X , A ) tq


Z
∀A ∈ A , Pθ (X ∈ A) = fθ (x) ν(dx).
A

Condition de régularité C1
Les densités fθ ont même support : ∃S ∈ A ,

∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.

Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.

23/55
Condition de régularité C1 : exemples / contre-exemple

Considérons un n-échantillon IID, univarié :


n
Y
X ∼ fθ (x) = fθ (xi )
i=1

(avec un abus de notation usuel pour la notation des densités).

Remarque : si C1 est vraie pour n = 1 avec S = S1 ,


alors elle est vraie aussi pour tout n ≥ 2 avec S = S1n .

Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !

24/55
Condition de régularité C1 : exemples / contre-exemple

Considérons un n-échantillon IID, univarié :


n
Y
X ∼ fθ (x) = fθ (xi )
i=1

(avec un abus de notation usuel pour la notation des densités).

Remarque : si C1 est vraie pour n = 1 avec S = S1 ,


alors elle est vraie aussi pour tout n ≥ 2 avec S = S1n .

Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !

24/55
Une autre condition de régularité
On suppose que C1 est vraie.

Condition de régularité C2
i Θ est un ouvert de Rp ,
ii θ 7→ fθ (x) est dérivable ν-presque pour tout x,
iii et, en tout point θ ∈ Θ, on a
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0.
S S

Autrement dit : ∀θ ∈ Θ, ∀k ≤ p,
Z Z
∂fθ (x) ∂
ν(dx) = fθ (x) ν(dx) = 0.
S ∂θk ∂θk S
25/55
Le vecteur score
Définition / propriété : score
Supposons C1 , C2 -i et C2 -ii vérifiées, et posons pour tout x ∈ S
 ∂ ln f (x) 
θ
∂θ1
 .. 
Sθ (x) = ∇θ (ln fθ (x)) = 
 . .

∂ ln fθ (x)
∂θp

Alors
i On appelle score le vecteur aléatoire Sθ = Sθ (X ).
ii C2 -iii ⇔ ∀θ ∈ Θ, le score Sθ est centré sous Pθ .

Remarques :
◮ Bien défini puisque X ∈ S Pθ -ps, ∀θ ∈ Θ.
◮ L’estimateur du maximum de vraisemblance annule le score
(rappel : on suppose Θ ⊂ Rp ouvert).
26/55
Le vecteur score (démonstration)
Remarquons que
1
∇θ (ln fθ ) = ∇θ fθ ,

et donc, pour tout θ ∈ Θ,
Z
Eθ (Sθ ) = Sθ (x) fθ (x) ν(dx)
ZS
1
= ∇θ fθ (x) fθ (x) ν(dx)
S fθ (x)
Z
= ∇θ fθ (x) ν(dx).
S
Ainsi,
Z
Eθ (Sθ ) = 0 ⇔ ∇θ fθ (x) ν(dx) = 0 (C2 -iii).
S

27/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.

On calcule la vraisemblance, pour x1 , . . . , xn ≥ 0 :


n
Y P
L(θ; x) = fθ (x) = fθ (xi ) = θn e −θ xi
,
i=1

puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,

et enfin le score :
n  
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1

28/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.

On calcule la vraisemblance, pour x1 , . . . , xn ≥ 0 :


n
Y P
L(θ; x) = fθ (x) = fθ (xi ) = θn e −θ xi
,
i=1

puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,

et enfin le score :
n  
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1

28/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.

On calcule la vraisemblance, pour x1 , . . . , xn ≥ 0 :


n
Y P
L(θ; x) = fθ (x) = fθ (xi ) = θn e −θ xi
,
i=1

puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,

et enfin le score :
n  
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1

28/55
Remarque sur la condition C2 -iii

Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S

ou, de manière équivalente : Eθ (Sθ ) = 0.

Deux approches pour vérifier cette condition :


R
1 Calculer explicitement Eθ (Sθ ) = S ∇θ fθ (x) ν(dx).

2 Utiliser une condition de domination : mq ∀θ0 ∈ Θ, ∃V ⊂ Θ


voisinage de θ0 et g : X → R une fonction ν-intégrable tq

∂fθ (x)
∀θ ∈ V , ∀x ∈ S, ∀k ≤ p, ≤ g (x).
∂θk

29/55
Remarque sur la condition C2 -iii

Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S

ou, de manière équivalente : Eθ (Sθ ) = 0.

Deux approches pour vérifier cette condition :


R
1 Calculer explicitement Eθ (Sθ ) = S ∇θ fθ (x) ν(dx).

2 Utiliser une condition de domination : mq ∀θ0 ∈ Θ, ∃V ⊂ Θ


voisinage de θ0 et g : X → R une fonction ν-intégrable tq

∂fθ (x)
∀θ ∈ V , ∀x ∈ S, ∀k ≤ p, ≤ g (x).
∂θk

29/55
Inégalité de Cramér-Rao (cas scalaire)
Soit un modèle statistique vérifiant C1 , C2 et ∀θ ∈ Θ, varθ (Sθ ) > 0.

Soit η̂ un estimateur de η = g (θ) ∈ R, tq Eθ η̂ 2 < +∞, ∀θ ∈ Θ.

Définition : estimateur régulier


On dit que η̂ est régulier si θ 7→ Eθ (η̂) est dérivable, avec
Z
∇θ Eθ (η̂) = η̂(x) ∇θ fθ (x) ν(dx), ∀θ ∈ Θ.
S

Théorème / définition : inégalité de Cramér-Rao


Si η̂ est un estimateur sans biais et régulier, alors ∀θ ∈ Θ

Rθ (η̂) = varθ (η̂) ≥ ∇g (θ)⊤ varθ (Sθ )−1 ∇g (θ).

Un EBS est dit efficace s’il atteint la borne pour tout θ.


30/55
Inégalité de Cramér-Rao (cas scalaire)
Soit un modèle statistique vérifiant C1 , C2 et ∀θ ∈ Θ, varθ (Sθ ) > 0.

Soit η̂ un estimateur de η = g (θ) ∈ R, tq Eθ η̂ 2 < +∞, ∀θ ∈ Θ.

Définition : estimateur régulier


On dit que η̂ est régulier si θ 7→ Eθ (η̂) est dérivable, avec
Z
∇θ Eθ (η̂) = η̂(x) ∇θ fθ (x) ν(dx), ∀θ ∈ Θ.
S

Théorème / définition : inégalité de Cramér-Rao


Si η̂ est un estimateur sans biais et régulier, alors ∀θ ∈ Θ

Rθ (η̂) = varθ (η̂) ≥ ∇g (θ)⊤ varθ (Sθ )−1 ∇g (θ).

Un EBS est dit efficace s’il atteint la borne pour tout θ.


30/55
Démonstration
Remarque préliminaire : puisque η̂ est un ESB régulier de g (θ),
g est nécessairement dérivable.
Fixons θ ∈ Θ et posons c = covθ (Sθ , η̂) ∈ Rp . Alors, ∀a ∈ Rp ,
 
varθ η̂ − a⊤ Sθ = varθ (η̂) − 2a⊤ c + a⊤ varθ (Sθ ) a ≥ 0.

En particulier, pour a = varθ (Sθ )−1 c ∈ Rp , on obtient :

varθ (η̂) − c ⊤ varθ (Sθ )−1 c ≥ 0.

Pour conclure, puisque Sθ est centré et η̂ un ESB régulier,


Z
1
c = Eθ (η̂Sθ ) = η̂(x) · ∇θ fθ (x) · fθ (x) ν(dx)
S fθ (x)
Z
= η̂(x) ∇θ fθ (x) ν(dx) = ∇θ Eθ (η̂) = ∇g (θ).
S
Information de Fisher (cas scalaire)
On suppose toujours les conditions C1 et C2 .

Définition : information de Fisher


On appelle information de Fisher apportée par X la matrice p × p
 
IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤

qui apparaît dans la borne de Cramér-Rao.

Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors

In (θ) = n I1 (θ).

1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Information de Fisher (cas scalaire)
On suppose toujours les conditions C1 et C2 .

Définition : information de Fisher


On appelle information de Fisher apportée par X la matrice p × p
 
IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤

qui apparaît dans la borne de Cramér-Rao.

Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors

In (θ) = n I1 (θ).

1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Démonstration

Il suffit de remarquer que le score est additif :


n
X
Sθ (X ) = Sθ (Xi )
i=1

et donc
n
X
varθ (Sθ (X )) = varθ (Sθ (Xi )) = n varθ (Sθ (X1 ))
i=1

puisque les variables Sθ (X1 ), . . . , Sθ (Xn ) sont IID.

32/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .

Exercice : l’information de Fisher dans ce modèle vaut


1 
0
In (θ) = n σ2 .
0 2σ1 4

Inégalité de Cramér-Rao avec g (θ) = µ : ∀µ̂′n ESB de µ,

σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .

Exercice : l’information de Fisher dans ce modèle vaut


1 
0
In (θ) = n σ2 .
0 2σ1 4

Inégalité de Cramér-Rao avec g (θ) = µ : ∀µ̂′n ESB de µ,

σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que

◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P

1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .

Un peu de calcul (voir TD 6) permet de montrer que

 2 σ4
varθ σ̂n2 = ,
n−1

et donc σ̂n2 n’est pas un estimateur efficace, puisque

 2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que

◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P

1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .

Un peu de calcul (voir TD 6) permet de montrer que

 2 σ4
varθ σ̂n2 = ,
n−1

et donc σ̂n2 n’est pas un estimateur efficace, puisque

 2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Corrigé de l’exercice

Montrons que la variance empirique Sn2 est biaisée :


n
!
2 1X 2  
Eθ (Sn ) = Eθ Xi − X̄n = Eθ X12 − Eθ X̄n2
2
n
i=1
 2 
2 2
 σ 2 n−1 2
= σ +µ − +µ = σ 6= σ 2 .
n n

On en déduit que la variance « corrigée » est sans biais :


n n n−1 2
Eθ ((Sn′ )2 ) = Eθ (Sn2 ) = · σ = σ2.
n−1 n−1 n
Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement
Motivation / notations

Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))

Approche(s) asymptotique(s) → propriétés approchées


iid
◮ X1 , X2 , . . . ∼ Pθ , définis sur un même (Ω, F , Pθ )
◮ Suite d’estimateurs : η̂n = η̂n (X1 , . . . , Xn )
◮ Propriétés des estimateurs lorsque n → ∞?

Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,

Mn = X n , A ⊗n , P⊗n
 
θ , θ ∈ Θ ,

que l’on réalise sur un même espace (Ω, F ) sous-jacent.


35/55
Motivation / notations

Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))

Approche(s) asymptotique(s) → propriétés approchées


iid
◮ X1 , X2 , . . . ∼ Pθ , définis sur un même (Ω, F , Pθ )
◮ Suite d’estimateurs : η̂n = η̂n (X1 , . . . , Xn )
◮ Propriétés des estimateurs lorsque n → ∞?

Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,

Mn = X n , A ⊗n , P⊗n
 
θ , θ ∈ Θ ,

que l’on réalise sur un même espace (Ω, F ) sous-jacent.


35/55
Rappel de proba : modes de convergence
Principaux modes de convergence utiles en stats :
◮ convergence presque sûre,
◮ convergence dans L2 (en moyenne quadratique),
◮ convergence en probabilité,
◮ convergence en loi.

Implications entre certains modes de convergence :

m.q.

proba loi

p.s.
36/55
Rappel de proba : modes de convergence
✐ convergence presque sûre :
ps
Tn −→ T si P (Tn → T ) = 1

✐ convergence dans L2 (en moyenne quadratique) :

L2 
Tn −→ T si E kTn − T k2 → 0
(j) L2
ssi ∀j ≤ p, Tn −→ T (j)

✐ convergence en probabilité :
P
Tn −
→T si ∀ε > 0, P (kTn − T k ≥ ε) → 0

✐ convergence en loi :
loi
Tn −→ T si ∀ϕ, E (ϕ(Tn )) → E (ϕ(T )) ,

avec ϕ : Rp → R continue et bornée.


Consistance
Soit (η̂n ) une suite d’estimateurs de η = g (θ).

Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)

Consistances forte et en moyenne quadratique


On dit que l’estimateur η̂n est fortement consistant
(resp. consistant en moyenne quadratique) si, ∀θ ∈ Θ,
 
Pθ −p.s. L2 (Pθ )
η̂n −− −−→ g (θ) resp., η̂n −−−−→ g (θ) .
n→∞ n→∞

Remarque : on dit parfois « convergent » au lien de « consistant ». 37/55


Consistance
Soit (η̂n ) une suite d’estimateurs de η = g (θ).

Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)

Consistances forte et en moyenne quadratique


On dit que l’estimateur η̂n est fortement consistant
(resp. consistant en moyenne quadratique) si, ∀θ ∈ Θ,
 
Pθ −p.s. L2 (Pθ )
η̂n −− −−→ g (θ) resp., η̂n −−−−→ g (θ) .
n→∞ n→∞

Remarque : on dit parfois « convergent » au lien de « consistant ». 37/55


Rappel de proba : loi des grands nombres
Soit (Xk )k≥1 une suite de VA réelles ou vectorielles.

Loi forte des grands nombres


Si les Xk sont IID et du premier ordre, alors
p.s.
X̄n −−−→ E(X1 ).
n→∞

Loi des grands nombres dans L2


Si les Xk sont IID et du second ordre, alors
L2
X̄n −−−→ E(X1 ).
n→∞

 2  1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Rappel de proba : loi des grands nombres
Soit (Xk )k≥1 une suite de VA réelles ou vectorielles.

Loi forte des grands nombres


Si les Xk sont IID et du premier ordre, alors
p.s.
X̄n −−−→ E(X1 ).
n→∞

Loi des grands nombres dans L2


Si les Xk sont IID et du second ordre, alors
L2
X̄n −−−→ E(X1 ).
n→∞

 2  1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Consistance : exemples

A) n-échantillon IID, du premier ordre


◮ i.e., Eθ (kX1 k) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant de η = Eθ (X1 ).
◮ On ne peut rien dire sur le risque quadratique sans hypothèse
supplémentaire (il peut même être infini).

B) n-échantillon IID, du second ordre


◮ i.e., Eθ (kX1 k2 ) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = Eθ (X1 ).

39/55
Consistance : exemples

A) n-échantillon IID, du premier ordre


◮ i.e., Eθ (kX1 k) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant de η = Eθ (X1 ).
◮ On ne peut rien dire sur le risque quadratique sans hypothèse
supplémentaire (il peut même être infini).

B) n-échantillon IID, du second ordre


◮ i.e., Eθ (kX1 k2 ) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = Eθ (X1 ).

39/55
Consistance : exemples (suite)

15

10
X̄n

0
0 50 100 150 200
n

Convergence de X̄n vers la vraie moyenne


(pour un n-échantillon de loi Gamma, ici de moyenne µ = 1.5)
40/55
Consistance : exemples (suite)

C) n-échantillon IID (lois quelconques)


◮ Soit A ∈ A et η = g (θ) = Pθ (X1 ∈ A).
◮ Fréquence : η̂n = n1 card {i ≤ n | Xi ∈ A}
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η.

Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .

41/55
Consistance : exemples (suite)

C) n-échantillon IID (lois quelconques)


◮ Soit A ∈ A et η = g (θ) = Pθ (X1 ∈ A).
◮ Fréquence : η̂n = n1 card {i ≤ n | Xi ∈ A}
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η.

Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .

41/55
Consistance : exemples (suite)

60 Histogram of x1
Frequency

40
20
0

2 3 4 5

x1

Un exemple d’histogramme (non normalisé)

42/55
Consistance : exemples (suite)

D) Maximum d’un n-échantillon IID uniforme


iid
◮ X1 , . . . , Xn ∼ U[0,θ]
◮ On estime η = θ par η̂n = maxi≤n Xi .
◮ Exercice (TD 1) : mq η̂n est consistant, fortement et en mq.

E) Estimateur du maximum de vraisemblance


◮ voir plus loin.

43/55
Consistance : exemples (suite)

D) Maximum d’un n-échantillon IID uniforme


iid
◮ X1 , . . . , Xn ∼ U[0,θ]
◮ On estime η = θ par η̂n = maxi≤n Xi .
◮ Exercice (TD 1) : mq η̂n est consistant, fortement et en mq.

E) Estimateur du maximum de vraisemblance


◮ voir plus loin.

43/55
Estimateur asymptotiquement sans biais
Rappel : bθ (η̂) = Eθ (η̂) − g (θ).

Définition : asymptotiquement sans biais


On dit que l’estimateur η̂n est asymptotiquement sans biais si
n→+∞
bθ (η̂) −−−−→ 0, ∀θ ∈ Θ.

Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)

Preuve : décomposition biais-variance ! 44/55


Estimateur asymptotiquement sans biais
Rappel : bθ (η̂) = Eθ (η̂) − g (θ).

Définition : asymptotiquement sans biais


On dit que l’estimateur η̂n est asymptotiquement sans biais si
n→+∞
bθ (η̂) −−−−→ 0, ∀θ ∈ Θ.

Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)

Preuve : décomposition biais-variance ! 44/55


Estimateur asymptotiquement sans biais : exemple

iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.

Méthode 1 : par le calcul


◮ On calcule l’espérance : Eθ (θ̂n ) = n
n+1 θ (voir TD),
θ
◮ d’où le biais : bθ (θ̂) = − n+1 → 0.

Méthode 2 : par le théorème de convergence dominée


◮ On a déjà vu que θ̂n est fortement consistant ;

◮ par ailleurs θ̂n ≤ θ, Pθ − p.s. ;

◮ donc Eθ θ̂n → θ par convergence dominée.

45/55
Estimateur asymptotiquement sans biais : exemple

iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.

Méthode 1 : par le calcul


◮ On calcule l’espérance : Eθ (θ̂n ) = n
n+1 θ (voir TD),
θ
◮ d’où le biais : bθ (θ̂) = − n+1 → 0.

Méthode 2 : par le théorème de convergence dominée


◮ On a déjà vu que θ̂n est fortement consistant ;

◮ par ailleurs θ̂n ≤ θ, Pθ − p.s. ;

◮ donc Eθ θ̂n → θ par convergence dominée.

45/55
Consistance de l’EMV
L’EMV minimise le critère
n
1 1X
γn (θ) = − ln fθ (X ) = − ln fθ (Xi ).
n n
k=1

iid
Fixons θ⋆ ∈ Θ et supposons Xi ∼ fθ⋆ . Alors, ∀θ ∈ Θ,
n Z
1 X fθ⋆ (Xi ) n→+∞ fθ⋆ (x)
γn (θ)−γn (θ⋆ ) = ln −−−−→ ln fθ (x) ν1 (dx).
n fθ (Xi ) ps S1 fθ (x) ⋆
k=1

fθ⋆ (Xi )
(en supposant que Zi = fθ (Xi )
est du premier ordre).

Définition / propriété : divergence de Kullback-Leibler


R fθ⋆ (x)
DKL (fθ⋆ ||fθ ) = S1
ln fθ (x)
fθ⋆ (x) ν1 (dx) ≥ 0
Consistance de l’EMV (suite)

1 Pn fθ⋆ (Xi )
Posons ∆n (θ⋆ , θ) = n k=1 ln fθ (Xi ) et ∆(θ⋆ , θ) = DKL (fθ⋆ ||fθ ).
Pθ −ps
On a ∆n (θ⋆ , θ) −−⋆−−→ ∆(θ⋆ , θ) pour tout θ, et ∆(θ⋆ , θ⋆ ) = 0.
n→+∞

Théorème : consistance de l’EMV


Supposons que, pour tout θ⋆ ∈ Θ,
⋆ Pθ
i supθ∈Θ |∆n (θ⋆ , θ) − ∆(θ⋆ , θ)| −−−− → 0
n→+∞
ii et, pour tout ǫ > 0,

inf ∆(θ⋆ , θ) > 0.


θ∈Θ, kθ−θ⋆ k≥ǫ

Alors l’EMV est consistant.


Plan du cours

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

5 – Exercices d’échauffement
Exercice 1 (risque quadratique)
iid
Soient X1 , . . . , Xn ∼ N (µ, σ 2 ) avec θ = (µ, σ 2 ) ∈ Θ = R × R+
∗.
On souhaite estimer g (θ) = µ. On s’intéresse aux estimateurs

1 1
µ̂1 = X̄n , µ̂2 = µ0 , µ̂3 = µ0 + X̄n , µ̂4 = X̄n + c,
2 2
où µ0 et c sont des réels fixés.

Questions
1 Montrer la formule de décomposition biais-variance dans le cas
scalaire (transparent 18)
2 Calculer le risque quadratique de chacun des estimateurs.
3 Montrer que µ̂2 et µ̂3 ne sont pas comparables.
4 Montrer que µ̂4 n’est pas admissible.

46/55
Exercice 2 (efficacité d’un estimateur)
iid
Soient X1 , . . . , Xn ∼ B(θ) avec θ ∈ Θ = ]0, 1[.

On rappelle que (cf. exercices du cours 1) :


◮ la log-vraisemblance du n échantillon s’écrit
 n
X
θ
ln L(θ; x) = ln fθ (x) = n ln(1 − θ) − ln xi ,
1−θ
i=1

1 Pn
◮ l’EMV s’écrit θ̂n = Xi .
n i=1

Questions
1 Vérifier que le modèle satisfait aux hypothèses de l’inégalité de
Cramér-Rao, et calculer la borne de Cramér-Rao.
2 L’EMV θ̂n est-il efficace ?
47/55
Corrigé de l’exercice 1

➊ Décomposition biais-variance

Rθ (η̂) = Eθ (η̂ − g (θ))2 = varθ (η̂) + bθ (η̂)2 .

Démonstration


Rθ (η̂) = Eθ (η̂ − g (θ))2

= Eθ (η̂ − Eθ (η̂) + bθ (η̂))2

= Eθ (η̂ − Eθ (η̂))2 + bθ (η̂)2 + 2 Eθ (η̂ − Eθ (η̂)) bθ (η̂)
| {z } | {z }
varθ (η̂) =0

= varθ (η̂) + bθ (η̂)2 .

48/55
Corrigé de l’exercice 1 (suite)

➋ On calcule le biais et la variance de l’estimateur, puis on conclut


par la décomposition biais-variance.

espérance biais variance risque quadratique


σ2 σ2
X̄n µ 0 n n

µ0 µ0 µ0 − µ 0 (µ0 − µ)2
1
 1 1 1 σ2 1 σ2 1 2
2 µ0 + X̄n 2 (µ0 + µ) 2 (µ0 − µ) 4 n 4 n + 4 (µ0 − µ)
σ2 σ2
X̄n + c µ+c c n n + c2

Rappel : varθ (αX + β) = α2 varθ (X ).

49/55
Corrigé de l’exercice 1 (suite)

0.8

0.6

0.4

0.2

0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

Tracé des 4 risques pour σ 2 = 1, n = 10, µ0 = 1 et c = 0.5.

50/55
Corrigé de l’exercice 1 (suite)

➌ Calculons le risque en deux points bien choisis.

Pour θ = (µ0 , 1) on a

1
Rθ (µ̂2 ) = 0, Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) < Rθ (µ̂3 ) .
4n
 
Pour θ = µ0 + √1 , 1 on a
n

1 1
Rθ (µ̂2 ) = , Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) > Rθ (µ̂3 ) .
n 2n
Donc les estimateurs µ̂2 et µ̂3 ne sont pas comparables.

51/55
Corrigé de l’exercice 1 (suite)

➍ On a : 
σ2

 Rθ (µ̂4 ) =

 + c2
n



 R (µ̂ ) = σ2
θ 1
n

Donc, ∀θ = (µ, σ 2 ) ∈ Θ = R × R+
∗ , Rθ (µ̂4 ) > Rθ (µ̂1 )

On en déduit que µ̂4 n’est pas admissible.

52/55
Corrigé de l’exercice 2

➊ On doit vérifier que le modèle vérifie les conditions de régularité


C1 et C2 , et que l’information de Fisher ne s’annule pas.

✏ C1 : comme Θ = ]0, 1[, les densités


Pn Pn
fθ (x) = θ i=1 xi (1 − θ)n− i=1 xi

ont toutes pour support S = {0, 1}n .

✏ C2 : Θ = ]0, 1[ est un ouvert de R, θ 7→ fθ (x) est dérivable


sur Θ pour tout x, et le score

∂(ln fθ ) n 
Sθ (X ) = (Xi ) = X̄n − θ
∂θ θ(1 − θ)

53/55
Corrigé de l’exercice 2 (suite)

n 
est centré : Eθ (Sθ (X )) = Eθ (X̄n ) − θ = 0.
θ(1 − θ)

✏ Enfin, on vérifie que l’information de Fisher ne s’annule pas :


 2
n n
I (θ) = varθ (Sθ (X )) = varθ (X̄n ) = > 0.
θ(1 − θ) θ(1 − θ)

✏ La borne de Cramér-Rao pour θ vaut


1
I (θ)−1 = θ(1 − θ).
n

54/55
Corrigé de l’exercice 2 (suite)

1 Pn
➋ L’estimateur θ̂n = n i=1 Xi est sans biais :

Eθ (θ̂n ) = Eθ (X1 ) = θ,

et sa variance vaut
1 θ(1 − θ)
var(θ̂) = var(X1 ) = = I (θ)−1 .
n n
Il est donc efficace.

Remarque : on peut vérifier facilement que θ̂n est un estimateur régulier (voir
définition slide 30), puisque
a la densité fθ est dérivable par rapport à θ,
b les intégrales se réduisent à des sommes finies sur {0, 1}n .

55/55

Vous aimerez peut-être aussi