Cours 2

Statistique et apprentissage
Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

(prenom.nom@centralesupelec.fr)
Enseignement : CentraleSupélec / Département de Mathématiques

Recherche : Laboratoire des signaux & systèmes (L2S)
†
: Coordinateur du cours
1/55
Cours 2/10
Estimation ponctuelle
Objectifs du cours 2
◮ Savoir quantifier les performances d’un estimateur.
◮ Savoir comparer des estimateurs.
◮ Introduire l’approche asymptotique.
2/55
Plan du cours
1 – Généralités sur l’estimation
2 – Risque (quadratique) d’un estimateur
3 – Borne inférieure sur le risque
4 – Propriétés asymptotiques des estimateurs
5 – Exercices d’échauffement
3/55
Plan du cours
Rappel : cadre mathématique
Données
◮ Formellement, un élément x d’un ensemble X .
◮ ex : X = Rn , Rn×d , {mots}, un espace fonctionnel, etc.
Des données aux VA

◮ Point de vue a priori : avant réalisation de l’expérience.
◮ Modélisation : VA X à valeur dans (X , A ),
◮ mais la loi de X est inconnue.
Modélisation statistique
◮ On suppose X définie sur (Ω, F , P), avec P ∈ P.
◮ P : un ensemble de mesure de proba possibles sur (Ω, F )

◮ Formellement, M = X , A , P X , avec P X = {PX , P ∈ P}.
Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .

4/55
Données
Des données aux VA



4/55
Données
Des données aux VA



4/55
Rappel : cadre mathématique (suite)
Important
Comme P ∈ P est inconnue, on doit concevoir des procédures
statistiques qui « fonctionnent bien » (en un sens à préciser) pour
toutes les lois P ∈ P.
Famille paramétrée de probabilités

◮ Usuellement, on écrit P = {Pθ , θ ∈ Θ}.
◮ θ : paramètre inconnu (scalaire, vectoriel, fonctionnel. . . )
◮ Dans la suite, on suppose un modèle paramétrique : Θ ⊂ Rp .
Cas important : n-échantillon (iid) d-varié (→ tableau n × d)

◮ X = X n , avec X ⊂ Rd , munis de leurs tribus boréliennes,
iid X
◮ X = (X1 , . . . , Xn ) avec Xi ∼ Pθ , et donc Pθ = P⊗n
θ .
5/55
Important


iid X
θ .
5/55
Important


iid X
θ .
5/55
Estimation (ponctuelle)
Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.
Définition informelle : estimation

Deviner (inférer) la valeur de η à partir d’une réalisation x de X .
Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.
Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.

En pratique on confond les deux et on notera (abusivement) η̂ = η̂(X ).
6/55
Estimation (ponctuelle)
Paramètre à estimer
◮ On s’intéresse à un paramètre η = g (θ), où g : Θ 7→ R ou Rq .
◮ Sa valeur est inconnue, puisque θ est inconnu.
Définition informelle : estimation

Deviner (inférer) la valeur de η à partir d’une réalisation x de X .
Définition : estimateur
On appelle estimateur toute statistique η̂ = ϕ(X ) à valeurs dans
l’ensemble N = g (Θ) des valeurs possibles de η.
Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.

En pratique on confond les deux et on notera (abusivement) η̂ = η̂(X ).
6/55
Exemple 1
n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec

iid
◮ X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),

◮ θ = µ, σ 2 ,
◮ Θ = R × ]0; +∞[.
Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;

◮ ici η = µ et g : θ = µ, σ 2 7→ µ,
◮ σ 2 est inconnu aussi (paramètre de nuisance).
7/55
Exemple 1 (suite)
Quelques estimateurs possibles. . .

P
◮ µ̂1 = X̄n = n1 ni=1 Xi (méthode des moments / EMV),
◮ µ̂2 = µ0 pour un µ0 ∈ R fixé,
◮ µ̂3 = 21 µ0 + 12 X̄n ,
◮ µ̂4 = X̄n + c pour un c 6= 0 fixé,
◮ µ̂5 = med(X1 , . . . , Xn ),
◮ ...
Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?
8/55
Exemple 1 (suite)
Quelques estimateurs possibles. . .

P
◮ µ̂1 = X̄n = n1 ni=1 Xi (méthode des moments / EMV),
◮ µ̂2 = µ0 pour un µ0 ∈ R fixé,
◮ µ̂3 = 21 µ0 + 12 X̄n ,
◮ µ̂4 = X̄n + c pour un c 6= 0 fixé,
◮ µ̂5 = med(X1 , . . . , Xn ),
◮ ...
Questions
◮ L’un de ces estimateurs est-il « meilleur » que les autres ?
◮ Peut-on trouver un estimateur « optimal » ?
◮ En quel sens ?
8/55
Autres exemples
Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.
Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.
9/55
Autres exemples
Exemple 1’
◮ Même modèle statistique que l’exemple 1, mais
◮ g (θ) = σ 2 .
◮ Dans ce cas, µ est vu comme un paramètre de nuisance.
Exemple 1”
◮ Toujours le même modèle statistique, mais
◮ g (θ) = θ = (µ, σ 2 ).
◮ Ici le paramètre à estimer est vectoriel.
9/55
Autres exemples (suite)
Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.
Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.
10/55
Autres exemples (suite)
Exemple 2
iid
◮ X1 , X2 , . . . , Xn ∼ E(θ), i.e., fθ (x) = θ e −θx 1x≥0 ,
◮ Θ = ]0, +∞[,
◮ g (θ) = Eθ (X1 ) = 1/θ.
Exemple 2’
◮ Même modèle statistique, mais
◮ g (θ) = Pθ (X1 > x0 ) = e −θx0 pour un x0 > 0 donné.
10/55
Autres exemples (suite et fin)
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
◮ θ = P, la loi inconnue,
◮ Θ = {lois de proba sur (R, B(R))},
◮ g (θ) = F : fonction de répartition des Xi .
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
◮ Pθ : loi de densité de probabilité θ(x)
R
◮ Θ = ddp sur R, de classe C 2 , avec θ′′ (x)2 dx < +∞
◮ g (θ) = θ.
Exemples 3 et 4 : statistique non-paramétrique (hors programme).

11/55
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
R
◮ g (θ) = θ.

11/55
Exemple 3
iid
◮ X1 , X2 , . . . , Xn ∼ P,
Exemple 4
iid
◮ X1 , X2 , . . . , Xn ∼ Pθ ,
R
◮ g (θ) = θ.

11/55
Plan du cours
Notion générale de risque
Objectif
Quantifier les performances d’un estimateur
On se donne une fonction de perte L : N × N → R.

◮ Rappel : N = g (Θ) est l’ensemble des valeurs possibles de η.
◮ Interprétation : on perd L(η, η ′ ) si l’on estime η ′ alors que la
valeur vraie est η.
Risque
Étant donné une fonction de perte L, on définit le risque Rθ (η̂) de
l’estimateur η̂, pour la valeur θ ∈ Θ du paramètre, par
Rθ (η̂) = Eθ (L (g (θ), η̂)) .
12/55
Objectif

Risque
Rθ (η̂) = Eθ (L (g (θ), η̂)) .
12/55
Objectif

Risque
Rθ (η̂) = Eθ (L (g (θ), η̂)) .
12/55
Risque quadratique
Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire :
Rθ (η̂) = Eθ kg (θ) − η̂k2 .
Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.
13/55
Risque quadratique
Risque quadratique
On appelle risque quadratique le risque associé à la fonction de
perte
L(η, η ′ ) = kη − η ′ k2 ,
c’est-à-dire :
Rθ (η̂) = Eθ kg (θ) − η̂k2 .
Remarques
◮ Aussi appelée « erreur quadratique moyenne » (EQM).
◮ C’est la notion de risque la plus couramment utilisée
(pour des raison de simplicité, comme on va le voir) ;
◮ dans toute la suite on considérera exclusivement ce risque.
13/55
Exemple 1 (rappel)
n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec

iid
◮ X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ),

◮ θ = µ, σ 2 ,
◮ Θ = R × ]0; +∞[.
Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;

◮ ici η = µ et g : θ = µ, σ 2 7→ µ,
◮ σ 2 est inconnu aussi (paramètre de nuisance).
14/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1

Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :
Risque quadratique de la moyenne empirique
σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n
Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1
Considérons l’estimateur
n
1X
µ̂1 = X̄n = Xi .
n
i=1

Pour tout θ = µ, σ 2 ∈ Θ, on a le résultat suivant :
Risque quadratique de la moyenne empirique
σ2
Rθ (µ̂1 ) = Eθ (µ̂1 − µ)2 = .
n
Remarque : le résultat reste valable dès que les Xi sont du second ordre
(on n’utilise pas le caractère gaussien)
15/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)
On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1
Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1
16/55
Exemple 1 : risque de l’estimateur µ̂1 (calcul)
On observe que
n
1X
Eθ (µ̂1 ) = Eθ (Xi ) = µ.
n
i=1
Donc
n
!
1 X
Rθ (µ̂1 ) = varθ (µ̂1 ) = 2 varθ Xi
n
i=1
n
1 X σ2
= 2 varθ (Xi ) =
n n
i=1
16/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.
Définitions : biais / estimateur sans biais

On définit le biais de l’estimateur η̂ au point θ ∈ Θ par
bθ (η̂) = Eθ (η̂) − g (θ).
On dit que η̂ est un estimateur sans biais (ESB) si
bθ (η̂) = 0, ∀θ ∈ Θ.
Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Biais d’un estimateur
Soit η̂ un estimateur de η = g (θ) tq Eθ (kη̂k) < +∞, ∀θ ∈ Θ.
Définitions : biais / estimateur sans biais

On définit le biais de l’estimateur η̂ au point θ ∈ Θ par
bθ (η̂) = Eθ (η̂) − g (θ).
On dit que η̂ est un estimateur sans biais (ESB) si
bθ (η̂) = 0, ∀θ ∈ Θ.
Exemple 1
◮ On a déjà vu que µ̂1 = X̄n est un ESB de µ.
◮ Plus généralement (exercice) : µ̂ = α + β X̄n est un ESB de µ
si, et seulement si, α = 0 et β = 1.
17/55
Décomposition biais-variance
Rappel : on considère toujours le risque quadratique.

Soit η̂ un estimateur de η = g (θ) tq Eθ kη̂k2 < +∞, ∀θ ∈ Θ.
Proposition : Décomposition biais-variance (cas scalaire)

Si le paramètre à estimer est scalaire (η ∈ R), on a :

Rθ (η̂) = Eθ (η̂ − g (θ))2 = varθ (η̂) + bθ (η̂)2 .
Remarque : en sommant sur le composantes, on généralise au cas vectoriel :
Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,

où varθ (η̂) est la matrice de covariance de η̂.
18/55
Décomposition biais-variance
Rappel : on considère toujours le risque quadratique.

Soit η̂ un estimateur de η = g (θ) tq Eθ kη̂k2 < +∞, ∀θ ∈ Θ.
Proposition : Décomposition biais-variance (cas scalaire)

Si le paramètre à estimer est scalaire (η ∈ R), on a :

Remarque : en sommant sur le composantes, on généralise au cas vectoriel :
Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,

où varθ (η̂) est la matrice de covariance de η̂.
18/55
Exemple 1 : risque de quelques estimateurs
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
σ2
µ̂5 = med(X1 , . . . , Xn ) Rθ (µ̂5 ) ≈ 1.57 + 02 (n → +∞)
n
Exercice : Calculer Rθ (µ̂j ), 2 ≤ j ≤ 4
Remarque : seul le résultat pour µ̂5 utilise le caractère gaussien.
19/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).
Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Estimateurs admissibles
Définition : relation d’ordre sur l’ensemble des estimateurs
On dira que η̂ ′ est préférable (au sens large) à η̂ si
◮ ∀θ ∈ Θ, Rθ (η̂ ′ ) ≤ Rθ (η̂),
On dira qu’il est strictement préférable à η̂ si, de plus,
◮ ∃θ ∈ Θ, Rθ (η̂ ′ ) < Rθ (η̂),
Remarques
◮ La relation « préférable à » est un ordre partiel sur les fonctions de risque.
◮ Il n’existe pas en général un estimateur optimal, càd un estimateur préférable à
tous les autres (sauf à restreindre la classe d’estimateurs considérés).
Admissibilité
On dit que η̂ est un estimateur admissible s’il n’existe pas un
estimateur η̂ ′ qui lui est strictement préférable.
20/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
◮ µ̂1 est strictement préférable à µ̂4 , donc µ̂4 n’est pas admissible.
◮ µ̂1 , µ̂2 , et µ̂3 sont deux à deux incomparables.
◮ On peut montrer que les trois sont admissibles.
Exercice : Montrer que µ̂2 est admissible.
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
21/55
Exemple 1 (suite)
σ2
µ̂1 = X̄n Rθ (µ̂1 ) = + 02
n
µ̂2 = µ0 Rθ (µ̂2 ) = 02 + (µ − µ0 )2
1 1 1 σ2 1
µ̂3 = µ0 + X̄n Rθ (µ̂3 ) = + (µ − µ0 )2
2 2 4 n 4
σ2
µ̂4 = X̄n + c Rθ (µ̂4 ) = + c2
n
21/55
Plan du cours
Motivation
On présente dans cette partie une borne de la forme
varθ (η̂) ≥ vmin (θ), ∀θ ∈ Θ,
valable pour (presque) tous les estimateurs sans biais de g (θ).
Remarque : pour un ESB, Rθ (η̂) = varθ (η̂).
Utilité d’une telle borne ?

1 Établir qu’un certain niveau de précision n’est pas atteignable
par un estimateur sans biais.
2 Établir qu’un ESB donné est optimal (situation rare).
3 Établir qu’un ESB donné est proche de l’optimalité.
22/55
Motivation
On présente dans cette partie une borne de la forme
varθ (η̂) ≥ vmin (θ), ∀θ ∈ Θ,
valable pour (presque) tous les estimateurs sans biais de g (θ).
Remarque : pour un ESB, Rθ (η̂) = varθ (η̂).
Utilité d’une telle borne ?

1 Établir qu’un certain niveau de précision n’est pas atteignable
par un estimateur sans biais.
2 Établir qu’un ESB donné est optimal (situation rare).
3 Établir qu’un ESB donné est proche de l’optimalité.
22/55
Condition de régularité C1
Modèle dominé : il existe une mesure (σ-finie) ν sur (X , A ) tq

Z
∀A ∈ A , Pθ (X ∈ A) = fθ (x) ν(dx).
A
Les densités fθ ont même support : ∃S ∈ A ,
∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.
Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.
23/55
Modèle dominé : il existe une mesure (σ-finie) ν sur (X , A ) tq

Z
∀A ∈ A , Pθ (X ∈ A) = fθ (x) ν(dx).
A
Les densités fθ ont même support : ∃S ∈ A ,
∀θ ∈ Θ, fθ (x) > 0 ⇔ x ∈ S.
Remarques :
◮ S n’est défini qu’à un ensemble ν-négligeable près (comme les ddp).
◮ Rigoureusement, le « support » de la mesure est la fermeture de S.
23/55
Condition de régularité C1 : exemples / contre-exemple
Considérons un n-échantillon IID, univarié :

n
Y
X ∼ fθ (x) = fθ (xi )
i=1
(avec un abus de notation usuel pour la notation des densités).
Remarque : si C1 est vraie pour n = 1 avec S = S1 ,

alors elle est vraie aussi pour tout n ≥ 2 avec S = S1n .
Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !
24/55
Condition de régularité C1 : exemples / contre-exemple
Considérons un n-échantillon IID, univarié :

n
Y
X ∼ fθ (x) = fθ (xi )
i=1
(avec un abus de notation usuel pour la notation des densités).
Remarque : si C1 est vraie pour n = 1 avec S = S1 ,

alors elle est vraie aussi pour tout n ≥ 2 avec S = S1n .
Quelques exemples. . .
1 N (µ, σ 2 ) avec σ 2 > 0 : C1 est vraie avec S1 = R,
2 E(θ) : C1 est vraie avec S1 = [0, +∞).
3 U[0,θ] : C1 n’est pas vraie !
24/55
Une autre condition de régularité
On suppose que C1 est vraie.
i Θ est un ouvert de Rp ,
ii θ 7→ fθ (x) est dérivable ν-presque pour tout x,
iii et, en tout point θ ∈ Θ, on a
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0.
S S
Autrement dit : ∀θ ∈ Θ, ∀k ≤ p,
Z Z
∂fθ (x) ∂
ν(dx) = fθ (x) ν(dx) = 0.
S ∂θk ∂θk S
25/55
Le vecteur score
Définition / propriété : score
Supposons C1 , C2 -i et C2 -ii vérifiées, et posons pour tout x ∈ S
 ∂ ln f (x) 
θ
∂θ1
 .. 
Sθ (x) = ∇θ (ln fθ (x)) = 
 . .

∂ ln fθ (x)
∂θp
Alors
i On appelle score le vecteur aléatoire Sθ = Sθ (X ).
ii C2 -iii ⇔ ∀θ ∈ Θ, le score Sθ est centré sous Pθ .
Remarques :
◮ Bien défini puisque X ∈ S Pθ -ps, ∀θ ∈ Θ.
◮ L’estimateur du maximum de vraisemblance annule le score
(rappel : on suppose Θ ⊂ Rp ouvert).
26/55
Le vecteur score (démonstration)
Remarquons que
1
∇θ (ln fθ ) = ∇θ fθ ,
fθ
et donc, pour tout θ ∈ Θ,
Z
Eθ (Sθ ) = Sθ (x) fθ (x) ν(dx)
ZS
1
= ∇θ fθ (x) fθ (x) ν(dx)
S fθ (x)
Z
= ∇θ fθ (x) ν(dx).
S
Ainsi,
Z
Eθ (Sθ ) = 0 ⇔ ∇θ fθ (x) ν(dx) = 0 (C2 -iii).
S
27/55
Exemple 2
iid
Rappel : X1 , . . . , Xn ∼ E(θ) avec θ ∈ Θ = ]0, +∞[.
On calcule la vraisemblance, pour x1 , . . . , xn ≥ 0 :

n
Y P
L(θ; x) = fθ (x) = fθ (xi ) = θn e −θ xi
,
i=1
puis la log-vraisemblance :
X
ln L(θ; x) = ln fθ (x) = n ln θ − θ xi ,
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Exemple 2
iid

n
Y P
,
i=1
X
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Exemple 2
iid

n
Y P
,
i=1
X
et enfin le score :
n
X 1
Sθ (X ) = Sθ (Xi ) = n − X̄n .
θ
i=1
28/55
Remarque sur la condition C2 -iii
Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S
ou, de manière équivalente : Eθ (Sθ ) = 0.
Deux approches pour vérifier cette condition :

R
1 Calculer explicitement Eθ (Sθ ) = S ∇θ fθ (x) ν(dx).
2 Utiliser une condition de domination : mq ∀θ0 ∈ Θ, ∃V ⊂ Θ

voisinage de θ0 et g : X → R une fonction ν-intégrable tq

∂fθ (x)
∀θ ∈ V , ∀x ∈ S, ∀k ≤ p, ≤ g (x).
∂θk
29/55
Remarque sur la condition C2 -iii
Rappel de C2 -iii : ∀θ ∈ Θ,
Z Z
∇θ fθ (x) ν(dx) = ∇θ fθ (x) ν(dx) = 0,
S S
ou, de manière équivalente : Eθ (Sθ ) = 0.
Deux approches pour vérifier cette condition :

R
1 Calculer explicitement Eθ (Sθ ) = S ∇θ fθ (x) ν(dx).
2 Utiliser une condition de domination : mq ∀θ0 ∈ Θ, ∃V ⊂ Θ

voisinage de θ0 et g : X → R une fonction ν-intégrable tq

∂fθ (x)
∀θ ∈ V , ∀x ∈ S, ∀k ≤ p, ≤ g (x).
∂θk
29/55
Inégalité de Cramér-Rao (cas scalaire)
Soit un modèle statistique vérifiant C1 , C2 et ∀θ ∈ Θ, varθ (Sθ ) > 0.

Soit η̂ un estimateur de η = g (θ) ∈ R, tq Eθ η̂ 2 < +∞, ∀θ ∈ Θ.
Définition : estimateur régulier

On dit que η̂ est régulier si θ 7→ Eθ (η̂) est dérivable, avec
Z
∇θ Eθ (η̂) = η̂(x) ∇θ fθ (x) ν(dx), ∀θ ∈ Θ.
S
Théorème / définition : inégalité de Cramér-Rao

Si η̂ est un estimateur sans biais et régulier, alors ∀θ ∈ Θ
Rθ (η̂) = varθ (η̂) ≥ ∇g (θ)⊤ varθ (Sθ )−1 ∇g (θ).
Un EBS est dit efficace s’il atteint la borne pour tout θ.

30/55
Inégalité de Cramér-Rao (cas scalaire)
Soit un modèle statistique vérifiant C1 , C2 et ∀θ ∈ Θ, varθ (Sθ ) > 0.

Soit η̂ un estimateur de η = g (θ) ∈ R, tq Eθ η̂ 2 < +∞, ∀θ ∈ Θ.
Définition : estimateur régulier

On dit que η̂ est régulier si θ 7→ Eθ (η̂) est dérivable, avec
Z
∇θ Eθ (η̂) = η̂(x) ∇θ fθ (x) ν(dx), ∀θ ∈ Θ.
S
Théorème / définition : inégalité de Cramér-Rao

Si η̂ est un estimateur sans biais et régulier, alors ∀θ ∈ Θ
Rθ (η̂) = varθ (η̂) ≥ ∇g (θ)⊤ varθ (Sθ )−1 ∇g (θ).
Un EBS est dit efficace s’il atteint la borne pour tout θ.

30/55
Démonstration
Remarque préliminaire : puisque η̂ est un ESB régulier de g (θ),
g est nécessairement dérivable.
Fixons θ ∈ Θ et posons c = covθ (Sθ , η̂) ∈ Rp . Alors, ∀a ∈ Rp ,

varθ η̂ − a⊤ Sθ = varθ (η̂) − 2a⊤ c + a⊤ varθ (Sθ ) a ≥ 0.
En particulier, pour a = varθ (Sθ )−1 c ∈ Rp , on obtient :
varθ (η̂) − c ⊤ varθ (Sθ )−1 c ≥ 0.
Pour conclure, puisque Sθ est centré et η̂ un ESB régulier,

Z
1
c = Eθ (η̂Sθ ) = η̂(x) · ∇θ fθ (x) · fθ (x) ν(dx)
S fθ (x)
Z
= η̂(x) ∇θ fθ (x) ν(dx) = ∇θ Eθ (η̂) = ∇g (θ).
S
Information de Fisher (cas scalaire)
On suppose toujours les conditions C1 et C2 .
Définition : information de Fisher

On appelle information de Fisher apportée par X la matrice p × p

IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤
qui apparaît dans la borne de Cramér-Rao.
Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors
In (θ) = n I1 (θ).
1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Information de Fisher (cas scalaire)
On suppose toujours les conditions C1 et C2 .
Définition : information de Fisher

On appelle information de Fisher apportée par X la matrice p × p

IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤
qui apparaît dans la borne de Cramér-Rao.
Proposition
Soit In (θ) l’information de Fisher dans un n-échantillon IID. Alors
In (θ) = n I1 (θ).
1
L’inégalité de CR s’écrit alors : varθ (η̂) ≥ n ∇g (θ)⊤ I1 (θ)−1 ∇g (θ).
31/55
Démonstration
Il suffit de remarquer que le score est additif :

n
X
Sθ (X ) = Sθ (Xi )
i=1
et donc
n
X
varθ (Sθ (X )) = varθ (Sθ (Xi )) = n varθ (Sθ (X1 ))
i=1
puisque les variables Sθ (X1 ), . . . , Sθ (Xn ) sont IID.
32/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .
Exercice : l’information de Fisher dans ce modèle vaut

1
0
In (θ) = n σ2 .
0 2σ1 4
Inégalité de Cramér-Rao avec g (θ) = µ : ∀µ̂′n ESB de µ,
σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1 : estimation de µ
iid
Rappels : X1 , . . . , Xn ∼ N (µ, σ 2 ) et θ = (µ, σ 2 )
◮ µ̂n = X̄n est l’EMV de µ,
◮ µ̂n est sans biais et Rθ (µ̂n ) = varθ (µ̂n ) = σ2
n .
Exercice : l’information de Fisher dans ce modèle vaut

1
0
In (θ) = n σ2 .
0 2σ1 4
Inégalité de Cramér-Rao avec g (θ) = µ : ∀µ̂′n ESB de µ,
σ2
Rθ (µ̂′n ) = varθ (µ̂′n ) ≥ ,
n
donc µ̂n = X̄n est efficace.
33/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que

◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P
1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .
Un peu de calcul (voir TD 6) permet de montrer que
2 σ4
varθ σ̂n2 = ,
n−1
et donc σ̂n2 n’est pas un estimateur efficace, puisque
2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Exemple 1’ : estimation de σ 2
Même modèle statistique, mais on veut estimer g (θ) = σ 2 .
Exercice : montrer que

◮ l’EMV Sn2 = n1 ni=1 Xi − X̄n 2 est biaisé ;
P
1 Pn
2
◮ σ̂n2 = (Sn′ )2 = n−1 i=1 Xi − X̄n est un ESB de σ 2 .
Un peu de calcul (voir TD 6) permet de montrer que
2 σ4
varθ σ̂n2 = ,
n−1
et donc σ̂n2 n’est pas un estimateur efficace, puisque
2 σ4
varθ σ̂n2 > .
n
(Attention terminologie trompeuse ! On peut montrer en utilisant le théorème de Lehmann-Scheffé que
σ̂n2 est un ESB de variance minimale pour ce problème, donc optimal pour le risque quadratique dans la
classe des ESB.)
34/55
Corrigé de l’exercice
Montrons que la variance empirique Sn2 est biaisée :

n
!
2 1X 2
Eθ (Sn ) = Eθ Xi − X̄n = Eθ X12 − Eθ X̄n2
2
n
i=1
2
2 2
σ 2 n−1 2
= σ +µ − +µ = σ 6= σ 2 .
n n
On en déduit que la variance « corrigée » est sans biais :

n n n−1 2
Eθ ((Sn′ )2 ) = Eθ (Sn2 ) = · σ = σ2.
n−1 n−1 n
Plan du cours
Motivation / notations
Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))
Approche(s) asymptotique(s) → propriétés approchées

iid
◮ X1 , X2 , . . . ∼ Pθ , définis sur un même (Ω, F , Pθ )
◮ Suite d’estimateurs : η̂n = η̂n (X1 , . . . , Xn )
◮ Propriétés des estimateurs lorsque n → ∞?
Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,
Mn = X n , A ⊗n , P⊗n

θ , θ ∈ Θ ,
que l’on réalise sur un même espace (Ω, F ) sous-jacent.

35/55
Motivation / notations
Problème
Il est parfois (souvent !) difficile d’établir les propriétés exactes des
procédures statistiques.
(estimateur ponctuel, mais aussi IC, tests, etc. (voir plus loin))
Approche(s) asymptotique(s) → propriétés approchées

iid
◮ X1 , X2 , . . . ∼ Pθ , définis sur un même (Ω, F , Pθ )
◮ Suite d’estimateurs : η̂n = η̂n (X1 , . . . , Xn )
◮ Propriétés des estimateurs lorsque n → ∞?
Remarque : on a ici non plus un mais une suite (Mn )n≥1 de modèles stat.,
Mn = X n , A ⊗n , P⊗n

θ , θ ∈ Θ ,
que l’on réalise sur un même espace (Ω, F ) sous-jacent.

35/55
Rappel de proba : modes de convergence
Principaux modes de convergence utiles en stats :
◮ convergence presque sûre,
◮ convergence dans L2 (en moyenne quadratique),
◮ convergence en probabilité,
◮ convergence en loi.
Implications entre certains modes de convergence :
m.q.
proba loi
p.s.
36/55
Rappel de proba : modes de convergence
✐ convergence presque sûre :
ps
Tn −→ T si P (Tn → T ) = 1
✐ convergence dans L2 (en moyenne quadratique) :
L2
Tn −→ T si E kTn − T k2 → 0
(j) L2
ssi ∀j ≤ p, Tn −→ T (j)
✐ convergence en probabilité :
P
Tn −
→T si ∀ε > 0, P (kTn − T k ≥ ε) → 0
✐ convergence en loi :
loi
Tn −→ T si ∀ϕ, E (ϕ(Tn )) → E (ϕ(T )) ,
avec ϕ : Rp → R continue et bornée.

Consistance
Soit (η̂n ) une suite d’estimateurs de η = g (θ).
Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)
Consistances forte et en moyenne quadratique

On dit que l’estimateur η̂n est fortement consistant
(resp. consistant en moyenne quadratique) si, ∀θ ∈ Θ,

Pθ −p.s. L2 (Pθ )
η̂n −− −−→ g (θ) resp., η̂n −−−−→ g (θ) .
n→∞ n→∞
Remarque : on dit parfois « convergent » au lien de « consistant ». 37/55

Consistance
Soit (η̂n ) une suite d’estimateurs de η = g (θ).
Consistance (faible)
On dit que η̂n est estimateur consistant de η = g (θ) si, ∀θ ∈ Θ,
P
θ
η̂n −−−→ g (θ).
n→∞ (notez l’abus de langage !)
Consistances forte et en moyenne quadratique

On dit que l’estimateur η̂n est fortement consistant
(resp. consistant en moyenne quadratique) si, ∀θ ∈ Θ,

Pθ −p.s. L2 (Pθ )
η̂n −− −−→ g (θ) resp., η̂n −−−−→ g (θ) .
n→∞ n→∞
Remarque : on dit parfois « convergent » au lien de « consistant ». 37/55

Rappel de proba : loi des grands nombres
Soit (Xk )k≥1 une suite de VA réelles ou vectorielles.
Loi forte des grands nombres

Si les Xk sont IID et du premier ordre, alors
p.s.
X̄n −−−→ E(X1 ).
n→∞
Loi des grands nombres dans L2

Si les Xk sont IID et du second ordre, alors
L2
X̄n −−−→ E(X1 ).
n→∞
2 1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Rappel de proba : loi des grands nombres
Soit (Xk )k≥1 une suite de VA réelles ou vectorielles.
Loi forte des grands nombres

Si les Xk sont IID et du premier ordre, alors
p.s.
X̄n −−−→ E(X1 ).
n→∞
Loi des grands nombres dans L2

Si les Xk sont IID et du second ordre, alors
L2
X̄n −−−→ E(X1 ).
n→∞
2 1
Preuve (cas scalaire) : E X̄n − E(X1 ) = varθ (X̄n ) = n
varθ (X1 ) → 0.
38/55
Consistance : exemples
A) n-échantillon IID, du premier ordre

◮ i.e., Eθ (kX1 k) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant de η = Eθ (X1 ).
◮ On ne peut rien dire sur le risque quadratique sans hypothèse
supplémentaire (il peut même être infini).
B) n-échantillon IID, du second ordre

◮ i.e., Eθ (kX1 k2 ) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = Eθ (X1 ).
39/55
Consistance : exemples
A) n-échantillon IID, du premier ordre

◮ i.e., Eθ (kX1 k) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant de η = Eθ (X1 ).
◮ On ne peut rien dire sur le risque quadratique sans hypothèse
supplémentaire (il peut même être infini).
B) n-échantillon IID, du second ordre

◮ i.e., Eθ (kX1 k2 ) < +∞, pour tout θ ∈ Θ.
◮ X̄n est un estimateur fortement consistant et consistant en
moyenne quadratique de η = Eθ (X1 ).
39/55
Consistance : exemples (suite)
15
10
X̄n
0
0 50 100 150 200
n
Convergence de X̄n vers la vraie moyenne

(pour un n-échantillon de loi Gamma, ici de moyenne µ = 1.5)
40/55
C) n-échantillon IID (lois quelconques)

◮ Soit A ∈ A et η = g (θ) = Pθ (X1 ∈ A).
◮ Fréquence : η̂n = n1 card {i ≤ n | Xi ∈ A}
◮ η̂n est un estimateur fortement consistant et consistant en
moyenne quadratique de η.
Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .
41/55
C) n-échantillon IID (lois quelconques)

◮ Soit A ∈ A et η = g (θ) = Pθ (X1 ∈ A).
◮ Fréquence : η̂n = n1 card {i ≤ n | Xi ∈ A}
moyenne quadratique de η.
Application : histogrammes
◮ Soit X = ∪K k=1 Ak une partition de X
◮ η̂n vectoriel : η̂n(k) = n1 card {i ≤ n | Xi ∈ Ak }
moyenne quadratique de η = (Pθ (X1 ∈ Ak ))1≤k≤K .
41/55
60 Histogram of x1
Frequency
40
20
0
2 3 4 5
x1
Un exemple d’histogramme (non normalisé)
42/55
D) Maximum d’un n-échantillon IID uniforme

iid
◮ X1 , . . . , Xn ∼ U[0,θ]
◮ On estime η = θ par η̂n = maxi≤n Xi .
◮ Exercice (TD 1) : mq η̂n est consistant, fortement et en mq.
E) Estimateur du maximum de vraisemblance

◮ voir plus loin.
43/55
D) Maximum d’un n-échantillon IID uniforme

iid
◮ X1 , . . . , Xn ∼ U[0,θ]
◮ On estime η = θ par η̂n = maxi≤n Xi .
◮ Exercice (TD 1) : mq η̂n est consistant, fortement et en mq.
E) Estimateur du maximum de vraisemblance

◮ voir plus loin.
43/55
Estimateur asymptotiquement sans biais
Rappel : bθ (η̂) = Eθ (η̂) − g (θ).
Définition : asymptotiquement sans biais

On dit que l’estimateur η̂n est asymptotiquement sans biais si
n→+∞
bθ (η̂) −−−−→ 0, ∀θ ∈ Θ.
Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)
Preuve : décomposition biais-variance ! 44/55

Estimateur asymptotiquement sans biais
Rappel : bθ (η̂) = Eθ (η̂) − g (θ).
Définition : asymptotiquement sans biais

On dit que l’estimateur η̂n est asymptotiquement sans biais si
n→+∞
bθ (η̂) −−−−→ 0, ∀θ ∈ Θ.
Proposition
η̂n est consistant en moyenne quadratique si, et seulement si, les
deux conditions suivantes sont vérifiées :
i η̂n est asymptotiquement sans biais,
ii varθ (η̂n ) → 0, pour tout θ ∈ Θ. (tr (varθ (η̂)) → 0 en vectoriel)
Preuve : décomposition biais-variance ! 44/55

Estimateur asymptotiquement sans biais : exemple
iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.
Méthode 1 : par le calcul

◮ On calcule l’espérance : Eθ (θ̂n ) = n
n+1 θ (voir TD),
θ
◮ d’où le biais : bθ (θ̂) = − n+1 → 0.
Méthode 2 : par le théorème de convergence dominée

◮ On a déjà vu que θ̂n est fortement consistant ;

◮ par ailleurs θ̂n ≤ θ, Pθ − p.s. ;

◮ donc Eθ θ̂n → θ par convergence dominée.
45/55
Estimateur asymptotiquement sans biais : exemple
iid
X1 , . . . , Xn ∼ U[0,θ] , et on veut estimer θ.
Montrons que θ̂n = maxi≤n Xi est asymptotiquement sans biais.
Méthode 1 : par le calcul

◮ On calcule l’espérance : Eθ (θ̂n ) = n
n+1 θ (voir TD),
θ
◮ d’où le biais : bθ (θ̂) = − n+1 → 0.
Méthode 2 : par le théorème de convergence dominée

◮ On a déjà vu que θ̂n est fortement consistant ;

◮ par ailleurs θ̂n ≤ θ, Pθ − p.s. ;

◮ donc Eθ θ̂n → θ par convergence dominée.
45/55
Consistance de l’EMV
L’EMV minimise le critère
n
1 1X
γn (θ) = − ln fθ (X ) = − ln fθ (Xi ).
n n
k=1
iid
Fixons θ⋆ ∈ Θ et supposons Xi ∼ fθ⋆ . Alors, ∀θ ∈ Θ,
n Z
1 X fθ⋆ (Xi ) n→+∞ fθ⋆ (x)
γn (θ)−γn (θ⋆ ) = ln −−−−→ ln fθ (x) ν1 (dx).
n fθ (Xi ) ps S1 fθ (x) ⋆
k=1
fθ⋆ (Xi )
(en supposant que Zi = fθ (Xi )
est du premier ordre).
Définition / propriété : divergence de Kullback-Leibler

R fθ⋆ (x)
DKL (fθ⋆ ||fθ ) = S1
ln fθ (x)
fθ⋆ (x) ν1 (dx) ≥ 0
Consistance de l’EMV (suite)
1 Pn fθ⋆ (Xi )
Posons ∆n (θ⋆ , θ) = n k=1 ln fθ (Xi ) et ∆(θ⋆ , θ) = DKL (fθ⋆ ||fθ ).
Pθ −ps
On a ∆n (θ⋆ , θ) −−⋆−−→ ∆(θ⋆ , θ) pour tout θ, et ∆(θ⋆ , θ⋆ ) = 0.
n→+∞
Théorème : consistance de l’EMV

Supposons que, pour tout θ⋆ ∈ Θ,
⋆ Pθ
i supθ∈Θ |∆n (θ⋆ , θ) − ∆(θ⋆ , θ)| −−−− → 0
n→+∞
ii et, pour tout ǫ > 0,
inf ∆(θ⋆ , θ) > 0.

θ∈Θ, kθ−θ⋆ k≥ǫ
Alors l’EMV est consistant.

Plan du cours
Exercice 1 (risque quadratique)
iid
Soient X1 , . . . , Xn ∼ N (µ, σ 2 ) avec θ = (µ, σ 2 ) ∈ Θ = R × R+
∗.
On souhaite estimer g (θ) = µ. On s’intéresse aux estimateurs
1 1
µ̂1 = X̄n , µ̂2 = µ0 , µ̂3 = µ0 + X̄n , µ̂4 = X̄n + c,
2 2
où µ0 et c sont des réels fixés.
Questions
1 Montrer la formule de décomposition biais-variance dans le cas
scalaire (transparent 18)
2 Calculer le risque quadratique de chacun des estimateurs.
3 Montrer que µ̂2 et µ̂3 ne sont pas comparables.
4 Montrer que µ̂4 n’est pas admissible.
46/55
Exercice 2 (efficacité d’un estimateur)
iid
Soient X1 , . . . , Xn ∼ B(θ) avec θ ∈ Θ = ]0, 1[.
On rappelle que (cf. exercices du cours 1) :

◮ la log-vraisemblance du n échantillon s’écrit
n
X
θ
ln L(θ; x) = ln fθ (x) = n ln(1 − θ) − ln xi ,
1−θ
i=1
1 Pn
◮ l’EMV s’écrit θ̂n = Xi .
n i=1
Questions
1 Vérifier que le modèle satisfait aux hypothèses de l’inégalité de
Cramér-Rao, et calculer la borne de Cramér-Rao.
2 L’EMV θ̂n est-il efficace ?
47/55
Corrigé de l’exercice 1
➊ Décomposition biais-variance

Démonstration

Rθ (η̂) = Eθ (η̂ − g (θ))2

= Eθ (η̂ − Eθ (η̂) + bθ (η̂))2

= Eθ (η̂ − Eθ (η̂))2 + bθ (η̂)2 + 2 Eθ (η̂ − Eθ (η̂)) bθ (η̂)
| {z } | {z }
varθ (η̂) =0
= varθ (η̂) + bθ (η̂)2 .
48/55
Corrigé de l’exercice 1 (suite)
➋ On calcule le biais et la variance de l’estimateur, puis on conclut

par la décomposition biais-variance.
espérance biais variance risque quadratique

σ2 σ2
X̄n µ 0 n n
µ0 µ0 µ0 − µ 0 (µ0 − µ)2
1
1 1 1 σ2 1 σ2 1 2
2 µ0 + X̄n 2 (µ0 + µ) 2 (µ0 − µ) 4 n 4 n + 4 (µ0 − µ)
σ2 σ2
X̄n + c µ+c c n n + c2
Rappel : varθ (αX + β) = α2 varθ (X ).
49/55
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
Tracé des 4 risques pour σ 2 = 1, n = 10, µ0 = 1 et c = 0.5.
50/55
➌ Calculons le risque en deux points bien choisis.
Pour θ = (µ0 , 1) on a
1
Rθ (µ̂2 ) = 0, Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) < Rθ (µ̂3 ) .
4n

Pour θ = µ0 + √1 , 1 on a
n
1 1
Rθ (µ̂2 ) = , Rθ (µ̂3 ) = , donc Rθ (µ̂2 ) > Rθ (µ̂3 ) .
n 2n
Donc les estimateurs µ̂2 et µ̂3 ne sont pas comparables.
51/55
➍ On a : 
σ2

 Rθ (µ̂4 ) =

 + c2
n



 R (µ̂ ) = σ2
θ 1
n
Donc, ∀θ = (µ, σ 2 ) ∈ Θ = R × R+
∗ , Rθ (µ̂4 ) > Rθ (µ̂1 )
On en déduit que µ̂4 n’est pas admissible.
52/55
Corrigé de l’exercice 2
➊ On doit vérifier que le modèle vérifie les conditions de régularité

C1 et C2 , et que l’information de Fisher ne s’annule pas.
✏ C1 : comme Θ = ]0, 1[, les densités

Pn Pn
fθ (x) = θ i=1 xi (1 − θ)n− i=1 xi
ont toutes pour support S = {0, 1}n .
✏ C2 : Θ = ]0, 1[ est un ouvert de R, θ 7→ fθ (x) est dérivable

sur Θ pour tout x, et le score
∂(ln fθ ) n
Sθ (X ) = (Xi ) = X̄n − θ
∂θ θ(1 − θ)
53/55
n
est centré : Eθ (Sθ (X )) = Eθ (X̄n ) − θ = 0.
θ(1 − θ)
✏ Enfin, on vérifie que l’information de Fisher ne s’annule pas :

2
n n
I (θ) = varθ (Sθ (X )) = varθ (X̄n ) = > 0.
θ(1 − θ) θ(1 − θ)
✏ La borne de Cramér-Rao pour θ vaut

1
I (θ)−1 = θ(1 − θ).
n
54/55
1 Pn
➋ L’estimateur θ̂n = n i=1 Xi est sans biais :
Eθ (θ̂n ) = Eθ (X1 ) = θ,
et sa variance vaut
1 θ(1 − θ)
var(θ̂) = var(X1 ) = = I (θ)−1 .
n n
Il est donc efficace.
Remarque : on peut vérifier facilement que θ̂n est un estimateur régulier (voir
définition slide 30), puisque
a la densité fθ est dérivable par rapport à θ,
b les intégrales se réduisent à des sommes finies sur {0, 1}n .
55/55

Cours 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 2

Transféré par

Droits d'auteur :

Formats disponibles

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

Enseignement : CentraleSupélec / Département de Mathématiques

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

Des données aux VA

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .

Des données aux VA

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .

Des données aux VA

Réalisation canonique : Ω = X , F = A , X = IdX et P = P X .

Famille paramétrée de probabilités

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)

Famille paramétrée de probabilités

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)

Famille paramétrée de probabilités

Cas important : n-échantillon (iid) d-varié (→ tableau n × d)

Définition informelle : estimation

Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.

Définition informelle : estimation

Remarque : le mot « estimateur » peut désigner soit la VA η̂ soit la fonction ϕ.

n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec

Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;

Quelques estimateurs possibles. . .

Quelques estimateurs possibles. . .

Exemples 3 et 4 : statistique non-paramétrique (hors programme).

Exemples 3 et 4 : statistique non-paramétrique (hors programme).

Exemples 3 et 4 : statistique non-paramétrique (hors programme).

1 – Généralités sur l’estimation

2 – Risque (quadratique) d’un estimateur

3 – Borne inférieure sur le risque

4 – Propriétés asymptotiques des estimateurs

On se donne une fonction de perte L : N × N → R.

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

On se donne une fonction de perte L : N × N → R.

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

On se donne une fonction de perte L : N × N → R.

Rθ (η̂) = Eθ (L (g (θ), η̂)) .

n-échantillon iid gaussien : X = (X1 , . . . Xn ) avec

Dans cet exemple on supposera qu’on veut estimer la moyenne µ ;

Risque quadratique de la moyenne empirique

Risque quadratique de la moyenne empirique

Définitions : biais / estimateur sans biais

bθ (η̂) = Eθ (η̂) − g (θ).

On dit que η̂ est un estimateur sans biais (ESB) si

Définitions : biais / estimateur sans biais

bθ (η̂) = Eθ (η̂) − g (θ).

On dit que η̂ est un estimateur sans biais (ESB) si

Rappel : on considère toujours le risque quadratique.

Proposition : Décomposition biais-variance (cas scalaire)

Remarque : en sommant sur le composantes, on généralise au cas vectoriel :

Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,

où varθ (η̂) est la matrice de covariance de η̂.

Rappel : on considère toujours le risque quadratique.

Proposition : Décomposition biais-variance (cas scalaire)

Remarque : en sommant sur le composantes, on généralise au cas vectoriel :

Rθ (η̂) = Eθ kη̂ − g (θ)k2 = tr (varθ (η̂)) + kbθ (η̂)k2 ,