Cours 3

Statistique et apprentissage
Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

(prenom.nom@centralesupelec.fr)
Enseignement : CentraleSupélec / Département de Mathématiques

Recherche : Laboratoire des signaux & systèmes (L2S)
†
: Coordinateur du cours
1/48
Cours 3/10
Lois asymptotiques
et intervalles de confiance
Objectifs du cours 3
◮ Compléter l’analyse asymptotique des estimateurs déjà
présentée (consistance, biais) par l’étude de leur vitesse de
convergence.
◮ Montrer la/les démarche(s) utilisée(s) pour construire des
intervalles de confiance.
2/48
Plan du cours
1 – Lois asymptotiques et vitesse de convergence

1.1 – Définitions et exemples
1.2 – Outils théoriques
1.3 – Efficacité asymptotique
2 – Régions et intervalles de confiance

2.1 – Définition et exemple
2.2 – Intervalle de confiance exact
2.3 – Intervalle de confiance asymptotique
3 – Exercices d’échauffement
3/48
Cadre mathématique
Pour toute la section :

◮ on considère un modèle statistique
n o
X
X , A , Pθ , θ ∈ Θ ,
le plus souvent paramétrique (Θ ⊂ Rp ) ;
iid
◮ X1 , X2 , . . . ∼ Pθ , définis sur un même (Ω, F , Pθ )
◮ on veut estimer un « paramètre d’intérêt » :

◮ soit θ lui-même (on supposera dans ce cas Θ ⊂ Rp ),
◮ soit, plus généralement, η = g (θ) ∈ Rq .
4/48
Cadre mathématique

n o
X
X , A , Pθ , θ ∈ Θ ,
iid

4/48
Cadre mathématique

n o
X
X , A , Pθ , θ ∈ Θ ,
iid

4/48
Plan du cours


Plan du cours


Vitesse de convergence
Soit η̂n = η̂n (X1 , . . . , Xn ) un estimateur consistant de η = g (θ).
Définition
S’il existe une suite (an )n∈N∗ à valeurs réelles telle que :
◮ lim an = ∞,
n→∞
◮ an (η̂n − η) −−loi
−→ Z ,
n→∞
◮ avec Z variable aléatoire non dégénérée∗ ,
1
alors η̂n converge vers η à la vitesse an .
∗
On dit que Z est dégénérée si :
◮ cas scalaire : ∃c ∈ R, Z = c p.s. ;
Pq
◮ cas vectoriel : ∃a ∈ Rq \ {0}, ∃c ∈ R, j=1 aj Z (j) = c p.s. ;
Exercice. Soit Z un vecteur aléatoire du second ordre.

➠ Montrer que Z est non dégénéré ssi sa matrice de covariance est inversible.
5/48
Vitesse de convergence
Définition
S’il existe une suite (an )n∈N∗ à valeurs réelles telle que :
◮ lim an = ∞,
n→∞
◮ an (η̂n − η) −−loi
−→ Z ,
n→∞
◮ avec Z variable aléatoire non dégénérée∗ ,
1
alors η̂n converge vers η à la vitesse an .
∗
On dit que Z est dégénérée si :
◮ cas scalaire : ∃c ∈ R, Z = c p.s. ;
Pq
◮ cas vectoriel : ∃a ∈ Rq \ {0}, ∃c ∈ R, j=1 aj Z (j) = c p.s. ;
Exercice. Soit Z un vecteur aléatoire du second ordre.

➠ Montrer que Z est non dégénéré ssi sa matrice de covariance est inversible.
5/48
Normalité asymptotique
Définition
S’il existe
◮ une suite (an )n∈N∗ à valeurs réelles telle que lim an = ∞,
n→∞
◮ une matrice Σ(θ) symétrique définie positive,
telles que
loi
an (η̂n − η) −−−→ N (0, Σ(θ)) , (1)
n→∞
alors η̂n est dit asymptotiquement normal.
Vocabulaire. Σ(θ) s’appelle la matrice de covariance asymptotique

(variance asymptotique dans le cas scalaire).
Note : on peut m.q. (1) avec an → +∞ implique la consistance.

6/48
Définition
S’il existe
n→∞
telles que
loi
an (η̂n − η) −−−→ N (0, Σ(θ)) , (1)
n→∞


6/48
Définition
S’il existe
n→∞
telles que
loi
an (η̂n − η) −−−→ N (0, Σ(θ)) , (1)
n→∞


6/48
Lien entre convergence en loi et en probabilité
On sait déja que la convergence en probabilité entraine la convergence en loi.
Soit (Yn )n∈N∗ une suite de VA à valeurs dans Rd .
Proposition
loi P
Si Yn −→ c, avec c ∈ Rd une constante, alors Yn −
→ c.
Corollaire
S’il existe c ∈ Rd ,
◮ une VA Z à valeurs dans Rd ,
◮ une suite (an )n∈N∗ à valeurs réelles et telle que lim an = ∞,
n→∞
tels que
loi
an (Yn − c) −−−→ Z
n→∞
alors
P
Yn −−−→ c.
n→∞
Démo. (exercice) : combiner la prop. ci-dessus et le thm de Slutsky (voir plus loin).
Rappel probabilités : Théorème Central Limite (TCL)
Théorème
Soient
◮ une suite (Xn )n∈N∗ de variables aléatoires iid, à valeurs
dans Rd et du second ordre.
◮ µ = E(X1 ) et Σ = var(X1 ) ∈ Rd×d .
√ loi
Alors : n X̄n − µ −−−→ N (0, Σ),
n→∞
1 Pn
avec X̄n = Xi la moyenne empirique.
n i=1
⇒ La moyenne empirique X̄n

◮ est un estimateur asymptotiquement gaussien de µ = E(X1 )
◮ qui converge à la vitesse √1 .
n
7/48
Rappel probabilités : Théorème Central Limite (TCL)
Théorème
Soient
◮ une suite (Xn )n∈N∗ de variables aléatoires iid, à valeurs
dans Rd et du second ordre.
◮ µ = E(X1 ) et Σ = var(X1 ) ∈ Rd×d .
√ loi
Alors : n X̄n − µ −−−→ N (0, Σ),
n→∞
1 Pn
avec X̄n = Xi la moyenne empirique.
n i=1
⇒ La moyenne empirique X̄n

◮ est un estimateur asymptotiquement gaussien de µ = E(X1 )
◮ qui converge à la vitesse √1 .
n
7/48
Exemple : application « fiabilité composant »
Rappels :
iid
◮ Xi ∼ E(θ), θ > 0, et η = Eθ (X1 ) = 1θ .
◮ η̂n = X̄n est obtenu par MV et méthode des moments.
√ loi
➠ Application directe du TCL : n X̄n − η −−−→ N 0, η 2 .

n→∞
0.03
n=5 0.03
n = 20 0.03
n = 100
0.025 0.025 0.025
0.02
N (0, η 2 ) 0.02 0.02
0.015 0.015 0.015
0.01 0.01 0.01
0.005 0.005 0.005
0 0 0
-60 -40 -20 0 20 40 60 -60 -40 -20 0 20 40 60 -60 -40 -20 0 20 40 60
√
Histogrammes de n X̄n − η obtenus à partir de 10000 réalisations de X n
8/48
Autre exemple : fonction indicatrice
Soit (Xn )n≥1 une suite de VA iid à valeurs dans (X , A ).
Pour un A ∈ A donné, on estime η = P (X1 ∈ A) par

n
1X
η̂n = 1Xi ∈A .
n
i=1
iid
Application directe du TCL : ➠ Yi = 1Xi ∈A ∼ Ber(η)
√ loi
n (η̂n − η) −−−→ N (0, η(1 − η)) .
n→∞
Concl. : si 0 < η < 1, alors η̂n est asymptotiquement gaussien, avec

◮ vitesse de convergence : √1 ,
n
◮ variance asymptotique : η(1 − η).
9/48

n
1X
η̂n = 1Xi ∈A .
n
i=1
iid
√ loi
n (η̂n − η) −−−→ N (0, η(1 − η)) .
n→∞

n
9/48

n
1X
η̂n = 1Xi ∈A .
n
i=1
iid
√ loi
n (η̂n − η) −−−→ N (0, η(1 − η)) .
n→∞

n
9/48
Plan du cours


Théorème de continuité
Théorème (Mann-Wald)
Soient
◮ h : Rd → Rq une fonction mesurable,
◮ Y une VA à valeurs dans Rd ,
telles que
h est continue au point Y , presque sûrement.
Alors, pour toute suite (Yn )n∈N∗ de VA à valeurs dans Rd ,

ps ps
(i) Yn −→ Y ⇒ h(Yn ) −→ h(Y ),
P P
(ii) Yn −
→Y ⇒ h(Yn ) −
→ h(Y ),
loi loi
(iii) Yn −→ Y ⇒ h(Yn ) −→ h(Y ).
Démonstration : cf. CIP pour le cas où h est continu. Le cas général est admis. 10/48
Exemple « fiabilité composant » (suite)
Rappels :
iid
◮ Xi ∼ E(θ), θ > 0, et η = Eθ (X1 ) = 1θ .
Loi des grands nombres (forte et en m.q.) :
ps, L2
η̂n = X̄n −−−→ η.
Par le théorème de continuité :

1 ps 1
θ̂n = −→ = θ,
η̂n η
donc θ̂n est fortement consistant.
Exercice : montrer que θ̂n est aussi consistant dans L2 .

11/48
Rappels :
iid
◮ Xi ∼ E(θ), θ > 0, et η = Eθ (X1 ) = 1θ .
Loi des grands nombres (forte et en m.q.) :
ps, L2
η̂n = X̄n −−−→ η.
Par le théorème de continuité :

1 ps 1
θ̂n = −→ = θ,
η̂n η
donc θ̂n est fortement consistant.
Exercice : montrer que θ̂n est aussi consistant dans L2 .

11/48
Théorème de Slutsky
Théorème
Soient
◮ (Xn )n∈N∗ une suite de vecteurs aléatoires qui converge en loi
vers une VA X :
loi
Xn −−−→ X ,
n→∞
◮ (Yn )n∈N∗ une suite de vecteurs aléatoires qui converge en loi
vers une constante c :
loi
Yn −−−→ c,
n→∞
Alors
loi
(Xn , Yn ) −−−→ (X , c).
n→∞
loi P
Remarque : Yn −−−→ c implique Yn −−−→ c (limite constante).
n→∞ n→∞
12/48
Théorème de Slutsky
Théorème
Soient
◮ (Xn )n∈N∗ une suite de vecteurs aléatoires qui converge en loi
vers une VA X :
loi
Xn −−−→ X ,
n→∞
◮ (Yn )n∈N∗ une suite de vecteurs aléatoires qui converge en loi
vers une constante c :
loi
Yn −−−→ c,
n→∞
Alors
loi
(Xn , Yn ) −−−→ (X , c).
n→∞
loi P
Remarque : Yn −−−→ c implique Yn −−−→ c (limite constante).
n→∞ n→∞
12/48
√ loi
Rappel (TCL) n X̄n − η −−−→ N 0, η 2 .

n→∞
ps
Puisque X̄n −−−→ η (constante), on a par le théorème de Slutsky :
n→∞
√ loi
n X̄n − η , X̄n −−−→ (Z , η) avec Z ∼ N 0, η 2 .

n→∞
Donc, par le théorème de continuité,

√ X̄n − η loi Z
n −−−→ ∼ N (0, 1) ,
X̄n n→∞ η
z
puisque (z, y ) 7→ y est continue en tout point où y 6= 0.
13/48
√ loi

n→∞
ps
n→∞
√ loi

n→∞

n −−−→ ∼ N (0, 1) ,
X̄n n→∞ η
z
13/48
√ loi

n→∞
ps
n→∞
√ loi

n→∞

n −−−→ ∼ N (0, 1) ,
X̄n n→∞ η
z
13/48
Méthode de linéarisation (« delta méthode »)
Théorème (« delta théorème »)
Soit (Yn )n∈N∗ une suite de VA à valeurs dans Rd , t.q.
√ loi
n (Yn − m) −−−→ Z ,
n→∞
avec Z une VA à valeurs dans Rd et m ∈ Rd .

Alors, pour toute fonction h : Rd → Rq différentiable en m,
√ loi
n (h(Yn ) − h(m)) −−−→ (Dh)(m) Z ,
n→∞
où (Dh)(m) est la matrice jacobienne de h au point m :

(Dh)(m) = (∂j hi )(m) .
1≤i≤q, 1≤j≤d
Intuition : h(y ) − h(m) ≈ (Dh)(m) (y − m). 14/48

√ loi
n (Yn − m) −−−→ Z ,
n→∞

√ loi
n (h(Yn ) − h(m)) −−−→ (Dh)(m) Z ,
n→∞

(Dh)(m) = (∂j hi )(m) .
1≤i≤q, 1≤j≤d

√ loi
n (Yn − m) −−−→ Z ,
n→∞

√ loi
n (h(Yn ) − h(m)) −−−→ (Dh)(m) Z ,
n→∞

(Dh)(m) = (∂j hi )(m) .
1≤i≤q, 1≤j≤d

Cas particuliers
Cas gaussien
√ loi
Si n (Yn − m) −−−→ N (0, Σ), alors
n→∞
√ loi

n (h(Yn ) − h(m)) −−−→ N 0, (Dh)(m) Σ (Dh)(m)⊤ .
n→∞
Cas scalaire
√ loi
Si d = q = 1 et n (Yn − m) −−−→ Z , alors
n→∞
√ loi
n (h(Yn ) − h(m)) −−−→ h′ (m) Z .
n→∞
Remarque : si h′ (m) = 0, et si h est 2 fois dérivable en m, montrer que

loi 1 ′′
n (h(Yn ) − h(m)) −−−→ h (m) Z 2 .
n→∞ 2
15/48
Cas particuliers
Cas gaussien
√ loi
Si n (Yn − m) −−−→ N (0, Σ), alors
n→∞
√ loi

n (h(Yn ) − h(m)) −−−→ N 0, (Dh)(m) Σ (Dh)(m)⊤ .
n→∞
Cas scalaire
√ loi
n→∞
√ loi
n (h(Yn ) − h(m)) −−−→ h′ (m) Z .
n→∞

loi 1 ′′
n (h(Yn ) − h(m)) −−−→ h (m) Z 2 .
n→∞ 2
15/48
Cas particuliers
Cas gaussien
√ loi
Si n (Yn − m) −−−→ N (0, Σ), alors
n→∞
√ loi

n (h(Yn ) − h(m)) −−−→ N 0, (Dh)(m) Σ (Dh)(m)⊤ .
n→∞
Cas scalaire
√ loi
n→∞
√ loi
n (h(Yn ) − h(m)) −−−→ h′ (m) Z .
n→∞

loi 1 ′′
n (h(Yn ) − h(m)) −−−→ h (m) Z 2 .
n→∞ 2
15/48
Démonstration (cas scalaire)
Soit la fonction ψ définie par :
 h(y ) − h(m)

si y 6= m,
ψ(y ) = y −m
 ′
h (m) si y = m;
loi
ψ est continue en m car h est dérivable en m. Comme Yn −−−→ m,
n→∞
loi
ψ(Yn ) −−−→ ψ(m) = h′ (m),
n→∞
et donc (Slutsky)
√ loi
Z , h′ (m) .

n(Yn − m), ψ(Yn ) −−−→
n→∞
Finalement, on a
√ √ loi
n (h(Yn ) − h(m)) = n (Yn − m) ψ(Yn ) −−−→ h′ (m) Z .
n→∞
Exemple : « fiabilité composant » (suite)
On a déja vu que
◮ θ̂n = 1/X̄n est un estimateur fortement consistant de θ,
√
◮ n X̄n − η −−loi −→ N 0, η 2 , où η = 1θ .

n→∞
1
En appliquant la delta-méthode avec h(η) = η il vient
√ 1

loi 2
n −θ −−−→ N 0, η 2 h′ (η) ,
X̄n n→∞
d’où, puisque h′ (η) = − η12 ,
√
loi
n θ̂n − θ −−−→ N 0, θ2 .

n→∞
➠ L’estimateur θ̂n est asymptotiquement gaussien.

16/48
On a déja vu que
√
◮ n X̄n − η −−loi −→ N 0, η 2 , où η = 1θ .

n→∞
1
√ 1

loi 2
n −θ −−−→ N 0, η 2 h′ (η) ,
X̄n n→∞
√
loi
n θ̂n − θ −−−→ N 0, θ2 .

n→∞

16/48
On a déja vu que
√
◮ n X̄n − η −−loi −→ N 0, η 2 , où η = 1θ .

n→∞
1
√ 1

loi 2
n −θ −−−→ N 0, η 2 h′ (η) ,
X̄n n→∞
√
loi
n θ̂n − θ −−−→ N 0, θ2 .

n→∞

16/48
Autre application : comparaison d’estimateurs de η = Eθ (X1 ).
√ loi
1) Pour η̂ (1) = X̄n , on a (TCL) : n η̂ (1) − η −−−→ N 0, η 2 .

n→∞
q P
n
2) Pour η̂ (2) = 2n 1
i=1 Xi
2 (cf. cours 1) ?
◮ Comme E X12 = 2η 2 et E X14 = 24η 4 , on a (TCL) :

n
√ 1 X
loi
Xi2 − 2η 2 −−−→ N 0, 20 η 4 .

n
n n→∞
i=1
q
◮ D’où, en utilisant la delta méthode avec h(z) = 1
2 z,
√ (2)

loi 5
n η̂ − η −−−→ N 0, η 2 .
n→∞ 4
Conclusion : η̂ (1) est « asymptotiquement préférable » à η̂ (2) .

(En fait, l’estimateur η̂ (1) est efficace ; voir plus loin pour le calcul de l’IF.)
17/48
√ loi

n→∞
q P
n
2) Pour η̂ (2) = 2n 1
i=1 Xi
2 (cf. cours 1) ?

n
√ 1 X
loi
Xi2 − 2η 2 −−−→ N 0, 20 η 4 .

n
n n→∞
i=1
q
2 z,
√ (2)

loi 5
n η̂ − η −−−→ N 0, η 2 .
n→∞ 4

17/48
√ loi

n→∞
q P
n
2) Pour η̂ (2) = 2n 1
i=1 Xi
2 (cf. cours 1) ?

n
√ 1 X
loi
Xi2 − 2η 2 −−−→ N 0, 20 η 4 .

n
n n→∞
i=1
q
2 z,
√ (2)

loi 5
n η̂ − η −−−→ N 0, η 2 .
n→∞ 4

17/48
Comparaison asymptotique d’estimateurs (scalaires)
Soient η̂n et η̃n deux estimateurs de η = g (θ) ∈ R,
◮ asymptotiquement gaussiens,
◮ de variances asymptotiques σ 2 (θ) et σ̃ 2 (θ).
Définition : asymptotiquement préférable

Si
◮ les deux estimateurs convergent à la même vitesse,
◮ σ 2 (θ) ≤ σ̃ 2 (θ) ∀θ ∈ Θ,
alors on dit que
η̂n est asymptotiquement préférable à η̃n
(« strictement » si ∃θ ∈ Θ tel que σ 2 (θ) < σ̃ 2 (θ)).
Note : comparaison d’estimateurs vectoriels ⇒ comparer des matrices. . .

Plan du cours


Efficacité asymptotique
Rappel (borne de Cramér-Rao pour un paramètre scalaire) :
∀θ̂ ESB régulier de θ, ∀θ ∈ Θ ,
1 −1
Rθ θ̂ = varθ θ̂ ≥ I (θ),
n 1
avec I1 (θ) = varθ (Sθ (X1 )).
➠ Si l’égalité est atteinte, alors θ̂ est dit efficace.
Définition. Un estimateur est dit asymptotiquement efficace si
◮ il est asymptotiquement normal à la vitesse √1 ,
n
◮ avec pour variance asymptotique I1−1 (θ).
Remarque : définition valable également dans le cas vectoriel, en remplaçant la

variance par la matrice de covariance. 18/48
Rappel (borne de Cramér-Rao pour un paramètre scalaire) :
∀θ̂ ESB régulier de θ, ∀θ ∈ Θ ,
1 −1
Rθ θ̂ = varθ θ̂ ≥ I (θ),
n 1
avec I1 (θ) = varθ (Sθ (X1 )).
➠ Si l’égalité est atteinte, alors θ̂ est dit efficace.
Définition. Un estimateur est dit asymptotiquement efficace si
◮ il est asymptotiquement normal à la vitesse √1 ,
n
◮ avec pour variance asymptotique I1−1 (θ).
Remarque : définition valable également dans le cas vectoriel, en remplaçant la

variance par la matrice de covariance. 18/48
Efficacité asymptotique de l’EMV
iid
Contexte : X1 , X2 , . . . ∼ Pθ et, ∀θ ∈ Θ, Pθ admet une densité fθ .
Définition : modèle régulier

Le modèle statistique est dit régulier si
◮ les conditions C1 –C4 sont vérifiées, (C3 et C4 définies plus loin)
◮ ∀θ ∈ Θ, l’information de Fisher I1 (θ) est définie positive.
Théorème
Si le modèle statistique est régulier et si l’EMV θ̂n est consistant,
alors il est asymptotiquement efficace :
√
loi
n θ̂n − θ −−−→ N 0, I1−1 (θ) .

n→∞
19/48
Efficacité asymptotique de l’EMV
iid
Contexte : X1 , X2 , . . . ∼ Pθ et, ∀θ ∈ Θ, Pθ admet une densité fθ .
Définition : modèle régulier

Le modèle statistique est dit régulier si
◮ les conditions C1 –C4 sont vérifiées, (C3 et C4 définies plus loin)
◮ ∀θ ∈ Θ, l’information de Fisher I1 (θ) est définie positive.
Théorème
Si le modèle statistique est régulier et si l’EMV θ̂n est consistant,
alors il est asymptotiquement efficace :
√
loi
n θ̂n − θ −−−→ N 0, I1−1 (θ) .

n→∞
19/48
Information de Fisher dans les modèles réguliers
Rappel. L’information de Fisher apportée par X est la matrice

IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤ .
Proposition : autre expression de l’information de Fisher

Dans un modèle régulier, on a l’égalité

IX (θ) = − Eθ ∇θ Sθ (X )⊤ , (⋆)
Autrement dit : ∀θ ∈ Θ, ∀j ≤ p, ∀k ≤ p,
∂2

∂ (k)
(IX (θ))j,k = − Eθ Sθ (X ) = − Eθ ln fθ (X ) .
∂θj ∂θj ∂θk
Remarque : en fait, si C1 –C3 sont vérifiées, alors C4 et (⋆) sont équivalents.

20/48
Information de Fisher dans les modèles réguliers
Rappel. L’information de Fisher apportée par X est la matrice

IX (θ) = varθ (Sθ (X )) = Eθ Sθ (X ) Sθ (X )⊤ .
Proposition : autre expression de l’information de Fisher

Dans un modèle régulier, on a l’égalité

IX (θ) = − Eθ ∇θ Sθ (X )⊤ , (⋆)
Autrement dit : ∀θ ∈ Θ, ∀j ≤ p, ∀k ≤ p,
∂2

∂ (k)
(IX (θ))j,k = − Eθ Sθ (X ) = − Eθ ln fθ (X ) .
∂θj ∂θj ∂θk
Remarque : en fait, si C1 –C3 sont vérifiées, alors C4 et (⋆) sont équivalents.

20/48
Question : θ̂n = 1/X̄n est-il asymptotiquement efficace ?

1
On a déjà calculé le score : Sθ (X1 ) = θ − X1 .
Calcul de l’information de Fisher (deux approches) :
∂Sθ
Calcul de Eθ Sθ (X1 )2

Calcul de −Eθ ∂θ (X1 )
1
I1 (θ) = varθ (X1 ) = η 2 = I1 (θ) = −Eθ − θ12 = 1

θ2 θ2
√ 1
loi
n X̄ − θ −−−→ N 0, θ2 ,

Conclusion : puisque
n n→∞
1
θ̂n = X̄n
est asymptotiquement efficace.
➠ On retrouve le résultat du théorème (C1 –C4 sont vérifiées).
21/48

1
∂Sθ

1
I1 (θ) = varθ (X1 ) = η 2 = I1 (θ) = −Eθ − θ12 = 1

θ2 θ2
√ 1
loi
n X̄ − θ −−−→ N 0, θ2 ,

n n→∞
1
θ̂n = X̄n
21/48

1
∂Sθ

1
I1 (θ) = varθ (X1 ) = η 2 = I1 (θ) = −Eθ − θ12 = 1

θ2 θ2
√ 1
loi
n X̄ − θ −−−→ N 0, θ2 ,

n n→∞
1
θ̂n = X̄n
21/48
Modèles réguliers : conditions de régularité C3 et C4
Rappel : C1 et C2 ont été définies au cours précédent.
Condition de régularité C3
θ 7→ fθ (x) est deux fois continûment dérivable ν-presque pour
tout x.
Condition de régularité C4
En tout point θ ∈ Θ, on a
Z Z
⊤
∇θ ∇θ fθ (x) ν(dx) = ∇θ ∇⊤
θ fθ (x) ν(dx).
S S
Autrement dit : ∀θ ∈ Θ, ∀k ≤ p, ∀j ≤ p,
∂ 2 fθ (x)
Z Z
∂ ∂fθ (x)
ν(dx) = ν(dx).
S ∂θ k ∂θj ∂θ k S ∂θj
Exemple d’EMV non asymptotiquement gaussien
iid
Soient X1 , . . . , Xn ∼ U[0,θ] , avec θ > 0 inconnu.
△
! Ce modèle n’est pas régulier (pourquoi ?).
On montre que (cf. TD1, exercice 1.3)

◮ θ̂n = maxi≤n Xi est l’EMV de θ, et
1

◮ n θ̂n − θ −−loi
−→ −Z avec Z ∼ E λ = .
n→∞ θ
Dans ce cas particulier,

➠ l’EMV n’est pas asymptotiquement gaussien ;
1 √1 .
➠ la vitesse de convergence est n : plus rapide que n
Plan du cours


Plan du cours


Motivation
Problème
Un estimateur ponctuel commet nécessaire une erreur d’estimation.
Comment « rendre compte » de cette erreur ?
Deux approches :
◮ fournir en plus de la valeur estimée,
◮ la loi de l’estimateur η̂, exacte ou approchée,
◮ ou au moins une « mesure de dispersion »
(par ex. son écart-type) ;
◮ donner, plutôt qu’une estimation ponctuelle η̂,

un intervalle de confiance pour η.
22/48
Motivation
Problème
Deux approches :

22/48
Motivation
Problème
Deux approches :

22/48
Régions et intervalles de confiance
Rappel : η = g (θ). On note P(N) les parties de N = g (Θ).
Définition : région de confiance

Soit α ∈ ]0, 1[. Une région de confiance de niveau (au moins) 1 − α
pour η est une statistique Iα (X ) à valeurs dans P(N), telle que :
∀θ ∈ Θ, Pθ (g (θ) ∈ Iα (X )) ≥ 1 − α.
On dit que Iα (X ) est de niveau exactement 1 − α si
∀θ ∈ Θ, Pθ (g (θ) ∈ Iα (X )) = 1 − α.
(On dit aussi : de « taille » 1 − α.)
Cas scalaire : si Iα (X ) est un intervalle, on parle d’intervalle de confiance.

23/48
Régions et intervalles de confiance
Rappel : η = g (θ). On note P(N) les parties de N = g (Θ).
Définition : région de confiance

Soit α ∈ ]0, 1[. Une région de confiance de niveau (au moins) 1 − α
pour η est une statistique Iα (X ) à valeurs dans P(N), telle que :
∀θ ∈ Θ, Pθ (g (θ) ∈ Iα (X )) ≥ 1 − α.
On dit que Iα (X ) est de niveau exactement 1 − α si
∀θ ∈ Θ, Pθ (g (θ) ∈ Iα (X )) = 1 − α.
(On dit aussi : de « taille » 1 − α.)
Cas scalaire : si Iα (X ) est un intervalle, on parle d’intervalle de confiance.

23/48
Exemple : n-échantillon N (µ, σ02 ), avec σ02 connu

σ02
√ X̄ −µ
Comme X̄ ∼ N µ, n ,T = n σ0 ∼ N (0, 1), donc
√ X̄ − µ

Pµ n ∈ q α2 , q1− α2 = 1 − α,
σ0
avec qr le quantile d’ordre r de la loi N (0, 1).

0.4
0.3
N (0, 1)
IC de niveau exactement 95% :
0.2 95% h i
σ0 σ0
0.1
X̄ − 1.96 √ n
, X̄ + 1.96 √
n
2.5% 2.5%
0
-1.96 0 1.96
x̄2
une réalisation
x̄1
une autre. . .
9.186 9.81 10.2 10.82
µ = 10 24/48

σ02
√ X̄ −µ
√ X̄ − µ

Pµ n ∈ q α2 , q1− α2 = 1 − α,
σ0

0.4
0.3
N (0, 1)
0.2 95% h i
σ0 σ0
0.1
X̄ − 1.96 √ n
, X̄ + 1.96 √
n
2.5% 2.5%
0
-1.96 0 1.96
x̄2
une réalisation
x̄1
une autre. . .
9.186 9.81 10.2 10.82
µ = 10 24/48

σ02
√ X̄ −µ
√ X̄ − µ

Pµ n ∈ q α2 , q1− α2 = 1 − α,
σ0

0.4
0.3
N (0, 1)
0.2 95% h i
σ0 σ0
0.1
X̄ − 1.96 √ n
, X̄ + 1.96 √
n
2.5% 2.5%
0
-1.96 0 1.96
x̄2
une réalisation
x̄1
une autre. . .
9.186 9.81 10.2 10.82
µ = 10 24/48
Interprétation : simulations
On simule 100 réalisations avec µ = 10 et σ0 = 1.
IC 100
IC 1
9 9.5 10.5 11
µ = 10
En rouge : les réalisations où l’IC ne contient pas µ = 10.
➠ La proportion des cas où l’IC qui ne contient pas µ est (environ) α.
25/48
Plan du cours


Loi libre et fonction pivotale
La démarche peut être formalisée avec la notion de fonction pivotale.
Définitions
Une fonction
T :X ×N → R
est dite pivotale si la loi de la variable aléatoire T = T (X , η) ne
dépend pas de θ. On dit que la loi de T (X , η) est libre.
iid
Retour sur l’exemple : X1 , . . . , Xn ∼ N (µ, σ02 ) avec σ0 connu.
√
Alors T = n X̄nσ−µ
0
est pivotale puisque
√ X̄n − µ
n ∼ N (0, 1).
σ0
√
n X̄n − µ ∼ N (0, σ02 ).

Remarque : on peut aussi choisir T =
26/48
Loi libre et fonction pivotale
La démarche peut être formalisée avec la notion de fonction pivotale.
Définitions
Une fonction
T :X ×N → R
est dite pivotale si la loi de la variable aléatoire T = T (X , η) ne
dépend pas de θ. On dit que la loi de T (X , η) est libre.
iid
Retour sur l’exemple : X1 , . . . , Xn ∼ N (µ, σ02 ) avec σ0 connu.
√
Alors T = n X̄nσ−µ
0
est pivotale puisque
√ X̄n − µ
n ∼ N (0, 1).
σ0
√
n X̄n − µ ∼ N (0, σ02 ).

Remarque : on peut aussi choisir T =
26/48
Rappel de proba : quantiles
Définition : quantile d’ordre r

Soit F (x) la fonction de répartition d’une loi sur R.
Pour 0 < r < 1, le quantile d’ordre r de la loi est défini par :
qr = inf {x ∈ R, F (x) ≥ r } .
Propriétés :
◮ Si F est continue, alors F (qr ) = r .
◮ Si de plus F est strictement croissante, alors qr = F −1 (r ).
27/48
Rappel de proba : quantiles
Définition : quantile d’ordre r

Soit F (x) la fonction de répartition d’une loi sur R.
Pour 0 < r < 1, le quantile d’ordre r de la loi est défini par :
qr = inf {x ∈ R, F (x) ≥ r } .
Propriétés :
◮ Si F est continue, alors F (qr ) = r .
◮ Si de plus F est strictement croissante, alors qr = F −1 (r ).
27/48
Fonction quantile de la loi N (0, 1)
0.4 1
fX (x) F (x)
0.3
0.2 0.5
0.1
0.2
0 0
-4 -0.84
-2 0 2 4 -4 -0.84
-2 0 2 4
x
qr
-0.84
0 0.2 0.5 1
r
28/48
Utilisation des fonctions pivotales
Soient T (X , η) une fonction pivotale et α ∈ ]0, 1[.
Proposition
Supposons la fonction de répartition F de T (X , η) continue et
strictement croissante, et notons qr = F −1 (r ) le quantile d’ordre r .
Alors, pour tout γ ∈ [0, α] :
Iαγ (X ) = {η ∈ N tel que qγ ≤ T (X , η) ≤ qγ+1−α }

= T −1 (X , [qγ , qγ+1−α ])
est un intervalle de confiance pour η de niveau exactement 1 − α.
Démonstration. Pθ (g (θ) ∈ Iαγ (X )) = Pθ (qγ ≤ T (X , η) ≤ qγ+1−α )

= F (qγ+1−α ) − F (qγ ) = 1 − α
29/48
Utilisation des fonctions pivotales
Soient T (X , η) une fonction pivotale et α ∈ ]0, 1[.
Proposition
Supposons la fonction de répartition F de T (X , η) continue et
strictement croissante, et notons qr = F −1 (r ) le quantile d’ordre r .
Alors, pour tout γ ∈ [0, α] :
Iαγ (X ) = {η ∈ N tel que qγ ≤ T (X , η) ≤ qγ+1−α }

= T −1 (X , [qγ , qγ+1−α ])
est un intervalle de confiance pour η de niveau exactement 1 − α.
Démonstration. Pθ (g (θ) ∈ Iαγ (X )) = Pθ (qγ ≤ T (X , η) ≤ qγ+1−α )

= F (qγ+1−α ) − F (qγ ) = 1 − α
29/48
Considérons à nouveau la fonction pivotale

√ X̄ − µ
T (X , µ) = n ∼ N (0, 1).
σ0
Pour tout γ ≤ α, on obtient un IC de niveau (exactement) 1 − α :

γ σ0 σ0
Iα = X̄ − √ q1−α+γ , X̄ − √ qγ ,
n n

α
Par exemple, avec γ = 2 et α = 0.05 :
−q1−α+γ = −q0.975 ≈ −1.96

−qγ = −q0.025 ≈ +1.96
30/48
Choix du paramètre γ
0.4
0.2
0
-4 -3 -2 -1 0 1 2 3 4
0.4
0.2
0
-4 -3 -2 -1 0 1 2 3 4
0.4
0.2
0
-4 -3 -2 -1 0 1 2 3 4
0.4
0.2
0
-4 -3 -2 -1 0 1 2 3 4
Densité de la loi N (0, 1) et quantiles associés pour α = 0.1

et plusieurs valeurs de γ (valeurs en rouge : qγ+1−α − qγ ).
α
Critère usuel : valeur t.q. l’IC soit de longueur minimale (ici γ = ).
2
31/48
On peut montrer que :
X̄
T (X , η) = ∼ Γ (n, n) .
η
D’où un IC de niveau (exactement) 1 − α pour η :

γ X̄ X̄
Iα = , ,
qγ+1−α qγ
avec qr le quantile d’ordre r de la loi Γ (n, n).
Choix de γ : on peut prendre γ = α2 par simplicité, ou chercher numériquement

γ tel que la longueur 1/qγ − 1/q1+γ−α − soit minimale.
32/48
1.4
η̂ (1)
1.2
ddp de η
1
Application numérique :
densité
0.8
0.6
0.4
0.2
2.5%
ICexact 2.5%
0
0 q-=0.47954 1 q+=1.7085 2 3
η̂ (1)
η
Densité de la loi pivotale Γ(n, n)

et quantiles associés pour α = 0.05 et γ = α2 .
33/48
Plan du cours


Motivation et objectif
Problème
Il est parfois (souvent) difficile de trouver une fonction pivotale.
Solution : recourir à nouveau à une approche asymptotique.

◮ Obtention d’intervalles « approximatifs ».
◮ Calculs facilités grâce aux outils déjà introduits
(TCL, Slutsky, delta méthode. . . ).
△
! Toute analyse menée dans le cadre asymptotique est
approximative lorsque n est fini.
➠ Les résultats obtenus peuvent être mauvais pour n petit. . .

34/48
Problème

△

34/48
Problème

△

34/48
Région (intervalle) de confiance asymptotique
On note X n = (X1 , . . . , Xn ). Rappel : η = g (θ) et N = g (Θ).
Définition : région de confiance asymptotique

Une région de confiance asymptotique de niveau (au moins) 1 − α
est une statistique In,α (X n ) à valeurs dans P(N), telle que
∀θ ∈ Θ, lim Pθ (g (θ) ∈ In,α (X n )) ≥ 1 − α.

n→∞
(variante : « exactement » si égalité pour tout θ.)
Rappel : pour une RC « exacte » de niveau (au moins) 1 − α ,
∀θ ∈ Θ, Pθ (g (θ) ∈ In,α (X n )) ≥ 1 − α
(ici « exacte » signifie « non asymptotique »).

35/48
Fonction pivotale asymptotique
Définition
Une (suite de) fonction(s)
Tn : X n × N → R
est une fonction pivotale asymptotique si la loi limite de Tn (X n , η)

ne dépend pas de θ :
loi
Tn (X n , η) −−−→ T∞ .
n→∞
où T∞ est une VA dont la loi est libre.
Utilisation des fonctions pivotales asymptotiques :

➠ identique à celle des fonctions pivotales dans le cas exact !
36/48
On a déjà vu que (Slutsky + théorème de continuité)

√ X̄n − η loi
n −−−→ N (0, 1).
X̄n n→∞
➠ Fonction pivotale asymptotique :
√ X̄ − η
Tn (X n , η) = n .
X̄
➠ IC asymptotique de niveau 1 − α pour η :
1 1

In,α = 1 − √ q1− 2 X̄ , 1 + √ q1− 2 X̄
α α
n n
où qr est le quantile d’ordre r de la loi N (0, 1).

37/48

√ X̄n − η loi
n −−−→ N (0, 1).
X̄n n→∞
√ X̄ − η
Tn (X n , η) = n .
X̄
1 1

In,α = 1 − √ q1− 2 X̄ , 1 + √ q1− 2 X̄
α α
n n

37/48

√ X̄n − η loi
n −−−→ N (0, 1).
X̄n n→∞
√ X̄ − η
Tn (X n , η) = n .
X̄
1 1

In,α = 1 − √ q1− 2 X̄ , 1 + √ q1− 2 X̄
α α
n n

37/48
1.4
1.2
densité
1
Application numérique :
0.8
0.6
0.4 h i
Γ(n,n) Γ(n,n)
0.2
qα , q1− α
2 2
0
0 0.5 1 1.5 2 2.5 3
X̄
valeurs de T = η
0.4
densité
0.3
0.2
h i
N (0,1) N (0,1)
0.1 qα , q1− α
2 2
0
-4 -3 -2 -1 0 1 2 3 4 √ η

valeurs de Tn = n 1− X̄
△
!

Ne pas confondre les intervalles sur les fonctions pivotales q α , q1− α et les intervalles de
2 2
confiance sur η. 38/48
25
η̂
IC
IC asympt.
20
15
10
5
0 100 200 300 400 500 600 700 800 900 1000
taille echantillon n
Comparaison des IC exact et asymptotique en fonction de n

39/48
Taux de couverture d’un IC
Définition
Pour θ ∈ Θ, le taux de couverture de In,α (X n ) est défini par
c
τn,θ (In,α (X n )) = Pθ (η ∈ In,α (X n ))
0.96
0.94
taux de couverture
0.92 1−α
0.9
0.88
0.86
101 102 103 104
taille échantillon n
c
Ex. « fiabilité composant » : τn,θ de l’IC asympt. de niveau 95%
Remarque. Si In,α (X n ) est un IC asympt. de niveau 1 − α, alors :
∀θ, lim τθc (In,α (X n )) ≥ 1 − α.

n→∞
40/48
Taux de couverture d’un IC
Définition
Pour θ ∈ Θ, le taux de couverture de In,α (X n ) est défini par
c
τn,θ (In,α (X n )) = Pθ (η ∈ In,α (X n ))
0.96
0.94
taux de couverture
0.92 1−α
0.9
0.88
0.86
101 102 103 104
taille échantillon n
c
Ex. « fiabilité composant » : τn,θ de l’IC asympt. de niveau 95%
Remarque. Si In,α (X n ) est un IC asympt. de niveau 1 − α, alors :
∀θ, lim τθc (In,α (X n )) ≥ 1 − α.

n→∞
40/48
Plan du cours


Exercice 1 (loi asymptotique)
iid
Soient X1 , . . . , Xn ∼ E (θ), avec θ > 0.
Soit η la probabilité de dépasser un seuil x0 > 0 donné :
η = Pθ (X ≥ x0 ) = exp (−θx0 ) .
Questions
1 Étudier le comportement asymptotique de la moyenne
empirique X̄n .
(1)
2 Proposer un estimateur η̂n fonction de X̄n , par substitution.
(1)
3 Étudier le comportement asymptotique de η̂n .
(2)
Soit η̂n = n1 ni=1 1Xi ≥x0 . L’un des deux estimateurs est-il
P
4
asymptotiquement préférable à l’autre ?
41/48
Exercice 2 (intervalle de confiance exact)
Définition : loi de Rayleigh de paramètre σ 2

x2

x
σ2

X ∼R si X admet la densité f (x) = 2 exp − 2 , x ≥ 0.
σ 2σ
iid
Soient X1 , . . . , Xn ∼ R σ 2 , avec σ 2 > 0.

Questions
1 Trouver une fonction pivotale.
Indication : si X ∼ R(σ 2 ) alors Y = X 2 ∼ E 1

2σ 2
.
2 En déduire un intervalle de confiance pour σ 2 de niveau

exactement 95%.
42/48
Corrigé de l’exercice 1
➊ Appliquant le TCL :
√ 1 1

loi
n X̄n − −−−→ N 0, 2
θ n→∞ θ
!
x0
➋ η = exp − 1 = h 1θ

θ
x0
avec h : u 7→ exp − continue sur R∗+ .
u
1
Utilisant la méthode de substitution à X̄n estimateur de θ :

(1) x0
η̂n = h X̄n = exp −
X̄n
43/48
x0 x
0
➌ h est dérivable sur R∗+ avec h′ (u) = exp − .
u2 u
Appliquant le Delta théorème dans le contexte gaussien :
2 !
√ 1 1 1

loi ′
n h X̄n − h −−−→ N h
θ n→∞ θ θ2
Soit :
√ (1)
loi

n η̂n − η −−−→ N (x0 θ exp (−θx0 ))2
n→∞
(1)
La variance asymptotique de η̂n est σ12 (θ) = (x0 θ exp (−θx0 ))2
44/48
n
1X

(2) Z1 , . . . , Zn IID
➍ η̂n = Zi avec Zi = 1Xi ≥x0 avec
n Z1 ∼ B(η)
i=1
(2)
Appliquant le TCL, η̂n est asymptotiquement gaussien :
n
!
√ 1X loi
n Zi − E(Z1 ) −−−→ N (0, var(Z1 ))
n n→∞
i=1
soit
√ (2)
loi
n η̂n − η −−−→ N (0, η(1 − η))
n→∞
loi
−−−→ N (exp (−θx0 ) (1 − exp (−θx0 )))
n→∞
(2)
La var. asympt. de η̂n est σ22 (θ) = exp (−θx0 ) (1 − exp (−θx0 ))
45/48
Soit ∆(θ) = σ22 (θ) − σ12 (θ).
∆(θ) = exp (−θx0 ) 1 − exp (−θx0 ) − x02 θ2 exp (−θx0 )

= exp (−θx0 ) ϕ(θx0 )
avec ϕ(u) = 1 − exp(−u)(1 + u 2 ).
Un tableau de variation de ϕ montre que ϕ > 0 sur R+ .
(1) (2)
η̂n est donc asymptotiquement préférable à η̂n .
46/48
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6
Tracés des 2 variances asymptotiques pour x0 = 2.0.
47/48
1
En utilisant l’indication : Xi2 ∼ E

2σ 2
Les Xi étant indépendants :
n
1
X
Xi2 ∼ Γ n, 2 (rappel : E (λ) = Γ(1, λ))
2σ
i=1
1 Pn
➠ T X , σ2 = 2 ∼ Γ n, 12 est pivotale pour σ 2 .

σ2 i=1 Xi
On en déduit un IC pour σ 2 de niveau (exactement) 1 − α :

n n
" #
γ= α 1 X
2 1 X
2
Iα 2 = Xi , Xi .
q0.975 q0.025
i=1 i=1
où qr est le quantile d’ordre r de la loi Γ n, 21

Remarque : en prenant la racine carré, on obtient un IC pour σ
48/48

Cours 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 3

Transféré par

Droits d'auteur :

Formats disponibles

Statistique et apprentissage

Arthur Tenenhaus† , Julien Bect & Laurent Le Brusquet

Enseignement : CentraleSupélec / Département de Mathématiques

1 – Lois asymptotiques et vitesse de convergence

2 – Régions et intervalles de confiance

Pour toute la section :

le plus souvent paramétrique (Θ ⊂ Rp ) ;

◮ on veut estimer un « paramètre d’intérêt » :

Pour toute la section :

le plus souvent paramétrique (Θ ⊂ Rp ) ;

◮ on veut estimer un « paramètre d’intérêt » :

Pour toute la section :

le plus souvent paramétrique (Θ ⊂ Rp ) ;

◮ on veut estimer un « paramètre d’intérêt » :

1 – Lois asymptotiques et vitesse de convergence

2 – Régions et intervalles de confiance

1 – Lois asymptotiques et vitesse de convergence

2 – Régions et intervalles de confiance

Exercice. Soit Z un vecteur aléatoire du second ordre.

Exercice. Soit Z un vecteur aléatoire du second ordre.

alors η̂n est dit asymptotiquement normal.

Vocabulaire. Σ(θ) s’appelle la matrice de covariance asymptotique

Note : on peut m.q. (1) avec an → +∞ implique la consistance.

alors η̂n est dit asymptotiquement normal.

Vocabulaire. Σ(θ) s’appelle la matrice de covariance asymptotique

Note : on peut m.q. (1) avec an → +∞ implique la consistance.

alors η̂n est dit asymptotiquement normal.

Vocabulaire. Σ(θ) s’appelle la matrice de covariance asymptotique

Note : on peut m.q. (1) avec an → +∞ implique la consistance.

⇒ La moyenne empirique X̄n

⇒ La moyenne empirique X̄n

0.015 0.015 0.015

0.01 0.01 0.01

0.005 0.005 0.005

Pour un A ∈ A donné, on estime η = P (X1 ∈ A) par

Concl. : si 0 < η < 1, alors η̂n est asymptotiquement gaussien, avec

Pour un A ∈ A donné, on estime η = P (X1 ∈ A) par

Concl. : si 0 < η < 1, alors η̂n est asymptotiquement gaussien, avec

Pour un A ∈ A donné, on estime η = P (X1 ∈ A) par

Concl. : si 0 < η < 1, alors η̂n est asymptotiquement gaussien, avec

1 – Lois asymptotiques et vitesse de convergence

2 – Régions et intervalles de confiance

h est continue au point Y , presque sûrement.

Alors, pour toute suite (Yn )n∈N∗ de VA à valeurs dans Rd ,

Loi des grands nombres (forte et en m.q.) :

Par le théorème de continuité :

donc θ̂n est fortement consistant.

Exercice : montrer que θ̂n est aussi consistant dans L2 .

Loi des grands nombres (forte et en m.q.) :

Par le théorème de continuité :

donc θ̂n est fortement consistant.

Exercice : montrer que θ̂n est aussi consistant dans L2 .

Donc, par le théorème de continuité,

Donc, par le théorème de continuité,

Donc, par le théorème de continuité,

avec Z une VA à valeurs dans Rd et m ∈ Rd .

où (Dh)(m) est la matrice jacobienne de h au point m :

Intuition : h(y ) − h(m) ≈ (Dh)(m) (y − m). 14/48

avec Z une VA à valeurs dans Rd et m ∈ Rd .

où (Dh)(m) est la matrice jacobienne de h au point m :

Intuition : h(y ) − h(m) ≈ (Dh)(m) (y − m). 14/48

avec Z une VA à valeurs dans Rd et m ∈ Rd .

où (Dh)(m) est la matrice jacobienne de h au point m :