Cours7-9 2pp

Troisième partie III
Cours 7 à 9 : Eléments d’asymptotique, Tests

asymptotiques, Conclusions (version corrigée, 20 avril 2007)
Eléments d’asymptotique
7 Eléments d’asymptotique
L’approche asymptotique
Les outils de base
Asymptotique des M-estimateurs
8 Tests asymptotiques
9 Conclusions
Eléments d’asymptotique L’approche asymptotique
Limitations du traitement non-asymptotique
En pratique, les cas où l’on sait déterminer

la loi des estimateur θ̂n (ou même simplement calculer leur
risque quadratique)
la loi des statistiques de test ξn sous l’hypothèse nulle
des fonctions pivotales f (Y1 , . . . , Yn ; θ)
sont l’exception plutôt que la règle
Exemple (Test de Student)

Si Yi ∼ N (µ, σ 2 ),
(
√ (µ̂n − µ) = 1/n ni=1 Yi
P
µ̂n
n p ∼ tn−1 où Pn
2
σ̂n σ̂n2 = 1/(n − 1) i=1 (Yi − µn )2
ce qui permet de tester des hypothèses de la forme H0 : µ = µ0

mais également de fournir des intervalles de confiance sur µ
Quid du cas général ?
Le problème se pose de façon encore plus aiguë pour les

M-estimateurs définis de façon implicite
L’approche asymptotique Consiste à considérer la situation où le

nombre n d’observations est suffisamment grand pour que l’on
puisse utiliser des approximations reposant sur le comportement
limite des estimateurs
Estimateur asymptotiquement normal [Définition 5.2]

θ̂n est un estimateur asymptotiquement normal de θ si
√
L
n θ̂n − θ −→ N (0, Σ(θ))
sous Pθ
Σ(θ) est dite matrice de covariance asymptotique
Remarque La définition ci-dessus implique que θ̂n est un

estimateur (faiblement) consistant de θ
Si θ̂n est asymptotiquement normal

θ̂n est dit asymptotiquement efficace si Σ(θ) = IF−1 (θ)
La statistique
0
L
n θ̂n − θ Σ(θ) θ̂n − θ −→ χ2rang(Σ(θ))
#
peut être utilisé pour tester des hypothèse du type

H0 : θ = θ0 ; lorsque le seuil est fixé à partir du comportement
limite, on parle de test de niveau asymptotique α
La région correspondante est dite région de confiance de
probabilité de couverture asymptotique 1 − α
Eléments d’asymptotique Les outils de base
Lemme de Slutsky*
L
(
Xn −→ X
P
Yn −→ y (y déterministe)
L
Xn + Yn −→ X + y
L
implique Yn Xn −→ yX
L
Yn−1 Xn −→ y −1 X (y 6= 0)
En particulier, si θ̂n est asymptotiquement normal et Vn 0 est un

estimateur consistant de Σ(θ) 0
√ −1/2 L
nVn (θ̂n − θ) −→ N (0, Idp )
L
n(θ̂n − θ)0 Vn−1 (θ̂n − θ) −→ χ2p
*
Eugen Slutsky (1880 – 1948)
Exemple (Intervalle de confiance dans le modèle de Bernoulli)

Si Yi suit une loi de Bernoulli avec Pθ (Yi = 1) = θ,
√ L
n(θ̂n − θ) −→ N (0, θ(1 − θ))
par le théorème de la limite centrale. Par conséquent,
√ (θ̂n − θ)
nq
θ̂n (1 − θ̂n )
est une quantité asymptotiquement pivotale
D’où l’intervalle de confiance de probabilité de couverture

asymptotique 1 − α
q
θ̂n (1 − θ̂n ) −1
θ̂n ± √ Φ (1 − α/2)
n | {z }
1.96 pour α = 0.05
Exemple (Comportement asymptotique de la statistique du

def
test de Student) Soit µ = Eθ (Y ), dans le cas où Pθ est la loi
√ L
normale, Sn = n (µ̂√n −µ)
2
∼ tn−1 −→ N (0, 1) par application du
σ̂n
lemme de Slutsky
Dans le cas général (Vθ (Y ) < ∞),
√ L
1 n(µ̂n − µ) −→ N (0, Vθ (Y )) par le théorème de la limite
centrale h i p.s.
2 = n 1 P n 2 1 P n 2
2 σ̂n n−1 n i=1 Yi − n i=1 Yi −→ Vθ (Y )
L
d’où Sn −→ N (0, 1)
Méthode delta
Soit
θ̂n un estimateur asymptotiquement normal de θ, de matrice
de covariance asymptotique Σ(θ)
g : Rp 7→ Rq , θ → g(θ) une fonction continûment
différentiable telle que ∂g
∂θ (θ0 ) 6= 0
Sous Pθ0 , g(θ̂n ) est un estimateur asymptotiquement normal de
θ0 , de matrice de covariance asymptotique
∂g ∂g 0
(θ0 )Σ(θ0 ) (θ0 )
∂θ0 ∂θ
Exemple (Variance empirique)

n n
2 1 X 1X
σ̂n = (Yi − Yj )2
n−1 n
i=1 j=1
 !2 
n n
n 1 X 2 1X
= Yi − Yi 
n−1 n n
i=1 i=1
Dans le cas gaussien, (n − 1)σ̂n2 /σ 2 ∼ χ2n−1 d’où

√ L
n − 1(σ̂n2 /σ 2 − 1) −→ N (0, 2) (soit encore,
√ L
n(σ̂n2 − σ 2 ) −→ N (0, 2σ 4 )) par le théorème de la limite
centrale
Dans le cas général,
(
2 g(s) = s2 − s21
σ̂n ≡ g(Sn,1 , Sn,2 ) avec
Sn,1 = n1 ni=1 Yi ,
P 1 Pn 2
Sn,2 = n i=1 Yi
Exemple (Variance empirique — suite) On peut sans perte de

généralité considérer le cas où µ = 0 car σ̂n2 ne dépend pas de µ
∂g(s) 2
(0, σ ) = (0, 1)
∂s0
Par le théorème de la limite centrale
1 Pn
√

n i=1 Yi 0
n 1 Pn 2 −
n i=1 Yi σ2
σ2 Eθ [Y 3 ]

L
−→ N 0,
Eθ [Y 3 ] Eθ [Y 4 ] − σ 4
d’où, par application de la méthode delta

√ L
n(σ̂n2 − σ 2 ) −→ N (0, Eθ [Y 4 ] − σ 4 )
Eléments d’asymptotique Asymptotique des M-estimateurs
Rappel (M-estimateur) défini implicitement par

n
1X
θ̂n = arg max ψ(Yi ; θ)
θ∈Θ n
| i=1 {z }
Qn (θ)
Par construction (en supposant Eθ0 [ψ(Y ; θ)] < ∞)

p.s. def
Qn (θ) −→ Q0 (θ) = Eθ0 [ψ(Y ; θ)] sous Pθ0
Consistance [Annexe IV, Proposition 2]

p.s.
supθ∈Θ |Qn (θ) − Q0 (θ)| −→ 0
Θ est compact, Q0 est continu sur Θ et admet un maximum
unique en θ0
Implique que θn est un estimateur (fortement) consistant sous Pθ0
Application aux M-estimateurs
1 Pn
Qn (θ) = n i=1 ψ(Yi ; θ)
1 Si Eθ0 [ψ(Y ; θ)] < ∞,
p.s. def
Qn (θ) −→ Q0 (θ) = Eθ0 [ψ(Y ; θ)] (sous Pθ0 )
par la loi (forte) des grands nombres

2 On retrouve le fait que Eθ0 [ψ(Y ; θ)] admette un maximum
unique en θ0 comme condition nécessaire de consistance
Reste à vérifier la régularité et l’uniformité de la convergence...

Normalité asymptotique [Annexe IV, Proposition 3]

Si, en plus des hypothèses précédentes,
◦
Qn (θ) est deux fois continûment différentiable sur Θ et
◦
θ0 ∈ Θ
√ ∂Qn L
n ∂θ (θ0 ) −→ N (0, I(θ0 )) sous Pθ0
∂ 2 Qn p.s.
∂θ∂θ 0 (θ) −→ − J(θ), uniformément en θ (sous Pθ0 ) et
J(θ0 ) 0
θ̂n est un estimateur asymptotiquement normal de θ0 sous Pθ0 de
matrice de covariance asymptotique
J −1 (θ0 )I(θ0 )J −1 (θ0 )
Application aux M-estimateurs Lorsque h i

1 Pn ∂ 2 ψ(Y ;θ)
Qn (θ) = n i=1 ψ(Yi ; θ) et en supposant Eθ0 ∂θ∂θ0 <∞
Eθ0 [ ∂ψ(Y
∂θ
;θ0 )
] = 0 de par la condition nécessaire de
consistance, d’où
n
√ ∂Qn

1 X ∂ψ(Yi ; θ0 ) L ∂ψ(Y ; θ0 )
n (θ0 ) = √ −→ N 0, Vθ0
∂θ n ∂θ ∂θ
i=1 | {z }
I(θ0 )
par le théorème de la limite centrale

Par la loi des grands nombres
n
∂ 2 Qn 1 X ∂ 2 ψ(Yi ; θ0 ) p.s.
2
∂ ψ(Y ; θ0 )
(θ0 ) = −→ Eθ0
∂θ∂θ0 n ∂θ∂θ0 ∂θ∂θ0
i=1 | {z }
−J(θ0 )
Reste à vérifier l’uniformité de la convergence...

En résumé
Sous les conditions d’applicabilité des théorèmes précédents,
√ L
n(θ̂n − θ0 ) −→ N 0, J −1 (θ0 )I(θ0 )J −1 (θ0 )

où
 h i h i
I(θ0 ) = Vθ0 ∂ψ(Y ;θ0 )
= Eθ0 ∂ψ(Y ;θ0 ) ∂ψ(Y ;θ0 )
∂θ0
h 2∂θ i ∂θ
∂ ψ(Y ;θ0 )
J(θ0 ) = Eθ0 − ∂θ∂θ0
Par la méthode delta, si on s’intéresse à g(θ̂n ),

√
n(g(θ̂n ) − g(θ0 ))
0

L ∂g ∂g
−→ N 0, 0 (θ0 )J −1 (θ0 )I(θ0 )J −1 (θ0 ) (θ0 )
∂θ ∂θ
Tests asymptotiques
Tests d’hypothèses simples
Tests d’hypothèses composites
9 Conclusions
Tests asymptotiques Tests d’hypothèses simples
Test d’ajustement de Wald* [Proposition 7.3]

Pour un M-estimateur, le résultat de normalité asymptotique
√ L
n(θ̂n − θ0 ) −→ N 0, J −1 (θ0 )I(θ0 )J −1 (θ0 )

nous permet
1 De tester des hypothèses simples, du type H0 : θ = θ0
n(θ̂n − θ0 )0 Jˆn Iˆn−1 Jˆn (θ̂n − θ0 ) ≷ s
2 De déterminer des régions de confiances

n o
0 ˆ ˆ−1 ˆ
θ : n(θ − θ̂n ) Jn In Jn (θ − θ̂n ) < s
Il est nécessaire de remplacer I(θ0 ) et J(θ0 ) par des estimations

consistantes Iˆn et Jˆn
*
Abraham Wald (1902-1950)
Cas du maximum de vraisemblance [Encadré 9]
Si ψ(y; θ) = log `(y; θ),

def ∂ψ(Y ; θ0 )
I(θ0 ) = Vθ0
∂θ
2
def ∂ ψ(Y ; θ0 )
= J(θ0 ) = Eθ0 −
∂θ∂θ0
= IF (θ0 ) information de Fisher
D’où √ L
n(θ̂n − θ0 ) −→ N 0, IF−1 (θ0 )

On obtient en général une estimation de J(θ0 ) comme un

sous-produit de l’optimisation numérique
Exemple (Régression logistique) J(θ0 ) est estimé par

n
ˆ 1 X ∂ 2 log `(Yi |Xi ; θ̂n )
Jn = −
n ∂θ∂θ0
i=1
n
1X 0
n o
= Xi Xi Pθ̂n (Yi = 1|Xi ) 1 − Pθ̂n (Yi = 1|Xi )
n
i=1
Variable Estimation IC à 95% (asympt.)

sbp 1.66 - 3.52 6.83
tobacco 6.61 1.42 11.7
ldl 0.74 - 4.28 5.77
obesity 2E-4 - 5.32 5.32
alcohol - 2.24 - 7.41 2.92
age 9.59 2.96 16.2
Tab.: Régression logistique sur les données de maladie coronarienne (6
variables explicatives + constante, 270 observations)
Moindres carrés non-linéaires [Encadré 10]
Dans un modèle conditionnel avec

h(X; θ) = Eθ [Y |X]
Vθ [Y |X] = σ 2
ψ(X, Y ; θ) = − 12 {Y − h(X; θ)}2
 h i
2
I(θ0 ) = σ E ∂h(X;θ0 ) ∂h(X;θ 0 )
h ∂θ ∂θ0 i
 J(θ0 ) = E ∂h(X;θ0 ) ∂h(X;θ 0
0)
∂θ ∂θ
Tests asymptotiques Tests d’hypothèses composites
On s’intéresse également souvent à des hypothèses nulles spécifiées

sous la forme
H0 : g(θ) = 0
où g est, en général, une fonction linéaire
Exemple (Test de significativité d’un ensemble de coefficients)
g(θ) = Gθ
avec rang(G) = r
On est alors amené à comparer le M-estimateur non contraint θ̂n

avec la solution du problème contraint

arg max Qn (θ)
θ̂n0 =
s.c. g(θ) = 0
Dans le cas général r = rang ∂g(θ)

∂θ0 (sous H0 )
Test d’Hausman [Proposition 7.6]

Sous H0 : g(θ0 ) = 0, et en supposant que I(θ0 ) = J(θ0 )
L
n(θ̂n − θ̂n0 )0 J(θ0 )(θ̂n − θ̂n0 ) −→ χ2r
En pratique, on substitue à J(θ0 ) un estimateur consistant comme

2 Q (θ̂ )
J(θ̂n ) ou J(θ̂n0 ) (si J(θ) est calculable) ou encore − ∂ n n
∂θ∂θ0 ou
2 Q (θ̂ 0 )
−∂ n n
∂θ∂θ0 (lorsque le M-estimateur est déterminé numériquement)
Test du rapport de vraisemblance généralisé [Proposition 7.7]

Sous H0 : g(θ0 ) = 0, et en supposant que I(θ0 ) = J(θ0 )

L
2n Qn (θ̂n ) − Qn (θ̂n ) −→ χ2r
0
Dans le cas du maximum de vraisemblance, la statistique s’écrit

aussi
`n (Y1 , . . . , Yn ; θ̂n )
2 log
`n (Y1 , . . . , Yn ; θ̂n0 )
Exemple (Régression logistique) Pour tester qu’un

sous-ensemble de r coefficients de régression sont nuls
1 On estime θ̂n0 par l’algorithme de Newton (en supprimant les
régresseurs correspondants)
2 On considère la statistique de test d’Hausman
n(θ̂n − θ̂n0 )0 Jˆn (θ̂n − θ̂n0 )
3 Le niveau du test est déterminé à partir de la loi χ2r
H0 r p-valeur
θsbp = θldl = θobesity = θalcohol = 0 4 0.89
θALL = 0 6 3.43 10−5
Tab.: Résultats du test d’Hausman
Conclusions
9 Conclusions
Quelques extensions (1) : tests du khi-deux
Quelques extensions (2) : problèmes à deux échantillons
Ce que nous n’avons pas vu
Ce que nous avons vu
Conclusions Quelques extensions (1) : tests du khi-deux
Test d’ajustement du khi-deux

Objectif tester l’adéquation à une loi pour des observations
prenant un nombre fini de valeurs
Pm {1, . . . , m}, avec

Y1 , . . . , Yn observations à valeur dans
P(Y = j) = pj où 0 < pj < 1 et j=1 pj = 1
Hypothèse H0 : valeur de référence p
L’estimateur du maximum de vraisemblance est
n
1X
p̂n,j = 1{Yi = j}
n
i=1
Le théorème de la limite centrale donne

     
p̂n,1 p1 ! p1 !
√
n  ...  −  ...  −→ N 0,  ..
L 0
 −pp
     
.
p̂n,m pm pm
| {z } | {z } | {z }
p̂n p P
Test d’ajustement du khi-deux (suite)

√ L
n P −1/2 (p̂n − p) −→ N 0, Idm − P −1/2 pp0 P −1/2

| {z }
Projection 
sur 
√
p1
l’orthogonal de  ... 
 
√
pm
d’où
m
X (p̂n,j − pj )2 L 2
ξn = n −→ ξm−1
pj
j=1
| {z }
statistique de test du khi-deux
Il s’agit en fait d’une famille de tests [Section 7.4.3]

 
p1
H0 : G  ...  = v
 
pm−1
| {z }
p
où G est de rang r (( nombres de contraintes (sous H0 ) )),
alternativement q = m − 1 − r est le (( nombre de paramètres libres
(sous H0 ) ))
De façon générique,
2
m
X p̂n,j − p̂0n,j L
ξn = n −→ χ2m − 1 − q
j=1
p̂0n,j | {z }
r
Exemple Test d’indépendance du khi-deux [Définition 7.9]

Preuve ξn coı̈ncide avec la statistique d’Hausman, en considérant

p comme paramètre. En effet, sous H0 ,
√
L

0

n p̂n − p −→ N 0, P − p p
| {z }
J −1
On vérifie par suite que

    0

1/p1 1 1
.. 1  ..   .. 
J = +
 
.
pm .
  .
1/pm−1 1 1
0
et que ξn = p̂n − p̂0n
J p̂n − p̂0n
(J peut être remplacé par un estimateur consistant du fait du
lemme de Slutsky)
Conclusions Quelques extensions (2) : problèmes à deux échantillons
Problèmes à deux échantillons

Exemple (Test de Student à deux échantillons) On cherche à
tester l’homogénéité de deux échantillons indépendants Y1 , . . . , Yn
et Z1 , . . . , Zm vis à vis d’écarts en moyenne
Sous H0 : Y ∼ N (µ, σ 2 ), Z ∼ N (µ, σ 2 )
la statistique

1 Pn


 Ȳ n = n i=1 Yi
 1 P m
r
nm (Ȳn − Z̄m )

 Z̄ m = m i=1 Zi
avec
h Pn
2 1 2
σ̂ = (Y − Ȳ )
q
n+m 2
σ̂n,m 
 n,m n+m−2 i=1 i n

 Pm i

 + j=1 (Zj − Z̄m ) 2
suit une loi de Student à n + m − 2 degrés de libertés

Egalement une version asymptotique de ce résultat pour
H0 : Eθ [Y ] = Eθ [Z] = µ, Vθ [Y ] = Vθ [Z] = σ 2
Conclusions Ce que nous n’avons pas vu
Autres sujets en statistique
Principe minimax
Approche bayésienne
Estimation non-paramétrique (notamment estimation de
densité)
Modèles dynamiques (séries chronologiques, cf. MAP 553)
Modèles spatiaux ou spatio-temporels
Classification, régression, analyse de données
Applications . . .
Conclusions Ce que nous avons vu
Ce qu’il faut retenir du cours

√
Bases de probabilités : calcul de lois, espérance,
matrice de covariance, conditionnement, loi des
grands nombres, loi normale et dérivées (khi-deux et
Student), théorème de la limite centrale,
convergences
√
Terminologie statistique (échantillon, estimateur,
statistique, modèle, modèle conditionnel, . . .)
√
Biais, variance, risque quadratique
√
Matrice d’information de Fisher, inégalité de
Fréchet-Darmois-Cramér-Rao
√
Estimateur du maximum de vraisemblance,
M-estimateur, moindres carrés
√
Modèle linéaire (moindres carrés linéaires, modèle
linéaire Gaussien, test de Student)
Conclusions Ce que nous avons vu
Ce qu’il faut retenir du cours (suite)

√
Tests (risque de première espèce, puissance, niveau,
approche de Neyman-Pearson, probabilité critique),
intervalles de confiance
√
Concepts et outils de base de l’asymptotique :
consistance, normalité asymptotique, lemme de
Slutsky et méthode delta
√
Savoir utiliser les résultats généraux concernant les
M-estimateurs (consistance, normalité asymptotique)
√
Construction des tests et intervalles de confiance
asymptotiques
√
Savoir utiliser les résultats concernant les statistiques
de test asymptotiques usuelles (Wald, Hausman,
rapport de vraisemblance généralisé, tests du
khi-deux)

Cours7-9 2pp

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours7-9 2pp

Transféré par

Droits d'auteur :

Formats disponibles

Troisième partie III

Cours 7 à 9 : Eléments d’asymptotique, Tests

Limitations du traitement non-asymptotique

En pratique, les cas où l’on sait déterminer

Eléments d’asymptotique L’approche asymptotique

Exemple (Test de Student)

ce qui permet de tester des hypothèses de la forme H0 : µ = µ0

Le problème se pose de façon encore plus aiguë pour les

L’approche asymptotique Consiste à considérer la situation où le

Estimateur asymptotiquement normal [Définition 5.2]

Σ(θ) est dite matrice de covariance asymptotique

Remarque La définition ci-dessus implique que θ̂n est un

Eléments d’asymptotique L’approche asymptotique

Si θ̂n est asymptotiquement normal

peut être utilisé pour tester des hypothèse du type

En particulier, si θ̂n est asymptotiquement normal et Vn  0 est un

Exemple (Intervalle de confiance dans le modèle de Bernoulli)

par le théorème de la limite centrale. Par conséquent,

est une quantité asymptotiquement pivotale

D’où l’intervalle de confiance de probabilité de couverture

Exemple (Comportement asymptotique de la statistique du

Eléments d’asymptotique Les outils de base

Exemple (Variance empirique)

Dans le cas gaussien, (n − 1)σ̂n2 /σ 2 ∼ χ2n−1 d’où

Eléments d’asymptotique Les outils de base

Exemple (Variance empirique — suite) On peut sans perte de

d’où, par application de la méthode delta

Rappel (M-estimateur) défini implicitement par

Par construction (en supposant Eθ0 [ψ(Y ; θ)] < ∞)

Consistance [Annexe IV, Proposition 2]

Eléments d’asymptotique Asymptotique des M-estimateurs

Application aux M-estimateurs

par la loi (forte) des grands nombres

Reste à vérifier la régularité et l’uniformité de la convergence...

Normalité asymptotique [Annexe IV, Proposition 3]

J −1 (θ0 )I(θ0 )J −1 (θ0 )

Eléments d’asymptotique Asymptotique des M-estimateurs

Application aux M-estimateurs Lorsque h i

par le théorème de la limite centrale

Reste à vérifier l’uniformité de la convergence...

Par la méthode delta, si on s’intéresse à g(θ̂n ),

Test d’ajustement de Wald* [Proposition 7.3]

n(θ̂n − θ0 )0 Jˆn Iˆn−1 Jˆn (θ̂n − θ0 ) ≷ s

2 De déterminer des régions de confiances

Il est nécessaire de remplacer I(θ0 ) et J(θ0 ) par des estimations

Cas du maximum de vraisemblance [Encadré 9]

Si ψ(y; θ) = log `(y; θ),

On obtient en général une estimation de J(θ0 ) comme un

Exemple (Régression logistique) J(θ0 ) est estimé par

Variable Estimation IC à 95% (asympt.)

Tests asymptotiques Tests d’hypothèses simples

Moindres carrés non-linéaires [Encadré 10]

Dans un modèle conditionnel avec

On s’intéresse également souvent à des hypothèses nulles spécifiées

Exemple (Test de significativité d’un ensemble de coefficients)

On est alors amené à comparer le M-estimateur non contraint θ̂n

Dans le cas général r = rang ∂g(θ)

Tests asymptotiques Tests d’hypothèses composites

Test d’Hausman [Proposition 7.6]

En pratique, on substitue à J(θ0 ) un estimateur consistant comme

Test du rapport de vraisemblance généralisé [Proposition 7.7]

Dans le cas du maximum de vraisemblance, la statistique s’écrit

Tests asymptotiques Tests d’hypothèses composites

En particulier, si θ̂n est asymptotiquement normal et Vn 0 est un