Paul Doukhan
2
Table des matières
1 Modèle de Bernoulli 7
1.1 Résumer l’information . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 12
1.4 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Intervalles de confiance asymptotiques . . . . . . . . . . . . . . . 14
1.7 Contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Validité de l’asymptotique∗ . . . . . . . . . . . . . . . . . . . . . 17
3 Modèles Statistiques 27
3.1 Exemples de modèles . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Estimation 37
4.1 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Borne de Cramer Rao . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Modèle canonique . . . . . . . . . . . . . . . . . . . . . . 44
4.5.2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Modèle gaussien iid . . . . . . . . . . . . . . . . . . . . . 45
4.5.4 Modèle multinomial . . . . . . . . . . . . . . . . . . . . . 45
3
4 TABLE DES MATIÈRES
5 Méthodes d’estimation 51
5.1 Minimum de contraste . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Maximum de vraisemblance . . . . . . . . . . . . . . . . . 53
5.2 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.1 Méthode d’injection . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Moments en économétrie . . . . . . . . . . . . . . . . . . 57
5.3 Problèmes algorithmiques . . . . . . . . . . . . . . . . . . . . . . 58
5.3.1 Dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3.2 Montée sur les axes . . . . . . . . . . . . . . . . . . . . . . 59
5.3.3 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . 59
5.3.4 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . 60
6 Asymptotique en estimation 63
6.1 Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Méthodes empiriques . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Minimum de contraste . . . . . . . . . . . . . . . . . . . . 65
6.2 Delta méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.3 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . . 68
7 Tests 71
7.1 Quelques définitions . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 74
7.3 Rapports de vraisemblance monotones . . . . . . . . . . . . . . . 76
7.4 Asymptotique du score . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5 Tests du score et de Wald . . . . . . . . . . . . . . . . . . . . . . 78
8 Tests gaussiens 81
8.1 Tests fondés sur la vraisemblance . . . . . . . . . . . . . . . . . . 81
8.1.1 Moyenne d’une gaussienne . . . . . . . . . . . . . . . . . . 81
8.1.2 Moyenne de deux échantillons gaussiens . . . . . . . . . . 82
8.1.3 Covariance de deux échantillons gaussiens . . . . . . . . . 83
8.2 Invariance et modèle linéaire . . . . . . . . . . . . . . . . . . . . 84
8.2.1 Analyse de variance . . . . . . . . . . . . . . . . . . . . . 85
8.2.2 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . 86
Avertissement
Paul Doukhan
doukhan@u-cergy.fr
www.doukhan.u-cergy.fr
Chapitre 1
Modèle de Bernoulli
7
8 CHAPITRE 1. MODÈLE DE BERNOULLI
toute fonction définie sur cet ensemble est mesurable) On appelle estimateur
T = h(X1 , . . . , Xn ) toute fonction de l’observation.
Posons
Sn = X1 + · · · + Xn (1.1)
Pθ (X1 = x1 , . . . , Xn = xn , Sn = s)
Pθ (X1 = x1 , . . . , Xn = xn |Sn = s) =
Pθ (Sn = s)
s n−s
θ (1 − θ)
=
Cns θs (1 − θ)n−s
1
= (1.2)
Cns
1 X
h(s) = s
e h(x1 , . . . , xn )
Cn x1 +···+xn =s
Une première question est : l’estimateur conditionné par Sn est-il aussi dispersé
que T ?
Théorème 1.1
Var θ T ≥ Var θ Te
10 CHAPITRE 1. MODÈLE DE BERNOULLI
Preuve. Quitte à lui soustraire son espérance on suppose Eθ T = 0 (et par suite
Eθ T̃ = 0), notons que Eθ T Te = Eθ Te2 , on en déduit,
Remarques.
– L’inégalité précédente est donc une égalité lorsque T = Te et donc h est
nécessairement une fonction de Sn dans ce cas.
– Plus généralement, l’inégalité de Jensen conditionnelle s’écrit pour toute
fonction g : C → R convexe et continue sur un convexe C ⊂ Rd . Soit
B ⊂ A une sous-tribu quelconque de A, si Z ∈ C p.s. (et si les espérances
suivantes sont bien définies)
EB g(Z) ≥ g EB Z
(1.3)
Pour montrer cette inégalité, on note que c’est une égalité pour toute
fonction g affine et le théorème de Hahn-Banach implique que la fonc-
tion g convexe est la borne supérieure de telles fonctions affines. Une ver-
sion conditionnelle du théorème de convergence monotone permet ainsi de
conclure.
a.
Pour toute loi ν sur Θ = [0, 1], on considère le risque bayésien d’un estima-
teur T = h(X1 , . . . , Xn )
Z 1
Rν (T ) = Eθ (T − θ)2 dν(θ) (1.6)
0
Exemple. La loi βa,b de densité dν/dθ = ca,b θa−1 (1−θ)b−1 où c−1 a,b = B(a, b) =
R 1 a−1 b−1 Γ(a)Γ(b)
0
θ (1 − θ) dθ s’écrit aussi B(a, b) = Γ(a+b) avec Γ, la fonction d’Eu-
R∞
ler Γ(x) = 0 e−t xt−1 dt. Cette formule classique est laissée en exercice, on
précisera son champ d’application. Alors les calculs précédents conduisent à
R1
θa+s (1 − θ)n−s+b−1 dθ Γ(a + s − 1) Γ(a + b + n) a+s
g(s) = R 10 = =
θ a+s−1 (1 − θ)n−s+b−1 dθ Γ(a + b + n + 1) Γ(a + s) a+b+n
0
a + Sn
L’estimateur bayésien est ici T = .
a+b+n √
√ n + Sn
Lorsque a = b = n, l’estimateur obtenu, √ , conduit à un risque
n+2 n
1 2
Rν (T ) = (√n+1) 2 , de plus Eθ (T − θ) = Rν (T ) ne dépend pas de θ dans ce cas.
Lorsque a = b = 0 (ce qui n’est pas licite ici . . .) X = Snn a pour variance vθ (T ) =
θ(1−θ)
n qui n’est pas toujours plus petite que Rν (T ). On peut voir que pour
chaque a, b ∈ [0, 1]2 il n’existe pas d’estimateur de θ vérifiant Rθ (T ) = Eθ (T −
θ)2 ≤ Eθ (Ta,b − θ)2 pour lequel l’inégalité soit stricte en, au moins, un point
(on utilise une variante en espace continu de la proposition 2.1). Un estimateur
de θ est dit admissible s’il n’en n’existe pas de strictement meilleur, au sens
précédent. Il est difficile d’obtenir un estimateur préférable à tous les autres
de manière uniforme ; un critère moins exigeant et distinct du critère bayésien
consiste à minimiser l’expression T 7→ supθ Rθ (T ), c’est le critère minimax, qui
minimise le risque maximal.
θ(1 − θ) 1
Pθ θ ∈
/ X − δ, X + δ = Pθ X − θ > δ ≤ ≤
nδ 2 4nδ 2
car θ(1 − θ) ≤ 41 pour θ ∈ R. Ainsi la confiance que l’on peut mettre dans le
fait que θ ∈ I(X) où I(X) = X − δ, X + δ est au moins égale à 1 − α lorsque
1
α = 4nδ 2.
Théorème 1.2 (TLC) Soit (Xn )n≥0 , une suite iid à valeurs dans Rk et telle
que EkX0 k2 < ∞, alors
√ L
n X − EX0 →n→∞ Nk (0, Var X0 )
admet alors le niveau asymptotique α. On note ici ϕa l’unique nombre réel tel
que P(N (0, 1) < ϕa ) = a, il est appelé quantile d’ordre a de la loi normale.
L’approximation est admise si nθ ≥ 5.
Une autre méthode∗
Pour de petites valeurs du niveau α, les inégalités de grandes déviations (1.5),
donnent un autre moyen d’obtenir des intervalles de confiance asymptotiques
[X − − , X + + ], où ± sont déterminés de sorte que
∗
(X−− ) ∗
(X++ )
e−ng + e−ng uα
1.7. CONTRÔLE DE QUALITÉ 15
donc u0 ≤ · · · ≤ un . Pk
a) Soient θ0 < θ1 , posons c = uk , π = Pθ0 (S ≤ k) = x=0 Pθ0 (S = x).
Ainsi (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π ≤ 0 en raison du point b). Notons que
Pθ1 (S ≤ k) − Pθ0 (S ≤ k) = Pθ0 (S > k) − Pθ1 (S > k), sommer en x permet de
conclure :
n
X
∆ ≡ (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π
x=0
k
X n
X k
X n
X
= pθ1 (x) − π pθ1 (x) − c pθ0 (x) + cπ pθ0 (x)
x=0 x=0 x=0 x=0
k
X
= π pθ1 (x) − π − cπ + cπ
x=0
k
X
= pθ1 (x) − π ≤ 0.
x=0
P(Y ≤ ϕα ) = Φ(ϕα ) = α
Remarques
– Ce théorème n’a rien d’optimal car l’exposant 81 peut être remplacé par 12
(voir Petrov, 1975).
– Il permet cependant de valider l’approximation gaussienne lorsque le pro-
duit nθ est grand. L’heuristique indiquée par la simple approximation
Poissonnienne du début de la section est ainsi confirmée.
En statistique, on se contente traditionnellement de supposer
nθ ≥ 5.
000
La formule de Taylor implique alors que |∆k | ≤ kf 6k∞ E|Xk |3 + E|Yk |3 . Pour
3/2
conclure, on note que E|Yk |3 = E|Z|3 EXk2 pour Z ∼ N (0, 1), normale
2 3/2
standard ; l’inégalité de Hölder implique EXk ≤ E|Xk |3 et une intégration
3 4
par parties permet de voir que E|Z| = 2π < 2.√
Preuve du théorème
p 1.3. On considère les variables iid X1 , . . . , Xn définies par
Xi = (bi − θ)/ nθ(1 − θ), pour une suite de binomiales iid b1 , b2 , . . . ∼ b(θ)
alors Eθ b3i = Eθ bi = θ et par convexité de x 7→ |x|3 , il vient aisément que
Eθ |bi − θ|3 ≤ 22 Eθ b3i + θ3 ≤ 8θ.
Soit 0 < θ ≤ 1 − , alors pour f ∈ C 3 , on obtient avec le lemme 1.2, et pour
Z ∼ N (0, 1) :
!
n
Sn − nθ kf 000 k X 4kf 000 k∞ 1
∞
∆n (f ) = Eθ f p − f (Z) ≤ E|Xi |3 ≤ √
3
nθ(1 − θ) 2 i=1
2 nθ
∆n (fu,η ) + P(Z ∈ [u, u − η]) ≤ ∆n,θ (u) ≤ ∆n (fu,η ) + P(Z ∈ [u, u + η])
et donc
1
∆n,θ (u) ≤ C √ +η ,
η 3 nθ
pour une constante indépendante de n, η, et θ. Le choix η = (nθ)−1/8 permet
de conclure. n2 m
Chapitre 2
19
20 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES
bornée,
Z n Z b
1X
g(x)dµn (x) = g(λi,n ) → g(x)p(x)dx, p.s.
R n i=1 a
Exemples de modèles.
– Soit (πθ )θ∈Θ une famille de lois sur R. Dans ce cas particulier, on sait qu’il
suffit de donner la fonction de répartition Fθ de πθ . Pour chaque θ il existe
une probabilité Pθ sur un espace probabilisable assez riche (ici Ω = [0, 1],
muni de sa tribu borélienne, suffira) telle que, pour chaque entier n, on
détermine une suite de variables aléatoires
pθ (x)
dν(θ| x) = R dν(θ)
p 0 (x)dν(θ0 )
Θ θ
`(d, θ) = 0 ⇔ d = d(θ)
e
2.4. DÉCISION STATISTIQUE 23
Lorsque ν désigne une loi sur Θ (équipé d’une tribu . . .), le risque bayésien
associé s’écrit Z
Rν (δ) = dν(θ)Rθ (δ)
Θ
ce qui permet aussi de classer de façon bayésienne de telle règles de décision.
Le résultat suivant est une justification de l’introduction à la statistique
bayésienne.
Proposition 2.1 Soit Θ un espace discret tel que la loi ν charge chaque point
(de Θ). Un estimateur bayésien (i.e. minimisant le risque de Bayes) est admis-
sible.
Si Θ ⊂ Rd est un ensemble de mesure de Lebesgue non nulle, λd (Θ) 6= 0.
Supposons que ν soit une mesure absolument continue par rapport à la mesure
de Lebesgue λd (on écrit ainsi dν(θ) = n(θ)dλd (θ) avec une densité n sur Θ).
Si sa densité est continue et vérifie n(θ) 6= 0, λd − p.s., le même résultat vaut
encore.
Preuve. Raisonnons pas l’absurde. Si la règle de décision δ n’est pas admissible,
il existe une règle de décision δ ∗ telle que Rθ (δ ∗ ) ≤ Rθ (δ) et telle qu’existe
θ∗ ∈ Θ vérifiant Rθ∗ (δ ∗ ) < Rθ∗ (δ). Par sommation sur θ,
X X
Rθ (δ ∗ )ν({θ}) < Rθ (δ)ν({θ})
θ∈Θ θ∈Θ
2.5 Quantiles
Ces quantités sont d’un intérêt essentiel pour juger de la qualité des procédures
statistiques, c’est pourquoi nous les présentons dans une section à part.
Définition 2.1 xα tel que P(X < xα ) = α est (un) α−quantile de la loi PX de
X.
Remarques.
– La continuité à droite s’écrit F (x) = limy→x+ F (y). L’existence de la li-
mite à droite suit, elle, automatiquement du fait que F soit croissante car
limy→x− F (y) = supy<x F (y).
– F est continue au point x si et seulement si x n’est pas un atome de la loi
de X. Lorsque F est continue en tout point (la loi de X est continue) et
strictement croissante (la probabilité que X soit dans un intervalle ouvert
2.5. QUANTILES 25
non vide quelconque est non nulle), alors F est une bijection sur son image
(F −1 coı̈ncide avec son inverse généralisée) et
Modèles Statistiques
27
28 CHAPITRE 3. MODÈLES STATISTIQUES
∀ θ1 , θ2 ∈ Θ : Pθ1 = Pθ2 ⇒ θ1 = θ2 .
R, contrairement aux ensemble P(R) des parties de R ou à celui de toutes les applications de
[0, 1] dans lui-même. Par exemple, on peut établir une surjection de R → F , l’ensemble des
fonctions de répartition sur R. De telles fonctions sont croissantes et continues à droites avec
une limite à gauche ; elles sont donc déterminées par leurs valeurs en tout point rationnel, il
suffit donc de définir une surjection de R dans l’ensemble des suites de réels pour conclure.
3.2. VRAISEMBLANCE 29
Exemples :
– Pour un échantillon gaussien iid, ξ1 , . . . , ξn ∼ N (0, σ 2 ), on pose Xk =
aekb +ξk pour k = 1, . . . , n, c’est-à-dire Pθ = N (aeb , σ 2 )×· · ·×N (aekb , σ 2 )
et θ = (a, b, σ 2 ) ∈ R2 × R+ . Le modèle est identifiable lorsque n ≥ 2 et
non identifiable si n = 1 car (a, b, σ 2 ) 6= (aeb , 0, σ 2 ) bien que ces deux
paramètres conduisent à la même valeur de Pθ .
– Modèle Tobit. Ici Xi = 1{ξi >0} pour une suite iid et gaussienne, ξ1 , . . . , ξn ∼
N (µ, σ 2 ) ainsi Xi ne prend que deux valeurs et
n
X
Pθ X = (x1 , . . . , xn ) = Psθ (ξ1 > 0) 1 − Pθ (ξ1 > 0 )n−s ,
s= xi
i=1
3.2 Vraisemblance
Définition 3.3 Le modèle (Pθ )θ∈Θ est dominé par la mesure µ (positive et
sigma-finie sur (E, E)) si
∀A ∈ E : µ(A) = 0 ⇒ Pθ (A) = Pθ (X ∈ A) = 0
(on note Pθ µ), alors Pθ (dx) = pθ (x)µ(dx). On appelle pθ (x) la densité de
la loi Pθ de X.
La vraisemblance du modèle est alors θ 7→ Vθ (x) = pθ (x) ou, plus sou-
vent la fonction aléatoire θ 7→ Vθ (X) = pθ (X). On note Lθ (x) = log pθ (x) sa
log −vraisemblance.
et
Lθ (x1 , . . . , xn ) = log fθ (x1 ) + · · · + log fθ (xn ).
Exemples.
– Dans un modèle iid N (µ, σ 2 ),
( n
)
1 X (Xi − µ)2
Vθ (X1 , . . . , Xn ) = n exp −
(2πσ 2 ) 2 i=1
2σ 2
Ainsi le modèle gaussien (si σ 2 > 0) et le modèle de Bernoulli (si θ ∈]0, 1[), sont
homogènes ; le modèle uniforme U [0, θ] d’une variable uniforme sur l’intervalle
[0, θ] est dominé par la mesure de Lebesgue (lorsque θ > 0) et il n’est pas
homogène car U [0, θ] U [0, θ0 ] ⇔ θ ≤ θ0 .
3.3 Exhaustivité
Définition 3.5 Soit (Pθ )θ∈Θ un modèle µ−dominé. La statistique T : (E, E) →
(F, F) est exhaustive si on peut écrire pθ (x) = gθ (T (x))h(x) pour des fonctions
mesurables gθ : F → R+ et h : E → R+ .
Exemples.
2
PnN (µ, σ ), 2la statistique
– Dans le modèle iid Pn T (x) = (s2 , x) est exhaustive,
1 1
si on note x = n i=1 xi et s = n i=1 (xi − x)2 , car on peut écrire
1 nµ 2
e− 2σ2 e− 2σ2 (s −2µx)
n
Vθ (x1 , . . . , xn ) = n
(2πσ 2 ) 2
– Dans le modèle iid b(θ), x est encore une statistique exhaustive car
– Dans le modèle iid U [0, θ] uniforme, M (X) = maxi Xi est exhaustive car
on peut écrire
Définition 3.6 La statistique T ? est exhaustive minimale si, pour toute statis-
tique exhaustive il existe h mesurable telle que T ? = h ◦ T .
4. Nous faisons ici un abus de notation en assimilant les lois gaussiennes Nd sur Rd à celles
définies sur un espace vectoriel réel F de dimension d.
3.4. MODÈLE EXPONENTIEL 33
Soit, par exemple, X1 , . . . , Xn iid ∼ N (θ, 1), alors T (X) = X est complète ce
qui permet de redéduire l’indépendance de S et X.
Au contraire soient X1 , . . . , Xn iid ∼ U θ − 12 , θ + 12
suivant une loi
uniforme sur un intervalle de longueur 1. Posant m(x) = min{x1 , . . . , xn } et
M (x) = max{x1 , . . . , xn }, on prouve que la statistique T = (M, m) est exhaus-
tive et minimale mais pas complète alors que S = M − m est libre et n’est, bien
entendu, pas indépendante de T .
Exemples
– Pour le modèle binomial, B(n, θ), on note λ = log θ/(1 − θ).
– Pour le modèle de Poisson, P(θ), on a pθ (x) = e−θ ex log θ /x! donc λ = log θ.
2 2 2
– Pour le modèle gaussien N (µ, σ 2 ), la densité s’écrit C(µσ 2 )eµ/σ x−x /2σ
2 2 2
donc T (x) = (x, −x /2) donne lieu à λ = (µ/σ , σ ).
Théorème 3.2 Si pλ (x) = LT1(λ) eλ·T (x) avec LT (λ) = E eλ·T (x) dµ(x) pour
R
∂2
Eλ T (X) = ∇h(λ), et Var λ T (X) = h(λ)
∂λi ∂λj 1≤i,j≤d
Z
h(λ) λ·T (x)
∇h(λ)e = Ti (x)e dµ(x)
E 1≤i≤d
et, pour 1 ≤ i ≤ d,
∂2
Z
∂ ∂
h(λ)eh(λ) + h(λ) h(λ)eh(λ) = Ti (x)Tj (x)eλ·T (x) dµ(x)
∂λi ∂λj ∂λi ∂λj E
ce qui permet de conclure pour les premières relations ; la convexité suit simple-
ment de l’application de l’inégalité de Hölder.
5. L’analycité est l’extension de la notion usuelle sur C ; elle signifiera, pour nous, l’existence
P k1 kd
d’un développement en série, k1 ,...,kd ≥0 ck1 ,...,kd λ1 · · · λd . Elle peut aussi être formulée
dans les mêmes termes que pour le cas unidimensionnel (voir Cartan, Théorie élémentaire des
fonctions analytiques, Hermann, 1961).
3.4. MODÈLE EXPONENTIEL 35
Estimation
37
38 CHAPITRE 4. ESTIMATION
Dans ce cadre, sans biais, la notion d’optimalité d’un estimateur (vectoriel) est
un peu modifiée.
Q∆ (u) = ut ∆u, ∀u ∈ Rk
La matrice symétrique est alors dite positive lorsque Q∆ (u) ≥ 0 pour tout
u ∈ Rk , elle est définie lorsque Q∆ (u) 6= 0 pour tout u 6= 0.
Pour bien comprendre le sens de ces définitions, il semble bon de rappeler
que toute matrice ∆ symétrique est diagonalisable en base orthonormale. En
termes matriciels, il existe une matrice orthogonale U (i.e. U t U = U U t = Ik )
telle que U t ∆U soit une matrice diagonale. Si λ1 , . . . , λk désignent les valeurs
propres de ∆ qui apparaissent donc sur la diagonale de la matrice précédente,
la matrice ∆ est positive si λ1 ≥ 0, . . . , λk ≥ 0, et elle est définie positive si
λ1 > 0, . . . , λk > 0.
Un critère de positivité des matrices symétriques repose sur le fait que ses
mineurs principaux soient positifs (déterminants obtenus en sélectionnant les j
premières lignes et les j premières colonnes de ∆ pour j = 1, 2, . . . , k).
∂ 1 ∂
Preuve. En remarquant que Lθ (x) = pθ (x), on calcule
∂θi pθ (x) ∂θi
∂2 1 ∂2 ∂ ∂
Lθ (x) = pθ (x) − Lθ (x) · Lθ (x)
∂θi ∂θj pθ (x) ∂θi ∂θj ∂θi ∂θj
Cette relation intégrée par rapport à la loi Pθ donne le résultat car, par inter-
version de dérivées et d’intégrales,
∂2 ∂2
Z
1
Eθ pθ (X) = pθ (x)µ(dx) = 0.
pθ (X) ∂θi ∂θj ∂θi ∂θj
Exemples.
– Pour un modèle uniforme iid, X1 , . . . , Xn ∼ U [0, θ], la dérivabilité de
θ 7→ pθ (x) n’est pas assurée au point θ = maxi xi . Ce modèle n’est donc
pas régulier.
– Si X1 , . . . , Xn sont iid de loi de Poisson P(θ) (θ > 0), la log −vraisemblance
du modèle correspondant à n = 1 s’écrit Lθ (x) = −θ + x log θ − log x!
(ici pθ (x) = e−θ θx /x!). Par suite ∂θ ∂
Lθ (x) = −1 + x/θ. Donc I(θ) =
2
Varθ (−1 + X1 /θ) = Varθ X1 /θ = 1/θ.
– Si X1 , . . . , Xn iid sont de loi gaussienne N (µ, σ 2 ) avec µ ∈ R et σ 2 > 0,
on calcule encore l’information pour n = 1. On note à cet effet que
(x − µ)2 1
Lθ (x) = − − log(2πσ 2 ),
2σ 2 2
et on calcule,
∂ µ−x
Lθ (x) = ,
∂µ σ2
∂ (x − µ)2 1
Lθ (x) = − 2 , et
∂σ 2 2σ
4 2σ
1
σ 2 0
I(θ) =
0 4σ1 4
4.3. BORNE DE CRAMER RAO 41
f 02
Z
I(θ) = est appelée information de Fisher de f et notée I(f ).
f
Définition 4.6 Un estimateur T (X) de g(θ) est dit régulier, dans un modèle
régulier (E, E, pθ (x)dµ(x))θ∈Θ , lorsque Varθ T (X) < ∞ et
Z
∂ ∂
Eθ T (X) = T (x) pθ (x)dµ(x), j = 1, . . . , d
∂θj ∂θj
Théorème 4.2 (Cramer & Rao) Soit T (X) un estimateur sans biais et ré-
gulier de g(θ) ∈ Rk , alors
Notations. Posons
g1 (θ) ∂g1 ∂g1
... ∂θ1 (θ)
... ... ∂θd (θ)
... . .. ... ...
... ,
g(θ) = alors ∇g(θ) =
...
... ... ... ...
∂gk ∂gk
g1 (θ) ∂θ1 (θ) . . . . . . ∂θd (θ)
rapport à la variable θ. R
Remarquons que la relation pθ (x)dµ(x) ≡ 1 permet de déduire que
Z Z
Eθ ∇ log pθ (X) = ∇pθ (x)dµ(x) = ∇ pθ (x)dµ(x) = 0
R
De plus, Rla relation g(θ) = Eθ T (X) = T (x)pθ (x)dµ(x) implique l’identité
∇g(θ) = T (x)∇pθ (x)dµ(x), donc
Enfin
Varθ ∇ log pθ (X) = I(θ).
Preuve du théorème 4.2 dans le cas k = d = 1. A présent on écrit
Z
d
ġ(θ) = T (x)ṗθ (x)dµ(x) = Eθ T (X) log pθ (X) = Eθ T L̇θ (X)
dθ
Exemples.
– Dans le modèle de Poisson iid, l’estimateur X est efficace pour estimer le
paramètre θ.
– Dans le modèle iid N (µ, σ 2 ), l’estimateur X, sans biais de g(θ) = µ est
efficace. Pn
1
Par contre, l’estimateur sans biais σ b2 = n−1 2
i=1 (Xi − X) n’est pas
efficace.
Enfin, on prouvera (en exercice) que T (X) = n1 i Xi2 estime efficacement
P
le paramètre g(θ) = µ2 + σ 2 dans ce modèle.
4.4 Optimalité
Lemme 4.2 Si T est efficace pour estimer g(θ) alors AT + b est efficace pour
ag(θ) + b pour A matrice m × k et b ∈ Rm quelconques.
Ainsi, on prouve que σ 2 n’est pas estimable efficacement dans le modèle gaussien
iid ∼ N (µ, σ 2 ).
Théorème 4.4 (Lehmann & Sheffé) Soit S(X) une statistique exhaustive
et complète, alors un estimateur de la forme T = h ◦ S(X) est optimal parmi
les estimateurs sans biais de g(θ).
Remarques.
– Soit S(X) une statistique exhaustive et complète. Si U est un estimateur
sans biais et de carré Pθ intégrable alors h(S) = Eθ (U |S) est optimal,
de variance minimum parmi les estimateurs sans biais, uniformément par
rapport à θ. Cet estimateur est aussi unique, la manière précédente de
l’obtenir est sans doute la plus simple dans la pratique.
– Soit T1 (X), estimateur sans biais optimal de g(θ), alors Te1 (S(X)) est
optimal d’après le théorème 4.1.
– Notons qu’un estimateur efficace est optimal parmi les estimateurs sans
biais et réguliers mais qu’un tel estimateur n’existe pas toujours. Concluons
avec deux exemples ; des modèles exponentiels seront envisagés dans le
§ 4.5.
– Ainsi, avec la statistique exhaustive complète S(X) = X, X 2 , pour
1
le modèle iid gaussien N (µ, σ 2 ), la statistique V 2 = n−1 2
P
i (Xi − X)
2 2
est optimale alors que sa variance σ /(n − 1) > σ /n dépasse la borne
FDCR : il est sans biais et pas efficace. Par contre σ 2 + µ2 est estimé
efficacement par X 2 .
– De même l’estimateur du maximum de vraisemblance θb = 1/X, dans le
modèle exponentiel iid de paramètre θ (ici fθ (x) = θe−θx1I{x≥0} ) n’est
pas efficace. En effet, ce paramètre ne peut être efficacement estimé car il
n’est pas fonction affine du paramètre naturel de ce modèle exponentiel
λ = θ1 .
Preuve.(⇒) L’égalité est obtenue dans l’inégalité de (4.1) lorsqu’il existe des
fonctions a(θ) et b(θ) telles que
ṗθ (x) = a(θ)T ∗ (x) + b(θ)
Pour montrer que cette identité vaut ∀θ ∈ Θ, Pθ −p.s. on a besoin de la séparabilité
de Θ et de la continuité des fonctions en jeu.
∗
(⇐) On peut supposer que `(θ) ≡ θ. Alors B(θ) = log h(x)eθT (x) dµ(x) et
R
ment (β, σ 2 ) et on a :
4.5. MODÈLE EXPONENTIEL 45
Théorème 4.6 (Gauss & Markov) L’estimateur des moindres carrés ordi-
naires βb = (z t z)−1 (z t X) est optimal parmi les estimateurs linéaires sans biais
de β, et sa variance vaut σ 2 (z t z)−1 .
Preuve. Un autre estimateur linéaire s’écrit βe = AX, le fait qu’il soit sans biais
montre que Eθ βe = Azβ = β donc Az = Id , d’autre part
e = Covθ (z t z)−1 z t X, (z t z)−1 z t X − AX
b βb − β)
Covθ (β,
= σ 2 (z t z)−1 z t X, (z t z)−1 z t X − AX = 0
Ainsi
Varθ βe = Varθ βb + Varθ (βe − β)
b > Varθ βb
d
Ici θ ∈ Θ = (R+∗ ) est donc bien dans un ouvert et posant X = (X1 , . . . , Xn )
on calcule
∂A neθj
= Pd = nEθ Tj (X),
∂θj 1+ i=1 eθi
Pd
∂2A 1 + i=1 eθi − eθj
= neθj 2 = nλj (1 − λj ) = Varθ Tj (X)
∂θj2 Pd
1 + i=1 eθi
n θ2
Varθ M = 2 .
(n + 1) n + 2
Proposition 4.4 2X1 estime θ sans biais ; c’est aussi le cas pour T = Eθ (2X1 |M )
qui est préférable à 2X1 .
Preuve. L’équation (4.2) avec n = j = 1 prouve que 2X1 estime θ sans biais et
Varθ (2X1 ) = θ2 /3. La formule de Bayes prouve que
n
X
Eθ (X1 |M ) = tj , tj = Pθ (M = Xj ) · Eθ (X1 |M = Xj )
j=1
Rθ (M ) = Eθ (M − θ)2
= Var θ M + (Eθ M − θ)2
θ2 n2
= 1+
(n + 1)2 n+2
θ 2 n2 + n + 2
=
n + 2 (n + 1)2
< Rθ (T ).
2 1
EkX − θk2 − kθe − θk2 = − E(X − θ) · g(X) − 2 Ekg(X)k2
n n
k
2 X ∂gj 1
= − E (X) − 2 Ekg(X)k2
n j=1 dxj n
4.7. ESTIMATEUR DE STEIN 49
∂
Lorsque g = ∇ log h = ∂xj log h pour une application h : Rk → R,
1≤j≤k
presque sûrement deux fois différentiable, on écrit d’abord
k k
X ∂ X ∂ 1 ∂h ∆h
gj = = −kgk2 +
j=1
∂x j j=1
∂x j h ∂xj h
∂2h
Pk
(où ∆h = j=1 ∂x2j ), la relation précédente s’écrit ainsi
1 ∆h 1
EkX − θk2 − kθe − θk2 = − E (X) + 2 Ekg(X)k2
n h n
≥ 0
Méthodes d’estimation
Ces méthodes sont classées en deux catégories, celles fondées sur la minimisation
d’un contraste et celles fondées sur la loi des grands nombres, dont la justification
réside dans les propriétés asymptotiques précisées au chapitre suivant.
Ce chapitre est donc divisé en trois sections dont les deux premières sont dédiées
aux techniques d’estimation, une dernière section introduit les méthodes de
calcul de ces estimateurs.
Lorsque X ∼ Pθ0 , l’estimateur ρ(X, θ) estime donc sans biais la fonction g(θ0 ) =
D(θ0 , θ) (pour chaque θ ∈ Θ). Quand on ne dispose que de la réalisation X de
l’expérience statistique, il est donc raisonnable d’estimer le vrai paramètre θ0
par une valeur θ(X)
b qui minimise le contraste θ 7→ ρ(X, θ) (lorsque ce minimum
est atteint). On préférera que ce minimum soit atteint en un unique point pour
éviter des complications liées à la mesurabilité.
θ(X)
b = Argminθ∈Θ ρ(X, θ) (5.1)
∇ρ(X, θ(X))
b =0 (5.2)
51
52 CHAPITRE 5. MÉTHODES D’ESTIMATION
Xi = g(β, zi ) + ξi , i = 1, . . . , n (5.3)
Le plan d’expérience est donc déterministe et connu ou, ce qui revient au même,
on travaille conditionnellement à ce plan d’expérience. Notons qu’ici les variables
X1 , . . . , Xn sont indépendantes mais naturellement pas équidistribuées.
En toute rigueur, il s’agit d’un modèle semi-paramétrique avec θ = (β, π)
pour lequel la loi π de ξ1 est un paramètre de nuisance, mais nous l’oublierons
un peu à présent, et nous ne retiendrons comme paramètre que θ = (β, σ 2 ) ∈
Rd × R+ .
Le modèle est donc paramétré par β ∈ Rd ; l’observation X suit ainsi une loi
Pθ0 et l’espace des paramètres s’écritpΘ = Rd × R+ ⊂ Rd+1 . Munissant Rn de sa
norme euclidienne k(x1 , . . . , xn )k = x21 + · · · + x2n , le contraste des moindres
carrés est alors
n
X
ρ(θ, X) = kX − µk2 = (Xi − g(β, zi ))2 , (5.4)
i=1
est l’un des estimateurs des moindres carrés. Un exemple important est le cas
où F = Rd et g(β, z) = β · z.
Posant zit = (zi,1 , . . . , zi,d ) pour 1 ≤ i ≤ n, les équations précédentes
s’écrivent,
n d n
!
X X X
Xi zi,j = zi,k zi,j βbk , j = 1, . . . , d
i=1 k=1 i=1
Z t X = (Z t Z)βb
Définition 5.2 Soient P, Q deux lois sur (E, E), on appelle information de
Kullback, l’expression Z
p
K(P, Q) = log dP
q
54 CHAPITRE 5. MÉTHODES D’ESTIMATION
Lemme 5.1 (Shannon) K(P, Q) ≥ 0 et, pour toute mesure dominante telle
que P = pµ et Q = qµ,
Preuve. Posons Z = q/p, g(z) = − log z est convexe, alors l’inégalité (1.3) de
Jensen (non conditionnelle) s’écrit
Z Z
K(P, Q) = g(Z) dP ≥ g E Z dP = g(1) = 0
Corollaire 5.1 L’expression (5.5) définit un contraste pour tout modèle iden-
tifiable.
pθ (X)
D(θ0 , θ) − D(θ0 , θ0 ) = −Eθ0 log = K(Pθ0 , Pθ ) ≥ 0
pθ0 (X)
∇A(θ) = Eθ T (X) = t0
Ce résultat est admis et il se trouve, avec une réciproque, dans Bickel et Doksum
(page 123).
Notons C le support de la loi de T (X) ( 1 ), lorsque t0 ∈ C ◦ , est intérieur à C,
alors θb existe et il est unique car dire qu’il est intérieur à C signifie que la masse
de la loi de T (X) n’est pas située entièrement d’un seul coté d’un demi-espace
de Rd à la frontière duquel se trouve t0 ; il existe ainsi c 6= 0 tel que les ensembles
{t ∈ Rd | c · t > c · t0 } ∩ C {t ∈ Rd | c · t < c · t0 } ∩ C sont ouverts et disjoints
(donc de masses non nulles).
P 2
Exemple. Dans le modèle gaussien iid N (µ, σ 2 ), T (X) =
P
i Xi , i Xi et
C = R × R+∗ et l’EMV existe toujours ; lorsque n = 1, C ◦ = ∅ car T (X) se
trouve alors sur la parabole T12 = T2 .
Remarques.
– Si θ 7→ λ(θ) est une bijection Θ → Λ, le changement de variable corres-
pondant ne modifie pas les énoncés d’existence de l’EMV.
– Un EMV est fonction de toute statistique exhaustive.
– Dans le modèle multinomial 4.5.4, on a T (X) = (t1 /n, . . . , tk /n) où tj
désigne le nombre d’occurrences de 1 ≤ j ≤ k dans le n-échantillon iid
X1 , . . . , Xn de loi Pλ (Xi = j) = λj avec λ1 + · · · + λk = 1. La loi de
T (X) a donc pour support le simplexe de Rk qui est d’intérieur vide, par
conséquent l’EMV n’existe pas.
1. C est le plus petit sous ensemble fermé vérifiant Pθ (T (X) ∈
/ C) = 0.
56 CHAPITRE 5. MÉTHODES D’ESTIMATION
5.2 Moments
Supposons observé un échantillon X1 , . . . , Xn iid, de loi Pθ , pour un pa-
ramètre θ identifiable. On s’intéresse à l’estimation d’un paramètre de la forme
µ = g(θ) = Eθ G(X1 )
alors la réponse empirique est la solution issue de la loi des grands nombres :
n
1X
µ
b= G(Xi )
n i=1
Exemples.
– Lois Γ. Si X1 ∼ Γ(α, λ), la loi de densité λα xα−1 e−λx /Γ(α) sur R+ (avec
R∞ 2
Γ(α) = 0 xα−1 e−x dx), alors θ = (α, λ) ∈ (R+∗ ) est estimé en posant
µj = Eθ X1j pour j = 1, 2. Le calcul prouve que µ1 = α/λ et µ2 = σ 2 +µ21 =
α(1+α)/λ2 . L’estimation de ces paramètres par moments s’écrit donc, avec
n n
1X 1X
X = Xi , b2 =
σ (Xi − X)2
n i=1 n i=1
2
X b= X
α = 2
, λ
b2
b
σ
b σ
– Fréquences. Dans le modèle multinomial 4.5.4, on pose
Exemples.
– Le α−quantile d’une loi s’estime par
n
1X
bα = Fn−1 (α), avec Fn (x) =
x 1I{Xi ≤x} = Pn ([x, +∞[)
n i=1
Ici Pt désigne le prix du produit, et ui , vi sont deux suites centrées et iid. Enfin
Zi est une variable extérieure au marché (exogène), c’est-à-dire indépendante
de (uj , vj )1≤j≤n , par suite EZi ui = EZi vi = 0. La première relation s’écrit, par
exemple
EZi (Di − βPi ) = 0
Un estimateur de β inspiré de la loi des grands nombres s’écrit alors
Pn
Zi Di
βb = Pi=1
n
i=1 Zi Pi
5.3.1 Dichotomie
Soit f : [a, b] → R, une application strictement croissante et continue ; si
f (a) < 0 < f (b) alors f admet une unique racine x? ∈]a, b[ (vérifiant f (x? ) = 0).
La manière la plus naı̈ve d’approcher une racine de f est l’antique méthode
de dichotomie dont on décrit sans difficulté une étape.
0
Si f a+b
2 > 0, on pose a = a et b0 = a+b 0 a+b
2 et, sinon, on pose a = 2 et
0
b = b.
On initie alors le procédé en posant a0 = a, b0 = b, et si (an , bn ) = (a, b) (à
l’étape n) on posera (an+1 , bn+1 ) = (a0 , b0 ),. . .
La suite (an , bn ) construite par ce procédé vérifie
an ≤ x? ≤ bn , bn − an ≤ 2−n (b − a)
Exemple Une situation de ce type est fournie par le modèle iid Γ, tel que
pθ (x) = [Γ(θ)]−1 xθ−1 e−x . Ici Γ0 (θ)/Γ(θ) = T (X)/n et la fonction Γ est évaluée
par les méthodes d’intégration numériques standard ; méthodes de Newton Cotes
(par exemple celles des rectangles, des trapèzes, ou de Simpson) ou celle de Gauss
(dont les noeuds sont les racines de suites de polynômes orthogonaux, typique-
ment ceux de Tchebichev : Tn (cos x) = cos nx). On peut consulter Doukhan
Sifre, tome 1, §7-4, page 268 à ce sujet.
En dimension 1, on écrit
ṗθ (θb0 )
θb1 = θb0 − .
p̈θ (θb0 )
Preuve. On pourra se reporter à Ciarlet, page 158 pour cet énoncé ou à
Doukhan-Sifre 1, page 205, pour des raffinements de cet énoncé sans usage de
dérivée seconde dans le cas de la dimension 1.
−1
Exemple. La loi logistique de fonction de répartition Fθ (x) = 1 + e−(x−θ)
−2
vérifie fθ (x) = e−(x−θ) 1 + e−(x−θ) . L’estimateur du maximum de vraisem-
blance fondé sur un n-échantillon iid est calculé avec
n
X n
X
p̈θ (θ) = n − 2 e−(Xj −θ) Fθ (Xj ), ṗθ (θ) = −2 fθ (Xj ) < 0.
j=1 j=1
5.3.4 Algorithme EM
Nous considérons ici l’unique exemple d’un mélange de deux lois gaussiennes.
Soit φσ (s) la densité de la loi N (0, σ 2 ), on pose θ = (λ, σ1 , µ1 , σ2 , µ2 ) ∈ [0, 1] ×
(R × R+∗)
2
∂ ∂
ceci permet de justifier la méthode car ∂θ J(θ|θ0 ) = ∂θ log qθ0 (s). On prouve de
plus que qθ1 (s) ≥ qθ0 (s) pour prouver la consistance de la limite de la suite θr
construite ainsi.
Asymptotique en estimation
6.1 Consistance
6.1.1 Méthodes empiriques
Soit k · k une norme fixée sur Rp , son risque quadratique s’écrit
Exemples
– X = (X1 + · · · + Xn )/n estime g(θ) = Eθ X1 sans biais et avec le risque
Rθ = Eθ (X − g(θ))2 = Varθ X1 /n →n→∞ 0.
– Ordonnons l’échantillon X1 , . . . , Xn de manière croissante comme statis-
tiques d’ordre (bien définies pour des lois Pθ sans atome),
min{X1 , . . . , Xn } = X(1) < X(2) < X(3) < · · · < X(n) = max{X1 , . . . , Xn }.
moins agréable dans ce cas ; ainsi, dans le cas le plus simple d’échantillons
63
64 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION
k
où gk+1 (x) = nC2k F k (x)(1 − F k (x))f (x) désigne la densité marginale de
la médiane empirique (cf. proposition 9.8). Cette dernière expression, peu
commode, conduit à donner des définitions générales couvrant aussi les
exemples pour lesquels il n’y a pas d’expression explicite.
P
Tn →θ n→∞ g(θ) i.e. ∀ > 0, θ ∈ Θ : Pθ (kTn − g(θ)k ≥ ) →n→∞ 0
Exemples
– Par la loi (faible) des grands nombres, X estime Eθ X1 de manière consis-
tante. Lorsque la loi Pθ est sans atome et que l’application θ 7→ Pθ (A)
est continue pour tout borélien A ⊂ R, la convergence est localement
uniforme.
– Si Pθ = M(k, θ1 , . . . , θk ) est une loi multinomiale de paramètre θ ∈
Θ = {(θ1 , . . . , θk ) ∈ (R+ )k | θ1 + · · · + θk = 1} (simplexe de Rk ), c’est
àPdire Pθ (Xj = i) = θi pour i = 1, . . . , k et j = 1, . . . , n. Posons Nj =
n
i=11I{Xi =j} , le nombre d’occurrences de i dans la suite X1 , . . . , Xn . Alors
N1 Nk
θbn = ,...,
n n
Preuve. Soient , δ > 0, on pose Bn = (supθ |ρn (θ) − D(θ, θ0 )| > δ/2) et
An = inf (ρn (θ) − ρn (θ)) − inf D(θ, θ0 ) ≤ −δ .
kθ−θ0 k≥ kθ−θ0 k≥
Preuve. Cet énoncé suit du théorème 6.1 car le lemme 5.1 de Shannon prouve
que ρ(x, θ) = − log pθ (x) est un contraste.
66 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION
Théorème 6.2 Soit h : R → R une fonction de classe C m telle que kh(m) k∞ <
∞ et E|X1 |m < ∞. On pose µ = EX1 et X = n1 (X1 + · · · + Xn ), alors il existe
une constante Cm > 0 ne dépendant que de m telle que
m−1
X h(j) (µ) Cm
Eh(X) = h(µ) + E(X − µ)j + Rm , |Rm | ≤ √ m kh(m) k∞ E|X1 |m .
j=1
j! n
Lemme 6.1 Il existe des constantes Cj > 0 pour tout j = 1, 2, 3, . . . telles que
j j −j/2
E|X − µ| j≤ Cj E|X1 | nj −(j+1)/2
et
E(X − µ) ≤ Cj E|X1 | n si j est impair.
ce qui prouve que l’on peut supposer la loi de X1 symétrique. Soient à présent
une suite de signes indépendants, 1 , . . . , n tels que P(j = ±1) = 21 alors si
x1 , . . . , xn ∈ R, l’inégalité de Jensen implique
j
n
j
n
j+1 j+1
n
! 2j
X X j X
i xi ≤ E i x i j+1
≤ Cj+1 x2i
E
i=1 i=1 i=1
n
! 2j
j
X
E (Xi − Xi0 )2 ≤ nj/2 E |X1 − X10 | ≤ 2j nj/2 E|X1 |j
i=1
σ 2 h00 (µ)
Eh(X) = h(µ) + + O n−3/2 .
2n
1. !j+1 !(j+1)/2
n
X n
X
E Xi ≤ Cj+1 kXi k2∞ .
i=1 i=1
68 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION
Par exemple, avec h(t) = t(1 − t) et X1 ∼ b(µ), suivant une loi de Bernoulli de
paramètre µ, on a h(µ) = VarX1 et Eh(X) = E(X)2 − (EX)2 = h(µ) − n1 h(µ)
et le reste est nul.
Si m > 2 le développement obtenu est utilisé pour améliorer les qualités
asymptotiques d’un estimateur ; utiliser des estimations consistantes des termes
du développement conduit à améliorer la vitesse de convergence de l’estimateur.
Ainsi dans le cas
Pn précédent, si EX14 < ∞, l’estimateur Tn = h(X)−h00 (X)S 2 /2n
1
où S = n−1 i=1 (Xi − X) estime σ 2 sans biais satisfait
2 2
1
ETn − h(µ) = E(h00 (X) − h00 (µ)))(S 2 − σ 2 ) + O n−3/2 .
2n
Un calcul dans l’esprit du lemme 6.1 montre que E(S 2 −σ 2 )2 = O(1/n), il prouve
avec le lemme 6.1 et l’inégalité de Cauchy Shwartz que ETn − h(µ) = O n−3/2
donc le biais de cet estimateur est d’un ordre plus petit que h(X).
Lorsque la statistique considérée est une fonction de répartition empirique,
de tels développement sont appelés développements d’Edgeworth.
La conséquence la plus utile du théorème 6.2 est sans doute l’énoncé suivant
Ainsi on obtient une limite centrale dans le cas multinomial déjà évoqué Pθ =
M(k, θ1 , . . . , θk ),
√
n(h(θbn ) − h(θ)) → N (0, σ 2 ).
Preuve. Par le corollaire 6.1, l’EMV existe avec une probabilité tendant vers 1 ou
limn Pθ (θbn = [∇A(Tn )]−1 ) = 1, une variante multi-dimensionnelle du théorème
6.2 permet de conclure (voir Bickel et Doksum, page 323).
Pour conclure la section, nous envisageons maintenant le cas d’estimateurs
par minimum de contraste, cf. théorème 6.1. Une fonction de contraste est une
fonction telle que θ0 soit l’unique minimum de la fonction θ 7→ D(θ, θ0 ) =
Eθ0 ρ(X1 , θ). On suppose que Θ ⊂ R est un intervalle et
∂ρ
∀θ ∈ Θ : ψ= existe (6.1)
∂θ
6.3. EFFICACITÉ ASYMPTOTIQUE 69
Théorème 6.4 sous les hypothèses (6.1), (6.2), (6.3), (6.4), (6.5) et (6.6), on
a
n
1Xe
e θ) = − ψ(x, θ) .
θn = θ +
b ψ(Xi , θ) + oPθ n−1/2 , ψ(x,
n i=1 Eθ ∂ψ
∂θ (X1 , θ)
on a
√
n(h(θbn ) − h(θ)) → N (0, σθ2 ).
Pn
Idée de la preuve. Soit Pn = n1 i=1 δXi la mesure empirique de X1 , . . . , Xn ,
R
alors ψ(x, θbn )dPn (x) = 0. Le théorème des accroissements finis implique qu’il
existe θen tel que
n n n
1X 1X 1 X ∂ψ
ψ(Xi , θbn ) = ψ(Xi , θ) + (Xi , θen )(θbn − θ)
n i=1 n i=1 n i=1 ∂θ
La loi faible des grands nombres implique alors (après des justifications évitées
ici)
n
∂ψ 1X
Eθ (X1 , θ) + oPθ (1) (θbn − θ) + ψ(Xi , θ) = 0.
∂θ n i=1
Le théorème suit.
Corollaire 6.5 Ici ρ(x, θ) = − log pθ (x) et sous les hypothèses précédentes,
l’estimateur du maximum de vraisemblance est asymptotiquement efficace.
De plus tout estimateur régulier de minimum de contraste satisfait un théorème
de limite centrale avec une variance supérieure ou égale à 1/I(θ).
70 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION
Tests
Définition 7.1 Un test est une fonction mesurable φ : E → [0, 1], on refuse
l’hypothèse (H0 ) lorsque φ(X) = 1 et on l’accepte lorsque φ(X) = 0.
Lorsque φ prend aussi des valeurs distinctes de 0 et de 1 on parlera de test
randomisé et, lorsque φ(X) ∈]0, 1[, on rejette l’hypothèse (H0 ) avec la probabilité
φ(X).
Lorsque le test φ n’est pas randomisé, on
appelle zone de rejet du test l’en-
semble R = (φ(X) = 1) = (φ ◦ X)−1 ({1}) .
71
72 CHAPITRE 7. TESTS
Dans le cas où f est l’indicatrice d’un intervalle [k, +∞[, le test est non ran-
domisé, lorsque f (t) = 0 si t < k et f (t) = 1 pour t > k, on obtient un test
randomisé.
On accepte ici l’hypothèse (H1 ) lorsque le rapport p1 /p0 est grand, c’est-à-
dire si θ1 est plus vraisemblable que θ0 .
Il y a généralement un inconvénient moindre à décider que θ ∈ Θ0 à tort que
le contraire. Ceci est pris en compte par les définitions suivantes
Exemples.
a) Pour le modèle de Bernoulli iid X1 , . . . , Xn ∼ b(θ) (où le paramètre θ ∈
[0, 1]). Soit x = (x1 , . . . , xn ) ∈ {0, 1}n , si on pose s = x1 + · · · + xn , dans
ce cas pθ (x) = θs (1 − θ)n−s . Ainsi
n s
p1 (x) 1 − θ1 θ1 1 − θ1
=
p0 (x) 1 − θ0 θ0 1 − θ0
est une fonction croissante de s lorsque θ1 > θ0 , donc la zone de rejet est
de la forme s ≥ k.
P que S ∼ B(n, θ) suit une loi binomiale. Le niveau de ce test s’écrit
Notons
α = k≤j≤n Cnj θ0j (1 − θ0 )n−j . Pour θ1 > θ0 , on déduit que le test est sans
biais de grâce à la proposition 1.3 du chapitre 1. Cette expression prend
un nombre fini de valeurs, le niveau du test ne peut être fixé de manière
exacte dans ce cas.
Pour parvenir à fixer le niveau α d’un test on considérera un test randomisé
de la forme φ(s) = 0 lorsque s < k, φ(s) = γ lorsque s = k et φ(s) = 1
lorsque s > k. Alors l’entier k est le plus petit entier tel que (α̃ =)Pθ0 (S >
k) < α et γ est choisi en sorte d’ajuster le niveau à α. Par définition,
α̃ + Pθ0 (S = k) ≥ α et on pose γ = (α − α̃)/Pθ0 (S = k).
b) Modèle gaussien iid X1 , . . . , Xn ∼ N (θ, 1).
Pn
Dans ce cas pθ (x) = (2π)−n/2 exp − 21 i=1 (xi − θ)2 , et on pose
n
p1 (x) X n
log = (θ1 − θ0 ) xi − (θ12 − θ02 )
p0 (x) i=1
2
Pn
est une fonction croissante de x = n1 i=1 xi , lorsque θ1 > θ0 donc la zone
de rejet est de la forme [k, +∞[.
Si θ1 >Pθ0 , on rejettera donc l’hypothèse θ = θ0 lorsque la statistique
n
X = n1 i=1 Xi > k.
7.1. QUELQUES DÉFINITIONS 73
Le seul cas abordé par ce cours est celui d’observations iid dont la loi est notée
Pθ car pour toute loi sur (E, E), on peut construire une loi sur l’espace produit
(E N , E ⊗N ) dont les marginales fini-dimensionnelles sont iid et dont les marginales
d’ordre 1 ont la loi initiale.
L’exemple c) donne un cas de suite de tests convergente. Pour raffiner la
notion de consistance, on peut aussi envisager des suites d’alternatives contigües
Θn ↑ Θc0 pour lesquelles la puissance est uniformément minorée.
Dans le cas du test (H0 ) : g(θ) = γ0 sur la moyenne, on posera, pour un
λ > 0 fixé, √
Θn = {θ ∈ Θ| kg(θ) − γ0 k ≥ λ/ n}
Preuve. ? a) Ici Eθ0 φk,c (X) = α. Soit donc φ tel que Eθ0 φ(X) ≤ α, on doit
prouver que Eθ1 (φk,c (X) − φ(X)) ≥ 0. Notons que
Si φk,c (x) = 0 alors V (x) − k < 0, et si φk,c (x) = 1 alors φk,c (x) − φ(x) ≥ 0 car
φ(x) ∈ [0, 1]. Ainsi le premier terme de l’identité précédente est positif.
Notons que α > 0 implique k < ∞, par suite φk,c (x) = 1 lorsque p0 (x) = 0
et le second terme de l’identité précédente est aussi positif.
Alors Eθ1 (φk,c (X) − φ(X)) ≥ kEθ0 (φk,c (X) − φ(X)) ≥ 0,
7.2. LEMME DE NEYMAN-PEARSON 75
Pour conclure cette section, le lemme suivant nous donne une évaluation de
la différence entre puissance et niveau d’un tel test (que l’on pourrait appeler le
biais de ce test).
Exemples.
– On teste une hypothèse gaussienne simple, N (µ0 , Σ0 ) contre N (µ1 , Σ1 ) en
rejetant (H0 ) lorsque V (X) est grand. Les lois étant continues, on utilise
des tests non randomisés. La zone de rejet s’écrit
Q = (X − µ0 )t Σ−1 t −1
0 (X − µ0 ) − (X − µ1 ) Σ1 (X − µ1 ) > q (est grand)
∆t Σ−1 t −1
0 (X − µ0 ) > ϕ1−α ∆ Σ0 ∆
pθ2 (x)
Vθ1 ,θ2 (x) =
pθ1 (x)
Il existe aussi un test UPP de même nature et de niveau α pour tester l’hy-
pothèse θ = θ0 contre θ 6= θ0 (ou encore θ ∈ [θ1 , θ2 ] contre θ ∈
/ [θ1 , θ2 ]). Sa zone
de rejet est de la forme T (X) ∈]t
/ 1 , t2 [ (φ(X) = 1)) et φ(x) = ci pour T (X) = ti
(i = 1, 2).
Exemple. Le cas d’un n-échantillon gaussien √ est considéré plus haut, la zone
de rejet s’écrit (X ∈ R) = {|X − θ0 | > ϕ1−α/2 / n}.
Lemme 7.3 Quand on ne considère que des tests réguliers, dans le sens que
l’application θ 7→ Eθ φ est dérivable en θ0 (intérieur à Θ), un test tel que
d
dθ Eθ0 φ 6= 0 est LUPP au niveau α si son niveau local vaut α et si pour tout
d d
autre test ψ de même type : dθ Eθ0 φ ≥ dθ Eθ0 ψ.
Preuve. Par définition
d
Eθ φ − Eθ ψ = Eθ0 φ − Eθ0 ψ(θ − θ0 ) Eθ (φ − ψ) + o (θ − θ0 ) (si θ → θ0 ).
dθ 0
Corollaire 7.1 Tout test LUPP(α) régulier vérifie φ(x) = 1 lorsque ṗθ0 (x) >
kpθ0 (x) et φ(x) = 0 lorsque ṗθ0 (x) < kpθ0 (x). On peut aussi imposer que φ(x) =
c soit constant sur l’ensemble où ṗθ0 = kpθ0 (x).
d
Définition 7.8 Le test fondé sur la statistique Sθ0 (X) = dθ log pθ0 (X) est ap-
pelé test de score. Il rejette l’hypothèse θ ≤ θ0 pour les grandes valeurs de
Sθ0 (X).
Remarque. Le corollaire 7.1, prouve que le test du score est LUPP. Ce test
est limite de tests du type NP lorsque θ1 → θ0 .
d
Pn d
Exemple. Dans le cas iid dθ log pθ0 (X1 , . . . , Xn ) = i=1 dθ log f θ0 (Xi ) et une
région de confiance asymptotique s’écrit
v
n u n 2
X d uX d
(X ∈ R) = log f θ0 (Xi ) > t log f θ0 (Xi ) ϕ1−α
i=1
dθ i=1
dθ
Les tests de Wald fondés sur cette suite ont pour région de rejet
−1
Rn : ξnW > χ2k,1−α , avec ξnW = ng(θen )t ∇g(θen )I −1 (θen )g(θen )t g(θen )
L’exemple typique d’une suite d’estimateurs θen est celui du maximum de vrai-
semblance.
L’efficacité asymptotique de la suite d’estimateurs (θbn )n , est à la base de ces
tests, en effet
√ Pθ
n θbn − θ →0 n→∞ N (0, I −1 (θ0 ))
7.5. TESTS DU SCORE ET DE WALD 79
implique,
t Pθ
n θbn − θ I(θ0 ) θbn − θ →0 n→∞ χ2d
De plus, le théorème des extrema liés s’écrit avec le Lagrangien Ln (θ) + g(θ)t λ
donc ∇Ln (θb0,n ) + ∇g(θb0,n )t λ
bn = 0 conduit à
1 bt
ξnS = λ ∇g(θb0,n )I −1 (θb0,n )∇g(θb0,n )t λ
bn
n n
Ainsi ξnS − ξnW → 0 en Pθ −probabilité, si on prouve (cf. Monfort & Gouriéroux,
1996, page 556) :
√ √
bn / n ∼ − ∇g(θ0 )t I −1 (θ0 )∇g(θ0 ) −1 ng(θb0,n )
λ
Proposition 7.1 Sous ces hypothèses, les suites de tests de Wald et du score
sont de niveau asymptotique α et consistantes.
Preuve. Nous ébauchons le premier cas du test de Wald. Sous Pθ ,
√
n g(θen ) − g(θ) → Nk (0, A) avec A = ∇g(θ)I −1 (θ)∇g(θ)t .
√
Par suite sous Θ0 , g(θ) = 0 et on a nA−1/2 g(θen ) → Nk (0, Ik ). Ainsi ξnW =
√ −1/2 e 2
k nA g(θn )k → χ2k sous Θ0 . Les résultats en découlent.
80 CHAPITRE 7. TESTS
Chapitre 8
Tests gaussiens
pθb(x)
λ(x) = , log λ(x) = Lθb(x) − Lθb0 (x)
pθb0 (x)
81
82 CHAPITRE 8. TESTS GAUSSIENS
ce cas !
n
∂ 1 1 X n
log p θ (x) = (xi − µ0 )2 − 2 =0
∂σ 2 2 σ 4 i=1 σ
c2 avec σ
lorsque θb0 = µ0 , σ c2 + (x − µ0 )2 , car
c2 = σ
0 0
n n
1X 1X
(xi − x)2 = (xi − µ0 )2 − (x − µ0 )2
n i=1 n i=1
1 1
(xi −µ0 )2 2
P P
Par suite, le fait queb02
= b2 i (xi −x) = n implique immédiatement
2 i
σ σ
n σ
que log λ(x) = 2 log σ b2 .
b0
Pour montrer que cette variable a bien une loi de Student, Pon utilise le théorème
n1
de
Pn2 Cochran qui montre que les variables X/σ, Y /σ, i=1 (Xi − X)2 /σ 2 et
2 2
i=1 (Yi − Y ) /σ sont indépendantes et de lois respectives N (µX /σ, 1/n1 ),
N (µY /σ, 1/n2 ), χ2n1 −1 et χ2n2 −1 .
Des tests de niveau α sont obtenus pour les hypothèses
– µX = µY avec la région de rejet |Tn | > tn−2,1−α/2 ,
– µX ≤ µY avec la région de rejet Tn > tn−2,1−α ,
– µX ≥ µY avec la région de rejet Tn < tn−2,α .
On peut montrer que ces tests sont aussi ceux du rapport de vraisemblance. Le
cas de variances distinctes σX 6= σY est traité par Bickel et Doksum.
2
Sous l’hypothèse nulle Θ0 = {θ ∈ Θ| ρ = 0}, on trouve θb0 = (x, y, σ
bX bY2 , 0) et
,σ
ainsi, donc la fonction
n
log λ(x, y) = − log(1 − ρb2 )
2
84 CHAPITRE 8. TESTS GAUSSIENS
Le modèle s’écrit
X = m + Y où Y ∼ Nn (0, σ 2 In )
1
Proposition 8.1 La statistique n−k kX − XH k2 estime σ 2 sans biais et elle est
indépendante de XH .
Un test UPP pour tester si m ∈ H est obtenu par la région de confiance
(voir, plus bas, la définition 10.1)
h
Pθ m ∈ / B XH , kX − XH k2 Fh,n−h,α =α
n−h
8.2. INVARIANCE ET MODÈLE LINÉAIRE 85
kXK − XH k2 /(h − k) 0 km − mK k2
Z= ∼ Fh−k,n−h,ρ , où ρ =
kX − XH k2 /(n − h) σ2
ni h
1 X (i) 1X
Xi· = X , si i = 1, . . . , h, X·· = Xj·
ni j=1 j h j=1
1 h
X·· )2
P
h−1 i=1 ni (Xi· − 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X r
r = km· 1Ih − mk2 = ni (Xi· − X·· )2 , ρ=
i=1
σ2
86 CHAPITRE 8. TESTS GAUSSIENS
Xi = a + bzi + Yi , i = 1, . . . , n
en notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1
Ainsi
bb = Cov(X, z) , a = X − z · bb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation
2
Pθ (a, b) ∈
/B a, bb , rF2,n−2 , α =α
n−2
b
où
n
X 2 n
X 2
2
r = kX − XH k = Xi − b
a − bbzi = Xi − X − bb(zi − z)
i=1 i=1
2
Celle du test b = 0 est donc bb > n−2 rF2,n−2 , α .
Ces deux tests ont le niveau α.
88 CHAPITRE 8. TESTS GAUSSIENS
Chapitre 9
Cette section, comme les autres, n’a pas vocation d’être exhaustive, mais
simplement de proposer quelques tests assez simples dans un contexte non pa-
ramétrique. Une vision rigoureuse et plus formelle est donnée par le cours SE328
sur le processus empirique, [7] de troisième année.
9.1 Test du χ2
9.1.1 Cas élémentaire
On considère une suite Xn iid de loi multinomiale M(k, p1 , . . . , pk ). Mal-
heureusement pour le titre de la section, si p = (p1 , . . . , pk ) est fonction d’un
paramètre θ, on est dans un modèle paramétrique p(θ).
On peut parler de cadre non paramétrique si k n’est pas connu, mais,
traditionnellement le test présenté ci-dessous est classé parmi les tests non-
paramétriques, une justification est fournie par l’exemple d’utilisation qui suit.
Pn
Théorème 9.1 Supposons p1 , . . . , pk 6= 0. Soit Nj,n = i=11I{Xi =j} le nombre
des occurences de j dans la séquence X1 , . . . , Xn , pour j = 1, . . . , k.
k
X (Nj,n − npj )2
→ χ2k−1 , en loi.
j=1
npj
89
90 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
k
X (Nj,n − npj,0 )2
≥ χ2k−1,1−α .
j=1
npj,0
k
2
X (pj − pj,0 )2
et l’inégalité stricte χ (p, p0 ) = > 0 implique que la statistique
j=1
pj,0
précédente équivalente à nχ2 (p, p0 ) tend presque sûrement vers l’infini dans la
contre-hypothèse p 6= p0 ce qui justifie la forme de la zone de rejet et prouve la
consistance du test du χ2 .
On peut alors envisager des suites de contre hypothèses Hn pour lesquelles
nχ2 (p, p0 ) ≥ γ. Lorsque γ > χ2k−1,1−α ; ces tests sont asymptotiquement sans
biais et leur puissance est uniformément minorée par β vérifiant χk−1,1−β = γ.
9.1. TEST DU χ2 91
La seconde est fondée sur la loi des grands nombres et la consistance de θbn qui
impliquent
Nj,n
→n→∞ pj (θ), Pθ − p.s., j = 1, . . . , d
n
si le vrai paramètre vaut θ.
Remarque. On a déjà vu qu’un modèle régulier donne lieu à une suite d’es-
timateurs du maximum de vraisemblance asymptotiquement efficace.
Alors pj (θ) = θj−1 e−θ /(j − 1)! pour j < k − 1 et pk (θ) = j≥k−1 θj e−θ /j!.
P
Par suite la formule de Taylor (avec reste de Lagrange) implique
2
Ni· N·j
` X
X m Ni,j − n
=
i=1 j=1
Ni,j
Ces deux suites d’expressions convergent vers une même limite χ2D , en loi, en
vertu du théorème 9.2. En effet, l’estimateur du maximum de vraisemblance du
N
vecteur θ ∈ R`+m−2 s’écrit ici θb = (b q1 , . . . , qb`−1 , rb1 , . . . , rbm−1 ) avec qbi = ni,·
N
pour 1 ≤ i < ` et rbj = n·,j pour 1 ≤ j < m.
Preuve dans le cas particulier où F est continue. Dans ce cas, le faux théorème
de Dini (Doukhan-Sifre, volume 1, page 143) permet de prouver l’uniformité de
la convergence : si une suite de fonctions croissantes admettant les limites 0 et
1 en ±∞ converge simplement vers une fonction continue, alors elle converge
uniformément sur R.
L’asymptotique est généralement admise dans le cas n > 50. Il n’est pas dans
l’esprit de ce cours de faire ces calculs de manière rigoureuse. Des informations
additionnelles ainsi que de nombreux compléments se trouvent dans les notes √
de cours [7]. Toutefois, il est raisonnable de vouloir comprendre le facteur n.
Ce lemme, très simple, est laissé en exercice au lecteur
√
Lemme 9.1 Posons Bn (x) = n(Fn (x) − F (x)), alors pour tout n−uplet or-
donné, −∞ < x1 ≤ · · · ≤ xk < ∞, on a
(Bn (x1 ), . . . , Bn (xk )) →n→∞ (B1 , . . . , Bk ), en loi
(B1 , . . . , Bk ) ∼ Nk (0, Σ),
Σ = (σi,j )1≤i,j≤k , σi,j = F (xi ) ∧ F (xj ) − F (xi )F (xj )
Il permet d’imaginer qu’un théorème √de limite centrale ”fonctionnel” gère le
théorème 9.5, alors si on admet que n(Fn − F ) → B ◦ F (en un sens non
précisé, ici) pour un processus gaussien ( 1 ) centré B appelé ”pont brownien”,
1. C’est à dire une famille de variables aléatoires, B(t) pour t ∈ R, telle que les combinaisons
linéaires Ii=1 ai B(ti ) aient toutes des lois gaussiennes (∀I, ∀ai ∈ R, ∀ti ∈ [0, 1], i = 1, . . . , I).
P
9.2. TEST DE KOLMOGOROV SMIRNOV 95
tel que B(s) ∼ N (0, s − s2 ), et tel que Cov(B(s), B(t)) = s ∧ t − st si s, t ∈ [0, 1].
Les lois du théorème 9.5 sont celles de supx B(x) et de kBk∞ .
9.2.1 Test F = F0
Pour tester les hypothèses F = F0 , F ≤ F0 ou F ≥ F0 , on utilise les (1 − α)-
quantiles dn,1−α et d+ ±
n,1−α des lois de Dn , ou Dn et on rejette l’hypothèse nulle
lorsque la statistique adéquate dépasse le seuil correspondant.
– Pour tester F = F0 contre F 6= F0 , on rejette l’hypothèse si Dn > dn,1−α ,
– pour tester F ≤ F0 contre F > F0 , on rejette l’hypothèse si Dn+ > d+ n,1−α ,
– pour tester F ≥ F0 contre F < F0 , on rejette l’hypothèse si Dn− < d+ n,α .
Les tests obtenus ont le niveau α et sont consistants.
Pour le montrer, on note, par exemple que lorsque
1 −1/2
Théorème 9.6 Posons cn,m = n1 + m
. Les statistiques définies par les
+
relations, Dn,m = cn,m sup |Fn (x) − Gm (x)|, Dn,m = cn,m sup(Fn (x) − Gm (x)),
x x
et Dn− = cn,m sup(Gm (x) − Fn (x)) ont des lois indépendantes de F, G si ces
x
fonctions de répartitions sont continues et strictement croissantes.
Cet énoncé permet aussi de simuler les quantiles de ces lois pour les tabuler.
Le but est de faire des tests pour les hypothèses
– F = G contre F 6= G, la zone de rejet est Dn,m > dn,m,1−α ,
– F ≤ G contre F > G, la zone de rejet est Dn,m +
> d+ n,m,1−α , et
– F ≥ G contre F < G, la zone de rejet est Dn,m < d−
−
n,m,α .
Sous ces conditions, les suites Ui = F (Xi ) et Vj = G(Yj ) sont iid et uniformes
sur [0, 1].
96 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
Alors, on peut réécrire les expressions directement exploitables de ces sta-
tistiques pour le cas de la comparaison des lois de deux échantillons,
i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) (9.1)
n m
et, pour ses variantes signées,
+ i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) ,
n m
− j i
Dn,m = cn,m max − U(i) < V(j) < U(i+1)
m n
√
i
Dn = n max − u
U(i) < u < U(i+1) et, (9.2)
n
√
+ i
Dn = n max −u U(i) < u < U(i+1) ,
n
√
− i
Dn = n max u − U(i) < u < U(i+1)
n
C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
9.3. TESTS DE RANG 97
Les tests fondés sur des statistiques de rang ont souvent pour hypothèse nulle
celle que les variables (X1 , . . . , Xn ) soient iid, lorsque la densité marginale vaut
f , on a alors, g(x1 , . . . , xn ) = f (x1 ) · · · f (xn ) et le résultat suivant prouve
l’intérêt de considérer les statistiques de rang.
Dans un modèle statistique non paramétrique indexé par f , RX est une statis-
tique libre et ΥX est complète.
Preuve. Clairement, il résulte de l’expression de la loi de RX que ces statis-
tiques sont indépendantes et laPcomplétudeP de ΥX résulte alors du fait que
les statistiques ΥX et Nn = ( i Xi , . . . , i Xin ) engendrent la même tribu.
2. Elle associe à i, l’unique indice j = Rx (i) de la statistique d’ordre vérifiant x(i) = xj .
3. Ce groupe est non commutatif et il est simple pour n > 4.
98 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
(1 − F (z))n−k
=
(n − k)!
Remarque. Lorsque les lois ne sont plus continues, une manière de traiter les
ex-aequo consiste à remplacer les rangs par les moyennes des rangs qu’ils oc-
cupent. Par exemple, dans la séquence (1, π, 2, 5, π, 0) la suite des rangs pourrait
s’écrire (2, 4 ou 5, 3, 6, 4 ou 5, 1), on lui préférera ici (2, 4.5, 3, 6, 4.5, 1).
où
n n n n
1X 1X 1 XX
ai,· = ai,j , a·,j = ai,j , a= ai,j
n j=1 n i=1 n2 i=1 j=1
A présent, la loi jointe de (Li , Lj ) s’obtient comme suit. La loi jointe des rangs
(RX (i), RX (j)) s’écrit avec
1
n(n−1) lorsque h 6= k
P(RX (i) = h, RX (j) = k) =
0 si h = k
Le couple (RX (i), RX (j)) ne peut en effet prendre que des valeurs distinctes
et, une fois RX (i) choisi, il ne reste plus que n − 1 valeurs envisageables pour
RX (j). Par suite,
X 1 X X
ELi Lj = `i (h)`j (k)
n(n − 1)
i6=j i6=j h6=k
n
!
1 X X
= − `i (h)`j (h)
n(n − 1)
i6=j h=1
n X n
1 X X
= − `i (h) `j (h)
n(n − 1) i=1h=1 j6=i
n X
n
1 X
= `2i (h)
n(n − 1)
h=1 i=1
100 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
Pn Pn
en vertu des relations, i=1 `i (h) = 0 et h=1 `i (h) = 0, déduites des définitions
de ai,· , a·,j et a. Ainsi la relation n1 + n(n−1)
1 1
= n−1 permet de conclure.
1 X X
ELA (X) = naα, Var LA (X) = (ai − a)2 (αj − α)2
n−1 i j
Alors, RZ est la permutation de {1, . . . , N } telle que ZRZ (i) = Z(i) . Cette
variable aléatoire a une loi uniforme sur l’ensemble Sn des permutations de
{1, . . . , N } (de cardinal N !).
Pn
Définition 9.3 La somme des rangs des Xi , Wn = i=1 RZ (i) est appelée
statistique de Wilcoxon.
La loi de Wn (qui dépend de n et m) est tabulée. Notons que l’on peut toujours
échanger les rôles de n et m à condition de remplacer Wn par une somme de
n + 1 à N , donc les tables ne comportent que le cas n ≤ m. Evidemment, cette
loi ne dépend pas de la loi F si F = G.
Un test pour l’hypothèse F = G contre F > G est donné par la zone de rejet
Wn > wα . Ici wα est le 1 − α−quantile de la loi de W qui peut être tabulé
en considérant car cette variable a la même loi (sous l’hypothèse nulle) que
9.3. TESTS DE RANG 101
Pn
WU = i=1 RU (i) pour un échantillon aléatoire iid U = (U1 , . . . , UN ) de mar-
ginales uniformes sur [0, 1] (i.e. P(WU > wα ) = α).
Lorsque n = 1, la loi de W1 est une loi de Bernoulli de paramètre
R p = P(X1 <
Y1 ) ; si F = G alors p = 12 et si F > G alors p = F (x)g(x)dx > G(x)g(x)dx =
R
1
2 ce qui permet de justifier la forme de la zone de rejet.
On a aussi
– EWn = nERZ (1) = n j Nj = n(N2+1) (car P(RZ (i) = j) = N1 )
P
n(N +1)(N −n)
– Var Wn = 12 (cf. théorème 9.9).
Wn − EWn
Ceci justifie (un peu) l’énoncé √ → N (0, 1) que nous ne prouverons
Var Wn
pas ici.
Par suite
12S − 3n(n + 1)2
ρS =
n(n2 − 1)
est une fonction affine du coefficient de Spearman, ce qui justifie d’introduire S
pour tester une indépendance.
Dans le cas où w est quelconque, il est plus difficile d’exhiber Θ1 (non pa-
ramétrique) tel que Θ = R × Θ1 .
Pour construire un estimateur consistant de θ, nous introduisons un esti-
mateur fn,h (x) de f (x) construit, à partir d’une fonction K, paire, à support
compact, mesurable, bornée, d’intégrale 1 et d’un paramètre h = hn ↓ 0 (lorsque
n ↑ ∞),
n
1 X Xi − x
fn,h (x) = K
nh i=1 h
D’abord le biais, bh (x) = Efn,h (x) − f (x), de cet estimateur n’est pas nul, mais
il vaut
1 X1 − x
bh (x) = EK − f (x)
h h
Z b1
1 t−x
= K (f (t) − f (x)) dt
h a1 h
9.4. EXEMPLE D’UN TEST SEMI-PARAMÉTRIQUE 103
Z
= K(u) (f (x − uh) − f (x)) dt
R
Z 00 Z
0 2 f (x)
= hf (x) uK(u) du + h u2 K(u) du + o(h2 )
R 2
Z
1
= cf 00 (x)h2 + o(h2 ), où c= u2 K(u) du
2
en utilisant, la formule de Taylor (avec un reste de Lagrange ou intégral) et la
parité de K. Ainsi
Preuve. Une version plus précise du premier point de ce théorème est prouvée
plus haut.
Le lemme 1.2 est appliqué aux variable iid
ei = √1 (Zi − EZi ) , Xi − x
X avec Zi = K
nh h
θbn − θ = θbn − θn + θn − θ
Z
2
= (fn,h (x) − Efn,h (x)) w(x) dx
Z
+ (fn,h (x) − Efn,h (x)) (2Efn,h (x))w(x)) dx
Z
2
(x) − f 2 (x) w(x)dx
+ Efn,h
Z
2 1
= (fn,h (x) − Efn,h (x)) w(x) dx + O + h2
nh
la
R somme précédente est une somme de variables indépendantes avec ∆i =
K(s)(v(Xi + sh) − v(Xi ))ds, car les conditions sur h = hn prouvent que les
termes de restes peuvent être négligés. Pour conclure, on utilise le théorème
de limite centrale avec les variables iid v(Xi ) et le théorème de convergence
dominée permet de montrer que E∆2i → 0, et donc :
1X
E(∆i − E∆i )2 → 0
n i
Intervalles de confiance
Définition 10.1 Soit X une observation du modèle statistique (Pθ )θ∈Θ , un in-
tervalle de confiance (IC(α)) de niveau α ∈ [0, 1] pour une fonction du pa-
ramètre, g(θ) ∈ R, est un intervalle I(X) = [a(X), b(X)] d’extrémités aléatoires
et tel que Pθ (g(θ) ∈
/ I(X)) = α.
Lorsque g(θ) ∈ / R, on parlera de région de confiance de niveau α pour toute
partie de R(X) ⊂ g(Θ) telle que Pθ (g(θ ∈ / R(X)) = α.
L’intervalle de confiance IC(X) = [u− (X), u+ (X)] est celui dans lequel se trouve
la fonction g(θ) du paramètre, avec la (petite) contre-probabilité α.
Dans l’exemple initial, g(θ) = θ est aussi la moyenne de X sous la loi Pθ . Si
l’intervalle est équilibré, P(N > ϕ+ ) = P(N < ϕ− ) = α/2 alors ϕ+ = −ϕ− =
ϕ1−α/2 est un α2 −quantile de la loi normale ; des valeurs approchées en sont
1, 96 si α = 5% et 3 si α = 1%.
105
106 CHAPITRE 10. INTERVALLES DE CONFIANCE
√ X − g(θ)
Pθ g(θ) ∈ [an (X (n) ), bn (X (n) )] = Pθ n ∈ [ϕ− , ϕ+ ]
S
→n→∞ P(N ∈ [ϕ− , ϕ+ ]) = 1 − α
Ceci fournit la zone de rejet d’un test au niveau asymptotique α, mais résoudre
une inéquation du second degré conduit à écrire le même événement comme
intervalle de confiance [θ+ (X), θ− (X)] avec
2
q
2
X + u2 ± u u4 + (1 − X)X ϕ1− α
±
θ (X) = 2
, où u = √ 2 (10.2)
1+u n
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 107
Théorème 10.1 (de dualité) Soit R(θ0 ) la zone de rejet d’un test non ran-
domisé au niveau α de l’hypothèse Θ0 contre Θ1 = Θc0 , ainsi
sup Pθ0 (X ∈
/ R(θ0 )) = α.
θ0 ∈Θ0
Ici la loi du χ2 n’est pas symétrique et il n’y a aucune raison d’équilibrer l’in-
tervalle de confiance pourvu que P(χ2n−1 ∈ / [χ2n−1,α− , χ2n−1,α+ ]) = α. Des choix
concurrents de α± sont le choix logique α± = α/2 et un choix fondée sur la
taille α− = α, α+ = 0. Un choix fondé sur le critère de dualité avec un test
dépendrait bien entendu de la contre hypothèse choisie.
108 CHAPITRE 10. INTERVALLES DE CONFIANCE
1 2
1 (h, n − h).2
si Fh,n−h désigne la loi de Fisher de paramètres
On a déjà vu pour ceci que h kXH −mk n−h kX −XH k suit la loi de Fisher
de paramètres (h, n − h).
Analyse de variance
On dispose de h ≥ 2 échantillons indépendants X (i) = (Xi,1 , . . . , Xi,ni ) de
tailles respectives n1 , . . . , nh telles que n1 + · · · + nh = n, alors
Z > Fh−1,n−h,α
1
Ph
h−1 i=1 ni (Xi· − X·· )2 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X
ρ = km· 1Ih − mk2 = ni (Xi· − X·· )2
i=1
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 109
Régression linéaire
Ici Y = (Y1 , . . . , Yn ) ∼ Nn (0, σ 2 In ) et, pour un plan d’expérience (déterministe)
z = (z1 , . . . , zn ) ∈ Rn , fixé,
Xi = a + bzi + Yi , i = 1, . . . , n
Ainsi, m = a 1In + bz ∈ H, l’espace vectoriel de dimension 2 engendré par les
vecteurs 1In = (1, . . . , 1), z ∈ Rn . Notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1
on a
bb = Cov(X, z) , a = X − zbb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation
2
Pθ (a, b) ∈
/B a, bb , ρF2,n−2 , α =α
n−2
b
Pn 2 P 2
n
où ρ = kX − XH k2 = i=1 Xi − b a − bbzi = i=1 Xi − X − bb(zi − z) .
Remarque et complément
D’autres exemples de tests donnés en dimension finie sont fondés sur le
comportement asymptotique d’estimations d’une densité. Pour simplifier nous
estimons f par un estimateur à noyau fn,h asymptotiquement sans biais quant
h = h(n) →n→∞ 0. Des tests dans Rk sont par exemple fondés sur le fait prouvé
plus haut que
Z
2
(Zn (x1 ), . . . , Zn (xk )) →n→∞ Nk 0, u (s)ds · Ik
√ p
lorsque Zn (x) = nh(fn,h (x) − Efn,h (x))/ f (x) quand x1 , . . . , xk ∈ R sont
distincts. Pk
Ainsi l’expression j=1 Zn2 (xj ) converge en loi vers u2 (s)ds · χ2k . Lorsque k
R
p
augmente, le théorème de Lindeberg implique que (χ2k −k)/ Var χ2k → N (0, 1),
ici Var χ2k = 2k et on prouve aussi (avec plus de difficulté) qu’il existe σ(f ) ne
dépendant que de f tel que
Z
1
√ (Zn2 (x) − EZn2 (x))w(x)dx →n→∞ N (0, σ 2 (f ))
h
[1] Peter Bickel, Kjell Doksum (2001) Mathematical statistics. Basic Ideas and
selected topics, volume I. Prentice Hall.
[2] Peter Bickel, Chris Klaasen, Ya’acov Ritov, Jon A. Wellner (1993) Efficient
and adaptive estimation for semi-parametric models. Johns Hopkins Series
in the Mathematical Sciences.
[3] P. G. Ciarlet (1982). Introduction à l’analyse numérique matricielle et à
l’optimisation. Masson.
[4] David, R. Cox, David V. Hinkley (1974). Theoretical Statistics. Chapman
& Hall.
[5] Didier Dacunha-Castelle, Marie Duflo (1982). Probabilités et statistiques
(en deux volumes). Masson.
[6] Claude Deschamps, André Warusfel, François Moulin, Jean François Ruaud,
Anne Miquel, Jean-Claude Sifre (1999). Cours tout en un, Mathématiques
1ère année (Série E. Ramis), Dunod.
[7] Paul Doukhan (2003) Processus empirique, notes du cours SE328 de
troisième année, 61 pages.
[8] Paul Doukhan, Jean-Claude Sifre (2001) Analyse réelle et intégration.
Agrégation de mathématiques - Cours d’analyse, volume 2, Dunod.
[9] Paul Doukhan, Jean-Claude Sifre (2002). Calcul différentiel, intégration et
probabilités. Agrégation de mathématiques - Cours d’analyse, volume 2,
Dunod.
[10] Jaroslav Hajek, Z. Sidak, Prakar Sen (1999). Theory of rank tests. Acade-
mic Press.
111