Vous êtes sur la page 1sur 111

Cours de Statistiques, M1

Estimation et introduction aux tests


Université de Cergy Pontoise

Paul Doukhan
2
Table des matières

1 Modèle de Bernoulli 7
1.1 Résumer l’information . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 12
1.4 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Intervalles de confiance asymptotiques . . . . . . . . . . . . . . . 14
1.7 Contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Validité de l’asymptotique∗ . . . . . . . . . . . . . . . . . . . . . 17

2 Les points de vue statistiques 19


2.1 Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Statistique inférentielle classique . . . . . . . . . . . . . . . . . . 21
2.3 Statistique bayésienne . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Décision statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Modèles Statistiques 27
3.1 Exemples de modèles . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Estimation 37
4.1 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Borne de Cramer Rao . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Modèle canonique . . . . . . . . . . . . . . . . . . . . . . 44
4.5.2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Modèle gaussien iid . . . . . . . . . . . . . . . . . . . . . 45
4.5.4 Modèle multinomial . . . . . . . . . . . . . . . . . . . . . 45

3
4 TABLE DES MATIÈRES

4.6 Modèle uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 46


4.7 Estimateur de Stein . . . . . . . . . . . . . . . . . . . . . . . . . 47

5 Méthodes d’estimation 51
5.1 Minimum de contraste . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Maximum de vraisemblance . . . . . . . . . . . . . . . . . 53
5.2 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.1 Méthode d’injection . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Moments en économétrie . . . . . . . . . . . . . . . . . . 57
5.3 Problèmes algorithmiques . . . . . . . . . . . . . . . . . . . . . . 58
5.3.1 Dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3.2 Montée sur les axes . . . . . . . . . . . . . . . . . . . . . . 59
5.3.3 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . 59
5.3.4 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Asymptotique en estimation 63
6.1 Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Méthodes empiriques . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Minimum de contraste . . . . . . . . . . . . . . . . . . . . 65
6.2 Delta méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.3 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . . 68

7 Tests 71
7.1 Quelques définitions . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 74
7.3 Rapports de vraisemblance monotones . . . . . . . . . . . . . . . 76
7.4 Asymptotique du score . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5 Tests du score et de Wald . . . . . . . . . . . . . . . . . . . . . . 78

8 Tests gaussiens 81
8.1 Tests fondés sur la vraisemblance . . . . . . . . . . . . . . . . . . 81
8.1.1 Moyenne d’une gaussienne . . . . . . . . . . . . . . . . . . 81
8.1.2 Moyenne de deux échantillons gaussiens . . . . . . . . . . 82
8.1.3 Covariance de deux échantillons gaussiens . . . . . . . . . 83
8.2 Invariance et modèle linéaire . . . . . . . . . . . . . . . . . . . . 84
8.2.1 Analyse de variance . . . . . . . . . . . . . . . . . . . . . 85
8.2.2 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . 86

9 Tests non paramétriques 89


9.1 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.1 Cas élémentaire . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.2 Test d’adéquation à une famille paramétrique . . . . . . . 91
9.1.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . 92
9.2 Test de Kolmogorov Smirnov . . . . . . . . . . . . . . . . . . . . 93
9.2.1 Test F = F0 . . . . . . . . . . . . . . . . . . . . . . . . . . 95
TABLE DES MATIÈRES 5

9.2.2 Cas de deux échantillons . . . . . . . . . . . . . . . . . . . 95


9.2.3 Ecriture en termes de rangs . . . . . . . . . . . . . . . . . 96
9.3 Tests de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.3.1 Statistique d’ordre et rangs . . . . . . . . . . . . . . . . . 96
9.3.2 Statistiques linéaires de rang . . . . . . . . . . . . . . . . 98
9.3.3 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . 100
9.3.4 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . 101
9.4 Exemple d’un test semi-paramétrique . . . . . . . . . . . . . . . . 102

10 Intervalles de confiance 105


10.1 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 105
10.1.1 Critère de taille . . . . . . . . . . . . . . . . . . . . . . . . 106
10.1.2 Critère asymptotique . . . . . . . . . . . . . . . . . . . . . 106
10.1.3 Critère de dualité . . . . . . . . . . . . . . . . . . . . . . . 107
10.2 Exemples d’intervalles de confiance . . . . . . . . . . . . . . . . . 107
10.2.1 Modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . 107
10.2.2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 108
10.2.3 Dimension infinie . . . . . . . . . . . . . . . . . . . . . . . 109
6 TABLE DES MATIÈRES

Avertissement

Ces notes de cours sont évidemment une version préliminaire et je serai


reconnaissant à tout lecteur de me faire part des fautes qu’il y aura détectées.
Les paragraphes et sections marqués d’une astérisque ne ne seront pas exigés
pour l’examen qui valide ce cours ; ils sont indiqués pour la culture générale
des étudiants. Très souvent, ces point étoilés font allusion à des questions im-
portantes traitées par d’autres cours ; il sont destinés à orienter une recherche
bibliographique future à tous ceux qui seront concernés par des questions de
statistiques.

Paris, le 18 janvier 2013.

Paul Doukhan
doukhan@u-cergy.fr
www.doukhan.u-cergy.fr
Chapitre 1

Modèle de Bernoulli

Dans la fabrication d’objets manufacturés, on suppose qu’une proportion


inconnue d’objets défectueux θ ∈ [0, 1] est produite. Cette proportion est évaluée
par une fréquence d’apparition d’objets mal fabriqués dans des échantillons
contrôlés au hasard.
– Lorsqu’elle dépasse un premier seuil θS , on renforce la surveillance de la
production ; Pour cela, on augmente, par exemple, la taille des échantillons
utilisés pour évaluer θ.
– Lorsqu’elle dépasse un autre seuil θC > θS , on arrête la production pour
réparer ou pour régler les machines.
Il faut bien sûr tenir compte du coût respectif de chaque type d’opération pour
définir les seuils précédents. C’est l’objet du contrôle de qualité.
En pratique, on dispose de n observations de l’échantillon des objets contrôlés
et (pour simplifier les choses), ils sont bons ou mauvais. On a ainsi une famille
iid (indépendante et identiquement distribuée) X1 , . . . , Xn ∼ b(θ), de loi de
Bernoulli de paramètre θ. Par suite la mesure vaut 1 lorsque le i-ème objet
contrôlé est de mauvaise qualité et 0 sinon, Xi (ω) ∈ {0, 1} (à partir de main-
tenant l’événement ω ∈ Ω sera implicite) et Pθ (Xi = 1) = 1 − Pθ (Xi = 0) = θ
lorsque le monde ambiant est régi par la loi Pθ (qui dépend donc de la valeur
inconnue du paramètre θ).
Un autre cas pour lequel ce type de modèle peut s’appliquer est celui d’un
sondage d’opinion, dans lequel on ne poserait qu’une question dont la réponse
est oui ou non : on pensera à un referendum.
Un tirage aléatoire (X1 , . . . , Xn ) ∈ {0, 1}n peut donc prendre 2n valeurs, ce
qui rend le résultat d’un tel sondage difficile d’interprétation.
L’organisation du chapitre suit les questions effectives liées à ce problème.
Fondé sur cet exemple élémentaire, nous donnons ici essentiellement un résumé
du présent cours de statistique.
– On cherche d’abord à simplifier le jeu de données ; la seule connaissance
du nombre des pièces en bon état sur l’échantillon de taille n considéré
sera suffisante pour résumer notre observation.
Nous évoquons ici la question d’exhaustivité traitée au chapitre 3.

7
8 CHAPITRE 1. MODÈLE DE BERNOULLI

– On justifie ensuite le fait naturel que la probabilité empirique (proportion


de pièces défectueuses) est une quantité approchant de manière raison-
nable le paramètre de qualité θ de notre production. Cette quantité est
aussi vue comme la plus vraisemblable, en un sens noté plus bas. D’autres
manières de calculer empiriquement le paramètre sont ensuite envisagées,
comme celle de Bayes qui probabilise l’espace des paramètres lui même et
fournit ainsi des estimations convenables.
C’est le problème d’estimation du paramètre θ.
Les qualités de ces estimations sont liées à l’étude de la loi de telles va-
riables aléatoires. Une étude plus profonde de cette question est donnée
dans le chapitre 4.
– La fin du chapitre est dédiée à répondre à une question simple : faut-il
arrêter la production pour réparer les machines ?
Les problèmes envisagés sont ici ceux de la construction d’un intervalle de
confiance et celui de tests d’hypothèse.
– Une première réponse à cette question est en effet de situer de manière
raisonnable le paramètre θ à partir de la seule donnée observée, c’est
l’objet d’un intervalle de confiance. Avec une très grande probabilité,
on doit pouvoir affirmer que θ ∈ IC, IC est ainsi un intervalle dont les
bornes sont aléatoires et fondées à partir de l’estimation de θ.
– La construction d’un tel intervalle de confiance est délicate pour une
taille d’échantillon fixée ; sa version asymptotique permet de mieux
l’appréhender, au travers du théorème de limite centrale.
– Pour résoudre le problème de décision précédent, lié aux tests, on doit
être en mesure de répondre à une question de type suivant :
(Avec une grande probabilité) Le paramètre θ d’intérêt
(la probabilité de malfaçon) est suffisamment petit ?
– Cette probabilité est d’un calcul difficile, on lui préfère une approxima-
tion obtenue via le théorème de limite centrale.
– Une dernière question théorique se pose alors,
A partir de quelles valeurs (pour θ et pour la taille n de l’échantillon),
l’asymptotique a-t-elle des caractéristiques acceptables ?
Bien que cela semble dépasser le cadre de ce cours, nous donnons une
réponse complète à cette question, d’un intérêt effectif primordial.
– Bien des questions ne sont pas abordées dans ce cours. D’autre situa-
tions de type dynamique ne sont pas envisagées dans ce cours : une ques-
tion intéressante pourrait en effet être, dois-je augmenter la taille de mon
échantillon avant de prendre une décision ?, on pourra se reporter au livre
de Dacunha-Castelle et Duflo auquel ce chapitre doit beaucoup.

1.1 Résumer l’information


Si on cherche à évaluer θ à partir de l’observation (X1 , . . . , Xn ), cela ne
peut se faire qu’en considérant une fonction quelconque de l’observation dis-
ponible (la tribu choisie sur {0, 1}n est celle de l’ensemble des parties donc
1.1. RÉSUMER L’INFORMATION 9

toute fonction définie sur cet ensemble est mesurable) On appelle estimateur
T = h(X1 , . . . , Xn ) toute fonction de l’observation.
Posons

Sn = X1 + · · · + Xn (1.1)

alors Sn ∼ B(n, θ) suit une loi binomiale :

Pθ (Sn = s) = Cns θs (1 − θ)n−s , s = 0, 1, . . . , n.

En effet pour z ∈ C, la fonction génératrice de sa loi s’écrit


n n
X
s Sn
Y n
gSn (z) = z Pθ (Sn = s) = Eθ z = Eθ z Xi = Eθ z X1 = (1 − θ + zθ)n
s=0 i=1

grâce à l’indépendance des Xi .


Notons qu’alors on a, de plus,

Pθ (X1 = x1 , . . . , Xn = xn , Sn = s)
Pθ (X1 = x1 , . . . , Xn = xn |Sn = s) =
Pθ (Sn = s)
s n−s
θ (1 − θ)
=
Cns θs (1 − θ)n−s
1
= (1.2)
Cns

car, lorsque Sn = s, exactement s des n variables aléatoires Xi prennent la


valeur 1, ce qui justifie la valeur du numérateur.
La relation (1.2) a un sens profond : elle signifie que, si la variablePaléatoire
Sn prend la valeur s (Sn = s), alors la configuration des Xi tels que i Xi = s
est sans importance. On n’en apprendra donc pas plus en connaissant tout le
résultat (X1 , . . . , Xn ) de notre expérience aléatoire (qui peut prendre 2n va-
leurs), qu’en ne se souvenant que du résumé d’information constitué par Sn qui
prend seulement n + 1 valeurs. Sn est appelé résumé exhaustif de l’expérience
(X1 , . . . , Xn ), dans ce sens qu’il rapporte toute l’information relative à θ conte-
nue dans notre expérience.
Posons Te = Eθ (T |Sn ) = e h(Sn ), en raison de (1.2) on calcule

1 X
h(s) = s
e h(x1 , . . . , xn )
Cn x1 +···+xn =s

Une première question est : l’estimateur conditionné par Sn est-il aussi dispersé
que T ?

Théorème 1.1
Var θ T ≥ Var θ Te
10 CHAPITRE 1. MODÈLE DE BERNOULLI

Preuve. Quitte à lui soustraire son espérance on suppose Eθ T = 0 (et par suite
Eθ T̃ = 0), notons que Eθ T Te = Eθ Te2 , on en déduit,

Eθ (T − Te)2 = Eθ T 2 + Eθ Te2 − 2Eθ T Te = Eθ T 2 − Eθ Te2

Remarques.
– L’inégalité précédente est donc une égalité lorsque T = Te et donc h est
nécessairement une fonction de Sn dans ce cas.
– Plus généralement, l’inégalité de Jensen conditionnelle s’écrit pour toute
fonction g : C → R convexe et continue sur un convexe C ⊂ Rd . Soit
B ⊂ A une sous-tribu quelconque de A, si Z ∈ C p.s. (et si les espérances
suivantes sont bien définies)

EB g(Z) ≥ g EB Z

(1.3)

Pour montrer cette inégalité, on note que c’est une égalité pour toute
fonction g affine et le théorème de Hahn-Banach implique que la fonc-
tion g convexe est la borne supérieure de telles fonctions affines. Une ver-
sion conditionnelle du théorème de convergence monotone permet ainsi de
conclure.

1.2 Moyenne empirique


La moyenne empirique est définie par la relation
Sn X1 + · · · + Xn
X= = (1.4)
n n
où Sn désigne le résumé exhaustif (1.1). Dans le contexte présent de variables de
Bernoulli, X est la fréquence des pièces défectueuses dans l’échantillon examiné.
En accord avec le sens commun, on dit que X estime θ. On a Eθ X = θ, et on dit
que X estime le paramètre θ (c’est une variable aléatoire), sans biais (le biais
d’un estimateur T de θ est l’expression Eθ T − θ).
Cet estimateur est naturel au sens que :

Proposition 1.1 Soit T = h(Sn ) un estimateur sans biais de θ, fonction de la


statistique exhaustive Sn , alors T = X.
x
Preuve. Posons g(x) = n − h(x), on doit prouver que

{∀θ ∈ [0, 1], Eθ g(Sn ) = 0} ⇒ g ≡ 0


n
X
Cette relation s’écrit Cns θs (1 − θ)n−s g(s) = 0. Le polynôme précédent en la
s=0
variable t = θ/(1 − θ), identiquement nul si t ∈ R (ou si θ ∈]0, 1[), a donc des
coefficients nuls.
Il est aussi consistant :
1.2. MOYENNE EMPIRIQUE 11

Proposition 1.2 Lorsque n ↑ ∞, X → θ en Pθ -probabilité et même presque


sûrement.
Cet énoncé est une loi faible et forte des grands nombres, pour éviter de faire
appel à des connaissance préliminaires, nous choisissons de le démontrer.
Preuve. D’abord, un calcul simple montre que Var θ Sn = nθ(1−θ) donc Var θ X =
θ(1−θ)
n →n→∞ 0, ce qui implique la convergence en probabilité en utilisant
l’inégalité de Markov.
Pour obtenir sa convergence presque sûre, on peut évaluer un moment d’ordre
4, on pose Yi = Xi − θ :
X
Eθ (Sn − nθ)4 = Eθ Yi Yj Yk Y`
1≤i,j,k,`≤n
X
≤ 4! |Eθ Yi Yj Yk Y` |
1≤i≤j≤k≤`≤n

Lorsque i 6= j ou k 6= ` on a Eθ Yi Yj Yk Y` = 0 par indépendance ; de plus


l’inégalité de Cauchy Schwartz et l’inégalité “(u + v)4 ≤ 23 (u4 + v 4 ) pour u, v ∈
R” (obtenue avec la convexité de x 7→ x4 , cette relation s’écrit [(u + v)/2]4 ≤ (u4 +
v 4 )/2) impliquent alors

|Eθ Yi Yj Yk Y` | ≤ Eθ Y14 ≤ 23 (Eθ X14 + θ4 ) ≤ 16θ, donc


4
Eθ (Sn − nθ) ≤ 192 θ n(n + 1)
Le lemme 6.1 étendra cette inégalité. Le lemme de Borel Cantelli, implique le
résultat avec l’inégalité Pθ (|X − θ| ≥ ) ≤ Eθ (X − θ)4 /4 avec
1 n+1
Eθ (X − θ)4 = Eθ (Sn − nθ)4 ≤ 192 θ ·
n4 n3
et la sommabilité de la série n≥1 n12 .
P
Une autre méthode∗
Notons Lθ (t) = log Eθ etX1 = log (1 − θ + θet ), pour tout t > 0, la log −transformée
de Laplace de la loi de Bernoulli. Utilisant aussi l’inégalité de Markov, une
manière plus performante de procéder consiste à écrire :
Pθ (X ≥ a) = Pθ (Sn ≥ na) = Pθ etSn ≥ enat


≤ e−atn Eθ etSn = exp (−n(at − Lθ (t))


Une inégalité analogue vaut pour t < 0 : Pθ (X ≤ a) ≤ exp (−n(at − Lθ (t)). A
présent, on note que la fonction t 7→ g(t) = at − Lθ (t) = at − log(1 − θ + θet ),
concave est nulle en 0, de dérivée a − θ. Lorsque a < 1, son maximum g ∗ (a) est
atteint pour t > 0 quand a > θ), et pour t < 0 si a < θ, donc
∀ > 0, ∃g ∗ (θ ± ) > 0 :
∗ ∗
Pθ (X ≥ θ + ) ≤ e−ng (θ+)
, Pθ (X ≤ θ − ) ≤ e−ng (θ−)
(1.5)
Par suite Pθ (|X − θ| ≥ ) ≤ 2e−nb , avec b = min{g ∗ (θ − ), g ∗ (θ + )}, et on
conclut comme avant grâce au lemme de Borel Cantelli.
12 CHAPITRE 1. MODÈLE DE BERNOULLI

1.3 Maximum de vraisemblance


Rappelons que
Pθ (X1 = x1 , . . . , Xn = xn ) = θs (1 − θ)n−s , Pθ (Sn = s) = Cns θs (1 − θ)n−s
lorsque s = x1 + · · · + xn
La réalisation x1 , . . . , xn de l’expérience est d’autant plus vraisemblable que
θs (1 − θ)n−s est grand ; les expressions précédentes Vθ (X1 , . . . , Xn ) = Pθ (X1 =
(S )
x1 , . . . , Xn = xn ) et Vθ n (s) = Pθ (Sn = s) sont appelées vraisemblance de X
et de Sn . La valeur la plus vraisemblable du paramètre θ s’obtient par maxi-
misation de la vraisemblance θ 7→ Vθ (X1 , . . . , Xn ) ou de son logarithme θ 7→
Lθ (X1 , . . . , Xn ) = log Vθ (X1 , . . . , Xn ). Ainsi ∂Lθ /∂θ(X1 , . . . , Xn ) = Sn /θ−(n−
Sn )/(1 − θ) = 0 d’où, θb = X, l’estimateur du maximum de vraisemblance de θ
est la moyenne empirique.
Notons enfin que cette même expression maximise la vraisemblance de Sn .

1.4 Estimation bayésienne


Supposons maintenant que l’on dispose d’information a priori sur le pa-
ramètre θ ; par exemple on peut savoir, pour l’exemple du contôle de qualité,
1
que la machine fonctionne bien avec un taux d’échec de θ = 10 et qu’elle a une
probabilité p d’être en panne complète. Ainsi la probabilité de se trouver dans
l’état θ vaut ν({θ}) où ν = pδ1 + (1 − p)δ 10 1 et δa désigne la masse de Dirac en

a.
Pour toute loi ν sur Θ = [0, 1], on considère le risque bayésien d’un estima-
teur T = h(X1 , . . . , Xn )
Z 1
Rν (T ) = Eθ (T − θ)2 dν(θ) (1.6)
0

L’estimateur bayésien de θ est celui qui minimise Rν (T ). Posons


Z 1
µk,` = θk (1 − θ)` dν(θ), k, ` = 1, 2, . . .
0

Ce qui précède tend à privilégier un estimateur exhaustif de la forme T = g(Sn )


(fonction de Sn ), et
Xn Z 1
s
Rν (T ) = Cn (g(s) − θ)2 θs (1 − θ)n−s dν(θ)
s=0 0
n
X
Cns µs,n−s g 2 (s) − 2µs+1,n−s g(s) + µs+2,n−s

=
s=0

L’expression Rν (T ) est minimisée par T = g(Sn ) avec


µs+1,n−s
g(s) = , ∀s ∈ {0, 1, . . . , n}
µs,n−s
1.5. INTERVALLES DE CONFIANCE 13

Exemple. La loi βa,b de densité dν/dθ = ca,b θa−1 (1−θ)b−1 où c−1 a,b = B(a, b) =
R 1 a−1 b−1 Γ(a)Γ(b)
0
θ (1 − θ) dθ s’écrit aussi B(a, b) = Γ(a+b) avec Γ, la fonction d’Eu-
R∞
ler Γ(x) = 0 e−t xt−1 dt. Cette formule classique est laissée en exercice, on
précisera son champ d’application. Alors les calculs précédents conduisent à
R1
θa+s (1 − θ)n−s+b−1 dθ Γ(a + s − 1) Γ(a + b + n) a+s
g(s) = R 10 = =
θ a+s−1 (1 − θ)n−s+b−1 dθ Γ(a + b + n + 1) Γ(a + s) a+b+n
0

a + Sn
L’estimateur bayésien est ici T = .
a+b+n √
√ n + Sn
Lorsque a = b = n, l’estimateur obtenu, √ , conduit à un risque
n+2 n
1 2
Rν (T ) = (√n+1) 2 , de plus Eθ (T − θ) = Rν (T ) ne dépend pas de θ dans ce cas.

Lorsque a = b = 0 (ce qui n’est pas licite ici . . .) X = Snn a pour variance vθ (T ) =
θ(1−θ)
n qui n’est pas toujours plus petite que Rν (T ). On peut voir que pour
chaque a, b ∈ [0, 1]2 il n’existe pas d’estimateur de θ vérifiant Rθ (T ) = Eθ (T −
θ)2 ≤ Eθ (Ta,b − θ)2 pour lequel l’inégalité soit stricte en, au moins, un point
(on utilise une variante en espace continu de la proposition 2.1). Un estimateur
de θ est dit admissible s’il n’en n’existe pas de strictement meilleur, au sens
précédent. Il est difficile d’obtenir un estimateur préférable à tous les autres
de manière uniforme ; un critère moins exigeant et distinct du critère bayésien
consiste à minimiser l’expression T 7→ supθ Rθ (T ), c’est le critère minimax, qui
minimise le risque maximal.

1.5 Intervalles de confiance


L’inégalité de Bienaymé-Tchebichev prouve que

   θ(1 − θ) 1
Pθ θ ∈
/ X − δ, X + δ = Pθ X − θ > δ ≤ ≤
nδ 2 4nδ 2

car θ(1 − θ) ≤ 41 pour θ ∈ R. Ainsi la confiance que l’on peut mettre dans le
 
fait que θ ∈ I(X) où I(X) = X − δ, X + δ est au moins égale à 1 − α lorsque
1
α = 4nδ 2.

On dit que I(X) est un intervalle de confiance (exact) au niveau α.


Notons que l’intervalle I(X) proposé a des extrémités aléatoires, son nom
tient au fait que l’on peut avoir confiance dans le fait que le vrai paramètre
appartient à I(X) ; au sens que c’est vrai hors d’un événement de probabilité
(petite) α.
Lorsque l’intervalle I(X) contient de grandes valeurs du paramètre, on ima-
gine aisément qu’il est temps de re-régler la machine qui produit maintenant
des pièces par trop déffectueuses.
14 CHAPITRE 1. MODÈLE DE BERNOULLI

1.6 Intervalles de confiance asymptotiques


L’asymptotique gaussienne et le théorème 1.3 qui la valide permet d’obtenir
des intervalles de confiance asymptotiques (10.1) précisé par (10.2).
Rappelons deux énoncés très utiles

Théorème 1.2 (TLC) Soit (Xn )n≥0 , une suite iid à valeurs dans Rk et telle
que EkX0 k2 < ∞, alors
√  L
n X − EX0 →n→∞ Nk (0, Var X0 )

Lemme 1.1 (Slutsky) Soient Un , Vn deux suites de variables aléatoires (réelles


par exemple) vérifiant
√ L P
n(Un − EUn ) →n→∞ N 0, σ 2 , Vn →n→∞ v


Alors, si la fonction continue f : R2 → R ((u, v) 7→ f (u, v)) est dérivable par


rapport à u :
2 !


L ∂f
n(f (Un , Vn ) − Ef (Un , Vn )) →n→∞ N 0, (0, v) σ 2
∂u

La loi des grands nombres, combinée au théorème centrale limite conduit,


grâce au lemme de Slutsky, à la convergence en loi

√ X −θ L
nq →n→∞ N (0, 1) , sous la loi Pθ
X(1 − X)

L’intervalle de confiance approché


 s s 
X(1 − X) X(1 − X) 
I(X) = X − ϕ1−α/2 , X + ϕ1−α/2
n n

admet alors le niveau asymptotique α. On note ici ϕa l’unique nombre réel tel
que P(N (0, 1) < ϕa ) = a, il est appelé quantile d’ordre a de la loi normale.
L’approximation est admise si nθ ≥ 5.
Une autre méthode∗
Pour de petites valeurs du niveau α, les inégalités de grandes déviations (1.5),
donnent un autre moyen d’obtenir des intervalles de confiance asymptotiques
[X − − , X + + ], où ± sont déterminés de sorte que

(X−− ) ∗
(X++ )
e−ng + e−ng uα
1.7. CONTRÔLE DE QUALITÉ 15

1.7 Contrôle de qualité


Pour satisfaire aux exigences du contrôle de qualité, on doit obtenir une règle
de décision pour tester une hypothèse du type θ ≤ θ0 contre θ > θ0 . Soit α > 0.
Notons, qu’il existe un, plus petit, entier kα ∈ {0, 1, . . . , n} tel que

X
Pθ0 (Sn ≤ kα ) = Cns θ0s (1 − θ0 )n−s ≥ 1 − α
s=0

On acceptera l’hypothèse θ ≤ θ0 lorsque l’observation est telle que Sn < kα , et


on la rejette lorsque Sn ≥ kα . Pour quantifier ce test, la proposition suivante
est essentielle.

Proposition 1.3 a) Soit k ∈ {0, 1, . . . , n}, quelconque, alors l’application θ 7→


Pθ (S ≥ k) est croissante [0, 1] → [0, 1].
b) Posons pθ (x) = Cnx θx (1 − θ)n−x , pour x ∈ {0, 1, . . . , n} et θ ∈ [0, 1]. Soient
θ0 < θ1 , on pose ux = pθ1 (x)/pθ0 (x), alors la suite (ux )0≤x≤n est croissante.
Preuve. b) Directement, u(x + 1)/u(x) = θ1 (1 − θ0 )/(θ0 (1 − θ1 )) > 1. On peut
aussi écrire log pθ (x) = log Cnx + x log θ + (n − x) log(1 − θ), alors log ux =
x log θθ01 + (n − x) log 1−θ
1−θ0 , est la somme de deux suites croissantes, on en déduit
1

donc u0 ≤ · · · ≤ un . Pk
a) Soient θ0 < θ1 , posons c = uk , π = Pθ0 (S ≤ k) = x=0 Pθ0 (S = x).
Ainsi (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π ≤ 0 en raison du point b). Notons que
Pθ1 (S ≤ k) − Pθ0 (S ≤ k) = Pθ0 (S > k) − Pθ1 (S > k), sommer en x permet de
conclure :
n
X 
∆ ≡ (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π
x=0
k
X n
X k
X n
X
= pθ1 (x) − π pθ1 (x) − c pθ0 (x) + cπ pθ0 (x)
x=0 x=0 x=0 x=0
k
X
= π pθ1 (x) − π − cπ + cπ
x=0
k
X
= pθ1 (x) − π ≤ 0.
x=0

La probabilité de rejeter l’hypothèse θ ≤ θ0 à tort est le niveau du test ainsi


obtenu
sup Pθ (Sn > kα ) = Pθ0 (Sn > kα ) ≤ α
θ≤θ0

en utilisant la proposition 1.3. Un autre caractère du test est de savoir si on a


effectivement eu raison de refuser l’hypothèse θ ≤ θ0 lorsque θ ≤ θ0 ; soit θ > θ0 ,
on note βθ = Pθ (Sn > kα ), la puissance du test. Alors la proposition 1.3 prouve
aussi que βθ ≥ α, on dit que le test est sans biais.
16 CHAPITRE 1. MODÈLE DE BERNOULLI

Évidemment, des tests différents pourraient être développés ; on pensera à


tester θ = θ0 contre θ 6= θ0 en rejetant l’hypothèse lorsque |Sn /n − θ0 | > Kα où
Kα désigne un seuil tel que Pθ0 (|Sn /n − θ0 | > Kα ) ≤ α.

1.8 Tests asymptotiques


Dans la section qui précède, l’inconvénient de la manière de procéder réside
dans ce que la valeur de kα n’est pas toujours simple à obtenir, même si elle est
tabulée pour les petites valeurs de n. On se pose donc ici la question naturelle
de savoir ce qui se passe quand n est grand. A cette question, deux réponses
terriblement classiques sont connues :
– Lorsque n ↑ ∞ et nθ ↑ λ, on a donc θ = θn et l’examen de la fonction
génératrice gSn prouve que Sn → P(λ) converge en Pθn −loi vers la loi de
k
Poisson de paramètre λ, P(S = s) = e−λ λk! .
Cette asymptotique, difficile à comprendre sera généralement évitée.
– Lorsque n ↑ ∞ et θ est fixé, le théorème de limite centrale montre que
1  √ L 
√ X − θ = n (Sn − nθ) →n→∞ N 0, θ(1 − θ)
n

Par suite, pour n grand, on a pour Y ∼ N (0, 1) normale standard de


1 u2
densité ϕ(u) = √ e− 2 ,

   
k − nθ k − nθ
Pθ (Sn > k) ≡ P Y > √ =1−Φ √
n n
Rx
où Φ(x) = −∞ ϕ(u) du.
On notera souvent Φ = 1 − Φ, la fonction de queue de la répartition normale.
Pour déterminer pratiquement un tel k, on introduit :

Définition 1.1 On pose ϕα ∈ R, l’unique valeur réelle telle que

P(Y ≤ ϕα ) = Φ(ϕα ) = α

Cette valeur est aussi appelée α−quantile de la loi normale.


De façon plus générale, pour toute loi P sur R de fonction de répartition F ,
on appelle α−quantile, un réel fα tel que F (fα ) = α.
Lorsque la fonction F est strictement croissante, il y a unicité du quantile fα et
un quantile de niveau donné existe toujours à la condition que F soit continue
(ou si la loi P est sans atome).
Pour déterminer un k asymptotiquement raisonnable lorsque n ↑ ∞ on po-
sera ainsi √
k = nθ0 + nϕ1−α w kα
Si α = 0, 05 on sait que ϕ1−α w 1, 96 et pour α = 0, 001, ϕ1−α w 3.
1.9. VALIDITÉ DE L’ASYMPTOTIQUE∗ 17

1.9 Validité de l’asymptotique∗


Une question importante reste posée :
Quelle taille effective des échantillons permet l’approximation précédente ?
Cette question est fondamentale pour comprendre la nature quotidienne des
approximations faites par les statisticiens.
Son importance nous autorise la digression suivante qui ne saura faire
l’objet d’aucune question pour l’examen validant ce cours.

Théorème 1.3 Soit  > 0 fixé, alors,


 1

sup ∆n,θ (u) = O (nθ)− 8
u∈R

uniformément pour θ ∈ [, 1 − ], si on pose


!
Sn − nθ
∆n,θ (u) = Pθ p ≤ u − Φ(u)

nθ(1 − θ)

Remarques
– Ce théorème n’a rien d’optimal car l’exposant 81 peut être remplacé par 12
(voir Petrov, 1975).
– Il permet cependant de valider l’approximation gaussienne lorsque le pro-
duit nθ est grand. L’heuristique indiquée par la simple approximation
Poissonnienne du début de la section est ainsi confirmée.
En statistique, on se contente traditionnellement de supposer

nθ ≥ 5.

Pour prouver ce résultat, on aura besoin du lemme 1.2 qui suit.


Lorsque f : E → R désigne une fonction numérique arbitraire, on posera
toujours
kf k∞ = sup |f (x)|.
x∈E

Lemme 1.2 (Lindeberg) Soit X1 , X2 , X3 , . . . une suite réelle indépendante


centrée, on considère une suite gaussienne indépendante de celle-ci, et indépendante,
vérifiant Yi ∼ N (0, EXi2 ). Alors, pour toute fonction f : R → R, trois fois
dérivable et de dérivée troisième, f 000 , continue, alors
n
kf 000 k∞ X
|E (f (X1 + · · · + Xn ) − f (Y1 + · · · + Yn ))| ≤ E|Xi |3
2 i=1
18 CHAPITRE 1. MODÈLE DE BERNOULLI

Preuve du lemme 1.2. Posons Uk = X1 + · · · + Xk−1 + Yk+1 + · · · + Yn pour


1 ≤ k ≤ n alors
n
X n
X
Ef (X1 + · · · + Xn ) − f (Y1 + · · · + Yn ) = Ef (Uk + Xk ) − f (Uk + Yk ) = ∆k
k=1 k=1

000
La formule de Taylor implique alors que |∆k | ≤ kf 6k∞ E|Xk |3 + E|Yk |3 . Pour

3/2
conclure, on note que E|Yk |3 = E|Z|3 EXk2 pour Z ∼ N (0, 1), normale
2 3/2

standard ; l’inégalité de Hölder implique EXk ≤ E|Xk |3 et une intégration
3 4
par parties permet de voir que E|Z| = 2π < 2.√

Preuve du théorème
p 1.3. On considère les variables iid X1 , . . . , Xn définies par
Xi = (bi − θ)/ nθ(1 − θ), pour une suite de binomiales iid b1 , b2 , . . . ∼ b(θ)
alors Eθ b3i = Eθ bi = θ et par convexité de x 7→ |x|3 , il vient aisément que
Eθ |bi − θ|3 ≤ 22 Eθ b3i + θ3 ≤ 8θ.
Soit 0 < θ ≤ 1 − , alors pour f ∈ C 3 , on obtient avec le lemme 1.2, et pour
Z ∼ N (0, 1) :
!
n
Sn − nθ kf 000 k X 4kf 000 k∞ 1

∆n (f ) = Eθ f p − f (Z) ≤ E|Xi |3 ≤ √

3
nθ(1 − θ) 2 i=1
2 nθ

Pour conclure, on montrera en exercice que pour chaque η > 0 et chaque u ∈ R,


000
il existe une fonction fu,η ∈ C 3 vérifiant 1I[u+η,∞[ ≤ fu,η ≤ 1I[u+η,∞[ et kfu,η k∞ =
−3
 √
O η . Notons que P(Z ∈ [u, u + η]) ≤ η/ 2π, on obtient alors

∆n (fu,η ) + P(Z ∈ [u, u − η]) ≤ ∆n,θ (u) ≤ ∆n (fu,η ) + P(Z ∈ [u, u + η])

et donc  
1
∆n,θ (u) ≤ C √ +η ,
η 3 nθ
pour une constante indépendante de n, η,  et θ. Le choix η = (nθ)−1/8 permet
de conclure. n2 m
Chapitre 2

Les points de vue


statistiques

Plusieurs points de vue prévalent dans l’étude des questions statistiques.


Nous n’en retiendrons qu’un nombre limité afin de donner une vision simplifiée
de ce champ de travail relativement mal délimité.

2.1 Analyse des données


Ici aucune modélisation probabiliste n’est requise. Pour revenir à l’exemple
du chapitre précédent, l’analyse des résultats d’un sondage d’opinions avec (cette
fois-ci) plusieurs questions donne lieu à des ensembles de données vectorielles
en dimension assez grande. L’objectif de l’analyse des données est la recherche
d’informations permettant une interprétation rapide de très grands tableaux de
nombres.
Géométriquement, nous observons un ”nuage” de points x1 , . . . , xn ∈ Rd .
Considérons la matrice symétrique et positive définie par
n n
1X 1X
A= (xi − x)(xi − x)t , x= xi
n i=1 n i=1

L’ellipsoı̈de E = {u ∈ Rd | ut Au ≤ 1} est une partie bornée de Rd lorsque la


matrice précédente est inversible (la forme quadratique associée est définie).
Différentes questions fondées sur une analyse précise de cette forme quadra-
tique sont l’objet de l’analyse des données. En particulier
– Sparsité. Une grande partie des méthodes statistiques actuelles adresse
le cas dans lequel n  d ; si les données contiennent énormément de coor-
données non informatives, on peut encore les classifier. Le domaine d’ap-
plication de ces techniques est priotairement celui de la biologie. Ainsi les
chaines d’ADN sont de longues chaines de caractères (souvent de l’ordre
de 300 000) prenant seulement 4 valeurs distinctes. Classifier les individus

19
20 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES

pour inférer la sensibilité à une affection spécifique a une importance clai-


rement vitale.
Dans la suite du cours, nous nous limitons à l’asymptotique classique
d  n.
– Analyse en composantes principales. La diagonalisation de A fait
ressortir des directions e1 , . . . , eI de Rd (I < d) contenant une fraction f
de l’information totale contenue dans l’observation
P
j≤I λj
f=P
j≤d λj

où λ1 ≥ λ2 ≥ · · · ≥ λd désignent les valeurs propres de A rangées par


ordre décroissant.
– Analyse en composantes principales normées. Si on désire que les
facteurs d’échelle soient supprimés, on remplace simplement xi = (xi,j )1≤j≤d
par xei = x/si pour 1 ≤ i ≤ n, où on pose
n n
1 X 1X
s = (s21 , . . . , s2d ) : s2j = (xi,j − xi )2 , xi = xi,j
n − 1 i=1 n i=1

– Analyse des correspondances. Celle-ci recherche les composantes les


plus significatives dans l’observation ; il s’agit donc de trouver des lignes
de x = (x1 , . . . , xn ) renfermant presque toute l’information. Par exemple,
pour le cas du sondage, on s’intéresse aux questions les plus discriminantes
du questionnaire.
Une présentation rapide et agréable des techniques de l’analyse des données
est proposée par Dacunha-Castelle et Duflo (au début de leur premier vo-
lume, des exercices corrigés complètent cette vision très synthétique).
– Matrices aléatoires. Pour conclure cette section, indiquons un énoncé
de la théorie des matrices aléatoires ( 1 ), très en vogue en ce moment. Il
s’agit de déterminer le comportement asymptotique des valeurs propres
de matrices de covariance empiriques lorsque la dimension des données
(d = d(n)) comme le nombre n des individus converge vers l’infini. On
dispose donc d’observations iid Xn = (xj,k )1≤j≤d;1≤k≤n (où l’individu
k est représenté par le vecteur de taille d = d(n) ↑ ∞ lorsque n ↑ ∞,
xk = (xj,k )1≤j≤d où les xj,k sont iid, centrées et de variance σ 2 . La question
est la distribution asymptotique des valeursP propres λ1,n , . . . , λn,n de la
1 n t
matrice de covariance empirique An = n−1 k=1 (xk − x̄)(xk − x̄) . Les
observations
Pn étant centrées on se restreint ici au cas de la matrice An =
1 t 1 t
n k=1 x k x k = n Xn XnP et on peut prouver que la loi (aléatoire) de ces
1 n
valeurs propres µn = n i=1 δλi,n converge vers la loi de densité p(x) =
p
(b − x)(x − a)/(2πxyσ 2 ) sur [a, b] lorsque y = limn d(n)/n(> 0) existe
√ √
et où on a posé a = σ 2 (1 − y)2 , b = σ 2 (1 + y)2 (loi de Marc̆enko-
Pastur). En d’autres termes, pour toute fonction g : R → R continue et
1. On se reportera au très bel article de revue de Bai, Statistica Sinica 9(1999), 611-677.
2.2. STATISTIQUE INFÉRENTIELLE CLASSIQUE 21

bornée,
Z n Z b
1X
g(x)dµn (x) = g(λi,n ) → g(x)p(x)dx, p.s.
R n i=1 a

C’est-à-dire que cette convergence vaut pour presque chaque ω de l’espace


probabilisé sur lequel les variables aléatoires (individus) Xn sont définies.

2.2 Statistique inférentielle classique


Le modèle probabiliste sous-jacent est noté systématiquement (Ω, A, P). On
suppose ici l’existence d’une famille de lois (Pθ )θ∈Θ sur l’espace mesuré (E, E).
On observe alors une réalisation d’un phénomène de loi Pθ pour une certaine
valeur du paramètre θ0 .
L’objectif de la statistique classique est, en particulier, d’obtenir des infor-
mations concernant θ0 :
– Estimation : il s’agit de deviner la valeur de g(θ) à la vue de la réalisation
X(ω) où X ∼ Pθ . On cherche donc une bonne adéquation de ce paramètre
par une fonction de l’observation (indépendante de θ).
– Intervalles de confiance : ici on veut connaı̂tre, avec une certaine assu-
rance, l’endroit où se trouve le paramètre lorsque l’on observe X(ω). Une
région de confiance au niveau α est telle que Pθ (θ ∈ D(X)) ≥ 1 − α.
– Tests d’hypothèses. Un outil d’aide à la décision est un test, qui a pour
objet de décider si θ appartient à une partie Θ0 ⊂ Θ ou à Θ1 = Θc0 ⊂ Θ.

Remarque et notation. Dire que l’observation suit la loi Pθ signifiera, dans


les faits, qu’une famille de lois Pθ sur (Ω, A) régit le monde ambiant, ou encore
que Pθ = Pθ ◦ X −1 est la loi image de Pθ par X.

Exemples de modèles.
– Soit (πθ )θ∈Θ une famille de lois sur R. Dans ce cas particulier, on sait qu’il
suffit de donner la fonction de répartition Fθ de πθ . Pour chaque θ il existe
une probabilité Pθ sur un espace probabilisable assez riche (ici Ω = [0, 1],
muni de sa tribu borélienne, suffira) telle que, pour chaque entier n, on
détermine une suite de variables aléatoires

X (n) : (Ω, A) → (Rn , B(Rn ))

vérifiant que le vecteur X (n) admet des composantes iid et de loi πθ .


– Les exemples de modèles non indépendants sont nombreux ; on parlera de
modèles dynamiques ou de séries temporelles ou chronologiques. Suppo-
sons ainsi que la suite (ξn )n∈Z est réelle et iid, alors
– Xn = θξn−1 + ξn , est le modèle MA(1) (moving average ou moyenne
mobile d’ordre 1) défini lorsque θ ∈ R
22 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES

– Xn = θXn−1 + ξn , est le modèle AR(1) (auto-régressif) défini lorsque


θ ∈] − 1, 1[ : lorsquePE|ξi | < ∞|, l’équation précédente admet la solution
∞ k
stationnaire
q Xn = k=1 θ ξn−k .
– Xn = θ + Xn−1 2 ξn est le modèle ARCH (Auto-Régressif et Condition-
nellement Hétéroscédastique) ; de tels modèles ont une variance condi-
tionnelle Var (Xn |Xn−1 ) non constante par rapport au passé, ils sont
adaptés à l’étude des phénomènes financiers et permettent ainsi de
prendre en compte les Krachs boursiers.
Les propriétés asymptotiques de tels modèles sont fondées sur des va-
riantes dépendantes des théorèmes limite usuels : loi des grands nombres
ou théorème de limite centrale.

2.3 Statistique bayésienne


Cette optique signifie qu’il n’existe plus de vraie valeur θ0 du paramètre ;
ainsi X suit un mélange de lois PX = P ◦ X −1 = Θ dν(θ)Pθ pour une certaine
R

loi ν a priori sur l’espace des paramètres.


Lorsque l’observation statistique X = x est connue et lorsque la loi Pθ a une
densité pθ par rapport à une mesure µ ≥ 0, pour chaque valeur du paramètre θ ∈
Θ, alors la loi de θ conditionnée par cette réalisation admet la loi (conditionnelle)

pθ (x)
dν(θ| x) = R dν(θ)
p 0 (x)dν(θ0 )
Θ θ

Le cadre gaussien est particulièrement adapté à la statistique bayésienne en


raison de l’hérédité de la gaussiannité par conditionnement.
Dans ce cadre bayésien, un intervalle de confiance du paramètre est donc
une partie de l’ensemble des lois sur θ.
Une application simple de la vision bayésienne est la construction d’estima-
teurs admissibles, fondée sur la proposition 2.1.
Tous les ouvrages classiques proposent des présentations agréables de cette
vision (Bickel et Doksum, par exemple).

2.4 Décision statistique


Soit (E, E, Pθ )θ∈Θ , un modèle statistique. On considère un ensemble de
décisions D 3 d. Une règle de décision pure est une fonction δ : E → D
associant une décision à toute réalisation de l’expérience statistique.
Si θ, qui désigne la vraie valeur du paramètre, est connu, on suppose qu’il
existe une “bonne” décision d(θ).
e
Une fonction de perte ` : D × Θ → R+ est une fonction telle que

`(d, θ) = 0 ⇔ d = d(θ)
e
2.4. DÉCISION STATISTIQUE 23

(cette équivalence donne un moyen alternatif de définir une bonne décision).


La perte dûe à la décision δ est la quantité :
Z
Rθ (δ) = Eθ `(δ(X), θ) = `(δ(x), θ)dPθ (x)
E

Soient maintenant deux règles de décision δ1 et δ2 , on dira que δ1 est préférable


à δ2 (et on notera δ1 < δ2 ) lorsque
∀θ ∈ Θ : Rθ (δ1 ) ≤ Rθ (δ2 )
Alors δ est dite admissible lorsqu’il n’existe pas de décision préférable à δ (autre
que δ elle-même). Elle est dite minimax lorsque
sup Rθ (δ) = inf sup Rθ (δ)
e
θ δ
e θ

Lorsque ν désigne une loi sur Θ (équipé d’une tribu . . .), le risque bayésien
associé s’écrit Z
Rν (δ) = dν(θ)Rθ (δ)
Θ
ce qui permet aussi de classer de façon bayésienne de telle règles de décision.
Le résultat suivant est une justification de l’introduction à la statistique
bayésienne.

Proposition 2.1 Soit Θ un espace discret tel que la loi ν charge chaque point
(de Θ). Un estimateur bayésien (i.e. minimisant le risque de Bayes) est admis-
sible.
Si Θ ⊂ Rd est un ensemble de mesure de Lebesgue non nulle, λd (Θ) 6= 0.
Supposons que ν soit une mesure absolument continue par rapport à la mesure
de Lebesgue λd (on écrit ainsi dν(θ) = n(θ)dλd (θ) avec une densité n sur Θ).
Si sa densité est continue et vérifie n(θ) 6= 0, λd − p.s., le même résultat vaut
encore.
Preuve. Raisonnons pas l’absurde. Si la règle de décision δ n’est pas admissible,
il existe une règle de décision δ ∗ telle que Rθ (δ ∗ ) ≤ Rθ (δ) et telle qu’existe
θ∗ ∈ Θ vérifiant Rθ∗ (δ ∗ ) < Rθ∗ (δ). Par sommation sur θ,
X X
Rθ (δ ∗ )ν({θ}) < Rθ (δ)ν({θ})
θ∈Θ θ∈Θ

donc δ ne peut optimiser le risque bayésien.


Une preuve analogue s’applique dans le cas continu.

Remarque. Dans le cas continu, on peut remplacer la continuité de n par une


condition de minoration
∃c > 0, n(θ) ≥ c > 0, λd − p.s.
Toutes ces définitions n’ont pour but que de donner des images un peu unifiées
de ce que le statisticien peut attendre. Pour les expliquer, il est indispensable
de les ré-interpréter dans différents cadres.
24 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES

– Estimation (ponctuelle). Quand δ estime la fonction g(θ) du paramètre,


on pose D = g(Θ) et d(θ) e = g(θ). On a souvent `(d, θ) = H(kd − d(θ)k)
pour une fonction H ≥ 0, R → R+ qui ne s’annule qu’en 0 lorsque Θ ⊂ V
est une partie d’un espace vectoriel normé V . On choisit généralement les
fonctions de perte H(t) = t2 , |t| ou |t| ∧ c.
– Régions de confiance. δ est une région de confiance lorsque D = P(Θ) ;
on parle aussi d’estimation ensembliste.
– Tests d’hypothèse. Si D = {0, 1}, δ est un test, δ(x) le résultat du test
après l’observation de x ∈ E. Lorsque l’on teste l’hypothèse θ ∈ Θ0 ⊂ Θ,
la bonne décision est d(θ)
e = 0 lorsque θ ∈ Θ0 , d(θ)
e = 1 lorsque θ ∈
Θ1 = Θc0 . De plus, `(i, θ) = 0 si et seulement si θ ∈ Θi (i = 0, 1) ; enfin
`(i, θ) = ai (θ) > 0 lorsque θ ∈
/ Θi . Finalement
1
X
Rθ (δ) = ai (θ)I
1(θ∈Θi ) Pθ (δ(X) = 1)
i=0

– Sélection de modèle. Si D = {1, . . . , k} la décision correspondante per-


mettra de choisir entre k modèles indexés par Θ1 , . . . , T hetak et, étendant
ce qui précède, la fonction de coût s’écrit alors
k
X
Rθ (δ) = ai (θ)I
1(θ∈Θi ) Pθ (δ(X) = 1)
i=1

2.5 Quantiles
Ces quantités sont d’un intérêt essentiel pour juger de la qualité des procédures
statistiques, c’est pourquoi nous les présentons dans une section à part.

Définition 2.1 xα tel que P(X < xα ) = α est (un) α−quantile de la loi PX de
X.

Définition 2.2 On appelle F (x) = P(X ≤ x), la fonction de répartition de la


variable aléatoire X ∈ R. Cette fonction est croissante et continue à droite, de
plus, elle admet une limite à gauche en tout point x ∈ R.
On définit (même si F n’est pas bijective), l’inverse généralisé de F par la
relation
F −1 (t) = inf{x ∈ R| F (x) ≥ t}

Remarques.
– La continuité à droite s’écrit F (x) = limy→x+ F (y). L’existence de la li-
mite à droite suit, elle, automatiquement du fait que F soit croissante car
limy→x− F (y) = supy<x F (y).
– F est continue au point x si et seulement si x n’est pas un atome de la loi
de X. Lorsque F est continue en tout point (la loi de X est continue) et
strictement croissante (la probabilité que X soit dans un intervalle ouvert
2.5. QUANTILES 25

non vide quelconque est non nulle), alors F est une bijection sur son image
(F −1 coı̈ncide avec son inverse généralisée) et

la loi de U = F (X) est uniforme sur [0, 1] (2.1)

en effet : {U ≤ u} ⇐⇒ {X ≤ F −1 (u)} donc

P(U ≤ u) = P(X ≤ F −1 (u)) = F (F −1 (u)) = u

– La fonction F −1 (t) est croissante, continue à gauche et admet une limite


en tout point t ∈]0, 1[.
Pour le voir, notons que

F −1 (t) ≤ x ⇐⇒ t ≤ F (x) (2.2)

En effet, l’ensemble Et = {x ∈ R| F (x) ≥ t} est un intervalle car F


est croissante ; lorsque t ∈]0, 1[, cet intervalle s’écrit (xt , +∞[ pour un
xt ∈ R. Si xt ∈/ Et , on aurait F (xt ) < t bien que F (x) ≥ t si x > xt , en
contradiction avec la continuité à droite de F au point xt .
Ainsi
F (x) ≥ t ⇐⇒ x ≥ xt = F −1 (t)
– Pour toute variable uniforme sur [0, 1] et toute fonction de répartition F ,

la fonction de répartition de F −1 (U ) ∈ R vaut F. (2.3)

Ceci permet la simulation de variables aléatoires de loi donnée en utilisant


la fonction random de divers logiciels qui tire au hasard des nombres de
[0, 1], selon une loi uniforme.
– Ainsi, on simulera X ∼ b(θ) en tirant une variable uniforme sur [0, 1] :
on pose X = 0 si U < 1 − θ et X = 1, sinon.
– De même, une loi exponentielle E(θ) de paramètre θ ∈ R+ admet la
densité θe−θx sur R+ , sa fonction de répartition s’écrit F (x) = 1 − e−θx
et F −1 (t) = − θ1 log(1 − t) ; on prouvera donc que X = − θ1 log U ∼ E(θ).

Exercice (développement asymptotique du quantile gaussien)


Lorsque x → +∞, une intégration par parties et la formule de la moyenne
impliquent que pour Z ∼ N (0, 1),
Z ∞
P(Z > x) = 1 − Φ(x) = ϕ(t)dt
x
Z ∞
−t −t2 /2 dt
= e √
x t 2π
Z ∞
1 −x2 /2 1 −t2 /2 dt
= √ e + 2
e √
x 2π x t 2π
  
1 2 1
= √ e−x /2 1 + O
x 2π x
26 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES

On note ici, xα = ϕ1−α , le (1 − α)−quantile d’une loi gaussienne standard.


La première remarque est que limα→0 xα = +∞, la relation précédente permet
−x2 /2
donc d’écrire (si α → 0) e xαα = aα , d’où x2α = −2 log xα + log bα , où bα =


a−2
α et limα→0 α = 2π. Par suite x2α = log bα (1 + o(1)) lorsque α → 0 car
2
log xα = o(xα ) quand xα → ∞ donc
s
1
xα = log √ (1 + o(1))
(α 2π)2
q
1
Précisons yα = xα − log a2α ,
l’ordre du terme complémentaire qui n’est pas
q
nécessairement borné. On calcule x2α = log a12 + 2yα log a12 + yα2 = log bα .
√ α α
√ 
On obtient donc 2yα log bα ∼ −2 log x2α , car yα = o(xα ) = o log bα . Nous
obtenons donc
log log bα
yα = − √ (1 + o(1)).
log bα
Par suite nous obtenons un équivalent dans lequel le terme de reste converge
vers 0,

log log (α√12π)2


s
1
xα = log √ − q (1 + o(1)), si α → 0
(α 2π)2 log √1 2
(α 2π)
Chapitre 3

Modèles Statistiques

Définition 3.1 Une statistique est une variable aléatoire Ω → F (mesurable


(Ω, A) → (F, F), dans un espace mesuré (F, F) arbitraire).
Un modèle statistique, (E, E, Pθ )θ∈Θ , est une famille de lois de probabilité
sur un espace mesuré d’observations.

L’observation X est souvent composée de la superposition de n observations


indépendantes ( 1 ). Nous distinguerons la loi image de l’observation statistique
X à valeurs dans l’espace mesuré Pθ = Pθ ◦ X −1 , de la loi sur (Ω, A) sous
laquelle les espérances, probabilités, variances ou leurs versions conditionnelles
seront calculées.

3.1 Exemples de modèles


Plusieurs cas seront envisagés
– Lorsque Θ ⊂ Rd pour un entier d > 0 on parlera de modèle paramétrique,
– Si il n’est pas possible de se ramener au cas précédent (via une trans-
formation bijective et, au moins mesurable), on parlera de modèle non
paramétrique, et
– Lorsque Θ ⊂ Rd × U où U n’est pas paramétrique, si lorsque θ = (γ, u) ∈
Θ, seul le paramètre γ est important alors on parlera de modèle semi-
paramétrique. Le paramètre u est appelé paramètre de nuisance.

Remarque. La distinction entre modèles paramétriques ou non paramétriques


n’est pas toujours aisée. On suppose implicitement que la paramétrisation θ 7→
Pθ est naturelle ou “un peu régulière” ( 2 ).
1. dans le cadre asymptotique, cette situation sera la seule considérée ici.
2. On sait ( ?) que tout ensemble raisonnable est en bijection avec R sous l’hypothèse du
continu ; ceci implique que la bijection qui lie R à un espace arbitraire (par exemple à un
espace fonctionnel) n’a aucune propriété de mesurabilité. Pour être plus précis, disons que
tout ensemble de fonctions continues de Rp à valeurs dans Rq peut être mis en bijection avec

27
28 CHAPITRE 3. MODÈLES STATISTIQUES

– Modèle gaussien. Le vecteur X = (X1 , . . . , Xn ) a des composantes iid


∼ N (µ, σ 2 ), ainsi Pθ = N (µ, σ 2 )⊗n si θ = (µ, σ 2 ) ∈ Θ = R × R+ .
Toute autre famille simple de loi peut, bien sûr, remplacer ici la loi gaus-
sienne.
– Modèle exponentiel. Ici la loi de X a une densité
 
Xd
pθ (x) = C(θ)h(x) exp  gj (θ)Tj (x) (3.1)
j=1

par rapport à une mesure µ (positive et σ−finie).


Il est appelé modèle exponentiel canonique lorsque gj (θ) = θj .
– Modèle iid. Le vecteur X = (X1 , . . . , Xn ) a des composantes iid de densité
f (x) par rapport à la mesure de Lebesgue. Si, par exemple, f ∈ C 2 on
obtient un exemple de modèle non-paramétrique, Θ est ici l’ensemble des
densités de classe C 2 .
Ce modèle est inclus dans celui pour lequel le paramètre est une fonction de
répartition ; c’est-à-dire toute fonction F : R → [0, 1], croissante, continue
à gauche et admettant une limite à droite en tout point, càdlàg, vérifiant
limx→−∞ F (x) = 0, limx→∞ F (x) = 1. Cet ensemble est en bijection  avec
t
celui des fonctions de répartition sur [−1, 1] : F 7→ G où G(t) = F 1+|t| .
– Modèle de régression. Le vecteur X = (X1 , . . . , Xn ) a des composantes
iid telles que Xi = (Yi , Zi ) ∈ R × R et Zi = g(Yi ) + ξi pour des suites
indépendantes et iid ξ1 , ξ2 , . . . ∼ N (0, 1), et Y1 , Y2 , . . . admet une densité
inconnue f . Le modèle est ici non paramétrique ; il est semi-paramétrique
lorsque l’on ne s’intéresse pas à la loi de Y1 et que la fonction g est donnée
de manière paramétrique et si c’est le seul élément important.
– Régression linéaire. X = (X1 , . . . , Xn ) a des composantes iid telles que
Xi = (Yi , Zi ) ∈ Rp × R et Zi = Yi β t + ξi avec E(ξi | Yi ) = 0. Ceci donne
lieu à deux modèles bien différents :
– Celui où θ = (β, f ) est un couple avec β ∈ Rp et f désigne la densité de
la loi de Y1 est semi-paramétrique. Ici f est un paramètre de nuisance.
– Si on conditionne par rapport aux observations Y , le modèle redevient
paramétrique.

Définition 3.2 Le modèle (Pθ )θ∈Θ est identifiable lorsque l’application θ 7→ Pθ


est injective.

Rappel. En souhaitant que ce soit inutile, rappelons que cela signifie

∀ θ1 , θ2 ∈ Θ : Pθ1 = Pθ2 ⇒ θ1 = θ2 .
R, contrairement aux ensemble P(R) des parties de R ou à celui de toutes les applications de
[0, 1] dans lui-même. Par exemple, on peut établir une surjection de R → F , l’ensemble des
fonctions de répartition sur R. De telles fonctions sont croissantes et continues à droites avec
une limite à gauche ; elles sont donc déterminées par leurs valeurs en tout point rationnel, il
suffit donc de définir une surjection de R dans l’ensemble des suites de réels pour conclure.
3.2. VRAISEMBLANCE 29

Exemples :
– Pour un échantillon gaussien iid, ξ1 , . . . , ξn ∼ N (0, σ 2 ), on pose Xk =
aekb +ξk pour k = 1, . . . , n, c’est-à-dire Pθ = N (aeb , σ 2 )×· · ·×N (aekb , σ 2 )
et θ = (a, b, σ 2 ) ∈ R2 × R+ . Le modèle est identifiable lorsque n ≥ 2 et
non identifiable si n = 1 car (a, b, σ 2 ) 6= (aeb , 0, σ 2 ) bien que ces deux
paramètres conduisent à la même valeur de Pθ .
– Modèle Tobit. Ici Xi = 1{ξi >0} pour une suite iid et gaussienne, ξ1 , . . . , ξn ∼
N (µ, σ 2 ) ainsi Xi ne prend que deux valeurs et
n
X
Pθ X = (x1 , . . . , xn ) = Psθ (ξ1 > 0) 1 − Pθ (ξ1 > 0 )n−s ,
 
s= xi
i=1

comme Pθ (ξ1 > 0) ne dépend que du rapport µ/σ, on en déduit que ce


modèle n’est pas identifiable.

3.2 Vraisemblance
Définition 3.3 Le modèle (Pθ )θ∈Θ est dominé par la mesure µ (positive et
sigma-finie sur (E, E)) si
∀A ∈ E : µ(A) = 0 ⇒ Pθ (A) = Pθ (X ∈ A) = 0
(on note Pθ  µ), alors Pθ (dx) = pθ (x)µ(dx). On appelle pθ (x) la densité de
la loi Pθ de X.
La vraisemblance du modèle est alors θ 7→ Vθ (x) = pθ (x) ou, plus sou-
vent la fonction aléatoire θ 7→ Vθ (X) = pθ (X). On note Lθ (x) = log pθ (x) sa
log −vraisemblance.

Rappel. Le théorème de Radon-Nikodym prouve, en effet, que si Pθ  µ,


alors la densité pθ (x) = dP θ
existe bien ; elle est définie µ−presque sûrement
R dµ
par la relation Pθ (A) = A pθ (x) dµ(x) (pour A ∈ E). On distingue généralement
deux cas :
– Si E est discret ( 3 ) alors E est au plus dénombrable et E = P(E) l’en-
semble de ses parties est la tribu utilisée (c’est aussi la plus petite tribu
contenant tous les points de E) ; de plus µ est la mesure de décompte sur
E (i.e. µ({x}) = 1 pour tout x ∈ E).
Dans ce cas : pθ (x) = Pθ (X = x) = Pθ ({x}).
– Si E ⊂ Rn et µ est la mesure de Lebesgue, λn , on dira simplement que pθ
est la densité de X sous Pθ .
Par exemple, si E = Rn , Pθ = Pθ⊗n avec Pθ (dt) = fθ (t)λ(dt) alors µ =
λ⊗n = λn , on a
Vθ (x1 , . . . , xn ) = fθ (x1 ) · · · fθ (xn ),
3. Ici cela signifiera que chaque point est un atome, c’est-à-dire que chaque point de l’espace
est occupé avec une probabilité non nulle.
30 CHAPITRE 3. MODÈLES STATISTIQUES

et
Lθ (x1 , . . . , xn ) = log fθ (x1 ) + · · · + log fθ (xn ).

Interprétation. Pour un espace discret la vraisemblance est bien une pro-


babilité, donc le terme vraisemblance s’applique bien. Pour un espace d’états
continus Pθ (kX − xk ≤ dx) = Vθ (x) dx est aussi grande (à l’échelle dx) dès lors
que Vθ (x) est important.
Plus Vθ (X) est grand et plus la réalisation de X est ”vraisemblable” dans
l’univers Pθ .

Exemples.
– Dans un modèle iid N (µ, σ 2 ),
( n
)
1 X (Xi − µ)2
Vθ (X1 , . . . , Xn ) = n exp −
(2πσ 2 ) 2 i=1
2σ 2

– Dans un modèle iid b(θ),


Pn Pn
Xi Xi
Vθ (X1 , . . . , Xn ) = θ i=1 (1 − θ) i=1

– Dans un modèle iid P(θ), de Poisson


n
−nθ
Y θXi
Vθ (X1 , . . . , Xn ) = e
i=1
Xi !

– Pour le modèle dynamique, AR(1) gaussien, X0 = 0 et Xi = a+bXi−1 +ξi


pour ξ1 , . . . , ξn iid N (0, σ 2 ),
n
Y 1 1 2
Vθ (X1 , . . . , Xn ) = √ e− 2σ2 (Xi −a−bXi−1 )
i=1
σ 2π

Définition 3.4 Le modèle est homogène lorsque, pour tout θ0 ∈ Θ la mesure


Pθ0 domine le modèle (Pθ )θ∈Θ . En d’autres termes, pθ (x) > 0 µ−p.s. pour
chaque θ ∈ Θ.

Ainsi le modèle gaussien (si σ 2 > 0) et le modèle de Bernoulli (si θ ∈]0, 1[), sont
homogènes ; le modèle uniforme U [0, θ] d’une variable uniforme sur l’intervalle
[0, θ] est dominé par la mesure de Lebesgue (lorsque θ > 0) et il n’est pas
homogène car U [0, θ]  U [0, θ0 ] ⇔ θ ≤ θ0 .

Exercice (Modèle gaussien contaminé). Soit a ∈ R, fixé. On pose X = a


avec la probabilité p, et X ∼ N (µ, σ 2 ), sinon. Alors µ = λ+δa domine ce modèle
paramétré par θ = (p, µ, σ 2 ) et sa densité vaut
1−p 2 2
pθ (x) = p 1I(X=a) + √ e−(x−µ) /2σ
σ 2π
3.3. EXHAUSTIVITÉ 31

3.3 Exhaustivité
Définition 3.5 Soit (Pθ )θ∈Θ un modèle µ−dominé. La statistique T : (E, E) →
(F, F) est exhaustive si on peut écrire pθ (x) = gθ (T (x))h(x) pour des fonctions
mesurables gθ : F → R+ et h : E → R+ .

Remarque. La loi conditionnelle de X sachant T (X), Pθ (X ∈ · |T (X)) est alors


indépendante de θ. Lorsque le modèle n’est pas dominé, ceci est d’ailleurs la
définition de l’exhaustivité (voir Dacunha-Castelle & Duflo, volume 1, théorème
7.1.8, page 167). Par conséquent, la statistique T (X) est exhaustive si elle
contient toute l’information concernant la valeur du paramètre θ induite par
l’observation X.

Exemples.
2
PnN (µ, σ ), 2la statistique
– Dans le modèle iid Pn T (x) = (s2 , x) est exhaustive,
1 1
si on note x = n i=1 xi et s = n i=1 (xi − x)2 , car on peut écrire

1 nµ 2
e− 2σ2 e− 2σ2 (s −2µx)
n
Vθ (x1 , . . . , xn ) = n
(2πσ 2 ) 2

– Dans le modèle iid b(θ), x est encore une statistique exhaustive car

Vθ (x1 , . . . , xn ) = θnx (1 − θ)n(1−x)

– Dans le modèle iid U [0, θ] uniforme, M (X) = maxi Xi est exhaustive car
on peut écrire

Vθ (x1 , . . . , xn ) = θ−n 1I(maxi xi ≤θ) 1I(mini xi ≥0)

– Dans un modèle exponentiel (3.1), la statistique T (X) est encore exhaus-


tive.
Notons à présent que, pour toute application h mesurable telle que l’on
puisse représenter la statistique T sous la forme h(S) pour une autre statistique
S, alors S est aussi exhaustive. Par exemple, le couple (T, T 0 ) est exhaustif avec
T.

Définition 3.6 La statistique T ? est exhaustive minimale si, pour toute statis-
tique exhaustive il existe h mesurable telle que T ? = h ◦ T .

Si T1 et T2 sont exhaustives minimales, elles sont alors en correspondance bi-


mesurable (il existe h mesurable et d’inverse mesurable telle que T1 = h(T2 )).
On verra, un peu plus loin (corollaire 3.2) que dans le modèle exponentiel
(3.1), la statistique T (X) est minimale si {T (x)| x ∈ E} engendre Rd .

Définition 3.7 La statistique S est libre si la loi de S(X) ne dépend pas de θ


(sous Pθ ).
32 CHAPITRE 3. MODÈLES STATISTIQUES

Le résultat suivant est indispensable à l’étude des lois gaussiennes vectorielles.

Théorème 3.1 (Cochran) Soit n > 0. Si Rn = ⊗kj=1 Ej est décomposé en


somme orthogonale de sous espaces vectoriels de dimensions respectives nj =
dim Ej > 0, on pose pj : Rn → Rn le projecteur orthogonal sur Ej (pj (Rn ) =
Ej ) pour j = 1, . . . , k. Alors,
– Si X = (X1 , . . . , Xn ) ∼ Nn (0, σ 2 In ), les variables aléatoires p1 (X), . . . ,
pk (X) sont indépendantes et de loi gaussienne. Lorsqu’on choisit une base
orthonormalePde Rn adaptée à cette décomposition, les composantes ti,j
de pj (X) = i ti,j ei dans cette base sont indépendantes et nulles ou de
variance σ 2 selon que ei ∈ / Ej ou ei ∈ Ej .
– Si X = (X1 , . . . , Xn ) ∼ Nn (m, σ 2 In ), pour m ∈ Rn alors les pj (X) ∼
Nnj (pj (m), σ 2 IEj ) sont encore indépendantes pour j = 1, . . . , k ( 4 ).
En particulier les normes euclidiennes de ces variables sont indépendantes et
suivent les lois kpj (X)k2 ∼ χ2nj du χ2 , ou χ2nj ,ρj du χ2 décentré de ρj =
kpj (m)k2 pour j = 1, . . . , k.

Preuve. L’abus de notation du second point consiste à identifier Ej à Rnj , ce


qui est possible si on change la base orthonormale de Rn . Ce théorème est de
preuve très simple.
Si X ∼ Nn (m, σ 2 In ) et t ∈ Rn alors Eet·X = exp − 2σ1 2 ktk2 . Il s’ensuit que


U X ∼ X a la même loi que X pour toute matrice orthogonale (i.e. si U 0 U =


U U 0 = In ).
De plus si m ∈ Rd et X ∼ Nn (0, σ 2 In ), la décomposition orthogonale de Rd
entre la droite E1 portée par v = m/kmk et E2 = E1⊥ permet de représenter
X = (X ·v)v +Y avec Y ⊥v et kY k2 ∼ σ 2 χ2n−1 . Ainsi X +m = ((X ·v)+m)v +Y
donc kX + mk2 = ((X · v) + kmk)2 + kY k2 admet une loi dépendant seulement
de n, σ 2 et de ρ = kmk/σ mais pas directement du vecteur m. Ainsi kX +mk2 ∼
σ 2 χ2n,ρ si Z ∼ Nk (µ, σ 2 Ik ) avec ρ = kµk/σ ; µ = 0 donne lieu à la loi du χ2k .

Exemple. Si X1 , . . . , Xn sont iid ∼ N (θ, σ 2 ), soit E1 l’espace engendré par


le vecteur 1In = (1, . . . , 1) et E2 = E1⊥ , alors k = 2, et n1 = 1, n2 = n − 1 et
p1 (X) = √1n (X1 + · · · Xn ) √1n 1In (le vecteur √1n 1In est la base orthonormale
choisie sur E1 ). Par suite X ∼ N (θ, σ 2 /n) et p2 (X) = X − X 1In sont des
gaussiennes indépendantes et kp2 (X)k2 = nS 2 ∼ σ 2 χ2n−1 est indépendante de
X. Ainsi la statistique S 2 = n1 i (Xi − X)2 ∼ σ 2 χ2n−1 est libre du paramètre
P
θ.

Définition 3.8 La statistique T est complète si pour toute fonction numérique


bornée et mesurable g :

∀θ ∈ Θ, Eθ g(T ) = 0 =⇒ g ≡ 0

4. Nous faisons ici un abus de notation en assimilant les lois gaussiennes Nd sur Rd à celles
définies sur un espace vectoriel réel F de dimension d.
3.4. MODÈLE EXPONENTIEL 33

Remarque. Si Θ ⊂ Θ e et la statistique T est (Pθ )θ∈Θ −complète, elle est aussi


e −complète.
(Pθ )θ∈Θ

Pour conclure cette section, nous admettrons l’énoncé classique suivant.

Proposition 3.1 Si S, T sont deux statistiques, avec T exhaustive et complète.


– Si S est libre, alors S et T sont Pθ -indépendantes pour tout θ ∈ Θ.
– Si le modèle est homogène et si S et T sont Pθ -indépendantes pour tout
θ ∈ Θ, alors S est libre.

Soit, par exemple, X1 , . . . , Xn iid ∼ N (θ, 1), alors T (X) = X est complète ce
qui permet de redéduire l’indépendance de S et X.
Au contraire soient X1 , . . . , Xn iid ∼ U θ − 12 , θ + 12
 
suivant une loi
uniforme sur un intervalle de longueur 1. Posant m(x) = min{x1 , . . . , xn } et
M (x) = max{x1 , . . . , xn }, on prouve que la statistique T = (M, m) est exhaus-
tive et minimale mais pas complète alors que S = M − m est libre et n’est, bien
entendu, pas indépendante de T .

3.4 Modèle exponentiel


La loi de X ∈ E a ici la densité
 
Xd
pθ (x) = C(θ)h(x) exp  gj (θ)Tj (x)
j=1

par rapport à une mesure µ (positive et σ−finie).


Notons pour commencer que la loi d’un tel n−échantillon iid X1 , . . . , Xn ∼
n
Pθ reste exponentielle, avec x = (x1 , . . . , xn ), si on remplace
Pn C par C , h(x)
par hn (x) = h(x1 ) · h(x2 ) · · · h(xn ) et Tj (x) par Tn,j (x) = i=1 Tj (xi ).
Ainsi  
Xd
pn,θ (x) = C n (θ)hn (x) exp  gj (θ)Tn,j (x)
j=1

Ce modèle est appelé modèle exponentiel canonique lorsque gj (θ) = θj .


1
Notons qu’on peut écrire pθ (x) = LT (g(θ)) eg(θ)·T (x) , en considérant la trans-
R λ·T (x)
formée de Laplace de T , LT (λ) = E e dµ(x); si on fait le changement de
paramètre λ = g(θ) ∈ Λ ⊂ Rd , le modèle précédent est transformé en un modèle
canonique avec
Z
1
peλ (x) = eλ·T (x) , LT (λ) = eλ·T (x) dµ(x), Λ = g(Θ) (3.2)
LT (λ) E
34 CHAPITRE 3. MODÈLES STATISTIQUES

Exemples
– Pour le modèle binomial, B(n, θ), on note λ = log θ/(1 − θ).
– Pour le modèle de Poisson, P(θ), on a pθ (x) = e−θ ex log θ /x! donc λ = log θ.
2 2 2
– Pour le modèle gaussien N (µ, σ 2 ), la densité s’écrit C(µσ 2 )eµ/σ x−x /2σ
2 2 2
donc T (x) = (x, −x /2) donne lieu à λ = (µ/σ , σ ).

Théorème 3.2 Si pλ (x) = LT1(λ) eλ·T (x) avec LT (λ) = E eλ·T (x) dµ(x) pour
R

λ ∈ Λ alors, pour toute fonction h : E → R mesurable et bornée,


Z
h(x)eλ·T (x) dµ(x) = LT (λ)Eλ h(X)
E

existe pour chaque λ ∈ Λ. Si, Λ ⊂ Rd est d’intérieur non vide, Λ◦ 6= ∅ cette


fonction est analytique ( 5 ) sur {z = (z1 , . . . , zd ) ∈ Cd | (<(z1 ), . . . , <(zd )) ∈ Λ◦ }.
On peut donc dériver la relation précédente à tout ordre.

On désigne ici <z = z1 , la partie réelle du nombre z = z1 + iz2 .


L’ensemble naturel des paramètres est

Λnat = λ ∈ Rd | LT (λ) existe




L’inégalité de Hölder prouve qu’il est convexe et la continuité de la transforma-


tion de Laplace prouve qu’il est ouvert.

Corollaire 3.1 Lorsque h(λ) = log LT (λ), on a

∂2
 
Eλ T (X) = ∇h(λ), et Var λ T (X) = h(λ)
∂λi ∂λj 1≤i,j≤d

De plus la fonction h est convexe sur Λ◦ .

Preuve. eh(λ) = E eλ·T (x) dµ(x), donc par dérivations


R

Z 
h(λ) λ·T (x)
∇h(λ)e = Ti (x)e dµ(x)
E 1≤i≤d

et, pour 1 ≤ i ≤ d,

∂2
Z
∂ ∂
h(λ)eh(λ) + h(λ) h(λ)eh(λ) = Ti (x)Tj (x)eλ·T (x) dµ(x)
∂λi ∂λj ∂λi ∂λj E

ce qui permet de conclure pour les premières relations ; la convexité suit simple-
ment de l’application de l’inégalité de Hölder.
5. L’analycité est l’extension de la notion usuelle sur C ; elle signifiera, pour nous, l’existence
P k1 kd
d’un développement en série, k1 ,...,kd ≥0 ck1 ,...,kd λ1 · · · λd . Elle peut aussi être formulée
dans les mêmes termes que pour le cas unidimensionnel (voir Cartan, Théorie élémentaire des
fonctions analytiques, Hermann, 1961).
3.4. MODÈLE EXPONENTIEL 35

Corollaire 3.2 Si Λ◦ 6= ∅, alors la statistique T est exhaustive minimale et


complète.
Preuve. L’analycité précedente implique que Eλ f (T ) = 0 ⇒ f ≡ 0 donc T est
complète.
Supposons S exhaustive : pλ (x) = r(x)ψλ (S(x)). Si, maintenant, λ prend d + 1
ψ ◦S
valeurs affinement indépendantes λ0 , . . . , λd , alors log ψ0j ◦S est somme d’une
fonction de (λ0 , λj ) et de (λj − λ0 )T . On en déduit que a ◦ S(x) = b + M T (x)
pour une matrice M inversible b ∈ Rd et a : Rk → Rd ; ceci permet de conclure.
36 CHAPITRE 3. MODÈLES STATISTIQUES
Chapitre 4

Estimation

Rappelons qu’un estimateur du paramètre g(θ) ∈ F est une variable aléatoire


T (X) où T : (E, E) → (F, F) est une application mesurable.
L’objectif de ce chapitre est d’obtenir une mesure de qualité pour les esti-
mations que l’on envisage.

Définition 4.1 Soit w : F ×F → R+ , une fonction mesurable telle que w(s, t) =


0 ⇔ s = t. Pour tout estimateur de g(θ) la fonction de risque attachée à w est
donnée par, 
Rw (T, θ) = Eθ w T (X), g(θ)
– L’estimateur T 0 (X) est préférable à T (X) si Rw (T 0 , θ) ≤ Rw (T, θ), ∀θ ∈
Θ.
– L’estimateur T (X) est admissible lorsqu’il n’existe pas d’estimateur qui
lui soit préférable.
– Il est minimax, s’il minimise supθ Rw (T, θ).
Nous serons souvent amenés à faire l’abus de notation T = T (X), par contre la
valeur de la fonction T : E → F sera distinctement notée T (x) en tout point
x ∈ E.
Rappelons aussi que la proposition 2.1 propose une hypothèse sous laquelle
les estimateurs bayésiens sont admissibles.

4.1 Estimation sans biais


On considère ici g(θ) ∈ Rk (matrice k×1), estimé par T (X) avec T : E → Rk .

Définition 4.2 L’estimateur T (X) est sans biais si


Eθ T (X) = g(θ), ∀θ ∈ Θ
De manière générale, le biais de l’estimateur T (X) de g(θ) est l’expression
b(θ) = Eθ T (X) − g(θ), ∀θ ∈ Θ

37
38 CHAPITRE 4. ESTIMATION

Dans ce cadre, sans biais, la notion d’optimalité d’un estimateur (vectoriel) est
un peu modifiée.

Définition 4.3 L’estimateur T 0 (X) est préférable à T (X) si

Covθ T 0 (X) ≤ Covθ T (X)

pour chaque θ ∈ Θ, c’est-à-dire lorsque ∆ = Covθ T (X) − Covθ T 0 (X) (matrice


symétrique, k × k) est positive.
L’estimateur T (X) est admissible lorsqu’il n’existe pas d’estimateur qui lui
soit préférable.

Remarque. Rappelons d’abord qu’une matrice ∆ réelle et de taille k × k est


associée à une forme quadratique sur Rk par la relation

Q∆ (u) = ut ∆u, ∀u ∈ Rk

La matrice symétrique est alors dite positive lorsque Q∆ (u) ≥ 0 pour tout
u ∈ Rk , elle est définie lorsque Q∆ (u) 6= 0 pour tout u 6= 0.
Pour bien comprendre le sens de ces définitions, il semble bon de rappeler
que toute matrice ∆ symétrique est diagonalisable en base orthonormale. En
termes matriciels, il existe une matrice orthogonale U (i.e. U t U = U U t = Ik )
telle que U t ∆U soit une matrice diagonale. Si λ1 , . . . , λk désignent les valeurs
propres de ∆ qui apparaissent donc sur la diagonale de la matrice précédente,
la matrice ∆ est positive si λ1 ≥ 0, . . . , λk ≥ 0, et elle est définie positive si
λ1 > 0, . . . , λk > 0.
Un critère de positivité des matrices symétriques repose sur le fait que ses
mineurs principaux soient positifs (déterminants obtenus en sélectionnant les j
premières lignes et les j premières colonnes de ∆ pour j = 1, 2, . . . , k).

Exemple. Bien entendu, les deux critères de performance (définitions 4.1 et


4.3) précédents coı̈ncident lorsque k = 1 et w(s, t) = (s − t)2 . Pour une suite
X1 , . . . , Xn iid ∼ N (θ, σ 2 ), l’exemple suivant le théorème 3.1 de Cochran permet
de prouver que
n
1 X
b2 =
σ (Xi − X)2
n − 1 i=1
Pn  2
1 1
estime σ 2 sans biais (ici T (x) =
P
n−1 i=1 xi − n j xj ).

Théorème 4.1 Supposons k = 1 pour simplifier. Soient T (X) sans biais et


S(X) une statistique exhaustive, on définit l’amélioré de Rao-Blackwell, Te(S(X))
de T (X), par la relation Te(s) = Eθ (T (X)| S(X) = s).
Alors l’amélioré de Rao-Blackwell Te(S(X)) est encore sans biais et il est
préférable à T (X).
4.2. INFORMATION DE FISHER 39

Remarque. Évidemment, l’expression Te est indépendante de θ ∈ Θ par


définition de l’exhaustivité.
Preuve. Eθ Te(S(X)) = Eθ Eθ (T (X)| S(X)) = Eθ T (X) = g(θ). La fin de la preuve
du théorème résulte de l’identité suivante, déjà prouvée dans la démonstration
du théorème 1.1 : Varθ T (X) = Varθ T (X) + Eθ (T (X) − Te(S(X)))2 .

Exemple. Soient X1 , . . . , Xn iid ∼ U [0, θ] pour θ ∈ R+∗ , alors Eθ X1 = θ/2


donc T (X) = 2X1 estime θ sans biais ; de plus M = S(X) = max1≤i≤n Xi est
une statistique exhaustive. L’amélioré de Rao-Blackwell de T (X) est n+1
2n S(X)
(voir § 4.6).

4.2 Information de Fisher


Définition 4.4 Un modèle µ−dominé (E, E, pθ (x)dµ(x))θ∈Θ est dit régulier
lorsque
– Θ est un ouvert (non vide) de Rd pour un entier d ≥ 1.
– Pour (µ−presque) tout x ∈ E, l’application θ 7→ pθ (x) est différentiable
sur Θ. R
– Pour chaque A ∈ E tel que µ(A) 6= 0, l’application θ 7→ qθ = A pθ (x)dµ(x)
est différentiable sur Θ et
Z
∂ ∂
qθ = pθ (x)dµ(x), j = 1, . . . , d
∂θj A ∂θ j
 
∂ ∂
– L’information de Fisher, I(θ) = Eθ log pθ (X) log pθ (X) ,
∂θi ∂θj 1≤i,j≤d
existe et c’est une matrice définie positive pour chaque θ ∈ Θ.

Si h est une fonction bornée


R ∂ nous en déduisons que qθ = Eθ h(X) est une fonction

dérivable avec ∂θ i
qθ = ∂θi pθ (x)µ(dx).
L’hypothèse de régularité introduite ici permettra un contrôle précis du risque
quadratique d’estimateurs sans biais dans la section suivante. Les sections qui
suivent donnent des exemples et des contre exemple à ce type d’énoncé dont la
faiblesse sera mise en évidence en section 4.4.
Des tests classiques sont aussi fondés sur la statistique suivante :
Définition 4.5 Dans un modèle régulier, on appelle score le vecteur d−dimen-
sionnel,  
1 ∂
∇ log pθ (x) = pθ (x) .
pθ (x) ∂θj 1≤j≤d

Le cas d’un n−échantillon est traité grâce à la

Proposition 4.1 Considérons un n−échantillon iid de loi (pθ (x)dµ(x))θ∈Θ ,


(n) Qn ⊗n
alors pθ (x1 , . . . , xn ) = i=1 pθ (xi ), la mesure dominante vaut µ , et le
modèle correspondant reste régulier avec In (θ) = nI(θ).
40 CHAPITRE 4. ESTIMATION

Cette proposition est conséquence du


(1) (2)
Lemme 4.1 Si Pθ = Pθ ⊗ Pθ alors I(θ) = I (1) (θ) + I (2) (θ).
(1) (2)
Preuve du lemme. Avec des notations immédiates, pθ (x1 , x2 ) = pθ (x1 )·pθ (x2 )
donc les log −vraisemblances correspondantes (comme leurs dérivées) s’ajoutent
(1) (2) ∂ ∂ (1) ∂ (2)
Lθ (x1 , x2 ) = Lθ (x1 ) + Lθ (x2 ), Lθ (x1 , x2 ) = L (x1 ) + L (x2 )
∂θi ∂θi θ ∂θi θ
Le lemme s’en déduit.
L’expression suivante de l’information de Fisher est souvent utile :
Proposition 4.2 Si θ 7→ pθ (x) est deux fois différentiable sur Θ et si on peut
intervertir dérivations et intégrations, alors
∂2
 
I(θ) = − Eθ log pθ (X)
∂θi ∂θj 1≤i,j≤d

∂ 1 ∂
Preuve. En remarquant que Lθ (x) = pθ (x), on calcule
∂θi pθ (x) ∂θi
∂2 1 ∂2 ∂ ∂
Lθ (x) = pθ (x) − Lθ (x) · Lθ (x)
∂θi ∂θj pθ (x) ∂θi ∂θj ∂θi ∂θj
Cette relation intégrée par rapport à la loi Pθ donne le résultat car, par inter-
version de dérivées et d’intégrales,
∂2 ∂2
Z
1
Eθ pθ (X) = pθ (x)µ(dx) = 0.
pθ (X) ∂θi ∂θj ∂θi ∂θj

Exemples.
– Pour un modèle uniforme iid, X1 , . . . , Xn ∼ U [0, θ], la dérivabilité de
θ 7→ pθ (x) n’est pas assurée au point θ = maxi xi . Ce modèle n’est donc
pas régulier.
– Si X1 , . . . , Xn sont iid de loi de Poisson P(θ) (θ > 0), la log −vraisemblance
du modèle correspondant à n = 1 s’écrit Lθ (x) = −θ + x log θ − log x!
(ici pθ (x) = e−θ θx /x!). Par suite ∂θ ∂
Lθ (x) = −1 + x/θ. Donc I(θ) =
2
Varθ (−1 + X1 /θ) = Varθ X1 /θ = 1/θ.
– Si X1 , . . . , Xn iid sont de loi gaussienne N (µ, σ 2 ) avec µ ∈ R et σ 2 > 0,
on calcule encore l’information pour n = 1. On note à cet effet que
(x − µ)2 1
Lθ (x) = − − log(2πσ 2 ),
2σ 2 2
et on calcule,
∂ µ−x
Lθ (x) = ,
∂µ σ2
∂ (x − µ)2 1
Lθ (x) = − 2 , et
∂σ 2  2σ
4 2σ
1

σ 2 0
I(θ) =
0 4σ1 4
4.3. BORNE DE CRAMER RAO 41

On peut aussi utiliser la proposition 4.2 pour faire ce calcul.


– Modèle avec un paramètre de translation . Ici Θ = E = R et si Pθ a la
densité f (x − θ) par rapport à la mesure de Lebesgue sur R, lorsqu’elle
est bien définie, son information de Fisher est constante

f 02
Z
I(θ) = est appelée information de Fisher de f et notée I(f ).
f

4.3 Borne de Cramer Rao

Définition 4.6 Un estimateur T (X) de g(θ) est dit régulier, dans un modèle
régulier (E, E, pθ (x)dµ(x))θ∈Θ , lorsque Varθ T (X) < ∞ et
Z
∂ ∂
Eθ T (X) = T (x) pθ (x)dµ(x), j = 1, . . . , d
∂θj ∂θj

Dans un modèle régulier, on peut intervertir dérivées et intégrales et la matrice


d’information de Fisher I(θ) est inversible.

Théorème 4.2 (Cramer & Rao) Soit T (X) un estimateur sans biais et ré-
gulier de g(θ) ∈ Rk , alors

Eθ (T (X) − g(θ))t (T (X) − g(θ)) = Covθ T (X) ≥ ∇g(θ)I −1 (θ)∇g(θ)t

L’estimateur T (X) est dit efficace s’il y a égalité.

Remarques. Lorsque g(θ) = θ, le minorant de la matrice de covariance de


T (X) est simplement l’information de Fisher.
Ce théorème est aussi attribué (de plus) à Messieurs Fréchet et Darmois (pro-
babilistes français du siècle dernier), on s’y réfèrera souvent comme à la borne
FDCR.

Notations. Posons
 
g1 (θ)  ∂g1 ∂g1 
 ...  ∂θ1 (θ)
... ... ∂θd (θ)
   ... . .. ... ... 
 ... ,
g(θ) =   alors ∇g(θ) = 
 ...

 ...  ... ... ... 
∂gk ∂gk
g1 (θ) ∂θ1 (θ) . . . . . . ∂θd (θ)

est une matrice k × d. Il y a donc bien concordance de dimension dans l’inégalité


précédente, car il y apparaı̂t un produit de matrices de tailles respectives (k ×d),
(d×d) et (d×k) : ce produit est de taille (k ×k), comme la matrice de covariance
de T (X).
Lorsque d = 1, on notera f˙(x, θ), f¨(x, θ) les dérivées d’une fonction f (x, θ) par
42 CHAPITRE 4. ESTIMATION

rapport à la variable θ. R
Remarquons que la relation pθ (x)dµ(x) ≡ 1 permet de déduire que
Z Z
Eθ ∇ log pθ (X) = ∇pθ (x)dµ(x) = ∇ pθ (x)dµ(x) = 0

R
De plus, Rla relation g(θ) = Eθ T (X) = T (x)pθ (x)dµ(x) implique l’identité
∇g(θ) = T (x)∇pθ (x)dµ(x), donc

∇g(θ) = Eθ T (X)∇ log pθ (x) = Covθ (T (X), ∇ log pθ (X))

Enfin
Varθ ∇ log pθ (X) = I(θ).
Preuve du théorème 4.2 dans le cas k = d = 1. A présent on écrit
Z
d
ġ(θ) = T (x)ṗθ (x)dµ(x) = Eθ T (X) log pθ (X) = Eθ T L̇θ (X)

L’inégalité de Cauchy-Schwartz et la relation Varθ L̇θ (X) = I(θ) impliquent


donc le résultat, écrit ici
ġ 2 (θ) ≤ I(θ) Varθ T (4.1)
Le cas général est admis : il nécessite, en effet, un bagage matriciel supplémentaire.

Exemples.
– Dans le modèle de Poisson iid, l’estimateur X est efficace pour estimer le
paramètre θ.
– Dans le modèle iid N (µ, σ 2 ), l’estimateur X, sans biais de g(θ) = µ est
efficace. Pn
1
Par contre, l’estimateur sans biais σ b2 = n−1 2
i=1 (Xi − X) n’est pas
efficace.
Enfin, on prouvera (en exercice) que T (X) = n1 i Xi2 estime efficacement
P
le paramètre g(θ) = µ2 + σ 2 dans ce modèle.

4.4 Optimalité
Lemme 4.2 Si T est efficace pour estimer g(θ) alors AT + b est efficace pour
ag(θ) + b pour A matrice m × k et b ∈ Rm quelconques.

Preuve. La variance de AT (X) s’écrit AVarθ T (X)At .


Une réciproque est donnée par Monfort et Gouriéroux (volume 1, page 146) :

Théorème 4.3 Pour un modèle exponentiel régulier, tout estimateur régulier


et efficace est une fonction affine de T (X), la statistique exhaustive associée à
ce modèle.
4.5. MODÈLE EXPONENTIEL 43

Ainsi, on prouve que σ 2 n’est pas estimable efficacement dans le modèle gaussien
iid ∼ N (µ, σ 2 ).

Théorème 4.4 (Lehmann & Sheffé) Soit S(X) une statistique exhaustive
et complète, alors un estimateur de la forme T = h ◦ S(X) est optimal parmi
les estimateurs sans biais de g(θ).

Remarques.
– Soit S(X) une statistique exhaustive et complète. Si U est un estimateur
sans biais et de carré Pθ intégrable alors h(S) = Eθ (U |S) est optimal,
de variance minimum parmi les estimateurs sans biais, uniformément par
rapport à θ. Cet estimateur est aussi unique, la manière précédente de
l’obtenir est sans doute la plus simple dans la pratique.
– Soit T1 (X), estimateur sans biais optimal de g(θ), alors Te1 (S(X)) est
optimal d’après le théorème 4.1.
– Notons qu’un estimateur efficace est optimal parmi les estimateurs sans
biais et réguliers mais qu’un tel estimateur n’existe pas toujours. Concluons
avec deux exemples ; des modèles exponentiels seront envisagés dans le
§ 4.5.  
– Ainsi, avec la statistique exhaustive complète S(X) = X, X 2 , pour
1
le modèle iid gaussien N (µ, σ 2 ), la statistique V 2 = n−1 2
P
i (Xi − X)
2 2
est optimale alors que sa variance σ /(n − 1) > σ /n dépasse la borne
FDCR : il est sans biais et pas efficace. Par contre σ 2 + µ2 est estimé
efficacement par X 2 .
– De même l’estimateur du maximum de vraisemblance θb = 1/X, dans le
modèle exponentiel iid de paramètre θ (ici fθ (x) = θe−θx1I{x≥0} ) n’est
pas efficace. En effet, ce paramètre ne peut être efficacement estimé car il
n’est pas fonction affine du paramètre naturel de ce modèle exponentiel
λ = θ1 .

4.5 Modèle exponentiel


Nous énonçons un résultat frappant pour le cas réel Θ ⊂ R. Ce théorème lie
étroitement l’efficacité au modèle exponentiel. Des versions multivariées en sont
envisagées par Monfort et Gouriéroux.

Théorème 4.5 Si les hypothèses de régularité du théorème 4.2 sont satisfaites


et si l’estimateur T ∗ de g(θ) est efficace alors le modèle est exponentiel et on

peut écrire pθ (x) = h(x)e`(θ)T (x)−B(θ) .
Réciproquement, pour un tel modèle exponentiel la statistique T ∗ = T ∗ (X) es-
time efficacement le paramètre g(θ) = Eθ T ∗ (X), lorsque `(θ)˙ 6= 0 pour tout
θ ∈ Θ.
44 CHAPITRE 4. ESTIMATION

Preuve.(⇒) L’égalité est obtenue dans l’inégalité de (4.1) lorsqu’il existe des
fonctions a(θ) et b(θ) telles que
ṗθ (x) = a(θ)T ∗ (x) + b(θ)
Pour montrer que cette identité vaut ∀θ ∈ Θ, Pθ −p.s. on a besoin de la séparabilité
de Θ et de la continuité des fonctions en jeu.

(⇐) On peut supposer que `(θ) ≡ θ. Alors B(θ) = log h(x)eθT (x) dµ(x) et
R

g(θ) = Ḃ(θ) ; de plus


 
ṗθ (x) = T ∗ (x) − Ḃ(θ), I(θ) = Varθ T ∗ (X) − Ḃ(θ) = B̈(θ)

Ainsi la borne FDCR est bien atteinte ġ 2 (θ)/I(θ) = B̈ 2 (θ)/B̈(θ) = B̈(θ).

4.5.1 Modèle canonique


P 
d
Ici, pθ (x) = h(x) exp j=1 θ j Tj (x) − A(θ) et on peut utiliser le corollaire
3.1 pour justifier les relations suivantes.
On a log pθ (x) =R log h(x) + θ · T (x) − A(θ) donc ∇ log pθ (x) = T (x) − ∇A(θ).
De plus eA(θ) = heθ·T dµ donc ∇A(θ) = Eθ T (X).
Ainsi I(θ) = Varθ ∇ log pθ (X) = D2 A(θ).
Par conséquent T = T (X) est un estimateur efficace de ∇A(θ).
Corollaire 4.1 Dans le modèle canonique, chaque statistique Tj (X) est un es-
timateur efficace de gj (θ) = ∂θ∂ j A(θ) lorsque 1 ≤ j ≤ d.
Preuve. Pour j = 1, on écrit
 2
∂2 ∂2


∇g1 (θ) = A(θ), A(θ), . . . , A(θ) , I(θ) = D2 A(θ)
∂ 2 θ1 ∂θ1 ∂θ2 ∂θ1 ∂θd
Le corollaire suit alors du fait que ∇g1 (θ)I −1 (θ) = (1, 0, . . . , 0) qui résulte de
ce que ∇g1 (θ) est la première ligne de I(θ), cette relation n’est donc que la
première ligne de la relation évidente I(θ) · I −1 (θ) = Id .

4.5.2 Modèle linéaire


On considère :
X = zβ + Y, Y ∼ Nn (0, σ 2 In ), β ∈ Rd , z ∈ Mk,d (R)
Ici Z = z est constant ce qui équivaut à dire que l’on travaille de manière
conditionnelle à Z = z, et
1 t t t −1 t xt x β t z t zβ n
log pβ,σ2 (x) = β (z z)(z z) (z x) − − − log(2πσ 2 )
σ2 2σ 2 2σ 2 2
Ainsi la statistique exhaustive S(X) = (z t z)−1 (z t X), n1 X t X estime efficace-


ment (β, σ 2 ) et on a :
4.5. MODÈLE EXPONENTIEL 45

Théorème 4.6 (Gauss & Markov) L’estimateur des moindres carrés ordi-
naires βb = (z t z)−1 (z t X) est optimal parmi les estimateurs linéaires sans biais
de β, et sa variance vaut σ 2 (z t z)−1 .
Preuve. Un autre estimateur linéaire s’écrit βe = AX, le fait qu’il soit sans biais
montre que Eθ βe = Azβ = β donc Az = Id , d’autre part
e = Covθ (z t z)−1 z t X, (z t z)−1 z t X − AX

b βb − β)
Covθ (β,
= σ 2 (z t z)−1 z t X, (z t z)−1 z t X − AX = 0


Ainsi
Varθ βe = Varθ βb + Varθ (βe − β)
b > Varθ βb

Le lecteur pourra se reporter à Monfort & Gouriéroux, volume 1, page 136 et


suivantes pour des développements.

4.5.3 Modèle gaussien iid


Ici X = (X1 , . . . , Xn ) sont i.i.d. Xi ∼ N (m, σ 2 ), Pθ = N (m, σ 2 )⊗n et Θ =
R×]0, +∞[.
T = n1 i Xi , n1 i Xi2 est une statistique exhaustive, minimale et complète.
P P 

C’est l’estimateur qui maximise la vraisemblance θ 7→ pθ (X).


La densité de X par rapport à la mesure de Lebesgue sur Rn vaut pθ (x) =
gθ (T (x)) avec
2 2
gθ (t1 , t2 ) = (2πσ 2 )−n/2 e−nm /2σ exp (nm/σ 2 )t1 − (n/2σ 2 )t2 .

 2 
Ce modèle est régulier et I −1 (θ) = σ0 4σ04 , de plus l’ensemble des valeurs

prises par g(θ) = nm/σ 2 , −n/2σ 2 décrit l’ouvert non vide R×]0, +∞[ de R2 .
Donc T estime efficacement Eθ T = (m, m2 + σ 2 ). Le fait que cette statistique
soit complète résulte de l’analycité de la fonction t 7→ gθ (t).

4.5.4 Modèle multinomial


Ici X1 , . . . , Xn sont iid de loi multinomiale M(k, λ1 , . . . , λk ). Dans le but
d’obtenir un modèle régulier, nous nous restreindrons à λj > 0 pour 1 ≤ j ≤ k,
Pk
et i=1 λi = 1 sont tels que Pθ (X1 = j) = λj .
Evidemment, l’ensemble des paramètres λ décrit le simplexe, il est donc d’intérieur
vide dans Rk et nous serons obligés de le reparamétrer pour appliquer la borne
FDCR. Pn
Posons Tj (x1 , . . . , xn ) = i=1 1I{xi =j} (nombre d’occurences de la valeur j dans
la séquence (x1 , . . . , xn )). Alors Tj (X1 , . . . , Xn ) (noté Tj ) suit une loi B(n, λj ),
et, si on pose d = k − 1 et x = (x1 , . . . , xn )
P 
d λj
pθ (x) = exp j=1 θj Tj (x) − A(θ) où θj = log λd+1 , 1≤j≤d
 Pd 
avec A(θ) = n log 1 + j=1 eθj
46 CHAPITRE 4. ESTIMATION

d
Ici θ ∈ Θ = (R+∗ ) est donc bien dans un ouvert et posant X = (X1 , . . . , Xn )
on calcule
∂A neθj
= Pd = nEθ Tj (X),
∂θj 1+ i=1 eθi
Pd
∂2A 1 + i=1 eθi − eθj
= neθj  2 = nλj (1 − λj ) = Varθ Tj (X)
∂θj2 Pd
1 + i=1 eθi

Etant donnée l’étude du modèle binomial (laissée à titre d’exercice au lecteur)


on en déduit que Tj /n estime efficacement λj = g(θ). Le corollaire 4.1 donne
une seconde preuve de ce fait.

4.6 Modèle uniforme


Bien que ce modèle ne soit pas régulier, nous l’étudions en détails dans cette
section pour faire ressortir ses défauts par rapport aux modèles exponentiels
(réguliers).
X = (X1 , . . . , Xn ) sont i.i.d. Xi ∼ U[0, θ], Pθ = U[0, θ]⊗n et Θ =]0, +∞[.

Proposition 4.3 M = maxi Xi est une statistique exhaustive, minimale et


complète. C’est l’estimateur qui maximise la vraisemblance θ 7→ pθ (X). De plus

n θ2
Varθ M = 2 .
(n + 1) n + 2

Preuve. La densité de X par rapport à la mesure de Lebesgue sur Rn vaut


pθ (x) = h(x)gθ (M (x)), h(x) = 1I(mini xi ≥0) , M (x1 , . . . , xn ) = maxi xi et gθ (m) =
θ−n1I(m≤θ) .
Notons que ce modèle n’est pas régulier car pθ n’est pas dérivable au point
θ = M (x).
Par indépendance, Pθ (M ≤ z) = Pθ (X1 ≤ z)n , donc la densité de M s’écrit
nθ−n z n−11I[0,θ] (z). Par suite,
θ
nθj
Z
Eθ M j = nθ−n z n−1+j dz =
, (4.2)
0 n+j
2
nθ2


Var θ M = − ,
n+2 n+1

on retrouve ainsi l’expression de la variance de M


Pour que θ 7→ Lθ (X) soit maximal, il faut que θ ≥ M ; on en déduit que M est
l’estimateur du maximum de vraisemblance.

Si Eθ G(M ) ≡ 0 pour G bornée alors 0 G(z)z n−1 dz ≡ 0, on a G(θ) = 0, p.s.
par dérivation : M est complète.
Soit T (X) exhaustive, alors pθ = f (x)Fθ (T (x)) = h(x)gθ (M (x)). Ici M (x) est
4.7. ESTIMATEUR DE STEIN 47

la borne inférieure essentielle de l’ensemble des θ > 0 tels que Fθ ◦ T (x) = 0


donc M , fonction de T , est minimale.

Proposition 4.4 2X1 estime θ sans biais ; c’est aussi le cas pour T = Eθ (2X1 |M )
qui est préférable à 2X1 .
Preuve. L’équation (4.2) avec n = j = 1 prouve que 2X1 estime θ sans biais et
Varθ (2X1 ) = θ2 /3. La formule de Bayes prouve que
n
X
Eθ (X1 |M ) = tj , tj = Pθ (M = Xj ) · Eθ (X1 |M = Xj )
j=1

Par équidistribution Pθ (M = Xj ) = n1 et on trouve ainsi que t1 = z/n et


tj = z/(2n), pour j 6= 1, car Eθ (X1 |M = Xj ) = Eθ (X1 |X1 < M ) = M/2 est
n
la moyenne d’une variable uniforme sur [0, M ]. Donc T = n+1 M et par suite
2 2
Var θ T = θ /(n + 2) ≤ Var θ X1 = θ /3. De plus le risque de M vaut

Rθ (M ) = Eθ (M − θ)2
= Var θ M + (Eθ M − θ)2
θ2 n2
 
= 1+
(n + 1)2 n+2
θ 2 n2 + n + 2
=
n + 2 (n + 1)2
< Rθ (T ).

Cet estimateur est donc préférable à T .

4.7 Estimateur de Stein


Soit X1 , X2 , . . . , Xn ∼ Nk (θ, Ik ), une suite iid de variables gaussiennes vecto-
rielles. Posant
1
X = (X1 + · · · + Xn ),
n
l’objectif ( 1 ) de cette section est d’exhiber un autre estimateur de la moyenne
θ ∈ Rk admettant un risque quadratique plus petit.
La forme de cet estimateur sera
1 
θe = X + g X ,
n
pour une fonction mesurable g = (g1 , . . . , gk ) : Rk → Rk , à débattre.
A cet effet, des lemmes préparatoires sont indispensables.
1. D’après Ibragimov et Hasminskii (1981) : Theoretical Statistical Estimation : asymp-
totic theory. Editions Springer.
48 CHAPITRE 4. ESTIMATION

Lemme 4.3 (Stein) – Soit h : R → R une fonction dérivable presque par-


tout, et telle que E|h0 (η)| < ∞ pour η ∼ N (m, σ 2 ) alors

σ 2 Eh0 (η) = E(η − m)h(η).

– Soit h : Rk → R une fonction admettant presque partout une dérivée


à sa j-ième variable xj pour un entier 1 ≤ j ≤ k, et
partielle par rapport
∂h
telle que E ∂xj (η) < ∞ pour η = (η1 , . . . , ηk ) ∼ Nk ((m1 , . . . , mk ), σ 2 Ik ),

alors  
2 ∂h
E σ (η) − (ηj − mj )h(η) = 0.
∂xj

Preuve du lemme de Stein.


– Intégrons par parties : Soit h : R → R une fonction dérivable presque
partout, et telle que E|h0 (η)| < ∞ pour η ∼ N (m, σ 2 ) alors
Z ∞
2
/2σ 2 dx
Eh0 (η) = h0 (x)e−(x−m) √
−∞ σ 2π

(x − m) −(x−m)2 /2σ2 dx
Z
= h(x) e √
−∞ σ2 σ 2π
= E(η − m)h(η).

L’hypothèse rend ce calcul licite, par utilisation du théorème de conver-


gence dominée.
– De même, intégrons par parties par rapport à la variable xj :
∞ ∞
2 dx1 · · · dxk
Z Z
∂h ∂h 1
E (η) = ··· (x)e− 2σ2 kx−mk √ k
∂xj −∞ −∞ ∂xj σ 2π
∞ ∞
(xj − mj ) − 12 kx−mk2 dx1 · · · dxk
Z Z
= ··· h(x) e 2σ √ k
−∞ −∞ σ2 σ 2π
= E(ηj − mj )h(η).
p
où on a posé k(x1 , . . . , xk )k = x21 + · · · + x2k .

Soit donc une suite iid de variables X1 , X2 , . . . , Xn ∼ Nk (θ, Ik ). En notant x · y


le produit scalaire de deux vecteurs de Rk , on calcule, par développement d’un
carré et en appliquant la seconde formule du lemme de Stein aux fonctions
h = gj ,

2 1
EkX − θk2 − kθe − θk2 = − E(X − θ) · g(X) − 2 Ekg(X)k2
n n
k
2 X ∂gj 1
= − E (X) − 2 Ekg(X)k2
n j=1 dxj n
4.7. ESTIMATEUR DE STEIN 49
 

Lorsque g = ∇ log h = ∂xj log h pour une application h : Rk → R,
1≤j≤k
presque sûrement deux fois différentiable, on écrit d’abord
k k  
X ∂ X ∂ 1 ∂h ∆h
gj = = −kgk2 +
j=1
∂x j j=1
∂x j h ∂xj h

∂2h
Pk
(où ∆h = j=1 ∂x2j ), la relation précédente s’écrit ainsi

1 ∆h 1
EkX − θk2 − kθe − θk2 = − E (X) + 2 Ekg(X)k2
n h n
≥ 0

lorsque ∆h ≤ 0 (on dit que la fonction h est sous-harmonique).


Par suite la moyenne empirique n’est pas optimale si il existe des fonctions sous-
harmoniques non constantes et telles que les intégrales utiles convergent.
C’est le cas lorsque k ≥ 3, et on obtient par exemple :
– l’estimateur de Stein s’écrit avec h(x) = kxkk−2 , il vaut
 
k−2
θ = 1−
e X
nkXk2

– l’estimateur de James et Stein s’écrit lui pour



kxkk−2 ,

si kxk ≥ k − 2
h(x) = k+2 1 2 √
(k − 2)− 2 e 2 (k−2−kxk ) , si kxk < k − 2

on vérifie facilement la continuité de √


cette fonction, les calculs de dérivées
se font de manière directe si kxk < k − 2 car, alors on écrit log h(x) =
c − kxk2 , ils conduisent à
 k−2 √
− kxk2 x, si kxk ≥ k − 2
g(x) = √
−x, si kxk < k − 2

les intégrabilités nécssaires sont vérifiées sur les expressions de g(x).


50 CHAPITRE 4. ESTIMATION
Chapitre 5

Méthodes d’estimation

Ces méthodes sont classées en deux catégories, celles fondées sur la minimisation
d’un contraste et celles fondées sur la loi des grands nombres, dont la justification
réside dans les propriétés asymptotiques précisées au chapitre suivant.
Ce chapitre est donc divisé en trois sections dont les deux premières sont dédiées
aux techniques d’estimation, une dernière section introduit les méthodes de
calcul de ces estimateurs.

5.1 Minimum de contraste

Définition 5.1 Une fonction ρ : E × Θ → R est un contraste si l’expression


θ 7→ D(θ0 , θ) = Eθ0 ρ(X, θ) est bien définie et si cette fonction admet θ0 pour
minimum unique.

Lorsque X ∼ Pθ0 , l’estimateur ρ(X, θ) estime donc sans biais la fonction g(θ0 ) =
D(θ0 , θ) (pour chaque θ ∈ Θ). Quand on ne dispose que de la réalisation X de
l’expérience statistique, il est donc raisonnable d’estimer le vrai paramètre θ0
par une valeur θ(X)
b qui minimise le contraste θ 7→ ρ(X, θ) (lorsque ce minimum
est atteint). On préférera que ce minimum soit atteint en un unique point pour
éviter des complications liées à la mesurabilité.

θ(X)
b = Argminθ∈Θ ρ(X, θ) (5.1)

Si Θ ⊂ Rd est un ouvert sur lequel la fonction θ 7→ ρ(X, θ) est différentiable,


l’estimateur θ(X)
b du paramètre θ0 vérifie

∇ρ(X, θ(X))
b =0 (5.2)

(cette relation est souvent plus simple à expliciter que (5.1)).


La suite de cette section décrit des occurrences de cette situation.

51
52 CHAPITRE 5. MÉTHODES D’ESTIMATION

5.1.1 Moindres carrés


Soient ξ1 , . . . , ξn des variables aléatoires réelles indépendantes et de même
loi π centrée Eξ1 = 0. Soit d ≥ 1, on suppose que g : Rd × F → R est une
fonction connue et que l’on maı̂trise aussi le plan d’expérience z1 , . . . , zn ∈ F ,
alors le modèle de régression s’écrit

Xi = g(β, zi ) + ξi , i = 1, . . . , n (5.3)

Le plan d’expérience est donc déterministe et connu ou, ce qui revient au même,
on travaille conditionnellement à ce plan d’expérience. Notons qu’ici les variables
X1 , . . . , Xn sont indépendantes mais naturellement pas équidistribuées.
En toute rigueur, il s’agit d’un modèle semi-paramétrique avec θ = (β, π)
pour lequel la loi π de ξ1 est un paramètre de nuisance, mais nous l’oublierons
un peu à présent, et nous ne retiendrons comme paramètre que θ = (β, σ 2 ) ∈
Rd × R+ .
Le modèle est donc paramétré par β ∈ Rd ; l’observation X suit ainsi une loi
Pθ0 et l’espace des paramètres s’écritpΘ = Rd × R+ ⊂ Rd+1 . Munissant Rn de sa
norme euclidienne k(x1 , . . . , xn )k = x21 + · · · + x2n , le contraste des moindres
carrés est alors
n
X
ρ(θ, X) = kX − µk2 = (Xi − g(β, zi ))2 , (5.4)
i=1

avec µt = (g(β, z1 ), . . . , g(β, zn )) ∈ Rn .


Par suite,
n
X
D(θ0 , θ) = nσ02 + (g(β0 , zi ) − g(β, zi ))2 , si θ0 = (β0 , σ02 ), θ = (β, σ 2 )
i=1

Supposons que le plan d’expérience (z1 , . . . , zn ) soit choisi de sorte que β 7→


G(β) = (g(β, z1 ), . . . , g(β, zn )) soit une application injective, alors il est clair
que ρ est bien une fonction de contraste.
Il suffirait aussi de supposer que les variables ξi soient non corrélées avec
Eθ ξi ξj = 0 ou = σ 2 selon que i 6= j ou i = j.
Un argument de compacité implique alors la

Proposition 5.1 Si l’application β 7→ g(β, z) est continue sur Rd et vérifie


limkβk→∞ |g(β, z)| = ∞, pour tout z ∈ F , alors il existe (au moins) un estima-
teur, β(X),
b des moindres carrés qui minimise le contraste (5.4).

Lorsque la fonction β 7→ g(β, z) est différentiable, une des solutions du système


d’équations
n
X ∂g  
(β, zi ) Xi − g(β,
b zi ) = 0, j = 1, . . . , d
i=1
∂βj
5.1. MINIMUM DE CONTRASTE 53

est l’un des estimateurs des moindres carrés. Un exemple important est le cas
où F = Rd et g(β, z) = β · z.
Posant zit = (zi,1 , . . . , zi,d ) pour 1 ≤ i ≤ n, les équations précédentes
s’écrivent,
n d n
!
X X X
Xi zi,j = zi,k zi,j βbk , j = 1, . . . , d
i=1 k=1 i=1

Considérons la matrice de type n × d, Z = (zi,j )1≤i≤n,1≤j≤d , les équations


précédentes s’écrivent encore

Z t X = (Z t Z)βb

Exemple de la droite de régression. Si d = P 2 et z ∈ R, on considère la


fonction g(β, z) = β1 + β2 z, alors, en posant z = n1 i zi ,
n
X n
X
βb2 = (zi − z)Xi / (zi − z)2 , βb1 = X − βb1 z
i=1 i=1

Notons que, si on reprend un variante aléatoire du plan d’expérience (avec zi


iid), et si les ξi forment aussi une suite iid, la loi forte des grands nombres permet
de prouver la consistance asymptotique de cet estimateur (lorsque n → ∞).
Enfin, une variante de la méthode des moindres carrés en est sa version
pondérée, pour laquelle on minimiserait, ici,
n
X (Xi − [β1 + β2 zi ])2
i=1
wi

pour des poids w1 , . . . , wn > 0, à débattre. Des expressions de l’estimateur des


moindres carrés s’obtiennent ici de façon analogue.
Pour passer à la section qui suit, notons simplement que si (ξ1 , . . . , ξ) ∼
Nn (0, σ 2 In ), l’estimateur des moindres carrés maximise aussi la log −vraisemblance
de X,
1
Lθ (X) = − 2 kX − µk2

5.1.2 Maximum de vraisemblance


Dans un modèle dominé pθ (x)dµ(x) on considère

ρ(θ, X) = − log pθ (X) = −Lθ (X) (5.5)

Définition 5.2 Soient P, Q deux lois sur (E, E), on appelle information de
Kullback, l’expression Z
p
K(P, Q) = log dP
q
54 CHAPITRE 5. MÉTHODES D’ESTIMATION

où p, q désignent les densités de P et Q par rapport à une mesure dominante


arbitraire.

Notons d’abord que µ = P + Q domine P et Q. Il faut donc encore montrer que


cette expression ne dépend pas de la mesure dominante µ choisie pour prouver
que l’information ne dépend que de P et Q.

Lemme 5.1 (Shannon) K(P, Q) ≥ 0 et, pour toute mesure dominante telle
que P = pµ et Q = qµ,

K(P, Q) = 0 ⇔ (P (A) = Q(A) = 0, où A = {x ∈ E| p(x) 6= q(x)})

Preuve. Posons Z = q/p, g(z) = − log z est convexe, alors l’inégalité (1.3) de
Jensen (non conditionnelle) s’écrit
Z  Z 
K(P, Q) = g(Z) dP ≥ g E Z dP = g(1) = 0

La stricte convexité de g permet de traiter du cas d’égalité.

Corollaire 5.1 L’expression (5.5) définit un contraste pour tout modèle iden-
tifiable.

Preuve. Ici D(θ0 , θ) = Eθ0 ρ(θ, X) et

pθ (X)
D(θ0 , θ) − D(θ0 , θ0 ) = −Eθ0 log = K(Pθ0 , Pθ ) ≥ 0
pθ0 (X)

ne s’annule que lorsque Pθ = Pθ0 et donc si θ = θ0 , car le modèle est identifiable.

Exemple. Lorsque X = (X1 , . . . , Xn ) est un n−échantillon iid, de loi margi-


nale Fθ0 par rapport à la mesure µ
n
1X
ρ(θ, X) = − log fθ (Xi ) →n→∞ K(Fθ0 , Fθ ), µ − p.s.
n i=1

par la loi des grands nombres.

Remarque. Notons Lθ (X) la log −vraisemblance du modèle. L’estimateur du


maximum de vraisemblance (EMV) existe et il est unique lorsque Θ ⊂ Rd est
un ouvert de frontière ∂Θ vérifie
– limθ→∂Θ Lθ (X) = −∞,
– θ 7→ Lθ (X) est une fonction continue,
– θ 7→ Lθ (X) est une fonction strictement concave.
Les deux premières propriétés assurent l’existence et la troisième implique l’uni-
cité de l’EMV.
5.1. MINIMUM DE CONTRASTE 55

Proposition 5.2 Si le modèle est exponentiel canonique, de densité

pθ (x) = h(x)eθ·T (x)−A(θ) ,

alors l’ensemble des paramètres naturels


 Z 
d θ·T (x)

Θ= θ∈R e dµ(x) < ∞

est un ouvert convexe de Rd .


Si la réalisation t0 de T (X) est telle que

∀c ∈ Rd \ {0} : Pθ (c · T (X) > c · t0 ) > 0

alors l’estimateur du maximum de vraisemblance existe et est solution de l’équation

∇A(θ) = Eθ T (X) = t0

Ce résultat est admis et il se trouve, avec une réciproque, dans Bickel et Doksum
(page 123).
Notons C le support de la loi de T (X) ( 1 ), lorsque t0 ∈ C ◦ , est intérieur à C,
alors θb existe et il est unique car dire qu’il est intérieur à C signifie que la masse
de la loi de T (X) n’est pas située entièrement d’un seul coté d’un demi-espace
de Rd à la frontière duquel se trouve t0 ; il existe ainsi c 6= 0 tel que les ensembles
{t ∈ Rd | c · t > c · t0 } ∩ C {t ∈ Rd | c · t < c · t0 } ∩ C sont ouverts et disjoints
(donc de masses non nulles).
P 2
Exemple. Dans le modèle gaussien iid N (µ, σ 2 ), T (X) =
P
i Xi , i Xi et
C = R × R+∗ et l’EMV existe toujours ; lorsque n = 1, C ◦ = ∅ car T (X) se
trouve alors sur la parabole T12 = T2 .

Proposition 5.3 Supposons le modèle exponentiel comme lors de la proposi-


tion 5.2. Pour un modèle dominé par la mesure de Lebesgue, l’estimateur du
maximum de vraisemblance existe avec une probabilité 1 et satisfait la condition
précédente.
Ici, en effet ∂C, d’intérieur vide est aussi de Pθ −probabilité nulle.

Remarques.
– Si θ 7→ λ(θ) est une bijection Θ → Λ, le changement de variable corres-
pondant ne modifie pas les énoncés d’existence de l’EMV.
– Un EMV est fonction de toute statistique exhaustive.
– Dans le modèle multinomial 4.5.4, on a T (X) = (t1 /n, . . . , tk /n) où tj
désigne le nombre d’occurrences de 1 ≤ j ≤ k dans le n-échantillon iid
X1 , . . . , Xn de loi Pλ (Xi = j) = λj avec λ1 + · · · + λk = 1. La loi de
T (X) a donc pour support le simplexe de Rk qui est d’intérieur vide, par
conséquent l’EMV n’existe pas.
1. C est le plus petit sous ensemble fermé vérifiant Pθ (T (X) ∈
/ C) = 0.
56 CHAPITRE 5. MÉTHODES D’ESTIMATION

– Les mélanges de gaussiennes N (µ, 1), N (µ, σ 2 ), de densité fθ = λφ1 (x −


µ) + (1 − λ)φσ (x − µ) (où φσ désigne la densité d’une loi N (0, σ 2 )) avec
θ = (µ, σ 2 ) et où λ > 0 est fixé, sont envisagés en section 5.3.4. Pour un
n−uplet iid (X1 , . . . , Xn ) suivant une telle loi, les couples θb = (Xi , 0) sont
tous des EMV car ils rendent infinie la valeur de la vraisemblance. Il n’y
a pas unicité de l’EMV dans ce cas.

5.2 Moments
Supposons observé un échantillon X1 , . . . , Xn iid, de loi Pθ , pour un pa-
ramètre θ identifiable. On s’intéresse à l’estimation d’un paramètre de la forme

µ = g(θ) = Eθ G(X1 )

alors la réponse empirique est la solution issue de la loi des grands nombres :
n
1X
µ
b= G(Xi )
n i=1

Typiquement, on considère G(x) = (x, x2 , . . . , xd ), ce qui justifie l’appellation


de méthode des moments.
Si la fonction g est injective, alors l’estimateur par moments de θ s’écrit via
l’équation
g(θ)
b =µ b
Un argument de loi des grands nombres, donné au chapitre suivant, permettra
de conclure à leur consistance asymptotique (convergence pour n → ∞.

Exemples.
– Lois Γ. Si X1 ∼ Γ(α, λ), la loi de densité λα xα−1 e−λx /Γ(α) sur R+ (avec
R∞ 2
Γ(α) = 0 xα−1 e−x dx), alors θ = (α, λ) ∈ (R+∗ ) est estimé en posant
µj = Eθ X1j pour j = 1, 2. Le calcul prouve que µ1 = α/λ et µ2 = σ 2 +µ21 =
α(1+α)/λ2 . L’estimation de ces paramètres par moments s’écrit donc, avec
n n
1X 1X
X = Xi , b2 =
σ (Xi − X)2
n i=1 n i=1
2
X b= X
α = 2
, λ
b2
b
σ
b σ
– Fréquences. Dans le modèle multinomial 4.5.4, on pose

G(x) = ( 1I(x=1) , . . . , 1I(x=k) ),

alors λ = Eλ G(X1 ) = (Pλ (X1 = 1), . . . , Pλ (X1 = k)) s’estime empirique-


ment.
5.2. MOMENTS 57

5.2.1 Méthode d’injection


Considérons la mesure empirique d’un n−échantillon iid,
n
1X
Pn (A) = 1I{Xi ∈A}
n i=1

lorsque le paramètre d’intérêt s’écrit h(θ) = H(Pθ ), on est conduit à estimer ce


paramètre par la relation
h(θ)
b = H(Pn )

Exemples.
– Le α−quantile d’une loi s’estime par
n
1X
bα = Fn−1 (α), avec Fn (x) =
x 1I{Xi ≤x} = Pn ([x, +∞[)
n i=1

– La densité marginale f du n−échantillon iid réel ne peut être estimée par


injection car ce n’est pas une fonction régulière de F : elle est obtenue par
F 7→ F 0 = f . On doit régulariser l’estimation obtenue par injection en
posant, comme en § 9.4, pour une suite h = hn → 0 (quand n → ∞, et
pour une densité bornée K : R → R
  n  
x−u Xi − u
Z
1 1 X
fn,h (x) = K dFn (u) = K
h h nh i=1 h

Le biais de cet estimateur non paramétrique et un théorème de limite


centrale sont déterminées dans cette section 9.4. Sa convergence en proba-
1
bilité suit de l’estimation Var fn,h = O nh si nh → ∞. Sa convergence
presque sûre (ou même uniforme presque sûre) suivrait du raffinement du
lemme 6.1 (que nous ne préciserons pas plus, et nous renvoyons ici aux
cours d’estimation fonctionnelle), car la borne Cj E|X0 |j /nj/2 peut être y
remplacée par !
j/2
E|X0 |j (Var X0 )
Cj +
nj−1 nj/2

Le lemme de Borel-Cantelli permet alors de conclure.


– Une fois la densité
R estimée, il n’est pas difficile de concevoir, par exemple,
l’estimation de f 2 par injection (cf. § 9.4).

5.2.2 Moments en économétrie


Nous suivons ici une présentation due à Emmanuel Guerre ( 2 ) (LS-CREST
& ISUP-Paris 6) . Un modèle simplifié de l’économie est donné par la loi de
2. issue de Lars Peter Hansen, Econometrica, 1982.
58 CHAPITRE 5. MÉTHODES D’ESTIMATION

l’offre Oi et de la demande Di , au temps i ∈ {1, . . . , n} suivante,

Oi = αPi + γZi + ui , α>0 (5.6)


Di = βPi + vi , β<0 (5.7)

Ici Pt désigne le prix du produit, et ui , vi sont deux suites centrées et iid. Enfin
Zi est une variable extérieure au marché (exogène), c’est-à-dire indépendante
de (uj , vj )1≤j≤n , par suite EZi ui = EZi vi = 0. La première relation s’écrit, par
exemple
EZi (Di − βPi ) = 0
Un estimateur de β inspiré de la loi des grands nombres s’écrit alors
Pn
Zi Di
βb = Pi=1
n
i=1 Zi Pi

L’équilibre Oi = Di de l’offre et de la demande détermine donc le prix Pi ,


1
Pt = (γZi + ui − vi )
α−β

Nous renvoyons au livre de Monfort et Gouriéroux pour des extensions mul-


tivariées de cet estimateur ; dans ce cas, on utilise la méthode des moments
généralisés et des variables instrumentales.

5.3 Problèmes algorithmiques


En pratique, les estimations du maximum de vraisemblance sont rarement
calculables de manière explicite même si les exemples du cours tendent à le prou-
ver. Des méthodes numériques (en général récursives) permettent d’approcher
de telles racines d’équations non linéaires.

5.3.1 Dichotomie
Soit f : [a, b] → R, une application strictement croissante et continue ; si
f (a) < 0 < f (b) alors f admet une unique racine x? ∈]a, b[ (vérifiant f (x? ) = 0).
La manière la plus naı̈ve d’approcher une racine de f est l’antique méthode
de dichotomie  dont on décrit sans difficulté une étape.
0
Si f a+b
2 > 0, on pose a = a et b0 = a+b 0 a+b
2 et, sinon, on pose a = 2 et
0
b = b.
On initie alors le procédé en posant a0 = a, b0 = b, et si (an , bn ) = (a, b) (à
l’étape n) on posera (an+1 , bn+1 ) = (a0 , b0 ),. . .
La suite (an , bn ) construite par ce procédé vérifie

an ≤ x? ≤ bn , bn − an ≤ 2−n (b − a)

Alors, |an − x? | ≤ 2−n (b − a).


5.3. PROBLÈMES ALGORITHMIQUES 59

Soit, par exemple, une famille exponentielle canonique à un paramètre, telle


que l’observation de la statistique T (X), vérifie t0 ∈]a, b[ (support convexe de la
densité de la loi de T (X), pT ). L’estimateur du maximum de vraisemblance est
déterminé par bisection en posant f (θ) = Eθ T (X) − t0 (ici f 0 (θ) = Varθ T (X) >
0).

Exemple Une situation de ce type est fournie par le modèle iid Γ, tel que
pθ (x) = [Γ(θ)]−1 xθ−1 e−x . Ici Γ0 (θ)/Γ(θ) = T (X)/n et la fonction Γ est évaluée
par les méthodes d’intégration numériques standard ; méthodes de Newton Cotes
(par exemple celles des rectangles, des trapèzes, ou de Simpson) ou celle de Gauss
(dont les noeuds sont les racines de suites de polynômes orthogonaux, typique-
ment ceux de Tchebichev : Tn (cos x) = cos nx). On peut consulter Doukhan
Sifre, tome 1, §7-4, page 268 à ce sujet.

5.3.2 Montée sur les axes


Dans le cas d’un modèle exponentiel canonique multidimensionnel, l’EMV
est solution de l’équation ∇A(θ) b = t lorsque la réalisation de la statistique
T (X) est notée t = (t1 , . . ., td ). Pour approcher cette solution, on initialise le
paramètre θb0 = θb10 , . . . , θbd0 puis observant la statistique t = T (X), on calcule :
∂  
θb11 racine de l’équation en θ1 : A θ1 , θb20 , . . . , θbd0 = t1 ,
∂θ1
∂  
θb21 racine de l’équation en θ2 : A θb11 , θ2 , θb30 , . . . , θbd0 = t2 ,
∂θ2
. . .. . .
∂  
θbd1 racine de l’équation en θ1 : A θb10 , . . . , θbd−1
0
, θd = td .
∂θd
On a ainsi un θb1 (obtenu par exemple par la méthode de dichotomie), on
construit de cette manière une suite (θbr )r≥0 . Lorsque le modèle exponentiel est
régulier, on peut prouver que ces méthodes convergent.

5.3.3 Méthode de Newton


La méthode dite de la tangente s’écrit ici pour un modèle exponentiel régulier,

θb1 = θb0 − D2 A(θb0 )−1 (DA(θb0 ) − t).


Cette méthode est d’ordre 2, sa vitesse de convergence est sur-géométrique,
n
O(r2 ), mais la plus grande difficulté est son initialisation car les énoncés de
convergence requièrent beaucoup de connaissances sur les fonctions étudiées.

Lemme 5.2 (Méthode de Newton) Soit f : Θ → Rd , pour un ouvert Θ ⊂


Rd , une fonction admettant un zéro θ∗ ∈ Θ et telle que Df (θ) soit inversible
sur Θ. Posons θn+1 = g(θn ) avec g(θ) = θ − Df (θ)−1 (f (θ)). Alors il existe des
constantes M, η avec telles que B(θ, η) ⊂ Θ et
∀θ ∈ Θ : kθ − θ∗ k ≤ η ⇒ kg(θ) − g(θ∗ )k ≤ M kθ − θ∗ k2 .
60 CHAPITRE 5. MÉTHODES D’ESTIMATION

En dimension 1, on écrit
ṗθ (θb0 )
θb1 = θb0 − .
p̈θ (θb0 )
Preuve. On pourra se reporter à Ciarlet, page 158 pour cet énoncé ou à
Doukhan-Sifre 1, page 205, pour des raffinements de cet énoncé sans usage de
dérivée seconde dans le cas de la dimension 1.
−1
Exemple. La loi logistique de fonction de répartition Fθ (x) = 1 + e−(x−θ)
−2
vérifie fθ (x) = e−(x−θ) 1 + e−(x−θ) . L’estimateur du maximum de vraisem-
blance fondé sur un n-échantillon iid est calculé avec
n
X n
X
p̈θ (θ) = n − 2 e−(Xj −θ) Fθ (Xj ), ṗθ (θ) = −2 fθ (Xj ) < 0.
j=1 j=1

D’autres méthodes numériques sont présentées, par exemple dans le livre de


Ciarlet.

5.3.4 Algorithme EM
Nous considérons ici l’unique exemple d’un mélange de deux lois gaussiennes.
Soit φσ (s) la densité de la loi N (0, σ 2 ), on pose θ = (λ, σ1 , µ1 , σ2 , µ2 ) ∈ [0, 1] ×
(R × R+∗)
2

fθ (s) = (1 − λ)φσ1 (s − µ1 ) + λφσ2 (s − µ2 ),


Le modèle de mélange de gaussiennes, (S1 , . . . , Sn ), obtenu pour le cas d’échantil-
lons iid suivant
 Pla loi de densité  fθ (s) admet une log-vraisemblance presque in-
n
extricable = j=1 log fθ (Sj ) .
Soit par contre une suite ∆1 , . . . , ∆n de variables de Bernoulli iid, indépendante
de (S1 , . . . , Sn ), et telle que Pθ (∆j = 1) (= 1 − (Pθ (∆j = 0)) = λ, alors la suite
bivariée (X1 , . . . , Xn ) où Xj = (Sj , ∆j ) est encore iid et, conditionnellement à
∆ = (∆1 , . . . , ∆n ), la loi de (S1 , . . . , Sn ) est gaussienne indépendante de lois
marginales respectives
N (∆j µ1 + (1 − ∆j )µ2 , ∆j σ12 + (1 − ∆j )σ22 )
Ainsi la vraisemblance de X, gaussienne, s’écrit très simplement. Posant
 
pθ (X)
J(θ|θ0 ) = Eθ0 log S(X) = s
pθ0 (X)
On maximise alors cette expression pour déduire θ1 , et on obtient de façon
récursive une suite d’estimations de θ en remplaçant θ0 par θ1 dans l’équation
précédente.
Posons qθ (s) la vraisemblance de S alors (en utilisant des notations plus
adaptées à la dimension de paramètre d = 1) nous obtenons,
 
∂ ∂
log qθ0 (s) = Eθ0 log pθ (X) S(X) = s

∂θ ∂θ θ=θ0
5.3. PROBLÈMES ALGORITHMIQUES 61

∂ ∂
ceci permet de justifier la méthode car ∂θ J(θ|θ0 ) = ∂θ log qθ0 (s). On prouve de
plus que qθ1 (s) ≥ qθ0 (s) pour prouver la consistance de la limite de la suite θr
construite ainsi.

Remarque. Lorsque λ est Q petit et fixé et µ1 = µ2 = µ, σ1 = 1 alors θ =


n
(µ, σ 2 ) où σ = σ2 alors supσ j=1 fµ,σ2 (Xj ) = +∞ lorsque µ est l’un des Xj
est atteint lorsque σ = 0 ; ainsi les estimateurs du maximum de vraisemblance
sont les couples θb = (Xj , 0) pour j = 1, . . . , n, si on accepte la valeur σ = 0
pour ce paramètre.
Une formulation générale de l’algorithme EM ainsi qu’une preuve de l’énoncé
précédent figurent dans Bickel et Doksum.
62 CHAPITRE 5. MÉTHODES D’ESTIMATION
Chapitre 6

Asymptotique en estimation

A partir de maintenant, X1 , X2 , X3 , . . . désigne une suite iid dans le modèle


statistique Pθ . En général nous considérerons des variables réelles. L’objet de
la section est de traiter des qualités asymptotiques d’une suite d’estimateurs
Tn = Tn (X1 , . . . , Xn ) d’un paramètre g(θ) ∈ Rp .
Dans la première, section nous envisageons la convergence d’estimateurs ;
en termes plus probabilistes, il s’agit souvent de lois des grands nombres. La
seconde section précise l’asymptotique de ces estimateurs et la troisième donne
des versions du théorème de limite centrale avec une variance limite minimale.

6.1 Consistance
6.1.1 Méthodes empiriques
Soit k · k une norme fixée sur Rp , son risque quadratique s’écrit

Rθ (Tn ) = Eθ kTn (X1 , . . . , Xn ) − g(θ)k2 ∈ R ∪ {+∞}.

Exemples
– X = (X1 + · · · + Xn )/n estime g(θ) = Eθ X1 sans biais et avec le risque
Rθ = Eθ (X − g(θ))2 = Varθ X1 /n →n→∞ 0.
– Ordonnons l’échantillon X1 , . . . , Xn de manière croissante comme statis-
tiques d’ordre (bien définies pour des lois Pθ sans atome),

min{X1 , . . . , Xn } = X(1) < X(2) < X(3) < · · · < X(n) = max{X1 , . . . , Xn }.

On définit la médiane empirique par méd(X) = X( n+1 ) lorsque n est


  2

impair et = 12 X( n ) + X( n +1) , pour n pair. Alors méd(X) estime la


2 2

médiane g(θ) = Fθ−1 12 de la loi des Xj . Le calcul de risque est amplement




moins agréable dans ce cas ; ainsi, dans le cas le plus simple d’échantillons

63
64 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION

impairs n = 2k + 1, la médiane vaut la statistique d’ordre X(k+1)


Z ∞   2
1
Rθ (méd(X)) = x − Fθ−1 gk+1 (x)dx.
−∞ 2

k
où gk+1 (x) = nC2k F k (x)(1 − F k (x))f (x) désigne la densité marginale de
la médiane empirique (cf. proposition 9.8). Cette dernière expression, peu
commode, conduit à donner des définitions générales couvrant aussi les
exemples pour lesquels il n’y a pas d’expression explicite.

Définition 6.1 La suite d’estimateurs Tn de g(θ) est consistante si

P
Tn →θ n→∞ g(θ) i.e. ∀ > 0, θ ∈ Θ : Pθ (kTn − g(θ)k ≥ ) →n→∞ 0

La suite d’estimateurs Tn de g(θ) est uniformément consistante si

∀ > 0 : sup Pθ (kTn − g(θ)k ≥ ) →n→∞ 0


θ∈Θ

La consistance est localement uniforme lorsque l’on remplace le supremum


précédent sur Θ ⊂ Rd (pas nécessairement ouvert dans Rd ) par un supremum
sur un ouvert arbitraire de Rd inclus dans Θ. Lorsque l’ensemble Θ est compact,
cela entraı̂ne bien sûr ceci.

Exemples
– Par la loi (faible) des grands nombres, X estime Eθ X1 de manière consis-
tante. Lorsque la loi Pθ est sans atome et que l’application θ 7→ Pθ (A)
est continue pour tout borélien A ⊂ R, la convergence est localement
uniforme.
– Si Pθ = M(k, θ1 , . . . , θk ) est une loi multinomiale de paramètre θ ∈
Θ = {(θ1 , . . . , θk ) ∈ (R+ )k | θ1 + · · · + θk = 1} (simplexe de Rk ), c’est
àPdire Pθ (Xj = i) = θi pour i = 1, . . . , k et j = 1, . . . , n. Posons Nj =
n
i=11I{Xi =j} , le nombre d’occurrences de i dans la suite X1 , . . . , Xn . Alors
 
N1 Nk
θbn = ,...,
n n

est un estimateur uniformément consistant de θ. Pour le prouver, on borne


de manière uniforme sur Θ la variance de chaque fréquence empirique Nj /n
par 41 (en effet Nj ∼ B(n, θj ) est binomiale pour chaque j donc sa variance
vaut : nθj (1 − θj ) ≤ n/4) et on utilise la compacité du simplexe.
P
Remarquons enfin que lorsque n Pθ (kTn − g(θ)k ≥ ) < ∞, le lemme de Borel-
Cantelli montre la convergence presque sûre de la suite d’estimateurs (Tn )n .
6.1. CONSISTANCE 65

Proposition 6.1 Nous supposons maintenant que la suite iid X1 , X2 , . . . ∈ E


prend ses valeurs dans E et qu’une fonction h : E → Rp vérifie Eθ |hj (X1 )| < ∞
pour j = 1, . . . , p et en notant h = (h1 , . . . , hp ). Alors, pour toute fonction
continue g : Rp → Rq , le paramètre f (θ)
 = g (Eθ h(X1 )) est estimé de manière
1
Pn
consistante par Tn = g n j=1 h(Xj ) .

Preuve. Loi faible des grands nombres.

6.1.2 Minimum de contraste


Corollaire 6.1 Soit (Pθ )θ∈Θ une famille exponentielle avec Θ ⊂ Rd ouvert et
pθ (x) = k(x)eθ·T (x)−A(θ) , alors l’estimateur du maximum de vraisemblance θbn
fondé sur le n−échantillon (X1 , . . . , Xn ) vérifie
a) limn→∞ Pθ (θbn existe) = 1,
b) θbn est consistant.
Pn
Preuve. Par la proposition 5.3, θbn existe ⇔ Tn = 1
n T (Xj ) ∈ C ◦ est dans
j=1
l’intérieur du support de la loi de T ; l’EMV vaut alors θbn = [∇(Tn )]−1 . Soit
θ le vrai paramètre alors Eθ T (X1 ) ∈ C ◦ et si kTn − Eθ T (X1 )k est assez petit,
alors Tn ∈ C ◦ ce qui conclut le premier point. La consistance suit, elle, de la
proposition 6.1.

Théorème 6.1 Soit ρ : E → R+ une fonction de contraste, c’est-à-dire une


fonction telle que θ0 soit l’unique minimum de la fonction θ 7→ D(θ, θ0 ) =
Pn
Eθ0 ρ(X1 , θ). Soit à présent θbn minimisant ρn (θ) = n1 j=1 ρ(Xj , θ). On suppose

a) sup |ρn (θ) − D(θ, θ0 )| →0 n→∞ 0,
θ∈Θ
b) inf D(θ, θ0 ) > D(θ0 , θ0 ).
kθ−θ0 k≥
Alors θbn est consistant.

Preuve. Soient , δ > 0, on pose Bn = (supθ |ρn (θ) − D(θ, θ0 )| > δ/2) et
 
An = inf (ρn (θ) − ρn (θ)) − inf D(θ, θ0 ) ≤ −δ .
kθ−θ0 k≥ kθ−θ0 k≥

Utilisant l’inclusion An ⊂ Bn et le fait que limn Pθ0 (Bn ) = 0, on obtient


limn Pθ0 (An ) = 0 ; on pose δ = 14 inf kθ−θ0 k≥ D(θ, θ0 ) pour conclure.
Les questions de mesurabilité évitées ici pourraient être résolues en utilisant
la séparabilité de Θ et une condition de continuité pour θ 7→ ρ(x, θ).

Corollaire 6.2 Si Θ est fini et le paramètre θ identifiable alors l’estimateur du


maximum de vraisemblance θbn est consistant.

Preuve. Cet énoncé suit du théorème 6.1 car le lemme 5.1 de Shannon prouve
que ρ(x, θ) = − log pθ (x) est un contraste.
66 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION

Remarque. La condition a) du théorème 6.1 n’est pas satisfaite par le modèle


gaussien (N (θ, 1))θ∈R ; on peut la remplacer par
a1 ) ∀K ⊂ Θ, compact, supθ∈K |ρn (θ) − D(θ, θ0 )| →n→∞ 0 en Pθ0 probabilité
et,
a2 ) ∃K0 ⊂ Θ, compact tel que limn Pθ0 (inf θ∈K
/ 0 (ρn (θ) − ρn (θ0 )) > 0) = 1.

6.2 Delta méthode


Ici X1 , X2 , X3 , . . . désignera une suite iid réelle. De plus une fonction h :
R → R est dite de classe C m si elle est m fois dérivable et telle que h(m) soit
une fonction continue.

Théorème 6.2 Soit h : R → R une fonction de classe C m telle que kh(m) k∞ <
∞ et E|X1 |m < ∞. On pose µ = EX1 et X = n1 (X1 + · · · + Xn ), alors il existe
une constante Cm > 0 ne dépendant que de m telle que
m−1
X h(j) (µ) Cm
Eh(X) = h(µ) + E(X − µ)j + Rm , |Rm | ≤ √ m kh(m) k∞ E|X1 |m .
j=1
j! n

Lemme 6.1 Il existe des constantes Cj > 0 pour tout j = 1, 2, 3, . . . telles que
j j −j/2
E|X − µ| j≤ Cj E|X1 | nj −(j+1)/2
et
E(X − µ) ≤ Cj E|X1 | n si j est impair.

Preuves. Le théorème suit la formule de Taylor et le lemme. Il se généralise


sans autre problème que des problèmes de notations au cas où X ∈ Rk et
h : Rk → R` .
Nous prouverons le premier point du lemme, d’abord, dans le cas où j est
pair. Remplaçant Xi par Xi − µ on suppose µ = 0. Un développement montre
que

X n

j 1
= · · · X

j
EXi1 ij

n i ,...,i =1
EX
1 j

n
1 X
≤ EXi1 · · · Xij
nj i1 ,...,ij =1
n
j! X
≤ EXi1 · · · Xij
nj
1≤i1 ≤···≤ij =1

Par indépendance, seuls les termes vérifiant i1 = i2 , . . . , ij−1 = ij ne sont pas


nécessairement nuls lorsque j est pair. Si j est impair on doit supposer que
i1 = i2 , . . . , ij−2 = ij−1 = ij (et toutes les configurations comportant (j − 1)/2
paquets de 2 termes égaux et un seul paquet de 3 termes égaux . Si on n’a pas
6.2. DELTA MÉTHODE 67

ces configurations, un facteur EXiu annulera, en effet, l’expression.


D’autre
part
l’inégalité de Hölder montre que chaque terme satisfait EXi1 · · · Xij ≤ E|X1 |j
ce qui permet de conclure avec Cj = j! dans les deux inégalités.
Observer les termes de plus près donnerait par exemple la meilleure borne
C4 = 4!/2 = 12.
Pour prouver la première inégalité lorsque j est impair, notons que, pour
une copie X10 , . . . , Xn0 indépendante de X1 , . . . , Xn , on a en utilisant l’inégalité
de Jensen conditionnelle

E|X − µ|j = E|X − EX 0 |j = E|EX (X − X 0 )|j ≤ E|X − X 0 |j ,

ce qui prouve que l’on peut supposer la loi de X1 symétrique. Soient à présent
une suite de signes indépendants, 1 , . . . , n tels que P(j = ±1) = 21 alors si
x1 , . . . , xn ∈ R, l’inégalité de Jensen implique
j

n
j 
n
j+1  j+1
n
! 2j
X X j X
i xi ≤ E i x i  j+1
≤ Cj+1 x2i

E

i=1 i=1 i=1

La dernière inégalité provient de l’utilisation d’un développement analogue au


précédent ( 1 ) pour cette puissance paire (j + 1) lorsque Xi = i xi dans la-
quelle seuls sont non nuls des termes pour lesquels i1 = i2 , . . . , ij = ij+1 ; la
majoration suit lorsque j est impair. Pour conclure il reste à conditionner l’ex-
pression E|X − X 0 |j par le signe, i , de Xi − Xi0 pour i = 1, . . . , n. Notant
Z = ((X1 − X10 , . . . , Xn − Xn0 ), nous avons
n j n j
1 X 1 X
E|X − X 0 |j = j E i |Xi − Xi0 | ≤ j EEZ i |Xi − Xi0 | ,

n
i=1
n
i=1

on utilise alors la majoration

n
! 2j
j
X
E (Xi − Xi0 )2 ≤ nj/2 E |X1 − X10 | ≤ 2j nj/2 E|X1 |j
i=1

On en déduit que le lemme reste exact pour j impair avec la constante Cj =


2j j![(j + 1)!]j/(j+1) .

Corollaire 6.3 Si m = 3, le théorème 6.2 s’écrit avec σ 2 = VarX1

σ 2 h00 (µ)  
Eh(X) = h(µ) + + O n−3/2 .
2n
1. !j+1 !(j+1)/2
n
X n
X
E Xi ≤ Cj+1 kXi k2∞ .
i=1 i=1
68 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION

Par exemple, avec h(t) = t(1 − t) et X1 ∼ b(µ), suivant une loi de Bernoulli de
paramètre µ, on a h(µ) = VarX1 et Eh(X) = E(X)2 − (EX)2 = h(µ) − n1 h(µ)
et le reste est nul.
Si m > 2 le développement obtenu est utilisé pour améliorer les qualités
asymptotiques d’un estimateur ; utiliser des estimations consistantes des termes
du développement conduit à améliorer la vitesse de convergence de l’estimateur.
Ainsi dans le cas
Pn précédent, si EX14 < ∞, l’estimateur Tn = h(X)−h00 (X)S 2 /2n
1
où S = n−1 i=1 (Xi − X) estime σ 2 sans biais satisfait
2 2

1  
ETn − h(µ) = E(h00 (X) − h00 (µ)))(S 2 − σ 2 ) + O n−3/2 .
2n
Un calcul dans l’esprit du lemme 6.1 montre que E(S 2 −σ 2 )2 = O(1/n), il prouve
avec le lemme 6.1 et l’inégalité de Cauchy Shwartz que ETn − h(µ) = O n−3/2
donc le biais de cet estimateur est d’un ordre plus petit que h(X).
Lorsque la statistique considérée est une fonction de répartition empirique,
de tels développement sont appelés développements d’Edgeworth.

La conséquence la plus utile du théorème 6.2 est sans doute l’énoncé suivant

Théorème 6.3 Si m = 2, le théorème 6.2 s’écrit avec σ 2 = VarX1



n h(X) − h(µ) −→n→∞ N 0, σ 2 [h0 (µ)]2 ,
 
en loi.

Ainsi on obtient une limite centrale dans le cas multinomial déjà évoqué Pθ =
M(k, θ1 , . . . , θk ),

n(h(θbn ) − h(θ)) → N (0, σ 2 ).

6.3 Efficacité asymptotique


Corollaire 6.4 Sous les conditions du corollaire 6.1, si la famille exponentielle
s’écrit pθ (x) = k(x)eθ·T (x)−A(θ) avec Θ ⊂ Rd ouvert, alors l’estimateur du maxi-
mum de vraisemblance θbn est asymptotiquement efficace, c’est-à-dire que :
√  
n θbn − θ →θ n→∞ Nd (0, I −1 (θ)).
P

Preuve. Par le corollaire 6.1, l’EMV existe avec une probabilité tendant vers 1 ou
limn Pθ (θbn = [∇A(Tn )]−1 ) = 1, une variante multi-dimensionnelle du théorème
6.2 permet de conclure (voir Bickel et Doksum, page 323).
Pour conclure la section, nous envisageons maintenant le cas d’estimateurs
par minimum de contraste, cf. théorème 6.1. Une fonction de contraste est une
fonction telle que θ0 soit l’unique minimum de la fonction θ 7→ D(θ, θ0 ) =
Eθ0 ρ(X1 , θ). On suppose que Θ ⊂ R est un intervalle et
∂ρ
∀θ ∈ Θ : ψ= existe (6.1)
∂θ
6.3. EFFICACITÉ ASYMPTOTIQUE 69

∀θ, θ0 ∈ Θ : Eθ ψ(X1 , θ0 ) = 0 ⇒ θ = θ0 (6.2)


2
∀θ ∈ Θ : Eθ [ψ(X1 , θ)] < ∞ (6.3)
∂ψ
θ 7→ ψ(x, θ) est dérivable et ∀θ ∈ Θ : Eθ (X1 , θ) 6= 0 (6.4)
∂θ
Si n ↓ 0 lorsque n ↑ ∞ alors,

n
1 X ∂ψ ∂ψ
0 Pθ
sup (Xi , θ) − (Xi , θ ) →n→∞ 0 (6.5)
n ∂θ ∂θ

|θ−θ 0 |<n i=1

P
∀θ ∈ Θ : θbn →θ n→∞ θ (consistance). (6.6)

Théorème 6.4 sous les hypothèses (6.1), (6.2), (6.3), (6.4), (6.5) et (6.6), on
a
n
1Xe  
e θ) = − ψ(x, θ) .
θn = θ +
b ψ(Xi , θ) + oPθ n−1/2 , ψ(x,
n i=1 Eθ ∂ψ
∂θ (X1 , θ)

Par suite, en posant :


Eθ ψ 2 (X1 , θ)
σθ2 =  2 ,
∂ψ
Eθ ∂θ (X1 , θ)

on a

n(h(θbn ) − h(θ)) → N (0, σθ2 ).
Pn
Idée de la preuve. Soit Pn = n1 i=1 δXi la mesure empirique de X1 , . . . , Xn ,
R
alors ψ(x, θbn )dPn (x) = 0. Le théorème des accroissements finis implique qu’il
existe θen tel que
n n n
1X 1X 1 X ∂ψ
ψ(Xi , θbn ) = ψ(Xi , θ) + (Xi , θen )(θbn − θ)
n i=1 n i=1 n i=1 ∂θ

La loi faible des grands nombres implique alors (après des justifications évitées
ici)
  n
∂ψ 1X
Eθ (X1 , θ) + oPθ (1) (θbn − θ) + ψ(Xi , θ) = 0.
∂θ n i=1

Le théorème suit.

Corollaire 6.5 Ici ρ(x, θ) = − log pθ (x) et sous les hypothèses précédentes,
l’estimateur du maximum de vraisemblance est asymptotiquement efficace.
De plus tout estimateur régulier de minimum de contraste satisfait un théorème
de limite centrale avec une variance supérieure ou égale à 1/I(θ).
70 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION

Exemple de Hodges : super efficacité. Si X1 , . . . , Xn sont iid N (θ, 1),


l’estimateur du maximum de vraisemblance est X et I(θ) = 1.
Alors Tn = X1I(|X|≥n−1/4 ) estime encore θ. De plus, en notant Φ la fonction
de répartition normale :
√ √
Pθ (|X| < n−1/4 ) = Φ(n1/4 − θ n) − Φ(−n1/4 − θ n)

ainsi cette expression tend vers 0 (n → ∞) si θ 6= 0 et vers 1 sinon. Par suite


Pθ (Tn = X) → 1 si θ 6= 0 et Pθ (Tn = 0) → 1 si θ = 0, on en déduit que

n(Tn − θ) → N (0, σθ2 )

où σθ2 = I −1 (θ)(= 1) si θ 6= 0 et σθ2 = 0 < I −1 (θ)(= 1) si θ = 0.

Remarque. La propiété LAN (Locally Asymptotic Normality) des estima-


teurs permet une présentation plus moderne de l’efficacité asymptotique.
Nous reportons le lecteur à Bickel et Ritov. Ainsi leur proposition 2, page 16
pour un énoncé très simple qui l’implique. Dans le cas non-paramétrique cette
présentation est particulièrement profonde.
Chapitre 7

Tests

7.1 Quelques définitions


S
SupposonsTque Θ = Θ0 Θ1 est partitionné en deux sous-ensembles non
vides (i.e. Θ0 Θ1 = ∅).
On observe X, réalisation d’une variable aléatoire de loi Pθ pour un θ ∈
Θ. L’objectif est de décider si θ ∈ Θ0 , ou pas. Les deux hypothèses appelées
hypothèse nulle (H0 ) : θ ∈ Θ0 et sa contre-hypothèse (H1 ) : θ ∈ Θ1 n’ont
pas des rôles symétriques. On définit la zone de rejet R ⊂ E comme une partie
mesurable (R ∈ E). L’ensemble critique du test est l’événement C = (X ∈ R) ∈
A qui est, lui, une partie de Ω. On rejette l’hypothèse (H0 ) lorsque la réalisation
de l’expérience vérifie X(ω) ∈ R (ou, de manière équivalente, lorsque ω ∈ C),
et on l’accepte dans le cas contraire.
Plus généralement,

Définition 7.1 Un test est une fonction mesurable φ : E → [0, 1], on refuse
l’hypothèse (H0 ) lorsque φ(X) = 1 et on l’accepte lorsque φ(X) = 0.
Lorsque φ prend aussi des valeurs distinctes de 0 et de 1 on parlera de test
randomisé et, lorsque φ(X) ∈]0, 1[, on rejette l’hypothèse (H0 ) avec la probabilité
φ(X).
Lorsque le test φ n’est pas randomisé, on
 appelle zone de rejet du test l’en-
semble R = (φ(X) = 1) = (φ ◦ X)−1 ({1}) .

Evidemment, une zone de rejet R permet de construire un test non randomisé


donné par φ = 1IR qui vaut 1 ou 0 selon que X ∈ R ou X ∈
/ R.

Définition 7.2 Lorsque Θ = {θ0 , θ1 }, on parle de test d’hypothèse simple.


Le modèle est alors dominé, par exemple par µ = Pθ0 +Pθ1 . Si p0 , p1 désignent
les densités de Pθ0 et Pθ1 par rapport à une (quelconque) mesure dominante un
test, appelé test du rapport de vraisemblance (abrégé en TRV), est donné par
p1 (x)
toute fonction f : R+ → [0, 1] croissante via la relation φ(x) = f p0 (x) .

71
72 CHAPITRE 7. TESTS

Dans le cas où f est l’indicatrice d’un intervalle [k, +∞[, le test est non ran-
domisé, lorsque f (t) = 0 si t < k et f (t) = 1 pour t > k, on obtient un test
randomisé.
On accepte ici l’hypothèse (H1 ) lorsque le rapport p1 /p0 est grand, c’est-à-
dire si θ1 est plus vraisemblable que θ0 .
Il y a généralement un inconvénient moindre à décider que θ ∈ Θ0 à tort que
le contraire. Ceci est pris en compte par les définitions suivantes

Définition 7.3 Le niveau du test est la probabilité maximale de rejeter l’hy-


pothèse (H0 ) à tort, α = sup Pθ (X ∈ R).
θ∈Θ0
Sa puissance est la fonction β : Θ1 → [0, 1] définie par βθ = Pθ (X ∈ R)
lorsque θ ∈ Θ1 .
Le test est sans biais si βθ ≥ α pour θ ∈ Θ1 .

Exemples.
a) Pour le modèle de Bernoulli iid X1 , . . . , Xn ∼ b(θ) (où le paramètre θ ∈
[0, 1]). Soit x = (x1 , . . . , xn ) ∈ {0, 1}n , si on pose s = x1 + · · · + xn , dans
ce cas pθ (x) = θs (1 − θ)n−s . Ainsi
 n   s
p1 (x) 1 − θ1 θ1 1 − θ1
=
p0 (x) 1 − θ0 θ0 1 − θ0

est une fonction croissante de s lorsque θ1 > θ0 , donc la zone de rejet est
de la forme s ≥ k.
P que S ∼ B(n, θ) suit une loi binomiale. Le niveau de ce test s’écrit
Notons
α = k≤j≤n Cnj θ0j (1 − θ0 )n−j . Pour θ1 > θ0 , on déduit que le test est sans
biais de grâce à la proposition 1.3 du chapitre 1. Cette expression prend
un nombre fini de valeurs, le niveau du test ne peut être fixé de manière
exacte dans ce cas.
Pour parvenir à fixer le niveau α d’un test on considérera un test randomisé
de la forme φ(s) = 0 lorsque s < k, φ(s) = γ lorsque s = k et φ(s) = 1
lorsque s > k. Alors l’entier k est le plus petit entier tel que (α̃ =)Pθ0 (S >
k) < α et γ est choisi en sorte d’ajuster le niveau à α. Par définition,
α̃ + Pθ0 (S = k) ≥ α et on pose γ = (α − α̃)/Pθ0 (S = k).
b) Modèle gaussien iid X1 , . . . , Xn ∼ N (θ, 1).
Pn
Dans ce cas pθ (x) = (2π)−n/2 exp − 21 i=1 (xi − θ)2 , et on pose


n
p1 (x) X n
log = (θ1 − θ0 ) xi − (θ12 − θ02 )
p0 (x) i=1
2
Pn
est une fonction croissante de x = n1 i=1 xi , lorsque θ1 > θ0 donc la zone
de rejet est de la forme [k, +∞[.
Si θ1 >Pθ0 , on rejettera donc l’hypothèse θ = θ0 lorsque la statistique
n
X = n1 i=1 Xi > k.
7.1. QUELQUES DÉFINITIONS 73

c) Vues les difficultés apportées par l’exemple a), pourtant élémentaire et la


grande simplicité de l’exemple b), on peut envisager une étude asympto-
tique qui conduira à un test de mise en oeuvre simple. Soit X1 , X2 , X3 , . . .
une suite iid de loi Pθ telle que et Varθ X1 = 1 on pose θ = Eθ X1 , un
test de l’hypothèse (H0 ) : θ = θ0 contre (H1 ) : θ 6= θ0 est fondé sur le
ϕ
théorème de limite centrale. Sa zone de rejet s’écrit |X − θ0 | ≥ 1−α/2

n
où
P(|N (0, 1)| ≥ ϕ1−α/2 ) = α.
Le niveau (asymptotique) de ce test (pour θ ∈ Θ0 ) suit du théorème
centrale limite :
√ √ ϕ1−α/2 √
 

Pθ0 n|X − θ0 | ≥ n √ = Pθ0 n|X − θ0 | ≥ ϕ1−α/2 →n→∞ α.
n
La puissance de ce test s’écrit pour θ 6= θ0
√ 
Pθ n|X − θ0 | ≥ ϕ1−α/2 → 1,

en effet la loi (faible) des grands nombres implique X − θ0 → θ − θ0 , en


Pθ probabilité. Par contre la convergence précédente
  n’est pas uniforme
en θ : pour le prouver notons que si θn − θ0 = o √1n alors
√ 
Pθn n|X − θ0 | ≥ ϕ1−α/2 → α.

Lorsqu’on n’a plusPnVarθ X1 = 1, on remplacera les observations Xi par


Xi /S où S 2 = n1 i=1 (Xi − X)2 désigne un estimateur consistant de la
variance, pour conserver les mêmes propriétés asymptotiques du test.
De la même manière on envisage un test de niveau asymptotique α pour
l’hypothèse θ ≤ θ0 ; la région de rejet s’écrit alors
√ 
n(X − θ0 ) ≥ ϕ1−α

Définition 7.4 Soient φj deux tests de niveau ≤ α pour tester l’hypothèse


(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈
/ Θ0 .
Le test φ1 est uniformément plus puissant (UPP) que le test φ2 si βθ,φ1 ≥
βθ,φ2 pour tout θ ∈ Θ1 .

Lorsque la contre-hypothèse est simple on parlera simplement de test plus puis-


sant.
Dans le cas de tests asymptotiques, il reste à introduire
 (n)
Définition 7.5 Soit E (n) , E (n) une suite de modèles statistiques (Pθ )θ∈Θ sur
le même espace de paramètres Θ ; l’observation correspondante est noté X (n) .
Le niveau asymptotique d’une suite de tests de Θ0 contre Θ1 de région de
rejet respective Rn , pour tout n = 1, 2, . . . est la limite (lorsqu’elle existe)
 
α = lim sup Pθ X (n) ∈ Rn
n→∞ θ∈Θ0
74 CHAPITRE 7. TESTS

Cette suite de tests est convergente si


 
∀θ ∈
/ Θ0 : lim Pθ X (n) ∈ Rn = 1
n→∞

Le seul cas abordé par ce cours est celui d’observations iid dont la loi est notée
Pθ car pour toute loi sur (E, E), on peut construire une loi sur l’espace produit
(E N , E ⊗N ) dont les marginales fini-dimensionnelles sont iid et dont les marginales
d’ordre 1 ont la loi initiale.
L’exemple c) donne un cas de suite de tests convergente. Pour raffiner la
notion de consistance, on peut aussi envisager des suites d’alternatives contigües
Θn ↑ Θc0 pour lesquelles la puissance est uniformément minorée.
Dans le cas du test (H0 ) : g(θ) = γ0 sur la moyenne, on posera, pour un
λ > 0 fixé, √
Θn = {θ ∈ Θ| kg(θ) − γ0 k ≥ λ/ n}

7.2 Lemme de Neyman-Pearson


Conservons les notations et le cadre de la définition 7.2, nous posons aussi
p1 (x)
V (x) = .
p0 (x)

Un test randomisé du rapport de vraisemblance (TRV) s’écrit alors


– φk,c (x) = 1 si V (x) > k,
– φk,c (x) = 0 si V (x) < k et
– φk,c (x) = c ∈]0, 1[ si V (x) = k.

Lemme 7.1 (Neyman-Person (NP))


a) Soit α > 0. Si φk,c est un test de niveau α, alors il est plus puissant (PP)
que tout autre test de niveau ≤ α.
b) Si α ∈ [0, 1], il existe un TRV φk,c de niveau (exactement) α (il est noté
φk,c ).
c) Soit φ un test PP de niveau α alors, pour tout θ ∈ Θ = {θ0 , θ1 }, on a
Pθ (φ(X) 6= φk,c (X), V (X) 6= k) = 0.

Preuve. ? a) Ici Eθ0 φk,c (X) = α. Soit donc φ tel que Eθ0 φ(X) ≤ α, on doit
prouver que Eθ1 (φk,c (X) − φ(X)) ≥ 0. Notons que

∆ = Eθ1 (φk,c (X) − φ(X)) − kEθ0 (φk,c (X) − φ(X))


= Eθ0 (φk,c (X) − φ(X)) (V (X) − k) + Eθ1 (φk,c (X) − φ(X))1I{p0 (X)=0}

Si φk,c (x) = 0 alors V (x) − k < 0, et si φk,c (x) = 1 alors φk,c (x) − φ(x) ≥ 0 car
φ(x) ∈ [0, 1]. Ainsi le premier terme de l’identité précédente est positif.
Notons que α > 0 implique k < ∞, par suite φk,c (x) = 1 lorsque p0 (x) = 0
et le second terme de l’identité précédente est aussi positif.
Alors Eθ1 (φk,c (X) − φ(X)) ≥ kEθ0 (φk,c (X) − φ(X)) ≥ 0,
7.2. LEMME DE NEYMAN-PEARSON 75

? b) Notons d’abord que les cas extrêmes sont couverts.


α = 0 lorsque k = ∞ donne le test PP, φ∞,0 ,
α = 1 lorsque k = 0 donne le test PP, φ0,0 .
Si maintenant, α ∈]0, 1[, Pθ0 (V (X) = ∞) = 0 alors il existe k < ∞ tel que
Pθ0 (V (X) > k) ≤ α et Pθ0 (V (X) ≥ k) ≥ α.
Lorsque Pθ0 (V (X) = k) = 0, on peut choisir c = 0 et on obtient donc un test
non randomisé.
Sinon, c = (α − Pθ0 (V (X) > k))/ Pθ0 (V (X) = k) > 0 donne lieu à un test PP
est obtenu avec k défini plus haut.
? Le point c) se traite comme les points précédents.

Pour conclure cette section, le lemme suivant nous donne une évaluation de
la différence entre puissance et niveau d’un tel test (que l’on pourrait appeler le
biais de ce test).

Lemme 7.2 Dans le modèle {p0 dµ, p1 dµ}, si α et βθ désignent le niveau et la


puissance d’un test de l’hypothèse simple correspondanteR (précisément : l’hy-
pothèse p0 dµRcontre l’alternative p1 dµ), alors β − α ≤ 12 |p0 − p1 |dµ et donc
1 − α + β ≥ p0 ∧ p1 dµ.
R
On écrit β − α = φ(p0 − p1 )dµ ; le lemme de Neymann-Person montre R cette
expression maximisée par φ = 1Ip0 <p1 ; on conclut avec la relation p1 >p0 (p1 −
p0 )dµ R= 12 |p1 − p0 |dµ.
R
R La dernière inégalité provient de l’identité suivante :
1 − 12 |p1 − p0 |dµ = p1 ∧ p0 dµ, laissée en exercice.

Exemples.
– On teste une hypothèse gaussienne simple, N (µ0 , Σ0 ) contre N (µ1 , Σ1 ) en
rejetant (H0 ) lorsque V (X) est grand. Les lois étant continues, on utilise
des tests non randomisés. La zone de rejet s’écrit

Q = (X − µ0 )t Σ−1 t −1
0 (X − µ0 ) − (X − µ1 ) Σ1 (X − µ1 ) > q (est grand)

Lorsque Σ0 = Σ1 et µ1 = µ0 + λ∆ où k∆k = 1 et λ ∈ R, on rejettera


l’hypothèse (H0 ) si

∆t Σ−1 t −1
0 (X − µ0 ) > ϕ1−α ∆ Σ0 ∆

La zone de rejet dépend ici de la direction ∆ de la différence mais pas de


l’amplitude λ. Par contre, la puissance de ce test en dépend largement.
– Si N1 , . . . , Nk désignent le nombre d’occurrences de 1, . . . , k dans un n-
échantillon de loi multinomiale M(k, θ1 , . . . , θk ), alors
n!
pθ (n1 , . . . , nk ) = θn1 · · · θknk .
n1 ! · · · nk ! 1
Qk
Ici V (θ1 , θ0 ) = 1 0 Ni
i=1 (θ1 /θi ) .
76 CHAPITRE 7. TESTS

Pour tester une hypothèse simple

θ0 = (θ10 , . . . , θk0 )/θ1 = (θ11 , . . . , θk1 )

dans laquelle θ10 > 0 pour chaque i, on suppose l’alternative de la forme


θi1 = θ0i pour un 0 <  < 1, et pour i 6= j et θj1 = ρθj0 > 0 avec
ρ = (1 − θj0 )/(1 − θj0 ).
Alors V = ρn (/ρ)Nj et comme  < 1 implique ρ ≥ , on en déduit que
la zone de rejet s’écrit (Nj > k), ce qui signifie que l’on retourne au cas
binomial déjà envisagé.

7.3 Rapports de vraisemblance monotones


Définition 7.6 Soit (Pθ )θ∈Θ un modèle µ-dominé avec Θ ⊂ R. On pose

pθ2 (x)
Vθ1 ,θ2 (x) =
pθ1 (x)

Si T (X) une statistique exhaustive de ce modèle on dit que le modèle est à


rapport de vraisemblance monotone en T (RVM en T ) lorsque Vθ1 ,θ2 (x) ( 1 ) est
une fonction croissante de T (x) pour θ1 < θ2 .

Exemple de base. Lorsque θ 7→ g(θ) est une fonction croissante le modèle


exponentiel pθ (x) = h(x) exp (g(θ)T (x) − B(θ)) est à RVM en T .

Théorème 7.1 (Neyman-Pearson) Soit (Pθ )θ∈Θ un modèle à RVM en T ,


on considère le test randomisé δt,c (x) = 1 lorsque T (x) > t, δt,c (x) = 0 lorsque
T (x) < t, et δt,c (x) = c si T (x) = t pour t ∈ R et c ∈ [0, 1], fixés. Alors
a) θ 7→ βθ = Eθ δt,c (X) est une fonction croissante.
Si α = Eθ0 δt,c (X) > 0, le test δt,c est UPP au niveau α pour tester l’hypothèse
(composée) θ ≤ θ0 contre θ > θ0 .
Notons que a) implique que ce test UPP est aussi sans biais. Sa preuve est de
même nature que celle du lemme 7.1.
Donnons maintenant une variante de cet énoncé pour un test bilatère c’est-à-
dire de la forme Θ0 = {θ ∈ Θ| θ ≤ θ1 ou θ ≥ θ2 }, ou Θ0 = [θ1 , θ2 ] pour θ1 ≤ θ2 .

Théorème 7.2 (Lehmann) Si le modèle est exponentiel, admet une densité


pθ (x) = h(x) exp (g(θ)T (x) − B(θ)) telle que l’application g soit strictement
croissante sur Θ0 =] − ∞, θ1 ] ∪ [θ2 , ∞[, alors un test UPP de niveau α est défini
par φ(x) = 1 pour T (x) ∈]t1 , t2 [, φ(x) = 0 pour T (x) ∈/ [t1 , t2 ], et φ(x) = ci pour
T (x) = ti lorsque i = 1, 2. De plus les constantes ti , ci sont déterminées par les
relations Eθi φ(X) = α pour i = 1, 2.
1. qui s’écrit comme fonction de T (x), par exhaustivité.
7.4. ASYMPTOTIQUE DU SCORE 77

Il existe aussi un test UPP de même nature et de niveau α pour tester l’hy-
pothèse θ = θ0 contre θ 6= θ0 (ou encore θ ∈ [θ1 , θ2 ] contre θ ∈
/ [θ1 , θ2 ]). Sa zone
de rejet est de la forme T (X) ∈]t
/ 1 , t2 [ (φ(X) = 1)) et φ(x) = ci pour T (X) = ti
(i = 1, 2).

Exemple. Le cas d’un n-échantillon gaussien √ est considéré plus haut, la zone
de rejet s’écrit (X ∈ R) = {|X − θ0 | > ϕ1−α/2 / n}.

7.4 Asymptotique du score


Ici encore nous considérons Θ ⊂ R.

Définition 7.7 Soient φ1 et φ2 deux tests de niveau ≤ α pour tester l’hypothèse


(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈/ Θ0 .
Le test φ1 est localement uniformément plus puissant (LUPP) que le test T φ2
si il existe un voisinage ouvert V 3 θ0 tel que βθ,φ1 ≥ βθ,φ2 pour tout θ ∈ Θ1 V .
Le niveau local du test d’hypothèse θ ≤ θ0 s’écrit α = supθ≤θ0 ,θ∈Θ∩V Eθ φ.

Lemme 7.3 Quand on ne considère que des tests réguliers, dans le sens que
l’application θ 7→ Eθ φ est dérivable en θ0 (intérieur à Θ), un test tel que
d
dθ Eθ0 φ 6= 0 est LUPP au niveau α si son niveau local vaut α et si pour tout
d d
autre test ψ de même type : dθ Eθ0 φ ≥ dθ Eθ0 ψ.
Preuve. Par définition
d
Eθ φ − Eθ ψ = Eθ0 φ − Eθ0 ψ(θ − θ0 ) Eθ (φ − ψ) + o (θ − θ0 ) (si θ → θ0 ).
dθ 0
Corollaire 7.1 Tout test LUPP(α) régulier vérifie φ(x) = 1 lorsque ṗθ0 (x) >
kpθ0 (x) et φ(x) = 0 lorsque ṗθ0 (x) < kpθ0 (x). On peut aussi imposer que φ(x) =
c soit constant sur l’ensemble où ṗθ0 = kpθ0 (x).

d
Définition 7.8 Le test fondé sur la statistique Sθ0 (X) = dθ log pθ0 (X) est ap-
pelé test de score. Il rejette l’hypothèse θ ≤ θ0 pour les grandes valeurs de
Sθ0 (X).

Remarque. Le corollaire 7.1, prouve que le test du score est LUPP. Ce test
est limite de tests du type NP lorsque θ1 → θ0 .

Théorème 7.3 Sous les hypothèses de régularité nécessaires pour assurer la


normalité asymptotique du vecteur de score dans le cas iid, le test de région
critique
 
d p
(X ∈ R) = log pθ0 (X1 , . . . , Xn ) > nIn (θ0 )ϕ1−α

a asymptotiquement les caractéristiques du test de score, pour tout estimateur
convergent In (θ0 ) de l’information I(θ0 ).
78 CHAPITRE 7. TESTS
p
Preuve. Ce résultat est fondé sur le théorème limite Sθ0 (X)/ nI(θ0 ) → N (0, 1).

d
Pn d
Exemple. Dans le cas iid dθ log pθ0 (X1 , . . . , Xn ) = i=1 dθ log f θ0 (Xi ) et une
région de confiance asymptotique s’écrit
 v 
n u n  2
X d uX d
(X ∈ R) =  log f θ0 (Xi ) > t log f θ0 (Xi ) ϕ1−α 
i=1
dθ i=1

Pour le modèle de translation de Cauchy, log fθ (x) = log π1 1+(x−θ)


1
2 , l’informa-

tion ne dépend pas du paramètre et la région asymptotique s’écrit


n r !
X Xi − θ0 n
2 > ϕ1−α
i=1
1 + (Xi − θ0 )2 2

7.5 Tests du score et de Wald


Nous considérons maintenant un ensemble de paramètres Θ ⊂ Rd (ouvert).
Supposons que Θ0 = {θ ∈ Θ| g(θ) = 0} où la fonction g : Θ → Rk est
différentiable et telle que le rang de ∇g(θ) soit k ≤ d (constant) pour tout
θ ∈ Θ.
La situation asymptotique considérée est celle d’observations iid X (n) =
(X1 , . . . , Xn ) dans le modèle régulier (Pθ )θ∈Θ .

Définition 7.9 Soit θen une suite d’estimateurs asymptotiquement efficace de


θ,
√  
n θen − θ →n→∞ Nd 0, I −1 (θ) ,

sous la loi Pθ

Les tests de Wald fondés sur cette suite ont pour région de rejet
 −1
Rn : ξnW > χ2k,1−α , avec ξnW = ng(θen )t ∇g(θen )I −1 (θen )g(θen )t g(θen )

Soit Ln (θ) = log pθ (X (n) ), la log −vraisemblance du n-échantillon. On considère


l’estimateur du maximum de vraisemblance θb0,n fondé sur X (n) sous l’hypothèse
(H0 ) : g(θ) = 0. Les tests du Score fondés sur cette suite ont pour région de
rejet
1
Rn : ξnS > χ2k,1−α , avec ξnS = ∇Ln (θb0,n )t I −1 (θb0,n )∇Ln (θb0,n )
n

L’exemple typique d’une suite d’estimateurs θen est celui du maximum de vrai-
semblance.
L’efficacité asymptotique de la suite d’estimateurs (θbn )n , est à la base de ces
tests, en effet
√   Pθ
n θbn − θ →0 n→∞ N (0, I −1 (θ0 ))
7.5. TESTS DU SCORE ET DE WALD 79

implique,
 t   Pθ
n θbn − θ I(θ0 ) θbn − θ →0 n→∞ χ2d

Et, pour un estimateur consistant, θbn de θ0 , le lemme de Slutsky implique bien


 t   Pθ
n θbn − θ I(θbn ) θbn − θ →0 n→∞ χ2d .

De plus, le théorème des extrema liés s’écrit avec le Lagrangien Ln (θ) + g(θ)t λ
donc ∇Ln (θb0,n ) + ∇g(θb0,n )t λ
bn = 0 conduit à

1 bt
ξnS = λ ∇g(θb0,n )I −1 (θb0,n )∇g(θb0,n )t λ
bn
n n
Ainsi ξnS − ξnW → 0 en Pθ −probabilité, si on prouve (cf. Monfort & Gouriéroux,
1996, page 556) :
√  √
bn / n ∼ − ∇g(θ0 )t I −1 (θ0 )∇g(θ0 ) −1 ng(θb0,n )
λ

Proposition 7.1 Sous ces hypothèses, les suites de tests de Wald et du score
sont de niveau asymptotique α et consistantes.
Preuve. Nous ébauchons le premier cas du test de Wald. Sous Pθ ,
√  
n g(θen ) − g(θ) → Nk (0, A) avec A = ∇g(θ)I −1 (θ)∇g(θ)t .


Par suite sous Θ0 , g(θ) = 0 et on a nA−1/2 g(θen ) → Nk (0, Ik ). Ainsi ξnW =
√ −1/2 e 2
k nA g(θn )k → χ2k sous Θ0 . Les résultats en découlent.
80 CHAPITRE 7. TESTS
Chapitre 8

Tests gaussiens

8.1 Tests fondés sur la vraisemblance


Dans le contexte d’un test Θ0 /Θ1 pour un modèle dominé, nous posons

supθ∈Θ1 pθ (x) supθ∈Θ pθ (x)


Λ(x) = , λ(x) = (8.1)
supθ∈Θ0 pθ (x) supθ∈Θ0 pθ (x)

Un test fondé sur la vraisemblance consiste à rejeter l’hypothèse Θ0 pour les


grandes valeurs de Λ(X) ou, de manière équivalente, celles de λ(X) (plus com-
mode à calculer), quand on observe X. Ce test coı̈ncide avec celui de Neyman-
Pearson pour le cas d’une hypothèse simple ou dans le cas de rapports de vrai-
semblance monotones.
Posons θb et θb0 , les estimateurs du maximum de vraisemblance de θ dans les
modèles statistiques respectifs (Pθ )θ∈Θ , et (Pθ )θ∈Θ0 , alors

pθb(x)
λ(x) = , log λ(x) = Lθb(x) − Lθb0 (x)
pθb0 (x)

8.1.1 Moyenne d’une gaussienne


On considère ici X1 , . . . , Xn iid de loi N (µ, σ 2 ) et Θ = R × R+∗ . Ici
n
!
1 1 X 2
pθ (x1 , . . . , xn ) = √ exp − 2 (xi − µ)
(σ 2π)n 2σ i=1

Dans ce cas l’estimateur du maximum de vraisemblance de θ = (µ, σ 2 ) sur Θ


c2 ) avec x = 1 Pn xi et σ
vaut θb = (x, σ c2 = 1 Pn (xi − x)2 Lorsque l’on
n i=1 n i=1
cherche à tester l’hypothèse Θ0 = {(µ, σ 2 ) ∈ Θ| µ = µ0 }, on exprime donc
pθb(x) = supθ∈Θ pθ (x) et pour calculer le dénominateur de l’expression de λ(x),
on a besoin de l’estimateur du maximum de vraisemblance de θ sur Θ0 . Dans

81
82 CHAPITRE 8. TESTS GAUSSIENS

ce cas !
n
∂ 1 1 X n
log p θ (x) = (xi − µ0 )2 − 2 =0
∂σ 2 2 σ 4 i=1 σ
 
c2 avec σ
lorsque θb0 = µ0 , σ c2 + (x − µ0 )2 , car
c2 = σ
0 0

n n
1X 1X
(xi − x)2 = (xi − µ0 )2 − (x − µ0 )2
n i=1 n i=1

1 1
(xi −µ0 )2 2
P P
Par suite, le fait queb02
= b2 i (xi −x) = n implique immédiatement
 2 i
σ σ
n σ
que log λ(x) = 2 log σ b2 .
b0

c2 λ(x) est une fonction croissante de |T (x)| = √n x−µ0 , si on a noté



Ainsi σ0 n s
n c 1
s2 = n−1 2
P
σ 2 = n−1 i (xi − x) . Par suite Tn (X1 , . . . , Xn ) ∼ t(n − 1) suit une
loi de Student.
On rejettera donc l’hypothèse µ = µ0 au niveau α lorsque |Tn | > tn−1,1−α/2
Des tests unilatères sont aussi obtenus de cette façon,
– pour tester µ ≤ µ0 contre µ > µ0 , on rejette l’hypothèse nulle au niveau
α quand Tn > tn−1,1−α , et
– pour tester µ ≥ µ0 contre µ < µ0 , on rejette l’hypothèse nulle au niveau
α quand Tn < tn−1,α .

8.1.2 Moyenne de deux échantillons gaussiens


A présent, on observe deux échantillons indépendants entre eux, et iid

X1 , . . . , Xn1 ∼ N (µX , σ 2 ) et Y1 , . . . , Yn2 ∼ N (µY , σ 2 )

Ici Θ = {θ = (µX , µY , σ 2 )| µX , µY ∈ R, σ 2 > 0} = R2 × R+∗ , ainsi


n1 n2
!
n 1 X X
log pθ (x, y) = − log(2πσ 2 ) − 2 2
(xi − µX ) + (yi − µY ) 2
2 2σ i=1 i=1

Dans ce cas, l’estimateur du maximum de vraisemblance s’écrit θb = (x, y, σ c2 )


avec, à présent,
n1 n2 n1 n2
!
1 X 1 X 1 X X
x= xi , y = c2 =
yi , σ (xi − x)2 + (yi − y)2 ,
n1 i=1 n2 i=1 n i=1 i=1

si n = n1 + n2 . Enfin, sur Θ0 = {θ ∈ Θ| µX = µY = µ, µ ∈ R}, l’estimateur du


maximum de vraisemblance obtenu vaut θb0 = (b µ0 , µ b02 ) où
b0 , σ
n1 n2
! n1 n2
!
1 X X
c2 = 1 X
2
X
2
µ
b0 = xi + yi , σ 0 (xi − µb0 ) + (yi − µ
b0 )
n i=1 i=1
n i=1 i=1
8.1. TESTS FONDÉS SUR LA VRAISEMBLANCE 83

Ainsi en ajoutant des identités découlant du développement de (Xi − µ b0 )2 =


2 2
σ
(Xi − X) + (X − µ b0 ) , on obtient log λ(x, y) = n2 log σb02 . Le test fondé sur λ
b

rejette donc l’hypothèse Θ0 quand Tn est grand avec


r
n1 n2 X − Y
Tn = ∼ t(n − 2)
n S
sous l’hypothèse µX = µY si
n1 n2
!
2 n c2 1 X X
S = σ = (Xi − X)2 + (Yi − Y )2
n−2 n−2 i=1 i=1

Pour montrer que cette variable a bien une loi de Student, Pon utilise le théorème
n1
de
Pn2 Cochran qui montre que les variables X/σ, Y /σ, i=1 (Xi − X)2 /σ 2 et
2 2
i=1 (Yi − Y ) /σ sont indépendantes et de lois respectives N (µX /σ, 1/n1 ),
N (µY /σ, 1/n2 ), χ2n1 −1 et χ2n2 −1 .
Des tests de niveau α sont obtenus pour les hypothèses
– µX = µY avec la région de rejet |Tn | > tn−2,1−α/2 ,
– µX ≤ µY avec la région de rejet Tn > tn−2,1−α ,
– µX ≥ µY avec la région de rejet Tn < tn−2,α .
On peut montrer que ces tests sont aussi ceux du rapport de vraisemblance. Le
cas de variances distinctes σX 6= σY est traité par Bickel et Doksum.

8.1.3 Covariance de deux échantillons gaussiens


A présent la suite (X1 , Y1
), . . . , (X
n, Yn ) est2 iid de marginales
 les lois gaus-
µX σX ρσX σY
siennes bidimensionnelles N2 , . Dans ce cadre
µY ρσX σY σY2
gaussien (avec Θ ⊂ R5 ), tester l’indépendance des composantes X et Y c’est
tester (ρ = 0) contre (ρ 6= 0). Ici
n
 p  1 1 X
log pθ (x, y) = −n log 2πσX σY 1 − ρ2 − 2 (xi − µX )2
2((1 − ρ2 )
σX i=1
n n
!
2ρ X 1 X
2
− (xi − µX )(yi − µY ) + 2 (yi − µY )
σX σY i=1 σY i=1

Les équations du maximum de vraisemblance ont la solution µ


bX = x, et µ
bY = y
n n
2 1X 1X
σ
bX = (xi − x)2 , bY2 =
σ (yi − y)2 ,
n i=1 n i=1
n
1 X
ρb = (xi − x)(yi − y)
nb
σX σ
bY i=1

2
Sous l’hypothèse nulle Θ0 = {θ ∈ Θ| ρ = 0}, on trouve θb0 = (x, y, σ
bX bY2 , 0) et

ainsi, donc la fonction
n
log λ(x, y) = − log(1 − ρb2 )
2
84 CHAPITRE 8. TESTS GAUSSIENS

est une fonction croissante de |bρ|.


√ p
Si ρ = 0, on peut montrer que Tn = n − 2b ρ/ 1 − ρb2 ∼ t(n − 2) suit une
loi de Student, ce qui permet de construire un test de niveau donné.
Lorsque ρ 6= 0, la loi de Tn appartient à une famille de lois à un pa-
ramètre et qui peut être tabulée ; pour y parvenir, il suffit de considérer des
suites de p−uplets (Ui , Vi ) indépendants et de loi gaussienne telles que Ui , Vi
soient des variables normales standard de covariance ρ. C’est possible à partir
de variables
p normales standard indépendantes (ξi , ηi ) en notant Ui = ξi , Vi =
ρξi + 1 − ρ2 ηi .

8.2 Invariance et modèle linéaire


Définition 8.1 Le modèle (Pθ )θ∈Θ sur l’espace mesuré (E, E) est G-invrariant
si le groupe G de permutations de E vérifie pour tous θ ∈ Θ, g ∈ G, il existe
θ0 ∈ Θ tel que pour tout A ∈ E : Pθ (g(X) ∈ A) = Pθ0 (X ∈ A).
L’hypothèse Θ0 ⊂ Θ définit un problème de test G invariant si on peut choisir
θ0 = θ pour chaque θ ∈ Θ0 .
Le test φ est G-invariant si φ ◦ g = φ pour chaque g ∈ G.
La statistique Z est G-invariante si Z ◦ g = Z pour chaque g ∈ G ; elle est
invariante maximale si Z(x) = Z(x0 ) ⇒ x0 = g(x) pour un g ∈ G.

L’exemple typique de cette situation donne lieu au test de Fisher. Rappelons


que la loi Fn1 ,n2 est la loi du rapport Z1 /Z2 où les deux variables indépendantes
vérifient ni Zi ∼ χ2ni pour i = 1, 2. La loi Fn0 1 ,n2 ,ρ de Fisher décentrée est la
loi du rapport Z1 /Z2 où les deux variables indépendantes vérifient n2 Z2 ∼ χ2n2
et n1 Z1 ∼ χ02 2
n1 ,ρ c’est-à-dire que n1 Z1 ∼ kN k pour un vecteur gaussien de
coordonnées indépendantes, de dimension n1 et tel que kEN k2 = ρ.

Le modèle s’écrit

X = m + Y où Y ∼ Nn (0, σ 2 In )

et m ∈ H appartient à un sous-espace de Rn de dimension h. Le groupe des


homothéties de Rn , celui des translations d’un vecteur de H dans Rn , ainsi que
celui des transformations orthogonales laissant H globalement invariant sont
alors invariants.
On note xH la projection orthogonale du vecteur x sur H.
Alors XH = m + YH , et X − XH est orthogonal à XH .

1
Proposition 8.1 La statistique n−k kX − XH k2 estime σ 2 sans biais et elle est
indépendante de XH .
Un test UPP pour tester si m ∈ H est obtenu par la région de confiance
(voir, plus bas, la définition 10.1)
  
h
Pθ m ∈ / B XH , kX − XH k2 Fh,n−h,α =α
n−h
8.2. INVARIANCE ET MODÈLE LINÉAIRE 85

si Fh,n−h désigne la loi de Fisher de paramètres (h, n − h).


1 2
h kXH − mk
En effet, ce qui précède montre que 1 2
suit la loi de Fisher de
n−h kX − XH k
paramètres (h, n − h).
Ce résultat peut être développé pour tester m ∈ K contre m ∈ H \ K pour
un sous-espace K ⊂ H de dimension k < h. En effet

kXK − XH k2 /(h − k) 0 km − mK k2
Z= ∼ Fh−k,n−h,ρ , où ρ =
kX − XH k2 /(n − h) σ2

suit une loi de Fisher décentrée de paramètres (h − k, n − h, ρ).


On rejettera l’hypothèse m ∈ K lorsque Z > Fh−k,n−h,α , produisant un test
au niveau α.
La puissance de ce test est une fonction croissante de la distance de m à K,
km − mK k. En effet, Pθ (Z > t) est une fonction croissante de km − mK k.

8.2.1 Analyse de variance


On dispose de h ≥ 2 échantillons indépendants X (i) = (Xi,1 , . . . , Xi,ni ) de
tailles respectives n1 , . . . , nh telles que n1 + · · · + nh = n, alors

H = {(x1 1In1 , . . . , xh 1Inh ) ∈ Rn | (x1 , . . . , xh ) ∈ Rh }

est de dimension h, avec les notations immédiates 1Ij = (1, . . . , 1) ∈ Rj . Posons

ni h
1 X (i) 1X
Xi· = X , si i = 1, . . . , h, X·· = Xj·
ni j=1 j h j=1

Nous obtenons ainsi, XH = (X1· 1In1 , . . . , Xh· 1Inh ) et le théorème de Pythagore


prouve que la variation quadratique des données s’écrit

kX − X·· 1In k2 = kX − XH k2 + kXH − X·· 1In k2

somme de la variation résiduelle et de la variation intragroupe.


Considérons le sous-espace vectoriel diagonale ∆ = R 1In ⊂ H, de dimension
k = 1. Lorsque l’on veut tester si m ∈ ∆, on va donc rejeter l’hypothèse d’égalité
des moyennes lorsque Z > rFh−1,n−h,α avec

1 h
X·· )2
P
h−1 i=1 ni (Xi· − 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X r
r = km· 1Ih − mk2 = ni (Xi· − X·· )2 , ρ=
i=1
σ2
86 CHAPITRE 8. TESTS GAUSSIENS

8.2.2 Régression linéaire


Ici Y = (Y1 , . . . , Yn ) ∼ Nn (0, σ 2 In ) et, pour un plan d’expérience (déterministe)
z = (z1 , . . . , zn ) ∈ Rn , fixé,

Xi = a + bzi + Yi , i = 1, . . . , n

Ainsi, m = a 1In + bz ∈ H, l’espace vectoriel de dimension 2 engendré par les


vecteurs 1In = (1, . . . , 1), z ∈ Rn . Pour déterminer la projection orthogonale
XH de X sur H, il est commode d’en déterminer une base orthonormale. La
méthode d’orthonormalisation de Schmidt nous en donne les moyens ; on pose
ainsi e1 = √1n 1In et e2 = f /kf k avec f = z − z 1In (où z = n1 i zi ), et donc
P
Pn
kf k2 = i=1 |zi − z|2 . Alors XH = u1 e1 + u2 e2 où
n
√ 1 X
u1 = X · e1 = n X etu2 = X · e2 = Xi (zi − z)
kf k i=1

donc u1 e1 = X1In et, par suite


n
1 X
XH = X 1In + (Xi − X)(zi − z) (z − z 1In )
kf k2 i=1
 
Cov(X, z) Cov(X, z)
= X− z 1In + z
Var z Var z
= b
a 1In + bbz

en notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1

Ainsi
bb = Cov(X, z) , a = X − z · bb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation
   
2
Pθ (a, b) ∈
/B a, bb , rF2,n−2 , α =α
n−2
b

où
n 
X 2 n 
X 2
2
r = kX − XH k = Xi − b
a − bbzi = Xi − X − bb(zi − z)
i=1 i=1

Des tests de l’hypothèse a = 0 ou b = 0 s’en déduisent.


8.2. INVARIANCE ET MODÈLE LINÉAIRE 87

Ainsi, la zone de rejet du test (a, b) = (a0 , b0 ) s’écrit


   
2
(a0 , b0 ) ∈
/B a, b ,
b rF2,n−2 , α
n−2
b

 
2
Celle du test b = 0 est donc bb > n−2 rF2,n−2 , α .

Ces deux tests ont le niveau α.
88 CHAPITRE 8. TESTS GAUSSIENS
Chapitre 9

Tests non paramétriques

Cette section, comme les autres, n’a pas vocation d’être exhaustive, mais
simplement de proposer quelques tests assez simples dans un contexte non pa-
ramétrique. Une vision rigoureuse et plus formelle est donnée par le cours SE328
sur le processus empirique, [7] de troisième année.

9.1 Test du χ2
9.1.1 Cas élémentaire
On considère une suite Xn iid de loi multinomiale M(k, p1 , . . . , pk ). Mal-
heureusement pour le titre de la section, si p = (p1 , . . . , pk ) est fonction d’un
paramètre θ, on est dans un modèle paramétrique p(θ).
On peut parler de cadre non paramétrique si k n’est pas connu, mais,
traditionnellement le test présenté ci-dessous est classé parmi les tests non-
paramétriques, une justification est fournie par l’exemple d’utilisation qui suit.

Pn
Théorème 9.1 Supposons p1 , . . . , pk 6= 0. Soit Nj,n = i=11I{Xi =j} le nombre
des occurences de j dans la séquence X1 , . . . , Xn , pour j = 1, . . . , k.
k
X (Nj,n − npj )2
→ χ2k−1 , en loi.
j=1
npj

Preuve. Posons Nn = (N1,n , . . . , Nk,n ), alors le théorème de limite centrale


vectoriel implique que Zn = n−1/2 (Nn − np) → Nk (0, Σ) où Σ = diag(p) − ppt
(i.e. σij = pi − p2i si i = j et = −pi pj sinon lorsque Σ = (σij )1≤i,j≤k ).
−1/2 −1/2
Posons ∆ = diag(p)−1/2 la matrice diagonale d’éléments p1 , . . . , pk ,
−1/2 t t √ √ t
alors ∆Zn = n ∆(Nn − np) → Nk (0, ∆ Σ∆) où ∆ Σ∆ = Ik − p p est la

matrice de projection orthogonale sur p⊥ .

89
90 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

Considérons une matrice orthogonale (d’ordre k) telle que


 √   
p1 1
 ·   0 
 · = ·
U   


pk 0
√ √
Alors U ∆Σ∆t U t = U U t − (U p)(U p)t s’écrit
 
0 0 0 ... ...

 0 1 0 ... ... 
  
0 0 1 0 ... 0 0
U ∆Σ∆t U t = 
 
=

 0 ... 0 1 0 
 0 Ik−1
 ... ... ... ... ... 
0 0 0 ... ...

Par conséquent kU ∆Zn k2 = k∆Zn k2 ∼ χ2k−1 .

Mise en oeuvre d’un test. On en déduit le test du χ2 (H0 ) : p = p0 contre


(H1 ) : p 6= p0 , qui rejette l’hypothèse (H0 ) lorsque

k
X (Nj,n − npj,0 )2
≥ χ2k−1,1−α .
j=1
npj,0

Ce test est de niveau asymptotique α. L’asymptotique est admise en pratique


lorsque n minj pj ≥ 5 comme le confirment les remarques relatives aux variables
binomiales dans le chapitre 1. Il est consistant car si p 6= p0 , lorsque n → ∞, la
loi des grands nombres implique l’équivalent presque sûr suivant
 2
Nj,n
k
X (Nj,n − npj,0 )2
k
X n − pj,0
= n
j=1
npj,0 j=1
npj,0
k
X (pj − pj,0 )2
∼ n
j=1
pj,0

k
2
X (pj − pj,0 )2
et l’inégalité stricte χ (p, p0 ) = > 0 implique que la statistique
j=1
pj,0
précédente équivalente à nχ2 (p, p0 ) tend presque sûrement vers l’infini dans la
contre-hypothèse p 6= p0 ce qui justifie la forme de la zone de rejet et prouve la
consistance du test du χ2 .
On peut alors envisager des suites de contre hypothèses Hn pour lesquelles
nχ2 (p, p0 ) ≥ γ. Lorsque γ > χ2k−1,1−α ; ces tests sont asymptotiquement sans
biais et leur puissance est uniformément minorée par β vérifiant χk−1,1−β = γ.
9.1. TEST DU χ2 91

Exemple d’utilisation du théorème 9.1. On veut faire un test de l’hy-


pothèse (non-paramétrique) globale, sur la loi marginale d’un échantillon iid
Sk
réel : PU = P0 contre PU 6= P0 . Si on décompose R = j=1 Aj en une partition
A1 , . . . , Ak alors la loi de X est différente de P0 lorsque P(U ∈ Aj ) 6= P0 (Aj )
pour un certain j ∈ {1, . . . , k}. Alors le théorème 9.1 permet de tester cette
Pk
hypothèse (grâce au test du χ2 ) en posant Xi = j=1 j 1I(Ui ∈Aj ) . La question
cruciale est alors le choix des classes. Une façon de faire en accord avec la règle
np ≥ 5 d’adéquation de la binomiale à une gaussienne est (lorsque les lois sont
continues) de choisir k classes de même probabilité p = 5/n. Comme P0 est
donné, on divise donc R en k classes de même P0 −probabilité (aux problèmes
de divisibilité près).
Une autre manière de procéder consisterait à diviser l’échantillon empirique
(réordonné) en classes de même poids empirique.
Cet exemple permet, bien sûr de classer le test du χ2 dans cette section
non-paramétrique.

9.1.2 Test d’adéquation à une famille paramétrique


On déduit aussi de la méthode du χ2 , un test d’adéquation à une famille
paramétrique (dominée) donnée par pj (θ), θ ∈ Θ ⊂ Rd . Nous supposons de
manière naturelle que d < k pour autoriser le modèle à être régulier. Suppo-
sons θ estimé par l’estimateur du maximum de vraisemblance θbn , alors deux
statistiques du χ2 peuvent s’envisager.
 2
k
X Nj,n − npj (θbn )
b2n
χ =
j=1 npj (θbn )
 2
k
X Nj,n − npj (θbn )
e2n
χ =
j=1
Nj,n

La seconde est fondée sur la loi des grands nombres et la consistance de θbn qui
impliquent

Nj,n
→n→∞ pj (θ), Pθ − p.s., j = 1, . . . , d
n
si le vrai paramètre vaut θ.

Nous admettons alors le théorème suivant.

Théorème 9.2 Si l’estimateur θbn du maximum de vraisemblance est asympto-


tiquement efficace
√  
n θbn − θ → Nd 0, I −1 (θ) ,

sous la loi Pθ ,
92 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
   
les tests de zones respectives de rejet, χb2n > χ2k−1−d,1−α et χe2n > χ2k−1−d,1−α
sont de niveau asymptotique α et consistants.
√  
Idée de la preuve. Il faut montrer que la limite (gaussienne) de n θbn − θ est
asymptotiquement indépendante de celle de Zn (dans la preuve du théorème
9.1) pour pouvoir appliquer le théorème de Cochran qui explique la baisse du
b2n → χ2k−1−d .
nombre des degrés de liberté et la convergence en loi χ

Remarque. On a déjà vu qu’un modèle régulier donne lieu à une suite d’es-
timateurs du maximum de vraisemblance asymptotiquement efficace.

Exemple d’utilisation du théorème 9.2. On teste le fait qu’une suite iid


à valeurs entières (Yi )i∈N suit une loi de Poisson. On suppose donc Pθ (Yi = j) =
θj e−θ /j! si θ est la valeur du paramètre de la loi de Poisson. Soit θb l’estimation
de θ obtenue par la méthode du maximum de vraisemblance. On considère la
variable multinomiale Xi = (Yi + 1) ∧ k, aussi définie comme

Yi + 1 lorsque Yi < k − 1
Xi =
k lorsque Yi ≥ k − 1

Alors pj (θ) = θj−1 e−θ /(j − 1)! pour j < k − 1 et pk (θ) = j≥k−1 θj e−θ /j!.
P
Par suite la formule de Taylor (avec reste de Lagrange) implique

pk (θ) ≤ pk−1 (θ) ≤ · · · ≤ p1 (θ).


   
La relation npj θb ≥ 5, pour chaque j ∈ {1, . . . , k} s’écrit donc npk θb ≥ 5,
ce qui permet de déterminer le nombre des classes à choisir sachant la taille de
l’échantillon dont on dispose. De là, on envisage un des tests donnés dans le
théorème 9.2.

9.1.3 Test d’indépendance


Ici Xi = (Yi , Zi ) prend ses valeurs dans {y1 , . . . , y` } × {z1 , . . . , zm }.
L’indépendance des variables Y et Z se traduit par la relation pi,j = qi rj
si on pose pi,j = P(X1 = (yi , zj )), qi = P(Y1 = yi ) et rj = P(Z1 = zj ). Le
paramètre θ = (q1 , . . . , q`−1 . , rm−1 ) ∈ R`+m−2 du fait des restrictions
P, r1 , . . P
naturelles des paramètres i qi = j rj = 1. Par suite le nombre de degrés de
liberté vaut ici D = `m − 1 − (` + m − 2) = (` − 1)(m − 1) et les deux expressions
précédentes s’écrivent avec des notations standard,
 2
N N
X ` X m Ni,j − i·n ·j
b2n = n
χ
i=1 j=1
Ni· N·j
 2
Ni,j N N
X ` X m
n − i·n2 ·j
e2n = n2
χ
i=1 j=1
Ni,j
9.2. TEST DE KOLMOGOROV SMIRNOV 93

 2
Ni· N·j
` X
X m Ni,j − n
=
i=1 j=1
Ni,j

Ces deux suites d’expressions convergent vers une même limite χ2D , en loi, en
vertu du théorème 9.2. En effet, l’estimateur du maximum de vraisemblance du
N
vecteur θ ∈ R`+m−2 s’écrit ici θb = (b q1 , . . . , qb`−1 , rb1 , . . . , rbm−1 ) avec qbi = ni,·
N
pour 1 ≤ i < ` et rbj = n·,j pour 1 ≤ j < m.

9.2 Test de Kolmogorov Smirnov


On considère ici, X1 , X2 , . . ., une suite iid à valeurs réelles et de fonction de
répartition F (x) = P(X1 ≤ x) et on pose
n
1X
Fn (x) = 1I(Xi ≤x)
n i=1

sa fonction de répartition empirique (qui est comme F croissante, continue à


gauche et admet une limite à droite en tout point).

Théorème 9.3 (Glivenko-Cantelli) On a, presque sûrement,

sup |Fn (x) − F (x)| →n→∞ 0


x∈R

Preuve dans le cas particulier où F est continue. Dans ce cas, le faux théorème
de Dini (Doukhan-Sifre, volume 1, page 143) permet de prouver l’uniformité de
la convergence : si une suite de fonctions croissantes admettant les limites 0 et
1 en ±∞ converge simplement vers une fonction continue, alors elle converge
uniformément sur R.

Remarque. Par simplicité, nous supposerons F strictement croissante et conti-


nue. Alors l’inverse F −1 de F a le sens commun, F (X) a une loi uniforme sur
[0, 1] et F −1 (U ) suit la même loi que X1 lorsque U est uniforme sur [0, 1].
Sans cette hypothèse, il reste exact que F −1 (U ) a la loi de X1 , par contre
l’exemple de X1 ∼ b( 21 ) prouve que F (X1 ) qui ne prend que trois valeurs, ne
peut donc être uniforme.

Ce premier théorème 9.3 justifie l’idée de considérer la statistique kFn −F0 k∞


pour tester une hypothèse du type F = F0 contre F 6= F0 . Soit  ↓ 0, le théorème
9.3 prouve que la suite de tests de cette hypothèse dont la zone de rejet s’écrit
kFn − F0 k∞ ≥  est consistante. Pour envisager le niveau d’un tel test, il faut
connaı̂tre les quantiles approchés de la loi de kFn − F0 k∞ . Le résultat suivant
prouve que cette loi ne dépend que de n, on pourra donc la tabuler après avoir
simulé des variables uniformes.
94 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

Théorème 9.4√(Kolmogorov & Smirnov)√Supposons que F = F0 . Les sta-


tistiques Dn = n sup |Fn (x) − F0 (x)|, Dn+ = n sup(Fn (x) − F0 (x)), et Dn− =
√ x x
n sup(F0 (x) − Fn (x)) ont une loi indépendante de F0 .
x
De plus les lois de Dn+ et Dn− sont identiques.
Utilisant la remarque qui précède, on voit que Fn (x) − F (x) = Un (F (x)) − F (x)
(en loi) si Un (t) désigne la fonction de répartition empirique d’un échantillon de
loi uniforme. Par suite la loi de supx |Fn (x) − F (x)| est bien celle égale à celle
de supt∈[0,1] |Un (t) − t|. On dit aussi qu’une telle statistique indépendante de la
loi est libre.
Notons aussi que les variables aléatoires Dn+ et Dn− ont la même loi.
Si on dispose d’un n-échantillon iid uniformes sur [0, 1], remarquons enfin
que les expressions de Dn , Dn+ et Dn− sont des maxima de 2n valeurs au plus, car
il suffit le considérer les valeurs aux points de l’échantillon ainsi que les limites
à gauche en ces points pour obtenir ces suprema sur R. Leur représentation par
rangs est donnée en (9.1).
On pourra donc tabuler sans peine ces lois avec l’aide de la loi des grands
nombres dans le cas où on dispose de nombreux échantillons uniformes indépen-
dants.
Nous admettrons le (difficile) théorème limite suivant :

Théorème 9.5 (Smirnov et Kolmogorov) On a respectivement


lim P(Dn+ > λ) = exp −2λ2

et
n→∞

X
(−1)k+1 exp −2k 2 λ2

lim P(Dn > λ) = 2
n→∞
k=1

L’asymptotique est généralement admise dans le cas n > 50. Il n’est pas dans
l’esprit de ce cours de faire ces calculs de manière rigoureuse. Des informations
additionnelles ainsi que de nombreux compléments se trouvent dans les notes √
de cours [7]. Toutefois, il est raisonnable de vouloir comprendre le facteur n.
Ce lemme, très simple, est laissé en exercice au lecteur

Lemme 9.1 Posons Bn (x) = n(Fn (x) − F (x)), alors pour tout n−uplet or-
donné, −∞ < x1 ≤ · · · ≤ xk < ∞, on a
(Bn (x1 ), . . . , Bn (xk )) →n→∞ (B1 , . . . , Bk ), en loi
(B1 , . . . , Bk ) ∼ Nk (0, Σ),
Σ = (σi,j )1≤i,j≤k , σi,j = F (xi ) ∧ F (xj ) − F (xi )F (xj )
Il permet d’imaginer qu’un théorème √de limite centrale ”fonctionnel” gère le
théorème 9.5, alors si on admet que n(Fn − F ) → B ◦ F (en un sens non
précisé, ici) pour un processus gaussien ( 1 ) centré B appelé ”pont brownien”,
1. C’est à dire une famille de variables aléatoires, B(t) pour t ∈ R, telle que les combinaisons
linéaires Ii=1 ai B(ti ) aient toutes des lois gaussiennes (∀I, ∀ai ∈ R, ∀ti ∈ [0, 1], i = 1, . . . , I).
P
9.2. TEST DE KOLMOGOROV SMIRNOV 95

tel que B(s) ∼ N (0, s − s2 ), et tel que Cov(B(s), B(t)) = s ∧ t − st si s, t ∈ [0, 1].
Les lois du théorème 9.5 sont celles de supx B(x) et de kBk∞ .

9.2.1 Test F = F0
Pour tester les hypothèses F = F0 , F ≤ F0 ou F ≥ F0 , on utilise les (1 − α)-
quantiles dn,1−α et d+ ±
n,1−α des lois de Dn , ou Dn et on rejette l’hypothèse nulle
lorsque la statistique adéquate dépasse le seuil correspondant.
– Pour tester F = F0 contre F 6= F0 , on rejette l’hypothèse si Dn > dn,1−α ,
– pour tester F ≤ F0 contre F > F0 , on rejette l’hypothèse si Dn+ > d+ n,1−α ,
– pour tester F ≥ F0 contre F < F0 , on rejette l’hypothèse si Dn− < d+ n,α .
Les tests obtenus ont le niveau α et sont consistants.
Pour le montrer, on note, par exemple que lorsque

F < F0 =⇒ lim sup sup(Fn (x) − F (x)) ≤ 0


n x

donc P(supx (Fn (x) − F (x)) > d) → 1 pour tout d > 0.


Le comportement asymptotique de la suite dn,1−α est obtenu en utilisant le
théorème 9.5.
Ces expressions sont calculées en utilisant la représentation par rangs (9.2)
à suivre.

9.2.2 Cas de deux échantillons


On considère à présent deux échantillons réels indépendants iid X1 , . . . , Xn ∼
F et Y1 , . . . , Yn m ∼ G, les fonctions de répartition correspondantes sont notées
F et G et les fonctions de répartition empiriques Fn et Gm . Alors de manière
analogue au tests de Kolmogorov Smirnov précédents, on peut démontrer

1 −1/2
Théorème 9.6 Posons cn,m = n1 + m

. Les statistiques définies par les
+
relations, Dn,m = cn,m sup |Fn (x) − Gm (x)|, Dn,m = cn,m sup(Fn (x) − Gm (x)),
x x
et Dn− = cn,m sup(Gm (x) − Fn (x)) ont des lois indépendantes de F, G si ces
x
fonctions de répartitions sont continues et strictement croissantes.

Cet énoncé permet aussi de simuler les quantiles de ces lois pour les tabuler.
Le but est de faire des tests pour les hypothèses
– F = G contre F 6= G, la zone de rejet est Dn,m > dn,m,1−α ,
– F ≤ G contre F > G, la zone de rejet est Dn,m +
> d+ n,m,1−α , et
– F ≥ G contre F < G, la zone de rejet est Dn,m < d−

n,m,α .
Sous ces conditions, les suites Ui = F (Xi ) et Vj = G(Yj ) sont iid et uniformes
sur [0, 1].
96 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

9.2.3 Ecriture en termes de rangs


Les lois étant continues, la probabilité qu’il existe des ex-aequo dans cette
liste est nulle.
Nous y reviendrons de manière détaillée dans la section suivante mais, pour
obtenir une écriture simplifiée de ces tests, il est bon d’introduire le rang de Xi
dans une liste (X1 , . . . , Xn ) (sans ex-aequo) ; il vaut
X
RX (i) = 1I(Xj ≤Xi )
j6=i

C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
Alors, on peut réécrire les expressions directement exploitables de ces sta-
tistiques pour le cas de la comparaison des lois de deux échantillons,
  
i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) (9.1)
n m
et, pour ses variantes signées,
  
+ i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) ,
n m
  
− j i
Dn,m = cn,m max − U(i) < V(j) < U(i+1)
m n

Et, pour les statistiques relevant d’un seul n−échantillon,


  
i
Dn = n max − u
U(i) < u < U(i+1) et, (9.2)
n

  
+ i
Dn = n max −u U(i) < u < U(i+1) ,
n

  
− i
Dn = n max u − U(i) < u < U(i+1)
n

9.3 Tests de rang


9.3.1 Statistique d’ordre et rangs

Définition 9.1 Le rang de Xi dans la liste X1 , . . . , Xn vaut


X
RX (i) = 1 + 1I(Xj <Xi )
j6=i

C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
9.3. TESTS DE RANG 97

Soit (x1 , . . . , xn ) un n-uplet de réels sans répétition alors l’application i 7→


Rx (i) ( 2 ), est injective {1, 2, . . . , n} → {1, 2, . . . , n} ; elle est donc bijective.
Nous noterons encore cette bijection Rx ∈ Sn . Rappelons que le groupe Sn des
permutations de l’ensemble {1, 2, . . . , n} a le cardinal n! ; sa structure algébrique
est complexe ( 3 ).
De plus pour x ∈ Rn et r ∈ Sn , on notera (avec précaution) xr = (xr1 , . . . , xrn ).
Plus globalement, l’application
fn → Sn × Rn ,

R < (x1 , . . . , xn ) 7→ (Rx (1), . . . , Rx (n)), (x(1) , . . . , x(n) )

est bijective sur l’ensemble R fn des n−uplets distincts (x1 , . . . , xn ) ∈ Rn . Ici Rn


<
désigne l’ensemble de n−uplets ordonnés (u1 , . . . , un ) ∈ Rn tels que u1 < · · · <
un .
Cette situation est générique lorsque, comme nous le supposerons à partir
de maintenant, la loi de (X1 , . . . , Xn ) a une densité, g(x1 , . . . , xn ), par rapport
à la mesure de Lebesgue sur Rn . Alors les lois des statistiques de rang RX =
(RX (1), . . . , RX (n)), et d’ordre ΥX = (X(1) , . . . , X(n) ) sont données par leur loi
conditionnelle et leur densité
X g(υ)
gΥ (υ) = g(υr ), P(RX = r| ΥX = υ) =
gΥ (υ)
r∈Sn

S note que l’événement (ΥX ∈ B) s’écrit comme une


Pour s’en convaincre, on
partition, (ΥX ∈ B) = r∈Sn (ΥX ∈ B) ∩ (RX = r), avec
Z
P ((ΥX ∈ B) ∩ (RX = r)) = g(xr )dx
B

Les tests fondés sur des statistiques de rang ont souvent pour hypothèse nulle
celle que les variables (X1 , . . . , Xn ) soient iid, lorsque la densité marginale vaut
f , on a alors, g(x1 , . . . , xn ) = f (x1 ) · · · f (xn ) et le résultat suivant prouve
l’intérêt de considérer les statistiques de rang.

Théorème 9.7 Si le vecteur (X1 , . . . , Xn ) est iid de densité marginale f par


rapport à la mesuree de Lebesgue, alors
n
1 Y
P(RX = r) = , gΥ (υ) = n! f (υi )
n! i=1

Dans un modèle statistique non paramétrique indexé par f , RX est une statis-
tique libre et ΥX est complète.
Preuve. Clairement, il résulte de l’expression de la loi de RX que ces statis-
tiques sont indépendantes et laPcomplétudeP de ΥX résulte alors du fait que
les statistiques ΥX et Nn = ( i Xi , . . . , i Xin ) engendrent la même tribu.
2. Elle associe à i, l’unique indice j = Rx (i) de la statistique d’ordre vérifiant x(i) = xj .
3. Ce groupe est non commutatif et il est simple pour n > 4.
98 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

Ce dernier énoncé est une transcription probabiliste du théorème de Newton


qui affirme que toute fonction symétrique de n variables s’écrit comme fonction
des sommes de Newton Nn . La mesurabilité de cette transformation tient à la
preuve du théorème de Newton (voir Deschamps et alii, 1999 par exemple).
La complétude de ΥX suit ainsi d’un argument algébrique puisque la re-
marque précédente permet de se ramener à des polynômes.

Remarque. Ainsi, pour toute fonction mesurable, h : Rn → R, telle que


E|h(X)| < ∞
1 X
E(h(X)| RX = r) = Eh(Xr ), E(h(X)| ΥX = υ) = h(υr )
n!
r∈Sn

Théorème 9.8 Si le vecteur (X1 , . . . , Xn ) est iid de densité marginale


Rz f par
rapport à la mesure de Lebesgue et de fonction de répartition F (z) = −∞ f (t) dt,
alors pour tout k ∈ {1, . . . , n}, la k−ème statistique d’ordre X(k) du vecteur
aléatoire X a la densité
k−1
gk (z) = nCn−1 f (z)F k−1 (z)(1 − F (z))n−k
Qn
Preuve. Posons υk = z, on intègre la densité gΥ (υ) = n! i=1 f (υi ) sur le
domaine υ1 < υ2 < · · · < υk−1 < z < υk+1 < · · · < υn . Alors gk (z) =
f (z)P (z)F (z) avec
Z υ2 Z υ3 Z z
F k−1 (z)
P (z) = f (υ1 )dυ1 f (υ2 )dυ2 · · · f (υk−1 )dυk−1 =
−∞ −∞ −∞ (k − 1)!
par intégrations successives, et de même
Z ∞ Z ∞ Z ∞
F (z) = f (υk+1 )dυk+1 f (υk+2 )dυk+2 · · · f (υn )dυn
z υk+1 υn−1

(1 − F (z))n−k
=
(n − k)!

Remarque. Lorsque les lois ne sont plus continues, une manière de traiter les
ex-aequo consiste à remplacer les rangs par les moyennes des rangs qu’ils oc-
cupent. Par exemple, dans la séquence (1, π, 2, 5, π, 0) la suite des rangs pourrait
s’écrire (2, 4 ou 5, 3, 6, 4 ou 5, 1), on lui préférera ici (2, 4.5, 3, 6, 4.5, 1).

9.3.2 Statistiques linéaires de rang


Définition 9.2 Soit A = (ai,j )1≤i,j≤n une matrice réelle n × n, la statistique
linéaire de rang induite par la matrice A est
n
X
LA (X) = ai,RX (i)
i=1
9.3. TESTS DE RANG 99

Théorème 9.9 Si le vecteur X a des composantes iid,


n n
1 XX 2
ELA (X) = na, Var LA (X) = (ai,j − ai,· − a·,j + a)
n − 1 i=1 j=1

où
n n n n
1X 1X 1 XX
ai,· = ai,j , a·,j = ai,j , a= ai,j
n j=1 n i=1 n2 i=1 j=1

Preuve. Par l’équidisdribution des rangs,


XX
ELA (X) = ai,h P(RX (i) = h) = na
i h
P
Les définitions des coefficients liés à A impliquent en particulier que i a·,RX (i) =
na. Posons P maintenant `i (h) = ai,h − a·,h − ai,· − a·,· , il s’ensuit que LA (X) −
n
ELA (X) = i=1 `i (RX ) et donc
X X
Var LA (X) = EL2i + ELi Lj , avec Li = `i (RX (i))
i i6=j

On remarque d’abord que les expressions précédentes sont centrées ELi = 0.


Utilisant l’équidistribution des rangs, le premier terme de cette somme, formé
de termes diagonaux, est d’un calcul aisé,
X 1 XX 2
EL2i = `i (h)
i
n i
h

A présent, la loi jointe de (Li , Lj ) s’obtient comme suit. La loi jointe des rangs
(RX (i), RX (j)) s’écrit avec
 1
n(n−1) lorsque h 6= k
P(RX (i) = h, RX (j) = k) =
0 si h = k
Le couple (RX (i), RX (j)) ne peut en effet prendre que des valeurs distinctes
et, une fois RX (i) choisi, il ne reste plus que n − 1 valeurs envisageables pour
RX (j). Par suite,
 
X 1 X X
ELi Lj =  `i (h)`j (k)
n(n − 1)
i6=j i6=j h6=k
n
!
1 X X
= − `i (h)`j (h)
n(n − 1)
i6=j h=1
 
n X n
1 X X
= − `i (h)  `j (h)
n(n − 1) i=1h=1 j6=i
n X
n
1 X
= `2i (h)
n(n − 1)
h=1 i=1
100 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

Pn Pn
en vertu des relations, i=1 `i (h) = 0 et h=1 `i (h) = 0, déduites des définitions
de ai,· , a·,j et a. Ainsi la relation n1 + n(n−1)
1 1
= n−1 permet de conclure.

Remarques. Pour des statistiques linéaires simples, les expressions précédentes


t t
s’écrivent un peu mieux. Soient A = aα Pn= (ai αj )1≤i,j≤n et B = bβ =
1
(bi βj )1≤i,j≤n on obtient, en posant a = n i=1 ai (etc. . .)

1 X X
ELA (X) = naα, Var LA (X) = (ai − a)2 (αj − α)2
n−1 i j

Par bilinéarité de la variance, nous obtenons enfin


1 X X
Cov (LA (X), LB (X)) = (ai − a)(bi − b) (αj − α)(βj − β)
n−1 i j

Exercice. Indiquez comment tester l’hypothèse m ≤ m0 contre m > m0 dans


un modèle iid (on prouvera que l’on peut se ramener à un test de type pile ou
face).

9.3.3 Test de Wilcoxon


Encore une fois, nous supposons que deux échantillons réels indépendants iid
X1 , . . . , Xn ∼ F et Y1 , . . . , Ym ∼ G ont des fonctions de répartition continues et
strictement croissantes F et G.
L’objectif est de tester si F = G.
On pose N = n+m et (Z1 , . . . , ZN ) = (X1 , . . . , Xn , Y1 , . . . , Ym ). On considère
les rangs et statistiques d’ordre attachés à ces échantillons concaténés,
X
Z(1) < Z(2) < · · · < Z(N −1) < Z(N ) , RZ (i) = 1 + 1(Zj <Zi ) , 1 ≤ i ≤ N
j6=i

Alors, RZ est la permutation de {1, . . . , N } telle que ZRZ (i) = Z(i) . Cette
variable aléatoire a une loi uniforme sur l’ensemble Sn des permutations de
{1, . . . , N } (de cardinal N !).

Pn
Définition 9.3 La somme des rangs des Xi , Wn = i=1 RZ (i) est appelée
statistique de Wilcoxon.

La loi de Wn (qui dépend de n et m) est tabulée. Notons que l’on peut toujours
échanger les rôles de n et m à condition de remplacer Wn par une somme de
n + 1 à N , donc les tables ne comportent que le cas n ≤ m. Evidemment, cette
loi ne dépend pas de la loi F si F = G.
Un test pour l’hypothèse F = G contre F > G est donné par la zone de rejet
Wn > wα . Ici wα est le 1 − α−quantile de la loi de W qui peut être tabulé
en considérant car cette variable a la même loi (sous l’hypothèse nulle) que
9.3. TESTS DE RANG 101

Pn
WU = i=1 RU (i) pour un échantillon aléatoire iid U = (U1 , . . . , UN ) de mar-
ginales uniformes sur [0, 1] (i.e. P(WU > wα ) = α).
Lorsque n = 1, la loi de W1 est une loi de Bernoulli de paramètre
R p = P(X1 <
Y1 ) ; si F = G alors p = 12 et si F > G alors p = F (x)g(x)dx > G(x)g(x)dx =
R
1
2 ce qui permet de justifier la forme de la zone de rejet.
On a aussi
– EWn = nERZ (1) = n j Nj = n(N2+1) (car P(RZ (i) = j) = N1 )
P
n(N +1)(N −n)
– Var Wn = 12 (cf. théorème 9.9).
Wn − EWn
Ceci justifie (un peu) l’énoncé √ → N (0, 1) que nous ne prouverons
Var Wn
pas ici.

9.3.4 Test de Spearman


Maintenant, (X1 , Y1 ), . . . , (X1 , Yn ) est une suite iid et on désire tester l’indépendance
des X et des Y . On utilise la statistique de Spearman
n
X
S= RX (i)RY (i)
i=1

Sous l’hypothèse nulle, on obtient


1 1
ES = n(n + 1)2 , Var S = (n − 1)n2 (n + 1)2
4 144
Notons que les deux situations extrêmes, RX = RY et RX = n + 1 − RY ,
conduisent à l’encadrement
X 1 X 1
i(n + 1 − i) n(n + 1)(n + 2) ≤ S ≤ i2 = n(n + 1)(2n + 1)
i
6 i
6

Lorsque n → ∞, cette distribution est asymptotiquement gaussienne ; donc une


région critique du test de Spearman a la forme (S < s) ∪ (S > s), pour un s
tabulé permettant d’atteindre tout niveau α.
Enfin, la corrélation empirique des vecteurs aléatoires RX et RY s’écrit
1 1
P P P
n i RX (i)RY (i) − n2 i RX (i) i RX (i)
ρS =
VX VY
avec
!2
1X 2 1X
VX2 = RX (i) − RX (i)
n i n i
!2
1X 2 1X
= i − i = VY2
n i n i
2
n2 − 1

(n + 1)(2n + 1) n+1
= − =
6 2 12
102 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

Par suite
12S − 3n(n + 1)2
ρS =
n(n2 − 1)
est une fonction affine du coefficient de Spearman, ce qui justifie d’introduire S
pour tester une indépendance.

9.4 Exemple d’un test semi-paramétrique


Ici le modèle est donné par une densité de probabilité sur R. On observe un
n−échantillon iid de loi de densité f ; soit w : R → R, une fonction mesurable
et bornée, on cherche à établir un test d’hypothèse simple sur le paramètre réel
Z
θ= f 2 (x)w(x) dx ∈ R
R

Pour commencer, nous suggérons un estimateur raisonnable de ce paramètre,


obtenu par la méthode d’injection (plug-in). Nous nous trouvons bien dans une
situation semi-paramétrique puisqu’ici seul ce paramètre réel est considéré. Pour
simplifier le résultat (voir Bickel et alii, 1993), nous supposerons que le pa-
ramètre nuisible, f , possède la propriété de régularité suivante.
f est une fonction de classe C 2 (R) et de support compact (inconnu).
L’ensemble de telles fonctions à support compact dans R est noté CK (R).

Remarque. Lorsque w ≡ 1, le modèle semi-paramétrique s’écrit p(θ,f ) (x) =


θf (θx) avec (θ, f ) ∈ R × Θ1 et l’ensemble non paramétrique Θ1 est défini par
 Z 
2

Θ1 = f ∈ CK f (x)dx = 1

Dans le cas où w est quelconque, il est plus difficile d’exhiber Θ1 (non pa-
ramétrique) tel que Θ = R × Θ1 .
Pour construire un estimateur consistant de θ, nous introduisons un esti-
mateur fn,h (x) de f (x) construit, à partir d’une fonction K, paire, à support
compact, mesurable, bornée, d’intégrale 1 et d’un paramètre h = hn ↓ 0 (lorsque
n ↑ ∞),
n  
1 X Xi − x
fn,h (x) = K
nh i=1 h

D’abord le biais, bh (x) = Efn,h (x) − f (x), de cet estimateur n’est pas nul, mais
il vaut
 
1 X1 − x
bh (x) = EK − f (x)
h h
Z b1  
1 t−x
= K (f (t) − f (x)) dt
h a1 h
9.4. EXEMPLE D’UN TEST SEMI-PARAMÉTRIQUE 103
Z
= K(u) (f (x − uh) − f (x)) dt
R
Z 00 Z
0 2 f (x)
= hf (x) uK(u) du + h u2 K(u) du + o(h2 )
R 2
Z
1
= cf 00 (x)h2 + o(h2 ), où c= u2 K(u) du
2
en utilisant, la formule de Taylor (avec un reste de Lagrange ou intégral) et la
parité de K. Ainsi

Théorème 9.10 Supposons que h = hn ↓ 0 (lorsque n ↑ ∞), alors

bh (x) = Efn,h (x) − f (x) = O h2



(uniformément par rapport à x ∈ R)

De plus, si nhn → ∞ (lorsque n ↑ ∞),


√ L
nh (fn,h (x) − Efn,h (x)) →n→∞ N (0, cf (x))

Preuve. Une version plus précise du premier point de ce théorème est prouvée
plus haut.
Le lemme 1.2 est appliqué aux variable iid
 
ei = √1 (Zi − EZi ) , Xi − x
X avec Zi = K
nh h

On prouve comme pour l’étude du biais bh (x) que


Z
1 1
ei2 = EZi2 ∼ n−1 f (x) K 2 (u)du

EX Var Zi ≤
nh nh
compte tenu du fait que bh (x) → 0, les inégalités précédentes sont des équivalences
et Z
X
EXi →n→∞ f (x) K 2 (u)du
e 2

Et (en utilisant l’inégalité, (u + v)3 ≤ 4(u3 + v 3 ) pour u, v ≥ 0 et l’inégalité de


Hölder), on a
3 1  
3 −1/2 −1
E X i ≤ 8 = O (nh) n
e
EZ i
(nh)3/2
donc, le second point du théorème 9.10 suit de
X 3
ei →n→∞ 0
E X
i

A présent, l’estimateur de θ est construit par injection en notant


Z
2
θn = fn,h
b (x)w(x)dx (9.3)
104 CHAPITRE 9. TESTS NON PARAMÉTRIQUES

ici h = hn ↓ 0 vérifiera d’autres conditions indiquées plus loin.


R 2
Posons θn = (Efn,h ) (x)w(x)dx, il vient

θbn − θ = θbn − θn + θn − θ
Z
2
= (fn,h (x) − Efn,h (x)) w(x) dx
Z
+ (fn,h (x) − Efn,h (x)) (2Efn,h (x))w(x)) dx
Z
2
(x) − f 2 (x) w(x)dx

+ Efn,h
Z  
2 1
= (fn,h (x) − Efn,h (x)) w(x) dx + O + h2
nh

les O sont obtenus dans L1 et donc en probabilité, en utilisant les contrôles de


variance et de biais prouvés dans le théorème 9.10.

Théorème 9.11 Sous les hypothèses précédentes,


√  
L
n θen − θ →n→∞ N (0, V )

si V = 4Var (f (X1 )w(X1 )), lorsque nh2n → 0 et nh4n → ∞.


Preuve. Posons v(x) = 2f (x)w(x), les remarques qui précèdent nous ramènent
à l’étude de
Z n
1X
(fn,h (x) − Efn,h (x)) v(x) dx = (v(Xi ) − Ev(Xi ) + ∆i − E∆i )
n i=1

la
R somme précédente est une somme de variables indépendantes avec ∆i =
K(s)(v(Xi + sh) − v(Xi ))ds, car les conditions sur h = hn prouvent que les
termes de restes peuvent être négligés. Pour conclure, on utilise le théorème
de limite centrale avec les variables iid v(Xi ) et le théorème de convergence
dominée permet de montrer que E∆2i → 0, et donc :

1X
E(∆i − E∆i )2 → 0
n i

Remarque. L’estimation de l’information de Fisher, I(f ) = f 02 /f , est pos-


R

sible sous des conditions comparables.


0
Pour l’envisager, on notera que fn,h est aussi un estimateur consistant de
0
f et qu’il est asymptotiquement gaussien (avec une normalisation distincte de

nh).
La différentiabilité de (u, v) 7→ u2 /v est alors utilisée pour obtenir
 une ap-
0
proximation affine de cette fonctionnelle non linéaire du couple fn,h , fn,h .
Chapitre 10

Intervalles de confiance

10.1 Régions de confiance


Commençons par le cas de la moyenne d’une gaussienne X ∼ N (θ, 1), où
θ ∈ R est un paramètre et σ 2 > 0 est fixé. Ici, par définition on peut décomposer
X = θ + N avec N ∼ N (0, 1), sous la loi Pθ . Par suite
P(N ∈ [a, b]) = Φ(b) − Φ(a)
Z x
2 dt
= Φ(b) + Φ(−a) + 1 où Φ(x) = e−x /2

−∞ 2π
ainsi, ayant choisi a, b tels que P(N ∈ [a, b]) = α, nous écrivons
Pθ (X ∈ [a − θ, b − θ]) = 1−α
= Pθ (θ ∈ [b − X, a − X])
comme la probabilité que le paramètre courant soit dans un intervalle aléatoire
(fixé par l’expérience X). Le sens de l’événement (θ ∈ [b − X, a − X]) est bien
l’ensemble des ω ∈ Ω tels que θ ∈ [b − X(ω), a − X(ω). Plus généralement, on
définit :

Définition 10.1 Soit X une observation du modèle statistique (Pθ )θ∈Θ , un in-
tervalle de confiance (IC(α)) de niveau α ∈ [0, 1] pour une fonction du pa-
ramètre, g(θ) ∈ R, est un intervalle I(X) = [a(X), b(X)] d’extrémités aléatoires
et tel que Pθ (g(θ) ∈
/ I(X)) = α.
Lorsque g(θ) ∈ / R, on parlera de région de confiance de niveau α pour toute
partie de R(X) ⊂ g(Θ) telle que Pθ (g(θ ∈ / R(X)) = α.
L’intervalle de confiance IC(X) = [u− (X), u+ (X)] est celui dans lequel se trouve
la fonction g(θ) du paramètre, avec la (petite) contre-probabilité α.
Dans l’exemple initial, g(θ) = θ est aussi la moyenne de X sous la loi Pθ . Si
l’intervalle est équilibré, P(N > ϕ+ ) = P(N < ϕ− ) = α/2 alors ϕ+ = −ϕ− =
ϕ1−α/2 est un α2 −quantile de la loi normale ; des valeurs approchées en sont
1, 96 si α = 5% et 3 si α = 1%.

105
106 CHAPITRE 10. INTERVALLES DE CONFIANCE

10.1.1 Critère de taille


Une manière de justifier le choix d’intervalles de confiance symétriques est
l’énoncé très géométrique suivant qui mesure la qualité d’un intervalle de confiance
de niveau α par sa longueur.

Définition 10.2 On dit que f : R → R+ est unimodale lorsqu’elle admet un


seul maximum, appelé mode de f . On suppose aussi qu’elle est croissante avant
ce maximum et symétrique par rapport à ce mode.

Lemme 10.1 Soit f : R → R+ , la densité d’une variable aléatoire X par rap-


port à la mesure de Lebesgue.
Soit α > 0, fixé, si f est unimodale, de mode 0, alors un couple (a, b) tel que
a = −b minimise la longueur b−a des intervalles vérifiant P(X ∈ [a, b]) = 1−α.

Ce lemme justifie la forme symétrique de la majorité des intervalles de confiance


que l’on rencontrera en pratique.

10.1.2 Critère asymptotique


L’étude asymptotique qui suit conduit à la même conclusion : il est souvent
bon d’utiliser des intervalles symétriques.
La moyenne empirique X = n1 (X1 + · · · + Xn ) d’un n-échantillon réel, iid,
dans un modèle statistique (P Pθn)θ∈Θ estime2 sans biais g(θ) = Eθ X1 ; la va-
1
riance empirique S 2 = n−1 i=1 (Xi − X) estime, elle, Var θ X1 sans biais
et de manière consistante (lorsque cette expression existe). Ceci implique qu’un
intervalle de confiance√de niveau asymptotique α√s’écrit [an (X (n) , bn (X (n) ], où
an (X (n) ) = X − Sϕ+ / n, bn (X (n) ) = X + Sϕ− / n avec X (n) = (X1 , . . . , Xn ).
De plus, limn Pθ (g(θ) ∈ [an (X (n) ), bn (X (n) )]) = α. En effet

√ X − g(θ)
   
Pθ g(θ) ∈ [an (X (n) ), bn (X (n) )] = Pθ n ∈ [ϕ− , ϕ+ ]
S
→n→∞ P(N ∈ [ϕ− , ϕ+ ]) = 1 − α

Considérons, par exemple, un modèle de Bernoulli iid b(θ), alors


!
√ X − θ
Pθ n p ≤ ϕ1−α/2 →n→∞ 1 − α (10.1)
θ(1 − θ)

Ceci fournit la zone de rejet d’un test au niveau asymptotique α, mais résoudre
une inéquation du second degré conduit à écrire le même événement comme
intervalle de confiance [θ+ (X), θ− (X)] avec
2
q
2
X + u2 ± u u4 + (1 − X)X ϕ1− α
±
θ (X) = 2
, où u = √ 2 (10.2)
1+u n
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 107

10.1.3 Critère de dualité


Il existe aussi une correspondance entre les régions de confiance et la zone
de rejet d’un test.

Théorème 10.1 (de dualité) Soit R(θ0 ) la zone de rejet d’un test non ran-
domisé au niveau α de l’hypothèse Θ0 contre Θ1 = Θc0 , ainsi

sup Pθ0 (X ∈
/ R(θ0 )) = α.
θ0 ∈Θ0

Supposons l’application θ 7→ R(θ) définie pour tout θ ∈ Θ, alors une région de


confiance de niveau inférieur à α pour le paramètre θ est donnée par la relation
R(X) = {θ ∈ Θ| X ∈ R(θ)}.
Réciproquement, cette relation associe la zone de rejet R(θ0 ) d’un test de
niveau inférieur à α à toute région de confiance R(X).

Ainsi lorsque l’hypothèse nulle est simple Θ0 = {θ0 }, on acceptera l’hypothèse


θ = θ0 à la condition que θ0 soit dans notre région de confiance de niveau α.
Une autre manière de classer les régions de confiance que celle fondée sur leur
mesure de Lebesgue consiste donc à considérer les qualités de puissance du test
qui leur est associé.

10.2 Exemples d’intervalles de confiance


10.2.1 Modèle gaussien
Le premier exemple gaussien nécessitait la connaissance de la variance (elle
y était choisie valant 1). Si, donc, X1 , . . . , Xn sont iid ∼ N (µ, σ 2 ) et si on pose
Θ = {θ = (µ, σ 2 )| µ ∈ R, σ 2 ∈ R+∗ }, alors le théorème de Cochran prouve que

T (µ) = n X−µ S suit une loi de Student t(n − 1), ainsi
 
tn−1,1−α/2 S tn−1,1−α/2 S
I1 = X − √ ,X + √
n n

est un IC(α) pour le paramètre µ.


De plus V = (n − 1)S 2 /σ 2 ∼ χ2n−1 donc un IC(α) pour le paramètre σ 2
s’écrit " #
(n − 1)S 2 (n − 1)S 2
I2 = , si α+ + α− = α
χ2n−1,1−α+ χ2n−1,α−

Ici la loi du χ2 n’est pas symétrique et il n’y a aucune raison d’équilibrer l’in-
tervalle de confiance pourvu que P(χ2n−1 ∈ / [χ2n−1,α− , χ2n−1,α+ ]) = α. Des choix
concurrents de α± sont le choix logique α± = α/2 et un choix fondée sur la
taille α− = α, α+ = 0. Un choix fondé sur le critère de dualité avec un test
dépendrait bien entendu de la contre hypothèse choisie.
108 CHAPITRE 10. INTERVALLES DE CONFIANCE

La région de confiance I1 × I2 ⊂ R × R+ du paramètre θ = (µ, σ 2 ) s’en


déduit, son niveau est inférieur ou égal à 2α. Notons que le théorème de Cochran
implique aussi l’indépendance de S et T (µ) ce qui permet de voir que le niveau de
la région de confiance précédente vaut précisément 1 − (1 − α)2 = 2α − α2 < 2α.

10.2.2 Modèle linéaire


Des ellipsoı̈des de confiance en grande dimension ont déjà été déterminés
pour le cas du modèle linéaire (voir la proposition 8.1 et l’exemple de l’analyse
de la variance qui la suit).
Le modèle s’écrit X = m + Y où Y ∼ Nn (0, σ 2 In ) et m ∈ H appartient à
un sous-espace de Rn de dimension h. On note xH la projection orthogonale du
vecteur x sur H. Ainsi, XH = m + YH , et X − XH est orthogonal à XH . Un
test UPP pour tester m ∈ H est obtenu par la région de confiance
  
h
Pθ m ∈ / B XH , kX − XH k2 Fh,n−h,α =α
n−h

1 2
 1 (h, n − h).2
si Fh,n−h désigne la loi de Fisher de paramètres
On a déjà vu pour ceci que h kXH −mk n−h kX −XH k suit la loi de Fisher
de paramètres (h, n − h).

Analyse de variance
On dispose de h ≥ 2 échantillons indépendants X (i) = (Xi,1 , . . . , Xi,ni ) de
tailles respectives n1 , . . . , nh telles que n1 + · · · + nh = n, alors

H = {(x1 1In1 , . . . , xh 1Inh ) ∈ Rn | (x1 , . . . , xh ) ∈ Rh }

est de dimension h, avec les notations immédiates 1Ij = (1, . . . , 1) ∈ Rj . Po-


P ni (i) Ph
sant Xi· = n1i j=1 Xj , si i = 1, . . . , h, et X·· = h1 j=1 Xj· il vient XH =
(X1· 1In1 , . . . , Xh· 1Inh ) et le théorème de Pythagore prouve que la variation qua-
dratique des données s’écrit

kX − X·· 1In k2 = kX − XH k2 + kXH − X·· 1In k2

somme de la variation résiduelle et de la variation intragroupe. Une région de


confiance de niveau α pour le paramètre m s’écrit

Z > Fh−1,n−h,α
1
Ph
h−1 i=1 ni (Xi· − X·· )2 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X
ρ = km· 1Ih − mk2 = ni (Xi· − X·· )2
i=1
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 109

Régression linéaire
Ici Y = (Y1 , . . . , Yn ) ∼ Nn (0, σ 2 In ) et, pour un plan d’expérience (déterministe)
z = (z1 , . . . , zn ) ∈ Rn , fixé,
Xi = a + bzi + Yi , i = 1, . . . , n
Ainsi, m = a 1In + bz ∈ H, l’espace vectoriel de dimension 2 engendré par les
vecteurs 1In = (1, . . . , 1), z ∈ Rn . Notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1
on a
bb = Cov(X, z) , a = X − zbb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation
   
2
Pθ (a, b) ∈
/B a, bb , ρF2,n−2 , α =α
n−2
b

Pn  2 P  2
n
où ρ = kX − XH k2 = i=1 Xi − b a − bbzi = i=1 Xi − X − bb(zi − z) .

10.2.3 Dimension infinie


On considère encore un n−échantillon iid réel et, cette fois-ci l’ensemble Θ
est celui de toutes les lois continues sur R. Alors, on a déjà vu que la statistique
Dn (F ) = supt∈R |Fn (t) − F (t)| a une
P loi indépendante de la vraie fonction de
répartition F de X1 si Fn (t) = n1 i=11I{Xi ≤t} . Par suite le (1 − α)-quantile
dn,1−α de la loi de Dn ne dépend pas du paramètre, F mais seulement de n. La
région de confiance suivante découle du théorème 10.1 de dualité
P (F (t) ∈ [0 ∨ (Fn (t) − dn,1−α ), 1 ∧ (Fn (t) + dn,1−α )] , ∀t ∈ R) = 1 − α.
Proposition 10.1 Supposons que Θ = [θ− , θ+ ] soit un intervalle. On tire un
n-échantillon iid X1 , . . . , Xn d’un modèle à rapport de vraisemblance monotone
en T (X). Supposons que la fonction de répartition t 7→ Fθ (t) de la loi de X1
est à la fois continue en t et en θ. Si nous supposons que pour chaque α > 0, il
existe θα± (t) tels que Fθα− (t) (t) = 1 − α et Fθα+ (t) (t) = α alors [θα−1 (t), θα+2 (t)] est
un intervalle de confiance pour F (t) au niveau α = α1 + α2 .
De plus cet intervalle de confiance est associé à un test UPP(α) pour tester les
hypothèses
– θ = θ0 contre θ > θ0 de zone de rejet T (X) > tα ; α1 = 0, α2 = α et l’IC
s’écrit ] − ∞, θα+ (t)],
– θ = θ0 contre θ < θ0 de zone de rejet T (X) > tα ; α2 = 0, α1 = α et l’IC
s’écrit [θα− (t), ∞[,
– θ = θ0 contre θ 6= θ0 de zone de rejet T (X) > tα ; α2 + α1 = α et l’IC
s’écrit [θα−1 (t), θα+2 (t)].
110 CHAPITRE 10. INTERVALLES DE CONFIANCE

Remarque et complément
D’autres exemples de tests donnés en dimension finie sont fondés sur le
comportement asymptotique d’estimations d’une densité. Pour simplifier nous
estimons f par un estimateur à noyau fn,h asymptotiquement sans biais quant
h = h(n) →n→∞ 0. Des tests dans Rk sont par exemple fondés sur le fait prouvé
plus haut que
 Z 
2
(Zn (x1 ), . . . , Zn (xk )) →n→∞ Nk 0, u (s)ds · Ik

√ p
lorsque Zn (x) = nh(fn,h (x) − Efn,h (x))/ f (x) quand x1 , . . . , xk ∈ R sont
distincts. Pk
Ainsi l’expression j=1 Zn2 (xj ) converge en loi vers u2 (s)ds · χ2k . Lorsque k
R
p
augmente, le théorème de Lindeberg implique que (χ2k −k)/ Var χ2k → N (0, 1),
ici Var χ2k = 2k et on prouve aussi (avec plus de difficulté) qu’il existe σ(f ) ne
dépendant que de f tel que
Z
1
√ (Zn2 (x) − EZn2 (x))w(x)dx →n→∞ N (0, σ 2 (f ))
h

lorsque f 2 (x)w(x)dx < ∞ pour une fonction w ≥ 0, pour en déduire des


R

ensembles de confiance pour f qui sont des boules de L2 (w(x)dx).


Bibliographie

[1] Peter Bickel, Kjell Doksum (2001) Mathematical statistics. Basic Ideas and
selected topics, volume I. Prentice Hall.
[2] Peter Bickel, Chris Klaasen, Ya’acov Ritov, Jon A. Wellner (1993) Efficient
and adaptive estimation for semi-parametric models. Johns Hopkins Series
in the Mathematical Sciences.
[3] P. G. Ciarlet (1982). Introduction à l’analyse numérique matricielle et à
l’optimisation. Masson.
[4] David, R. Cox, David V. Hinkley (1974). Theoretical Statistics. Chapman
& Hall.
[5] Didier Dacunha-Castelle, Marie Duflo (1982). Probabilités et statistiques
(en deux volumes). Masson.
[6] Claude Deschamps, André Warusfel, François Moulin, Jean François Ruaud,
Anne Miquel, Jean-Claude Sifre (1999). Cours tout en un, Mathématiques
1ère année (Série E. Ramis), Dunod.
[7] Paul Doukhan (2003) Processus empirique, notes du cours SE328 de
troisième année, 61 pages.
[8] Paul Doukhan, Jean-Claude Sifre (2001) Analyse réelle et intégration.
Agrégation de mathématiques - Cours d’analyse, volume 2, Dunod.
[9] Paul Doukhan, Jean-Claude Sifre (2002). Calcul différentiel, intégration et
probabilités. Agrégation de mathématiques - Cours d’analyse, volume 2,
Dunod.
[10] Jaroslav Hajek, Z. Sidak, Prakar Sen (1999). Theory of rank tests. Acade-
mic Press.

111

Vous aimerez peut-être aussi