StatM1 Poly P Doukhan

Cours de Statistiques, M1
Estimation et introduction aux tests

Université de Cergy Pontoise
Paul Doukhan
2
Table des matières
1 Modèle de Bernoulli 7
1.1 Résumer l’information . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 12
1.4 Estimation bayésienne . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Intervalles de confiance asymptotiques . . . . . . . . . . . . . . . 14
1.7 Contrôle de qualité . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Validité de l’asymptotique∗ . . . . . . . . . . . . . . . . . . . . . 17
2 Les points de vue statistiques 19

2.1 Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Statistique inférentielle classique . . . . . . . . . . . . . . . . . . 21
2.3 Statistique bayésienne . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Décision statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Modèles Statistiques 27
3.1 Exemples de modèles . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Exhaustivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Estimation 37
4.1 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Borne de Cramer Rao . . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Modèle exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.5.1 Modèle canonique . . . . . . . . . . . . . . . . . . . . . . 44
4.5.2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5.3 Modèle gaussien iid . . . . . . . . . . . . . . . . . . . . . 45
4.5.4 Modèle multinomial . . . . . . . . . . . . . . . . . . . . . 45
3
4 TABLE DES MATIÈRES
4.6 Modèle uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.7 Estimateur de Stein . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Méthodes d’estimation 51
5.1 Minimum de contraste . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.2 Maximum de vraisemblance . . . . . . . . . . . . . . . . . 53
5.2 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.1 Méthode d’injection . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Moments en économétrie . . . . . . . . . . . . . . . . . . 57
5.3 Problèmes algorithmiques . . . . . . . . . . . . . . . . . . . . . . 58
5.3.1 Dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.3.2 Montée sur les axes . . . . . . . . . . . . . . . . . . . . . . 59
5.3.3 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . 59
5.3.4 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . 60
6 Asymptotique en estimation 63
6.1 Consistance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Méthodes empiriques . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Minimum de contraste . . . . . . . . . . . . . . . . . . . . 65
6.2 Delta méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.3 Efficacité asymptotique . . . . . . . . . . . . . . . . . . . . . . . 68
7 Tests 71
7.1 Quelques définitions . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Lemme de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 74
7.3 Rapports de vraisemblance monotones . . . . . . . . . . . . . . . 76
7.4 Asymptotique du score . . . . . . . . . . . . . . . . . . . . . . . . 77
7.5 Tests du score et de Wald . . . . . . . . . . . . . . . . . . . . . . 78
8 Tests gaussiens 81
8.1 Tests fondés sur la vraisemblance . . . . . . . . . . . . . . . . . . 81
8.1.1 Moyenne d’une gaussienne . . . . . . . . . . . . . . . . . . 81
8.1.2 Moyenne de deux échantillons gaussiens . . . . . . . . . . 82
8.1.3 Covariance de deux échantillons gaussiens . . . . . . . . . 83
8.2 Invariance et modèle linéaire . . . . . . . . . . . . . . . . . . . . 84
8.2.1 Analyse de variance . . . . . . . . . . . . . . . . . . . . . 85
8.2.2 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . 86
9 Tests non paramétriques 89

9.1 Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.1 Cas élémentaire . . . . . . . . . . . . . . . . . . . . . . . . 89
9.1.2 Test d’adéquation à une famille paramétrique . . . . . . . 91
9.1.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . . . 92
9.2 Test de Kolmogorov Smirnov . . . . . . . . . . . . . . . . . . . . 93
9.2.1 Test F = F0 . . . . . . . . . . . . . . . . . . . . . . . . . . 95
TABLE DES MATIÈRES 5
9.2.2 Cas de deux échantillons . . . . . . . . . . . . . . . . . . . 95

9.2.3 Ecriture en termes de rangs . . . . . . . . . . . . . . . . . 96
9.3 Tests de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9.3.1 Statistique d’ordre et rangs . . . . . . . . . . . . . . . . . 96
9.3.2 Statistiques linéaires de rang . . . . . . . . . . . . . . . . 98
9.3.3 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . 100
9.3.4 Test de Spearman . . . . . . . . . . . . . . . . . . . . . . 101
9.4 Exemple d’un test semi-paramétrique . . . . . . . . . . . . . . . . 102
10 Intervalles de confiance 105

10.1 Régions de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 105
10.1.1 Critère de taille . . . . . . . . . . . . . . . . . . . . . . . . 106
10.1.2 Critère asymptotique . . . . . . . . . . . . . . . . . . . . . 106
10.1.3 Critère de dualité . . . . . . . . . . . . . . . . . . . . . . . 107
10.2 Exemples d’intervalles de confiance . . . . . . . . . . . . . . . . . 107
10.2.1 Modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . 107
10.2.2 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . 108
10.2.3 Dimension infinie . . . . . . . . . . . . . . . . . . . . . . . 109
6 TABLE DES MATIÈRES
Avertissement
Ces notes de cours sont évidemment une version préliminaire et je serai

reconnaissant à tout lecteur de me faire part des fautes qu’il y aura détectées.
Les paragraphes et sections marqués d’une astérisque ne ne seront pas exigés
pour l’examen qui valide ce cours ; ils sont indiqués pour la culture générale
des étudiants. Très souvent, ces point étoilés font allusion à des questions im-
portantes traitées par d’autres cours ; il sont destinés à orienter une recherche
bibliographique future à tous ceux qui seront concernés par des questions de
statistiques.
Paris, le 18 janvier 2013.
Paul Doukhan
doukhan@u-cergy.fr
www.doukhan.u-cergy.fr
Chapitre 1
Modèle de Bernoulli
Dans la fabrication d’objets manufacturés, on suppose qu’une proportion

inconnue d’objets défectueux θ ∈ [0, 1] est produite. Cette proportion est évaluée
par une fréquence d’apparition d’objets mal fabriqués dans des échantillons
contrôlés au hasard.
– Lorsqu’elle dépasse un premier seuil θS , on renforce la surveillance de la
production ; Pour cela, on augmente, par exemple, la taille des échantillons
utilisés pour évaluer θ.
– Lorsqu’elle dépasse un autre seuil θC > θS , on arrête la production pour
réparer ou pour régler les machines.
Il faut bien sûr tenir compte du coût respectif de chaque type d’opération pour
définir les seuils précédents. C’est l’objet du contrôle de qualité.
En pratique, on dispose de n observations de l’échantillon des objets contrôlés
et (pour simplifier les choses), ils sont bons ou mauvais. On a ainsi une famille
iid (indépendante et identiquement distribuée) X1 , . . . , Xn ∼ b(θ), de loi de
Bernoulli de paramètre θ. Par suite la mesure vaut 1 lorsque le i-ème objet
contrôlé est de mauvaise qualité et 0 sinon, Xi (ω) ∈ {0, 1} (à partir de main-
tenant l’événement ω ∈ Ω sera implicite) et Pθ (Xi = 1) = 1 − Pθ (Xi = 0) = θ
lorsque le monde ambiant est régi par la loi Pθ (qui dépend donc de la valeur
inconnue du paramètre θ).
Un autre cas pour lequel ce type de modèle peut s’appliquer est celui d’un
sondage d’opinion, dans lequel on ne poserait qu’une question dont la réponse
est oui ou non : on pensera à un referendum.
Un tirage aléatoire (X1 , . . . , Xn ) ∈ {0, 1}n peut donc prendre 2n valeurs, ce
qui rend le résultat d’un tel sondage difficile d’interprétation.
L’organisation du chapitre suit les questions effectives liées à ce problème.
Fondé sur cet exemple élémentaire, nous donnons ici essentiellement un résumé
du présent cours de statistique.
– On cherche d’abord à simplifier le jeu de données ; la seule connaissance
du nombre des pièces en bon état sur l’échantillon de taille n considéré
sera suffisante pour résumer notre observation.
Nous évoquons ici la question d’exhaustivité traitée au chapitre 3.
7
8 CHAPITRE 1. MODÈLE DE BERNOULLI
– On justifie ensuite le fait naturel que la probabilité empirique (proportion

de pièces défectueuses) est une quantité approchant de manière raison-
nable le paramètre de qualité θ de notre production. Cette quantité est
aussi vue comme la plus vraisemblable, en un sens noté plus bas. D’autres
manières de calculer empiriquement le paramètre sont ensuite envisagées,
comme celle de Bayes qui probabilise l’espace des paramètres lui même et
fournit ainsi des estimations convenables.
C’est le problème d’estimation du paramètre θ.
Les qualités de ces estimations sont liées à l’étude de la loi de telles va-
riables aléatoires. Une étude plus profonde de cette question est donnée
dans le chapitre 4.
– La fin du chapitre est dédiée à répondre à une question simple : faut-il
arrêter la production pour réparer les machines ?
Les problèmes envisagés sont ici ceux de la construction d’un intervalle de
confiance et celui de tests d’hypothèse.
– Une première réponse à cette question est en effet de situer de manière
raisonnable le paramètre θ à partir de la seule donnée observée, c’est
l’objet d’un intervalle de confiance. Avec une très grande probabilité,
on doit pouvoir affirmer que θ ∈ IC, IC est ainsi un intervalle dont les
bornes sont aléatoires et fondées à partir de l’estimation de θ.
– La construction d’un tel intervalle de confiance est délicate pour une
taille d’échantillon fixée ; sa version asymptotique permet de mieux
l’appréhender, au travers du théorème de limite centrale.
– Pour résoudre le problème de décision précédent, lié aux tests, on doit
être en mesure de répondre à une question de type suivant :
(Avec une grande probabilité) Le paramètre θ d’intérêt
(la probabilité de malfaçon) est suffisamment petit ?
– Cette probabilité est d’un calcul difficile, on lui préfère une approxima-
tion obtenue via le théorème de limite centrale.
– Une dernière question théorique se pose alors,
A partir de quelles valeurs (pour θ et pour la taille n de l’échantillon),
l’asymptotique a-t-elle des caractéristiques acceptables ?
Bien que cela semble dépasser le cadre de ce cours, nous donnons une
réponse complète à cette question, d’un intérêt effectif primordial.
– Bien des questions ne sont pas abordées dans ce cours. D’autre situa-
tions de type dynamique ne sont pas envisagées dans ce cours : une ques-
tion intéressante pourrait en effet être, dois-je augmenter la taille de mon
échantillon avant de prendre une décision ?, on pourra se reporter au livre
de Dacunha-Castelle et Duflo auquel ce chapitre doit beaucoup.
1.1 Résumer l’information

Si on cherche à évaluer θ à partir de l’observation (X1 , . . . , Xn ), cela ne
peut se faire qu’en considérant une fonction quelconque de l’observation dis-
ponible (la tribu choisie sur {0, 1}n est celle de l’ensemble des parties donc
1.1. RÉSUMER L’INFORMATION 9
toute fonction définie sur cet ensemble est mesurable) On appelle estimateur
T = h(X1 , . . . , Xn ) toute fonction de l’observation.
Posons
Sn = X1 + · · · + Xn (1.1)
alors Sn ∼ B(n, θ) suit une loi binomiale :
Pθ (Sn = s) = Cns θs (1 − θ)n−s , s = 0, 1, . . . , n.
En effet pour z ∈ C, la fonction génératrice de sa loi s’écrit

n n
X
s Sn
Y n
gSn (z) = z Pθ (Sn = s) = Eθ z = Eθ z Xi = Eθ z X1 = (1 − θ + zθ)n
s=0 i=1
grâce à l’indépendance des Xi .

Notons qu’alors on a, de plus,
Pθ (X1 = x1 , . . . , Xn = xn , Sn = s)
Pθ (X1 = x1 , . . . , Xn = xn |Sn = s) =
Pθ (Sn = s)
s n−s
θ (1 − θ)
=
Cns θs (1 − θ)n−s
1
= (1.2)
Cns
car, lorsque Sn = s, exactement s des n variables aléatoires Xi prennent la

valeur 1, ce qui justifie la valeur du numérateur.
La relation (1.2) a un sens profond : elle signifie que, si la variablePaléatoire
Sn prend la valeur s (Sn = s), alors la configuration des Xi tels que i Xi = s
est sans importance. On n’en apprendra donc pas plus en connaissant tout le
résultat (X1 , . . . , Xn ) de notre expérience aléatoire (qui peut prendre 2n va-
leurs), qu’en ne se souvenant que du résumé d’information constitué par Sn qui
prend seulement n + 1 valeurs. Sn est appelé résumé exhaustif de l’expérience
(X1 , . . . , Xn ), dans ce sens qu’il rapporte toute l’information relative à θ conte-
nue dans notre expérience.
Posons Te = Eθ (T |Sn ) = e h(Sn ), en raison de (1.2) on calcule
1 X
h(s) = s
e h(x1 , . . . , xn )
Cn x1 +···+xn =s
Une première question est : l’estimateur conditionné par Sn est-il aussi dispersé
que T ?
Théorème 1.1
Var θ T ≥ Var θ Te
Preuve. Quitte à lui soustraire son espérance on suppose Eθ T = 0 (et par suite
Eθ T̃ = 0), notons que Eθ T Te = Eθ Te2 , on en déduit,
Eθ (T − Te)2 = Eθ T 2 + Eθ Te2 − 2Eθ T Te = Eθ T 2 − Eθ Te2
Remarques.
– L’inégalité précédente est donc une égalité lorsque T = Te et donc h est
nécessairement une fonction de Sn dans ce cas.
– Plus généralement, l’inégalité de Jensen conditionnelle s’écrit pour toute
fonction g : C → R convexe et continue sur un convexe C ⊂ Rd . Soit
B ⊂ A une sous-tribu quelconque de A, si Z ∈ C p.s. (et si les espérances
suivantes sont bien définies)
EB g(Z) ≥ g EB Z

(1.3)
Pour montrer cette inégalité, on note que c’est une égalité pour toute
fonction g affine et le théorème de Hahn-Banach implique que la fonc-
tion g convexe est la borne supérieure de telles fonctions affines. Une ver-
sion conditionnelle du théorème de convergence monotone permet ainsi de
conclure.
1.2 Moyenne empirique

La moyenne empirique est définie par la relation
Sn X1 + · · · + Xn
X= = (1.4)
n n
où Sn désigne le résumé exhaustif (1.1). Dans le contexte présent de variables de
Bernoulli, X est la fréquence des pièces défectueuses dans l’échantillon examiné.
En accord avec le sens commun, on dit que X estime θ. On a Eθ X = θ, et on dit
que X estime le paramètre θ (c’est une variable aléatoire), sans biais (le biais
d’un estimateur T de θ est l’expression Eθ T − θ).
Cet estimateur est naturel au sens que :
Proposition 1.1 Soit T = h(Sn ) un estimateur sans biais de θ, fonction de la

statistique exhaustive Sn , alors T = X.
x
Preuve. Posons g(x) = n − h(x), on doit prouver que
{∀θ ∈ [0, 1], Eθ g(Sn ) = 0} ⇒ g ≡ 0

n
X
Cette relation s’écrit Cns θs (1 − θ)n−s g(s) = 0. Le polynôme précédent en la
s=0
variable t = θ/(1 − θ), identiquement nul si t ∈ R (ou si θ ∈]0, 1[), a donc des
coefficients nuls.
Il est aussi consistant :
1.2. MOYENNE EMPIRIQUE 11
Proposition 1.2 Lorsque n ↑ ∞, X → θ en Pθ -probabilité et même presque

sûrement.
Cet énoncé est une loi faible et forte des grands nombres, pour éviter de faire
appel à des connaissance préliminaires, nous choisissons de le démontrer.
Preuve. D’abord, un calcul simple montre que Var θ Sn = nθ(1−θ) donc Var θ X =
θ(1−θ)
n →n→∞ 0, ce qui implique la convergence en probabilité en utilisant
l’inégalité de Markov.
Pour obtenir sa convergence presque sûre, on peut évaluer un moment d’ordre
4, on pose Yi = Xi − θ :
X
Eθ (Sn − nθ)4 = Eθ Yi Yj Yk Y`
1≤i,j,k,`≤n
X
≤ 4! |Eθ Yi Yj Yk Y` |
1≤i≤j≤k≤`≤n
Lorsque i 6= j ou k 6= ` on a Eθ Yi Yj Yk Y` = 0 par indépendance ; de plus

l’inégalité de Cauchy Schwartz et l’inégalité “(u + v)4 ≤ 23 (u4 + v 4 ) pour u, v ∈
R” (obtenue avec la convexité de x 7→ x4 , cette relation s’écrit [(u + v)/2]4 ≤ (u4 +
v 4 )/2) impliquent alors
|Eθ Yi Yj Yk Y` | ≤ Eθ Y14 ≤ 23 (Eθ X14 + θ4 ) ≤ 16θ, donc

4
Eθ (Sn − nθ) ≤ 192 θ n(n + 1)
Le lemme 6.1 étendra cette inégalité. Le lemme de Borel Cantelli, implique le
résultat avec l’inégalité Pθ (|X − θ| ≥ ) ≤ Eθ (X − θ)4 /4 avec
1 n+1
Eθ (X − θ)4 = Eθ (Sn − nθ)4 ≤ 192 θ ·
n4 n3
et la sommabilité de la série n≥1 n12 .
P
Une autre méthode∗
Notons Lθ (t) = log Eθ etX1 = log (1 − θ + θet ), pour tout t > 0, la log −transformée
de Laplace de la loi de Bernoulli. Utilisant aussi l’inégalité de Markov, une
manière plus performante de procéder consiste à écrire :
Pθ (X ≥ a) = Pθ (Sn ≥ na) = Pθ etSn ≥ enat

≤ e−atn Eθ etSn = exp (−n(at − Lθ (t))

Une inégalité analogue vaut pour t < 0 : Pθ (X ≤ a) ≤ exp (−n(at − Lθ (t)). A
présent, on note que la fonction t 7→ g(t) = at − Lθ (t) = at − log(1 − θ + θet ),
concave est nulle en 0, de dérivée a − θ. Lorsque a < 1, son maximum g ∗ (a) est
atteint pour t > 0 quand a > θ), et pour t < 0 si a < θ, donc
∀ > 0, ∃g ∗ (θ ± ) > 0 :
∗ ∗
Pθ (X ≥ θ + ) ≤ e−ng (θ+)
, Pθ (X ≤ θ − ) ≤ e−ng (θ−)
(1.5)
Par suite Pθ (|X − θ| ≥ ) ≤ 2e−nb , avec b = min{g ∗ (θ − ), g ∗ (θ + )}, et on
conclut comme avant grâce au lemme de Borel Cantelli.
1.3 Maximum de vraisemblance

Rappelons que
Pθ (X1 = x1 , . . . , Xn = xn ) = θs (1 − θ)n−s , Pθ (Sn = s) = Cns θs (1 − θ)n−s
lorsque s = x1 + · · · + xn
La réalisation x1 , . . . , xn de l’expérience est d’autant plus vraisemblable que
θs (1 − θ)n−s est grand ; les expressions précédentes Vθ (X1 , . . . , Xn ) = Pθ (X1 =
(S )
x1 , . . . , Xn = xn ) et Vθ n (s) = Pθ (Sn = s) sont appelées vraisemblance de X
et de Sn . La valeur la plus vraisemblable du paramètre θ s’obtient par maxi-
misation de la vraisemblance θ 7→ Vθ (X1 , . . . , Xn ) ou de son logarithme θ 7→
Lθ (X1 , . . . , Xn ) = log Vθ (X1 , . . . , Xn ). Ainsi ∂Lθ /∂θ(X1 , . . . , Xn ) = Sn /θ−(n−
Sn )/(1 − θ) = 0 d’où, θb = X, l’estimateur du maximum de vraisemblance de θ
est la moyenne empirique.
Notons enfin que cette même expression maximise la vraisemblance de Sn .
1.4 Estimation bayésienne

Supposons maintenant que l’on dispose d’information a priori sur le pa-
ramètre θ ; par exemple on peut savoir, pour l’exemple du contôle de qualité,
1
que la machine fonctionne bien avec un taux d’échec de θ = 10 et qu’elle a une
probabilité p d’être en panne complète. Ainsi la probabilité de se trouver dans
l’état θ vaut ν({θ}) où ν = pδ1 + (1 − p)δ 10 1 et δa désigne la masse de Dirac en
a.
Pour toute loi ν sur Θ = [0, 1], on considère le risque bayésien d’un estima-
teur T = h(X1 , . . . , Xn )
Z 1
Rν (T ) = Eθ (T − θ)2 dν(θ) (1.6)
0
L’estimateur bayésien de θ est celui qui minimise Rν (T ). Posons

Z 1
µk,` = θk (1 − θ)` dν(θ), k, ` = 1, 2, . . .
0
Ce qui précède tend à privilégier un estimateur exhaustif de la forme T = g(Sn )

(fonction de Sn ), et
Xn Z 1
s
Rν (T ) = Cn (g(s) − θ)2 θs (1 − θ)n−s dν(θ)
s=0 0
n
X
Cns µs,n−s g 2 (s) − 2µs+1,n−s g(s) + µs+2,n−s

=
s=0
L’expression Rν (T ) est minimisée par T = g(Sn ) avec

µs+1,n−s
g(s) = , ∀s ∈ {0, 1, . . . , n}
µs,n−s
1.5. INTERVALLES DE CONFIANCE 13
Exemple. La loi βa,b de densité dν/dθ = ca,b θa−1 (1−θ)b−1 où c−1 a,b = B(a, b) =
R 1 a−1 b−1 Γ(a)Γ(b)
0
θ (1 − θ) dθ s’écrit aussi B(a, b) = Γ(a+b) avec Γ, la fonction d’Eu-
R∞
ler Γ(x) = 0 e−t xt−1 dt. Cette formule classique est laissée en exercice, on
précisera son champ d’application. Alors les calculs précédents conduisent à
R1
θa+s (1 − θ)n−s+b−1 dθ Γ(a + s − 1) Γ(a + b + n) a+s
g(s) = R 10 = =
θ a+s−1 (1 − θ)n−s+b−1 dθ Γ(a + b + n + 1) Γ(a + s) a+b+n
0
a + Sn
L’estimateur bayésien est ici T = .
a+b+n √
√ n + Sn
Lorsque a = b = n, l’estimateur obtenu, √ , conduit à un risque
n+2 n
1 2
Rν (T ) = (√n+1) 2 , de plus Eθ (T − θ) = Rν (T ) ne dépend pas de θ dans ce cas.
Lorsque a = b = 0 (ce qui n’est pas licite ici . . .) X = Snn a pour variance vθ (T ) =
θ(1−θ)
n qui n’est pas toujours plus petite que Rν (T ). On peut voir que pour
chaque a, b ∈ [0, 1]2 il n’existe pas d’estimateur de θ vérifiant Rθ (T ) = Eθ (T −
θ)2 ≤ Eθ (Ta,b − θ)2 pour lequel l’inégalité soit stricte en, au moins, un point
(on utilise une variante en espace continu de la proposition 2.1). Un estimateur
de θ est dit admissible s’il n’en n’existe pas de strictement meilleur, au sens
précédent. Il est difficile d’obtenir un estimateur préférable à tous les autres
de manière uniforme ; un critère moins exigeant et distinct du critère bayésien
consiste à minimiser l’expression T 7→ supθ Rθ (T ), c’est le critère minimax, qui
minimise le risque maximal.
1.5 Intervalles de confiance

L’inégalité de Bienaymé-Tchebichev prouve que
θ(1 − θ) 1
Pθ θ ∈
/ X − δ, X + δ = Pθ X − θ > δ ≤ ≤
nδ 2 4nδ 2
car θ(1 − θ) ≤ 41 pour θ ∈ R. Ainsi la confiance que l’on peut mettre dans le

fait que θ ∈ I(X) où I(X) = X − δ, X + δ est au moins égale à 1 − α lorsque
1
α = 4nδ 2.
On dit que I(X) est un intervalle de confiance (exact) au niveau α.

Notons que l’intervalle I(X) proposé a des extrémités aléatoires, son nom
tient au fait que l’on peut avoir confiance dans le fait que le vrai paramètre
appartient à I(X) ; au sens que c’est vrai hors d’un événement de probabilité
(petite) α.
Lorsque l’intervalle I(X) contient de grandes valeurs du paramètre, on ima-
gine aisément qu’il est temps de re-régler la machine qui produit maintenant
des pièces par trop déffectueuses.
1.6 Intervalles de confiance asymptotiques

L’asymptotique gaussienne et le théorème 1.3 qui la valide permet d’obtenir
des intervalles de confiance asymptotiques (10.1) précisé par (10.2).
Rappelons deux énoncés très utiles
Théorème 1.2 (TLC) Soit (Xn )n≥0 , une suite iid à valeurs dans Rk et telle
que EkX0 k2 < ∞, alors
√ L
n X − EX0 →n→∞ Nk (0, Var X0 )
Lemme 1.1 (Slutsky) Soient Un , Vn deux suites de variables aléatoires (réelles

par exemple) vérifiant
√ L P
n(Un − EUn ) →n→∞ N 0, σ 2 , Vn →n→∞ v

Alors, si la fonction continue f : R2 → R ((u, v) 7→ f (u, v)) est dérivable par

rapport à u :
2 !
√

L ∂f
n(f (Un , Vn ) − Ef (Un , Vn )) →n→∞ N 0, (0, v) σ 2
∂u
La loi des grands nombres, combinée au théorème centrale limite conduit,

grâce au lemme de Slutsky, à la convergence en loi

√ X −θ L
nq →n→∞ N (0, 1) , sous la loi Pθ
X(1 − X)
L’intervalle de confiance approché

 s s 
X(1 − X) X(1 − X) 
I(X) = X − ϕ1−α/2 , X + ϕ1−α/2
n n
admet alors le niveau asymptotique α. On note ici ϕa l’unique nombre réel tel
que P(N (0, 1) < ϕa ) = a, il est appelé quantile d’ordre a de la loi normale.
L’approximation est admise si nθ ≥ 5.
Une autre méthode∗
Pour de petites valeurs du niveau α, les inégalités de grandes déviations (1.5),
donnent un autre moyen d’obtenir des intervalles de confiance asymptotiques
[X − − , X + + ], où ± sont déterminés de sorte que
∗
(X−− ) ∗
(X++ )
e−ng + e−ng uα
1.7. CONTRÔLE DE QUALITÉ 15
1.7 Contrôle de qualité

Pour satisfaire aux exigences du contrôle de qualité, on doit obtenir une règle
de décision pour tester une hypothèse du type θ ≤ θ0 contre θ > θ0 . Soit α > 0.
Notons, qu’il existe un, plus petit, entier kα ∈ {0, 1, . . . , n} tel que
kα
X
Pθ0 (Sn ≤ kα ) = Cns θ0s (1 − θ0 )n−s ≥ 1 − α
s=0
On acceptera l’hypothèse θ ≤ θ0 lorsque l’observation est telle que Sn < kα , et

on la rejette lorsque Sn ≥ kα . Pour quantifier ce test, la proposition suivante
est essentielle.
Proposition 1.3 a) Soit k ∈ {0, 1, . . . , n}, quelconque, alors l’application θ 7→

Pθ (S ≥ k) est croissante [0, 1] → [0, 1].
b) Posons pθ (x) = Cnx θx (1 − θ)n−x , pour x ∈ {0, 1, . . . , n} et θ ∈ [0, 1]. Soient
θ0 < θ1 , on pose ux = pθ1 (x)/pθ0 (x), alors la suite (ux )0≤x≤n est croissante.
Preuve. b) Directement, u(x + 1)/u(x) = θ1 (1 − θ0 )/(θ0 (1 − θ1 )) > 1. On peut
aussi écrire log pθ (x) = log Cnx + x log θ + (n − x) log(1 − θ), alors log ux =
x log θθ01 + (n − x) log 1−θ
1−θ0 , est la somme de deux suites croissantes, on en déduit
1
donc u0 ≤ · · · ≤ un . Pk
a) Soient θ0 < θ1 , posons c = uk , π = Pθ0 (S ≤ k) = x=0 Pθ0 (S = x).
Ainsi (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π ≤ 0 en raison du point b). Notons que
Pθ1 (S ≤ k) − Pθ0 (S ≤ k) = Pθ0 (S > k) − Pθ1 (S > k), sommer en x permet de
conclure :
n
X
∆ ≡ (pθ1 (x) − cpθ0 (x)) 1I{x≤k} (x) − π
x=0
k
X n
X k
X n
X
= pθ1 (x) − π pθ1 (x) − c pθ0 (x) + cπ pθ0 (x)
x=0 x=0 x=0 x=0
k
X
= π pθ1 (x) − π − cπ + cπ
x=0
k
X
= pθ1 (x) − π ≤ 0.
x=0
La probabilité de rejeter l’hypothèse θ ≤ θ0 à tort est le niveau du test ainsi

obtenu
sup Pθ (Sn > kα ) = Pθ0 (Sn > kα ) ≤ α
θ≤θ0
en utilisant la proposition 1.3. Un autre caractère du test est de savoir si on a

effectivement eu raison de refuser l’hypothèse θ ≤ θ0 lorsque θ ≤ θ0 ; soit θ > θ0 ,
on note βθ = Pθ (Sn > kα ), la puissance du test. Alors la proposition 1.3 prouve
aussi que βθ ≥ α, on dit que le test est sans biais.
Évidemment, des tests différents pourraient être développés ; on pensera à

tester θ = θ0 contre θ 6= θ0 en rejetant l’hypothèse lorsque |Sn /n − θ0 | > Kα où
Kα désigne un seuil tel que Pθ0 (|Sn /n − θ0 | > Kα ) ≤ α.
1.8 Tests asymptotiques

Dans la section qui précède, l’inconvénient de la manière de procéder réside
dans ce que la valeur de kα n’est pas toujours simple à obtenir, même si elle est
tabulée pour les petites valeurs de n. On se pose donc ici la question naturelle
de savoir ce qui se passe quand n est grand. A cette question, deux réponses
terriblement classiques sont connues :
– Lorsque n ↑ ∞ et nθ ↑ λ, on a donc θ = θn et l’examen de la fonction
génératrice gSn prouve que Sn → P(λ) converge en Pθn −loi vers la loi de
k
Poisson de paramètre λ, P(S = s) = e−λ λk! .
Cette asymptotique, difficile à comprendre sera généralement évitée.
– Lorsque n ↑ ∞ et θ est fixé, le théorème de limite centrale montre que
1 √ L
√ X − θ = n (Sn − nθ) →n→∞ N 0, θ(1 − θ)
n
Par suite, pour n grand, on a pour Y ∼ N (0, 1) normale standard de

1 u2
densité ϕ(u) = √ e− 2 ,
2π

k − nθ k − nθ
Pθ (Sn > k) ≡ P Y > √ =1−Φ √
n n
Rx
où Φ(x) = −∞ ϕ(u) du.
On notera souvent Φ = 1 − Φ, la fonction de queue de la répartition normale.
Pour déterminer pratiquement un tel k, on introduit :
Définition 1.1 On pose ϕα ∈ R, l’unique valeur réelle telle que
P(Y ≤ ϕα ) = Φ(ϕα ) = α
Cette valeur est aussi appelée α−quantile de la loi normale.

De façon plus générale, pour toute loi P sur R de fonction de répartition F ,
on appelle α−quantile, un réel fα tel que F (fα ) = α.
Lorsque la fonction F est strictement croissante, il y a unicité du quantile fα et
un quantile de niveau donné existe toujours à la condition que F soit continue
(ou si la loi P est sans atome).
Pour déterminer un k asymptotiquement raisonnable lorsque n ↑ ∞ on po-
sera ainsi √
k = nθ0 + nϕ1−α w kα
Si α = 0, 05 on sait que ϕ1−α w 1, 96 et pour α = 0, 001, ϕ1−α w 3.
1.9. VALIDITÉ DE L’ASYMPTOTIQUE∗ 17
1.9 Validité de l’asymptotique∗

Une question importante reste posée :
Quelle taille effective des échantillons permet l’approximation précédente ?
Cette question est fondamentale pour comprendre la nature quotidienne des
approximations faites par les statisticiens.
Son importance nous autorise la digression suivante qui ne saura faire
l’objet d’aucune question pour l’examen validant ce cours.
Théorème 1.3 Soit > 0 fixé, alors,

1

sup ∆n,θ (u) = O (nθ)− 8
u∈R
uniformément pour θ ∈ [, 1 − ], si on pose

!
Sn − nθ
∆n,θ (u) = Pθ p ≤ u − Φ(u)

nθ(1 − θ)
Remarques
– Ce théorème n’a rien d’optimal car l’exposant 81 peut être remplacé par 12
(voir Petrov, 1975).
– Il permet cependant de valider l’approximation gaussienne lorsque le pro-
duit nθ est grand. L’heuristique indiquée par la simple approximation
Poissonnienne du début de la section est ainsi confirmée.
En statistique, on se contente traditionnellement de supposer
nθ ≥ 5.
Pour prouver ce résultat, on aura besoin du lemme 1.2 qui suit.

Lorsque f : E → R désigne une fonction numérique arbitraire, on posera
toujours
kf k∞ = sup |f (x)|.
x∈E
Lemme 1.2 (Lindeberg) Soit X1 , X2 , X3 , . . . une suite réelle indépendante

centrée, on considère une suite gaussienne indépendante de celle-ci, et indépendante,
vérifiant Yi ∼ N (0, EXi2 ). Alors, pour toute fonction f : R → R, trois fois
dérivable et de dérivée troisième, f 000 , continue, alors
n
kf 000 k∞ X
|E (f (X1 + · · · + Xn ) − f (Y1 + · · · + Yn ))| ≤ E|Xi |3
2 i=1
Preuve du lemme 1.2. Posons Uk = X1 + · · · + Xk−1 + Yk+1 + · · · + Yn pour

1 ≤ k ≤ n alors
n
X n
X
Ef (X1 + · · · + Xn ) − f (Y1 + · · · + Yn ) = Ef (Uk + Xk ) − f (Uk + Yk ) = ∆k
k=1 k=1
000
La formule de Taylor implique alors que |∆k | ≤ kf 6k∞ E|Xk |3 + E|Yk |3 . Pour

3/2
conclure, on note que E|Yk |3 = E|Z|3 EXk2 pour Z ∼ N (0, 1), normale
2 3/2

standard ; l’inégalité de Hölder implique EXk ≤ E|Xk |3 et une intégration
3 4
par parties permet de voir que E|Z| = 2π < 2.√
Preuve du théorème
p 1.3. On considère les variables iid X1 , . . . , Xn définies par
Xi = (bi − θ)/ nθ(1 − θ), pour une suite de binomiales iid b1 , b2 , . . . ∼ b(θ)
alors Eθ b3i = Eθ bi = θ et par convexité de x 7→ |x|3 , il vient aisément que
Eθ |bi − θ|3 ≤ 22 Eθ b3i + θ3 ≤ 8θ.
Soit 0 < θ ≤ 1 − , alors pour f ∈ C 3 , on obtient avec le lemme 1.2, et pour
Z ∼ N (0, 1) :
!
n
Sn − nθ kf 000 k X 4kf 000 k∞ 1
∞
∆n (f ) = Eθ f p − f (Z) ≤ E|Xi |3 ≤ √

3
nθ(1 − θ) 2 i=1
2 nθ
Pour conclure, on montrera en exercice que pour chaque η > 0 et chaque u ∈ R,

000
il existe une fonction fu,η ∈ C 3 vérifiant 1I[u+η,∞[ ≤ fu,η ≤ 1I[u+η,∞[ et kfu,η k∞ =
−3
√
O η . Notons que P(Z ∈ [u, u + η]) ≤ η/ 2π, on obtient alors
∆n (fu,η ) + P(Z ∈ [u, u − η]) ≤ ∆n,θ (u) ≤ ∆n (fu,η ) + P(Z ∈ [u, u + η])
et donc
1
∆n,θ (u) ≤ C √ +η ,
η 3 nθ
pour une constante indépendante de n, η, et θ. Le choix η = (nθ)−1/8 permet
de conclure. n2 m
Chapitre 2
Les points de vue

statistiques
Plusieurs points de vue prévalent dans l’étude des questions statistiques.

Nous n’en retiendrons qu’un nombre limité afin de donner une vision simplifiée
de ce champ de travail relativement mal délimité.
2.1 Analyse des données

Ici aucune modélisation probabiliste n’est requise. Pour revenir à l’exemple
du chapitre précédent, l’analyse des résultats d’un sondage d’opinions avec (cette
fois-ci) plusieurs questions donne lieu à des ensembles de données vectorielles
en dimension assez grande. L’objectif de l’analyse des données est la recherche
d’informations permettant une interprétation rapide de très grands tableaux de
nombres.
Géométriquement, nous observons un ”nuage” de points x1 , . . . , xn ∈ Rd .
Considérons la matrice symétrique et positive définie par
n n
1X 1X
A= (xi − x)(xi − x)t , x= xi
n i=1 n i=1
L’ellipsoı̈de E = {u ∈ Rd | ut Au ≤ 1} est une partie bornée de Rd lorsque la

matrice précédente est inversible (la forme quadratique associée est définie).
Différentes questions fondées sur une analyse précise de cette forme quadra-
tique sont l’objet de l’analyse des données. En particulier
– Sparsité. Une grande partie des méthodes statistiques actuelles adresse
le cas dans lequel n d ; si les données contiennent énormément de coor-
données non informatives, on peut encore les classifier. Le domaine d’ap-
plication de ces techniques est priotairement celui de la biologie. Ainsi les
chaines d’ADN sont de longues chaines de caractères (souvent de l’ordre
de 300 000) prenant seulement 4 valeurs distinctes. Classifier les individus
19
20 CHAPITRE 2. LES POINTS DE VUE STATISTIQUES
pour inférer la sensibilité à une affection spécifique a une importance clai-

rement vitale.
Dans la suite du cours, nous nous limitons à l’asymptotique classique
d n.
– Analyse en composantes principales. La diagonalisation de A fait
ressortir des directions e1 , . . . , eI de Rd (I < d) contenant une fraction f
de l’information totale contenue dans l’observation
P
j≤I λj
f=P
j≤d λj
où λ1 ≥ λ2 ≥ · · · ≥ λd désignent les valeurs propres de A rangées par

ordre décroissant.
– Analyse en composantes principales normées. Si on désire que les
facteurs d’échelle soient supprimés, on remplace simplement xi = (xi,j )1≤j≤d
par xei = x/si pour 1 ≤ i ≤ n, où on pose
n n
1 X 1X
s = (s21 , . . . , s2d ) : s2j = (xi,j − xi )2 , xi = xi,j
n − 1 i=1 n i=1
– Analyse des correspondances. Celle-ci recherche les composantes les

plus significatives dans l’observation ; il s’agit donc de trouver des lignes
de x = (x1 , . . . , xn ) renfermant presque toute l’information. Par exemple,
pour le cas du sondage, on s’intéresse aux questions les plus discriminantes
du questionnaire.
Une présentation rapide et agréable des techniques de l’analyse des données
est proposée par Dacunha-Castelle et Duflo (au début de leur premier vo-
lume, des exercices corrigés complètent cette vision très synthétique).
– Matrices aléatoires. Pour conclure cette section, indiquons un énoncé
de la théorie des matrices aléatoires ( 1 ), très en vogue en ce moment. Il
s’agit de déterminer le comportement asymptotique des valeurs propres
de matrices de covariance empiriques lorsque la dimension des données
(d = d(n)) comme le nombre n des individus converge vers l’infini. On
dispose donc d’observations iid Xn = (xj,k )1≤j≤d;1≤k≤n (où l’individu
k est représenté par le vecteur de taille d = d(n) ↑ ∞ lorsque n ↑ ∞,
xk = (xj,k )1≤j≤d où les xj,k sont iid, centrées et de variance σ 2 . La question
est la distribution asymptotique des valeursP propres λ1,n , . . . , λn,n de la
1 n t
matrice de covariance empirique An = n−1 k=1 (xk − x̄)(xk − x̄) . Les
observations
Pn étant centrées on se restreint ici au cas de la matrice An =
1 t 1 t
n k=1 x k x k = n Xn XnP et on peut prouver que la loi (aléatoire) de ces
1 n
valeurs propres µn = n i=1 δλi,n converge vers la loi de densité p(x) =
p
(b − x)(x − a)/(2πxyσ 2 ) sur [a, b] lorsque y = limn d(n)/n(> 0) existe
√ √
et où on a posé a = σ 2 (1 − y)2 , b = σ 2 (1 + y)2 (loi de Marc̆enko-
Pastur). En d’autres termes, pour toute fonction g : R → R continue et
1. On se reportera au très bel article de revue de Bai, Statistica Sinica 9(1999), 611-677.
2.2. STATISTIQUE INFÉRENTIELLE CLASSIQUE 21
bornée,
Z n Z b
1X
g(x)dµn (x) = g(λi,n ) → g(x)p(x)dx, p.s.
R n i=1 a
C’est-à-dire que cette convergence vaut pour presque chaque ω de l’espace

probabilisé sur lequel les variables aléatoires (individus) Xn sont définies.
2.2 Statistique inférentielle classique

Le modèle probabiliste sous-jacent est noté systématiquement (Ω, A, P). On
suppose ici l’existence d’une famille de lois (Pθ )θ∈Θ sur l’espace mesuré (E, E).
On observe alors une réalisation d’un phénomène de loi Pθ pour une certaine
valeur du paramètre θ0 .
L’objectif de la statistique classique est, en particulier, d’obtenir des infor-
mations concernant θ0 :
– Estimation : il s’agit de deviner la valeur de g(θ) à la vue de la réalisation
X(ω) où X ∼ Pθ . On cherche donc une bonne adéquation de ce paramètre
par une fonction de l’observation (indépendante de θ).
– Intervalles de confiance : ici on veut connaı̂tre, avec une certaine assu-
rance, l’endroit où se trouve le paramètre lorsque l’on observe X(ω). Une
région de confiance au niveau α est telle que Pθ (θ ∈ D(X)) ≥ 1 − α.
– Tests d’hypothèses. Un outil d’aide à la décision est un test, qui a pour
objet de décider si θ appartient à une partie Θ0 ⊂ Θ ou à Θ1 = Θc0 ⊂ Θ.
Remarque et notation. Dire que l’observation suit la loi Pθ signifiera, dans

les faits, qu’une famille de lois Pθ sur (Ω, A) régit le monde ambiant, ou encore
que Pθ = Pθ ◦ X −1 est la loi image de Pθ par X.
Exemples de modèles.
– Soit (πθ )θ∈Θ une famille de lois sur R. Dans ce cas particulier, on sait qu’il
suffit de donner la fonction de répartition Fθ de πθ . Pour chaque θ il existe
une probabilité Pθ sur un espace probabilisable assez riche (ici Ω = [0, 1],
muni de sa tribu borélienne, suffira) telle que, pour chaque entier n, on
détermine une suite de variables aléatoires
X (n) : (Ω, A) → (Rn , B(Rn ))
vérifiant que le vecteur X (n) admet des composantes iid et de loi πθ .

– Les exemples de modèles non indépendants sont nombreux ; on parlera de
modèles dynamiques ou de séries temporelles ou chronologiques. Suppo-
sons ainsi que la suite (ξn )n∈Z est réelle et iid, alors
– Xn = θξn−1 + ξn , est le modèle MA(1) (moving average ou moyenne
mobile d’ordre 1) défini lorsque θ ∈ R
– Xn = θXn−1 + ξn , est le modèle AR(1) (auto-régressif) défini lorsque

θ ∈] − 1, 1[ : lorsquePE|ξi | < ∞|, l’équation précédente admet la solution
∞ k
stationnaire
q Xn = k=1 θ ξn−k .
– Xn = θ + Xn−1 2 ξn est le modèle ARCH (Auto-Régressif et Condition-
nellement Hétéroscédastique) ; de tels modèles ont une variance condi-
tionnelle Var (Xn |Xn−1 ) non constante par rapport au passé, ils sont
adaptés à l’étude des phénomènes financiers et permettent ainsi de
prendre en compte les Krachs boursiers.
Les propriétés asymptotiques de tels modèles sont fondées sur des va-
riantes dépendantes des théorèmes limite usuels : loi des grands nombres
ou théorème de limite centrale.
2.3 Statistique bayésienne

Cette optique signifie qu’il n’existe plus de vraie valeur θ0 du paramètre ;
ainsi X suit un mélange de lois PX = P ◦ X −1 = Θ dν(θ)Pθ pour une certaine
R
loi ν a priori sur l’espace des paramètres.

Lorsque l’observation statistique X = x est connue et lorsque la loi Pθ a une
densité pθ par rapport à une mesure µ ≥ 0, pour chaque valeur du paramètre θ ∈
Θ, alors la loi de θ conditionnée par cette réalisation admet la loi (conditionnelle)
pθ (x)
dν(θ| x) = R dν(θ)
p 0 (x)dν(θ0 )
Θ θ
Le cadre gaussien est particulièrement adapté à la statistique bayésienne en

raison de l’hérédité de la gaussiannité par conditionnement.
Dans ce cadre bayésien, un intervalle de confiance du paramètre est donc
une partie de l’ensemble des lois sur θ.
Une application simple de la vision bayésienne est la construction d’estima-
teurs admissibles, fondée sur la proposition 2.1.
Tous les ouvrages classiques proposent des présentations agréables de cette
vision (Bickel et Doksum, par exemple).
2.4 Décision statistique

Soit (E, E, Pθ )θ∈Θ , un modèle statistique. On considère un ensemble de
décisions D 3 d. Une règle de décision pure est une fonction δ : E → D
associant une décision à toute réalisation de l’expérience statistique.
Si θ, qui désigne la vraie valeur du paramètre, est connu, on suppose qu’il
existe une “bonne” décision d(θ).
e
Une fonction de perte ` : D × Θ → R+ est une fonction telle que
`(d, θ) = 0 ⇔ d = d(θ)
e
2.4. DÉCISION STATISTIQUE 23
(cette équivalence donne un moyen alternatif de définir une bonne décision).

La perte dûe à la décision δ est la quantité :
Z
Rθ (δ) = Eθ `(δ(X), θ) = `(δ(x), θ)dPθ (x)
E
Soient maintenant deux règles de décision δ1 et δ2 , on dira que δ1 est préférable

à δ2 (et on notera δ1 < δ2 ) lorsque
∀θ ∈ Θ : Rθ (δ1 ) ≤ Rθ (δ2 )
Alors δ est dite admissible lorsqu’il n’existe pas de décision préférable à δ (autre
que δ elle-même). Elle est dite minimax lorsque
sup Rθ (δ) = inf sup Rθ (δ)
e
θ δ
e θ
Lorsque ν désigne une loi sur Θ (équipé d’une tribu . . .), le risque bayésien
associé s’écrit Z
Rν (δ) = dν(θ)Rθ (δ)
Θ
ce qui permet aussi de classer de façon bayésienne de telle règles de décision.
Le résultat suivant est une justification de l’introduction à la statistique
bayésienne.
Proposition 2.1 Soit Θ un espace discret tel que la loi ν charge chaque point
(de Θ). Un estimateur bayésien (i.e. minimisant le risque de Bayes) est admis-
sible.
Si Θ ⊂ Rd est un ensemble de mesure de Lebesgue non nulle, λd (Θ) 6= 0.
Supposons que ν soit une mesure absolument continue par rapport à la mesure
de Lebesgue λd (on écrit ainsi dν(θ) = n(θ)dλd (θ) avec une densité n sur Θ).
Si sa densité est continue et vérifie n(θ) 6= 0, λd − p.s., le même résultat vaut
encore.
Preuve. Raisonnons pas l’absurde. Si la règle de décision δ n’est pas admissible,
il existe une règle de décision δ ∗ telle que Rθ (δ ∗ ) ≤ Rθ (δ) et telle qu’existe
θ∗ ∈ Θ vérifiant Rθ∗ (δ ∗ ) < Rθ∗ (δ). Par sommation sur θ,
X X
Rθ (δ ∗ )ν({θ}) < Rθ (δ)ν({θ})
θ∈Θ θ∈Θ
donc δ ne peut optimiser le risque bayésien.

Une preuve analogue s’applique dans le cas continu.
Remarque. Dans le cas continu, on peut remplacer la continuité de n par une

condition de minoration
∃c > 0, n(θ) ≥ c > 0, λd − p.s.
Toutes ces définitions n’ont pour but que de donner des images un peu unifiées
de ce que le statisticien peut attendre. Pour les expliquer, il est indispensable
de les ré-interpréter dans différents cadres.
– Estimation (ponctuelle). Quand δ estime la fonction g(θ) du paramètre,

on pose D = g(Θ) et d(θ) e = g(θ). On a souvent `(d, θ) = H(kd − d(θ)k)
pour une fonction H ≥ 0, R → R+ qui ne s’annule qu’en 0 lorsque Θ ⊂ V
est une partie d’un espace vectoriel normé V . On choisit généralement les
fonctions de perte H(t) = t2 , |t| ou |t| ∧ c.
– Régions de confiance. δ est une région de confiance lorsque D = P(Θ) ;
on parle aussi d’estimation ensembliste.
– Tests d’hypothèse. Si D = {0, 1}, δ est un test, δ(x) le résultat du test
après l’observation de x ∈ E. Lorsque l’on teste l’hypothèse θ ∈ Θ0 ⊂ Θ,
la bonne décision est d(θ)
e = 0 lorsque θ ∈ Θ0 , d(θ)
e = 1 lorsque θ ∈
Θ1 = Θc0 . De plus, `(i, θ) = 0 si et seulement si θ ∈ Θi (i = 0, 1) ; enfin
`(i, θ) = ai (θ) > 0 lorsque θ ∈
/ Θi . Finalement
1
X
Rθ (δ) = ai (θ)I
1(θ∈Θi ) Pθ (δ(X) = 1)
i=0
– Sélection de modèle. Si D = {1, . . . , k} la décision correspondante per-

mettra de choisir entre k modèles indexés par Θ1 , . . . , T hetak et, étendant
ce qui précède, la fonction de coût s’écrit alors
k
X
Rθ (δ) = ai (θ)I
1(θ∈Θi ) Pθ (δ(X) = 1)
i=1
2.5 Quantiles
Ces quantités sont d’un intérêt essentiel pour juger de la qualité des procédures
statistiques, c’est pourquoi nous les présentons dans une section à part.
Définition 2.1 xα tel que P(X < xα ) = α est (un) α−quantile de la loi PX de
X.
Définition 2.2 On appelle F (x) = P(X ≤ x), la fonction de répartition de la

variable aléatoire X ∈ R. Cette fonction est croissante et continue à droite, de
plus, elle admet une limite à gauche en tout point x ∈ R.
On définit (même si F n’est pas bijective), l’inverse généralisé de F par la
relation
F −1 (t) = inf{x ∈ R| F (x) ≥ t}
Remarques.
– La continuité à droite s’écrit F (x) = limy→x+ F (y). L’existence de la li-
mite à droite suit, elle, automatiquement du fait que F soit croissante car
limy→x− F (y) = supy<x F (y).
– F est continue au point x si et seulement si x n’est pas un atome de la loi
de X. Lorsque F est continue en tout point (la loi de X est continue) et
strictement croissante (la probabilité que X soit dans un intervalle ouvert
2.5. QUANTILES 25
non vide quelconque est non nulle), alors F est une bijection sur son image
(F −1 coı̈ncide avec son inverse généralisée) et
la loi de U = F (X) est uniforme sur [0, 1] (2.1)
en effet : {U ≤ u} ⇐⇒ {X ≤ F −1 (u)} donc
P(U ≤ u) = P(X ≤ F −1 (u)) = F (F −1 (u)) = u
– La fonction F −1 (t) est croissante, continue à gauche et admet une limite

en tout point t ∈]0, 1[.
Pour le voir, notons que
F −1 (t) ≤ x ⇐⇒ t ≤ F (x) (2.2)
En effet, l’ensemble Et = {x ∈ R| F (x) ≥ t} est un intervalle car F

est croissante ; lorsque t ∈]0, 1[, cet intervalle s’écrit (xt , +∞[ pour un
xt ∈ R. Si xt ∈/ Et , on aurait F (xt ) < t bien que F (x) ≥ t si x > xt , en
contradiction avec la continuité à droite de F au point xt .
Ainsi
F (x) ≥ t ⇐⇒ x ≥ xt = F −1 (t)
– Pour toute variable uniforme sur [0, 1] et toute fonction de répartition F ,
la fonction de répartition de F −1 (U ) ∈ R vaut F. (2.3)
Ceci permet la simulation de variables aléatoires de loi donnée en utilisant

la fonction random de divers logiciels qui tire au hasard des nombres de
[0, 1], selon une loi uniforme.
– Ainsi, on simulera X ∼ b(θ) en tirant une variable uniforme sur [0, 1] :
on pose X = 0 si U < 1 − θ et X = 1, sinon.
– De même, une loi exponentielle E(θ) de paramètre θ ∈ R+ admet la
densité θe−θx sur R+ , sa fonction de répartition s’écrit F (x) = 1 − e−θx
et F −1 (t) = − θ1 log(1 − t) ; on prouvera donc que X = − θ1 log U ∼ E(θ).
Exercice (développement asymptotique du quantile gaussien)

Lorsque x → +∞, une intégration par parties et la formule de la moyenne
impliquent que pour Z ∼ N (0, 1),
Z ∞
P(Z > x) = 1 − Φ(x) = ϕ(t)dt
x
Z ∞
−t −t2 /2 dt
= e √
x t 2π
Z ∞
1 −x2 /2 1 −t2 /2 dt
= √ e + 2
e √
x 2π x t 2π

1 2 1
= √ e−x /2 1 + O
x 2π x
On note ici, xα = ϕ1−α , le (1 − α)−quantile d’une loi gaussienne standard.

La première remarque est que limα→0 xα = +∞, la relation précédente permet
−x2 /2
donc d’écrire (si α → 0) e xαα = aα , d’où x2α = −2 log xα + log bα , où bα =
aα
√
a−2
α et limα→0 α = 2π. Par suite x2α = log bα (1 + o(1)) lorsque α → 0 car
2
log xα = o(xα ) quand xα → ∞ donc
s
1
xα = log √ (1 + o(1))
(α 2π)2
q
1
Précisons yα = xα − log a2α ,
l’ordre du terme complémentaire qui n’est pas
q
nécessairement borné. On calcule x2α = log a12 + 2yα log a12 + yα2 = log bα .
√ α α
√
On obtient donc 2yα log bα ∼ −2 log x2α , car yα = o(xα ) = o log bα . Nous
obtenons donc
log log bα
yα = − √ (1 + o(1)).
log bα
Par suite nous obtenons un équivalent dans lequel le terme de reste converge
vers 0,
log log (α√12π)2

s
1
xα = log √ − q (1 + o(1)), si α → 0
(α 2π)2 log √1 2
(α 2π)
Chapitre 3
Modèles Statistiques
Définition 3.1 Une statistique est une variable aléatoire Ω → F (mesurable

(Ω, A) → (F, F), dans un espace mesuré (F, F) arbitraire).
Un modèle statistique, (E, E, Pθ )θ∈Θ , est une famille de lois de probabilité
sur un espace mesuré d’observations.
L’observation X est souvent composée de la superposition de n observations

indépendantes ( 1 ). Nous distinguerons la loi image de l’observation statistique
X à valeurs dans l’espace mesuré Pθ = Pθ ◦ X −1 , de la loi sur (Ω, A) sous
laquelle les espérances, probabilités, variances ou leurs versions conditionnelles
seront calculées.
3.1 Exemples de modèles

Plusieurs cas seront envisagés
– Lorsque Θ ⊂ Rd pour un entier d > 0 on parlera de modèle paramétrique,
– Si il n’est pas possible de se ramener au cas précédent (via une trans-
formation bijective et, au moins mesurable), on parlera de modèle non
paramétrique, et
– Lorsque Θ ⊂ Rd × U où U n’est pas paramétrique, si lorsque θ = (γ, u) ∈
Θ, seul le paramètre γ est important alors on parlera de modèle semi-
paramétrique. Le paramètre u est appelé paramètre de nuisance.
Remarque. La distinction entre modèles paramétriques ou non paramétriques

n’est pas toujours aisée. On suppose implicitement que la paramétrisation θ 7→
Pθ est naturelle ou “un peu régulière” ( 2 ).
1. dans le cadre asymptotique, cette situation sera la seule considérée ici.
2. On sait ( ?) que tout ensemble raisonnable est en bijection avec R sous l’hypothèse du
continu ; ceci implique que la bijection qui lie R à un espace arbitraire (par exemple à un
espace fonctionnel) n’a aucune propriété de mesurabilité. Pour être plus précis, disons que
tout ensemble de fonctions continues de Rp à valeurs dans Rq peut être mis en bijection avec
27
28 CHAPITRE 3. MODÈLES STATISTIQUES
– Modèle gaussien. Le vecteur X = (X1 , . . . , Xn ) a des composantes iid

∼ N (µ, σ 2 ), ainsi Pθ = N (µ, σ 2 )⊗n si θ = (µ, σ 2 ) ∈ Θ = R × R+ .
Toute autre famille simple de loi peut, bien sûr, remplacer ici la loi gaus-
sienne.
– Modèle exponentiel. Ici la loi de X a une densité
 
Xd
pθ (x) = C(θ)h(x) exp  gj (θ)Tj (x) (3.1)
j=1
par rapport à une mesure µ (positive et σ−finie).

Il est appelé modèle exponentiel canonique lorsque gj (θ) = θj .
– Modèle iid. Le vecteur X = (X1 , . . . , Xn ) a des composantes iid de densité
f (x) par rapport à la mesure de Lebesgue. Si, par exemple, f ∈ C 2 on
obtient un exemple de modèle non-paramétrique, Θ est ici l’ensemble des
densités de classe C 2 .
Ce modèle est inclus dans celui pour lequel le paramètre est une fonction de
répartition ; c’est-à-dire toute fonction F : R → [0, 1], croissante, continue
à gauche et admettant une limite à droite en tout point, càdlàg, vérifiant
limx→−∞ F (x) = 0, limx→∞ F (x) = 1. Cet ensemble est en bijection avec
t
celui des fonctions de répartition sur [−1, 1] : F 7→ G où G(t) = F 1+|t| .
– Modèle de régression. Le vecteur X = (X1 , . . . , Xn ) a des composantes
iid telles que Xi = (Yi , Zi ) ∈ R × R et Zi = g(Yi ) + ξi pour des suites
indépendantes et iid ξ1 , ξ2 , . . . ∼ N (0, 1), et Y1 , Y2 , . . . admet une densité
inconnue f . Le modèle est ici non paramétrique ; il est semi-paramétrique
lorsque l’on ne s’intéresse pas à la loi de Y1 et que la fonction g est donnée
de manière paramétrique et si c’est le seul élément important.
– Régression linéaire. X = (X1 , . . . , Xn ) a des composantes iid telles que
Xi = (Yi , Zi ) ∈ Rp × R et Zi = Yi β t + ξi avec E(ξi | Yi ) = 0. Ceci donne
lieu à deux modèles bien différents :
– Celui où θ = (β, f ) est un couple avec β ∈ Rp et f désigne la densité de
la loi de Y1 est semi-paramétrique. Ici f est un paramètre de nuisance.
– Si on conditionne par rapport aux observations Y , le modèle redevient
paramétrique.
Définition 3.2 Le modèle (Pθ )θ∈Θ est identifiable lorsque l’application θ 7→ Pθ

est injective.
Rappel. En souhaitant que ce soit inutile, rappelons que cela signifie
∀ θ1 , θ2 ∈ Θ : Pθ1 = Pθ2 ⇒ θ1 = θ2 .
R, contrairement aux ensemble P(R) des parties de R ou à celui de toutes les applications de
[0, 1] dans lui-même. Par exemple, on peut établir une surjection de R → F , l’ensemble des
fonctions de répartition sur R. De telles fonctions sont croissantes et continues à droites avec
une limite à gauche ; elles sont donc déterminées par leurs valeurs en tout point rationnel, il
suffit donc de définir une surjection de R dans l’ensemble des suites de réels pour conclure.
3.2. VRAISEMBLANCE 29
Exemples :
– Pour un échantillon gaussien iid, ξ1 , . . . , ξn ∼ N (0, σ 2 ), on pose Xk =
aekb +ξk pour k = 1, . . . , n, c’est-à-dire Pθ = N (aeb , σ 2 )×· · ·×N (aekb , σ 2 )
et θ = (a, b, σ 2 ) ∈ R2 × R+ . Le modèle est identifiable lorsque n ≥ 2 et
non identifiable si n = 1 car (a, b, σ 2 ) 6= (aeb , 0, σ 2 ) bien que ces deux
paramètres conduisent à la même valeur de Pθ .
– Modèle Tobit. Ici Xi = 1{ξi >0} pour une suite iid et gaussienne, ξ1 , . . . , ξn ∼
N (µ, σ 2 ) ainsi Xi ne prend que deux valeurs et
n
X
Pθ X = (x1 , . . . , xn ) = Psθ (ξ1 > 0) 1 − Pθ (ξ1 > 0 )n−s ,

s= xi
i=1
comme Pθ (ξ1 > 0) ne dépend que du rapport µ/σ, on en déduit que ce

modèle n’est pas identifiable.
3.2 Vraisemblance
Définition 3.3 Le modèle (Pθ )θ∈Θ est dominé par la mesure µ (positive et
sigma-finie sur (E, E)) si
∀A ∈ E : µ(A) = 0 ⇒ Pθ (A) = Pθ (X ∈ A) = 0
(on note Pθ µ), alors Pθ (dx) = pθ (x)µ(dx). On appelle pθ (x) la densité de
la loi Pθ de X.
La vraisemblance du modèle est alors θ 7→ Vθ (x) = pθ (x) ou, plus sou-
vent la fonction aléatoire θ 7→ Vθ (X) = pθ (X). On note Lθ (x) = log pθ (x) sa
log −vraisemblance.
Rappel. Le théorème de Radon-Nikodym prouve, en effet, que si Pθ µ,

alors la densité pθ (x) = dP θ
existe bien ; elle est définie µ−presque sûrement
R dµ
par la relation Pθ (A) = A pθ (x) dµ(x) (pour A ∈ E). On distingue généralement
deux cas :
– Si E est discret ( 3 ) alors E est au plus dénombrable et E = P(E) l’en-
semble de ses parties est la tribu utilisée (c’est aussi la plus petite tribu
contenant tous les points de E) ; de plus µ est la mesure de décompte sur
E (i.e. µ({x}) = 1 pour tout x ∈ E).
Dans ce cas : pθ (x) = Pθ (X = x) = Pθ ({x}).
– Si E ⊂ Rn et µ est la mesure de Lebesgue, λn , on dira simplement que pθ
est la densité de X sous Pθ .
Par exemple, si E = Rn , Pθ = Pθ⊗n avec Pθ (dt) = fθ (t)λ(dt) alors µ =
λ⊗n = λn , on a
Vθ (x1 , . . . , xn ) = fθ (x1 ) · · · fθ (xn ),
3. Ici cela signifiera que chaque point est un atome, c’est-à-dire que chaque point de l’espace
est occupé avec une probabilité non nulle.
et
Lθ (x1 , . . . , xn ) = log fθ (x1 ) + · · · + log fθ (xn ).
Interprétation. Pour un espace discret la vraisemblance est bien une pro-

babilité, donc le terme vraisemblance s’applique bien. Pour un espace d’états
continus Pθ (kX − xk ≤ dx) = Vθ (x) dx est aussi grande (à l’échelle dx) dès lors
que Vθ (x) est important.
Plus Vθ (X) est grand et plus la réalisation de X est ”vraisemblable” dans
l’univers Pθ .
Exemples.
– Dans un modèle iid N (µ, σ 2 ),
( n
)
1 X (Xi − µ)2
Vθ (X1 , . . . , Xn ) = n exp −
(2πσ 2 ) 2 i=1
2σ 2
– Dans un modèle iid b(θ),

Pn Pn
Xi Xi
Vθ (X1 , . . . , Xn ) = θ i=1 (1 − θ) i=1
– Dans un modèle iid P(θ), de Poisson

n
−nθ
Y θXi
Vθ (X1 , . . . , Xn ) = e
i=1
Xi !
– Pour le modèle dynamique, AR(1) gaussien, X0 = 0 et Xi = a+bXi−1 +ξi

pour ξ1 , . . . , ξn iid N (0, σ 2 ),
n
Y 1 1 2
Vθ (X1 , . . . , Xn ) = √ e− 2σ2 (Xi −a−bXi−1 )
i=1
σ 2π
Définition 3.4 Le modèle est homogène lorsque, pour tout θ0 ∈ Θ la mesure

Pθ0 domine le modèle (Pθ )θ∈Θ . En d’autres termes, pθ (x) > 0 µ−p.s. pour
chaque θ ∈ Θ.
Ainsi le modèle gaussien (si σ 2 > 0) et le modèle de Bernoulli (si θ ∈]0, 1[), sont
homogènes ; le modèle uniforme U [0, θ] d’une variable uniforme sur l’intervalle
[0, θ] est dominé par la mesure de Lebesgue (lorsque θ > 0) et il n’est pas
homogène car U [0, θ] U [0, θ0 ] ⇔ θ ≤ θ0 .
Exercice (Modèle gaussien contaminé). Soit a ∈ R, fixé. On pose X = a

avec la probabilité p, et X ∼ N (µ, σ 2 ), sinon. Alors µ = λ+δa domine ce modèle
paramétré par θ = (p, µ, σ 2 ) et sa densité vaut
1−p 2 2
pθ (x) = p 1I(X=a) + √ e−(x−µ) /2σ
σ 2π
3.3. EXHAUSTIVITÉ 31
3.3 Exhaustivité
Définition 3.5 Soit (Pθ )θ∈Θ un modèle µ−dominé. La statistique T : (E, E) →
(F, F) est exhaustive si on peut écrire pθ (x) = gθ (T (x))h(x) pour des fonctions
mesurables gθ : F → R+ et h : E → R+ .
Remarque. La loi conditionnelle de X sachant T (X), Pθ (X ∈ · |T (X)) est alors

indépendante de θ. Lorsque le modèle n’est pas dominé, ceci est d’ailleurs la
définition de l’exhaustivité (voir Dacunha-Castelle & Duflo, volume 1, théorème
7.1.8, page 167). Par conséquent, la statistique T (X) est exhaustive si elle
contient toute l’information concernant la valeur du paramètre θ induite par
l’observation X.
Exemples.
2
PnN (µ, σ ), 2la statistique
– Dans le modèle iid Pn T (x) = (s2 , x) est exhaustive,
1 1
si on note x = n i=1 xi et s = n i=1 (xi − x)2 , car on peut écrire
1 nµ 2
e− 2σ2 e− 2σ2 (s −2µx)
n
Vθ (x1 , . . . , xn ) = n
(2πσ 2 ) 2
– Dans le modèle iid b(θ), x est encore une statistique exhaustive car
Vθ (x1 , . . . , xn ) = θnx (1 − θ)n(1−x)
– Dans le modèle iid U [0, θ] uniforme, M (X) = maxi Xi est exhaustive car
on peut écrire
Vθ (x1 , . . . , xn ) = θ−n 1I(maxi xi ≤θ) 1I(mini xi ≥0)
– Dans un modèle exponentiel (3.1), la statistique T (X) est encore exhaus-

tive.
Notons à présent que, pour toute application h mesurable telle que l’on
puisse représenter la statistique T sous la forme h(S) pour une autre statistique
S, alors S est aussi exhaustive. Par exemple, le couple (T, T 0 ) est exhaustif avec
T.
Définition 3.6 La statistique T ? est exhaustive minimale si, pour toute statis-
tique exhaustive il existe h mesurable telle que T ? = h ◦ T .
Si T1 et T2 sont exhaustives minimales, elles sont alors en correspondance bi-

mesurable (il existe h mesurable et d’inverse mesurable telle que T1 = h(T2 )).
On verra, un peu plus loin (corollaire 3.2) que dans le modèle exponentiel
(3.1), la statistique T (X) est minimale si {T (x)| x ∈ E} engendre Rd .
Définition 3.7 La statistique S est libre si la loi de S(X) ne dépend pas de θ

(sous Pθ ).
Le résultat suivant est indispensable à l’étude des lois gaussiennes vectorielles.
Théorème 3.1 (Cochran) Soit n > 0. Si Rn = ⊗kj=1 Ej est décomposé en

somme orthogonale de sous espaces vectoriels de dimensions respectives nj =
dim Ej > 0, on pose pj : Rn → Rn le projecteur orthogonal sur Ej (pj (Rn ) =
Ej ) pour j = 1, . . . , k. Alors,
– Si X = (X1 , . . . , Xn ) ∼ Nn (0, σ 2 In ), les variables aléatoires p1 (X), . . . ,
pk (X) sont indépendantes et de loi gaussienne. Lorsqu’on choisit une base
orthonormalePde Rn adaptée à cette décomposition, les composantes ti,j
de pj (X) = i ti,j ei dans cette base sont indépendantes et nulles ou de
variance σ 2 selon que ei ∈ / Ej ou ei ∈ Ej .
– Si X = (X1 , . . . , Xn ) ∼ Nn (m, σ 2 In ), pour m ∈ Rn alors les pj (X) ∼
Nnj (pj (m), σ 2 IEj ) sont encore indépendantes pour j = 1, . . . , k ( 4 ).
En particulier les normes euclidiennes de ces variables sont indépendantes et
suivent les lois kpj (X)k2 ∼ χ2nj du χ2 , ou χ2nj ,ρj du χ2 décentré de ρj =
kpj (m)k2 pour j = 1, . . . , k.
Preuve. L’abus de notation du second point consiste à identifier Ej à Rnj , ce

qui est possible si on change la base orthonormale de Rn . Ce théorème est de
preuve très simple.
Si X ∼ Nn (m, σ 2 In ) et t ∈ Rn alors Eet·X = exp − 2σ1 2 ktk2 . Il s’ensuit que

U X ∼ X a la même loi que X pour toute matrice orthogonale (i.e. si U 0 U =

U U 0 = In ).
De plus si m ∈ Rd et X ∼ Nn (0, σ 2 In ), la décomposition orthogonale de Rd
entre la droite E1 portée par v = m/kmk et E2 = E1⊥ permet de représenter
X = (X ·v)v +Y avec Y ⊥v et kY k2 ∼ σ 2 χ2n−1 . Ainsi X +m = ((X ·v)+m)v +Y
donc kX + mk2 = ((X · v) + kmk)2 + kY k2 admet une loi dépendant seulement
de n, σ 2 et de ρ = kmk/σ mais pas directement du vecteur m. Ainsi kX +mk2 ∼
σ 2 χ2n,ρ si Z ∼ Nk (µ, σ 2 Ik ) avec ρ = kµk/σ ; µ = 0 donne lieu à la loi du χ2k .
Exemple. Si X1 , . . . , Xn sont iid ∼ N (θ, σ 2 ), soit E1 l’espace engendré par

le vecteur 1In = (1, . . . , 1) et E2 = E1⊥ , alors k = 2, et n1 = 1, n2 = n − 1 et
p1 (X) = √1n (X1 + · · · Xn ) √1n 1In (le vecteur √1n 1In est la base orthonormale
choisie sur E1 ). Par suite X ∼ N (θ, σ 2 /n) et p2 (X) = X − X 1In sont des
gaussiennes indépendantes et kp2 (X)k2 = nS 2 ∼ σ 2 χ2n−1 est indépendante de
X. Ainsi la statistique S 2 = n1 i (Xi − X)2 ∼ σ 2 χ2n−1 est libre du paramètre
P
θ.
Définition 3.8 La statistique T est complète si pour toute fonction numérique

bornée et mesurable g :

∀θ ∈ Θ, Eθ g(T ) = 0 =⇒ g ≡ 0
4. Nous faisons ici un abus de notation en assimilant les lois gaussiennes Nd sur Rd à celles
définies sur un espace vectoriel réel F de dimension d.
3.4. MODÈLE EXPONENTIEL 33
Remarque. Si Θ ⊂ Θ e et la statistique T est (Pθ )θ∈Θ −complète, elle est aussi

e −complète.
(Pθ )θ∈Θ
Pour conclure cette section, nous admettrons l’énoncé classique suivant.
Proposition 3.1 Si S, T sont deux statistiques, avec T exhaustive et complète.

– Si S est libre, alors S et T sont Pθ -indépendantes pour tout θ ∈ Θ.
– Si le modèle est homogène et si S et T sont Pθ -indépendantes pour tout
θ ∈ Θ, alors S est libre.
Soit, par exemple, X1 , . . . , Xn iid ∼ N (θ, 1), alors T (X) = X est complète ce
qui permet de redéduire l’indépendance de S et X.
Au contraire soient X1 , . . . , Xn iid ∼ U θ − 12 , θ + 12

suivant une loi
uniforme sur un intervalle de longueur 1. Posant m(x) = min{x1 , . . . , xn } et
M (x) = max{x1 , . . . , xn }, on prouve que la statistique T = (M, m) est exhaus-
tive et minimale mais pas complète alors que S = M − m est libre et n’est, bien
entendu, pas indépendante de T .
3.4 Modèle exponentiel

La loi de X ∈ E a ici la densité
 
Xd
pθ (x) = C(θ)h(x) exp  gj (θ)Tj (x)
j=1
par rapport à une mesure µ (positive et σ−finie).

Notons pour commencer que la loi d’un tel n−échantillon iid X1 , . . . , Xn ∼
n
Pθ reste exponentielle, avec x = (x1 , . . . , xn ), si on remplace
Pn C par C , h(x)
par hn (x) = h(x1 ) · h(x2 ) · · · h(xn ) et Tj (x) par Tn,j (x) = i=1 Tj (xi ).
Ainsi  
Xd
pn,θ (x) = C n (θ)hn (x) exp  gj (θ)Tn,j (x)
j=1
Ce modèle est appelé modèle exponentiel canonique lorsque gj (θ) = θj .

1
Notons qu’on peut écrire pθ (x) = LT (g(θ)) eg(θ)·T (x) , en considérant la trans-
R λ·T (x)
formée de Laplace de T , LT (λ) = E e dµ(x); si on fait le changement de
paramètre λ = g(θ) ∈ Λ ⊂ Rd , le modèle précédent est transformé en un modèle
canonique avec
Z
1
peλ (x) = eλ·T (x) , LT (λ) = eλ·T (x) dµ(x), Λ = g(Θ) (3.2)
LT (λ) E
Exemples
– Pour le modèle binomial, B(n, θ), on note λ = log θ/(1 − θ).
– Pour le modèle de Poisson, P(θ), on a pθ (x) = e−θ ex log θ /x! donc λ = log θ.
2 2 2
– Pour le modèle gaussien N (µ, σ 2 ), la densité s’écrit C(µσ 2 )eµ/σ x−x /2σ
2 2 2
donc T (x) = (x, −x /2) donne lieu à λ = (µ/σ , σ ).
Théorème 3.2 Si pλ (x) = LT1(λ) eλ·T (x) avec LT (λ) = E eλ·T (x) dµ(x) pour
R
λ ∈ Λ alors, pour toute fonction h : E → R mesurable et bornée,

Z
h(x)eλ·T (x) dµ(x) = LT (λ)Eλ h(X)
E
existe pour chaque λ ∈ Λ. Si, Λ ⊂ Rd est d’intérieur non vide, Λ◦ 6= ∅ cette

fonction est analytique ( 5 ) sur {z = (z1 , . . . , zd ) ∈ Cd | (<(z1 ), . . . , <(zd )) ∈ Λ◦ }.
On peut donc dériver la relation précédente à tout ordre.
On désigne ici <z = z1 , la partie réelle du nombre z = z1 + iz2 .

L’ensemble naturel des paramètres est
Λnat = λ ∈ Rd | LT (λ) existe

L’inégalité de Hölder prouve qu’il est convexe et la continuité de la transforma-

tion de Laplace prouve qu’il est ouvert.
Corollaire 3.1 Lorsque h(λ) = log LT (λ), on a
∂2

Eλ T (X) = ∇h(λ), et Var λ T (X) = h(λ)
∂λi ∂λj 1≤i,j≤d
De plus la fonction h est convexe sur Λ◦ .
Preuve. eh(λ) = E eλ·T (x) dµ(x), donc par dérivations

R
Z
h(λ) λ·T (x)
∇h(λ)e = Ti (x)e dµ(x)
E 1≤i≤d
et, pour 1 ≤ i ≤ d,
∂2
Z
∂ ∂
h(λ)eh(λ) + h(λ) h(λ)eh(λ) = Ti (x)Tj (x)eλ·T (x) dµ(x)
∂λi ∂λj ∂λi ∂λj E
ce qui permet de conclure pour les premières relations ; la convexité suit simple-
ment de l’application de l’inégalité de Hölder.
5. L’analycité est l’extension de la notion usuelle sur C ; elle signifiera, pour nous, l’existence
P k1 kd
d’un développement en série, k1 ,...,kd ≥0 ck1 ,...,kd λ1 · · · λd . Elle peut aussi être formulée
dans les mêmes termes que pour le cas unidimensionnel (voir Cartan, Théorie élémentaire des
fonctions analytiques, Hermann, 1961).
Corollaire 3.2 Si Λ◦ 6= ∅, alors la statistique T est exhaustive minimale et

complète.
Preuve. L’analycité précedente implique que Eλ f (T ) = 0 ⇒ f ≡ 0 donc T est
complète.
Supposons S exhaustive : pλ (x) = r(x)ψλ (S(x)). Si, maintenant, λ prend d + 1
ψ ◦S
valeurs affinement indépendantes λ0 , . . . , λd , alors log ψ0j ◦S est somme d’une
fonction de (λ0 , λj ) et de (λj − λ0 )T . On en déduit que a ◦ S(x) = b + M T (x)
pour une matrice M inversible b ∈ Rd et a : Rk → Rd ; ceci permet de conclure.
Chapitre 4
Estimation
Rappelons qu’un estimateur du paramètre g(θ) ∈ F est une variable aléatoire

T (X) où T : (E, E) → (F, F) est une application mesurable.
L’objectif de ce chapitre est d’obtenir une mesure de qualité pour les esti-
mations que l’on envisage.
Définition 4.1 Soit w : F ×F → R+ , une fonction mesurable telle que w(s, t) =

0 ⇔ s = t. Pour tout estimateur de g(θ) la fonction de risque attachée à w est
donnée par,
Rw (T, θ) = Eθ w T (X), g(θ)
– L’estimateur T 0 (X) est préférable à T (X) si Rw (T 0 , θ) ≤ Rw (T, θ), ∀θ ∈
Θ.
– L’estimateur T (X) est admissible lorsqu’il n’existe pas d’estimateur qui
lui soit préférable.
– Il est minimax, s’il minimise supθ Rw (T, θ).
Nous serons souvent amenés à faire l’abus de notation T = T (X), par contre la
valeur de la fonction T : E → F sera distinctement notée T (x) en tout point
x ∈ E.
Rappelons aussi que la proposition 2.1 propose une hypothèse sous laquelle
les estimateurs bayésiens sont admissibles.
4.1 Estimation sans biais

On considère ici g(θ) ∈ Rk (matrice k×1), estimé par T (X) avec T : E → Rk .
Définition 4.2 L’estimateur T (X) est sans biais si

Eθ T (X) = g(θ), ∀θ ∈ Θ
De manière générale, le biais de l’estimateur T (X) de g(θ) est l’expression
b(θ) = Eθ T (X) − g(θ), ∀θ ∈ Θ
37
38 CHAPITRE 4. ESTIMATION
Dans ce cadre, sans biais, la notion d’optimalité d’un estimateur (vectoriel) est
un peu modifiée.
Définition 4.3 L’estimateur T 0 (X) est préférable à T (X) si
Covθ T 0 (X) ≤ Covθ T (X)
pour chaque θ ∈ Θ, c’est-à-dire lorsque ∆ = Covθ T (X) − Covθ T 0 (X) (matrice

symétrique, k × k) est positive.
L’estimateur T (X) est admissible lorsqu’il n’existe pas d’estimateur qui lui
soit préférable.
Remarque. Rappelons d’abord qu’une matrice ∆ réelle et de taille k × k est

associée à une forme quadratique sur Rk par la relation
Q∆ (u) = ut ∆u, ∀u ∈ Rk
La matrice symétrique est alors dite positive lorsque Q∆ (u) ≥ 0 pour tout
u ∈ Rk , elle est définie lorsque Q∆ (u) 6= 0 pour tout u 6= 0.
Pour bien comprendre le sens de ces définitions, il semble bon de rappeler
que toute matrice ∆ symétrique est diagonalisable en base orthonormale. En
termes matriciels, il existe une matrice orthogonale U (i.e. U t U = U U t = Ik )
telle que U t ∆U soit une matrice diagonale. Si λ1 , . . . , λk désignent les valeurs
propres de ∆ qui apparaissent donc sur la diagonale de la matrice précédente,
la matrice ∆ est positive si λ1 ≥ 0, . . . , λk ≥ 0, et elle est définie positive si
λ1 > 0, . . . , λk > 0.
Un critère de positivité des matrices symétriques repose sur le fait que ses
mineurs principaux soient positifs (déterminants obtenus en sélectionnant les j
premières lignes et les j premières colonnes de ∆ pour j = 1, 2, . . . , k).
Exemple. Bien entendu, les deux critères de performance (définitions 4.1 et

4.3) précédents coı̈ncident lorsque k = 1 et w(s, t) = (s − t)2 . Pour une suite
X1 , . . . , Xn iid ∼ N (θ, σ 2 ), l’exemple suivant le théorème 3.1 de Cochran permet
de prouver que
n
1 X
b2 =
σ (Xi − X)2
n − 1 i=1
Pn 2
1 1
estime σ 2 sans biais (ici T (x) =
P
n−1 i=1 xi − n j xj ).
Théorème 4.1 Supposons k = 1 pour simplifier. Soient T (X) sans biais et

S(X) une statistique exhaustive, on définit l’amélioré de Rao-Blackwell, Te(S(X))
de T (X), par la relation Te(s) = Eθ (T (X)| S(X) = s).
Alors l’amélioré de Rao-Blackwell Te(S(X)) est encore sans biais et il est
préférable à T (X).
4.2. INFORMATION DE FISHER 39
Remarque. Évidemment, l’expression Te est indépendante de θ ∈ Θ par

définition de l’exhaustivité.
Preuve. Eθ Te(S(X)) = Eθ Eθ (T (X)| S(X)) = Eθ T (X) = g(θ). La fin de la preuve
du théorème résulte de l’identité suivante, déjà prouvée dans la démonstration
du théorème 1.1 : Varθ T (X) = Varθ T (X) + Eθ (T (X) − Te(S(X)))2 .
Exemple. Soient X1 , . . . , Xn iid ∼ U [0, θ] pour θ ∈ R+∗ , alors Eθ X1 = θ/2

donc T (X) = 2X1 estime θ sans biais ; de plus M = S(X) = max1≤i≤n Xi est
une statistique exhaustive. L’amélioré de Rao-Blackwell de T (X) est n+1
2n S(X)
(voir § 4.6).
4.2 Information de Fisher

Définition 4.4 Un modèle µ−dominé (E, E, pθ (x)dµ(x))θ∈Θ est dit régulier
lorsque
– Θ est un ouvert (non vide) de Rd pour un entier d ≥ 1.
– Pour (µ−presque) tout x ∈ E, l’application θ 7→ pθ (x) est différentiable
sur Θ. R
– Pour chaque A ∈ E tel que µ(A) 6= 0, l’application θ 7→ qθ = A pθ (x)dµ(x)
est différentiable sur Θ et
Z
∂ ∂
qθ = pθ (x)dµ(x), j = 1, . . . , d
∂θj A ∂θ j

∂ ∂
– L’information de Fisher, I(θ) = Eθ log pθ (X) log pθ (X) ,
∂θi ∂θj 1≤i,j≤d
existe et c’est une matrice définie positive pour chaque θ ∈ Θ.
Si h est une fonction bornée

R ∂ nous en déduisons que qθ = Eθ h(X) est une fonction
∂
dérivable avec ∂θ i
qθ = ∂θi pθ (x)µ(dx).
L’hypothèse de régularité introduite ici permettra un contrôle précis du risque
quadratique d’estimateurs sans biais dans la section suivante. Les sections qui
suivent donnent des exemples et des contre exemple à ce type d’énoncé dont la
faiblesse sera mise en évidence en section 4.4.
Des tests classiques sont aussi fondés sur la statistique suivante :
Définition 4.5 Dans un modèle régulier, on appelle score le vecteur d−dimen-
sionnel,
1 ∂
∇ log pθ (x) = pθ (x) .
pθ (x) ∂θj 1≤j≤d
Le cas d’un n−échantillon est traité grâce à la
Proposition 4.1 Considérons un n−échantillon iid de loi (pθ (x)dµ(x))θ∈Θ ,

(n) Qn ⊗n
alors pθ (x1 , . . . , xn ) = i=1 pθ (xi ), la mesure dominante vaut µ , et le
modèle correspondant reste régulier avec In (θ) = nI(θ).
Cette proposition est conséquence du

(1) (2)
Lemme 4.1 Si Pθ = Pθ ⊗ Pθ alors I(θ) = I (1) (θ) + I (2) (θ).
(1) (2)
Preuve du lemme. Avec des notations immédiates, pθ (x1 , x2 ) = pθ (x1 )·pθ (x2 )
donc les log −vraisemblances correspondantes (comme leurs dérivées) s’ajoutent
(1) (2) ∂ ∂ (1) ∂ (2)
Lθ (x1 , x2 ) = Lθ (x1 ) + Lθ (x2 ), Lθ (x1 , x2 ) = L (x1 ) + L (x2 )
∂θi ∂θi θ ∂θi θ
Le lemme s’en déduit.
L’expression suivante de l’information de Fisher est souvent utile :
Proposition 4.2 Si θ 7→ pθ (x) est deux fois différentiable sur Θ et si on peut
intervertir dérivations et intégrations, alors
∂2

I(θ) = − Eθ log pθ (X)
∂θi ∂θj 1≤i,j≤d
∂ 1 ∂
Preuve. En remarquant que Lθ (x) = pθ (x), on calcule
∂θi pθ (x) ∂θi
∂2 1 ∂2 ∂ ∂
Lθ (x) = pθ (x) − Lθ (x) · Lθ (x)
∂θi ∂θj pθ (x) ∂θi ∂θj ∂θi ∂θj
Cette relation intégrée par rapport à la loi Pθ donne le résultat car, par inter-
version de dérivées et d’intégrales,
∂2 ∂2
Z
1
Eθ pθ (X) = pθ (x)µ(dx) = 0.
pθ (X) ∂θi ∂θj ∂θi ∂θj
Exemples.
– Pour un modèle uniforme iid, X1 , . . . , Xn ∼ U [0, θ], la dérivabilité de
θ 7→ pθ (x) n’est pas assurée au point θ = maxi xi . Ce modèle n’est donc
pas régulier.
– Si X1 , . . . , Xn sont iid de loi de Poisson P(θ) (θ > 0), la log −vraisemblance
du modèle correspondant à n = 1 s’écrit Lθ (x) = −θ + x log θ − log x!
(ici pθ (x) = e−θ θx /x!). Par suite ∂θ ∂
Lθ (x) = −1 + x/θ. Donc I(θ) =
2
Varθ (−1 + X1 /θ) = Varθ X1 /θ = 1/θ.
– Si X1 , . . . , Xn iid sont de loi gaussienne N (µ, σ 2 ) avec µ ∈ R et σ 2 > 0,
on calcule encore l’information pour n = 1. On note à cet effet que
(x − µ)2 1
Lθ (x) = − − log(2πσ 2 ),
2σ 2 2
et on calcule,
∂ µ−x
Lθ (x) = ,
∂µ σ2
∂ (x − µ)2 1
Lθ (x) = − 2 , et
∂σ 2 2σ
4 2σ
1

σ 2 0
I(θ) =
0 4σ1 4
4.3. BORNE DE CRAMER RAO 41
On peut aussi utiliser la proposition 4.2 pour faire ce calcul.

– Modèle avec un paramètre de translation . Ici Θ = E = R et si Pθ a la
densité f (x − θ) par rapport à la mesure de Lebesgue sur R, lorsqu’elle
est bien définie, son information de Fisher est constante
f 02
Z
I(θ) = est appelée information de Fisher de f et notée I(f ).
f
4.3 Borne de Cramer Rao
Définition 4.6 Un estimateur T (X) de g(θ) est dit régulier, dans un modèle
régulier (E, E, pθ (x)dµ(x))θ∈Θ , lorsque Varθ T (X) < ∞ et
Z
∂ ∂
Eθ T (X) = T (x) pθ (x)dµ(x), j = 1, . . . , d
∂θj ∂θj
Dans un modèle régulier, on peut intervertir dérivées et intégrales et la matrice

d’information de Fisher I(θ) est inversible.
Théorème 4.2 (Cramer & Rao) Soit T (X) un estimateur sans biais et ré-
gulier de g(θ) ∈ Rk , alors
Eθ (T (X) − g(θ))t (T (X) − g(θ)) = Covθ T (X) ≥ ∇g(θ)I −1 (θ)∇g(θ)t
L’estimateur T (X) est dit efficace s’il y a égalité.
Remarques. Lorsque g(θ) = θ, le minorant de la matrice de covariance de

T (X) est simplement l’information de Fisher.
Ce théorème est aussi attribué (de plus) à Messieurs Fréchet et Darmois (pro-
babilistes français du siècle dernier), on s’y réfèrera souvent comme à la borne
FDCR.
Notations. Posons
 
g1 (θ)  ∂g1 ∂g1 
 ...  ∂θ1 (θ)
... ... ∂θd (θ)
   ... . .. ... ... 
 ... ,
g(θ) =   alors ∇g(θ) = 
 ...

 ...  ... ... ... 
∂gk ∂gk
g1 (θ) ∂θ1 (θ) . . . . . . ∂θd (θ)
est une matrice k × d. Il y a donc bien concordance de dimension dans l’inégalité

précédente, car il y apparaı̂t un produit de matrices de tailles respectives (k ×d),
(d×d) et (d×k) : ce produit est de taille (k ×k), comme la matrice de covariance
de T (X).
Lorsque d = 1, on notera f˙(x, θ), f¨(x, θ) les dérivées d’une fonction f (x, θ) par
rapport à la variable θ. R
Remarquons que la relation pθ (x)dµ(x) ≡ 1 permet de déduire que
Z Z
Eθ ∇ log pθ (X) = ∇pθ (x)dµ(x) = ∇ pθ (x)dµ(x) = 0
R
De plus, Rla relation g(θ) = Eθ T (X) = T (x)pθ (x)dµ(x) implique l’identité
∇g(θ) = T (x)∇pθ (x)dµ(x), donc
∇g(θ) = Eθ T (X)∇ log pθ (x) = Covθ (T (X), ∇ log pθ (X))
Enfin
Varθ ∇ log pθ (X) = I(θ).
Preuve du théorème 4.2 dans le cas k = d = 1. A présent on écrit
Z
d
ġ(θ) = T (x)ṗθ (x)dµ(x) = Eθ T (X) log pθ (X) = Eθ T L̇θ (X)
dθ
L’inégalité de Cauchy-Schwartz et la relation Varθ L̇θ (X) = I(θ) impliquent

donc le résultat, écrit ici
ġ 2 (θ) ≤ I(θ) Varθ T (4.1)
Le cas général est admis : il nécessite, en effet, un bagage matriciel supplémentaire.
Exemples.
– Dans le modèle de Poisson iid, l’estimateur X est efficace pour estimer le
paramètre θ.
– Dans le modèle iid N (µ, σ 2 ), l’estimateur X, sans biais de g(θ) = µ est
efficace. Pn
1
Par contre, l’estimateur sans biais σ b2 = n−1 2
i=1 (Xi − X) n’est pas
efficace.
Enfin, on prouvera (en exercice) que T (X) = n1 i Xi2 estime efficacement
P
le paramètre g(θ) = µ2 + σ 2 dans ce modèle.
4.4 Optimalité
Lemme 4.2 Si T est efficace pour estimer g(θ) alors AT + b est efficace pour
ag(θ) + b pour A matrice m × k et b ∈ Rm quelconques.
Preuve. La variance de AT (X) s’écrit AVarθ T (X)At .

Une réciproque est donnée par Monfort et Gouriéroux (volume 1, page 146) :
Théorème 4.3 Pour un modèle exponentiel régulier, tout estimateur régulier

et efficace est une fonction affine de T (X), la statistique exhaustive associée à
ce modèle.
Ainsi, on prouve que σ 2 n’est pas estimable efficacement dans le modèle gaussien
iid ∼ N (µ, σ 2 ).
Théorème 4.4 (Lehmann & Sheffé) Soit S(X) une statistique exhaustive
et complète, alors un estimateur de la forme T = h ◦ S(X) est optimal parmi
les estimateurs sans biais de g(θ).
Remarques.
– Soit S(X) une statistique exhaustive et complète. Si U est un estimateur
sans biais et de carré Pθ intégrable alors h(S) = Eθ (U |S) est optimal,
de variance minimum parmi les estimateurs sans biais, uniformément par
rapport à θ. Cet estimateur est aussi unique, la manière précédente de
l’obtenir est sans doute la plus simple dans la pratique.
– Soit T1 (X), estimateur sans biais optimal de g(θ), alors Te1 (S(X)) est
optimal d’après le théorème 4.1.
– Notons qu’un estimateur efficace est optimal parmi les estimateurs sans
biais et réguliers mais qu’un tel estimateur n’existe pas toujours. Concluons
avec deux exemples ; des modèles exponentiels seront envisagés dans le
§ 4.5.
– Ainsi, avec la statistique exhaustive complète S(X) = X, X 2 , pour
1
le modèle iid gaussien N (µ, σ 2 ), la statistique V 2 = n−1 2
P
i (Xi − X)
2 2
est optimale alors que sa variance σ /(n − 1) > σ /n dépasse la borne
FDCR : il est sans biais et pas efficace. Par contre σ 2 + µ2 est estimé
efficacement par X 2 .
– De même l’estimateur du maximum de vraisemblance θb = 1/X, dans le
modèle exponentiel iid de paramètre θ (ici fθ (x) = θe−θx1I{x≥0} ) n’est
pas efficace. En effet, ce paramètre ne peut être efficacement estimé car il
n’est pas fonction affine du paramètre naturel de ce modèle exponentiel
λ = θ1 .
4.5 Modèle exponentiel

Nous énonçons un résultat frappant pour le cas réel Θ ⊂ R. Ce théorème lie
étroitement l’efficacité au modèle exponentiel. Des versions multivariées en sont
envisagées par Monfort et Gouriéroux.
Théorème 4.5 Si les hypothèses de régularité du théorème 4.2 sont satisfaites

et si l’estimateur T ∗ de g(θ) est efficace alors le modèle est exponentiel et on
∗
peut écrire pθ (x) = h(x)e`(θ)T (x)−B(θ) .
Réciproquement, pour un tel modèle exponentiel la statistique T ∗ = T ∗ (X) es-
time efficacement le paramètre g(θ) = Eθ T ∗ (X), lorsque `(θ)˙ 6= 0 pour tout
θ ∈ Θ.
Preuve.(⇒) L’égalité est obtenue dans l’inégalité de (4.1) lorsqu’il existe des
fonctions a(θ) et b(θ) telles que
ṗθ (x) = a(θ)T ∗ (x) + b(θ)
Pour montrer que cette identité vaut ∀θ ∈ Θ, Pθ −p.s. on a besoin de la séparabilité
de Θ et de la continuité des fonctions en jeu.
∗
(⇐) On peut supposer que `(θ) ≡ θ. Alors B(θ) = log h(x)eθT (x) dµ(x) et
R
g(θ) = Ḃ(θ) ; de plus

ṗθ (x) = T ∗ (x) − Ḃ(θ), I(θ) = Varθ T ∗ (X) − Ḃ(θ) = B̈(θ)
Ainsi la borne FDCR est bien atteinte ġ 2 (θ)/I(θ) = B̈ 2 (θ)/B̈(θ) = B̈(θ).
4.5.1 Modèle canonique

P
d
Ici, pθ (x) = h(x) exp j=1 θ j Tj (x) − A(θ) et on peut utiliser le corollaire
3.1 pour justifier les relations suivantes.
On a log pθ (x) =R log h(x) + θ · T (x) − A(θ) donc ∇ log pθ (x) = T (x) − ∇A(θ).
De plus eA(θ) = heθ·T dµ donc ∇A(θ) = Eθ T (X).
Ainsi I(θ) = Varθ ∇ log pθ (X) = D2 A(θ).
Par conséquent T = T (X) est un estimateur efficace de ∇A(θ).
Corollaire 4.1 Dans le modèle canonique, chaque statistique Tj (X) est un es-
timateur efficace de gj (θ) = ∂θ∂ j A(θ) lorsque 1 ≤ j ≤ d.
Preuve. Pour j = 1, on écrit
2
∂2 ∂2

∂
∇g1 (θ) = A(θ), A(θ), . . . , A(θ) , I(θ) = D2 A(θ)
∂ 2 θ1 ∂θ1 ∂θ2 ∂θ1 ∂θd
Le corollaire suit alors du fait que ∇g1 (θ)I −1 (θ) = (1, 0, . . . , 0) qui résulte de
ce que ∇g1 (θ) est la première ligne de I(θ), cette relation n’est donc que la
première ligne de la relation évidente I(θ) · I −1 (θ) = Id .
4.5.2 Modèle linéaire

On considère :
X = zβ + Y, Y ∼ Nn (0, σ 2 In ), β ∈ Rd , z ∈ Mk,d (R)
Ici Z = z est constant ce qui équivaut à dire que l’on travaille de manière
conditionnelle à Z = z, et
1 t t t −1 t xt x β t z t zβ n
log pβ,σ2 (x) = β (z z)(z z) (z x) − − − log(2πσ 2 )
σ2 2σ 2 2σ 2 2
Ainsi la statistique exhaustive S(X) = (z t z)−1 (z t X), n1 X t X estime efficace-

ment (β, σ 2 ) et on a :
Théorème 4.6 (Gauss & Markov) L’estimateur des moindres carrés ordi-
naires βb = (z t z)−1 (z t X) est optimal parmi les estimateurs linéaires sans biais
de β, et sa variance vaut σ 2 (z t z)−1 .
Preuve. Un autre estimateur linéaire s’écrit βe = AX, le fait qu’il soit sans biais
montre que Eθ βe = Azβ = β donc Az = Id , d’autre part
e = Covθ (z t z)−1 z t X, (z t z)−1 z t X − AX

b βb − β)
Covθ (β,
= σ 2 (z t z)−1 z t X, (z t z)−1 z t X − AX = 0

Ainsi
Varθ βe = Varθ βb + Varθ (βe − β)
b > Varθ βb
Le lecteur pourra se reporter à Monfort & Gouriéroux, volume 1, page 136 et

suivantes pour des développements.
4.5.3 Modèle gaussien iid

Ici X = (X1 , . . . , Xn ) sont i.i.d. Xi ∼ N (m, σ 2 ), Pθ = N (m, σ 2 )⊗n et Θ =
R×]0, +∞[.
T = n1 i Xi , n1 i Xi2 est une statistique exhaustive, minimale et complète.
P P
C’est l’estimateur qui maximise la vraisemblance θ 7→ pθ (X).

La densité de X par rapport à la mesure de Lebesgue sur Rn vaut pθ (x) =
gθ (T (x)) avec
2 2
gθ (t1 , t2 ) = (2πσ 2 )−n/2 e−nm /2σ exp (nm/σ 2 )t1 − (n/2σ 2 )t2 .

2
Ce modèle est régulier et I −1 (θ) = σ0 4σ04 , de plus l’ensemble des valeurs

prises par g(θ) = nm/σ 2 , −n/2σ 2 décrit l’ouvert non vide R×]0, +∞[ de R2 .
Donc T estime efficacement Eθ T = (m, m2 + σ 2 ). Le fait que cette statistique
soit complète résulte de l’analycité de la fonction t 7→ gθ (t).
4.5.4 Modèle multinomial

Ici X1 , . . . , Xn sont iid de loi multinomiale M(k, λ1 , . . . , λk ). Dans le but
d’obtenir un modèle régulier, nous nous restreindrons à λj > 0 pour 1 ≤ j ≤ k,
Pk
et i=1 λi = 1 sont tels que Pθ (X1 = j) = λj .
Evidemment, l’ensemble des paramètres λ décrit le simplexe, il est donc d’intérieur
vide dans Rk et nous serons obligés de le reparamétrer pour appliquer la borne
FDCR. Pn
Posons Tj (x1 , . . . , xn ) = i=1 1I{xi =j} (nombre d’occurences de la valeur j dans
la séquence (x1 , . . . , xn )). Alors Tj (X1 , . . . , Xn ) (noté Tj ) suit une loi B(n, λj ),
et, si on pose d = k − 1 et x = (x1 , . . . , xn )
P
d λj
pθ (x) = exp j=1 θj Tj (x) − A(θ) où θj = log λd+1 , 1≤j≤d
Pd
avec A(θ) = n log 1 + j=1 eθj
d
Ici θ ∈ Θ = (R+∗ ) est donc bien dans un ouvert et posant X = (X1 , . . . , Xn )
on calcule
∂A neθj
= Pd = nEθ Tj (X),
∂θj 1+ i=1 eθi
Pd
∂2A 1 + i=1 eθi − eθj
= neθj 2 = nλj (1 − λj ) = Varθ Tj (X)
∂θj2 Pd
1 + i=1 eθi
Etant donnée l’étude du modèle binomial (laissée à titre d’exercice au lecteur)

on en déduit que Tj /n estime efficacement λj = g(θ). Le corollaire 4.1 donne
une seconde preuve de ce fait.
4.6 Modèle uniforme

Bien que ce modèle ne soit pas régulier, nous l’étudions en détails dans cette
section pour faire ressortir ses défauts par rapport aux modèles exponentiels
(réguliers).
X = (X1 , . . . , Xn ) sont i.i.d. Xi ∼ U[0, θ], Pθ = U[0, θ]⊗n et Θ =]0, +∞[.
Proposition 4.3 M = maxi Xi est une statistique exhaustive, minimale et

complète. C’est l’estimateur qui maximise la vraisemblance θ 7→ pθ (X). De plus
n θ2
Varθ M = 2 .
(n + 1) n + 2
Preuve. La densité de X par rapport à la mesure de Lebesgue sur Rn vaut

pθ (x) = h(x)gθ (M (x)), h(x) = 1I(mini xi ≥0) , M (x1 , . . . , xn ) = maxi xi et gθ (m) =
θ−n1I(m≤θ) .
Notons que ce modèle n’est pas régulier car pθ n’est pas dérivable au point
θ = M (x).
Par indépendance, Pθ (M ≤ z) = Pθ (X1 ≤ z)n , donc la densité de M s’écrit
nθ−n z n−11I[0,θ] (z). Par suite,
θ
nθj
Z
Eθ M j = nθ−n z n−1+j dz =
, (4.2)
0 n+j
2
nθ2

nθ
Var θ M = − ,
n+2 n+1
on retrouve ainsi l’expression de la variance de M

Pour que θ 7→ Lθ (X) soit maximal, il faut que θ ≥ M ; on en déduit que M est
l’estimateur du maximum de vraisemblance.
Rθ
Si Eθ G(M ) ≡ 0 pour G bornée alors 0 G(z)z n−1 dz ≡ 0, on a G(θ) = 0, p.s.
par dérivation : M est complète.
Soit T (X) exhaustive, alors pθ = f (x)Fθ (T (x)) = h(x)gθ (M (x)). Ici M (x) est
4.7. ESTIMATEUR DE STEIN 47
la borne inférieure essentielle de l’ensemble des θ > 0 tels que Fθ ◦ T (x) = 0

donc M , fonction de T , est minimale.
Proposition 4.4 2X1 estime θ sans biais ; c’est aussi le cas pour T = Eθ (2X1 |M )
qui est préférable à 2X1 .
Preuve. L’équation (4.2) avec n = j = 1 prouve que 2X1 estime θ sans biais et
Varθ (2X1 ) = θ2 /3. La formule de Bayes prouve que
n
X
Eθ (X1 |M ) = tj , tj = Pθ (M = Xj ) · Eθ (X1 |M = Xj )
j=1
Par équidistribution Pθ (M = Xj ) = n1 et on trouve ainsi que t1 = z/n et

tj = z/(2n), pour j 6= 1, car Eθ (X1 |M = Xj ) = Eθ (X1 |X1 < M ) = M/2 est
n
la moyenne d’une variable uniforme sur [0, M ]. Donc T = n+1 M et par suite
2 2
Var θ T = θ /(n + 2) ≤ Var θ X1 = θ /3. De plus le risque de M vaut
Rθ (M ) = Eθ (M − θ)2
= Var θ M + (Eθ M − θ)2
θ2 n2

= 1+
(n + 1)2 n+2
θ 2 n2 + n + 2
=
n + 2 (n + 1)2
< Rθ (T ).
Cet estimateur est donc préférable à T .
4.7 Estimateur de Stein

Soit X1 , X2 , . . . , Xn ∼ Nk (θ, Ik ), une suite iid de variables gaussiennes vecto-
rielles. Posant
1
X = (X1 + · · · + Xn ),
n
l’objectif ( 1 ) de cette section est d’exhiber un autre estimateur de la moyenne
θ ∈ Rk admettant un risque quadratique plus petit.
La forme de cet estimateur sera
1
θe = X + g X ,
n
pour une fonction mesurable g = (g1 , . . . , gk ) : Rk → Rk , à débattre.
A cet effet, des lemmes préparatoires sont indispensables.
1. D’après Ibragimov et Hasminskii (1981) : Theoretical Statistical Estimation : asymp-
totic theory. Editions Springer.
Lemme 4.3 (Stein) – Soit h : R → R une fonction dérivable presque par-

tout, et telle que E|h0 (η)| < ∞ pour η ∼ N (m, σ 2 ) alors
σ 2 Eh0 (η) = E(η − m)h(η).
– Soit h : Rk → R une fonction admettant presque partout une dérivée

à sa j-ième variable xj pour un entier 1 ≤ j ≤ k, et
partielle par rapport
∂h
telle que E ∂xj (η) < ∞ pour η = (η1 , . . . , ηk ) ∼ Nk ((m1 , . . . , mk ), σ 2 Ik ),

alors
2 ∂h
E σ (η) − (ηj − mj )h(η) = 0.
∂xj
Preuve du lemme de Stein.

– Intégrons par parties : Soit h : R → R une fonction dérivable presque
partout, et telle que E|h0 (η)| < ∞ pour η ∼ N (m, σ 2 ) alors
Z ∞
2
/2σ 2 dx
Eh0 (η) = h0 (x)e−(x−m) √
−∞ σ 2π
∞
(x − m) −(x−m)2 /2σ2 dx
Z
= h(x) e √
−∞ σ2 σ 2π
= E(η − m)h(η).
L’hypothèse rend ce calcul licite, par utilisation du théorème de conver-

gence dominée.
– De même, intégrons par parties par rapport à la variable xj :
∞ ∞
2 dx1 · · · dxk
Z Z
∂h ∂h 1
E (η) = ··· (x)e− 2σ2 kx−mk √ k
∂xj −∞ −∞ ∂xj σ 2π
∞ ∞
(xj − mj ) − 12 kx−mk2 dx1 · · · dxk
Z Z
= ··· h(x) e 2σ √ k
−∞ −∞ σ2 σ 2π
= E(ηj − mj )h(η).
p
où on a posé k(x1 , . . . , xk )k = x21 + · · · + x2k .
Soit donc une suite iid de variables X1 , X2 , . . . , Xn ∼ Nk (θ, Ik ). En notant x · y

le produit scalaire de deux vecteurs de Rk , on calcule, par développement d’un
carré et en appliquant la seconde formule du lemme de Stein aux fonctions
h = gj ,
2 1
EkX − θk2 − kθe − θk2 = − E(X − θ) · g(X) − 2 Ekg(X)k2
n n
k
2 X ∂gj 1
= − E (X) − 2 Ekg(X)k2
n j=1 dxj n
4.7. ESTIMATEUR DE STEIN 49

∂
Lorsque g = ∇ log h = ∂xj log h pour une application h : Rk → R,
1≤j≤k
presque sûrement deux fois différentiable, on écrit d’abord
k k
X ∂ X ∂ 1 ∂h ∆h
gj = = −kgk2 +
j=1
∂x j j=1
∂x j h ∂xj h
∂2h
Pk
(où ∆h = j=1 ∂x2j ), la relation précédente s’écrit ainsi
1 ∆h 1
EkX − θk2 − kθe − θk2 = − E (X) + 2 Ekg(X)k2
n h n
≥ 0
lorsque ∆h ≤ 0 (on dit que la fonction h est sous-harmonique).

Par suite la moyenne empirique n’est pas optimale si il existe des fonctions sous-
harmoniques non constantes et telles que les intégrales utiles convergent.
C’est le cas lorsque k ≥ 3, et on obtient par exemple :
– l’estimateur de Stein s’écrit avec h(x) = kxkk−2 , il vaut

k−2
θ = 1−
e X
nkXk2
– l’estimateur de James et Stein s’écrit lui pour

√
kxkk−2 ,

si kxk ≥ k − 2
h(x) = k+2 1 2 √
(k − 2)− 2 e 2 (k−2−kxk ) , si kxk < k − 2
on vérifie facilement la continuité de √

cette fonction, les calculs de dérivées
se font de manière directe si kxk < k − 2 car, alors on écrit log h(x) =
c − kxk2 , ils conduisent à
k−2 √
− kxk2 x, si kxk ≥ k − 2
g(x) = √
−x, si kxk < k − 2
les intégrabilités nécssaires sont vérifiées sur les expressions de g(x).

Chapitre 5
Méthodes d’estimation
Ces méthodes sont classées en deux catégories, celles fondées sur la minimisation
d’un contraste et celles fondées sur la loi des grands nombres, dont la justification
réside dans les propriétés asymptotiques précisées au chapitre suivant.
Ce chapitre est donc divisé en trois sections dont les deux premières sont dédiées
aux techniques d’estimation, une dernière section introduit les méthodes de
calcul de ces estimateurs.
5.1 Minimum de contraste
Définition 5.1 Une fonction ρ : E × Θ → R est un contraste si l’expression

θ 7→ D(θ0 , θ) = Eθ0 ρ(X, θ) est bien définie et si cette fonction admet θ0 pour
minimum unique.
Lorsque X ∼ Pθ0 , l’estimateur ρ(X, θ) estime donc sans biais la fonction g(θ0 ) =
D(θ0 , θ) (pour chaque θ ∈ Θ). Quand on ne dispose que de la réalisation X de
l’expérience statistique, il est donc raisonnable d’estimer le vrai paramètre θ0
par une valeur θ(X)
b qui minimise le contraste θ 7→ ρ(X, θ) (lorsque ce minimum
est atteint). On préférera que ce minimum soit atteint en un unique point pour
éviter des complications liées à la mesurabilité.
θ(X)
b = Argminθ∈Θ ρ(X, θ) (5.1)
Si Θ ⊂ Rd est un ouvert sur lequel la fonction θ 7→ ρ(X, θ) est différentiable,

l’estimateur θ(X)
b du paramètre θ0 vérifie
∇ρ(X, θ(X))
b =0 (5.2)
(cette relation est souvent plus simple à expliciter que (5.1)).

La suite de cette section décrit des occurrences de cette situation.
51
52 CHAPITRE 5. MÉTHODES D’ESTIMATION
5.1.1 Moindres carrés

Soient ξ1 , . . . , ξn des variables aléatoires réelles indépendantes et de même
loi π centrée Eξ1 = 0. Soit d ≥ 1, on suppose que g : Rd × F → R est une
fonction connue et que l’on maı̂trise aussi le plan d’expérience z1 , . . . , zn ∈ F ,
alors le modèle de régression s’écrit
Xi = g(β, zi ) + ξi , i = 1, . . . , n (5.3)
Le plan d’expérience est donc déterministe et connu ou, ce qui revient au même,
on travaille conditionnellement à ce plan d’expérience. Notons qu’ici les variables
X1 , . . . , Xn sont indépendantes mais naturellement pas équidistribuées.
En toute rigueur, il s’agit d’un modèle semi-paramétrique avec θ = (β, π)
pour lequel la loi π de ξ1 est un paramètre de nuisance, mais nous l’oublierons
un peu à présent, et nous ne retiendrons comme paramètre que θ = (β, σ 2 ) ∈
Rd × R+ .
Le modèle est donc paramétré par β ∈ Rd ; l’observation X suit ainsi une loi
Pθ0 et l’espace des paramètres s’écritpΘ = Rd × R+ ⊂ Rd+1 . Munissant Rn de sa
norme euclidienne k(x1 , . . . , xn )k = x21 + · · · + x2n , le contraste des moindres
carrés est alors
n
X
ρ(θ, X) = kX − µk2 = (Xi − g(β, zi ))2 , (5.4)
i=1
avec µt = (g(β, z1 ), . . . , g(β, zn )) ∈ Rn .

Par suite,
n
X
D(θ0 , θ) = nσ02 + (g(β0 , zi ) − g(β, zi ))2 , si θ0 = (β0 , σ02 ), θ = (β, σ 2 )
i=1
Supposons que le plan d’expérience (z1 , . . . , zn ) soit choisi de sorte que β 7→

G(β) = (g(β, z1 ), . . . , g(β, zn )) soit une application injective, alors il est clair
que ρ est bien une fonction de contraste.
Il suffirait aussi de supposer que les variables ξi soient non corrélées avec
Eθ ξi ξj = 0 ou = σ 2 selon que i 6= j ou i = j.
Un argument de compacité implique alors la
Proposition 5.1 Si l’application β 7→ g(β, z) est continue sur Rd et vérifie

limkβk→∞ |g(β, z)| = ∞, pour tout z ∈ F , alors il existe (au moins) un estima-
teur, β(X),
b des moindres carrés qui minimise le contraste (5.4).
Lorsque la fonction β 7→ g(β, z) est différentiable, une des solutions du système

d’équations
n
X ∂g
(β, zi ) Xi − g(β,
b zi ) = 0, j = 1, . . . , d
i=1
∂βj
5.1. MINIMUM DE CONTRASTE 53
est l’un des estimateurs des moindres carrés. Un exemple important est le cas
où F = Rd et g(β, z) = β · z.
Posant zit = (zi,1 , . . . , zi,d ) pour 1 ≤ i ≤ n, les équations précédentes
s’écrivent,
n d n
!
X X X
Xi zi,j = zi,k zi,j βbk , j = 1, . . . , d
i=1 k=1 i=1
Considérons la matrice de type n × d, Z = (zi,j )1≤i≤n,1≤j≤d , les équations

précédentes s’écrivent encore
Z t X = (Z t Z)βb
Exemple de la droite de régression. Si d = P 2 et z ∈ R, on considère la

fonction g(β, z) = β1 + β2 z, alors, en posant z = n1 i zi ,
n
X n
X
βb2 = (zi − z)Xi / (zi − z)2 , βb1 = X − βb1 z
i=1 i=1
Notons que, si on reprend un variante aléatoire du plan d’expérience (avec zi

iid), et si les ξi forment aussi une suite iid, la loi forte des grands nombres permet
de prouver la consistance asymptotique de cet estimateur (lorsque n → ∞).
Enfin, une variante de la méthode des moindres carrés en est sa version
pondérée, pour laquelle on minimiserait, ici,
n
X (Xi − [β1 + β2 zi ])2
i=1
wi
pour des poids w1 , . . . , wn > 0, à débattre. Des expressions de l’estimateur des

moindres carrés s’obtiennent ici de façon analogue.
Pour passer à la section qui suit, notons simplement que si (ξ1 , . . . , ξ) ∼
Nn (0, σ 2 In ), l’estimateur des moindres carrés maximise aussi la log −vraisemblance
de X,
1
Lθ (X) = − 2 kX − µk2
2σ
5.1.2 Maximum de vraisemblance

Dans un modèle dominé pθ (x)dµ(x) on considère
ρ(θ, X) = − log pθ (X) = −Lθ (X) (5.5)
Définition 5.2 Soient P, Q deux lois sur (E, E), on appelle information de
Kullback, l’expression Z
p
K(P, Q) = log dP
q
où p, q désignent les densités de P et Q par rapport à une mesure dominante

arbitraire.
Notons d’abord que µ = P + Q domine P et Q. Il faut donc encore montrer que

cette expression ne dépend pas de la mesure dominante µ choisie pour prouver
que l’information ne dépend que de P et Q.
Lemme 5.1 (Shannon) K(P, Q) ≥ 0 et, pour toute mesure dominante telle
que P = pµ et Q = qµ,
K(P, Q) = 0 ⇔ (P (A) = Q(A) = 0, où A = {x ∈ E| p(x) 6= q(x)})
Preuve. Posons Z = q/p, g(z) = − log z est convexe, alors l’inégalité (1.3) de
Jensen (non conditionnelle) s’écrit
Z Z
K(P, Q) = g(Z) dP ≥ g E Z dP = g(1) = 0
La stricte convexité de g permet de traiter du cas d’égalité.
Corollaire 5.1 L’expression (5.5) définit un contraste pour tout modèle iden-
tifiable.
Preuve. Ici D(θ0 , θ) = Eθ0 ρ(θ, X) et
pθ (X)
D(θ0 , θ) − D(θ0 , θ0 ) = −Eθ0 log = K(Pθ0 , Pθ ) ≥ 0
pθ0 (X)
ne s’annule que lorsque Pθ = Pθ0 et donc si θ = θ0 , car le modèle est identifiable.
Exemple. Lorsque X = (X1 , . . . , Xn ) est un n−échantillon iid, de loi margi-

nale Fθ0 par rapport à la mesure µ
n
1X
ρ(θ, X) = − log fθ (Xi ) →n→∞ K(Fθ0 , Fθ ), µ − p.s.
n i=1
par la loi des grands nombres.
Remarque. Notons Lθ (X) la log −vraisemblance du modèle. L’estimateur du

maximum de vraisemblance (EMV) existe et il est unique lorsque Θ ⊂ Rd est
un ouvert de frontière ∂Θ vérifie
– limθ→∂Θ Lθ (X) = −∞,
– θ 7→ Lθ (X) est une fonction continue,
– θ 7→ Lθ (X) est une fonction strictement concave.
Les deux premières propriétés assurent l’existence et la troisième implique l’uni-
cité de l’EMV.
5.1. MINIMUM DE CONTRASTE 55
Proposition 5.2 Si le modèle est exponentiel canonique, de densité
pθ (x) = h(x)eθ·T (x)−A(θ) ,
alors l’ensemble des paramètres naturels

Z
d θ·T (x)

Θ= θ∈R e dµ(x) < ∞
est un ouvert convexe de Rd .

Si la réalisation t0 de T (X) est telle que
∀c ∈ Rd \ {0} : Pθ (c · T (X) > c · t0 ) > 0
alors l’estimateur du maximum de vraisemblance existe et est solution de l’équation
∇A(θ) = Eθ T (X) = t0
Ce résultat est admis et il se trouve, avec une réciproque, dans Bickel et Doksum
(page 123).
Notons C le support de la loi de T (X) ( 1 ), lorsque t0 ∈ C ◦ , est intérieur à C,
alors θb existe et il est unique car dire qu’il est intérieur à C signifie que la masse
de la loi de T (X) n’est pas située entièrement d’un seul coté d’un demi-espace
de Rd à la frontière duquel se trouve t0 ; il existe ainsi c 6= 0 tel que les ensembles
{t ∈ Rd | c · t > c · t0 } ∩ C {t ∈ Rd | c · t < c · t0 } ∩ C sont ouverts et disjoints
(donc de masses non nulles).
P 2
Exemple. Dans le modèle gaussien iid N (µ, σ 2 ), T (X) =
P
i Xi , i Xi et
C = R × R+∗ et l’EMV existe toujours ; lorsque n = 1, C ◦ = ∅ car T (X) se
trouve alors sur la parabole T12 = T2 .
Proposition 5.3 Supposons le modèle exponentiel comme lors de la proposi-

tion 5.2. Pour un modèle dominé par la mesure de Lebesgue, l’estimateur du
maximum de vraisemblance existe avec une probabilité 1 et satisfait la condition
précédente.
Ici, en effet ∂C, d’intérieur vide est aussi de Pθ −probabilité nulle.
Remarques.
– Si θ 7→ λ(θ) est une bijection Θ → Λ, le changement de variable corres-
pondant ne modifie pas les énoncés d’existence de l’EMV.
– Un EMV est fonction de toute statistique exhaustive.
– Dans le modèle multinomial 4.5.4, on a T (X) = (t1 /n, . . . , tk /n) où tj
désigne le nombre d’occurrences de 1 ≤ j ≤ k dans le n-échantillon iid
X1 , . . . , Xn de loi Pλ (Xi = j) = λj avec λ1 + · · · + λk = 1. La loi de
T (X) a donc pour support le simplexe de Rk qui est d’intérieur vide, par
conséquent l’EMV n’existe pas.
1. C est le plus petit sous ensemble fermé vérifiant Pθ (T (X) ∈
/ C) = 0.
– Les mélanges de gaussiennes N (µ, 1), N (µ, σ 2 ), de densité fθ = λφ1 (x −

µ) + (1 − λ)φσ (x − µ) (où φσ désigne la densité d’une loi N (0, σ 2 )) avec
θ = (µ, σ 2 ) et où λ > 0 est fixé, sont envisagés en section 5.3.4. Pour un
n−uplet iid (X1 , . . . , Xn ) suivant une telle loi, les couples θb = (Xi , 0) sont
tous des EMV car ils rendent infinie la valeur de la vraisemblance. Il n’y
a pas unicité de l’EMV dans ce cas.
5.2 Moments
Supposons observé un échantillon X1 , . . . , Xn iid, de loi Pθ , pour un pa-
ramètre θ identifiable. On s’intéresse à l’estimation d’un paramètre de la forme
µ = g(θ) = Eθ G(X1 )
alors la réponse empirique est la solution issue de la loi des grands nombres :
n
1X
µ
b= G(Xi )
n i=1
Typiquement, on considère G(x) = (x, x2 , . . . , xd ), ce qui justifie l’appellation

de méthode des moments.
Si la fonction g est injective, alors l’estimateur par moments de θ s’écrit via
l’équation
g(θ)
b =µ b
Un argument de loi des grands nombres, donné au chapitre suivant, permettra
de conclure à leur consistance asymptotique (convergence pour n → ∞.
Exemples.
– Lois Γ. Si X1 ∼ Γ(α, λ), la loi de densité λα xα−1 e−λx /Γ(α) sur R+ (avec
R∞ 2
Γ(α) = 0 xα−1 e−x dx), alors θ = (α, λ) ∈ (R+∗ ) est estimé en posant
µj = Eθ X1j pour j = 1, 2. Le calcul prouve que µ1 = α/λ et µ2 = σ 2 +µ21 =
α(1+α)/λ2 . L’estimation de ces paramètres par moments s’écrit donc, avec
n n
1X 1X
X = Xi , b2 =
σ (Xi − X)2
n i=1 n i=1
2
X b= X
α = 2
, λ
b2
b
σ
b σ
– Fréquences. Dans le modèle multinomial 4.5.4, on pose
G(x) = ( 1I(x=1) , . . . , 1I(x=k) ),
alors λ = Eλ G(X1 ) = (Pλ (X1 = 1), . . . , Pλ (X1 = k)) s’estime empirique-

ment.
5.2. MOMENTS 57
5.2.1 Méthode d’injection

Considérons la mesure empirique d’un n−échantillon iid,
n
1X
Pn (A) = 1I{Xi ∈A}
n i=1
lorsque le paramètre d’intérêt s’écrit h(θ) = H(Pθ ), on est conduit à estimer ce

paramètre par la relation
h(θ)
b = H(Pn )
Exemples.
– Le α−quantile d’une loi s’estime par
n
1X
bα = Fn−1 (α), avec Fn (x) =
x 1I{Xi ≤x} = Pn ([x, +∞[)
n i=1
– La densité marginale f du n−échantillon iid réel ne peut être estimée par

injection car ce n’est pas une fonction régulière de F : elle est obtenue par
F 7→ F 0 = f . On doit régulariser l’estimation obtenue par injection en
posant, comme en § 9.4, pour une suite h = hn → 0 (quand n → ∞, et
pour une densité bornée K : R → R
n
x−u Xi − u
Z
1 1 X
fn,h (x) = K dFn (u) = K
h h nh i=1 h
Le biais de cet estimateur non paramétrique et un théorème de limite

centrale sont déterminées dans cette section 9.4. Sa convergence en proba-
1
bilité suit de l’estimation Var fn,h = O nh si nh → ∞. Sa convergence
presque sûre (ou même uniforme presque sûre) suivrait du raffinement du
lemme 6.1 (que nous ne préciserons pas plus, et nous renvoyons ici aux
cours d’estimation fonctionnelle), car la borne Cj E|X0 |j /nj/2 peut être y
remplacée par !
j/2
E|X0 |j (Var X0 )
Cj +
nj−1 nj/2
Le lemme de Borel-Cantelli permet alors de conclure.

– Une fois la densité
R estimée, il n’est pas difficile de concevoir, par exemple,
l’estimation de f 2 par injection (cf. § 9.4).
5.2.2 Moments en économétrie

Nous suivons ici une présentation due à Emmanuel Guerre ( 2 ) (LS-CREST
& ISUP-Paris 6) . Un modèle simplifié de l’économie est donné par la loi de
2. issue de Lars Peter Hansen, Econometrica, 1982.
l’offre Oi et de la demande Di , au temps i ∈ {1, . . . , n} suivante,
Oi = αPi + γZi + ui , α>0 (5.6)

Di = βPi + vi , β<0 (5.7)
Ici Pt désigne le prix du produit, et ui , vi sont deux suites centrées et iid. Enfin
Zi est une variable extérieure au marché (exogène), c’est-à-dire indépendante
de (uj , vj )1≤j≤n , par suite EZi ui = EZi vi = 0. La première relation s’écrit, par
exemple
EZi (Di − βPi ) = 0
Un estimateur de β inspiré de la loi des grands nombres s’écrit alors
Pn
Zi Di
βb = Pi=1
n
i=1 Zi Pi
L’équilibre Oi = Di de l’offre et de la demande détermine donc le prix Pi ,

1
Pt = (γZi + ui − vi )
α−β
Nous renvoyons au livre de Monfort et Gouriéroux pour des extensions mul-

tivariées de cet estimateur ; dans ce cas, on utilise la méthode des moments
généralisés et des variables instrumentales.
5.3 Problèmes algorithmiques

En pratique, les estimations du maximum de vraisemblance sont rarement
calculables de manière explicite même si les exemples du cours tendent à le prou-
ver. Des méthodes numériques (en général récursives) permettent d’approcher
de telles racines d’équations non linéaires.
5.3.1 Dichotomie
Soit f : [a, b] → R, une application strictement croissante et continue ; si
f (a) < 0 < f (b) alors f admet une unique racine x? ∈]a, b[ (vérifiant f (x? ) = 0).
La manière la plus naı̈ve d’approcher une racine de f est l’antique méthode
de dichotomie dont on décrit sans difficulté une étape.
0
Si f a+b
2 > 0, on pose a = a et b0 = a+b 0 a+b
2 et, sinon, on pose a = 2 et
0
b = b.
On initie alors le procédé en posant a0 = a, b0 = b, et si (an , bn ) = (a, b) (à
l’étape n) on posera (an+1 , bn+1 ) = (a0 , b0 ),. . .
La suite (an , bn ) construite par ce procédé vérifie
an ≤ x? ≤ bn , bn − an ≤ 2−n (b − a)
Alors, |an − x? | ≤ 2−n (b − a).

5.3. PROBLÈMES ALGORITHMIQUES 59
Soit, par exemple, une famille exponentielle canonique à un paramètre, telle

que l’observation de la statistique T (X), vérifie t0 ∈]a, b[ (support convexe de la
densité de la loi de T (X), pT ). L’estimateur du maximum de vraisemblance est
déterminé par bisection en posant f (θ) = Eθ T (X) − t0 (ici f 0 (θ) = Varθ T (X) >
0).
Exemple Une situation de ce type est fournie par le modèle iid Γ, tel que
pθ (x) = [Γ(θ)]−1 xθ−1 e−x . Ici Γ0 (θ)/Γ(θ) = T (X)/n et la fonction Γ est évaluée
par les méthodes d’intégration numériques standard ; méthodes de Newton Cotes
(par exemple celles des rectangles, des trapèzes, ou de Simpson) ou celle de Gauss
(dont les noeuds sont les racines de suites de polynômes orthogonaux, typique-
ment ceux de Tchebichev : Tn (cos x) = cos nx). On peut consulter Doukhan
Sifre, tome 1, §7-4, page 268 à ce sujet.
5.3.2 Montée sur les axes

Dans le cas d’un modèle exponentiel canonique multidimensionnel, l’EMV
est solution de l’équation ∇A(θ) b = t lorsque la réalisation de la statistique
T (X) est notée t = (t1 , . . ., td ). Pour approcher cette solution, on initialise le
paramètre θb0 = θb10 , . . . , θbd0 puis observant la statistique t = T (X), on calcule :
∂
θb11 racine de l’équation en θ1 : A θ1 , θb20 , . . . , θbd0 = t1 ,
∂θ1
∂
θb21 racine de l’équation en θ2 : A θb11 , θ2 , θb30 , . . . , θbd0 = t2 ,
∂θ2
. . .. . .
∂
θbd1 racine de l’équation en θ1 : A θb10 , . . . , θbd−1
0
, θd = td .
∂θd
On a ainsi un θb1 (obtenu par exemple par la méthode de dichotomie), on
construit de cette manière une suite (θbr )r≥0 . Lorsque le modèle exponentiel est
régulier, on peut prouver que ces méthodes convergent.
5.3.3 Méthode de Newton

La méthode dite de la tangente s’écrit ici pour un modèle exponentiel régulier,
θb1 = θb0 − D2 A(θb0 )−1 (DA(θb0 ) − t).

Cette méthode est d’ordre 2, sa vitesse de convergence est sur-géométrique,
n
O(r2 ), mais la plus grande difficulté est son initialisation car les énoncés de
convergence requièrent beaucoup de connaissances sur les fonctions étudiées.
Lemme 5.2 (Méthode de Newton) Soit f : Θ → Rd , pour un ouvert Θ ⊂

Rd , une fonction admettant un zéro θ∗ ∈ Θ et telle que Df (θ) soit inversible
sur Θ. Posons θn+1 = g(θn ) avec g(θ) = θ − Df (θ)−1 (f (θ)). Alors il existe des
constantes M, η avec telles que B(θ, η) ⊂ Θ et
∀θ ∈ Θ : kθ − θ∗ k ≤ η ⇒ kg(θ) − g(θ∗ )k ≤ M kθ − θ∗ k2 .
En dimension 1, on écrit
ṗθ (θb0 )
θb1 = θb0 − .
p̈θ (θb0 )
Preuve. On pourra se reporter à Ciarlet, page 158 pour cet énoncé ou à
Doukhan-Sifre 1, page 205, pour des raffinements de cet énoncé sans usage de
dérivée seconde dans le cas de la dimension 1.
−1
Exemple. La loi logistique de fonction de répartition Fθ (x) = 1 + e−(x−θ)
−2
vérifie fθ (x) = e−(x−θ) 1 + e−(x−θ) . L’estimateur du maximum de vraisem-
blance fondé sur un n-échantillon iid est calculé avec
n
X n
X
p̈θ (θ) = n − 2 e−(Xj −θ) Fθ (Xj ), ṗθ (θ) = −2 fθ (Xj ) < 0.
j=1 j=1
D’autres méthodes numériques sont présentées, par exemple dans le livre de

Ciarlet.
5.3.4 Algorithme EM
Nous considérons ici l’unique exemple d’un mélange de deux lois gaussiennes.
Soit φσ (s) la densité de la loi N (0, σ 2 ), on pose θ = (λ, σ1 , µ1 , σ2 , µ2 ) ∈ [0, 1] ×
(R × R+∗)
2
fθ (s) = (1 − λ)φσ1 (s − µ1 ) + λφσ2 (s − µ2 ),

Le modèle de mélange de gaussiennes, (S1 , . . . , Sn ), obtenu pour le cas d’échantil-
lons iid suivant
Pla loi de densité fθ (s) admet une log-vraisemblance presque in-
n
extricable = j=1 log fθ (Sj ) .
Soit par contre une suite ∆1 , . . . , ∆n de variables de Bernoulli iid, indépendante
de (S1 , . . . , Sn ), et telle que Pθ (∆j = 1) (= 1 − (Pθ (∆j = 0)) = λ, alors la suite
bivariée (X1 , . . . , Xn ) où Xj = (Sj , ∆j ) est encore iid et, conditionnellement à
∆ = (∆1 , . . . , ∆n ), la loi de (S1 , . . . , Sn ) est gaussienne indépendante de lois
marginales respectives
N (∆j µ1 + (1 − ∆j )µ2 , ∆j σ12 + (1 − ∆j )σ22 )
Ainsi la vraisemblance de X, gaussienne, s’écrit très simplement. Posant

pθ (X)
J(θ|θ0 ) = Eθ0 log S(X) = s
pθ0 (X)
On maximise alors cette expression pour déduire θ1 , et on obtient de façon
récursive une suite d’estimations de θ en remplaçant θ0 par θ1 dans l’équation
précédente.
Posons qθ (s) la vraisemblance de S alors (en utilisant des notations plus
adaptées à la dimension de paramètre d = 1) nous obtenons,

∂ ∂
log qθ0 (s) = Eθ0 log pθ (X)S(X) = s

∂θ ∂θ θ=θ0
5.3. PROBLÈMES ALGORITHMIQUES 61
∂ ∂
ceci permet de justifier la méthode car ∂θ J(θ|θ0 ) = ∂θ log qθ0 (s). On prouve de
plus que qθ1 (s) ≥ qθ0 (s) pour prouver la consistance de la limite de la suite θr
construite ainsi.
Remarque. Lorsque λ est Q petit et fixé et µ1 = µ2 = µ, σ1 = 1 alors θ =

n
(µ, σ 2 ) où σ = σ2 alors supσ j=1 fµ,σ2 (Xj ) = +∞ lorsque µ est l’un des Xj
est atteint lorsque σ = 0 ; ainsi les estimateurs du maximum de vraisemblance
sont les couples θb = (Xj , 0) pour j = 1, . . . , n, si on accepte la valeur σ = 0
pour ce paramètre.
Une formulation générale de l’algorithme EM ainsi qu’une preuve de l’énoncé
précédent figurent dans Bickel et Doksum.
Chapitre 6
Asymptotique en estimation
A partir de maintenant, X1 , X2 , X3 , . . . désigne une suite iid dans le modèle

statistique Pθ . En général nous considérerons des variables réelles. L’objet de
la section est de traiter des qualités asymptotiques d’une suite d’estimateurs
Tn = Tn (X1 , . . . , Xn ) d’un paramètre g(θ) ∈ Rp .
Dans la première, section nous envisageons la convergence d’estimateurs ;
en termes plus probabilistes, il s’agit souvent de lois des grands nombres. La
seconde section précise l’asymptotique de ces estimateurs et la troisième donne
des versions du théorème de limite centrale avec une variance limite minimale.
6.1 Consistance
6.1.1 Méthodes empiriques
Soit k · k une norme fixée sur Rp , son risque quadratique s’écrit
Rθ (Tn ) = Eθ kTn (X1 , . . . , Xn ) − g(θ)k2 ∈ R ∪ {+∞}.
Exemples
– X = (X1 + · · · + Xn )/n estime g(θ) = Eθ X1 sans biais et avec le risque
Rθ = Eθ (X − g(θ))2 = Varθ X1 /n →n→∞ 0.
– Ordonnons l’échantillon X1 , . . . , Xn de manière croissante comme statis-
tiques d’ordre (bien définies pour des lois Pθ sans atome),
min{X1 , . . . , Xn } = X(1) < X(2) < X(3) < · · · < X(n) = max{X1 , . . . , Xn }.
On définit la médiane empirique par méd(X) = X( n+1 ) lorsque n est

2
impair et = 12 X( n ) + X( n +1) , pour n pair. Alors méd(X) estime la

2 2
médiane g(θ) = Fθ−1 12 de la loi des Xj . Le calcul de risque est amplement

moins agréable dans ce cas ; ainsi, dans le cas le plus simple d’échantillons
63
64 CHAPITRE 6. ASYMPTOTIQUE EN ESTIMATION
impairs n = 2k + 1, la médiane vaut la statistique d’ordre X(k+1)

Z ∞ 2
1
Rθ (méd(X)) = x − Fθ−1 gk+1 (x)dx.
−∞ 2
k
où gk+1 (x) = nC2k F k (x)(1 − F k (x))f (x) désigne la densité marginale de
la médiane empirique (cf. proposition 9.8). Cette dernière expression, peu
commode, conduit à donner des définitions générales couvrant aussi les
exemples pour lesquels il n’y a pas d’expression explicite.
Définition 6.1 La suite d’estimateurs Tn de g(θ) est consistante si
P
Tn →θ n→∞ g(θ) i.e. ∀ > 0, θ ∈ Θ : Pθ (kTn − g(θ)k ≥ ) →n→∞ 0
La suite d’estimateurs Tn de g(θ) est uniformément consistante si
∀ > 0 : sup Pθ (kTn − g(θ)k ≥ ) →n→∞ 0

θ∈Θ
La consistance est localement uniforme lorsque l’on remplace le supremum

précédent sur Θ ⊂ Rd (pas nécessairement ouvert dans Rd ) par un supremum
sur un ouvert arbitraire de Rd inclus dans Θ. Lorsque l’ensemble Θ est compact,
cela entraı̂ne bien sûr ceci.
Exemples
– Par la loi (faible) des grands nombres, X estime Eθ X1 de manière consis-
tante. Lorsque la loi Pθ est sans atome et que l’application θ 7→ Pθ (A)
est continue pour tout borélien A ⊂ R, la convergence est localement
uniforme.
– Si Pθ = M(k, θ1 , . . . , θk ) est une loi multinomiale de paramètre θ ∈
Θ = {(θ1 , . . . , θk ) ∈ (R+ )k | θ1 + · · · + θk = 1} (simplexe de Rk ), c’est
àPdire Pθ (Xj = i) = θi pour i = 1, . . . , k et j = 1, . . . , n. Posons Nj =
n
i=11I{Xi =j} , le nombre d’occurrences de i dans la suite X1 , . . . , Xn . Alors

N1 Nk
θbn = ,...,
n n
est un estimateur uniformément consistant de θ. Pour le prouver, on borne

de manière uniforme sur Θ la variance de chaque fréquence empirique Nj /n
par 41 (en effet Nj ∼ B(n, θj ) est binomiale pour chaque j donc sa variance
vaut : nθj (1 − θj ) ≤ n/4) et on utilise la compacité du simplexe.
P
Remarquons enfin que lorsque n Pθ (kTn − g(θ)k ≥ ) < ∞, le lemme de Borel-
Cantelli montre la convergence presque sûre de la suite d’estimateurs (Tn )n .
6.1. CONSISTANCE 65
Proposition 6.1 Nous supposons maintenant que la suite iid X1 , X2 , . . . ∈ E

prend ses valeurs dans E et qu’une fonction h : E → Rp vérifie Eθ |hj (X1 )| < ∞
pour j = 1, . . . , p et en notant h = (h1 , . . . , hp ). Alors, pour toute fonction
continue g : Rp → Rq , le paramètre f (θ)
= g (Eθ h(X1 )) est estimé de manière
1
Pn
consistante par Tn = g n j=1 h(Xj ) .
Preuve. Loi faible des grands nombres.
6.1.2 Minimum de contraste

Corollaire 6.1 Soit (Pθ )θ∈Θ une famille exponentielle avec Θ ⊂ Rd ouvert et
pθ (x) = k(x)eθ·T (x)−A(θ) , alors l’estimateur du maximum de vraisemblance θbn
fondé sur le n−échantillon (X1 , . . . , Xn ) vérifie
a) limn→∞ Pθ (θbn existe) = 1,
b) θbn est consistant.
Pn
Preuve. Par la proposition 5.3, θbn existe ⇔ Tn = 1
n T (Xj ) ∈ C ◦ est dans
j=1
l’intérieur du support de la loi de T ; l’EMV vaut alors θbn = [∇(Tn )]−1 . Soit
θ le vrai paramètre alors Eθ T (X1 ) ∈ C ◦ et si kTn − Eθ T (X1 )k est assez petit,
alors Tn ∈ C ◦ ce qui conclut le premier point. La consistance suit, elle, de la
proposition 6.1.
Théorème 6.1 Soit ρ : E → R+ une fonction de contraste, c’est-à-dire une

fonction telle que θ0 soit l’unique minimum de la fonction θ 7→ D(θ, θ0 ) =
Pn
Eθ0 ρ(X1 , θ). Soit à présent θbn minimisant ρn (θ) = n1 j=1 ρ(Xj , θ). On suppose
Pθ
a) sup |ρn (θ) − D(θ, θ0 )| →0 n→∞ 0,
θ∈Θ
b) inf D(θ, θ0 ) > D(θ0 , θ0 ).
kθ−θ0 k≥
Alors θbn est consistant.
Preuve. Soient , δ > 0, on pose Bn = (supθ |ρn (θ) − D(θ, θ0 )| > δ/2) et

An = inf (ρn (θ) − ρn (θ)) − inf D(θ, θ0 ) ≤ −δ .
kθ−θ0 k≥ kθ−θ0 k≥
Utilisant l’inclusion An ⊂ Bn et le fait que limn Pθ0 (Bn ) = 0, on obtient

limn Pθ0 (An ) = 0 ; on pose δ = 14 inf kθ−θ0 k≥ D(θ, θ0 ) pour conclure.
Les questions de mesurabilité évitées ici pourraient être résolues en utilisant
la séparabilité de Θ et une condition de continuité pour θ 7→ ρ(x, θ).
Corollaire 6.2 Si Θ est fini et le paramètre θ identifiable alors l’estimateur du

maximum de vraisemblance θbn est consistant.
Preuve. Cet énoncé suit du théorème 6.1 car le lemme 5.1 de Shannon prouve
que ρ(x, θ) = − log pθ (x) est un contraste.
Remarque. La condition a) du théorème 6.1 n’est pas satisfaite par le modèle

gaussien (N (θ, 1))θ∈R ; on peut la remplacer par
a1 ) ∀K ⊂ Θ, compact, supθ∈K |ρn (θ) − D(θ, θ0 )| →n→∞ 0 en Pθ0 probabilité
et,
a2 ) ∃K0 ⊂ Θ, compact tel que limn Pθ0 (inf θ∈K
/ 0 (ρn (θ) − ρn (θ0 )) > 0) = 1.
6.2 Delta méthode

Ici X1 , X2 , X3 , . . . désignera une suite iid réelle. De plus une fonction h :
R → R est dite de classe C m si elle est m fois dérivable et telle que h(m) soit
une fonction continue.
Théorème 6.2 Soit h : R → R une fonction de classe C m telle que kh(m) k∞ <
∞ et E|X1 |m < ∞. On pose µ = EX1 et X = n1 (X1 + · · · + Xn ), alors il existe
une constante Cm > 0 ne dépendant que de m telle que
m−1
X h(j) (µ) Cm
Eh(X) = h(µ) + E(X − µ)j + Rm , |Rm | ≤ √ m kh(m) k∞ E|X1 |m .
j=1
j! n
Lemme 6.1 Il existe des constantes Cj > 0 pour tout j = 1, 2, 3, . . . telles que
j j −j/2
E|X − µ| j≤ Cj E|X1 | nj −(j+1)/2
et
E(X − µ) ≤ Cj E|X1 | n si j est impair.
Preuves. Le théorème suit la formule de Taylor et le lemme. Il se généralise

sans autre problème que des problèmes de notations au cas où X ∈ Rk et
h : Rk → R` .
Nous prouverons le premier point du lemme, d’abord, dans le cas où j est
pair. Remplaçant Xi par Xi − µ on suppose µ = 0. Un développement montre
que

X n

j 1
= · · · X

j
EXi1 ij

n i ,...,i =1
EX
1 j

n
1 X
≤ EXi1 · · · Xij
nj i1 ,...,ij =1
n
j! X
≤ EXi1 · · · Xij
nj
1≤i1 ≤···≤ij =1
Par indépendance, seuls les termes vérifiant i1 = i2 , . . . , ij−1 = ij ne sont pas

nécessairement nuls lorsque j est pair. Si j est impair on doit supposer que
i1 = i2 , . . . , ij−2 = ij−1 = ij (et toutes les configurations comportant (j − 1)/2
paquets de 2 termes égaux et un seul paquet de 3 termes égaux . Si on n’a pas
6.2. DELTA MÉTHODE 67
ces configurations, un facteur EXiu annulera, en effet, l’expression.

D’autre
part
l’inégalité de Hölder montre que chaque terme satisfait EXi1 · · · Xij ≤ E|X1 |j
ce qui permet de conclure avec Cj = j! dans les deux inégalités.
Observer les termes de plus près donnerait par exemple la meilleure borne
C4 = 4!/2 = 12.
Pour prouver la première inégalité lorsque j est impair, notons que, pour
une copie X10 , . . . , Xn0 indépendante de X1 , . . . , Xn , on a en utilisant l’inégalité
de Jensen conditionnelle
E|X − µ|j = E|X − EX 0 |j = E|EX (X − X 0 )|j ≤ E|X − X 0 |j ,
ce qui prouve que l’on peut supposer la loi de X1 symétrique. Soient à présent
une suite de signes indépendants, 1 , . . . , n tels que P(j = ±1) = 21 alors si
x1 , . . . , xn ∈ R, l’inégalité de Jensen implique
j

n
j 
n
j+1  j+1
n
! 2j
X X j X
i xi ≤ E i x i  j+1
≤ Cj+1 x2i

E

i=1 i=1 i=1
La dernière inégalité provient de l’utilisation d’un développement analogue au

précédent ( 1 ) pour cette puissance paire (j + 1) lorsque Xi = i xi dans la-
quelle seuls sont non nuls des termes pour lesquels i1 = i2 , . . . , ij = ij+1 ; la
majoration suit lorsque j est impair. Pour conclure il reste à conditionner l’ex-
pression E|X − X 0 |j par le signe, i , de Xi − Xi0 pour i = 1, . . . , n. Notant
Z = ((X1 − X10 , . . . , Xn − Xn0 ), nous avons
n j n j
1 X 1 X
E|X − X 0 |j = j E i |Xi − Xi0 | ≤ j EEZ i |Xi − Xi0 | ,

n
i=1
n
i=1

on utilise alors la majoration
n
! 2j
j
X
E (Xi − Xi0 )2 ≤ nj/2 E |X1 − X10 | ≤ 2j nj/2 E|X1 |j
i=1
On en déduit que le lemme reste exact pour j impair avec la constante Cj =

2j j![(j + 1)!]j/(j+1) .
Corollaire 6.3 Si m = 3, le théorème 6.2 s’écrit avec σ 2 = VarX1
σ 2 h00 (µ)
Eh(X) = h(µ) + + O n−3/2 .
2n
1. !j+1 !(j+1)/2
n
X n
X
E Xi ≤ Cj+1 kXi k2∞ .
i=1 i=1
Par exemple, avec h(t) = t(1 − t) et X1 ∼ b(µ), suivant une loi de Bernoulli de
paramètre µ, on a h(µ) = VarX1 et Eh(X) = E(X)2 − (EX)2 = h(µ) − n1 h(µ)
et le reste est nul.
Si m > 2 le développement obtenu est utilisé pour améliorer les qualités
asymptotiques d’un estimateur ; utiliser des estimations consistantes des termes
du développement conduit à améliorer la vitesse de convergence de l’estimateur.
Ainsi dans le cas
Pn précédent, si EX14 < ∞, l’estimateur Tn = h(X)−h00 (X)S 2 /2n
1
où S = n−1 i=1 (Xi − X) estime σ 2 sans biais satisfait
2 2
1
ETn − h(µ) = E(h00 (X) − h00 (µ)))(S 2 − σ 2 ) + O n−3/2 .
2n
Un calcul dans l’esprit du lemme 6.1 montre que E(S 2 −σ 2 )2 = O(1/n), il prouve
avec le lemme 6.1 et l’inégalité de Cauchy Shwartz que ETn − h(µ) = O n−3/2
donc le biais de cet estimateur est d’un ordre plus petit que h(X).
Lorsque la statistique considérée est une fonction de répartition empirique,
de tels développement sont appelés développements d’Edgeworth.
La conséquence la plus utile du théorème 6.2 est sans doute l’énoncé suivant
Théorème 6.3 Si m = 2, le théorème 6.2 s’écrit avec σ 2 = VarX1

√
n h(X) − h(µ) −→n→∞ N 0, σ 2 [h0 (µ)]2 ,

en loi.
Ainsi on obtient une limite centrale dans le cas multinomial déjà évoqué Pθ =
M(k, θ1 , . . . , θk ),
√
n(h(θbn ) − h(θ)) → N (0, σ 2 ).
6.3 Efficacité asymptotique

Corollaire 6.4 Sous les conditions du corollaire 6.1, si la famille exponentielle
s’écrit pθ (x) = k(x)eθ·T (x)−A(θ) avec Θ ⊂ Rd ouvert, alors l’estimateur du maxi-
mum de vraisemblance θbn est asymptotiquement efficace, c’est-à-dire que :
√
n θbn − θ →θ n→∞ Nd (0, I −1 (θ)).
P
Preuve. Par le corollaire 6.1, l’EMV existe avec une probabilité tendant vers 1 ou
limn Pθ (θbn = [∇A(Tn )]−1 ) = 1, une variante multi-dimensionnelle du théorème
6.2 permet de conclure (voir Bickel et Doksum, page 323).
Pour conclure la section, nous envisageons maintenant le cas d’estimateurs
par minimum de contraste, cf. théorème 6.1. Une fonction de contraste est une
fonction telle que θ0 soit l’unique minimum de la fonction θ 7→ D(θ, θ0 ) =
Eθ0 ρ(X1 , θ). On suppose que Θ ⊂ R est un intervalle et
∂ρ
∀θ ∈ Θ : ψ= existe (6.1)
∂θ
6.3. EFFICACITÉ ASYMPTOTIQUE 69
∀θ, θ0 ∈ Θ : Eθ ψ(X1 , θ0 ) = 0 ⇒ θ = θ0 (6.2)

2
∀θ ∈ Θ : Eθ [ψ(X1 , θ)] < ∞ (6.3)
∂ψ
θ 7→ ψ(x, θ) est dérivable et ∀θ ∈ Θ : Eθ (X1 , θ) 6= 0 (6.4)
∂θ
Si n ↓ 0 lorsque n ↑ ∞ alors,

n
1 X ∂ψ ∂ψ
0 Pθ
sup (Xi , θ) − (Xi , θ ) →n→∞ 0 (6.5)
n ∂θ ∂θ

|θ−θ 0 |<n i=1

P
∀θ ∈ Θ : θbn →θ n→∞ θ (consistance). (6.6)
Théorème 6.4 sous les hypothèses (6.1), (6.2), (6.3), (6.4), (6.5) et (6.6), on
a
n
1Xe
e θ) = − ψ(x, θ) .
θn = θ +
b ψ(Xi , θ) + oPθ n−1/2 , ψ(x,
n i=1 Eθ ∂ψ
∂θ (X1 , θ)
Par suite, en posant :

Eθ ψ 2 (X1 , θ)
σθ2 = 2 ,
∂ψ
Eθ ∂θ (X1 , θ)
on a
√
n(h(θbn ) − h(θ)) → N (0, σθ2 ).
Pn
Idée de la preuve. Soit Pn = n1 i=1 δXi la mesure empirique de X1 , . . . , Xn ,
R
alors ψ(x, θbn )dPn (x) = 0. Le théorème des accroissements finis implique qu’il
existe θen tel que
n n n
1X 1X 1 X ∂ψ
ψ(Xi , θbn ) = ψ(Xi , θ) + (Xi , θen )(θbn − θ)
n i=1 n i=1 n i=1 ∂θ
La loi faible des grands nombres implique alors (après des justifications évitées
ici)
n
∂ψ 1X
Eθ (X1 , θ) + oPθ (1) (θbn − θ) + ψ(Xi , θ) = 0.
∂θ n i=1
Le théorème suit.
Corollaire 6.5 Ici ρ(x, θ) = − log pθ (x) et sous les hypothèses précédentes,
l’estimateur du maximum de vraisemblance est asymptotiquement efficace.
De plus tout estimateur régulier de minimum de contraste satisfait un théorème
de limite centrale avec une variance supérieure ou égale à 1/I(θ).
Exemple de Hodges : super efficacité. Si X1 , . . . , Xn sont iid N (θ, 1),

l’estimateur du maximum de vraisemblance est X et I(θ) = 1.
Alors Tn = X1I(|X|≥n−1/4 ) estime encore θ. De plus, en notant Φ la fonction
de répartition normale :
√ √
Pθ (|X| < n−1/4 ) = Φ(n1/4 − θ n) − Φ(−n1/4 − θ n)
ainsi cette expression tend vers 0 (n → ∞) si θ 6= 0 et vers 1 sinon. Par suite

Pθ (Tn = X) → 1 si θ 6= 0 et Pθ (Tn = 0) → 1 si θ = 0, on en déduit que
√
n(Tn − θ) → N (0, σθ2 )
où σθ2 = I −1 (θ)(= 1) si θ 6= 0 et σθ2 = 0 < I −1 (θ)(= 1) si θ = 0.
Remarque. La propiété LAN (Locally Asymptotic Normality) des estima-

teurs permet une présentation plus moderne de l’efficacité asymptotique.
Nous reportons le lecteur à Bickel et Ritov. Ainsi leur proposition 2, page 16
pour un énoncé très simple qui l’implique. Dans le cas non-paramétrique cette
présentation est particulièrement profonde.
Chapitre 7
Tests
7.1 Quelques définitions

S
SupposonsTque Θ = Θ0 Θ1 est partitionné en deux sous-ensembles non
vides (i.e. Θ0 Θ1 = ∅).
On observe X, réalisation d’une variable aléatoire de loi Pθ pour un θ ∈
Θ. L’objectif est de décider si θ ∈ Θ0 , ou pas. Les deux hypothèses appelées
hypothèse nulle (H0 ) : θ ∈ Θ0 et sa contre-hypothèse (H1 ) : θ ∈ Θ1 n’ont
pas des rôles symétriques. On définit la zone de rejet R ⊂ E comme une partie
mesurable (R ∈ E). L’ensemble critique du test est l’événement C = (X ∈ R) ∈
A qui est, lui, une partie de Ω. On rejette l’hypothèse (H0 ) lorsque la réalisation
de l’expérience vérifie X(ω) ∈ R (ou, de manière équivalente, lorsque ω ∈ C),
et on l’accepte dans le cas contraire.
Plus généralement,
Définition 7.1 Un test est une fonction mesurable φ : E → [0, 1], on refuse
l’hypothèse (H0 ) lorsque φ(X) = 1 et on l’accepte lorsque φ(X) = 0.
Lorsque φ prend aussi des valeurs distinctes de 0 et de 1 on parlera de test
randomisé et, lorsque φ(X) ∈]0, 1[, on rejette l’hypothèse (H0 ) avec la probabilité
φ(X).
Lorsque le test φ n’est pas randomisé, on
appelle zone de rejet du test l’en-
semble R = (φ(X) = 1) = (φ ◦ X)−1 ({1}) .
Evidemment, une zone de rejet R permet de construire un test non randomisé

donné par φ = 1IR qui vaut 1 ou 0 selon que X ∈ R ou X ∈
/ R.
Définition 7.2 Lorsque Θ = {θ0 , θ1 }, on parle de test d’hypothèse simple.

Le modèle est alors dominé, par exemple par µ = Pθ0 +Pθ1 . Si p0 , p1 désignent
les densités de Pθ0 et Pθ1 par rapport à une (quelconque) mesure dominante un
test, appelé test du rapport de vraisemblance (abrégé en TRV), est donné par
p1 (x)
toute fonction f : R+ → [0, 1] croissante via la relation φ(x) = f p0 (x) .
71
72 CHAPITRE 7. TESTS
Dans le cas où f est l’indicatrice d’un intervalle [k, +∞[, le test est non ran-
domisé, lorsque f (t) = 0 si t < k et f (t) = 1 pour t > k, on obtient un test
randomisé.
On accepte ici l’hypothèse (H1 ) lorsque le rapport p1 /p0 est grand, c’est-à-
dire si θ1 est plus vraisemblable que θ0 .
Il y a généralement un inconvénient moindre à décider que θ ∈ Θ0 à tort que
le contraire. Ceci est pris en compte par les définitions suivantes
Définition 7.3 Le niveau du test est la probabilité maximale de rejeter l’hy-

pothèse (H0 ) à tort, α = sup Pθ (X ∈ R).
θ∈Θ0
Sa puissance est la fonction β : Θ1 → [0, 1] définie par βθ = Pθ (X ∈ R)
lorsque θ ∈ Θ1 .
Le test est sans biais si βθ ≥ α pour θ ∈ Θ1 .
Exemples.
a) Pour le modèle de Bernoulli iid X1 , . . . , Xn ∼ b(θ) (où le paramètre θ ∈
[0, 1]). Soit x = (x1 , . . . , xn ) ∈ {0, 1}n , si on pose s = x1 + · · · + xn , dans
ce cas pθ (x) = θs (1 − θ)n−s . Ainsi
n s
p1 (x) 1 − θ1 θ1 1 − θ1
=
p0 (x) 1 − θ0 θ0 1 − θ0
est une fonction croissante de s lorsque θ1 > θ0 , donc la zone de rejet est
de la forme s ≥ k.
P que S ∼ B(n, θ) suit une loi binomiale. Le niveau de ce test s’écrit
Notons
α = k≤j≤n Cnj θ0j (1 − θ0 )n−j . Pour θ1 > θ0 , on déduit que le test est sans
biais de grâce à la proposition 1.3 du chapitre 1. Cette expression prend
un nombre fini de valeurs, le niveau du test ne peut être fixé de manière
exacte dans ce cas.
Pour parvenir à fixer le niveau α d’un test on considérera un test randomisé
de la forme φ(s) = 0 lorsque s < k, φ(s) = γ lorsque s = k et φ(s) = 1
lorsque s > k. Alors l’entier k est le plus petit entier tel que (α̃ =)Pθ0 (S >
k) < α et γ est choisi en sorte d’ajuster le niveau à α. Par définition,
α̃ + Pθ0 (S = k) ≥ α et on pose γ = (α − α̃)/Pθ0 (S = k).
b) Modèle gaussien iid X1 , . . . , Xn ∼ N (θ, 1).
Pn
Dans ce cas pθ (x) = (2π)−n/2 exp − 21 i=1 (xi − θ)2 , et on pose

n
p1 (x) X n
log = (θ1 − θ0 ) xi − (θ12 − θ02 )
p0 (x) i=1
2
Pn
est une fonction croissante de x = n1 i=1 xi , lorsque θ1 > θ0 donc la zone
de rejet est de la forme [k, +∞[.
Si θ1 >Pθ0 , on rejettera donc l’hypothèse θ = θ0 lorsque la statistique
n
X = n1 i=1 Xi > k.
7.1. QUELQUES DÉFINITIONS 73
c) Vues les difficultés apportées par l’exemple a), pourtant élémentaire et la

grande simplicité de l’exemple b), on peut envisager une étude asympto-
tique qui conduira à un test de mise en oeuvre simple. Soit X1 , X2 , X3 , . . .
une suite iid de loi Pθ telle que et Varθ X1 = 1 on pose θ = Eθ X1 , un
test de l’hypothèse (H0 ) : θ = θ0 contre (H1 ) : θ 6= θ0 est fondé sur le
ϕ
théorème de limite centrale. Sa zone de rejet s’écrit |X − θ0 | ≥ 1−α/2
√
n
où
P(|N (0, 1)| ≥ ϕ1−α/2 ) = α.
Le niveau (asymptotique) de ce test (pour θ ∈ Θ0 ) suit du théorème
centrale limite :
√ √ ϕ1−α/2 √

Pθ0 n|X − θ0 | ≥ n √ = Pθ0 n|X − θ0 | ≥ ϕ1−α/2 →n→∞ α.
n
La puissance de ce test s’écrit pour θ 6= θ0
√
Pθ n|X − θ0 | ≥ ϕ1−α/2 → 1,
en effet la loi (faible) des grands nombres implique X − θ0 → θ − θ0 , en

Pθ probabilité. Par contre la convergence précédente
n’est pas uniforme
en θ : pour le prouver notons que si θn − θ0 = o √1n alors
√
Pθn n|X − θ0 | ≥ ϕ1−α/2 → α.
Lorsqu’on n’a plusPnVarθ X1 = 1, on remplacera les observations Xi par

Xi /S où S 2 = n1 i=1 (Xi − X)2 désigne un estimateur consistant de la
variance, pour conserver les mêmes propriétés asymptotiques du test.
De la même manière on envisage un test de niveau asymptotique α pour
l’hypothèse θ ≤ θ0 ; la région de rejet s’écrit alors
√
n(X − θ0 ) ≥ ϕ1−α
Définition 7.4 Soient φj deux tests de niveau ≤ α pour tester l’hypothèse

(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈
/ Θ0 .
Le test φ1 est uniformément plus puissant (UPP) que le test φ2 si βθ,φ1 ≥
βθ,φ2 pour tout θ ∈ Θ1 .
Lorsque la contre-hypothèse est simple on parlera simplement de test plus puis-

sant.
Dans le cas de tests asymptotiques, il reste à introduire
(n)
Définition 7.5 Soit E (n) , E (n) une suite de modèles statistiques (Pθ )θ∈Θ sur
le même espace de paramètres Θ ; l’observation correspondante est noté X (n) .
Le niveau asymptotique d’une suite de tests de Θ0 contre Θ1 de région de
rejet respective Rn , pour tout n = 1, 2, . . . est la limite (lorsqu’elle existe)

α = lim sup Pθ X (n) ∈ Rn
n→∞ θ∈Θ0
Cette suite de tests est convergente si

∀θ ∈
/ Θ0 : lim Pθ X (n) ∈ Rn = 1
n→∞
Le seul cas abordé par ce cours est celui d’observations iid dont la loi est notée
Pθ car pour toute loi sur (E, E), on peut construire une loi sur l’espace produit
(E N , E ⊗N ) dont les marginales fini-dimensionnelles sont iid et dont les marginales
d’ordre 1 ont la loi initiale.
L’exemple c) donne un cas de suite de tests convergente. Pour raffiner la
notion de consistance, on peut aussi envisager des suites d’alternatives contigües
Θn ↑ Θc0 pour lesquelles la puissance est uniformément minorée.
Dans le cas du test (H0 ) : g(θ) = γ0 sur la moyenne, on posera, pour un
λ > 0 fixé, √
Θn = {θ ∈ Θ| kg(θ) − γ0 k ≥ λ/ n}
7.2 Lemme de Neyman-Pearson

Conservons les notations et le cadre de la définition 7.2, nous posons aussi
p1 (x)
V (x) = .
p0 (x)
Un test randomisé du rapport de vraisemblance (TRV) s’écrit alors

– φk,c (x) = 1 si V (x) > k,
– φk,c (x) = 0 si V (x) < k et
– φk,c (x) = c ∈]0, 1[ si V (x) = k.
Lemme 7.1 (Neyman-Person (NP))

a) Soit α > 0. Si φk,c est un test de niveau α, alors il est plus puissant (PP)
que tout autre test de niveau ≤ α.
b) Si α ∈ [0, 1], il existe un TRV φk,c de niveau (exactement) α (il est noté
φk,c ).
c) Soit φ un test PP de niveau α alors, pour tout θ ∈ Θ = {θ0 , θ1 }, on a
Pθ (φ(X) 6= φk,c (X), V (X) 6= k) = 0.
Preuve. ? a) Ici Eθ0 φk,c (X) = α. Soit donc φ tel que Eθ0 φ(X) ≤ α, on doit
prouver que Eθ1 (φk,c (X) − φ(X)) ≥ 0. Notons que
∆ = Eθ1 (φk,c (X) − φ(X)) − kEθ0 (φk,c (X) − φ(X))

= Eθ0 (φk,c (X) − φ(X)) (V (X) − k) + Eθ1 (φk,c (X) − φ(X))1I{p0 (X)=0}
Si φk,c (x) = 0 alors V (x) − k < 0, et si φk,c (x) = 1 alors φk,c (x) − φ(x) ≥ 0 car
φ(x) ∈ [0, 1]. Ainsi le premier terme de l’identité précédente est positif.
Notons que α > 0 implique k < ∞, par suite φk,c (x) = 1 lorsque p0 (x) = 0
et le second terme de l’identité précédente est aussi positif.
Alors Eθ1 (φk,c (X) − φ(X)) ≥ kEθ0 (φk,c (X) − φ(X)) ≥ 0,
7.2. LEMME DE NEYMAN-PEARSON 75
? b) Notons d’abord que les cas extrêmes sont couverts.

α = 0 lorsque k = ∞ donne le test PP, φ∞,0 ,
α = 1 lorsque k = 0 donne le test PP, φ0,0 .
Si maintenant, α ∈]0, 1[, Pθ0 (V (X) = ∞) = 0 alors il existe k < ∞ tel que
Pθ0 (V (X) > k) ≤ α et Pθ0 (V (X) ≥ k) ≥ α.
Lorsque Pθ0 (V (X) = k) = 0, on peut choisir c = 0 et on obtient donc un test
non randomisé.
Sinon, c = (α − Pθ0 (V (X) > k))/ Pθ0 (V (X) = k) > 0 donne lieu à un test PP
est obtenu avec k défini plus haut.
? Le point c) se traite comme les points précédents.
Pour conclure cette section, le lemme suivant nous donne une évaluation de
la différence entre puissance et niveau d’un tel test (que l’on pourrait appeler le
biais de ce test).
Lemme 7.2 Dans le modèle {p0 dµ, p1 dµ}, si α et βθ désignent le niveau et la

puissance d’un test de l’hypothèse simple correspondanteR (précisément : l’hy-
pothèse p0 dµRcontre l’alternative p1 dµ), alors β − α ≤ 12 |p0 − p1 |dµ et donc
1 − α + β ≥ p0 ∧ p1 dµ.
R
On écrit β − α = φ(p0 − p1 )dµ ; le lemme de Neymann-Person montre R cette
expression maximisée par φ = 1Ip0 <p1 ; on conclut avec la relation p1 >p0 (p1 −
p0 )dµ R= 12 |p1 − p0 |dµ.
R
R La dernière inégalité provient de l’identité suivante :
1 − 12 |p1 − p0 |dµ = p1 ∧ p0 dµ, laissée en exercice.
Exemples.
– On teste une hypothèse gaussienne simple, N (µ0 , Σ0 ) contre N (µ1 , Σ1 ) en
rejetant (H0 ) lorsque V (X) est grand. Les lois étant continues, on utilise
des tests non randomisés. La zone de rejet s’écrit
Q = (X − µ0 )t Σ−1 t −1
0 (X − µ0 ) − (X − µ1 ) Σ1 (X − µ1 ) > q (est grand)
Lorsque Σ0 = Σ1 et µ1 = µ0 + λ∆ où k∆k = 1 et λ ∈ R, on rejettera

l’hypothèse (H0 ) si
∆t Σ−1 t −1
0 (X − µ0 ) > ϕ1−α ∆ Σ0 ∆
La zone de rejet dépend ici de la direction ∆ de la différence mais pas de

l’amplitude λ. Par contre, la puissance de ce test en dépend largement.
– Si N1 , . . . , Nk désignent le nombre d’occurrences de 1, . . . , k dans un n-
échantillon de loi multinomiale M(k, θ1 , . . . , θk ), alors
n!
pθ (n1 , . . . , nk ) = θn1 · · · θknk .
n1 ! · · · nk ! 1
Qk
Ici V (θ1 , θ0 ) = 1 0 Ni
i=1 (θ1 /θi ) .
Pour tester une hypothèse simple
θ0 = (θ10 , . . . , θk0 )/θ1 = (θ11 , . . . , θk1 )
dans laquelle θ10 > 0 pour chaque i, on suppose l’alternative de la forme

θi1 = θ0i pour un 0 < < 1, et pour i 6= j et θj1 = ρθj0 > 0 avec
ρ = (1 − θj0 )/(1 − θj0 ).
Alors V = ρn (/ρ)Nj et comme < 1 implique ρ ≥ , on en déduit que
la zone de rejet s’écrit (Nj > k), ce qui signifie que l’on retourne au cas
binomial déjà envisagé.
7.3 Rapports de vraisemblance monotones

Définition 7.6 Soit (Pθ )θ∈Θ un modèle µ-dominé avec Θ ⊂ R. On pose
pθ2 (x)
Vθ1 ,θ2 (x) =
pθ1 (x)
Si T (X) une statistique exhaustive de ce modèle on dit que le modèle est à

rapport de vraisemblance monotone en T (RVM en T ) lorsque Vθ1 ,θ2 (x) ( 1 ) est
une fonction croissante de T (x) pour θ1 < θ2 .
Exemple de base. Lorsque θ 7→ g(θ) est une fonction croissante le modèle

exponentiel pθ (x) = h(x) exp (g(θ)T (x) − B(θ)) est à RVM en T .
Théorème 7.1 (Neyman-Pearson) Soit (Pθ )θ∈Θ un modèle à RVM en T ,

on considère le test randomisé δt,c (x) = 1 lorsque T (x) > t, δt,c (x) = 0 lorsque
T (x) < t, et δt,c (x) = c si T (x) = t pour t ∈ R et c ∈ [0, 1], fixés. Alors
a) θ 7→ βθ = Eθ δt,c (X) est une fonction croissante.
Si α = Eθ0 δt,c (X) > 0, le test δt,c est UPP au niveau α pour tester l’hypothèse
(composée) θ ≤ θ0 contre θ > θ0 .
Notons que a) implique que ce test UPP est aussi sans biais. Sa preuve est de
même nature que celle du lemme 7.1.
Donnons maintenant une variante de cet énoncé pour un test bilatère c’est-à-
dire de la forme Θ0 = {θ ∈ Θ| θ ≤ θ1 ou θ ≥ θ2 }, ou Θ0 = [θ1 , θ2 ] pour θ1 ≤ θ2 .
Théorème 7.2 (Lehmann) Si le modèle est exponentiel, admet une densité

pθ (x) = h(x) exp (g(θ)T (x) − B(θ)) telle que l’application g soit strictement
croissante sur Θ0 =] − ∞, θ1 ] ∪ [θ2 , ∞[, alors un test UPP de niveau α est défini
par φ(x) = 1 pour T (x) ∈]t1 , t2 [, φ(x) = 0 pour T (x) ∈/ [t1 , t2 ], et φ(x) = ci pour
T (x) = ti lorsque i = 1, 2. De plus les constantes ti , ci sont déterminées par les
relations Eθi φ(X) = α pour i = 1, 2.
1. qui s’écrit comme fonction de T (x), par exhaustivité.
7.4. ASYMPTOTIQUE DU SCORE 77
Il existe aussi un test UPP de même nature et de niveau α pour tester l’hy-
pothèse θ = θ0 contre θ 6= θ0 (ou encore θ ∈ [θ1 , θ2 ] contre θ ∈
/ [θ1 , θ2 ]). Sa zone
de rejet est de la forme T (X) ∈]t
/ 1 , t2 [ (φ(X) = 1)) et φ(x) = ci pour T (X) = ti
(i = 1, 2).
Exemple. Le cas d’un n-échantillon gaussien √ est considéré plus haut, la zone
de rejet s’écrit (X ∈ R) = {|X − θ0 | > ϕ1−α/2 / n}.
7.4 Asymptotique du score

Ici encore nous considérons Θ ⊂ R.
Définition 7.7 Soient φ1 et φ2 deux tests de niveau ≤ α pour tester l’hypothèse

(H0 ) : θ ∈ Θ0 contre (H1 ) : θ ∈/ Θ0 .
Le test φ1 est localement uniformément plus puissant (LUPP) que le test T φ2
si il existe un voisinage ouvert V 3 θ0 tel que βθ,φ1 ≥ βθ,φ2 pour tout θ ∈ Θ1 V .
Le niveau local du test d’hypothèse θ ≤ θ0 s’écrit α = supθ≤θ0 ,θ∈Θ∩V Eθ φ.
Lemme 7.3 Quand on ne considère que des tests réguliers, dans le sens que
l’application θ 7→ Eθ φ est dérivable en θ0 (intérieur à Θ), un test tel que
d
dθ Eθ0 φ 6= 0 est LUPP au niveau α si son niveau local vaut α et si pour tout
d d
autre test ψ de même type : dθ Eθ0 φ ≥ dθ Eθ0 ψ.
Preuve. Par définition
d
Eθ φ − Eθ ψ = Eθ0 φ − Eθ0 ψ(θ − θ0 ) Eθ (φ − ψ) + o (θ − θ0 ) (si θ → θ0 ).
dθ 0
Corollaire 7.1 Tout test LUPP(α) régulier vérifie φ(x) = 1 lorsque ṗθ0 (x) >
kpθ0 (x) et φ(x) = 0 lorsque ṗθ0 (x) < kpθ0 (x). On peut aussi imposer que φ(x) =
c soit constant sur l’ensemble où ṗθ0 = kpθ0 (x).
d
Définition 7.8 Le test fondé sur la statistique Sθ0 (X) = dθ log pθ0 (X) est ap-
pelé test de score. Il rejette l’hypothèse θ ≤ θ0 pour les grandes valeurs de
Sθ0 (X).
Remarque. Le corollaire 7.1, prouve que le test du score est LUPP. Ce test
est limite de tests du type NP lorsque θ1 → θ0 .
Théorème 7.3 Sous les hypothèses de régularité nécessaires pour assurer la

normalité asymptotique du vecteur de score dans le cas iid, le test de région
critique

d p
(X ∈ R) = log pθ0 (X1 , . . . , Xn ) > nIn (θ0 )ϕ1−α
dθ
a asymptotiquement les caractéristiques du test de score, pour tout estimateur
convergent In (θ0 ) de l’information I(θ0 ).
p
Preuve. Ce résultat est fondé sur le théorème limite Sθ0 (X)/ nI(θ0 ) → N (0, 1).
d
Pn d
Exemple. Dans le cas iid dθ log pθ0 (X1 , . . . , Xn ) = i=1 dθ log f θ0 (Xi ) et une
région de confiance asymptotique s’écrit
 v 
n u n 2
X d uX d
(X ∈ R) =  log f θ0 (Xi ) > t log f θ0 (Xi ) ϕ1−α 
i=1
dθ i=1
dθ
Pour le modèle de translation de Cauchy, log fθ (x) = log π1 1+(x−θ)

1
2 , l’informa-
tion ne dépend pas du paramètre et la région asymptotique s’écrit

n r !
X Xi − θ0 n
2 > ϕ1−α
i=1
1 + (Xi − θ0 )2 2
7.5 Tests du score et de Wald

Nous considérons maintenant un ensemble de paramètres Θ ⊂ Rd (ouvert).
Supposons que Θ0 = {θ ∈ Θ| g(θ) = 0} où la fonction g : Θ → Rk est
différentiable et telle que le rang de ∇g(θ) soit k ≤ d (constant) pour tout
θ ∈ Θ.
La situation asymptotique considérée est celle d’observations iid X (n) =
(X1 , . . . , Xn ) dans le modèle régulier (Pθ )θ∈Θ .
Définition 7.9 Soit θen une suite d’estimateurs asymptotiquement efficace de

θ,
√
n θen − θ →n→∞ Nd 0, I −1 (θ) ,

sous la loi Pθ
Les tests de Wald fondés sur cette suite ont pour région de rejet
−1
Rn : ξnW > χ2k,1−α , avec ξnW = ng(θen )t ∇g(θen )I −1 (θen )g(θen )t g(θen )
Soit Ln (θ) = log pθ (X (n) ), la log −vraisemblance du n-échantillon. On considère

l’estimateur du maximum de vraisemblance θb0,n fondé sur X (n) sous l’hypothèse
(H0 ) : g(θ) = 0. Les tests du Score fondés sur cette suite ont pour région de
rejet
1
Rn : ξnS > χ2k,1−α , avec ξnS = ∇Ln (θb0,n )t I −1 (θb0,n )∇Ln (θb0,n )
n
L’exemple typique d’une suite d’estimateurs θen est celui du maximum de vrai-
semblance.
L’efficacité asymptotique de la suite d’estimateurs (θbn )n , est à la base de ces
tests, en effet
√ Pθ
n θbn − θ →0 n→∞ N (0, I −1 (θ0 ))
7.5. TESTS DU SCORE ET DE WALD 79
implique,
t Pθ
n θbn − θ I(θ0 ) θbn − θ →0 n→∞ χ2d
Et, pour un estimateur consistant, θbn de θ0 , le lemme de Slutsky implique bien

t Pθ
n θbn − θ I(θbn ) θbn − θ →0 n→∞ χ2d .
De plus, le théorème des extrema liés s’écrit avec le Lagrangien Ln (θ) + g(θ)t λ
donc ∇Ln (θb0,n ) + ∇g(θb0,n )t λ
bn = 0 conduit à
1 bt
ξnS = λ ∇g(θb0,n )I −1 (θb0,n )∇g(θb0,n )t λ
bn
n n
Ainsi ξnS − ξnW → 0 en Pθ −probabilité, si on prouve (cf. Monfort & Gouriéroux,
1996, page 556) :
√ √
bn / n ∼ − ∇g(θ0 )t I −1 (θ0 )∇g(θ0 ) −1 ng(θb0,n )
λ
Proposition 7.1 Sous ces hypothèses, les suites de tests de Wald et du score
sont de niveau asymptotique α et consistantes.
Preuve. Nous ébauchons le premier cas du test de Wald. Sous Pθ ,
√
n g(θen ) − g(θ) → Nk (0, A) avec A = ∇g(θ)I −1 (θ)∇g(θ)t .
√
Par suite sous Θ0 , g(θ) = 0 et on a nA−1/2 g(θen ) → Nk (0, Ik ). Ainsi ξnW =
√ −1/2 e 2
k nA g(θn )k → χ2k sous Θ0 . Les résultats en découlent.
Chapitre 8
Tests gaussiens
8.1 Tests fondés sur la vraisemblance

Dans le contexte d’un test Θ0 /Θ1 pour un modèle dominé, nous posons
supθ∈Θ1 pθ (x) supθ∈Θ pθ (x)

Λ(x) = , λ(x) = (8.1)
supθ∈Θ0 pθ (x) supθ∈Θ0 pθ (x)
Un test fondé sur la vraisemblance consiste à rejeter l’hypothèse Θ0 pour les

grandes valeurs de Λ(X) ou, de manière équivalente, celles de λ(X) (plus com-
mode à calculer), quand on observe X. Ce test coı̈ncide avec celui de Neyman-
Pearson pour le cas d’une hypothèse simple ou dans le cas de rapports de vrai-
semblance monotones.
Posons θb et θb0 , les estimateurs du maximum de vraisemblance de θ dans les
modèles statistiques respectifs (Pθ )θ∈Θ , et (Pθ )θ∈Θ0 , alors
pθb(x)
λ(x) = , log λ(x) = Lθb(x) − Lθb0 (x)
pθb0 (x)
8.1.1 Moyenne d’une gaussienne

On considère ici X1 , . . . , Xn iid de loi N (µ, σ 2 ) et Θ = R × R+∗ . Ici
n
!
1 1 X 2
pθ (x1 , . . . , xn ) = √ exp − 2 (xi − µ)
(σ 2π)n 2σ i=1
Dans ce cas l’estimateur du maximum de vraisemblance de θ = (µ, σ 2 ) sur Θ

c2 ) avec x = 1 Pn xi et σ
vaut θb = (x, σ c2 = 1 Pn (xi − x)2 Lorsque l’on
n i=1 n i=1
cherche à tester l’hypothèse Θ0 = {(µ, σ 2 ) ∈ Θ| µ = µ0 }, on exprime donc
pθb(x) = supθ∈Θ pθ (x) et pour calculer le dénominateur de l’expression de λ(x),
on a besoin de l’estimateur du maximum de vraisemblance de θ sur Θ0 . Dans
81
82 CHAPITRE 8. TESTS GAUSSIENS
ce cas !
n
∂ 1 1 X n
log p θ (x) = (xi − µ0 )2 − 2 =0
∂σ 2 2 σ 4 i=1 σ

c2 avec σ
lorsque θb0 = µ0 , σ c2 + (x − µ0 )2 , car
c2 = σ
0 0
n n
1X 1X
(xi − x)2 = (xi − µ0 )2 − (x − µ0 )2
n i=1 n i=1
1 1
(xi −µ0 )2 2
P P
Par suite, le fait queb02
= b2 i (xi −x) = n implique immédiatement
2 i
σ σ
n σ
que log λ(x) = 2 log σ b2 .
b0
c2 λ(x) est une fonction croissante de |T (x)| = √n x−µ0 , si on a noté

Ainsi σ0 n s
n c 1
s2 = n−1 2
P
σ 2 = n−1 i (xi − x) . Par suite Tn (X1 , . . . , Xn ) ∼ t(n − 1) suit une
loi de Student.
On rejettera donc l’hypothèse µ = µ0 au niveau α lorsque |Tn | > tn−1,1−α/2
Des tests unilatères sont aussi obtenus de cette façon,
– pour tester µ ≤ µ0 contre µ > µ0 , on rejette l’hypothèse nulle au niveau
α quand Tn > tn−1,1−α , et
– pour tester µ ≥ µ0 contre µ < µ0 , on rejette l’hypothèse nulle au niveau
α quand Tn < tn−1,α .
8.1.2 Moyenne de deux échantillons gaussiens

A présent, on observe deux échantillons indépendants entre eux, et iid
X1 , . . . , Xn1 ∼ N (µX , σ 2 ) et Y1 , . . . , Yn2 ∼ N (µY , σ 2 )
Ici Θ = {θ = (µX , µY , σ 2 )| µX , µY ∈ R, σ 2 > 0} = R2 × R+∗ , ainsi

n1 n2
!
n 1 X X
log pθ (x, y) = − log(2πσ 2 ) − 2 2
(xi − µX ) + (yi − µY ) 2
2 2σ i=1 i=1
Dans ce cas, l’estimateur du maximum de vraisemblance s’écrit θb = (x, y, σ c2 )

avec, à présent,
n1 n2 n1 n2
!
1 X 1 X 1 X X
x= xi , y = c2 =
yi , σ (xi − x)2 + (yi − y)2 ,
n1 i=1 n2 i=1 n i=1 i=1
si n = n1 + n2 . Enfin, sur Θ0 = {θ ∈ Θ| µX = µY = µ, µ ∈ R}, l’estimateur du

maximum de vraisemblance obtenu vaut θb0 = (b µ0 , µ b02 ) où
b0 , σ
n1 n2
! n1 n2
!
1 X X
c2 = 1 X
2
X
2
µ
b0 = xi + yi , σ 0 (xi − µb0 ) + (yi − µ
b0 )
n i=1 i=1
n i=1 i=1
8.1. TESTS FONDÉS SUR LA VRAISEMBLANCE 83
Ainsi en ajoutant des identités découlant du développement de (Xi − µ b0 )2 =

2 2
σ
(Xi − X) + (X − µ b0 ) , on obtient log λ(x, y) = n2 log σb02 . Le test fondé sur λ
b
rejette donc l’hypothèse Θ0 quand Tn est grand avec

r
n1 n2 X − Y
Tn = ∼ t(n − 2)
n S
sous l’hypothèse µX = µY si
n1 n2
!
2 n c2 1 X X
S = σ = (Xi − X)2 + (Yi − Y )2
n−2 n−2 i=1 i=1
Pour montrer que cette variable a bien une loi de Student, Pon utilise le théorème
n1
de
Pn2 Cochran qui montre que les variables X/σ, Y /σ, i=1 (Xi − X)2 /σ 2 et
2 2
i=1 (Yi − Y ) /σ sont indépendantes et de lois respectives N (µX /σ, 1/n1 ),
N (µY /σ, 1/n2 ), χ2n1 −1 et χ2n2 −1 .
Des tests de niveau α sont obtenus pour les hypothèses
– µX = µY avec la région de rejet |Tn | > tn−2,1−α/2 ,
– µX ≤ µY avec la région de rejet Tn > tn−2,1−α ,
– µX ≥ µY avec la région de rejet Tn < tn−2,α .
On peut montrer que ces tests sont aussi ceux du rapport de vraisemblance. Le
cas de variances distinctes σX 6= σY est traité par Bickel et Doksum.
8.1.3 Covariance de deux échantillons gaussiens

A présent la suite (X1 , Y1
), . . . , (X
n, Yn ) est2 iid de marginales
les lois gaus-
µX σX ρσX σY
siennes bidimensionnelles N2 , . Dans ce cadre
µY ρσX σY σY2
gaussien (avec Θ ⊂ R5 ), tester l’indépendance des composantes X et Y c’est
tester (ρ = 0) contre (ρ 6= 0). Ici
n
p 1 1 X
log pθ (x, y) = −n log 2πσX σY 1 − ρ2 − 2 (xi − µX )2
2((1 − ρ2 )
σX i=1
n n
!
2ρ X 1 X
2
− (xi − µX )(yi − µY ) + 2 (yi − µY )
σX σY i=1 σY i=1
Les équations du maximum de vraisemblance ont la solution µ

bX = x, et µ
bY = y
n n
2 1X 1X
σ
bX = (xi − x)2 , bY2 =
σ (yi − y)2 ,
n i=1 n i=1
n
1 X
ρb = (xi − x)(yi − y)
nb
σX σ
bY i=1
2
Sous l’hypothèse nulle Θ0 = {θ ∈ Θ| ρ = 0}, on trouve θb0 = (x, y, σ
bX bY2 , 0) et
,σ
ainsi, donc la fonction
n
log λ(x, y) = − log(1 − ρb2 )
2
est une fonction croissante de |bρ|.

√ p
Si ρ = 0, on peut montrer que Tn = n − 2b ρ/ 1 − ρb2 ∼ t(n − 2) suit une
loi de Student, ce qui permet de construire un test de niveau donné.
Lorsque ρ 6= 0, la loi de Tn appartient à une famille de lois à un pa-
ramètre et qui peut être tabulée ; pour y parvenir, il suffit de considérer des
suites de p−uplets (Ui , Vi ) indépendants et de loi gaussienne telles que Ui , Vi
soient des variables normales standard de covariance ρ. C’est possible à partir
de variables
p normales standard indépendantes (ξi , ηi ) en notant Ui = ξi , Vi =
ρξi + 1 − ρ2 ηi .
8.2 Invariance et modèle linéaire

Définition 8.1 Le modèle (Pθ )θ∈Θ sur l’espace mesuré (E, E) est G-invrariant
si le groupe G de permutations de E vérifie pour tous θ ∈ Θ, g ∈ G, il existe
θ0 ∈ Θ tel que pour tout A ∈ E : Pθ (g(X) ∈ A) = Pθ0 (X ∈ A).
L’hypothèse Θ0 ⊂ Θ définit un problème de test G invariant si on peut choisir
θ0 = θ pour chaque θ ∈ Θ0 .
Le test φ est G-invariant si φ ◦ g = φ pour chaque g ∈ G.
La statistique Z est G-invariante si Z ◦ g = Z pour chaque g ∈ G ; elle est
invariante maximale si Z(x) = Z(x0 ) ⇒ x0 = g(x) pour un g ∈ G.
L’exemple typique de cette situation donne lieu au test de Fisher. Rappelons

que la loi Fn1 ,n2 est la loi du rapport Z1 /Z2 où les deux variables indépendantes
vérifient ni Zi ∼ χ2ni pour i = 1, 2. La loi Fn0 1 ,n2 ,ρ de Fisher décentrée est la
loi du rapport Z1 /Z2 où les deux variables indépendantes vérifient n2 Z2 ∼ χ2n2
et n1 Z1 ∼ χ02 2
n1 ,ρ c’est-à-dire que n1 Z1 ∼ kN k pour un vecteur gaussien de
coordonnées indépendantes, de dimension n1 et tel que kEN k2 = ρ.
Le modèle s’écrit
X = m + Y où Y ∼ Nn (0, σ 2 In )
et m ∈ H appartient à un sous-espace de Rn de dimension h. Le groupe des

homothéties de Rn , celui des translations d’un vecteur de H dans Rn , ainsi que
celui des transformations orthogonales laissant H globalement invariant sont
alors invariants.
On note xH la projection orthogonale du vecteur x sur H.
Alors XH = m + YH , et X − XH est orthogonal à XH .
1
Proposition 8.1 La statistique n−k kX − XH k2 estime σ 2 sans biais et elle est
indépendante de XH .
Un test UPP pour tester si m ∈ H est obtenu par la région de confiance
(voir, plus bas, la définition 10.1)

h
Pθ m ∈ / B XH , kX − XH k2 Fh,n−h,α =α
n−h
8.2. INVARIANCE ET MODÈLE LINÉAIRE 85
si Fh,n−h désigne la loi de Fisher de paramètres (h, n − h).

1 2
h kXH − mk
En effet, ce qui précède montre que 1 2
suit la loi de Fisher de
n−h kX − XH k
paramètres (h, n − h).
Ce résultat peut être développé pour tester m ∈ K contre m ∈ H \ K pour
un sous-espace K ⊂ H de dimension k < h. En effet
kXK − XH k2 /(h − k) 0 km − mK k2
Z= ∼ Fh−k,n−h,ρ , où ρ =
kX − XH k2 /(n − h) σ2
suit une loi de Fisher décentrée de paramètres (h − k, n − h, ρ).

On rejettera l’hypothèse m ∈ K lorsque Z > Fh−k,n−h,α , produisant un test
au niveau α.
La puissance de ce test est une fonction croissante de la distance de m à K,
km − mK k. En effet, Pθ (Z > t) est une fonction croissante de km − mK k.
8.2.1 Analyse de variance

On dispose de h ≥ 2 échantillons indépendants X (i) = (Xi,1 , . . . , Xi,ni ) de
tailles respectives n1 , . . . , nh telles que n1 + · · · + nh = n, alors
H = {(x1 1In1 , . . . , xh 1Inh ) ∈ Rn | (x1 , . . . , xh ) ∈ Rh }
est de dimension h, avec les notations immédiates 1Ij = (1, . . . , 1) ∈ Rj . Posons
ni h
1 X (i) 1X
Xi· = X , si i = 1, . . . , h, X·· = Xj·
ni j=1 j h j=1
Nous obtenons ainsi, XH = (X1· 1In1 , . . . , Xh· 1Inh ) et le théorème de Pythagore

prouve que la variation quadratique des données s’écrit
kX − X·· 1In k2 = kX − XH k2 + kXH − X·· 1In k2
somme de la variation résiduelle et de la variation intragroupe.

Considérons le sous-espace vectoriel diagonale ∆ = R 1In ⊂ H, de dimension
k = 1. Lorsque l’on veut tester si m ∈ ∆, on va donc rejeter l’hypothèse d’égalité
des moyennes lorsque Z > rFh−1,n−h,α avec
1 h
X·· )2
P
h−1 i=1 ni (Xi· − 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X r
r = km· 1Ih − mk2 = ni (Xi· − X·· )2 , ρ=
i=1
σ2
8.2.2 Régression linéaire

Ici Y = (Y1 , . . . , Yn ) ∼ Nn (0, σ 2 In ) et, pour un plan d’expérience (déterministe)
z = (z1 , . . . , zn ) ∈ Rn , fixé,
Xi = a + bzi + Yi , i = 1, . . . , n
Ainsi, m = a 1In + bz ∈ H, l’espace vectoriel de dimension 2 engendré par les

vecteurs 1In = (1, . . . , 1), z ∈ Rn . Pour déterminer la projection orthogonale
XH de X sur H, il est commode d’en déterminer une base orthonormale. La
méthode d’orthonormalisation de Schmidt nous en donne les moyens ; on pose
ainsi e1 = √1n 1In et e2 = f /kf k avec f = z − z 1In (où z = n1 i zi ), et donc
P
Pn
kf k2 = i=1 |zi − z|2 . Alors XH = u1 e1 + u2 e2 où
n
√ 1 X
u1 = X · e1 = n X etu2 = X · e2 = Xi (zi − z)
kf k i=1
donc u1 e1 = X1In et, par suite

n
1 X
XH = X 1In + (Xi − X)(zi − z) (z − z 1In )
kf k2 i=1

Cov(X, z) Cov(X, z)
= X− z 1In + z
Var z Var z
= b
a 1In + bbz
en notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1
Ainsi
bb = Cov(X, z) , a = X − z · bb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation

2
Pθ (a, b) ∈
/B a, bb , rF2,n−2 , α =α
n−2
b
où
n
X 2 n
X 2
2
r = kX − XH k = Xi − b
a − bbzi = Xi − X − bb(zi − z)
i=1 i=1
Des tests de l’hypothèse a = 0 ou b = 0 s’en déduisent.

8.2. INVARIANCE ET MODÈLE LINÉAIRE 87
Ainsi, la zone de rejet du test (a, b) = (a0 , b0 ) s’écrit

2
(a0 , b0 ) ∈
/B a, b ,
b rF2,n−2 , α
n−2
b

2
Celle du test b = 0 est donc bb > n−2 rF2,n−2 , α .

Ces deux tests ont le niveau α.
Chapitre 9
Tests non paramétriques
Cette section, comme les autres, n’a pas vocation d’être exhaustive, mais
simplement de proposer quelques tests assez simples dans un contexte non pa-
ramétrique. Une vision rigoureuse et plus formelle est donnée par le cours SE328
sur le processus empirique, [7] de troisième année.
9.1 Test du χ2
9.1.1 Cas élémentaire
On considère une suite Xn iid de loi multinomiale M(k, p1 , . . . , pk ). Mal-
heureusement pour le titre de la section, si p = (p1 , . . . , pk ) est fonction d’un
paramètre θ, on est dans un modèle paramétrique p(θ).
On peut parler de cadre non paramétrique si k n’est pas connu, mais,
traditionnellement le test présenté ci-dessous est classé parmi les tests non-
paramétriques, une justification est fournie par l’exemple d’utilisation qui suit.
Pn
Théorème 9.1 Supposons p1 , . . . , pk 6= 0. Soit Nj,n = i=11I{Xi =j} le nombre
des occurences de j dans la séquence X1 , . . . , Xn , pour j = 1, . . . , k.
k
X (Nj,n − npj )2
→ χ2k−1 , en loi.
j=1
npj
Preuve. Posons Nn = (N1,n , . . . , Nk,n ), alors le théorème de limite centrale

vectoriel implique que Zn = n−1/2 (Nn − np) → Nk (0, Σ) où Σ = diag(p) − ppt
(i.e. σij = pi − p2i si i = j et = −pi pj sinon lorsque Σ = (σij )1≤i,j≤k ).
−1/2 −1/2
Posons ∆ = diag(p)−1/2 la matrice diagonale d’éléments p1 , . . . , pk ,
−1/2 t t √ √ t
alors ∆Zn = n ∆(Nn − np) → Nk (0, ∆ Σ∆) où ∆ Σ∆ = Ik − p p est la
√
matrice de projection orthogonale sur p⊥ .
89
90 CHAPITRE 9. TESTS NON PARAMÉTRIQUES
Considérons une matrice orthogonale (d’ordre k) telle que

 √   
p1 1
 ·   0 
 · = ·
U   

√
pk 0
√ √
Alors U ∆Σ∆t U t = U U t − (U p)(U p)t s’écrit
 
0 0 0 ... ...

 0 1 0 ... ... 

0 0 1 0 ... 0 0
U ∆Σ∆t U t = 
 
=

 0 ... 0 1 0 
 0 Ik−1
 ... ... ... ... ... 
0 0 0 ... ...
Par conséquent kU ∆Zn k2 = k∆Zn k2 ∼ χ2k−1 .
Mise en oeuvre d’un test. On en déduit le test du χ2 (H0 ) : p = p0 contre

(H1 ) : p 6= p0 , qui rejette l’hypothèse (H0 ) lorsque
k
X (Nj,n − npj,0 )2
≥ χ2k−1,1−α .
j=1
npj,0
Ce test est de niveau asymptotique α. L’asymptotique est admise en pratique

lorsque n minj pj ≥ 5 comme le confirment les remarques relatives aux variables
binomiales dans le chapitre 1. Il est consistant car si p 6= p0 , lorsque n → ∞, la
loi des grands nombres implique l’équivalent presque sûr suivant
2
Nj,n
k
X (Nj,n − npj,0 )2
k
X n − pj,0
= n
j=1
npj,0 j=1
npj,0
k
X (pj − pj,0 )2
∼ n
j=1
pj,0
k
2
X (pj − pj,0 )2
et l’inégalité stricte χ (p, p0 ) = > 0 implique que la statistique
j=1
pj,0
précédente équivalente à nχ2 (p, p0 ) tend presque sûrement vers l’infini dans la
contre-hypothèse p 6= p0 ce qui justifie la forme de la zone de rejet et prouve la
consistance du test du χ2 .
On peut alors envisager des suites de contre hypothèses Hn pour lesquelles
nχ2 (p, p0 ) ≥ γ. Lorsque γ > χ2k−1,1−α ; ces tests sont asymptotiquement sans
biais et leur puissance est uniformément minorée par β vérifiant χk−1,1−β = γ.
9.1. TEST DU χ2 91
Exemple d’utilisation du théorème 9.1. On veut faire un test de l’hy-

pothèse (non-paramétrique) globale, sur la loi marginale d’un échantillon iid
Sk
réel : PU = P0 contre PU 6= P0 . Si on décompose R = j=1 Aj en une partition
A1 , . . . , Ak alors la loi de X est différente de P0 lorsque P(U ∈ Aj ) 6= P0 (Aj )
pour un certain j ∈ {1, . . . , k}. Alors le théorème 9.1 permet de tester cette
Pk
hypothèse (grâce au test du χ2 ) en posant Xi = j=1 j 1I(Ui ∈Aj ) . La question
cruciale est alors le choix des classes. Une façon de faire en accord avec la règle
np ≥ 5 d’adéquation de la binomiale à une gaussienne est (lorsque les lois sont
continues) de choisir k classes de même probabilité p = 5/n. Comme P0 est
donné, on divise donc R en k classes de même P0 −probabilité (aux problèmes
de divisibilité près).
Une autre manière de procéder consisterait à diviser l’échantillon empirique
(réordonné) en classes de même poids empirique.
Cet exemple permet, bien sûr de classer le test du χ2 dans cette section
non-paramétrique.
9.1.2 Test d’adéquation à une famille paramétrique

On déduit aussi de la méthode du χ2 , un test d’adéquation à une famille
paramétrique (dominée) donnée par pj (θ), θ ∈ Θ ⊂ Rd . Nous supposons de
manière naturelle que d < k pour autoriser le modèle à être régulier. Suppo-
sons θ estimé par l’estimateur du maximum de vraisemblance θbn , alors deux
statistiques du χ2 peuvent s’envisager.
2
k
X Nj,n − npj (θbn )
b2n
χ =
j=1 npj (θbn )
2
k
X Nj,n − npj (θbn )
e2n
χ =
j=1
Nj,n
La seconde est fondée sur la loi des grands nombres et la consistance de θbn qui
impliquent
Nj,n
→n→∞ pj (θ), Pθ − p.s., j = 1, . . . , d
n
si le vrai paramètre vaut θ.
Nous admettons alors le théorème suivant.
Théorème 9.2 Si l’estimateur θbn du maximum de vraisemblance est asympto-

tiquement efficace
√
n θbn − θ → Nd 0, I −1 (θ) ,

sous la loi Pθ ,

les tests de zones respectives de rejet, χb2n > χ2k−1−d,1−α et χe2n > χ2k−1−d,1−α
sont de niveau asymptotique α et consistants.
√
Idée de la preuve. Il faut montrer que la limite (gaussienne) de n θbn − θ est
asymptotiquement indépendante de celle de Zn (dans la preuve du théorème
9.1) pour pouvoir appliquer le théorème de Cochran qui explique la baisse du
b2n → χ2k−1−d .
nombre des degrés de liberté et la convergence en loi χ
Remarque. On a déjà vu qu’un modèle régulier donne lieu à une suite d’es-
timateurs du maximum de vraisemblance asymptotiquement efficace.
Exemple d’utilisation du théorème 9.2. On teste le fait qu’une suite iid

à valeurs entières (Yi )i∈N suit une loi de Poisson. On suppose donc Pθ (Yi = j) =
θj e−θ /j! si θ est la valeur du paramètre de la loi de Poisson. Soit θb l’estimation
de θ obtenue par la méthode du maximum de vraisemblance. On considère la
variable multinomiale Xi = (Yi + 1) ∧ k, aussi définie comme

Yi + 1 lorsque Yi < k − 1
Xi =
k lorsque Yi ≥ k − 1
Alors pj (θ) = θj−1 e−θ /(j − 1)! pour j < k − 1 et pk (θ) = j≥k−1 θj e−θ /j!.
P
Par suite la formule de Taylor (avec reste de Lagrange) implique
pk (θ) ≤ pk−1 (θ) ≤ · · · ≤ p1 (θ).

La relation npj θb ≥ 5, pour chaque j ∈ {1, . . . , k} s’écrit donc npk θb ≥ 5,
ce qui permet de déterminer le nombre des classes à choisir sachant la taille de
l’échantillon dont on dispose. De là, on envisage un des tests donnés dans le
théorème 9.2.
9.1.3 Test d’indépendance

Ici Xi = (Yi , Zi ) prend ses valeurs dans {y1 , . . . , y` } × {z1 , . . . , zm }.
L’indépendance des variables Y et Z se traduit par la relation pi,j = qi rj
si on pose pi,j = P(X1 = (yi , zj )), qi = P(Y1 = yi ) et rj = P(Z1 = zj ). Le
paramètre θ = (q1 , . . . , q`−1 . , rm−1 ) ∈ R`+m−2 du fait des restrictions
P, r1 , . . P
naturelles des paramètres i qi = j rj = 1. Par suite le nombre de degrés de
liberté vaut ici D = `m − 1 − (` + m − 2) = (` − 1)(m − 1) et les deux expressions
précédentes s’écrivent avec des notations standard,
2
N N
X ` X m Ni,j − i·n ·j
b2n = n
χ
i=1 j=1
Ni· N·j
2
Ni,j N N
X ` X m
n − i·n2 ·j
e2n = n2
χ
i=1 j=1
Ni,j
9.2. TEST DE KOLMOGOROV SMIRNOV 93
2
Ni· N·j
` X
X m Ni,j − n
=
i=1 j=1
Ni,j
Ces deux suites d’expressions convergent vers une même limite χ2D , en loi, en
vertu du théorème 9.2. En effet, l’estimateur du maximum de vraisemblance du
N
vecteur θ ∈ R`+m−2 s’écrit ici θb = (b q1 , . . . , qb`−1 , rb1 , . . . , rbm−1 ) avec qbi = ni,·
N
pour 1 ≤ i < ` et rbj = n·,j pour 1 ≤ j < m.
9.2 Test de Kolmogorov Smirnov

On considère ici, X1 , X2 , . . ., une suite iid à valeurs réelles et de fonction de
répartition F (x) = P(X1 ≤ x) et on pose
n
1X
Fn (x) = 1I(Xi ≤x)
n i=1
sa fonction de répartition empirique (qui est comme F croissante, continue à

gauche et admet une limite à droite en tout point).
Théorème 9.3 (Glivenko-Cantelli) On a, presque sûrement,
sup |Fn (x) − F (x)| →n→∞ 0

x∈R
Preuve dans le cas particulier où F est continue. Dans ce cas, le faux théorème
de Dini (Doukhan-Sifre, volume 1, page 143) permet de prouver l’uniformité de
la convergence : si une suite de fonctions croissantes admettant les limites 0 et
1 en ±∞ converge simplement vers une fonction continue, alors elle converge
uniformément sur R.
Remarque. Par simplicité, nous supposerons F strictement croissante et conti-

nue. Alors l’inverse F −1 de F a le sens commun, F (X) a une loi uniforme sur
[0, 1] et F −1 (U ) suit la même loi que X1 lorsque U est uniforme sur [0, 1].
Sans cette hypothèse, il reste exact que F −1 (U ) a la loi de X1 , par contre
l’exemple de X1 ∼ b( 21 ) prouve que F (X1 ) qui ne prend que trois valeurs, ne
peut donc être uniforme.
Ce premier théorème 9.3 justifie l’idée de considérer la statistique kFn −F0 k∞

pour tester une hypothèse du type F = F0 contre F 6= F0 . Soit ↓ 0, le théorème
9.3 prouve que la suite de tests de cette hypothèse dont la zone de rejet s’écrit
kFn − F0 k∞ ≥ est consistante. Pour envisager le niveau d’un tel test, il faut
connaı̂tre les quantiles approchés de la loi de kFn − F0 k∞ . Le résultat suivant
prouve que cette loi ne dépend que de n, on pourra donc la tabuler après avoir
simulé des variables uniformes.
Théorème 9.4√(Kolmogorov & Smirnov)√Supposons que F = F0 . Les sta-

tistiques Dn = n sup |Fn (x) − F0 (x)|, Dn+ = n sup(Fn (x) − F0 (x)), et Dn− =
√ x x
n sup(F0 (x) − Fn (x)) ont une loi indépendante de F0 .
x
De plus les lois de Dn+ et Dn− sont identiques.
Utilisant la remarque qui précède, on voit que Fn (x) − F (x) = Un (F (x)) − F (x)
(en loi) si Un (t) désigne la fonction de répartition empirique d’un échantillon de
loi uniforme. Par suite la loi de supx |Fn (x) − F (x)| est bien celle égale à celle
de supt∈[0,1] |Un (t) − t|. On dit aussi qu’une telle statistique indépendante de la
loi est libre.
Notons aussi que les variables aléatoires Dn+ et Dn− ont la même loi.
Si on dispose d’un n-échantillon iid uniformes sur [0, 1], remarquons enfin
que les expressions de Dn , Dn+ et Dn− sont des maxima de 2n valeurs au plus, car
il suffit le considérer les valeurs aux points de l’échantillon ainsi que les limites
à gauche en ces points pour obtenir ces suprema sur R. Leur représentation par
rangs est donnée en (9.1).
On pourra donc tabuler sans peine ces lois avec l’aide de la loi des grands
nombres dans le cas où on dispose de nombreux échantillons uniformes indépen-
dants.
Nous admettrons le (difficile) théorème limite suivant :
Théorème 9.5 (Smirnov et Kolmogorov) On a respectivement

lim P(Dn+ > λ) = exp −2λ2

et
n→∞
∞
X
(−1)k+1 exp −2k 2 λ2

lim P(Dn > λ) = 2
n→∞
k=1
L’asymptotique est généralement admise dans le cas n > 50. Il n’est pas dans
l’esprit de ce cours de faire ces calculs de manière rigoureuse. Des informations
additionnelles ainsi que de nombreux compléments se trouvent dans les notes √
de cours [7]. Toutefois, il est raisonnable de vouloir comprendre le facteur n.
Ce lemme, très simple, est laissé en exercice au lecteur
√
Lemme 9.1 Posons Bn (x) = n(Fn (x) − F (x)), alors pour tout n−uplet or-
donné, −∞ < x1 ≤ · · · ≤ xk < ∞, on a
(Bn (x1 ), . . . , Bn (xk )) →n→∞ (B1 , . . . , Bk ), en loi
(B1 , . . . , Bk ) ∼ Nk (0, Σ),
Σ = (σi,j )1≤i,j≤k , σi,j = F (xi ) ∧ F (xj ) − F (xi )F (xj )
Il permet d’imaginer qu’un théorème √de limite centrale ”fonctionnel” gère le
théorème 9.5, alors si on admet que n(Fn − F ) → B ◦ F (en un sens non
précisé, ici) pour un processus gaussien ( 1 ) centré B appelé ”pont brownien”,
1. C’est à dire une famille de variables aléatoires, B(t) pour t ∈ R, telle que les combinaisons
linéaires Ii=1 ai B(ti ) aient toutes des lois gaussiennes (∀I, ∀ai ∈ R, ∀ti ∈ [0, 1], i = 1, . . . , I).
P
9.2. TEST DE KOLMOGOROV SMIRNOV 95
tel que B(s) ∼ N (0, s − s2 ), et tel que Cov(B(s), B(t)) = s ∧ t − st si s, t ∈ [0, 1].
Les lois du théorème 9.5 sont celles de supx B(x) et de kBk∞ .
9.2.1 Test F = F0
Pour tester les hypothèses F = F0 , F ≤ F0 ou F ≥ F0 , on utilise les (1 − α)-
quantiles dn,1−α et d+ ±
n,1−α des lois de Dn , ou Dn et on rejette l’hypothèse nulle
lorsque la statistique adéquate dépasse le seuil correspondant.
– Pour tester F = F0 contre F 6= F0 , on rejette l’hypothèse si Dn > dn,1−α ,
– pour tester F ≤ F0 contre F > F0 , on rejette l’hypothèse si Dn+ > d+ n,1−α ,
– pour tester F ≥ F0 contre F < F0 , on rejette l’hypothèse si Dn− < d+ n,α .
Les tests obtenus ont le niveau α et sont consistants.
Pour le montrer, on note, par exemple que lorsque
F < F0 =⇒ lim sup sup(Fn (x) − F (x)) ≤ 0

n x
donc P(supx (Fn (x) − F (x)) > d) → 1 pour tout d > 0.

Le comportement asymptotique de la suite dn,1−α est obtenu en utilisant le
théorème 9.5.
Ces expressions sont calculées en utilisant la représentation par rangs (9.2)
à suivre.
9.2.2 Cas de deux échantillons

On considère à présent deux échantillons réels indépendants iid X1 , . . . , Xn ∼
F et Y1 , . . . , Yn m ∼ G, les fonctions de répartition correspondantes sont notées
F et G et les fonctions de répartition empiriques Fn et Gm . Alors de manière
analogue au tests de Kolmogorov Smirnov précédents, on peut démontrer
1 −1/2
Théorème 9.6 Posons cn,m = n1 + m

. Les statistiques définies par les
+
relations, Dn,m = cn,m sup |Fn (x) − Gm (x)|, Dn,m = cn,m sup(Fn (x) − Gm (x)),
x x
et Dn− = cn,m sup(Gm (x) − Fn (x)) ont des lois indépendantes de F, G si ces
x
fonctions de répartitions sont continues et strictement croissantes.
Cet énoncé permet aussi de simuler les quantiles de ces lois pour les tabuler.
Le but est de faire des tests pour les hypothèses
– F = G contre F 6= G, la zone de rejet est Dn,m > dn,m,1−α ,
– F ≤ G contre F > G, la zone de rejet est Dn,m +
> d+ n,m,1−α , et
– F ≥ G contre F < G, la zone de rejet est Dn,m < d−
−
n,m,α .
Sous ces conditions, les suites Ui = F (Xi ) et Vj = G(Yj ) sont iid et uniformes
sur [0, 1].
9.2.3 Ecriture en termes de rangs

Les lois étant continues, la probabilité qu’il existe des ex-aequo dans cette
liste est nulle.
Nous y reviendrons de manière détaillée dans la section suivante mais, pour
obtenir une écriture simplifiée de ces tests, il est bon d’introduire le rang de Xi
dans une liste (X1 , . . . , Xn ) (sans ex-aequo) ; il vaut
X
RX (i) = 1I(Xj ≤Xi )
j6=i
C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
Alors, on peut réécrire les expressions directement exploitables de ces sta-
tistiques pour le cas de la comparaison des lois de deux échantillons,

i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) (9.1)
n m
et, pour ses variantes signées,

+ i j
Dn,m = cn,m max − U(i) < V(j) < U(i+1) ,
n m

− j i
Dn,m = cn,m max − U(i) < V(j) < U(i+1)
m n
Et, pour les statistiques relevant d’un seul n−échantillon,
√

i
Dn = n max − u
U(i) < u < U(i+1) et, (9.2)
n
√

+ i
Dn = n max −u U(i) < u < U(i+1) ,
n
√

− i
Dn = n max u − U(i) < u < U(i+1)
n
9.3 Tests de rang

9.3.1 Statistique d’ordre et rangs
Définition 9.1 Le rang de Xi dans la liste X1 , . . . , Xn vaut

X
RX (i) = 1 + 1I(Xj <Xi )
j6=i
C’est aussi le rang occupé par Xi lorsque cette liste est réordonnée de manière
croissante, X(1) < X(2) < · · · < X(n) que l’on appelle statistique d’ordre.
9.3. TESTS DE RANG 97
Soit (x1 , . . . , xn ) un n-uplet de réels sans répétition alors l’application i 7→

Rx (i) ( 2 ), est injective {1, 2, . . . , n} → {1, 2, . . . , n} ; elle est donc bijective.
Nous noterons encore cette bijection Rx ∈ Sn . Rappelons que le groupe Sn des
permutations de l’ensemble {1, 2, . . . , n} a le cardinal n! ; sa structure algébrique
est complexe ( 3 ).
De plus pour x ∈ Rn et r ∈ Sn , on notera (avec précaution) xr = (xr1 , . . . , xrn ).
Plus globalement, l’application
fn → Sn × Rn ,

R < (x1 , . . . , xn ) 7→ (Rx (1), . . . , Rx (n)), (x(1) , . . . , x(n) )
est bijective sur l’ensemble R fn des n−uplets distincts (x1 , . . . , xn ) ∈ Rn . Ici Rn

<
désigne l’ensemble de n−uplets ordonnés (u1 , . . . , un ) ∈ Rn tels que u1 < · · · <
un .
Cette situation est générique lorsque, comme nous le supposerons à partir
de maintenant, la loi de (X1 , . . . , Xn ) a une densité, g(x1 , . . . , xn ), par rapport
à la mesure de Lebesgue sur Rn . Alors les lois des statistiques de rang RX =
(RX (1), . . . , RX (n)), et d’ordre ΥX = (X(1) , . . . , X(n) ) sont données par leur loi
conditionnelle et leur densité
X g(υ)
gΥ (υ) = g(υr ), P(RX = r| ΥX = υ) =
gΥ (υ)
r∈Sn
S note que l’événement (ΥX ∈ B) s’écrit comme une

Pour s’en convaincre, on
partition, (ΥX ∈ B) = r∈Sn (ΥX ∈ B) ∩ (RX = r), avec
Z
P ((ΥX ∈ B) ∩ (RX = r)) = g(xr )dx
B
Les tests fondés sur des statistiques de rang ont souvent pour hypothèse nulle
celle que les variables (X1 , . . . , Xn ) soient iid, lorsque la densité marginale vaut
f , on a alors, g(x1 , . . . , xn ) = f (x1 ) · · · f (xn ) et le résultat suivant prouve
l’intérêt de considérer les statistiques de rang.
Théorème 9.7 Si le vecteur (X1 , . . . , Xn ) est iid de densité marginale f par

rapport à la mesuree de Lebesgue, alors
n
1 Y
P(RX = r) = , gΥ (υ) = n! f (υi )
n! i=1
Dans un modèle statistique non paramétrique indexé par f , RX est une statis-
tique libre et ΥX est complète.
Preuve. Clairement, il résulte de l’expression de la loi de RX que ces statis-
tiques sont indépendantes et laPcomplétudeP de ΥX résulte alors du fait que
les statistiques ΥX et Nn = ( i Xi , . . . , i Xin ) engendrent la même tribu.
2. Elle associe à i, l’unique indice j = Rx (i) de la statistique d’ordre vérifiant x(i) = xj .
3. Ce groupe est non commutatif et il est simple pour n > 4.
Ce dernier énoncé est une transcription probabiliste du théorème de Newton

qui affirme que toute fonction symétrique de n variables s’écrit comme fonction
des sommes de Newton Nn . La mesurabilité de cette transformation tient à la
preuve du théorème de Newton (voir Deschamps et alii, 1999 par exemple).
La complétude de ΥX suit ainsi d’un argument algébrique puisque la re-
marque précédente permet de se ramener à des polynômes.
Remarque. Ainsi, pour toute fonction mesurable, h : Rn → R, telle que

E|h(X)| < ∞
1 X
E(h(X)| RX = r) = Eh(Xr ), E(h(X)| ΥX = υ) = h(υr )
n!
r∈Sn
Théorème 9.8 Si le vecteur (X1 , . . . , Xn ) est iid de densité marginale

Rz f par
rapport à la mesure de Lebesgue et de fonction de répartition F (z) = −∞ f (t) dt,
alors pour tout k ∈ {1, . . . , n}, la k−ème statistique d’ordre X(k) du vecteur
aléatoire X a la densité
k−1
gk (z) = nCn−1 f (z)F k−1 (z)(1 − F (z))n−k
Qn
Preuve. Posons υk = z, on intègre la densité gΥ (υ) = n! i=1 f (υi ) sur le
domaine υ1 < υ2 < · · · < υk−1 < z < υk+1 < · · · < υn . Alors gk (z) =
f (z)P (z)F (z) avec
Z υ2 Z υ3 Z z
F k−1 (z)
P (z) = f (υ1 )dυ1 f (υ2 )dυ2 · · · f (υk−1 )dυk−1 =
−∞ −∞ −∞ (k − 1)!
par intégrations successives, et de même
Z ∞ Z ∞ Z ∞
F (z) = f (υk+1 )dυk+1 f (υk+2 )dυk+2 · · · f (υn )dυn
z υk+1 υn−1
(1 − F (z))n−k
=
(n − k)!
Remarque. Lorsque les lois ne sont plus continues, une manière de traiter les
ex-aequo consiste à remplacer les rangs par les moyennes des rangs qu’ils oc-
cupent. Par exemple, dans la séquence (1, π, 2, 5, π, 0) la suite des rangs pourrait
s’écrire (2, 4 ou 5, 3, 6, 4 ou 5, 1), on lui préférera ici (2, 4.5, 3, 6, 4.5, 1).
9.3.2 Statistiques linéaires de rang

Définition 9.2 Soit A = (ai,j )1≤i,j≤n une matrice réelle n × n, la statistique
linéaire de rang induite par la matrice A est
n
X
LA (X) = ai,RX (i)
i=1
Théorème 9.9 Si le vecteur X a des composantes iid,

n n
1 XX 2
ELA (X) = na, Var LA (X) = (ai,j − ai,· − a·,j + a)
n − 1 i=1 j=1
où
n n n n
1X 1X 1 XX
ai,· = ai,j , a·,j = ai,j , a= ai,j
n j=1 n i=1 n2 i=1 j=1
Preuve. Par l’équidisdribution des rangs,

XX
ELA (X) = ai,h P(RX (i) = h) = na
i h
P
Les définitions des coefficients liés à A impliquent en particulier que i a·,RX (i) =
na. Posons P maintenant ì (h) = ai,h − a·,h − ai,· − a·,· , il s’ensuit que LA (X) −
n
ELA (X) = i=1 ì (RX ) et donc
X X
Var LA (X) = EL2i + ELi Lj , avec Li = ì (RX (i))
i i6=j
On remarque d’abord que les expressions précédentes sont centrées ELi = 0.

Utilisant l’équidistribution des rangs, le premier terme de cette somme, formé
de termes diagonaux, est d’un calcul aisé,
X 1 XX 2
EL2i = ì (h)
i
n i
h
A présent, la loi jointe de (Li , Lj ) s’obtient comme suit. La loi jointe des rangs
(RX (i), RX (j)) s’écrit avec
1
n(n−1) lorsque h 6= k
P(RX (i) = h, RX (j) = k) =
0 si h = k
Le couple (RX (i), RX (j)) ne peut en effet prendre que des valeurs distinctes
et, une fois RX (i) choisi, il ne reste plus que n − 1 valeurs envisageables pour
RX (j). Par suite,
 
X 1 X X
ELi Lj =  ì (h)`j (k)
n(n − 1)
i6=j i6=j h6=k
n
!
1 X X
= − ì (h)`j (h)
n(n − 1)
i6=j h=1
 
n X n
1 X X
= − ì (h)  `j (h)
n(n − 1) i=1h=1 j6=i
n X
n
1 X
= `2i (h)
n(n − 1)
h=1 i=1
Pn Pn
en vertu des relations, i=1 ì (h) = 0 et h=1 ì (h) = 0, déduites des définitions
de ai,· , a·,j et a. Ainsi la relation n1 + n(n−1)
1 1
= n−1 permet de conclure.
Remarques. Pour des statistiques linéaires simples, les expressions précédentes

t t
s’écrivent un peu mieux. Soient A = aα Pn= (ai αj )1≤i,j≤n et B = bβ =
1
(bi βj )1≤i,j≤n on obtient, en posant a = n i=1 ai (etc. . .)
1 X X
ELA (X) = naα, Var LA (X) = (ai − a)2 (αj − α)2
n−1 i j
Par bilinéarité de la variance, nous obtenons enfin

1 X X
Cov (LA (X), LB (X)) = (ai − a)(bi − b) (αj − α)(βj − β)
n−1 i j
Exercice. Indiquez comment tester l’hypothèse m ≤ m0 contre m > m0 dans

un modèle iid (on prouvera que l’on peut se ramener à un test de type pile ou
face).
9.3.3 Test de Wilcoxon

Encore une fois, nous supposons que deux échantillons réels indépendants iid
X1 , . . . , Xn ∼ F et Y1 , . . . , Ym ∼ G ont des fonctions de répartition continues et
strictement croissantes F et G.
L’objectif est de tester si F = G.
On pose N = n+m et (Z1 , . . . , ZN ) = (X1 , . . . , Xn , Y1 , . . . , Ym ). On considère
les rangs et statistiques d’ordre attachés à ces échantillons concaténés,
X
Z(1) < Z(2) < · · · < Z(N −1) < Z(N ) , RZ (i) = 1 + 1(Zj <Zi ) , 1 ≤ i ≤ N
j6=i
Alors, RZ est la permutation de {1, . . . , N } telle que ZRZ (i) = Z(i) . Cette
variable aléatoire a une loi uniforme sur l’ensemble Sn des permutations de
{1, . . . , N } (de cardinal N !).
Pn
Définition 9.3 La somme des rangs des Xi , Wn = i=1 RZ (i) est appelée
statistique de Wilcoxon.
La loi de Wn (qui dépend de n et m) est tabulée. Notons que l’on peut toujours
échanger les rôles de n et m à condition de remplacer Wn par une somme de
n + 1 à N , donc les tables ne comportent que le cas n ≤ m. Evidemment, cette
loi ne dépend pas de la loi F si F = G.
Un test pour l’hypothèse F = G contre F > G est donné par la zone de rejet
Wn > wα . Ici wα est le 1 − α−quantile de la loi de W qui peut être tabulé
en considérant car cette variable a la même loi (sous l’hypothèse nulle) que
Pn
WU = i=1 RU (i) pour un échantillon aléatoire iid U = (U1 , . . . , UN ) de mar-
ginales uniformes sur [0, 1] (i.e. P(WU > wα ) = α).
Lorsque n = 1, la loi de W1 est une loi de Bernoulli de paramètre
R p = P(X1 <
Y1 ) ; si F = G alors p = 12 et si F > G alors p = F (x)g(x)dx > G(x)g(x)dx =
R
1
2 ce qui permet de justifier la forme de la zone de rejet.
On a aussi
– EWn = nERZ (1) = n j Nj = n(N2+1) (car P(RZ (i) = j) = N1 )
P
n(N +1)(N −n)
– Var Wn = 12 (cf. théorème 9.9).
Wn − EWn
Ceci justifie (un peu) l’énoncé √ → N (0, 1) que nous ne prouverons
Var Wn
pas ici.
9.3.4 Test de Spearman

Maintenant, (X1 , Y1 ), . . . , (X1 , Yn ) est une suite iid et on désire tester l’indépendance
des X et des Y . On utilise la statistique de Spearman
n
X
S= RX (i)RY (i)
i=1
Sous l’hypothèse nulle, on obtient

1 1
ES = n(n + 1)2 , Var S = (n − 1)n2 (n + 1)2
4 144
Notons que les deux situations extrêmes, RX = RY et RX = n + 1 − RY ,
conduisent à l’encadrement
X 1 X 1
i(n + 1 − i) n(n + 1)(n + 2) ≤ S ≤ i2 = n(n + 1)(2n + 1)
i
6 i
6
Lorsque n → ∞, cette distribution est asymptotiquement gaussienne ; donc une

région critique du test de Spearman a la forme (S < s) ∪ (S > s), pour un s
tabulé permettant d’atteindre tout niveau α.
Enfin, la corrélation empirique des vecteurs aléatoires RX et RY s’écrit
1 1
P P P
n i RX (i)RY (i) − n2 i RX (i) i RX (i)
ρS =
VX VY
avec
!2
1X 2 1X
VX2 = RX (i) − RX (i)
n i n i
!2
1X 2 1X
= i − i = VY2
n i n i
2
n2 − 1

(n + 1)(2n + 1) n+1
= − =
6 2 12
Par suite
12S − 3n(n + 1)2
ρS =
n(n2 − 1)
est une fonction affine du coefficient de Spearman, ce qui justifie d’introduire S
pour tester une indépendance.
9.4 Exemple d’un test semi-paramétrique

Ici le modèle est donné par une densité de probabilité sur R. On observe un
n−échantillon iid de loi de densité f ; soit w : R → R, une fonction mesurable
et bornée, on cherche à établir un test d’hypothèse simple sur le paramètre réel
Z
θ= f 2 (x)w(x) dx ∈ R
R
Pour commencer, nous suggérons un estimateur raisonnable de ce paramètre,

obtenu par la méthode d’injection (plug-in). Nous nous trouvons bien dans une
situation semi-paramétrique puisqu’ici seul ce paramètre réel est considéré. Pour
simplifier le résultat (voir Bickel et alii, 1993), nous supposerons que le pa-
ramètre nuisible, f , possède la propriété de régularité suivante.
f est une fonction de classe C 2 (R) et de support compact (inconnu).
L’ensemble de telles fonctions à support compact dans R est noté CK (R).
Remarque. Lorsque w ≡ 1, le modèle semi-paramétrique s’écrit p(θ,f ) (x) =

θf (θx) avec (θ, f ) ∈ R × Θ1 et l’ensemble non paramétrique Θ1 est défini par
Z
2

Θ1 = f ∈ CK f (x)dx = 1

Dans le cas où w est quelconque, il est plus difficile d’exhiber Θ1 (non pa-
ramétrique) tel que Θ = R × Θ1 .
Pour construire un estimateur consistant de θ, nous introduisons un esti-
mateur fn,h (x) de f (x) construit, à partir d’une fonction K, paire, à support
compact, mesurable, bornée, d’intégrale 1 et d’un paramètre h = hn ↓ 0 (lorsque
n ↑ ∞),
n
1 X Xi − x
fn,h (x) = K
nh i=1 h
D’abord le biais, bh (x) = Efn,h (x) − f (x), de cet estimateur n’est pas nul, mais
il vaut

1 X1 − x
bh (x) = EK − f (x)
h h
Z b1
1 t−x
= K (f (t) − f (x)) dt
h a1 h
9.4. EXEMPLE D’UN TEST SEMI-PARAMÉTRIQUE 103
Z
= K(u) (f (x − uh) − f (x)) dt
R
Z 00 Z
0 2 f (x)
= hf (x) uK(u) du + h u2 K(u) du + o(h2 )
R 2
Z
1
= cf 00 (x)h2 + o(h2 ), où c= u2 K(u) du
2
en utilisant, la formule de Taylor (avec un reste de Lagrange ou intégral) et la
parité de K. Ainsi
Théorème 9.10 Supposons que h = hn ↓ 0 (lorsque n ↑ ∞), alors
bh (x) = Efn,h (x) − f (x) = O h2

(uniformément par rapport à x ∈ R)
De plus, si nhn → ∞ (lorsque n ↑ ∞),

√ L
nh (fn,h (x) − Efn,h (x)) →n→∞ N (0, cf (x))
Preuve. Une version plus précise du premier point de ce théorème est prouvée
plus haut.
Le lemme 1.2 est appliqué aux variable iid

ei = √1 (Zi − EZi ) , Xi − x
X avec Zi = K
nh h
On prouve comme pour l’étude du biais bh (x) que

Z
1 1
ei2 = EZi2 ∼ n−1 f (x) K 2 (u)du

EX Var Zi ≤
nh nh
compte tenu du fait que bh (x) → 0, les inégalités précédentes sont des équivalences
et Z
X
EXi →n→∞ f (x) K 2 (u)du
e 2
Et (en utilisant l’inégalité, (u + v)3 ≤ 4(u3 + v 3 ) pour u, v ≥ 0 et l’inégalité de

Hölder), on a
3 1
3 −1/2 −1
E X i ≤ 8 = O (nh) n
e
EZ i
(nh)3/2
donc, le second point du théorème 9.10 suit de
X 3
ei →n→∞ 0
E X
i
A présent, l’estimateur de θ est construit par injection en notant

Z
2
θn = fn,h
b (x)w(x)dx (9.3)
ici h = hn ↓ 0 vérifiera d’autres conditions indiquées plus loin.

R 2
Posons θn = (Efn,h ) (x)w(x)dx, il vient
θbn − θ = θbn − θn + θn − θ
Z
2
= (fn,h (x) − Efn,h (x)) w(x) dx
Z
+ (fn,h (x) − Efn,h (x)) (2Efn,h (x))w(x)) dx
Z
2
(x) − f 2 (x) w(x)dx

+ Efn,h
Z
2 1
= (fn,h (x) − Efn,h (x)) w(x) dx + O + h2
nh
les O sont obtenus dans L1 et donc en probabilité, en utilisant les contrôles de

variance et de biais prouvés dans le théorème 9.10.
Théorème 9.11 Sous les hypothèses précédentes,

√
L
n θen − θ →n→∞ N (0, V )
si V = 4Var (f (X1 )w(X1 )), lorsque nh2n → 0 et nh4n → ∞.

Preuve. Posons v(x) = 2f (x)w(x), les remarques qui précèdent nous ramènent
à l’étude de
Z n
1X
(fn,h (x) − Efn,h (x)) v(x) dx = (v(Xi ) − Ev(Xi ) + ∆i − E∆i )
n i=1
la
R somme précédente est une somme de variables indépendantes avec ∆i =
K(s)(v(Xi + sh) − v(Xi ))ds, car les conditions sur h = hn prouvent que les
termes de restes peuvent être négligés. Pour conclure, on utilise le théorème
de limite centrale avec les variables iid v(Xi ) et le théorème de convergence
dominée permet de montrer que E∆2i → 0, et donc :
1X
E(∆i − E∆i )2 → 0
n i
Remarque. L’estimation de l’information de Fisher, I(f ) = f 02 /f , est pos-

R
sible sous des conditions comparables.

0
Pour l’envisager, on notera que fn,h est aussi un estimateur consistant de
0
f et qu’il est asymptotiquement gaussien (avec une normalisation distincte de
√
nh).
La différentiabilité de (u, v) 7→ u2 /v est alors utilisée pour obtenir
une ap-
0
proximation affine de cette fonctionnelle non linéaire du couple fn,h , fn,h .
Chapitre 10
Intervalles de confiance
10.1 Régions de confiance

Commençons par le cas de la moyenne d’une gaussienne X ∼ N (θ, 1), où
θ ∈ R est un paramètre et σ 2 > 0 est fixé. Ici, par définition on peut décomposer
X = θ + N avec N ∼ N (0, 1), sous la loi Pθ . Par suite
P(N ∈ [a, b]) = Φ(b) − Φ(a)
Z x
2 dt
= Φ(b) + Φ(−a) + 1 où Φ(x) = e−x /2
√
−∞ 2π
ainsi, ayant choisi a, b tels que P(N ∈ [a, b]) = α, nous écrivons
Pθ (X ∈ [a − θ, b − θ]) = 1−α
= Pθ (θ ∈ [b − X, a − X])
comme la probabilité que le paramètre courant soit dans un intervalle aléatoire
(fixé par l’expérience X). Le sens de l’événement (θ ∈ [b − X, a − X]) est bien
l’ensemble des ω ∈ Ω tels que θ ∈ [b − X(ω), a − X(ω). Plus généralement, on
définit :
Définition 10.1 Soit X une observation du modèle statistique (Pθ )θ∈Θ , un in-
tervalle de confiance (IC(α)) de niveau α ∈ [0, 1] pour une fonction du pa-
ramètre, g(θ) ∈ R, est un intervalle I(X) = [a(X), b(X)] d’extrémités aléatoires
et tel que Pθ (g(θ) ∈
/ I(X)) = α.
Lorsque g(θ) ∈ / R, on parlera de région de confiance de niveau α pour toute
partie de R(X) ⊂ g(Θ) telle que Pθ (g(θ ∈ / R(X)) = α.
L’intervalle de confiance IC(X) = [u− (X), u+ (X)] est celui dans lequel se trouve
la fonction g(θ) du paramètre, avec la (petite) contre-probabilité α.
Dans l’exemple initial, g(θ) = θ est aussi la moyenne de X sous la loi Pθ . Si
l’intervalle est équilibré, P(N > ϕ+ ) = P(N < ϕ− ) = α/2 alors ϕ+ = −ϕ− =
ϕ1−α/2 est un α2 −quantile de la loi normale ; des valeurs approchées en sont
1, 96 si α = 5% et 3 si α = 1%.
105
106 CHAPITRE 10. INTERVALLES DE CONFIANCE
10.1.1 Critère de taille

Une manière de justifier le choix d’intervalles de confiance symétriques est
l’énoncé très géométrique suivant qui mesure la qualité d’un intervalle de confiance
de niveau α par sa longueur.
Définition 10.2 On dit que f : R → R+ est unimodale lorsqu’elle admet un

seul maximum, appelé mode de f . On suppose aussi qu’elle est croissante avant
ce maximum et symétrique par rapport à ce mode.
Lemme 10.1 Soit f : R → R+ , la densité d’une variable aléatoire X par rap-

port à la mesure de Lebesgue.
Soit α > 0, fixé, si f est unimodale, de mode 0, alors un couple (a, b) tel que
a = −b minimise la longueur b−a des intervalles vérifiant P(X ∈ [a, b]) = 1−α.
Ce lemme justifie la forme symétrique de la majorité des intervalles de confiance

que l’on rencontrera en pratique.
10.1.2 Critère asymptotique

L’étude asymptotique qui suit conduit à la même conclusion : il est souvent
bon d’utiliser des intervalles symétriques.
La moyenne empirique X = n1 (X1 + · · · + Xn ) d’un n-échantillon réel, iid,
dans un modèle statistique (P Pθn)θ∈Θ estime2 sans biais g(θ) = Eθ X1 ; la va-
1
riance empirique S 2 = n−1 i=1 (Xi − X) estime, elle, Var θ X1 sans biais
et de manière consistante (lorsque cette expression existe). Ceci implique qu’un
intervalle de confiance√de niveau asymptotique α√s’écrit [an (X (n) , bn (X (n) ], où
an (X (n) ) = X − Sϕ+ / n, bn (X (n) ) = X + Sϕ− / n avec X (n) = (X1 , . . . , Xn ).
De plus, limn Pθ (g(θ) ∈ [an (X (n) ), bn (X (n) )]) = α. En effet
√ X − g(θ)

Pθ g(θ) ∈ [an (X (n) ), bn (X (n) )] = Pθ n ∈ [ϕ− , ϕ+ ]
S
→n→∞ P(N ∈ [ϕ− , ϕ+ ]) = 1 − α
Considérons, par exemple, un modèle de Bernoulli iid b(θ), alors

!
√ X − θ
Pθ n p ≤ ϕ1−α/2 →n→∞ 1 − α (10.1)
θ(1 − θ)
Ceci fournit la zone de rejet d’un test au niveau asymptotique α, mais résoudre
une inéquation du second degré conduit à écrire le même événement comme
intervalle de confiance [θ+ (X), θ− (X)] avec
2
q
2
X + u2 ± u u4 + (1 − X)X ϕ1− α
±
θ (X) = 2
, où u = √ 2 (10.2)
1+u n
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 107
10.1.3 Critère de dualité

Il existe aussi une correspondance entre les régions de confiance et la zone
de rejet d’un test.
Théorème 10.1 (de dualité) Soit R(θ0 ) la zone de rejet d’un test non ran-
domisé au niveau α de l’hypothèse Θ0 contre Θ1 = Θc0 , ainsi
sup Pθ0 (X ∈
/ R(θ0 )) = α.
θ0 ∈Θ0
Supposons l’application θ 7→ R(θ) définie pour tout θ ∈ Θ, alors une région de

confiance de niveau inférieur à α pour le paramètre θ est donnée par la relation
R(X) = {θ ∈ Θ| X ∈ R(θ)}.
Réciproquement, cette relation associe la zone de rejet R(θ0 ) d’un test de
niveau inférieur à α à toute région de confiance R(X).
Ainsi lorsque l’hypothèse nulle est simple Θ0 = {θ0 }, on acceptera l’hypothèse

θ = θ0 à la condition que θ0 soit dans notre région de confiance de niveau α.
Une autre manière de classer les régions de confiance que celle fondée sur leur
mesure de Lebesgue consiste donc à considérer les qualités de puissance du test
qui leur est associé.
10.2 Exemples d’intervalles de confiance

10.2.1 Modèle gaussien
Le premier exemple gaussien nécessitait la connaissance de la variance (elle
y était choisie valant 1). Si, donc, X1 , . . . , Xn sont iid ∼ N (µ, σ 2 ) et si on pose
Θ = {θ = (µ, σ 2 )| µ ∈ R, σ 2 ∈ R+∗ }, alors le théorème de Cochran prouve que
√
T (µ) = n X−µ S suit une loi de Student t(n − 1), ainsi

tn−1,1−α/2 S tn−1,1−α/2 S
I1 = X − √ ,X + √
n n
est un IC(α) pour le paramètre µ.

De plus V = (n − 1)S 2 /σ 2 ∼ χ2n−1 donc un IC(α) pour le paramètre σ 2
s’écrit " #
(n − 1)S 2 (n − 1)S 2
I2 = , si α+ + α− = α
χ2n−1,1−α+ χ2n−1,α−
Ici la loi du χ2 n’est pas symétrique et il n’y a aucune raison d’équilibrer l’in-
tervalle de confiance pourvu que P(χ2n−1 ∈ / [χ2n−1,α− , χ2n−1,α+ ]) = α. Des choix
concurrents de α± sont le choix logique α± = α/2 et un choix fondée sur la
taille α− = α, α+ = 0. Un choix fondé sur le critère de dualité avec un test
dépendrait bien entendu de la contre hypothèse choisie.
La région de confiance I1 × I2 ⊂ R × R+ du paramètre θ = (µ, σ 2 ) s’en

déduit, son niveau est inférieur ou égal à 2α. Notons que le théorème de Cochran
implique aussi l’indépendance de S et T (µ) ce qui permet de voir que le niveau de
la région de confiance précédente vaut précisément 1 − (1 − α)2 = 2α − α2 < 2α.
10.2.2 Modèle linéaire

Des ellipsoı̈des de confiance en grande dimension ont déjà été déterminés
pour le cas du modèle linéaire (voir la proposition 8.1 et l’exemple de l’analyse
de la variance qui la suit).
Le modèle s’écrit X = m + Y où Y ∼ Nn (0, σ 2 In ) et m ∈ H appartient à
un sous-espace de Rn de dimension h. On note xH la projection orthogonale du
vecteur x sur H. Ainsi, XH = m + YH , et X − XH est orthogonal à XH . Un
test UPP pour tester m ∈ H est obtenu par la région de confiance

h
Pθ m ∈ / B XH , kX − XH k2 Fh,n−h,α =α
n−h
1 2
1 (h, n − h).2
si Fh,n−h désigne la loi de Fisher de paramètres
On a déjà vu pour ceci que h kXH −mk n−h kX −XH k suit la loi de Fisher
de paramètres (h, n − h).
Analyse de variance
On dispose de h ≥ 2 échantillons indépendants X (i) = (Xi,1 , . . . , Xi,ni ) de
tailles respectives n1 , . . . , nh telles que n1 + · · · + nh = n, alors
H = {(x1 1In1 , . . . , xh 1Inh ) ∈ Rn | (x1 , . . . , xh ) ∈ Rh }
est de dimension h, avec les notations immédiates 1Ij = (1, . . . , 1) ∈ Rj . Po-

P ni (i) Ph
sant Xi· = n1i j=1 Xj , si i = 1, . . . , h, et X·· = h1 j=1 Xj· il vient XH =
(X1· 1In1 , . . . , Xh· 1Inh ) et le théorème de Pythagore prouve que la variation qua-
dratique des données s’écrit
kX − X·· 1In k2 = kX − XH k2 + kXH − X·· 1In k2
somme de la variation résiduelle et de la variation intragroupe. Une région de

confiance de niveau α pour le paramètre m s’écrit
Z > Fh−1,n−h,α
1
Ph
h−1 i=1 ni (Xi· − X·· )2 0
Z = h Pni (i)
∼ Fh−1,n−h,ρ ,
1
P
n−h i=1 j=1 (Xj − Xi· )2
h
X
ρ = km· 1Ih − mk2 = ni (Xi· − X·· )2
i=1
10.2. EXEMPLES D’INTERVALLES DE CONFIANCE 109
Régression linéaire
Ici Y = (Y1 , . . . , Yn ) ∼ Nn (0, σ 2 In ) et, pour un plan d’expérience (déterministe)
z = (z1 , . . . , zn ) ∈ Rn , fixé,
Xi = a + bzi + Yi , i = 1, . . . , n
Ainsi, m = a 1In + bz ∈ H, l’espace vectoriel de dimension 2 engendré par les
vecteurs 1In = (1, . . . , 1), z ∈ Rn . Notant
n n
1X 1X
Cov(X, z) = (Xi − X)(zi − z), Var z = (zi − z)2
n i=1 n i=1
on a
bb = Cov(X, z) , a = X − zbb
b
Var z
Un intervalle de confiance de niveau α pour le paramètre (a, b) ∈ R2 , s’écrit
grâce à la relation

2
Pθ (a, b) ∈
/B a, bb , ρF2,n−2 , α =α
n−2
b
Pn 2 P 2
n
où ρ = kX − XH k2 = i=1 Xi − b a − bbzi = i=1 Xi − X − bb(zi − z) .
10.2.3 Dimension infinie

On considère encore un n−échantillon iid réel et, cette fois-ci l’ensemble Θ
est celui de toutes les lois continues sur R. Alors, on a déjà vu que la statistique
Dn (F ) = supt∈R |Fn (t) − F (t)| a une
P loi indépendante de la vraie fonction de
répartition F de X1 si Fn (t) = n1 i=11I{Xi ≤t} . Par suite le (1 − α)-quantile
dn,1−α de la loi de Dn ne dépend pas du paramètre, F mais seulement de n. La
région de confiance suivante découle du théorème 10.1 de dualité
P (F (t) ∈ [0 ∨ (Fn (t) − dn,1−α ), 1 ∧ (Fn (t) + dn,1−α )] , ∀t ∈ R) = 1 − α.
Proposition 10.1 Supposons que Θ = [θ− , θ+ ] soit un intervalle. On tire un
n-échantillon iid X1 , . . . , Xn d’un modèle à rapport de vraisemblance monotone
en T (X). Supposons que la fonction de répartition t 7→ Fθ (t) de la loi de X1
est à la fois continue en t et en θ. Si nous supposons que pour chaque α > 0, il
existe θα± (t) tels que Fθα− (t) (t) = 1 − α et Fθα+ (t) (t) = α alors [θα−1 (t), θα+2 (t)] est
un intervalle de confiance pour F (t) au niveau α = α1 + α2 .
De plus cet intervalle de confiance est associé à un test UPP(α) pour tester les
hypothèses
– θ = θ0 contre θ > θ0 de zone de rejet T (X) > tα ; α1 = 0, α2 = α et l’IC
s’écrit ] − ∞, θα+ (t)],
– θ = θ0 contre θ < θ0 de zone de rejet T (X) > tα ; α2 = 0, α1 = α et l’IC
s’écrit [θα− (t), ∞[,
– θ = θ0 contre θ 6= θ0 de zone de rejet T (X) > tα ; α2 + α1 = α et l’IC
s’écrit [θα−1 (t), θα+2 (t)].
Remarque et complément
D’autres exemples de tests donnés en dimension finie sont fondés sur le
comportement asymptotique d’estimations d’une densité. Pour simplifier nous
estimons f par un estimateur à noyau fn,h asymptotiquement sans biais quant
h = h(n) →n→∞ 0. Des tests dans Rk sont par exemple fondés sur le fait prouvé
plus haut que
Z
2
(Zn (x1 ), . . . , Zn (xk )) →n→∞ Nk 0, u (s)ds · Ik
√ p
lorsque Zn (x) = nh(fn,h (x) − Efn,h (x))/ f (x) quand x1 , . . . , xk ∈ R sont
distincts. Pk
Ainsi l’expression j=1 Zn2 (xj ) converge en loi vers u2 (s)ds · χ2k . Lorsque k
R
p
augmente, le théorème de Lindeberg implique que (χ2k −k)/ Var χ2k → N (0, 1),
ici Var χ2k = 2k et on prouve aussi (avec plus de difficulté) qu’il existe σ(f ) ne
dépendant que de f tel que
Z
1
√ (Zn2 (x) − EZn2 (x))w(x)dx →n→∞ N (0, σ 2 (f ))
h
lorsque f 2 (x)w(x)dx < ∞ pour une fonction w ≥ 0, pour en déduire des

R
ensembles de confiance pour f qui sont des boules de L2 (w(x)dx).

Bibliographie
[1] Peter Bickel, Kjell Doksum (2001) Mathematical statistics. Basic Ideas and
selected topics, volume I. Prentice Hall.
[2] Peter Bickel, Chris Klaasen, Ya’acov Ritov, Jon A. Wellner (1993) Efficient
and adaptive estimation for semi-parametric models. Johns Hopkins Series
in the Mathematical Sciences.
[3] P. G. Ciarlet (1982). Introduction à l’analyse numérique matricielle et à
l’optimisation. Masson.
[4] David, R. Cox, David V. Hinkley (1974). Theoretical Statistics. Chapman
& Hall.
[5] Didier Dacunha-Castelle, Marie Duflo (1982). Probabilités et statistiques
(en deux volumes). Masson.
[6] Claude Deschamps, André Warusfel, François Moulin, Jean François Ruaud,
Anne Miquel, Jean-Claude Sifre (1999). Cours tout en un, Mathématiques
1ère année (Série E. Ramis), Dunod.
[7] Paul Doukhan (2003) Processus empirique, notes du cours SE328 de
troisième année, 61 pages.
[8] Paul Doukhan, Jean-Claude Sifre (2001) Analyse réelle et intégration.
Agrégation de mathématiques - Cours d’analyse, volume 2, Dunod.
[9] Paul Doukhan, Jean-Claude Sifre (2002). Calcul différentiel, intégration et
probabilités. Agrégation de mathématiques - Cours d’analyse, volume 2,
Dunod.
[10] Jaroslav Hajek, Z. Sidak, Prakar Sen (1999). Theory of rank tests. Acade-
mic Press.
111

StatM1 Poly P Doukhan

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

StatM1 Poly P Doukhan

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Statistiques, M1

Estimation et introduction aux tests

2 Les points de vue statistiques 19

4.6 Modèle uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

9 Tests non paramétriques 89

9.2.2 Cas de deux échantillons . . . . . . . . . . . . . . . . . . . 95

10 Intervalles de confiance 105

Ces notes de cours sont évidemment une version préliminaire et je serai

Paris, le 18 janvier 2013.

Dans la fabrication d’objets manufacturés, on suppose qu’une proportion

– On justifie ensuite le fait naturel que la probabilité empirique (proportion

1.1 Résumer l’information

alors Sn ∼ B(n, θ) suit une loi binomiale :

Pθ (Sn = s) = Cns θs (1 − θ)n−s , s = 0, 1, . . . , n.

En effet pour z ∈ C, la fonction génératrice de sa loi s’écrit

grâce à l’indépendance des Xi .

car, lorsque Sn = s, exactement s des n variables aléatoires Xi prennent la

Eθ (T − Te)2 = Eθ T 2 + Eθ Te2 − 2Eθ T Te = Eθ T 2 − Eθ Te2

1.2 Moyenne empirique

Proposition 1.1 Soit T = h(Sn ) un estimateur sans biais de θ, fonction de la

{∀θ ∈ [0, 1], Eθ g(Sn ) = 0} ⇒ g ≡ 0

Proposition 1.2 Lorsque n ↑ ∞, X → θ en Pθ -probabilité et même presque

Lorsque i 6= j ou k 6= ` on a Eθ Yi Yj Yk Y` = 0 par indépendance ; de plus

|Eθ Yi Yj Yk Y` | ≤ Eθ Y14 ≤ 23 (Eθ X14 + θ4 ) ≤ 16θ, donc

≤ e−atn Eθ etSn = exp (−n(at − Lθ (t))

1.3 Maximum de vraisemblance

1.4 Estimation bayésienne

L’estimateur bayésien de θ est celui qui minimise Rν (T ). Posons

Ce qui précède tend à privilégier un estimateur exhaustif de la forme T = g(Sn )

L’expression Rν (T ) est minimisée par T = g(Sn ) avec

1.5 Intervalles de confiance

On dit que I(X) est un intervalle de confiance (exact) au niveau α.

1.6 Intervalles de confiance asymptotiques

Lemme 1.1 (Slutsky) Soient Un , Vn deux suites de variables aléatoires (réelles

Alors, si la fonction continue f : R2 → R ((u, v) 7→ f (u, v)) est dérivable par

La loi des grands nombres, combinée au théorème centrale limite conduit,

L’intervalle de confiance approché

1.7 Contrôle de qualité

On acceptera l’hypothèse θ ≤ θ0 lorsque l’observation est telle que Sn < kα , et

Proposition 1.3 a) Soit k ∈ {0, 1, . . . , n}, quelconque, alors l’application θ 7→

La probabilité de rejeter l’hypothèse θ ≤ θ0 à tort est le niveau du test ainsi

en utilisant la proposition 1.3. Un autre caractère du test est de savoir si on a

Évidemment, des tests différents pourraient être développés ; on pensera à

1.8 Tests asymptotiques

Par suite, pour n grand, on a pour Y ∼ N (0, 1) normale standard de

Définition 1.1 On pose ϕα ∈ R, l’unique valeur réelle telle que

Cette valeur est aussi appelée α−quantile de la loi normale.

1.9 Validité de l’asymptotique∗

Théorème 1.3 Soit  > 0 fixé, alors,

uniformément pour θ ∈ [, 1 − ], si on pose

Pour prouver ce résultat, on aura besoin du lemme 1.2 qui suit.

Lemme 1.2 (Lindeberg) Soit X1 , X2 , X3 , . . . une suite réelle indépendante

Preuve du lemme 1.2. Posons Uk = X1 + · · · + Xk−1 + Yk+1 + · · · + Yn pour

Pour conclure, on montrera en exercice que pour chaque η > 0 et chaque u ∈ R,

Les points de vue

Plusieurs points de vue prévalent dans l’étude des questions statistiques.

2.1 Analyse des données

L’ellipsoı̈de E = {u ∈ Rd | ut Au ≤ 1} est une partie bornée de Rd lorsque la

pour inférer la sensibilité à une affection spécifique a une importance clai-

où λ1 ≥ λ2 ≥ · · · ≥ λd désignent les valeurs propres de A rangées par

– Analyse des correspondances. Celle-ci recherche les composantes les

C’est-à-dire que cette convergence vaut pour presque chaque ω de l’espace

2.2 Statistique inférentielle classique

Remarque et notation. Dire que l’observation suit la loi Pθ signifiera, dans

Théorème 1.3 Soit > 0 fixé, alors,

uniformément pour θ ∈ [, 1 − ], si on pose

Rappel. Le théorème de Radon-Nikodym prouve, en effet, que si Pθ µ,