Vous êtes sur la page 1sur 80

Cours de Statistique Mathématique1

Dr. Jude Eggoh


Enseignant-Chercheur/FASEG/Univ. d’Abomey-Calavi (Bénin)

Année académique : 2017-2018


Licence 3 - Economie Appliquée

1
Ce cours est en version provisoire et ne doit être cité ni di¤usé sans l’autorisation
de l’auteur. Les remarques, commentaires et suggestions sont les bienvenues. E.mail.
jude.eggoh@yahoo.fr
Table des matières

1 Vecteurs aléatoires 4
1.1 Fonction de répartition et densité . . . . . . . . . . . . . . . . . . 5
1.1.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . 5
1.1.2 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Changement de variable dans une densité . . . . . . . . . 6
1.2 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Densité marginale d’un vecteur aléatoire . . . . . . . . . . . . . . 8
1.4 Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Espérances conditionnelles et partielles . . . . . . . . . . . . . . . 13
1.7.1 Espérances itérées . . . . . . . . . . . . . . . . . . . . . . 13
1.7.2 Cas particulier de l’espérance conditionnelle : l’espérance
partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Coe¢ cient de corrélation . . . . . . . . . . . . . . . . . . . . . . . 15

2 Moments et lois de probabilités 16


2.1 Les Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Moments théoriques . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Moments empiriques . . . . . . . . . . . . . . . . . . . . . 18
2.2 Principales lois de probabilité . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Propriétés générales d’un estimateur 27


3.1 Estimation sans biais . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Estimateur asymptotiquement sans biais . . . . . . . . . . . . . . 29
3.3 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . 30
3.4.1 Décomposition biais-variance du risque . . . . . . . . . . . 31
3.4.2 Comparaison des variances des estimateurs sans biais . . 31
3.4.3 E¢ cacité d’un estimateur . . . . . . . . . . . . . . . . . . 34
3.4.4 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . 35

1
4 L’estimation 36
4.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Estimation par la méthode des moments . . . . . . . . . . 36
4.1.2 Estimation par la méthode du maximum de vraisemblance 39
4.2 Estimation par intervalle de con…ance . . . . . . . . . . . . . . . 45
4.2.1 Estimation par intervalle de con…ance d’une moyenne . . 45
4.2.2 Estimation par intervalle de con…ance d’une variance . . . 48
4.3 Estimation dans une population …nie d’e¤ectif N . . . . . . . . . 48
4.3.1 Estimation d’une proportion p . . . . . . . . . . . . . . . 48
4.3.2 Estimation de la moyenne m et de l’écart-type d’une
grandeur X distribuée sur une population …nie . . . . . . 49
4.4 Remarques sur l’estimation robuste . . . . . . . . . . . . . . . . . 49
4.4.1 Quelques estimateurs robustes de tendance centrale . . . 50
4.4.2 L’estimateur Jackknife . . . . . . . . . . . . . . . . . . . . 51

5 Tests statistiques 53
5.1 Introduction générale à la théorie des tests . . . . . . . . . . . . . 54
5.2 Test entre deux hypothèses simples . . . . . . . . . . . . . . . . . 59
5.2.1 La méthode de Neyman et Pearson . . . . . . . . . . . . . 59
5.2.2 Etude de 1 : puissance du test . . . . . . . . . . . . . 61
5.3 Test entre hypothèses composites . . . . . . . . . . . . . . . . . . 65
5.3.1 Test d’une hypothèse simple contre une hypothèse composite 65
5.3.2 Test entre deux hypothèses composites . . . . . . . . . . . 66
5.3.3 Test de rapport des vraisemblances maximales (LR) . . . 67
5.3.4 Le critère de Wald . . . . . . . . . . . . . . . . . . . . . . 69
5.3.5 Le critère des multiplicateurs de Lagrange . . . . . . . . . 70
5.3.6 Comparaison des trois critères . . . . . . . . . . . . . . . 71
5.4 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.4.1 Les méthodes empiriques . . . . . . . . . . . . . . . . . . 73
5.4.2 Le test du 2 . . . . . . . . . . . . . . . . . . . . . . . . . 77

2
Ce cours est destiné à des étudiants disposant de notions de base en statis-
tique descriptive. Il a pour objectif de familiariser les étudiants à des concepts
de statistiques approfondies et les prépare au cours d’économétrie. Il est accom-
pagné de travaux dirigés (TD) qui fournissent des applications pratiques aux
notions théoriques développées dans le cours.
Ce cours présente les bases théoriques de la modélisation statistique, essen-
tiellement dans un cadre paramétrique. L’approche inférentielle est privilégiée,
et l’on traitera avant tout des méthodes d’estimation des paramètres, ainsi que
de leurs propriétés, notamment en terme d’optimalité (asymptotique ou à dis-
tance …nie). La théorie des tests d’hypothèses sera aussi abordée. La bibliogra-
phie suivante a été utilisée pour préparer le cours.

– [1] Gouriéroux, C. et Monfort, A. (1996), Statistique et modèles éonomé-


triques, Edition Economica Tome 1.
– [2] Kau¤man, P. (1994), Statistique : Information - Estimation - Tests,
Edition Dunod.
– [3] Lecoutre, J-P. (2002), Statistique et Probabilité, Edition Dunod.
– [4] Lecoutre, J-P., Legait-Maille, S. et Tassi, P. (1990), Statistique : exer-
cices corrigés avec rappels de cours, Edition Masson, 2eme Edition com-
plétée.
– [5] Monfort, A. (1997), Cours de Statistique Mathématique, Edition Eco-
nomica.
– [6] Pestman, W. (2000), Mathematical Statistics, Edition Gruyte.
– [7] Saporta, G. (2004), Probabilités, Analyse des Données et Statistique,
Editions Technip.
– [8] Tassi, P. (1989), Méthodes Statistiques, Edition Economica, 2eme Edi-
tion.
– [9] Wonnacott, T. et Wonnacott, R. (1995), Statistique : Economie - Ges-
tion - Sciences - Médecine (avec exercices d’application), Publication :
1995 (4eme édition, première en 1972), Edition Economica.

3
Chapitre 1

Vecteurs aléatoires

La notion de vecteur aléatoire a pour but de généraliser le concept tra-


ditionnel de variable aléatoire. Un vecteur aléatoire n’est rien d’autre qu’une
variable aléatoire multidimentionnelle, dont les valeurs, au lieu d’être réelles, ap-
partiennent à R2 , R3 et plus généralement, à Rn (n 2 N ). En d’autres termes,
si nous nous plaçons en dimension 2, un vecteur aléatoire X = [x1 x2 ] est un
vecteur dont chacune des composantes est elle-même une variable aléatoire.

Dé…nition 1 On peut associer à tout résultat possible ! d’une expérience aléa-


toire un vecteur X (!) 2 Rk . Si pour tout x = (x1 ; :::; xk ) 2 Rk , l’ensemble :

f!=Xi (!) xi ; i = 1; :::; kg

est un ensemble dont on peut calculer la probabilité, la fonction X (!) est dite
mesurable et X porte le nom de vecteur aléatoire. Il est discret si X (!) prend
ses valeurs dans un ensemble dénombrable, continu sinon.

4
1.1 Fonction de répartition et densité

1.1.1 Fonction de répartition

Soit F une application de Rk dans R dé…nie par :

F (x1; x2 ; :::; xk ) = P (X1 < x1 ; :::; Xk < xk )

Cette expression est valable dans le cas discret et continu. Par contruction,
F est à valeur dans l’intervalle [0; 1]. Cette fonction constitue une extension du
concept de fonction de répartition associée à une variable aléatoire réelle.

1.1.2 Densité

– Cas discret :

f (x1 ; :::; xk ) = P (X1 = x1 ; :::; Xk = xk )

– Cas continu : la fonction de densité est la fonction dont l’intégrale donne


la fonction de répartition. Formellement, fX = fX1 ;:::;Xk est la densité du
vecteur X = (X1 ; :::; Xk ) si :
Z xk Z x1
FX (x1 ; :::; xk ) = ::: fX (u1 ; :::; uk ) du1 :::duk
1 1

Une densité associée à un vecteur aléatoire a des propriétés comparables à


une densité de probabilité d’une variable aléatoire. Compte tenu de la complexité
liée à l’énoncé formelle de ces propriétés, nous proposons une version simpli…ée
su¢ sante pour traiter les densités des lois usuelles :

Propriété 2 Une densité est à valeur dans R+ , donc positive, sauf éventuelle-
ment en un nombre limité de points isolés de R2 ou (Rk selon le cas).

Propriété 3 Si fX est une densité associée à un vecteur aléatoire de dimension


k, alors : Z Z
+1 +1
::: fX (u1 ; :::; uk ) du1 :::duk = 1
1 1

5
Propriété 4 Si fX est une densité associée à un vecteur aléatoire X de di-
mension k, il est possible de construire une autre densité gX associé à X, en
modi…ant arbitrairement les valeurs de fX en un nombre limité de points isolés
de Rk :

Exemple 5 – Cas discret : Le tableau suivant donne les valeurs de deux


variables X et Y et les probabilités que le couple (X; Y ) prenne la valeur
(x; y) :
X
0 1 2
Y 0 0,20 0,20 0,10 0,5
1 0,40 0,05 0,05 0,5
0,60 0,25 0,15
On obtient : fX;Y (0; 0) = 0; 2 ; fX;Y (0; 1) = 0; 4 ; FX;Y (1; 0) = 0; 4 ;
FX;Y (1; 1) = 0; 85 ; etc...
– Cas continu :

1 x2 y2
fX;Y (x; y) = exp
2 1 2 2 21 2 22

(densité jointe de deux variables normales centrées indépendantes). En in-


tégrant cette densité sur [a; b] [c; d], on obtient : P [(a X b) \ (c Y d)] :

1.1.3 Changement de variable dans une densité

E¤ectuons le changement de variable dé…ni par : Yi = 'i (X1 ; X2; ::::; Xk ) :


Les fonctions 'i étant telles le passage de (X1 ; X2; ::::; Xk ) à (Y1 ; Y2; ::::; Yk ) est
biunivoque. Nous désignerons en abrégé par ' la transformation :

' : X 7 ! Y telle que Y = ' (X)

La densité du vecteur Y s’obtient alors par la formule suivante :

f ' 1 (y)
g (y) =
jdet Jj

6
où det J, appelé jacobien de la transformation, est tel que :
@y1 @yk
@x1 :::::::: @x1
:
det J = :
:
@y1 @yk
@xk @xk
@x1 @x1
@y1 :::::::: @yk
:
1 1
(det J) = : = det J
:
@xk @xk
@y1 @yk

La démontration de cette propriété …gure dans tous les ouvrages consacrés à


l’intégration (changement de variables dans les intégrales multiples). Elle pourra
être e¤ectuée en TD si le temps le permet.
Si la transformation ' est linéaire de matrice A constante, Y = AX (A doit
être régulière), on a det J= jAj : En particulier, si ' est une transformation
orthogonale le jacobien vaut 1.

1.2 Fonction caractéristique

Soit a un vecteur non aléatoire de composantes (a1 ; a2 ; :::; ak ).

Dé…nition 6 On appelle fonction caractéristique du vecteur aléatoire X la fonc-


tion de l’argument vectoriel a dé…nie par :

'X (a) = [exp (ia0 X)] = E [exp (i (a1 X1 + a2 X2 + ::: + ak Xk ))]

Théorème 7 Les composantes X1 ; X2 ; :::; Xk de X sont indépendantes si et


seulement si la fonction caractéristique de X est égale au produit des fonctions
caractéristiques de ses composantes :
k
Y
'X (a) = 'Xi (ai )
i=1

7
Si les Xi sont indépendantes l’espérance d’un produit de fonctions des Xi
est égale au produit des espérances donc :

E [exp (ia0 X)] = E [exp (ia1 X1 )] E [exp (ia2 X2 )] :::E [exp (iak Xk )]

ce qui démontre une partie de la proposition.


La réciproque plus délicate utilise l’inversion de la fonction caractéristique
est omise.
Le résultat suivant fondamental permet de dé…nir des lois de probabilités à
p dimensions à partir des lois unidimensionnelles.

Théorème 8 (THEOREME DE CRAMER-WOLD)


La loi de X est entièrement déterminée par celles de toutes les combinaisons
linéaires de ses composantes.

Pk
Posons en e¤et Y = a0 X = i=1 ai Xi et cherchons la fonction caractéris-
tique de Y :
'Y (t) = E [exp (itY )] = E [exp (ita0 X)]

d’où 'Y (1) = 'X (a) : Si la loi de Y est connue pour tout a on connaît donc
la fonction caractéristique de X donc la loi de X.

Dans la suite de ce chapitre, pour des raisons de simplicité, nous supposerons


que le vecteur aléatoire est de dimension 2.

1.3 Densité marginale d’un vecteur aléatoire

Soit V = [X Y ] un vecteur aléatoire. Par dé…nition, la loi marginale de X


(resp. Y ) est la loi de la variable aléatoire réelle X (resp. Y ) considérée isolément
(abstraction faite de la seconde variable).

8
– Dans le cas d’un vecteur à composantes discrètes, on appelle fréquence
marginale associée à X (resp. Y ) l’expression de fX (resp. fY ) suivante :
X
fX (xi ) = fX;Y (xi ; yj )
j
X
fY (yj ) = fX;Y (xi ; yj )
i

– Dans le cas d’un vecteur à composantes continues, on appelle densité mar-


ginale associée à X (resp. Y ) l’expression suivante :
Z +1
fX (x) = fX;Y (x; y) dy
1
Z +1
fY (y) = fX;Y (x; y) dx
1

Exemple 9 – Pour les densités jointes données dans l’exemple 1.2 : fX (0) =
0; 6 ; fX (1) = 0; 25 ; fX (2) = 0; 15 ; fY (0) = 0; 5 ; fY (1) = 0; 5:
– Cas continu :
Z +1
1 x2 y2
fX (x) = exp 2 dy
1 2 1 2 2 1 2 22
Z +1
1 x2 1 y2
= p exp p exp dy
1 2 2 21 1 2 2 2 22
| {z }
=1
1 x2
= p exp :
1 2 2 21
1 y2
fY (y) = p exp :
2 2 2 22

Dans les trois sections qui vont suivre nous étudions la conditionnalité, l’indé-
pendance et la covariation entre les composantes d’un vecteur aléatoire. Cette
modélisation o¤re une représentation théorique des phénomènes aléatoires si-
multanés et, en général, indépendants.

1.4 Densité conditionnelle

Soient X et Y les composantes d’un vecteur aléatoire V , dont la densité


associée est fX;Y (:). fX et fY sont les densités marginales associées aux variables

9
aléatoires X et Y .
– Dans le cas discret, les densités conditionnelles s’obtiennent à partir de la
dé…nition d’une probabilité conditionnelle :
P (A \ B)
P (A=B) =
P (B)
donc :
fX;Y (xi ; yj )
fX=Y (xi =yj ) = , avec fY (yj ) 6= 0:
fY (yj )
– Cas continu :
fX;Y (x; y)
fX=Y (x=y) = , avec fY (y) 6= 0:
fY (y)
La densité fX=Y (x=y) est bien pour tout y, une fonction de densité. En e¤et,
Z +1 Z +1
1 fY (y)
fX=Y (x=y) dx = fX;Y (x; y) dx = = 1:
1 f Y (y) 1 fY (y)

NB : Cette fonction dépend d’une réalisation particulière de Y . Cette fonc-


tion est donc aléatoire car Y est aléatoire (on peut dire aussi qu’elle dépend
d’un paramètre aléatoire).

Exemple 10 – Cas discret : pour les densités jointes précédentes : fX=Y (0=0) =
0; 4 ; fX=Y (1=0) = 0; 4 ; fX=Y (2=0) = 0; 2 ; les valeurs de fX=Y (x=1) sont
celles d’une autre densité.
– Cas continu : on avait fX=Y (x; y) = fX (x) fY (y). Donc fX=Y (x=y) =
fX (x) :

1.5 Indépendance

Soient X et Y les composantes d’un vecteur aléatoire V , dont la densité


associée est fX;Y . fX et fY sont les densités marginales associées aux variables
aléatoires X et Y . X et Y sont dites indépendantes, lorsque la distribution condi-
tionnelle de X sachant Y ne dépend pas de Y , et la distribution conditionnelle
de Y sachant X ne dépend pas de X.

10
– Cas discret : X et Y sont indépendantes si pour tout i et pour tout j, on
a:
fX;Y (xi ; yj ) = fX (xi ) fY (yj )

Dans l’exemple précédent, X et Y ne sont indépendantes car :

fX;Y (0; 0) = 0; 2 6= fX (0) fY (0) = 0; 3:(0; 6 0; 5)

– Cas continu : X et Y sont indépendantes si pour tout x et pour tout y,


on a :
fX;Y (x; y) = fX (x) fY (y)

Dans l’exemple précédents (cas continu), on a l’indépendance.

Propriété 11 Si X et Y sont indépendantes, alors E (XY ) = E (X) E (Y ). La


réciproque n’est pas vraie en général.

Exercise 12 Démontrer la propriété précédente dans le cas continu.

1.6 Covariance

Soient X et Y deux variables aléatoires, composantes d’un vecteur aléatoire


V , dont la densité associée est fX;Y (:). La covariance est donnée par l’expression
suivante :
Z Z
Cov (X; Y ) = [x E (X)] [y E (Y )] fX;Y (x; y) dxdy
x y
= E ([X E (X)] [Y E (Y )])

Exercise 13 Montrer que Cov (X; Y ) = E (XY ) E (X) E (Y )

11
Propriété 14 Si X et Y sont indépendantes, alors Cov(X; Y ) = 0. La réci-
proque n’est pas vraie en générale.

Preuve. Contre exemple montrant que la réciproque n’est pas vraie

Propriété 15 Cov (X; Y ) = Cov (Y; X). En e¤ et :

E ([X E (X)] [Y E (Y )]) = E ([Y E (Y )] [X E (X)]) :

L’opérateur est donc symétrique.

Propriété 16 Cov (X; Y ) = E (XY ) E (X) E (Y ). En e¤ et,

E ([X E (X)] [Y E (Y )]) = E [XY XE (Y ) E (X) Y + E (X) E (Y )]

donc Cov (X; Y ) = E (XY ) E (X) E (Y ) E (X) E (Y ) + E (X) E (Y )

Par conséquent Cov (X; Y ) = E (XY ) E (X) E (Y ).

Propriété 17 Quel que soit ( ; ) 2 R2 ,

Cov ( X + Z; Y ) = Cov (X; Y ) + Cov (Z; Y )

où Z est une variable aléatoire, composante du vecteur aléatoire V . (à démontrer


en guise d’exercice de maison).

Propriété 18 Cov (X; X) = V (X). (à démontrer en guise d’exercice de mai-


son).

Propriété 19 Si deux variables aléatoires sont indépendantes, alors elles sont


non corrélées. (à démontrer en guise d’exercice de maison).

Propriété 20 La matrice des variances-covariances d’un vecteur aléatoire quel-


conque de dimension 2 est une matrice symétrique positive.

12
1.7 Espérances conditionnelles et partielles

L’espérance conditionnelle s’évalue à partir de la densité conditionnelle.


P
– Cas discret : E (X=Y = yj ) = i xi fX=Y (xi =yj ) :
R +1
– Cas continu : E (X=Y = y) = 1 xfX=Y (x=y) dx:
Dans le cas de l’exemple 1.2 (cas discret), on a :

E (X=Y = 0) = 0; 4:0 + 0; 4:1 + 0; 2:2 = 0; 8

E (X=Y = 1) = 0; 8:0 + 0; 1:1 + 0; 1:2 = 0; 3

Propriété 21
E (X) = EY [E (X=Y )]

Cette propriété porte le nom de “loi des espérances itérées”. Elle est ana-
logue au théorème des probabilités totales : une espérance inconditionnellle, tout
comme une probabilité conditionnelle, peut être évaluée à l’aide d’un arbre.

1.7.1 Espérances itérées

– Loi des espérances itérées dans le cas discret :


X
E (X) = E (X=Y = yj ) P (Y = yj )
j

– Loi des espérances itérées dans le cas continu :


Z +1 Z +1
E (X) = fY (y) xfX=Y (x=y) dxdy
1 1
| {z }
E(X=Y )

Exemple pour le cas discret :


– On a vu que E (X=Y = 0) = 0; 8 et E (X=Y = 1) = 0; 3.
– Par ailleurs P (Y = 0) = 0; 5 et P (Y = 1) = 0; 5. EY [E (X=Y )] est la
moyenne des espérances conditionnelles :

EY [E (X=Y )] = E (X=Y = 0) P (Y = 0) + E (X=Y = 1) P (Y = 1)

= 0; 8:0; 5 + 0; 3:0; 5 = 0; 55:

13
– Il est facile de véri…er à l’aide de le densité marginale que 0; 55 est bien
égale à E (X) :
X
E (X) = xi P [X = xi ]
i
= 0:0; 6 + 1:0; 25 + 2:0; 15 = 0; 55:

1.7.2 Cas particulier de l’espérance conditionnelle : l’es-


pérance partielle

Dé…nition 22 L’espérance partielle est di…nie comme suit :


– Cas discret :
X
E (Y =Y a) = yj P (Y = yj =Y a)
j

– Cas continu :
Z +1
d
E (Y =Y a) = yf (y=Y a) dy où f (y=Y a) = P (Y = y=Y a) :
1 dy

Propriété 23 – Dans le cas discret :


X P (Y = yj )
E (Y =Y a) = yj
P (Y a)
fj:yj ag

– Dans le cas continu :


Z a
fY (y)
E (Y =Y a) = yj dy
1 FY (a)

Exercise 24 Démontrer la proposition précédente dans les cas discret et continu.

14
1.8 Coe¢ cient de corrélation

Dé…nition 25 Soient X et Y les composantes aléatoires d’un vecteur aléatoire


V . On appelle coe¢ cient de corrélation entre ces deux variables le réel XY

dé…ni comme suit :


Cov(X; Y )
XY =p
V (X) :V (Y )

Propriété 26 Le coe¢ cient de corrélation XY entre deux variables aléatoires


quelconques X, Y est toujours tel que :

1 XY 1

(à démontrer en exercice).

15
Chapitre 2

Moments et lois de
probabilités

2.1 Les Moments

Soit une variable aléatoire réelle (v.a.r en abrégé) continue, notée X, dont la
loi de probabilité pour une réalisation particulière x est donnée par la fonction
de densité fX (x). On rappelle que

– fX (x) 0
R1
– 1 fX (x) dx = 1
Rb
– 8 (a; b) 2 R2 , Pr(a X b) = a
fX (x) dx
– Si on note FX (:) la fonction de répartition associée à X, on a par dé…nition
Z a
FX (a) = Pr (X a) = Pr (X < a) = fX (x) dx:
1

2.1.1 Moments théoriques

Pour une variable aléatoire X, de fonction de densité fX (:), le moment


théorique d’ordre k 2 N , noté mk est dé…ni par
Z 1
k
mk = E X = xk fX (x) dx:
1

16
L’espérance d’une variable aléatoire correspond donc au moment théorique
d’ordre 1, soit Z 1
E (X) = m1 = xfX (x) dx:
1

Pour la même variable aléatoire X, le moment théorique centré d’ordre k est


donné par
h i
k
k = E (X m1 )
Z 1
k
= (x m1 ) fX (x) dx;
1

où m1 = E (X). La variance notée V ar (X) est alors dé…nie par le moment


centré d’ordre 2, soit
Z 1
2
V ar (X) = 2 = (x m1 ) fX (x) dx:
1

Propriété 27 On considère une v.a.r transformée, telle que Y = g(X). Soit


fX (:) la fonction de densité de la v.a.r. X. Le moment théorique mYk et le
Y
moment théorique centré k d’ordre k de la transformée Y sont alors dé…nis
k k
par l’espérance respective des transformées [g(X)] et [g(X) my1 ] , avec my1
R1
l’espérance de Y , c’est-à-dire my1 = E (Y ) = E [g (X)] = 1
g(x)fX (x) dx.
Soit alors
n o Z 1
k k
mYk = E [g(X)] = [g(x)] fX (x) dx;
1
n o Z 1
k k
Y
k = E [g(X) my1 ] = [g(x) my1 ] fX (x) dx:
1

Deux autres moments théoriques, à savoir les moments centrés d’ordre 3 et


4 et qui correspondent respectivement à la Skewness et à la Kurtosis de la v.a.r.
X sont parfois utiles dans certaines applications ou tests statistiques

h i
3
Skewness = 3 = E (X m1 )
h i
4
Kurtosis = 4 = E (X m1 ) :

17
La Skewness est une mesure de "l’asymétrie" de la distribution. Pour les
distributions symétriques telles que fX (m1 + x) = fX (m1 x), la valeur de la
skewness est nulle ( 3 = 0). Au contraire, pour des distributions asymétriques
la valeur de la skewness est positive (resp. négative) si la partie "l’asymétrie" de
la distribution se situe dans la direction positive (resp. négative). En d’autres
termes, si la Skewness est plus petit que 0, la distribution est asymétrique vers
la gauche. Si la Skewness est plus grand que 0, la distribution est asymétrique
à droite.

La Kurtosis est une mesure de "l’épaisseur " des queues de distribution. Lors-
qu’elle est positive, cela indique que la distribution est "pointue". Lorsque la
Kurtosis est négative, cela indique que la distribution est relativement "écra-
sée". Elle revêt une importance particulière en économétrie …nancière (et en
particulier lorsqu’on s’intéresse à la modélisation des variations des cours des
actifs …nanciers), où l’ocurrence des valeurs extrêmes - résumée par l’épaisseur
des queues de distribution - est une mesure des risques extrêmes.

2.1.2 Moments empiriques

Les moments empiriques sont les contreparties empiriques des moments théo-
riques. Plus précisément, ils sont dé…nis par les réalisations sur un échantillon
aléatoire donné, noté (X1 ; X2 ; :::; Xn ), des moments théoriques correspondants.

(k)
Ainsi, le moment empirique d’ordre k, noté X n avec k 2 N et n la taille
de l’échantillon aléatoire, est dé…ni par la v.a.r.

(k) 1 Pn
Xn = Xk:
n i=1 i

La moyenne empirique obtenue pour k = 1 et noté X n correspond à

(1) 1 Pn
Xn = Xn = Xi :
n i=1

18
(k)
De même, on dé…nit le moment empirique centré d’ordre k, noté X n;c (où
l’indice c est mis pour centré) par

(k) 1 Pn k
X n;c = Xi Xn :
n i=1

Ainsi, la variance empirique obtenue pour k = 2 et notée Sn20 est égale à1

(2) 1 Pn 2
Sn20 = X n;c = Xi Xn :
n i=1

2.2 Principales lois de probabilité

Nous présentons ici un rappel sur les lois de probabilités les plus utilisées en
statistique mathématique.

2.2.1 Lois discrètes

Loi indicatrice

On appelle variable indicatrice X la variable à valeur dans f0; 1g telle que :

px (1) = p

px (0) = q q = (1 p) avec p 2 [0; 1]

On note B (1; p) la loi de la variable X et on appelle loi indicatrice ou loi de


Bernouilli de paramètre p:
– Moments :
E (X) = p et V ar (X) = pq

1 Notons que l’indice ‘prime’est mis ici pour di¤érencier la variance empirique d’une autre

dé…nition appelée variance empirique corrigée qu’on introduira plus loin et qui est générale-
ment noté Sn2.

19
Loi de Poisson

X suit une loi de Poisson de paramètre , notée P ( ), si


x
P x (x) = e ; 2 R+ ; x 2 N
x!

– Moments :
E (X) = V (X) =

– Fonction caractéristique :
1
X x
x (t) = e eitx
x=0
x!
it
= e (e 1)

Théorème 28 Soient X et Y deux variables aléatoires suivant indépendam-


ment des lois de Poisson P ( ) et P ( ) : Alors la variable X + Y suit une loi
de Poisson de paramètre + :

Preuve. La démonstration est immédiate à partir des fonctions caractéristiques,


puisque : X+Y (t) = X (t) Y (t) :

Loi binomiale

On considère n tirages équiprobables indépendants dans une population com-


posée de deux types d’éléments, le premier en proportion p, le second en pro-
portion q = 1 p. Soit X le nombre d’éléments du premier type présents dans
l’échantillon de taille n ainsi obtenu ; X est une variable aléatoire à valeurs dans
(0; 1; :::; n) : La loi de X est appelée loi binomiale de paramètres n et p, et est
notée B(n; p). Une dé…nition explicite de la loi B(n; p) est la suivante :

Dé…nition 29 X suit une loi binomiale de paramètre n et p si

n x
P x (x) = Cnx px (1 p) pour x 2 f0; 1; :::; ng

20
– Moments :
E (X) = np et V (x) = npq

– Fonction caractéristique :
n
x (t) = q + peit

Théorème 30 Soient X1 ; :::; Xn n variables aléatoires indépendantes suivant


Pn
la même loi indicatrice B (1; p). La variable i=1 Xi suit une loi binomiale

B (n; p) :

Théorème 31 Soient X et Y deux variables aléatoires indépendantes suivant


respectivement B(n; p) et B(m; p). La variable X + Y suit une loi binomiale
B(n + m; p).

Loi hypergéométrique

On considère un tirage équiprobable sans remise de n éléments dans une


population de taille N (n N ) ; on s’intéresse à un type donné d’éléments de la
population, que l’on supposera être en proportion p (N p est donc entier). Soit
X le nombre d’éléments de type étudié présents dans l’échantillon de taille n
obtenu. La loi de X est appelée loi hypergéométrique de paramètre N; n; p; et
est notée H(N; n; p). La dé…nition explicite de la H(N; n; p) est la suivante :

Dé…nition 32 X suit une loi hypergéométrique de paramètre N; n et p, si :


x n x
CN p CN q
P x (x) = n pour M ax (0; n N q) x M in (n; N p) et q = 1 p
CN
– Moments :
N n
E (X) = np et V (X) = npq
N 1
Théorème 33 Comportement asymptotique : sous les hypothèses : n et p …xés ;
N ! 1, on a
lim P x (x) = Cnx px q n x
N !1

Il en découle la convergence en loi de X vers la loi binomiale B (n; p) :

21
2.2.2 Lois continues

Loi uniforme continue

La v.a.r. X suit une loi uniforme sur le segment [a; b], a < b; si sa densité
est donnée par :
1
f (x) = 1ja;bj (x)
b a
X a
Remarque 34 En faisant une transformation X 7! b a , on est ramené à une
loi uniforme sur le segment [0; 1] :

Propriété 35 – Pour une loi uniforme sur le segment [0; 1] notée Uj0;1j : Les
moments du premier et du second ordre sont donnés par les expressions
1 1
suivantes : E (X) = 2 ; V ar (X) = 12 :

– Pour une loi uniforme sur le segment [a; b] notée Uja;bj : Les moments du
premier et du second ordre sont donnés par les expressions suivantes :
a+b (b a)2
E (X) = 2 ; V ar (X) = 12 :

Loi Normale

2
La v.a.r. X suit une loi normale d’espérance m et de variance , notée
2
N m; , si sa densité est donnée par
" #
2
1 1 x m
fX (x) = p exp 8x 2 R:
2 2

Propriété 36 – Les deux premiers moments sont les suivants : E (X) = m


2
et V ar (X) = .
– La v.a.r. transformée U = (X m) = suit une loi normale d’espérance
nulle et de variance égale à 1, notée N (0; 1), dite loi normale centrée-
réduite, de densité
1 1 2
fU (u) = p exp u 8u 2 R:
2 2

22
– Soient X et Y deux v.a.r indépendantes suivant respectivement les lois
2 2 2 2
N m1 ; 1 et N m2 ; 2 , la v.a.r. X+Y suit une loi normale N m1 + m2 ; 1 + 2 .
– Si X suit une loi normale centrée-réduite, la Skewness associée est nulle
4
( 3 = 0) et la Kurtosis est égale à 4 =3 .

Loi du Khi-deux

On considère une suite de n v.a.r. (X1 ; X2 ; :::; Xn ) indépendantes, suivant


Pn
toutes la loi normale centrée-réduite. La variable aléatoire Yn = Xi2 suit une
i=1
2
loi du Khi-deux à n degrés de liberté, notée (n), de densité

1 y n
1
fYn (y) = n n exp y2 1R+ (y) 8y 2 R;
22 2
2

avec Z +1
1 si y 2 R+ x p 1
1R+ (y) = :et (p) = e x dx
0 sinon 0

Propriété 37 – Si X suit une loi du Khi-deux à n degrés de liberté, on a


E (X) = n et V ar (X) = 2n.
– Soient X et Y deux v.a.r. indépendantes, suivant respectivement deux lois
du Khi-deux à n et m degrés de liberté. Alors X + Y suit une loi du Khi-
deux à n + m degrés de liberté.

Loi de Student

Soient X et Y deux v.a.r indépendantes suivant respectivement la loi nor-


male centrée-réduite et la loi du Khi-deux à n degrés de liberté. On appelle loi
de student à n degrés de liberté, la loi suivie par le rapport

X
Tn = q ;
Y
n

23
de densité fTn (:) dé…nie par
n+1
1 t2 2

fTn (t) = p 1 n 1+ ;
nB 2; 2
n
où B (p; q) désigne la fonction beta
(p) (q)
B (p; q) = :
(p + q)

Propriété 38 – Si X suit une loi de student à n degrés de liberté, on a

E (X) = 0
n
Var (X) = ; n > 2:
n 2
– En économétrie, on utilise souvent l’approximation de la loi de student
par la loi normale centrée-réduite lorsque n tend vers l’in…ni.

Loi de Fisher-Snedecor

Soient X et Y deux v.a.r indépendantes suivant respectivement la loi du


Khi-deux à n degrés de liberté et la loi du Khi-deux à m degrés de liberté. On
appelle loi de Fisher-Snedecor (ou plus simplement Fisher) à n et m degrés de
liberté, la loi suivie par le rapport
X=n
Fn;m = ;
Y =m
dont la densité est donnée par
n
1 n=2 m=2 z2 1
fFn;m (z) = n m n+m 1R+ (z) :
B n2 ; m
2 (m + nz) 2

Propriété 39 – Si X suit une loi de Fisher à n et m degrés de liberté, alors


m
E (X) = ; m>2
m 2
2m2 (n + m 2)
V ar (X) = 2 ; m > 4:
n (m 4) (m 2)
– Etant donné la dé…nition de Fn;m , la variable T2n (carré d’une student à
n degrés de liberté) suit une loi de Fisher à 1 et n degrés de liberté.

24
Loi gamma

Cette loi est généralement notée (p; ), où p > 0 et > 0. C’est la loi de
probabilité à valeurs dans R+ de densité par rapport à la mesure de Lebesgue :
p
x p 1
f (x) = e x 1R+ (x)
(p)

où Z +1
x p 1
(p) = e x dx
0

Remarque 40 – Si le paramètre d’échelle est égal à 1, on écrit (p; 1) ou


(p) ; si 6= 1; la v.a.r. Y = X suit (p): La fonction de densité de (p)
est :
1 x p 1
f (x) = e x 1R+ (x)
(p)
– Si p = 1; la loi de (p; 1) porte le nom de loi exponentielle de paramètre
:

Propriété 41

(p) = (p 1) (p 1) ; avec p > 0

(p) = (p 1)! avec p 2 N


1 p
=
2

Propriété 42 Si X suit une loi (p; ) on a :

(p + r)
E (X r ) = r
(p)

on en déduit :

p
E (X) =
p
V ar (X) = 2

25
Loi Bêta

Cette loi est généralement notée (p; q), où p > 0 et q > 0. C’est la loi de
probabilité à valeurs dans [0; 1] de densité par rapport à la mesure de Lebesgue :

xp (1 x)q 1
(p) (q)
f (x) = xp 1
1x2[0;1] avec B (p; q) =
B (p; q) (p + q)

Propriété 43 Les deux premiers moments sont les suivants :

B (p + 1; q) pq
E (X) = et V (X) = 2
B (p; q) (p + q) (p + q + 1)

Propriété 44 Si X (p; ) et Y (q; ) avec X et Y indépendantes et


X
p > 0 et q > 0, alors X+Y (p; q) :

Loi logistique

X suit une loi logistique si sa densité est :


x
e
f (x) = avec x 2 R
(1 + e x )2

Propriété 45 La loi logistique est fréquemment dé…nie par sa fonction de ré-


partition :
1
FX (x) = x
1+e
On en déduit une relation simple entre la densité et la fonction de répartition :

FX (x)
f (x) =
1 FX (x)

Propriété 46 Les deux premiers moments sont :


3
E (X) = 0 et V ar (X) =
3

26
Chapitre 3

Propriétés générales d’un


estimateur

La théorie de l’estimation fait référence à l’étude des caractéristiques d’une


variable aléatoire sur un échantillon aléatoire donné, dans le but d’induire des
conclusions sur le (ou les) paramètre(s) inconnus de la distribution de la va-
riable aléatoire. Plus précisément, il s’agit de proposer des estimateurs pour les
paramètres (moyenne, écart-type, proportion, etc.) d’une variable aléatoire sur
une population entière d’individus, à partir des échantillons issus de cette même
population. Bien évidemment pour que les conclusions soient valables, il faut
que l’échantillon ne présente aucun biais de sélectivité, c’est-à-dire qu’il soit
représentatif de la population.

Dé…nition 47 Un estimateur est une fonction de variables aléatoires obser-


vables, ne dépendant pas de paramètres inconnus.

Exemple 48
P100
i=1Xi
^ =
100
P100 2
i=1 (Xi ^)
^2 =
100

27
Dé…nition 49 Une estimation est une valeur prise par une telle fonction (l’es-
timateur) pour des réalisations particulières des variables aléatoires, soient x1 ,
x2 , ....,xn .

Exemple 50
^ = 175; ^ 2 = 25

Dans le cadre de son travail, le statisticien étudie les propriétés théoriques


de l’estimateur a…n de déterminer s’il s’agit d’un "bon" estimateur.

Soit X une variable aléatoire à valeurs dans (=; a) de loi P , 2 . La


densité de P sera notée f (x; ). L’objectif du statisticien est de connaître la
vraie valeur du paramètre , ou plus généralement une fonction de cette valeur,
g( ) où g est une application dé…nie sur : Grâce à l’information fournie par
un échantillon X1 ; :::; Xn i:i:d: de la loi P , le statisticien tentera d’approximer
g( ) par un estimateur, c’est-à-dire une statistique à valeur dans g( ).
Soit Tn un estimateur de g( ). On rappelle que la notation Tn désigne la
variable T (X1 ; :::; Xn ) où (X1 ; :::; Xn ) est un échantillon aléatoire de l’espace
(Xn; P ), 2 . On considère ici que g( ) Rd :

3.1 Estimation sans biais

Tout estimateur peut s’écrire sous la forme suivante :

E (Tn ) = g ( ) + Bn ( )

La quantité Bn ( ) est le biais de Tn .

Dé…nition 51 Tn est dit estimateur sans biais de g ( ) s’il est centré en g ( ),


c’est-à-dire :
E (Tn ) = g ( ) soit Bn ( ) = 0

28
Exemple 52 Soit la loi P de la variable aléatoire X dont on a un échantillon
i:i:d: (X1 ; :::; Xn ) tel que :

E(Xn ) = E(X) = et E(s2n ) = V ar(X) = 2

existent. La moyenne empirique et la variance empirique modi…ée


n
X
1 2
s2n = Xi Xn
n 1 i=1

sont respectivement des estimateurs sans biais de l’espérance et de la variance


théorique.

3.2 Estimateur asymptotiquement sans biais

Dé…nition 53 Un estimateur Tn est dit asympothiquement sans biais pour g ( )


si :
lim E (Tn ) = g ( ) soit lim Bn ( ) = 0
n!+1 n!+1

2
Exemple 54 Quelle que soit la loi P de X, si = V ar (X) existe, la variance
empirique
n
1X 2
s02
n = Xi Xn
n i=1
2
est un estimateur de qui est asymptotiquement sans biais :

n 1
E s02
n =
2
! 2
lorsque n ! +1:
n

3.3 Estimateur convergent

Dé…nition 55 Tn est un estimateur convergent de g ( ) s’il converge en proba-


bibilité vers g ( ), c’est-à-dire

8 2 R+ ; 9 " 2 R+ tel que P (kT n g ( )k ) 1 ";

29
ou
lim P (kT n g ( )k )=1
n!+1

On note P lim (Tn ) = g ( ) :

Théorème 56 Un estimateur Tn dont l’espérance mathématique tend vers g ( )


et la variance tend vers zéro est convergent pour g ( ) :

Ainsi, Xn ; Sn2 mais aussi Sn02 sont des estimateurs convergents de E (X) et
V ar (X) :

Théorème 57 Un estimateur Tn asymptotiquement sans biais tel que

2
lim E kTn E (Tn )k = 0
n!+1

est convergeant.

3.4 Comparaison des estimateurs

Soient Tn et Tn0 deux estimateurs de g( ) de biais Bn ( ) = E(Tn ) g( )


et Bn0 ( ) = E(Tn0 ) g( ). Comment faut-il comparer Tn et Tn0 ? On doit donc
choisir un critère qui permettra au statisticien de mesurer l’e¢ cacité de chacun
des estimateurs. Un bon critère est le risque quadratique :

2
E kTn g( )k

Remarque : Le risque quadratique est un critère d’e¢ cacité des estimateurs


Tn de carrés intégrables.

30
3.4.1 Décomposition biais-variance du risque

On a la décomposition biais-variance du risque quadratique :


h i h i
2 2
E kTn g( )k = E kTn g( ) Bn ( ) + Bn ( )k
h i
2
= E kTn g( ) Bn ( )k + Bn2 ( )
h i
T
= E (Tn g( ) Bn ( )) Tn g( ) Bn ( ) + Bn2 ( )

= T r (V ar (Tn g( ))) + Bn2 ( )

= T r (V ar (Tn )) + Bn2 ( )

où V ar (Tn ) est la matrice variance-covariance de Tn .

3.4.2 Comparaison des variances des estimateurs sans biais

La comparaison d’estimateurs sans biais revient à comparer leurs variances,


d’où la dé…nition suivante :

Soient Tn et Tn0 deux estimateurs sans biais de g( ). Tn0 est dit plus e¢ cace
que Tn s’il est préférable au sens de la variance :

0
V ar Tn V ar 0 (Tn ) ; 8 2

On dit que l’estimateur sans biais Tn0 est uniformément plus e¢ cace si il est
plus e¢ cace que tous les estimateurs sans biais. On dit aussi qu’il est de variance
minimale.
On rappelle que pour deux matrices A et B on a A B , B A est
une matrice symétrique positive. La notation V ar marque bien la dépendance
de la variance du modèle P et donc du paramètre inconnu 2 . Le critère
d’e¢ cacité n’a de sens que pour discriminer les estimateur sans biais.

31
Théorème 58 (Lehmann-Sche¤ é) Si Tn est un estimateur sans biais de
g( ) et si Sn est une statistique exhaustive et complète1 , alors l’unique estima-
teur de g( ) sans biais uniformément de variance minimale est Tn0 = E (Tn jSn ).
Notons que le théorème précédent implique que l’estimateur Tn0 est une fonction
de Sn . Malheureusement les statistiques exhaustives complètes n’existent pas tou-
jours. On recherche un critère absolu, à savoir s’il existe une borne inférieure
non triviale à l’ensemble des variances des estimateurs Tn sans biais de g( ).
On cherche donc
min V ar (Tn )
Tn 2B0

où B0 est l’ensemble des estimateurs sans biais de g( ):

Soit Tn = T (X1 ; :::; Xn ) un estimateur sans biais de g( ); 2 .

Hypothèses de Cramer-Rao

Hypothèse 59 est un ouvert de Rp pour p 1 (H1).

@f @2f
Hypothèse 60 @ (x; ) et @ 2
(x; ) existent et sont …nies, 8 (H2):
R
Hypothèse 61 Pour tout A 2 a l’intégrale A
f (x; )dv(x) est au moins deux
fois dérivable par rapport à sous le signe d’intégration et on peut permuter
intégration et dérivation :
Z Z
@ @
f (x; )dv(x) = f (x; )dv(x)
@ A A @
@ @2
(ce qui impose en particulier que @ f (x; ) et @ 2
f (x; ) sont intégrables 8
(H3):
1 Une propriété intéressante qu’une statistique peut avoir est son caractère exhaustif. Une
statistique S est dite exhaustive si la probabilité conditionnelle d’observer X sachant S(X)
est indépendante de . Cela peut se traduire par la formule suivante :
P (X = x=S (X) = s; ) = P (X = x=S (X) = s)
Cette dé…nition n’étant pas forcément très simple à manier en pratique on préfère souvent
utiliser la caractérisation de factorisation des statistiques exhaustives. Ces statistiques exhaus-
tives sont particulièrement importantes car fournissent toute l’information qu’il est possible
de récupérer sur le paramètre à partir d’une série d’observations. Une statistique exhaustive
apporte donc autant d’information que l’ensemble du vecteur des observations x et l’on ne
peut pas récupérer plus d’information que celle contenue dans une statistique exhaustive.

32
Hypothèse 62 8 ; 0 < I ( ) < +12 (H4):

Hypothèse 63 (H5) La statistique Tn est de carré intégrable : elle satisfait


E Tn2 < +1 et
Z
@ @
E (Tn ) = T (x1 ; :::; xn )f (x1 ; :::; xn )dv(x1 ):::dv(xn )
@ @ n
Z A
@
= T (x1 ; :::; xn ) f (x1 ; :::; xn )dv(x1 ):::dv(xn )
An @

Hypothèse 64 La fonction g est dérivable sur . On note J (g) sa matrice


Jacobienne de taille d p en tout point 2 : (H6).

Théorème 65 On suppose que les hypothèses (H1-H4) de Cramer-Rao sont


véri…ées. Soit Tn = T (X1 ; :::; Xn ) un estimateur sans biais de g ( ), de variance
…nie, véri…ant les conditions H5 et H6, alors :

T
V ar (Tn ) r g ( ) In 1 ( ) (r g ( ))

T
La quantité r g ( ) In 1 ( ) (r g ( )) est appelée la borne de Cramer-Rao.

R
Remarque 66 – L’hypothèse que A
f (x; )dv(x) est dérivable deux fois
sous le signe d’intégration n’est pas réellement nécessaire pour établir l’in-
égalité. Lorsqu’elle est véri…ée, on sait qu’alors3

I( ) = E [H 2 (logf )(X; )]

– Lorsque g est égale à l’identité, c’est-à-dire g( ) = alors l’inégalité se


réduit à
1
V ar(Tn ) In 1 ( ) = I 1
( ):
n
h i
2 On f 0 (x; ) 2
appelle information de Fisher au point la quantité : I ( ) = E f (x; )
=
2
@
E @
Logf (x; ) : Nous reviendrons la suite du cours sur ce concept.

3H est la fonction de répartition de la statistique d’ordre X(k) est donnée par Hk (x) =
Pn n
j=k j F (x)j (1 F (x))n j:

33
– Rien ne garantie l’existence d’un estimateur dont la variance atteint la
borne de Cramer-Rao.

3.4.3 E¢ cacité d’un estimateur

Dé…nition 67 Un estimateur Tn sans biais pour g( ) est dit e¢ cace si sa va-


riance atteint la borne de Cramer-Rao, c’est-à-dire

T
V ar (Tn ) = r g ( ) In 1 ( ) (r g ( ))

Dé…nition 68 Un estimateur Tn sans biais de g( ) est asymptotiquement e¢ -


cace si
1
T
lim V ar (Tn ) r g ( ) In 1 ( ) (r g ( )) =1
n!+1

– Un estimateur e¢ cace est de variance minimale.


– Un estimateur peut être sans biais, de variance minimale, mais ne pas
atteindre la borne de Cramer-Rao, donc ne pas être e¢ cace. Dans ce cas-
là, la borne Cramer-Rao est “trop petite” pour être atteinte.

2
Exemple 69 Soit X N m; , (X1 ; :::; Xn ) i:i:d: On montre que (les étu-
n 2 n
diants peuvent s’entraîner à faire le calcul) : In (m) = 2 et In = 2 4:
2 4
2
D’autre part, V ar Xn = n et V ar Sn2 = n 1: La moyenne empirique est
2
e¢ cace pour m ; la variance empirique modi…ée n’est e¢ cace pour ; de rapport
n 1
d’e¢ cacité n : Sn2 est asympthotiquement e¢ cace.

Exercise 70 Reprendre le même exercice pour le cas suivant, soit X P ( ),


2
> 0. Considérons l’estimation de g( ) = . Etudier les propriétés des mo-
2 1
ments d’ordre 1 et 2. (On montrera que Tn = Xn n Xn est un estimateur
sans biais de g( )):

34
3.4.4 Estimateur optimal

On se place dans B et on suppose que 8 Tn 2 B; V ar (Tn ) < +1

Dé…nition 71 On appelle estimateur optimal de g ( ) dans B l’estimateur Tn


préférable à tout autre au sens de la variance :

8 Tn0 2 B V ar (Tn ) V ar (Tn0 )

Il n’y a aucune raison pour que l’estimateur optimal soit e¢ cace.

Théorème 72 Soit une statistique =n ! R véri…ant E ( ) = 0 ; une condi-


tion nécessaire et su¢ sante pour qu’un estimateur Tn soit optimal est : Cov ( ; Tn ) =
0:

Théorème 73 (Théorème de Koopman) Soit g ( ) une fonction à estimer,


P véri…ant les hypothèses H1 à H4 de Cramer-Rao, où et : (i) H7 : g ( ) non
constante ; (ii) H8 : f 0 (x; ) continue en : Une condition nécessaire et su¢ sante
pour qu’il existe un estimateur sans biais Tn e¢ cace de g ( ) est qu’il existe trois
fonctions ( ); ( ) et (x) telles que : Logf (x; ) = ( ) Tn + ( ) + (x)
En outre :
– ( ) et ( ) sont dérivables
0
– ( ) 6= 0
0
( )
– g( ) = 0( ):

35
Chapitre 4

L’estimation

4.1 Estimation ponctuelle

Nous abordons deux formes particulières d’estimation, à savoir l’estimation


par la méthode des moments et l’estimation par la méthode du maximum de
vraisemblance.

4.1.1 Estimation par la méthode des moments

Considérons par exemple qu’on dispose d’un échantillon aléatoire pour une
2
v.a.r X, soit (X1 ; X2 ; :::; Xn ) avec Xi i:i:d: de moyenne m et de variance .
Supposons que l’on cherche à estimer l’un ou l’autre de ces moments théoriques
en utilisant l’échantillon aléatoire. La méthode des moments consiste tout sim-
plement à estimer le moment théorique par sa contrepartie empirique. Plus
précisément, un estimateur de moment (ou estimateur obtenu par la méthode
P
n
des moments) pour m est naturellement la moyenne empirique X n = n1 Xi .
i=1

2
Pour un estimateur naturel (le premier qui vient à l’idée au sens de
l’estimation par la méthode des moments) est la variance empirique, soit

1 Pn 2
Sn20 = X Xn :
n i=1 i

36
Quels sont les propriétés de ces deux estimateurs ? On a
1 Pn
E Xn = E Xi
n i=1
1 Pn
= E (Xi )
n i=1
= m:

On en déduit alors que X n est un estimateur sans biais de m. De même, on


obtient.
1 Pn
V ar X n = V ar Xi
n i=1
1 Pn
= 2
V ar (Xi )
n i=1
2
= ;
n
L’estimateur des moments X n est donc un estimateur convergent de m, car
E X n = m et lim V ar X n = 0. Ces résultats sont-ils valables en ce qui
n!1
concerne Sn20 l’estimateur des moments de 2
? On a successivement
1 Pn 2
Sn20 = X Xn
n i=1 i
1 Pn 2
= X m + m Xn
n i=1 i
1 Pn 2
= (Xi m) Xn m
n i=1
1 P n
2 2 P
n
= (X m) + n X n m 2 Xn m (Xi m) :
n i=1 i i=1

1
P
n P
n
Or on a X n = n Xi ) Xi = nX n , d’où
i=1 i=1

P
n
2 Xn m Xi nm
i=1
= 2 Xn m nX n nm
2
= 2n X n m :

On obtient alors
1 P
n
2 2
Sn20 = (Xi m) n Xn m :
n i=1

37
Il vient alors que

1 P
n h i h 2
i
2
E Sn20 = E (Xi m) nE Xn m :
n i=1

Remarquons que
h i h i
2 2
E (Xi m) = E (Xi E (Xi ))

= V ar (Xi )
2
= :

De même, on sait que E X n = m et donc


h 2
i h 2
i
E Xn m = E Xn E Xn

= V ar X n par dé…nition
2
= :
n

Au total
2
1 P n
E Sn20 = 2
n
n i=1 n
1
= n 2 2
n
n 1 2
= :
n

L’estimateur Sn20 est un estimateur biaisé de 2


. Dé…nissons alors un autre
estimateur noté Sn2 et tel que

n 1 P
n 2
Sn2 = Sn20 = Xi Xn :
n 1 n 1 i=1

On a
n
E Sn2 = E Sn20 = 2
:
n 1

Hypothèse 74 L’estimateur Sn2 est un estimateur sans biais de 2


. Sn2 est
appelé variance empirique corrigée. De même, on montre que lim V ar Sn2 =
n!1
p
0, et on conclut alors que Sn2 ! 2
.
n!1

38
4.1.2 Estimation par la méthode du maximum de vrai-
semblance

Nous avons présenté précédemment les propriétés des estimateurs (obtenus


par la méthode des moments) pour l’espérance (ou le moment théorique d’ordre
1) et la variance (ou moment théorique d’ordre 2). On a en particulier démontré
que X n la moyenne empirique est un estimateur sans biais et convergent de
m, et Sn2 la variance empirique corrigée, un estimateur sans biais et convergent
2
de . La méthode des moments, si elle est simple à mettre en oeuvre n’a
cependant des propriétés optimales dans tous les cas d’estimation de paramètres
de population. Nous allons présenter ici une méthode alternative d’estimation,
à savoir la méthode du maximum de vraisemblance qui présente des propriétés
asymptotiques dé…nies dans un cadre général.

Considérons par exemple un échantillon aléatoire (X1 ; X2 ; :::; Xn ) pour une


variable aléatoire X suivant une loi de poisson de paramètre . Pour simpli…er,
supposons que n = 4 et X1 = 5, X2 = 3, X3 = 1 et X4 = 2. La question posée
est la suivante : comment estimer à partir de cet échantillon aléatoire ?

Calculons la quantité suivante : Pr (X1 = 5; X2 = 3; X3 = 1; X4 = 2). Il s’agit


de la probabilité d’observer l’échantillon si la variable suit e¤ectivement une loi
de poisson de paramètre

P = Pr (X1 = 5; X2 = 3; X3 = 1; X4 = 2) ;

qui s’écrit sous l’hypothèse d’observations indépendantes comme suit

P = Pr (X1 = 5) Pr (X2 = 3) Pr (X3 = 1) Pr (X4 = 2)


5 3 2
e e e e
=
5! 3! 1! 2!
11
e 4
= :
2!5!3!

Le principe de l’estimation par la méthode du maximum de vraisemblance


consiste à déterminer la valeur de qui maximise la probabilité d’observer

39
l’événement (X1 = 5; X2 = 3; X3 = 1; X4 = 2), c’est-à-dire la probabilité que
l’échantillon aléatoire soit e¤ectivement une réalisation d’une loi de poisson de
paramètre .

Dé…nition 75 Soit une v.a.r X de modèle statistique dé…ni par ff (X) ; 2 g,


(X1 ; X2 ; :::; Xn ) un échantillon aléatoire i.i.d., et f (X) la densité de X. L’es-
timateur du maximum de vraisemblance est dé…ni par

bn = arg max Qn f (Xi ) :


i=1
f g

Dans la pratique, on préfère plutôt le programme de maximisation suivant

bn = arg max Pn log [f (Xi )] :


i=1
f g

Qn
La fonction i=1 f (Xi ) notée généralement L (X1 ; X2 ; :::; Xn ; ), c’est-à-
dire
Qn
L (X1 ; X2 ; :::; Xn ; ) = i=1 f (Xi ) ;

est appelée fonction de vraisemblance, et

Pn
LogL (X1 ; X2 ; :::; Xn ; ) = i=1 log [f (Xi )] ;

la fonction de log-vraisemblance. Ainsi, par rapport à la dé…nition, b est solution


de
bn = arg max L (X1 ; X2 ; :::; Xn ; ) ;
f g

ou
bn = arg max LogL (X1 ; X2 ; :::; Xn ; ) :
f g

La condition du premier ordre correspondante s’écrit

(LogL (X1 ; X2 ; :::; Xn ; )) = 0;

ou encore
Sn; (X1 ; X2 ; :::; Xn ) = 0;

40
avec
Sn; (X1 ; X2 ; :::; Xn ) = (LogL (X1 ; X2 ; :::; Xn ; )) :

La fonction Sn; (X1 ; X2 ; :::; Xn ) est appelée fonction score de l’échantillon


et l’égalité Sn; (X1 ; X2 ; :::; Xn ) = 0 dé…nit un système de K équations à K
inconnues, si 2 RK . Notons que la condition du second ordre permet de
s’assurer qu’il s’agit bien d’un maximum.

Hypothèse 76 Notons S (X) la fonction score pour un individu, dé…nie par


d
S (X) = d log (f (X)). On a par dé…nition

E (S (X)) = 0:
R1
Preuve. On sait que 1
f (X) dX = 1 8 2 , d’où on a successivement

d R1
1
f (X) dX = 0
d
R1 d
1d
f (X) dX = 0

R1 d
d f (X)
1
f (X) dX = 0
f (X)
R1 d
1d
(log f (X)) f (X) dX = 0
R1
1
S (X) f (X) dX = 0;

soit
E (S (X)) = 0:

Dé…nition 77 On appelle information de Fisher (pour un individu) d’un mo-


dèle statistique ff (X) ; 2 g la variance du score pour un individu

I( ) = V ar (S (X))
d
= V ar (log f (X))
d
2
= E S (X) car E (S (X)) = 0:

41
h i
d2 d
Hypothèse 78 I ( ) = E d 2
log f (X) = E d S (X) :

Preuve. On a
R1 R 1 d2
f (X) dX = 1 ) f (X) dX = 0:
1 1
d 2

Or

d2 d d
log f (X) = log f (X)
d 2 d d
" #
d dd f (X)
=
d f (X)
h 2 i
d d d
d 2 f (X) f (X) d f (X) d f (X)
= 2
[f (X)]
h i " #2
d2
d 2
f (X) d
f (X)
d
= :
f (X) f (X)

On en déduit que

d2 R1 d2
E log f (X) = log f (X) f (X) dX
d 2 1
d 2
( )
R1 d2 R1 2
d 2
f
(X) d
= 1
f (X) dX + 1 log f (X) f (X) dX
f (X) d
( )
2
R 1 d2 R1 d
= 1 2 f (X) dX + 1 d
log f (X) f (X) dX :
d

Or on sait que
R 1 d2
f (X) dX = 0;
1
d 2
et
2
R1 d d
1
log f (X) f (X) dX = V ar log f (X)
d d
h i
2
= E S (X)

= V ar (S (X))

= I ( ):

42
Dé…nition 79 L’information de Fisher pour l’échantillon aléatoire (X1 ; :::; Xn )
est noté In ( ) et dé…nie par

In ( ) = V ar (Sn; (X1 ; X2 ; :::; Xn ))


Pn
= V ar ( i=1 S (Xi ))
Pn
= V ar ( i=1 S (X)) car Xi même loi
Pn
= i=1 V ar (S (X))
Pn
= i=1 I ( )

= nI ( ) :

Hypothèse 80 Inégalité de Rao-Cramer (Darmois-Fréchet) : Soit ff (X) ; 2 g


un modèle statistique et b un estimateur de construit à partir d’un échantillon
i.i.d (X1 ; X2 ; :::; Xn ), alors

V ar b
1
In ( ) :

est appelée borne de Rao-Cramer. Un estimateur b est alors e¢ cace,


1
In ( )
si sa variance est égale à la borne de Rao-Cramer.

Exercise 81 Estimation par maximum de vraisemblance du paramètre d’une


loi de poisson.
On suppose que X suit une loi de poisson de paramètre , soit f (X) =
X
e
X! . On dispose d’un échantillon aléatoire i.i.d (X1 ; X2 ; :::; Xn ). La fonction
de vraisemblance s’écrit
Qn
L (X1 ; X2 ; :::; Xn ; ) = i=1 f (Xi )
Xi
Qn e
= i=1
X!
Pni
n Xi
e i=1
= Qn :
i=1 (Xi !)
La log-vraisemblance est égale à
Pn Pn
LogL (X1 ; X2 ; :::; Xn ; ) = n+ i=1 Xi log i=1 log (Xi !) :
1 Pn
(LogL (X1 ; X2 ; :::; Xn ; )) = n+ i=1 Xi ;

43
et on a
(LogL (X1 ; X2 ; :::; Xn ; )) = 0
1 Pn
n+ i=1 Xi = 0

b = 1 Pn Xi = X n:
n i=1
On véri…e qu’il s’agit bien d’un maximum.
2
1 Pn
2 (LogL (X1 ; X2 ; :::; Xn ; )) =b = i=1 Xi
b2
1 Pn
= 2 i=1 Xi
X n:
nX n
= 2
Xn
n
= < 0:
Xn
2 2
Exercise 82 Estimation de l’espérance m d’une loi normale N m; ,
connu.
Qn
L (X1 ; X2 ; :::; Xn ; m) = i=1 fm (Xi )
( )
2
Qn 1 1 Xi m
= i=1 p exp
2 2
( )
n 2
1 1 Pn Xi m
= p exp :
2 2 i=1

Condition du premier ordre :

p 2
1 Pn Xi m
LogL (X1 ; X2 ; :::; Xn ; m) = n log 2 :
2 i=1

1 Pn Xi m
(LogL (X1 ; X2 ; :::; Xn ; m)) = i=1 :
m

(LogL (X1 ; X2 ; :::; Xn ; m)) = 0


m
1 Pn Xi m
i=1 =0
Pn
i=1 (Xi m) = 0
1 Pn
b =
m Xi = X n :
n i=1

44
Condition du deuxième ordre :
2
n
(LogL (X1 ; X2 ; :::; Xn ; m)) = < 0:
m2
On a bien
2
n
(LogL (X1 ; X2 ; :::; Xn ; m)) jm=m
b = < 0:
m2
Il s’agit bien d’un maximum.

4.2 Estimation par intervalle de con…ance

Une fois que l’on a dé…ni un estimateur possédant les "bonnes" propriétés
(biais et précision), au lieu de donner une réalisation de cet estimateur sur un
échantillon de réalisations particulières (x1 ; x2 ; :::; xn ), c’est-à-dire une estima-
tion ponctuelle, on peut utiliser la loi de cet estimateur et déduire un intervalle
de con…ance sur la vraie valeur du paramètre que l’on cherche à estimer. C’est
le principe de l’estimation par intervalle de con…ance.

Ainsi, à partir d’un échantillon (X1 ; X2 ; :::; Xn ) de X, on détermine un inter-


valle de R dans lequel se trouve avec une certaine probabilité. Si on considère
un intervalle de con…ance à un niveau de (1 ) % (ou au seuil de %), on
cherche ; 2 R2 tels que

Pr =1 :

4.2.1 Estimation par intervalle de con…ance d’une moyenne

Considérons que l’on dispose d’un échantillon aléatoire (X1 ; X2 ; :::; Xn ) de


variables indépendantes et identiquement distribuées, de moyenne m et de va-
2
riance . On cherche à estimer m par intervalle de con…ance. On distinguera
deux cas :
2
– cas où est connu
2
– cas où est inconnu

45
2
Variance connue

Nous avons vu qu’un estimateur (par la méthode des moments) sans biais
et convergent pour m est X n . On a également vu (TCL) que

Xn m loi
T = p ! N (0; 1) :
= n n!1

Si on note Z =2 et Z1 =2 , les fractiles à =2 et 1 =2 de la loi normale


centrée-réduite, tels que Z =2 = Z1 =2 , on a alors

Pr Z =2 T Z1 =2 =1 :

En développant successivement, on trouve

Xn m
Pr Z =2 p Z1 =2 =1
= n

Pr Z =2 p Xn m Z1 =2 p =1
n n

Pr Xn + Z =2 p m X n + Z1 =2 p =1
n n

Pr X n Z1 =2 p m Xn Z =2 p =1
n n

Pr X n Z1 =2 p m X n + Z1 =2 p =1 :
n n
On vient ainsi de construire un intervalle de con…ance sur le paramètre in-
connu m pour un niveau de con…ance de (1 ) % (ou un niveau de risque
de %). Plus précisément, il y a (1 ) % de chance que la vraie valeur du
paramètre inconnu m soit comprise dans l’intervalle

IC (1 ) = Xn Z1 =2 p ; X n + Z1 =2 p :
n n

On note alors
IC (1 ) = Xn Z1 =2 p :
n

46
2
Variance inconnue

2
Dans le cas où est inconnue, on est dans l’impossibilité de calculer l’in-
tervalle de con…ance comme précédemment. La solution consiste alors dans ce
2
cas à remplacer par un estimateur convergent, soit S 2 .

Notons que pour un échantillon aléatoire (X1 ; X2 ; :::; Xn ) i.i.d de moyenne


m et de variance 2
, on a la propriété suivante1

(n 1) S 2 2
2
(n 1) :

Or on sait que
Xn m
p N (0; 1) :
= n
Si on suppose que X n et S 2 sont indépendantes (ce qui peut se démontrer
assez aisément), on a alors
X np m
= n Xn m
T =r = p student (n 1) :
(n 1)S 2 S= n
2
n 1

Ainsi, le fait de remplacer par S entraîne une déformation de la statistique


de test T . Bien évidemment, si n est grand, on sait que la loi de student tend
vers la loi normale, et remplacer donc par S n’a pas de conséquence sur la
distribution de T . Si l’on note t =2 et t1 =2 les fractiles à =2 et 1 =2 de la
loi de student à n 1 degrés de liberté, on obtient comme précédemment

Xn m
Pr t =2 p t1 =2 =1
S= n

et
S
IC (1 ) = Xn t1 =2 p :
n

1 On admet ici cette propriété, sans fournir une démonstration formelle.

47
4.2.2 Estimation par intervalle de con…ance d’une variance

2 2
Soit une v.a.r X de moyenne égale à m et de variance où est inconnue.
2
On cherche à estimer à partir d’un échantillon aléatoire (X1 ; X2 ; :::; Xn ). Or
on a vu qu’un estimateur (obtenu par la méthode des moments) sans biais et
2
convergent pour est S 2 avec
n
X
1 2
S2 = Xi Xn :
n 1 i=1

De même, on a souligné que


(n 1) S 2 2
2
(n 1) :

Par conséquent, on a
(n 1) S 2
Pr C =2 2
C1 =2 =1

où C =2 et C1 =2 désignent respectivement les fractiles à =2 et 1 =2 de la


loi du chi-deux à n 1 degrés de liberté. Soit alors
C =2 1 C1 =2
Pr =1
(n 1) S 2 2 (n 1) S 2
(n 1) S 2 2 (n 1) S 2
Pr =1
C1 =2 C =2
2
d’où un intervalle de con…ance à (1 ) % pour est dé…ni par
(n 1) S (n 1) S 2 2
IC (1 )= ;
C1 =2 C =2

4.3 Estimation dans une population …nie d’ef-


fectif N

4.3.1 Estimation d’une proportion p

– Tirage avec remise : F est un bon estimateur de p :


p (1 p)
V (F ) =
n

48
– Tirage sans remise (se référer à la loi hypergéométrique) : E (nF ) = np;
donc F est un estimateur sans biais de p.

N n N n
V (nF ) = np (1 p) d’où V (F ) = p (1 p)
N 1 N 1

4.3.2 Estimation de la moyenne m et de l’écart-type


d’une grandeur X distribuée sur une population …nie

La variable est forcément discrète car elle n’a qu’un nombre …ni de valeurs.
2
– Tirage avec remise : X est un estimateur sans biais de m et V X = n :
nS 2 2
n 1 est un estimateur sans biais de :
– Tirage sans remise : x est un estimateur sans biais de m et V (X) =
2
N n 2 N 1 n 2
n N 1: L’estimateur sans biais de est N n 1S

4.4 Remarques sur l’estimation robuste

La théorie classique de l’estimation permet de déterminer les estimateurs


optimaux pour une famille de lois de probabilité dé…nie à l’avance. Ces estima-
teurs dépendent en général fortement de la loi hypothétique : si celle-ci n’est pas
correcte, les estimateurs ne le seront pas. On peut donc chercher des classes d’es-
timateurs relativement insensibles à des modi…cations des lois à priorie : c’est
un premier type de robustesse. Un deuxième type de robustesse concerne l’in-
sensibilité à des valeurs "aberrantes" : la moyenne arithmétique est sans doute
le meilleur estimateur de l’espérance pour une vaste classe de lois mais elle est
très sensible aux grandes valeurs. L’attention des théoriciens et des praticiens
a donc été attirée sur la recherche d’estimateurs robustes en particulier pour la
valeur centrale d’une distribution.
Dans un autre ordre idée une méthode appelée Jackknife (car elle est à
usage multiple comme le canif des scouts) permet d’atténuer le biais de certains

49
estimateurs et en étudiant l’in‡uence des valeurs de l’échantillon de trouver des
intervalles de con…ance sans référence à un modèle de population.

4.4.1 Quelques estimateurs robustes de tendance centrale

On se préoccupera ici d’estimer la valeur centrale m d’une distribution sy-


Pn
métrique. La moyenne arithmétique x = n1 i=1 xi est très sensible aux valeurs
extrêmes : on obtiendra un estimateur robuste de m en éliminant les valeurs ex-
trêmes. On appelle ainsi moyenne tronquée d’ordre la moyenne arithmétique
obtenues en éliminant les n plus grandes et plus petites valeurs (une valeur
généralement recommandée est = 15%). La médiane est le cas extrême d’une
moyenne tronquée ( = 50%) et est très robuste.
Une autre approche et celle des M estimateurs introduits par Huber : on
cherche ici qui minimise une fonction de type :
n
X xi
i=1
s

où s est un estimateur robuste de le dispersion ce qui revient à annuler


Pn xi 0
i=1 s où = : On retrouve le moyenne arithmétique avec (x) = x2 ;
la médiane avec (x) = jxj : Les estimateurs du maximum de vraisemblance
sont des cas particuliers de M estimateurs avec : (x) = ln f (x) et (x) =
f 0 (x)
f (x) :

Remarquons que le M estimateur peut s’écrire comme une moyenne pon-


dérée des observations : Pn
wi xi
= Pi=1
n
i=1 wi
(xi )
où wi dépend des données wi = xi :
Pour la moyenne arithmétique x (x) = x: Pour la médiane (x) = 1 si
x > 0 et (x) = 1 si x < 0:
On obtiendra toute une famille d’estimateur en utilisant diverses formes de
:
2
(x) = x 1 x2 pour jxj 1 (Tukey)

50
8
< 1; 5 si x < 1; 5
(x) = x si jxj < 1; 5 (Huber)
:
+1; 5 si x > 1; 5
Ces estimateurs sont généralement obtenus par un processus de calcul itéra-
tif. L’estimateur robuste de dispersion s est prise généralemnt égale à la médiane
des écarts absolus à la médiane.

4.4.2 L’estimateur Jackknife

Cette technique est proposée par Quenouille pour diminuer le biais d’un
estimateur et reprise par Tukey.

Dé…nition 83 Soit T un estimateur calculé sur un échantillon de taille n. On


note T i l’estimateur calculé sur le (n 1) échantillon obtenu en enlevant l’ob-
servation i et on appelle pseudo-valeur Ti :

Ti = nT (n 1) T i

L’estimateur Jackknife est alors la moyenne des pseudo-valeurs :


n
1X
TJ = T
n i=1 i
Pn
ce qui donne TJ = T (n 1) n1 i=1 (Ti T):
La variance de l’estimateur de Jackknife est alors donné par :
n
1 X (Ti
2
TJ )
SJ2 =
n i=1 n 1

– Réduction du biais

Supposons que E (T ) = + n ; alors E (TJ ) = : En e¤et,

E (TJ ) = E (T ) (n 1) (E (T i ) E (T ))

= + (n 1) +
n n 1 n
n 1
= + a+ a=
n n

51
A titre d’exercice on peut véri…er que la méthode de Jackknife appliquée
à la variance S 2 donne S 2 , et que appliquée à x on retrouve x: Le calcul du
Jackknife est surtout utile pour des statistiques biaisées dont le biais est très
di¢ cile à calculer (coe¢ cient de corrélation par exemple).

52
Chapitre 5

Tests statistiques

Bâtir un test nécessite, comme pour un problème d’estimation, de construire


au préalable un modèle statistique où la v:a.r X suit une loi de probabilité P ,
qui dépend d’un paramètre inconnu. On fait l’hypothèse à priori que la valeur
de ce paramètre est égale à une valeur …xée 0 et on cherche à valider cette hypo-
thèse, au vu d’un échantillon de la loi de X. Cette hypothèse qui est privilégiée,
parce qu’elle paraît la plus vraisemblable à priori, est appelée hypothèse nulle et
notée H0 . Construire un test va consister à découper l’ensemble Rn des réalisa-
tions possibles de n-échantillon en deux régions, celle où l’on décidera d’accepter
H0 , et celle où on décidera de la rejeter, qui se nommera région critique du test.
Pour délimiter ces deux régions, on …xera une valeur faible à la probabilité de
l’erreur qui consiste à décider, au vu de l’échantillon, de rejeter l’hypothèse nulle
alors que celle-ci est véri…ée. Cette probabilité se nomme risque de première es-
pèce, sa valeur standard étant de 5%. Lorsque le paramètre ne peut prendre
que deux valeurs distinctes 0 et 1; c’est le théorème de Neyman et Pearson
qui permet de déterminer la forme de la région critique, à partir du rapport des
vraisemblances associés à chacune des deux valeurs possibles du paramètre.

53
5.1 Introduction générale à la théorie des tests

Des relevés e¤ectués pendant de nombreuses années ont permis d’établir que
le niveau naturel des pluies dans la Donga en millimètres par an suit une loi de
normale N (600; 100) : Des féticheurs surnommés faiseurs de pluie, prétendaient
augmenter de 50 mm le niveau moyen de pluie, ceci par des pratiques occultes.
Leur procédé fut mis à l’essai entre 1991 et 1999 et on releva les hauteurs de
pluies suivantes :
Année 1991 1992 1993 1994 1995 1996 1997 1998 1999
mm 510 614 780 512 501 534 603 788 650
Que pouvait-on en conclure ? Deux hypothèses s’a¤rontaient : ou bien les
pratiques des faiseurs de pluie étaient sans e¤et, ou bien elles augmentaient
réellement le niveau moyen de pluie de 50 mm. Ces hypothèses pouvent se
formaliser comme suit, si m désigne l’espérance mathématique de X variable
aléatoire égale au niveau annuel de pluie :

H0 : m = 600 mm
H1 : m = 650 mm
Les agriculteurs hésitant à opter pour le procédé forcément onéreux des
faiseurs de pluie tenaient pour l’hypothèse H0 et il fallait donc que l’expérience
puisse les convaincre ; c’est-à-dire que les faits observés contredisent nettement
la validité de l’hypothèse H0 dite "hypothèse nulle" (H1 s’appelle l’hypothèse
alternative). Les agriculteurs n’étaient donc décidés à abandonner H0 qu’en
présence de faits expérimentaux traduisant une éventualité improbable compte
tenu de H0 .
Ils choisirent = 0; 05 comme niveau de probabilité, c’est-à-dire qu’ils
étaient prêts à accepter H1 si le résultat obtenu faisait partie d’une éventualité
improbable qui n’avait que 5 chances sur 100 de se produire. Autrement dit,
ils admettent implicitement que des évéments rares ne sauraient se produire
sans remettre en cause le bien-fondé de l’hypothèse de départ H0 ; ce faisant,
ils assumaient le risque de se trompe dans 5 cas sur 100, cas où précisément les
événements "rares" arrivent quand même.

54
Comment décider ? Puisqu’il s’agit de "tester" la valeur m il est naturel de
s’intéresser à X moyenne des observations qui nous apporte le plus de rensei-
gnements sur m. X est la "variable de décision".
Si H0 est vraie, comme l’expérience a porté sur n = 9 ans, X suit une loi
normale N 600; 100
p
9
. En principe, de grandes valeurs de X sont improbables
et on prendra comme règle de décision la suivante :
Si X est trop grand, c’est-à-dire si X est supérieur à un seuil k qui n’a que
5 chances sur 100 d’être dépassé, on optera pour H1 avec une probabilité 0; 05
de se tromper.
Si X < k on conservera H0 faute de preuves su¢ santes. Il est facile de
calculer k grâce aux tables et on trouve :

100
k = 600 + :1; 64 = 655
3

La règle de décision est donc la suivante :


– Si X > 655 mm, rejeter H0 et accepter H1 ;
– Si X < 655 mm, accepter H0 .
L’ensemble d’événements X > 655 s’appelle la région critique ou région
de rejet de H0 . L’ensemble complémentaire X < 655 s’appelle la région d’ac-
ceptation de H0 .

55
Or, les données relevées indiquent que x = 610; 2 mm. La conclusion était
de conserver H0 ; c’est-à-dire que les pratiques des faiseurs de pluie étaient sans
e¤et notable sur le niveau des pluies : les valeurs observées pouvaient donc être
dues au hasard en l’absence de toute in‡uence des faiseurs de pluie.
Cependant, rien ne dit que conserver H0 mettent à l’abri de se tromper : en
e¤et, les faiseurs de pluie ont peut-être raison, mais on ne s’en est pas aperçu.
Il y avait deux manières de se tromper : croire les faiseurs de pluie, alors
qu’ils n’étaient pour rien dans les résultats obtenus (probabilité = 0; 05) ; ne
pas croire les faiseurs de pluie, alors que leur méthode est bonne et que seul le
hasard (malencontreux pour eux), dû au faible nombre d’observations, a donné
des résultats insu¢ sants pour convaincre les agriculteurs.
Supposons que les faiseurs de pluie ont raison, alors X 2 N 650; 100
3 . On

commet une erreur chaque fois que X prend une valeur inférieure à 655 mm,
c’est-à-dire avec une probabilité :

655 650
=P U< = P (U < 0; 15) donc = 0; 5596 ' 0; 56
100=3

ce qui est considérable.


– s’appelle le risque de première espèce ;
– s’appelle le risque de deuxième espèce.
On aura remarqué au cours de cet exemple le rôle particulier joué par H0 :
si la forme de la région critique X > k est indiquée par la nature de H1 (650
plus grand que 600) la valeur de k ne dépend que de H0 .
Les deux hypothèses ne jouent pas des rôles symétriques, k est déterminé
par H0 et ; est déterminé par la considération supplémentaire de H1 .

Notions générales sur les tests statistiques

Un test est un mécanisme qui permet de trancher entre deux hypothèses au


vu des résultats d’un échantillon. Soient H0 et H1 ces deux hypothèses, dont
une et une seule est vraie. La décision aboutira à choisir H0 ou H1 . Il y a

56
donc 4 cas possibles schématisés dans le tableau suivant avec les probabilités
correspondantes :

Rejeter H0 Ne pas rejeter H0


H0 vraie Erreur de type I (prob. ) Décision correcte (prob. 1 )
H0 fausse Décision correcte (prob. 1 ) Erreur de type II (prob. )

et sont les probabilités d’erreur de première et deuxième espèces :


– probabilité de choisir H1 alors que H0 est vraie ;
– probabilité de conserver H0 alors que H1 est vraie.
Ces erreurs correspondent à des risques di¤érents en pratique ; ainsi dans
l’exemple des faiseurs de pluie le risque de première espèce consiste à investir
dans des pratiques qui ne valent rien ; le risque de deuxième espèce consiste
à laisser perdre une occasion d’augmenter le niveau de pluie et peut-être de
récoltes plus abondantes.
1 est la probabilité d’opter pour H1 en ayant raison. 1 s’appelle
"puissance du test".
La région critique W est l’ensemble des valeurs de la variable de décision
qui conduisent à écarter H0 au pro…t de H1 . La forme de la région critique est
déterminée par la nature de H1 , sa détermination exacte se fait en écrivant que :

P (W=H0 ) =

La région d’acceptation est son complémentaire W et l’on a donc :

P W =H0 = 1 et P (W=H1 ) = 1

La construction d’un test n’est rien d’autre que la détermination de la région


critique, cette détermination se faisant sans connaître le résultat de l’expérience,
donc à priori. La démarche d’un test peut se résumer comme suit :
– Choix de H0 et H1 .
– Détemination de la région de décision.
– Allure de la région critique en fonction de H1 .
– Calcul de la région critique en fonction de :

57
– Calcul éventuel de la puissance 1 :
– Calcul de la valeur expérimentale de la variable de décision.
– Conclusion : rejet ou acceptation de H0 .

On peut distinguer deux grandes catégories de tests : les tests paramétriques


et les tests non paramétriques.
Un test est dit paramétrique si son objet est de tester certaine hypothèse
relative à un ou plusieurs paramètres d’une variable aléatoire de loi spéci…ée.
Dans la plupart des cas, ces tests sont basés sur la considération de la loi normale
et supposent donc explicitement une variable aléatoire de référence X suivant
une loi normale. Si les résultats restent valables si X ne suit pas une loi normale,
on dit que le test est robuste.
Les tests non paramétriques ne postulent pas à priori la loi de la variable
aléatoire. Il s’agit de tests valables quelle que soit la loi de la variable aléatoire
étudiée, donc valables en particulier lorsqu’on ignore tout de cette loi. Dans le
présent cours, nous ne nous intéresserons pas aux tests non paramétriques.
Pour les tests paramétriques, on distingue généralement hypothèses simples
et hypothèses composites :
– Une hypothèse simple est du type H : = 0, où 0 est une valeur isolée
du paramètre ;
– Une hypothèse composite est du type H : 2 A où A est une partie de R
non réduite à un élément.
La plupart des hypothèses composites se ramènent aux cas : > 0 ou < 0

ou 6= 0:

En fait, on construira les régions critiques en utilisant la valeur 0 seule.


Lorsque l’hypothèse alternative est composite, la puissance du test est variable
et on parle de fonction puissance 1 ( ):
Le choix de la meilleure variable de décision a été résolu théoriquement
par les statisticiens Neyman et Pearson dans une série d’articles célèbres paru
de 1933 à 1938. Mais que veut dire "meilleure variable", ou plutôt ainsi que
nous l’utiliserons désormais, région critique optimale ? Nous cherchons la région

58
critique optimale c’est-à-dire un domaine de Rn parmi l’ensemble de toutes
les réalisations possibles de l’échantillon (X1 ; X2 ; :::; Xn ) dont la forme dé…nira
ensuite une variable statistique. Il s’agit de maximiser la puissance 1 ceci
pour une valeur donnée de risque de première espèce.
Nous présentons d’abord le test entre deux hypothèses paramétriques simples
puis nous généraliserons à d’autres types d’hypothèses.

5.2 Test entre deux hypothèses simples

Une hypothèse est dite simple si elle se limite à un seul élément. Dans le cas
contraire, on parle d’hypothèses multiples.

5.2.1 La méthode de Neyman et Pearson

Soit X une variable aléatoire de densité f (x; ) où est un paramètre réel


inconnu ; L (x; ) désignera en abrégé la densité de l’échantillon. Il s’agit de
tester :

H0 : = 0

H1 : = 1

Supposons connu. Soit W (ensemble des points qui conduit au rejet de


l’hypothèse nulle) une région de Rn telle que :
Z
L (x; 0 ) dx = = P (W=H0 )
W

Il s’agit de maximiser :
Z
1 = L (x; 1 ) dx = P (W=H1 )
W

Nous pouvons écrire :


Z
L (x; 1)
1 = L (x; 0 ) dx
W L (x; 0)

59
Théorème 84 THEOREME DE NEYMAN ET PEARSON
La région critique optimale est dé…nie par l’ensemble de Rn tels que :
L (x; 1)
>k
L (x; 0)

k est une constante détermonée par le risque de première espèce :


Preuve. a/ S’il existe une constante k , telle que l’ensemble W des points de
Rn où :
L (x; 1 )
>k
L (x; 0 )
soit de probabilité sous H0 : P (W=H0 ) = ; alors cette région W réalise
le maximum de 1 :
En e¤et, soit W 0 une autre région de Rn telle que P (W 0 =H0 ) = ; W0
di¤ère alors de W par des points L(x; 1)
L(x; 0 ) k (…g. x). L’intégrale :
Z
L (x; 1 )
L (x; 0 ) dx
W L (x; 0 )

di¤ère de l’intégrale :
Z
L (x; 1)
L (x; 0 ) dx
W0 L (x; 0)

pour les parties non communes à W et W 0 .


W et W 0 ayant sous H0 même mesure ; l’ensemble des points W n’appar-
tenant pas à W 0 (W W 0 ) a même mesure sous H0 que l’ensemble des points
de W 0 n’appartenant pas à W (W 0 W ) : L’intégrale :
Z
L (x; 1 )
L (x; 0 ) dx
W W 0 L (x; 0 )

est alors supérieure à :


Z
L (x; 1)
L (x; 0 ) dx
W0 W L (x; 0)

comme intégrale, prise par rapport à la mesure L (x; 0 ) dx sur l’ensemble de


même mesure, d’une fonction strictement supérieure ; le théorème de la moyenne
indique en e¤et :
Z 0
L (x; 1 ) L ; 1 0
L (x; 0 ) dx = 0 P (W 0 W=H0 ) avec 2 W0 W
W 0 W L (x; 0 ) L ; 0
Z
L (x; 1 ) L( ; 1) 0
L (x; 0 ) dx = P (W W 0 =H0 ) avec 2W W0
W W 0 L (x; 0 ) L( ; 0)

60
ce qui démontre le point a/ car :
0
L ; 1 L( ; 1)
0 k
L ; 0 L( ; 0)

b/ Montrons que cette constante k existe.


Soit A (K) la région de Rn où L (x; 1) > KL (x; 0) et considérons P (A (K) =H0 )
qui est une fonction continue monotone de K; si X est à densité continue.
Comme L (x; 1) est toujours positif, car c’est une densité , on a P (A (K) =H0 ) =
1: D’autre par si K ! 1; avec une densité bornée on a P (A (K) =H0 ) ! 0: Il
existe donc une valeur intermédiaire k telle que P (A (k )) = :

5.2.2 Etude de 1 : puissance du test

Nous allons montrer que 1 > : Un tel test est dit sans biais :

P (W=H1 ) > P (W=H0 )

puisse que :
L (x; 1) > k L (x; 0)

d’où : Z Z
L (x; 1 ) dx > k L (x; 0 ) dx
W W

Si k > 1 la proposition est triviale ; si k < 1 nous allons montrer, ce qui


est équivalent, que <1 :

= P W =H1 et 1 = P W =H0

L(x; 1)
W est tel que L(x; 0)
< k ; donc :
Z Z
L (x; 1 ) dx <k L (x; 0 ) dx
W W

ce qui démontre la proposition.

61
Exemple 85 Test de l’espérance d’une loi normale :
2
Supposons que X 7! N m; où est connue. On veut tester :

H0 : m = m0 contre

H1 : m = m1

Déterminons la région critique du test de niveau : Soit L (X; m) la vrais-


semblance associée au vecteur X = (X1 ; :::; Xn ) :
N N
" #
Y Y 1 1 xi m
2
L(X; m) = f (xi ; m) = p exp
i=1 i=1
2 2

La région critique du test d’hypothèse de niveau est dé…nie par :


L(X; m1 )
W = X tel que k
L(X; m0 )

N
Y h i
p1 exp 1 xi m1 2 n h PN i
2
2 p1 exp 1
i=1 (xi m1 )
2
L(X; m1 ) 2 2 2
= i=1 = n h PN i
L(X; m0 ) YN h i p1 exp 1 2
p1 exp 1 xi m0 2 2 2 2 i=1 (xi m0 )
2 2
i=1
" N N
!#
L(X; m1 ) 1 X 2
X 2
= exp 2
(xi m1 ) (xi m0 )
L(X; m0 ) 2 i=1 i=1

N N N
1 X 2
X 2 1 X
2
(xi m1 ) (xi m0 ) = 2
2xi (m0 m1 ) + m21 m20
2 i=1 i=1
2 i=1
N
1 X
= [(m0 m1 ) (2xi m1 m0 )]
2 2 i=1
n
= (m0 m1 ) (2x m1 m0 )
2 2
On cherche donc l’ensemble des X telle que :

2
(m1 m0 ) (2x m1 m0 ) 2 ln k

On distingue deux cas : si m1 > m0 donc


2 2 ln k
x + m1 + m0 K
m1 m0

62
On distingue deux cas : si m1 < m0 donc
2 2 ln k
x + m1 + m0 K
m1 m0
Ce résultat évident à l’intuition exprime que si m1 > m0 , on rejettera H0 si
X est trop grand. On trouve la constante K en écrivant P X > K j H0 = :
En représentant sur un même graphique les densités de X dans H0 et dans H1
on a la …gure :

Figure (à représenter en cours)

Pour déterminer K, on procède comme suit :


Considérons le cas où m0 > m1 , la région critique du test est :

W = X telle que XN K

On sait que XN suit une loi normale N m; pN . A partir du risque de


première espèce qu’on sait …xé on détermine le seuil critique K :

= P XN K sous H0
X N m0 K m
= P p p 0
= N = N
Soit (:) la fonction de répartition de la loi normale entre réduite. On a
donc :
K m
= p 0
= N
Ce qui implique que :

1
K = m0 + p ( )
N

Exemple 86 Test sur la variance d’une loi normale


2
On suppose que X suit une loi normale N m; avec l’hypothèse que m
est connu et m = 0. On teste :

H0 : = 0 contre

H0 : = 1; avec 0 6= 1

63
Cherchons la région critique du test au seuil d’erreur . Soit (X1 ; ::::; XN )
un N échantillon i:i:d: de la variable X.
Sous H0 , on a :
N
!
N=2 N 1 X Xi2
L (X; 0) = (2 ) 0 exp
2 i=1 20

De la même façon, sous H1 ; on a :


N
!
N=2 N 1 X Xi2
L (X; 1) = (2 ) 1 exp
2 i=1 21

Le test est dé…ni par :


" N N
#
1 X Xi2 X
N
L(X; 1) 0 X2 i
K) exp K
L(X; 0) 1 2 i=1 20 i=1
2
1

N
X
1 1 1 0
2 2 Xi2 log K N log K0
2 0 1 i=1 1

N
X N
X 0
1 ( 1 + 0) ( 1 0) 2K 20 21 00

2 2 Xi2 K0 ) ( 1 0) Xi2 K
2 0 1 i=1 i=1
( 1 + 0)
PN
– Pour 1 > 0 la région critique est de la forme i=1 Xi2 A; avec
00
K
A ( 1 0)
:
PN
– Pour 1 < 0 la région critique est de la forme i=1 Xi2 A; avec
00
K
A ( 1 0)
PN
Toute transformée a¢ ne de Xi2 peut servir à construire la région du
i=1
PN
test. Ainsi, considérons la variance empirique corrigée S 2 = N 1 1 2
i=1 Xi
(N 1)S 2 2
avec 2 7! (N 1) : Par conséquent, la région critique du test de niveau
peut s’écrire sous la forme :

W = X tel que S 2 C , avec 1 < 0 et C déterminé par

La détermination du seuil critique se fait de la façon suivante : on sait


que = P (W j H0 vraie) implique que = P S2 Cj = 0 : Sous H0 :
(N 1)S 2 2
2 7! (N 1) : Donc :
0

(N 1) S 2 C (N 1)
=P 2 2
0 0

64
2 C(N 1)
Soit G (:) la fonction de répartition de la loi (N 1) : On a =G 2 :
0
2
1
On en déduit que C = (N 1) G
0
( ) : Ainsi, la région critique au seuil d’erreur
si 1 < 0 est :
2
0
W = X tel que S 2 G 1
( )
(N 1)

Application : On considère un échantillon de taille N = 16 d’une variable


normale centrée. On teste :

H0 : 0 = 4 contre

H1 : 1 =2

1
PN
On observe S 2 = N 1 i=1 Xi2 = 8; 63: Quelle conclusion tirer pour un
niveau de risque de 5% ?
2
On sait que si 1 < 0 W = X j S2 C . Or C = (N 1) G
0 1
( ) =
16 2 1
15 7; 26 ' 7; 73: (à partir de (15) on a G ( ) = 7; 26: Donc on ne rejette
pas H0 ).

5.3 Test entre hypothèses composites

5.3.1 Test d’une hypothèse simple contre une hypothèse


composite

Exemple 87
H0 : = 0
1= Test unilatéral
H1 : > 0

H0 : = 0
2= Test bilatéral
H1 : 6= 0

– La fonction puissance

65
L’hypothèse H1 étant composée d’un ensemble de valeur de ; pour chaque
valeur particulière de on peut calculer 1 ( ) ; d’où une fonction, dite fonction
puissance, décrivant les variations 1 selon les valeurs de dans H1 .
La …gure suivante montre la fonction puissance du test H0 : m = 600 contre
H1 : m > 600 correspondant à l’exemple introductif.
Insérer graphique (à faire en cours)

– Tests UPP
Un test est dit uniformément le plus puissant (U P P ) si, quelle que soit la
valeur de appartenant à l’hypothèse alternative, sa puissance 1 ( ) est
supérieure à la puissance de tout autre test.

Exemple 88 Dans le test H0 : m = m0 contre H0 : m = m1 > m0 ; on a pu


remarquer que le région critique ne dépnd pas explicitement de m1 ; et donc que
cette région critique est la même pour n’importe quel m1 > m0 : Le test précédent
est donc UPP pour H0 : m = m0 contre H1 : m > m0 ; il est évident cependant
qu’il n’existe pas de test UPP pour H0 : m = m0 contre H1 : m 6= m0 car, s’il
en existait un il devrait être UPP pour les deux sous-hypothèses H10 : m > m0 et
00
H1 : m < m0 : Or les tests de H0 contre H10 et H0 contre H100 sont précisément
UPP et di¤ érents l’un de l’autre.

5.3.2 Test entre deux hypothèses composites

Si H0 est elle-même composite, dépend de selon les valeurs de 2 H0 ;


et l’on devra exiger ( ) donné. L’existence de tests UPP pour les cas
suivants :
H0 : < 0 H0 : 1ou 2
et
H1 : 0 H1 : 1 < 2

est assurée par le théorème de Lehmann que nous ne démontrerons pas.


Ce théorème suppose l’existence d’une statistique G telle que le rapport
L(x; 1)
L(x; 2)
soit une fonction monotone croissante de G si 1 > 2 (théorème dit "du
rapport de vraisemblance monotone").

66
D’autre part il n’existe pas de tests UPP pour les cas H0 : 1 2

contre H1 : > 2 ou < 1 et a fortiori : H0 : = 0 contre H0 : 6= 0:

Dans les cas où il n’existe pas de tests UPP, on cherchera s’il existe de bons
tests parmi une classe plus restreinte, celle des tests sans biais par exemple. Ainsi
pour le test précédent il existe un test UPP sans biais s’il existe une statistique
G(x) répondant à la condition de Lehmann et la région critique est : G(x) < c1
ou G(x) > c2 .

5.3.3 Test de rapport des vraisemblances maximales (LR)

Ce test est fort utile là où les méthodes précédentes on échoué :


a/ Le test d’hypothèse consiste : H0 : = 0 contre H1 : 6= 0 où peut
désigner un paramètre vectoriel de dimension p. Posons :

L (x; 0 )
=
supL (x; )

on a donc 0 1. est intuitivement une statistique convenable pour


un test car plus est grand, plus l’hypothèse H0 est vraisemblable (principe
du maximum de vraisemblance). Cela revient à remplacer dans H0 par son
estimation ^ par la méthode maximum de vraisemblance.
La région critique du test sera : < K:

2
Théorème 89 La distribution de 2 ln est asymptotiquement celle d’un p

dans l’hypothèse H0 :

Preuve. Nous la ferons pour p = 1. On a, en développant en série de Taylor :

@ 1 @2
ln L (x; 0) ln L x; ^ = 0
^ ln L x; ^ + 0
^ ln L (x; )
@ 2 @ 2
h i
où 2 0;
^ : Comme est l’estimateur du MV on a @
ln L x; ^ = 0,
@

d’où :
^
2 @2
2 ln = 0 ln L (x; )
@ 2

67
Dans l’hypothèse H0 : = 0; on sait que l’estimation du MV convergence
presque sûrement vers 0 ; donc ! 0 et lorsque n ! 1 :
2
@ ln L (x; ) 2
@ ln f (xi ; ) 1 X @ 2 ln f (xi ; )
=n
@ 2 @ 2 n @ 2
Lorsque n ! 1; la loi des grands nombres nous indique que :
1 X @ 2 ln f (xi ; ) @ ln f
!E = I1 ( )
n @ 2 @ 2
Donc :
@ 2 ln f (xi ; )
! nIn ( ) = In ( )
@ 2
On a alors :
2
2 ln 0
^ In ( 0 )
^ 2
D’autre part on sait que p ! N (0; 1). Donc ^ In ( 0 ) ! 2
1:
0
0
1=In ( )

NB. Le domaine de dé…nition doit être indépendant du paramètre

Théorème 90 Si n ! 1; la suite des tests est convergente, c’est-à-dire que la


puissance (1 ) ! 1:

b/ Test entre deux hypothèses composites. On formulera :


sup L (x; )
2H0
=
sup L (x; )
2H1

et on obtient les mêmes propriétés qu’au paragraphe a/.

Exercise 91 Test sur l’espérance d’une population normale dont la variance


est connue.

Exercise 92 Calculez en fonction de , la puissance du test précédent lorsque


2
; 0, et n sont donnés. Comment cette fonction de puissance se comporte-
t-elle lorsque la taille n de l’échantillon tend vers l’in…ni ?

Exercise 93 Test sur l’espérance d’une population normale, variance inconnue.

68
5.3.4 Le critère de Wald

Dé…nition 94 Soit L ( ) = L ( 1 ; :::; k) la vraisemblance et soit ^ = ^1 ; :::; ^k


l’estimation de qui maximise L ( ). On s’intéresse au test :

H0 : i = 0 contre H1 : i 6= 0

i est un élément de ; 0 est un nombre.


La statistique de Wald est dé…nie comme :
2
^i 0
W =
V^ ^i

où V^ ^i est l’estimation de la variance de ^i obtenue par maximisation de


la vraisemblance.

Il s’agit du carré d’un distance entre l’estimation de ^i sous H0 (à savoir 0)

et l’estimation de i sous H1 (à savoir ^i ): On divise par la variance estimée


pour tenir compte de la précision de l’estimation.

2
Exemple 95 – Soit L ; la vraisemblance précédente (population nor-
male, variance inconnue). Pour tester H0 : = 0 contre H1 : 6= 0; on
forme :
2 2
(^ 0) (x 0)
W = =
V^ (^ ) ^ 2 =n
Pn 2
où ^ 2 = 1
n i=1 (xi x) est l’estimateur de 2
par maximum de vrai-
semblance.
– Comme précédemment, on peut transformer la statistique W en une autre
statistique possédant une distribution connue sous H0 , à l’aide d’une trans-
formation monotone. En e¤ et, comme ^ 2 = n 1 2
n s , on a :
2
(^ 0) n
W = n 1s 2 = t2obs
n n
n 1
et le critère de Wald conduit donc, dans ce cas-ci, au même test que le
critère du rapport des vraisemblances.

69
5.3.5 Le critère des multiplicateurs de Lagrange

Soit l ( ) = l ( 1 ; :::; k) la vraisemblance logarithmique l = ln L: On s’inté-


resse au test
H0 : i = 0 contre H1 : i 6= 0

Soit ^0 l’estimateur de par maximisation de la vraisemblance sous la


contrainte H0 . ^ est obtenu en annulant les dérivées du Lagrangien :

( ; ) = l( ) ( i 0)

Dans un modèle linéaire et pour des observations distribuées normalement,


on peut montrer que la statistique du multiplicateur de Lagrange est égale à :

^2
0
LM =
V^0 ( )

où 0 est la valeur de évaluée au point = ^0 et où V^0 ( ) est l’estimation


de V ( ) obtenue par maximisation de l sous H0 :
L’annulation de la dérivée de par rapport à i implique :

@l
=
@ i

Ce qui montre que ^ 0 est le taux de variation de la vraisemblance maximisée


l ^0 lorsque l’on s’éloigne de la situation de la statsitique constrainte. Si ce
taux de variation est nul, le fait de relâcher H0 ne modi…e pas la vraisemblance
contrainte : cette contrainte n’apparaît donc pas comme sign…cative.

2
Exemple 96 Soit l ; la vraisemblance logarithmique :
n
2 n n 2 1 X 2
l ; = log 2 log 2
(xi )
2 2 2 i=1

On a :
n
@l 1 X n (x )
= 2
(xi )= 2
@ i=1
= (par l’annulation de la dérivée de )

70
Donc :
n
^ 0 = @l n (x 0) 1X 2
= ; où ^ 20 = (x 0)
@ = 0;
2= 2
0
^ 20 n i=1

Par ailleurs :
n
!
1 X n 2
n n
V ( )= 4
V xi = 4
= 2
; donc V^0 ( ) = 2
i=1
^0

Par conséquent :
n2 (x 0) 2
^ 40 n (x 0)
LM = n =
^ 20 ^ 20

Comme précédemment, on peut appliquer une transformation monotone à


LM pour obtenir t2obs : En e¤ et :
n
1X 2
^ 20 = (xi 0)
n i=1
" n #
1 X 2 2
= (xi x) + n (x 0)
n i=1
2
= ^ 2 + (x 0)

Donc :
2
1 ^ 20 ^ 2 + (x 0) 1 ^2
= 2 = 2 = + 2
LM n (x 0) n (x 0)
n n (x 0)
n 1 2
1 n s 1 n 1 1 t2 + n 1
= + 2 = + 2 = obs 2
n n (x 0)
n n tobs ntobs

Soit
nt2obs
LM = :
nt2obs + n 1

5.3.6 Comparaison des trois critères

Rappelons que LR = 2 log :


– Pour le test vu précédemment :

H0 : = 0 contre H1 : 6= 1

71
2 2
Les observations xi 7! N ; indépendantes, inconnue, on a établi
que :

n 2
W = t
n 1 obs
1 1 n 1 1
= +
LM n n t2obs
" # n
2
n (x 0) t2obs
LR = n log 1 + Pn 2 = log 1 + :
i=1 (xi x) n 1

– On a donc une relation bijective entre t2obs et chacune des trois statistiques,
ce qui veut dire que chacune des trois critères conduit au même test (le
test t).
– Il n’en est pas toujours ainsi : dans des situations plus compliquées, les
trois statistiques W , LM , et LR ne seront pas des fonctions bijectives
les unes des autres, et leurs régions critiques seront di¤érentes en petit
échantillon.
– En revanche, si n ! 1; les distributions des trois statistiques sous H0
2
tendront en général vers la même distribution : Ceci peut se véri…er
1 n 1
facilement pour le test que nous venons de voir, puisque n ! 0; n !
t2obs
1; et 1+ n 1 ! exp t2obs : Mais la validité de cette proposition est
beaucoup plus générale !
– Quel est alors l’intérêt de l’étude de ces trois statistiques ? Il réside dans
leur commodité d’emploi. Celle-ci dépend du contexte :
– W sera plus facile à employer chaque fois que le modèle est plus facile
à estimer sans contrainte ;
– LM sera plus facile à employer chaque fois que le modèle est plus facile
à estimer sous H0 ;
– LR nécessite l’estimation du modèle avec et sans contrainte ; en re-
vanche, son calcul ne nécessite que la connaissance des valeurs de la
vraisemblance maximisée. Aucun calcul analytique de dérivées ni de
variance n’est nécessaire.

72
5.4 Tests d’ajustement

Ces tests ont pour but de véri…er qu’un échantillon provient ou non d’une
variable aléatoire de distribution connue F0 (x) :
Soit F (x) la fonction de répartition de la variable échantillonnée, il s’agit
donc de tester H0 : F (x) = F0 (x) contre H1 : F (x) 6= F0 (x) :
2
Avant de présenter le test statistique le plus courant (test de ) il convient
de présenter brièvement les procédures empiriques usuelles qui sont une étape
indispensable et permettent de s’orienter vers une distribution adaptée aux don-
nées.

5.4.1 Les méthodes empiriques

La forme de l’histogramme

Celle-ci peut conduire à éliminer certains modèles, en particulier si les pro-


priétés de symétrie ne sont pas véri…ées. Une forme symétrique conduit souvent
à poser l’hypothèse de normalité mais il faut se souvenir que la loi de Laplace-
Gauss n’est pas la seule à avoir une courbe de densité en cloche : c’est également
le cas de la loi de Cauchy et de Student en particulier.
Une forme fortement dissymétrique peut suggérer l’usage de lois log-normales,
gamma, ou bêta qui ont des courbes de densité assez ressemblantes au moins
pour certaines valeurs des paramètres.
Ce choix entre di¤érentes distributions de forme semblable doit s’e¤ectuer
alors en tenant compte du phénomène étudié.

Véri…cation sommaire de certaines propriétés mathématiques

On véri…era sur l’échantillon si certaines relations concernant les paramètres


d’un modèle sont vraies.

73
Ainsi pour une loi de Poisson on sait que E (X) = V (X) ; on s’assurera que
sur un échantillon x di¤ère peu de s 2 : Une telle constatation est seulement in
indice du caractère poissonniien d’une distribution mais n’en est nullement une
preuve. On ne eput d’ailleurs jamais prouver la véracité d’un modèle par des
moyens statistiques. Un modèle est choisi pour sa commodité et sa faculté de
représenter un phénomène.
Pour une variable de Gauss on sait que le coe¢ cient d’aplatissement de
cette loi est égal à 3 et que son coe¢ cient d’asymétrie est nul. On véri…era sur
l’échantillon que les coe¢ cients empiriques correspondants s’écartent peu des
valeurs théoriques.

Ajustements graphiques

Pour la plupart des lois de probabilité une transformation fonctionnelle


simple permet de représenter la courbe de répartition par une droite.
La fonction de repartition empirique d’un échantillon de taille n di¤ère peu,
si n est grand, de la fonction théorique F (x). On véri…era alors simplement
l’adéquation des données au modèle en comparant la fonction de répartition
empirique à une droite sur un papier à échelles fonctionnelles.
– Loi exponentielle : Si la durée de vie X d’un composant est telle que :

P (X > x) = exp ( x) on a alors ln (1 F (x)) = x

Pour un échantillon de taille n on reportera donc pour chaque valeur du


temps de fonctionnement x le pourcentage de "survivants" à la date x sur
une échelle logarithmique. En pratique on reporte, si les xi sont ordonnées
par valeurs croissantes, les points de coordonnées :

i 1
xi ; ln 1 pour 1 i n
n

Les points doivent alors être alignés approximativement le long d’une


droite dont la pente fournit une estimation graphique de :

74
– Loi de Laplace-Gauss : Ici la fonction de répartition n’ayant pas d’expres-
X m
sion mathématique simple on utilise la propriété U = de la manière
suivante :
Si les observations xi proviennent d’une variable normale N (m; ) alors
xi m
les ui = constituent un échantillon d’une variable normale centrée-
réduite U . Si le nombre des observations est grand, la fonction de ré-
partition empirique (de l’échantillon) doit peu di¤érer de la fonction de
répartition théorique telle qu’elle est issues des tables. Appelons Fi les
ef f ectif < xi
valeurs de la fonction de répartition empirique Fi = n : A
ces valeurs empiriques Fi associons les valeurs correspondantes ui de la
variable normale centrée réduite obtenues par la table : alors si la distri-
bution est réellement gaussienne et si n est grand ui doit peu di¤érer de
xi m
et il doit donc exister une relation linéaire entre ui et xi (la graphe
ui , xi doit être à peu près une droite coupant l’axe des abscisses en m et
de pente 1= ). Cette droite est appelée la droite de Henry.

Exemple 97 La répartition des durées de 670 vols Paris-Alger en Caravelle est


donnée dans le tableau suivant :
Durée Nombre Fréquence (%)
1,9
1,95 19 2,8
2 19 2,9
2,05 39 5,8
2,1 48 7,2
2,15 87 12,9
2,2 94 14,1
2,25 104 15,5
2,3 92 13,7
2,35 57 8,5
2,4 44 6,6
2,45 28 4,2
2,5 26 3,9
2,55 13 1,9
670 100

x = 2:216; s = 0:135; 1 = 0:086; 2 = 2:675:

75
La forme de l’histogramme semble compatible avec l’hypothèse d’une loi de
Laplace-Gauss ainsi que les valeurs des coe¢ cients 1 et 2: En e¤et, d’après
les tables, on trouve approximativement :

P ( 0:220 < 1 < 0:220) = 0:98

et :
P (2:61 < 2 < 3:52) = 0:98

lorsqu’on est en présence d’un échantillon de 670 observations d’une varible


de Laplace-Gauss ce qui n’est pas contredit par les valeurs expérimentales.
L’ajustement graphique par la méthode de Henry est donné est également
satisfaisant et on constate que les échantillons graphiques de m et de di¤èrent
peu des valeurs de x et s.
Ces méthodes empiriques ne permettent cependant pas de préciser les risques
d’erreur.

xi 1.95 2 2.05 2.1 2.15 2.2 2.25 2.3 2.35 2.4 2.45 2.5
Fi 2.8 5.7 11.5 18.7 31.6 45.7 61.2 74.9 83.4 90 94.2 98.1
ui -1.91 -1.98 -1.2 -0.89 -0.48 -0.11 -0.28 -0.67 -0.97 1.28 1.57 2.07

76
Graphique à tracer (u ; xi ) (à faire en cours)

2
5.4.2 Le test du

Soit une variable aléatoire X discrète ou discrétisée, c’est-à-dire divisée en


k classes de probabilités p1 ; p2 ; :::; pk . Soit un échantillon de cette variable four-
nissant les e¤ectifs aléatoires N1 ; N2 ; :::; Nk dans chacune de ces classes. On a
évidemment E (Ni ) = npi . Considérons alors la statistique D2 dé…nie comme
suit :
k
X 2
(Ni npi )
D2 =
i=1
npi

Il est clair que cette statistique est une mesure (on pourrait presque dire une
distance) de l’écart aléatoire entre les e¤ectifs réalisés et les e¤ectifs espérés et
intuitivement on sent que D2 dépend du nombre de termes de la somme k mais
on remarque que D2 ne peut être trop grand. D2 dépend du nombre de termes
de la somme k mais on remarque que tous ces termes ne sont pas indépendants
Pn
puis que i=1 Ni = n ; il su¢ t d’en connaître en fait k 1: Donc en fait D2
dépend de k 1, nombre de degrés de liberté de D2 :

Théorème 98 Si n ! 1; D2 est asymptotiquement distribué comme une va-


2
riable de k 1 et ceci quelle que soit la loi de X:

2
Pn (ni npi )2
D’où le test du : on rejettera H0 si d2 constaté = i=1 npi est trop
grand, c’est-à-dire supérieur à une valeur qui n’a qu’une probabilité d’être
2
dépassée par une variable :

Cas des estimations

Il arrive bien souvent que seule la forme de la distribution soit spéci…ée,


Poisson, Laplace-Gauss, mais qu’on ignore certains paramètres que l’on estime

77
sur l’échantillon. Soit "l" le nombre d’estimations indépendantes ainsi réalisées.
2
Le degré de liberté du devient alors k 1 l:
Il convient ici de prendre certaines précautions : les estimations en question
doivent être des estimations du maximum de vraisemblances e¤ectuées au moyen
des k classes de la distrubution, faute de quoi la distribution limite de D2 n’est
2 2
plus un , mais en tout état de cause, comprise entre les valeurs d’un k 1
2
et d’un k 1 l ; si k est grand, ce phénomène n’est pas trop important, mais
si k est petit il peut aboutir à garder inconsidérément H0 en se fondant sur la
2
distribution de k 1 l:

E¤ectifs par classes

La loi de D2 est asymptotique et l’on admet que D2 ~ 2


k 1 si npi est supérieur
à 5 pour toute classe (certains auteurs donnent comme condition 3, ou même 1
pour une seule classe en queue de distribution).
Dans le cas contraire on procédera à des regroupements.

Cas des variables continues

Si on a le choix du découpage en classes, on peut hésiter entre des classes


équiprobables et des classes d’égales amplitudes, mais ces dernières doivent
être déterminées a priori. Cependant pour des variables continues, le test de
Kolmogorov-Smirnov semble préférable, s’il n’y a pas d’estimation à e¤ectuer.

Propriétés du test

2
On peut démontrer que le test du présenté ici est asymptotiquement
équivalent au test du rapport des vraisemblances maximales appliqué aux hy-
pothèses :

H0 : pi = pio 8i

H1 : pi 6= pio 9i

78
Exemple d’utilisation

Reprenons les données étudiées précédemment concernant les vols de Cara-


velle. Le second tableau indique les calculs e¤ectués. m est estimé par x, est
xi x
estimé par s et ui = s :
On a donc d2 = 13:60: Comme on a estimé deux paramètres et il y a 13
classes, si l’hypothèse H0 : X ! N (m; ) est vraie d2 est une réalisation d’une
2 2
variable suivant la loi 13 2 1 = 10 :
2
Or au risque = 10% on retrouve P 10 > 15:98 = 10%: On ne peut donc
rejeter l’hypothèse H0 et il est donc plausible (mais non prouvé bien entendu)
que X suive une loi de Laplace-Gauss.

79

Vous aimerez peut-être aussi