Académique Documents
Professionnel Documents
Culture Documents
1
Ce cours est en version provisoire et ne doit être cité ni di¤usé sans l’autorisation
de l’auteur. Les remarques, commentaires et suggestions sont les bienvenues. E.mail.
jude.eggoh@yahoo.fr
Table des matières
1 Vecteurs aléatoires 4
1.1 Fonction de répartition et densité . . . . . . . . . . . . . . . . . . 5
1.1.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . 5
1.1.2 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Changement de variable dans une densité . . . . . . . . . 6
1.2 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Densité marginale d’un vecteur aléatoire . . . . . . . . . . . . . . 8
1.4 Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Espérances conditionnelles et partielles . . . . . . . . . . . . . . . 13
1.7.1 Espérances itérées . . . . . . . . . . . . . . . . . . . . . . 13
1.7.2 Cas particulier de l’espérance conditionnelle : l’espérance
partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Coe¢ cient de corrélation . . . . . . . . . . . . . . . . . . . . . . . 15
1
4 L’estimation 36
4.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.1 Estimation par la méthode des moments . . . . . . . . . . 36
4.1.2 Estimation par la méthode du maximum de vraisemblance 39
4.2 Estimation par intervalle de con…ance . . . . . . . . . . . . . . . 45
4.2.1 Estimation par intervalle de con…ance d’une moyenne . . 45
4.2.2 Estimation par intervalle de con…ance d’une variance . . . 48
4.3 Estimation dans une population …nie d’e¤ectif N . . . . . . . . . 48
4.3.1 Estimation d’une proportion p . . . . . . . . . . . . . . . 48
4.3.2 Estimation de la moyenne m et de l’écart-type d’une
grandeur X distribuée sur une population …nie . . . . . . 49
4.4 Remarques sur l’estimation robuste . . . . . . . . . . . . . . . . . 49
4.4.1 Quelques estimateurs robustes de tendance centrale . . . 50
4.4.2 L’estimateur Jackknife . . . . . . . . . . . . . . . . . . . . 51
5 Tests statistiques 53
5.1 Introduction générale à la théorie des tests . . . . . . . . . . . . . 54
5.2 Test entre deux hypothèses simples . . . . . . . . . . . . . . . . . 59
5.2.1 La méthode de Neyman et Pearson . . . . . . . . . . . . . 59
5.2.2 Etude de 1 : puissance du test . . . . . . . . . . . . . 61
5.3 Test entre hypothèses composites . . . . . . . . . . . . . . . . . . 65
5.3.1 Test d’une hypothèse simple contre une hypothèse composite 65
5.3.2 Test entre deux hypothèses composites . . . . . . . . . . . 66
5.3.3 Test de rapport des vraisemblances maximales (LR) . . . 67
5.3.4 Le critère de Wald . . . . . . . . . . . . . . . . . . . . . . 69
5.3.5 Le critère des multiplicateurs de Lagrange . . . . . . . . . 70
5.3.6 Comparaison des trois critères . . . . . . . . . . . . . . . 71
5.4 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.4.1 Les méthodes empiriques . . . . . . . . . . . . . . . . . . 73
5.4.2 Le test du 2 . . . . . . . . . . . . . . . . . . . . . . . . . 77
2
Ce cours est destiné à des étudiants disposant de notions de base en statis-
tique descriptive. Il a pour objectif de familiariser les étudiants à des concepts
de statistiques approfondies et les prépare au cours d’économétrie. Il est accom-
pagné de travaux dirigés (TD) qui fournissent des applications pratiques aux
notions théoriques développées dans le cours.
Ce cours présente les bases théoriques de la modélisation statistique, essen-
tiellement dans un cadre paramétrique. L’approche inférentielle est privilégiée,
et l’on traitera avant tout des méthodes d’estimation des paramètres, ainsi que
de leurs propriétés, notamment en terme d’optimalité (asymptotique ou à dis-
tance …nie). La théorie des tests d’hypothèses sera aussi abordée. La bibliogra-
phie suivante a été utilisée pour préparer le cours.
3
Chapitre 1
Vecteurs aléatoires
est un ensemble dont on peut calculer la probabilité, la fonction X (!) est dite
mesurable et X porte le nom de vecteur aléatoire. Il est discret si X (!) prend
ses valeurs dans un ensemble dénombrable, continu sinon.
4
1.1 Fonction de répartition et densité
Cette expression est valable dans le cas discret et continu. Par contruction,
F est à valeur dans l’intervalle [0; 1]. Cette fonction constitue une extension du
concept de fonction de répartition associée à une variable aléatoire réelle.
1.1.2 Densité
– Cas discret :
Propriété 2 Une densité est à valeur dans R+ , donc positive, sauf éventuelle-
ment en un nombre limité de points isolés de R2 ou (Rk selon le cas).
5
Propriété 4 Si fX est une densité associée à un vecteur aléatoire X de di-
mension k, il est possible de construire une autre densité gX associé à X, en
modi…ant arbitrairement les valeurs de fX en un nombre limité de points isolés
de Rk :
1 x2 y2
fX;Y (x; y) = exp
2 1 2 2 21 2 22
f ' 1 (y)
g (y) =
jdet Jj
6
où det J, appelé jacobien de la transformation, est tel que :
@y1 @yk
@x1 :::::::: @x1
:
det J = :
:
@y1 @yk
@xk @xk
@x1 @x1
@y1 :::::::: @yk
:
1 1
(det J) = : = det J
:
@xk @xk
@y1 @yk
7
Si les Xi sont indépendantes l’espérance d’un produit de fonctions des Xi
est égale au produit des espérances donc :
E [exp (ia0 X)] = E [exp (ia1 X1 )] E [exp (ia2 X2 )] :::E [exp (iak Xk )]
Pk
Posons en e¤et Y = a0 X = i=1 ai Xi et cherchons la fonction caractéris-
tique de Y :
'Y (t) = E [exp (itY )] = E [exp (ita0 X)]
d’où 'Y (1) = 'X (a) : Si la loi de Y est connue pour tout a on connaît donc
la fonction caractéristique de X donc la loi de X.
8
– Dans le cas d’un vecteur à composantes discrètes, on appelle fréquence
marginale associée à X (resp. Y ) l’expression de fX (resp. fY ) suivante :
X
fX (xi ) = fX;Y (xi ; yj )
j
X
fY (yj ) = fX;Y (xi ; yj )
i
Exemple 9 – Pour les densités jointes données dans l’exemple 1.2 : fX (0) =
0; 6 ; fX (1) = 0; 25 ; fX (2) = 0; 15 ; fY (0) = 0; 5 ; fY (1) = 0; 5:
– Cas continu :
Z +1
1 x2 y2
fX (x) = exp 2 dy
1 2 1 2 2 1 2 22
Z +1
1 x2 1 y2
= p exp p exp dy
1 2 2 21 1 2 2 2 22
| {z }
=1
1 x2
= p exp :
1 2 2 21
1 y2
fY (y) = p exp :
2 2 2 22
Dans les trois sections qui vont suivre nous étudions la conditionnalité, l’indé-
pendance et la covariation entre les composantes d’un vecteur aléatoire. Cette
modélisation o¤re une représentation théorique des phénomènes aléatoires si-
multanés et, en général, indépendants.
9
aléatoires X et Y .
– Dans le cas discret, les densités conditionnelles s’obtiennent à partir de la
dé…nition d’une probabilité conditionnelle :
P (A \ B)
P (A=B) =
P (B)
donc :
fX;Y (xi ; yj )
fX=Y (xi =yj ) = , avec fY (yj ) 6= 0:
fY (yj )
– Cas continu :
fX;Y (x; y)
fX=Y (x=y) = , avec fY (y) 6= 0:
fY (y)
La densité fX=Y (x=y) est bien pour tout y, une fonction de densité. En e¤et,
Z +1 Z +1
1 fY (y)
fX=Y (x=y) dx = fX;Y (x; y) dx = = 1:
1 f Y (y) 1 fY (y)
Exemple 10 – Cas discret : pour les densités jointes précédentes : fX=Y (0=0) =
0; 4 ; fX=Y (1=0) = 0; 4 ; fX=Y (2=0) = 0; 2 ; les valeurs de fX=Y (x=1) sont
celles d’une autre densité.
– Cas continu : on avait fX=Y (x; y) = fX (x) fY (y). Donc fX=Y (x=y) =
fX (x) :
1.5 Indépendance
10
– Cas discret : X et Y sont indépendantes si pour tout i et pour tout j, on
a:
fX;Y (xi ; yj ) = fX (xi ) fY (yj )
1.6 Covariance
11
Propriété 14 Si X et Y sont indépendantes, alors Cov(X; Y ) = 0. La réci-
proque n’est pas vraie en générale.
12
1.7 Espérances conditionnelles et partielles
Propriété 21
E (X) = EY [E (X=Y )]
Cette propriété porte le nom de “loi des espérances itérées”. Elle est ana-
logue au théorème des probabilités totales : une espérance inconditionnellle, tout
comme une probabilité conditionnelle, peut être évaluée à l’aide d’un arbre.
13
– Il est facile de véri…er à l’aide de le densité marginale que 0; 55 est bien
égale à E (X) :
X
E (X) = xi P [X = xi ]
i
= 0:0; 6 + 1:0; 25 + 2:0; 15 = 0; 55:
– Cas continu :
Z +1
d
E (Y =Y a) = yf (y=Y a) dy où f (y=Y a) = P (Y = y=Y a) :
1 dy
14
1.8 Coe¢ cient de corrélation
1 XY 1
(à démontrer en exercice).
15
Chapitre 2
Moments et lois de
probabilités
Soit une variable aléatoire réelle (v.a.r en abrégé) continue, notée X, dont la
loi de probabilité pour une réalisation particulière x est donnée par la fonction
de densité fX (x). On rappelle que
– fX (x) 0
R1
– 1 fX (x) dx = 1
Rb
– 8 (a; b) 2 R2 , Pr(a X b) = a
fX (x) dx
– Si on note FX (:) la fonction de répartition associée à X, on a par dé…nition
Z a
FX (a) = Pr (X a) = Pr (X < a) = fX (x) dx:
1
16
L’espérance d’une variable aléatoire correspond donc au moment théorique
d’ordre 1, soit Z 1
E (X) = m1 = xfX (x) dx:
1
h i
3
Skewness = 3 = E (X m1 )
h i
4
Kurtosis = 4 = E (X m1 ) :
17
La Skewness est une mesure de "l’asymétrie" de la distribution. Pour les
distributions symétriques telles que fX (m1 + x) = fX (m1 x), la valeur de la
skewness est nulle ( 3 = 0). Au contraire, pour des distributions asymétriques
la valeur de la skewness est positive (resp. négative) si la partie "l’asymétrie" de
la distribution se situe dans la direction positive (resp. négative). En d’autres
termes, si la Skewness est plus petit que 0, la distribution est asymétrique vers
la gauche. Si la Skewness est plus grand que 0, la distribution est asymétrique
à droite.
La Kurtosis est une mesure de "l’épaisseur " des queues de distribution. Lors-
qu’elle est positive, cela indique que la distribution est "pointue". Lorsque la
Kurtosis est négative, cela indique que la distribution est relativement "écra-
sée". Elle revêt une importance particulière en économétrie …nancière (et en
particulier lorsqu’on s’intéresse à la modélisation des variations des cours des
actifs …nanciers), où l’ocurrence des valeurs extrêmes - résumée par l’épaisseur
des queues de distribution - est une mesure des risques extrêmes.
Les moments empiriques sont les contreparties empiriques des moments théo-
riques. Plus précisément, ils sont dé…nis par les réalisations sur un échantillon
aléatoire donné, noté (X1 ; X2 ; :::; Xn ), des moments théoriques correspondants.
(k)
Ainsi, le moment empirique d’ordre k, noté X n avec k 2 N et n la taille
de l’échantillon aléatoire, est dé…ni par la v.a.r.
(k) 1 Pn
Xn = Xk:
n i=1 i
(1) 1 Pn
Xn = Xn = Xi :
n i=1
18
(k)
De même, on dé…nit le moment empirique centré d’ordre k, noté X n;c (où
l’indice c est mis pour centré) par
(k) 1 Pn k
X n;c = Xi Xn :
n i=1
(2) 1 Pn 2
Sn20 = X n;c = Xi Xn :
n i=1
Nous présentons ici un rappel sur les lois de probabilités les plus utilisées en
statistique mathématique.
Loi indicatrice
px (1) = p
1 Notons que l’indice ‘prime’est mis ici pour di¤érencier la variance empirique d’une autre
dé…nition appelée variance empirique corrigée qu’on introduira plus loin et qui est générale-
ment noté Sn2.
19
Loi de Poisson
– Moments :
E (X) = V (X) =
– Fonction caractéristique :
1
X x
x (t) = e eitx
x=0
x!
it
= e (e 1)
Loi binomiale
n x
P x (x) = Cnx px (1 p) pour x 2 f0; 1; :::; ng
20
– Moments :
E (X) = np et V (x) = npq
– Fonction caractéristique :
n
x (t) = q + peit
B (n; p) :
Loi hypergéométrique
21
2.2.2 Lois continues
La v.a.r. X suit une loi uniforme sur le segment [a; b], a < b; si sa densité
est donnée par :
1
f (x) = 1ja;bj (x)
b a
X a
Remarque 34 En faisant une transformation X 7! b a , on est ramené à une
loi uniforme sur le segment [0; 1] :
Propriété 35 – Pour une loi uniforme sur le segment [0; 1] notée Uj0;1j : Les
moments du premier et du second ordre sont donnés par les expressions
1 1
suivantes : E (X) = 2 ; V ar (X) = 12 :
– Pour une loi uniforme sur le segment [a; b] notée Uja;bj : Les moments du
premier et du second ordre sont donnés par les expressions suivantes :
a+b (b a)2
E (X) = 2 ; V ar (X) = 12 :
Loi Normale
2
La v.a.r. X suit une loi normale d’espérance m et de variance , notée
2
N m; , si sa densité est donnée par
" #
2
1 1 x m
fX (x) = p exp 8x 2 R:
2 2
22
– Soient X et Y deux v.a.r indépendantes suivant respectivement les lois
2 2 2 2
N m1 ; 1 et N m2 ; 2 , la v.a.r. X+Y suit une loi normale N m1 + m2 ; 1 + 2 .
– Si X suit une loi normale centrée-réduite, la Skewness associée est nulle
4
( 3 = 0) et la Kurtosis est égale à 4 =3 .
Loi du Khi-deux
1 y n
1
fYn (y) = n n exp y2 1R+ (y) 8y 2 R;
22 2
2
avec Z +1
1 si y 2 R+ x p 1
1R+ (y) = :et (p) = e x dx
0 sinon 0
Loi de Student
X
Tn = q ;
Y
n
23
de densité fTn (:) dé…nie par
n+1
1 t2 2
fTn (t) = p 1 n 1+ ;
nB 2; 2
n
où B (p; q) désigne la fonction beta
(p) (q)
B (p; q) = :
(p + q)
E (X) = 0
n
Var (X) = ; n > 2:
n 2
– En économétrie, on utilise souvent l’approximation de la loi de student
par la loi normale centrée-réduite lorsque n tend vers l’in…ni.
Loi de Fisher-Snedecor
24
Loi gamma
Cette loi est généralement notée (p; ), où p > 0 et > 0. C’est la loi de
probabilité à valeurs dans R+ de densité par rapport à la mesure de Lebesgue :
p
x p 1
f (x) = e x 1R+ (x)
(p)
où Z +1
x p 1
(p) = e x dx
0
Propriété 41
(p + r)
E (X r ) = r
(p)
on en déduit :
p
E (X) =
p
V ar (X) = 2
25
Loi Bêta
Cette loi est généralement notée (p; q), où p > 0 et q > 0. C’est la loi de
probabilité à valeurs dans [0; 1] de densité par rapport à la mesure de Lebesgue :
xp (1 x)q 1
(p) (q)
f (x) = xp 1
1x2[0;1] avec B (p; q) =
B (p; q) (p + q)
B (p + 1; q) pq
E (X) = et V (X) = 2
B (p; q) (p + q) (p + q + 1)
Loi logistique
FX (x)
f (x) =
1 FX (x)
26
Chapitre 3
Exemple 48
P100
i=1Xi
^ =
100
P100 2
i=1 (Xi ^)
^2 =
100
27
Dé…nition 49 Une estimation est une valeur prise par une telle fonction (l’es-
timateur) pour des réalisations particulières des variables aléatoires, soient x1 ,
x2 , ....,xn .
Exemple 50
^ = 175; ^ 2 = 25
E (Tn ) = g ( ) + Bn ( )
28
Exemple 52 Soit la loi P de la variable aléatoire X dont on a un échantillon
i:i:d: (X1 ; :::; Xn ) tel que :
2
Exemple 54 Quelle que soit la loi P de X, si = V ar (X) existe, la variance
empirique
n
1X 2
s02
n = Xi Xn
n i=1
2
est un estimateur de qui est asymptotiquement sans biais :
n 1
E s02
n =
2
! 2
lorsque n ! +1:
n
29
ou
lim P (kT n g ( )k )=1
n!+1
Ainsi, Xn ; Sn2 mais aussi Sn02 sont des estimateurs convergents de E (X) et
V ar (X) :
2
lim E kTn E (Tn )k = 0
n!+1
est convergeant.
2
E kTn g( )k
30
3.4.1 Décomposition biais-variance du risque
= T r (V ar (Tn )) + Bn2 ( )
Soient Tn et Tn0 deux estimateurs sans biais de g( ). Tn0 est dit plus e¢ cace
que Tn s’il est préférable au sens de la variance :
0
V ar Tn V ar 0 (Tn ) ; 8 2
On dit que l’estimateur sans biais Tn0 est uniformément plus e¢ cace si il est
plus e¢ cace que tous les estimateurs sans biais. On dit aussi qu’il est de variance
minimale.
On rappelle que pour deux matrices A et B on a A B , B A est
une matrice symétrique positive. La notation V ar marque bien la dépendance
de la variance du modèle P et donc du paramètre inconnu 2 . Le critère
d’e¢ cacité n’a de sens que pour discriminer les estimateur sans biais.
31
Théorème 58 (Lehmann-Sche¤ é) Si Tn est un estimateur sans biais de
g( ) et si Sn est une statistique exhaustive et complète1 , alors l’unique estima-
teur de g( ) sans biais uniformément de variance minimale est Tn0 = E (Tn jSn ).
Notons que le théorème précédent implique que l’estimateur Tn0 est une fonction
de Sn . Malheureusement les statistiques exhaustives complètes n’existent pas tou-
jours. On recherche un critère absolu, à savoir s’il existe une borne inférieure
non triviale à l’ensemble des variances des estimateurs Tn sans biais de g( ).
On cherche donc
min V ar (Tn )
Tn 2B0
Hypothèses de Cramer-Rao
@f @2f
Hypothèse 60 @ (x; ) et @ 2
(x; ) existent et sont …nies, 8 (H2):
R
Hypothèse 61 Pour tout A 2 a l’intégrale A
f (x; )dv(x) est au moins deux
fois dérivable par rapport à sous le signe d’intégration et on peut permuter
intégration et dérivation :
Z Z
@ @
f (x; )dv(x) = f (x; )dv(x)
@ A A @
@ @2
(ce qui impose en particulier que @ f (x; ) et @ 2
f (x; ) sont intégrables 8
(H3):
1 Une propriété intéressante qu’une statistique peut avoir est son caractère exhaustif. Une
statistique S est dite exhaustive si la probabilité conditionnelle d’observer X sachant S(X)
est indépendante de . Cela peut se traduire par la formule suivante :
P (X = x=S (X) = s; ) = P (X = x=S (X) = s)
Cette dé…nition n’étant pas forcément très simple à manier en pratique on préfère souvent
utiliser la caractérisation de factorisation des statistiques exhaustives. Ces statistiques exhaus-
tives sont particulièrement importantes car fournissent toute l’information qu’il est possible
de récupérer sur le paramètre à partir d’une série d’observations. Une statistique exhaustive
apporte donc autant d’information que l’ensemble du vecteur des observations x et l’on ne
peut pas récupérer plus d’information que celle contenue dans une statistique exhaustive.
32
Hypothèse 62 8 ; 0 < I ( ) < +12 (H4):
T
V ar (Tn ) r g ( ) In 1 ( ) (r g ( ))
T
La quantité r g ( ) In 1 ( ) (r g ( )) est appelée la borne de Cramer-Rao.
R
Remarque 66 – L’hypothèse que A
f (x; )dv(x) est dérivable deux fois
sous le signe d’intégration n’est pas réellement nécessaire pour établir l’in-
égalité. Lorsqu’elle est véri…ée, on sait qu’alors3
I( ) = E [H 2 (logf )(X; )]
3H est la fonction de répartition de la statistique d’ordre X(k) est donnée par Hk (x) =
Pn n
j=k j F (x)j (1 F (x))n j:
33
– Rien ne garantie l’existence d’un estimateur dont la variance atteint la
borne de Cramer-Rao.
T
V ar (Tn ) = r g ( ) In 1 ( ) (r g ( ))
2
Exemple 69 Soit X N m; , (X1 ; :::; Xn ) i:i:d: On montre que (les étu-
n 2 n
diants peuvent s’entraîner à faire le calcul) : In (m) = 2 et In = 2 4:
2 4
2
D’autre part, V ar Xn = n et V ar Sn2 = n 1: La moyenne empirique est
2
e¢ cace pour m ; la variance empirique modi…ée n’est e¢ cace pour ; de rapport
n 1
d’e¢ cacité n : Sn2 est asympthotiquement e¢ cace.
34
3.4.4 Estimateur optimal
35
Chapitre 4
L’estimation
Considérons par exemple qu’on dispose d’un échantillon aléatoire pour une
2
v.a.r X, soit (X1 ; X2 ; :::; Xn ) avec Xi i:i:d: de moyenne m et de variance .
Supposons que l’on cherche à estimer l’un ou l’autre de ces moments théoriques
en utilisant l’échantillon aléatoire. La méthode des moments consiste tout sim-
plement à estimer le moment théorique par sa contrepartie empirique. Plus
précisément, un estimateur de moment (ou estimateur obtenu par la méthode
P
n
des moments) pour m est naturellement la moyenne empirique X n = n1 Xi .
i=1
2
Pour un estimateur naturel (le premier qui vient à l’idée au sens de
l’estimation par la méthode des moments) est la variance empirique, soit
1 Pn 2
Sn20 = X Xn :
n i=1 i
36
Quels sont les propriétés de ces deux estimateurs ? On a
1 Pn
E Xn = E Xi
n i=1
1 Pn
= E (Xi )
n i=1
= m:
1
P
n P
n
Or on a X n = n Xi ) Xi = nX n , d’où
i=1 i=1
P
n
2 Xn m Xi nm
i=1
= 2 Xn m nX n nm
2
= 2n X n m :
On obtient alors
1 P
n
2 2
Sn20 = (Xi m) n Xn m :
n i=1
37
Il vient alors que
1 P
n h i h 2
i
2
E Sn20 = E (Xi m) nE Xn m :
n i=1
Remarquons que
h i h i
2 2
E (Xi m) = E (Xi E (Xi ))
= V ar (Xi )
2
= :
= V ar X n par dé…nition
2
= :
n
Au total
2
1 P n
E Sn20 = 2
n
n i=1 n
1
= n 2 2
n
n 1 2
= :
n
n 1 P
n 2
Sn2 = Sn20 = Xi Xn :
n 1 n 1 i=1
On a
n
E Sn2 = E Sn20 = 2
:
n 1
38
4.1.2 Estimation par la méthode du maximum de vrai-
semblance
P = Pr (X1 = 5; X2 = 3; X3 = 1; X4 = 2) ;
39
l’événement (X1 = 5; X2 = 3; X3 = 1; X4 = 2), c’est-à-dire la probabilité que
l’échantillon aléatoire soit e¤ectivement une réalisation d’une loi de poisson de
paramètre .
Qn
La fonction i=1 f (Xi ) notée généralement L (X1 ; X2 ; :::; Xn ; ), c’est-à-
dire
Qn
L (X1 ; X2 ; :::; Xn ; ) = i=1 f (Xi ) ;
Pn
LogL (X1 ; X2 ; :::; Xn ; ) = i=1 log [f (Xi )] ;
ou
bn = arg max LogL (X1 ; X2 ; :::; Xn ; ) :
f g
ou encore
Sn; (X1 ; X2 ; :::; Xn ) = 0;
40
avec
Sn; (X1 ; X2 ; :::; Xn ) = (LogL (X1 ; X2 ; :::; Xn ; )) :
E (S (X)) = 0:
R1
Preuve. On sait que 1
f (X) dX = 1 8 2 , d’où on a successivement
d R1
1
f (X) dX = 0
d
R1 d
1d
f (X) dX = 0
R1 d
d f (X)
1
f (X) dX = 0
f (X)
R1 d
1d
(log f (X)) f (X) dX = 0
R1
1
S (X) f (X) dX = 0;
soit
E (S (X)) = 0:
I( ) = V ar (S (X))
d
= V ar (log f (X))
d
2
= E S (X) car E (S (X)) = 0:
41
h i
d2 d
Hypothèse 78 I ( ) = E d 2
log f (X) = E d S (X) :
Preuve. On a
R1 R 1 d2
f (X) dX = 1 ) f (X) dX = 0:
1 1
d 2
Or
d2 d d
log f (X) = log f (X)
d 2 d d
" #
d dd f (X)
=
d f (X)
h 2 i
d d d
d 2 f (X) f (X) d f (X) d f (X)
= 2
[f (X)]
h i " #2
d2
d 2
f (X) d
f (X)
d
= :
f (X) f (X)
On en déduit que
d2 R1 d2
E log f (X) = log f (X) f (X) dX
d 2 1
d 2
( )
R1 d2 R1 2
d 2
f
(X) d
= 1
f (X) dX + 1 log f (X) f (X) dX
f (X) d
( )
2
R 1 d2 R1 d
= 1 2 f (X) dX + 1 d
log f (X) f (X) dX :
d
Or on sait que
R 1 d2
f (X) dX = 0;
1
d 2
et
2
R1 d d
1
log f (X) f (X) dX = V ar log f (X)
d d
h i
2
= E S (X)
= V ar (S (X))
= I ( ):
42
Dé…nition 79 L’information de Fisher pour l’échantillon aléatoire (X1 ; :::; Xn )
est noté In ( ) et dé…nie par
= nI ( ) :
V ar b
1
In ( ) :
43
et on a
(LogL (X1 ; X2 ; :::; Xn ; )) = 0
1 Pn
n+ i=1 Xi = 0
b = 1 Pn Xi = X n:
n i=1
On véri…e qu’il s’agit bien d’un maximum.
2
1 Pn
2 (LogL (X1 ; X2 ; :::; Xn ; )) =b = i=1 Xi
b2
1 Pn
= 2 i=1 Xi
X n:
nX n
= 2
Xn
n
= < 0:
Xn
2 2
Exercise 82 Estimation de l’espérance m d’une loi normale N m; ,
connu.
Qn
L (X1 ; X2 ; :::; Xn ; m) = i=1 fm (Xi )
( )
2
Qn 1 1 Xi m
= i=1 p exp
2 2
( )
n 2
1 1 Pn Xi m
= p exp :
2 2 i=1
p 2
1 Pn Xi m
LogL (X1 ; X2 ; :::; Xn ; m) = n log 2 :
2 i=1
1 Pn Xi m
(LogL (X1 ; X2 ; :::; Xn ; m)) = i=1 :
m
44
Condition du deuxième ordre :
2
n
(LogL (X1 ; X2 ; :::; Xn ; m)) = < 0:
m2
On a bien
2
n
(LogL (X1 ; X2 ; :::; Xn ; m)) jm=m
b = < 0:
m2
Il s’agit bien d’un maximum.
Une fois que l’on a dé…ni un estimateur possédant les "bonnes" propriétés
(biais et précision), au lieu de donner une réalisation de cet estimateur sur un
échantillon de réalisations particulières (x1 ; x2 ; :::; xn ), c’est-à-dire une estima-
tion ponctuelle, on peut utiliser la loi de cet estimateur et déduire un intervalle
de con…ance sur la vraie valeur du paramètre que l’on cherche à estimer. C’est
le principe de l’estimation par intervalle de con…ance.
Pr =1 :
45
2
Variance connue
Nous avons vu qu’un estimateur (par la méthode des moments) sans biais
et convergent pour m est X n . On a également vu (TCL) que
Xn m loi
T = p ! N (0; 1) :
= n n!1
Pr Z =2 T Z1 =2 =1 :
Xn m
Pr Z =2 p Z1 =2 =1
= n
Pr Z =2 p Xn m Z1 =2 p =1
n n
Pr Xn + Z =2 p m X n + Z1 =2 p =1
n n
Pr X n Z1 =2 p m Xn Z =2 p =1
n n
Pr X n Z1 =2 p m X n + Z1 =2 p =1 :
n n
On vient ainsi de construire un intervalle de con…ance sur le paramètre in-
connu m pour un niveau de con…ance de (1 ) % (ou un niveau de risque
de %). Plus précisément, il y a (1 ) % de chance que la vraie valeur du
paramètre inconnu m soit comprise dans l’intervalle
IC (1 ) = Xn Z1 =2 p ; X n + Z1 =2 p :
n n
On note alors
IC (1 ) = Xn Z1 =2 p :
n
46
2
Variance inconnue
2
Dans le cas où est inconnue, on est dans l’impossibilité de calculer l’in-
tervalle de con…ance comme précédemment. La solution consiste alors dans ce
2
cas à remplacer par un estimateur convergent, soit S 2 .
(n 1) S 2 2
2
(n 1) :
Or on sait que
Xn m
p N (0; 1) :
= n
Si on suppose que X n et S 2 sont indépendantes (ce qui peut se démontrer
assez aisément), on a alors
X np m
= n Xn m
T =r = p student (n 1) :
(n 1)S 2 S= n
2
n 1
Xn m
Pr t =2 p t1 =2 =1
S= n
et
S
IC (1 ) = Xn t1 =2 p :
n
47
4.2.2 Estimation par intervalle de con…ance d’une variance
2 2
Soit une v.a.r X de moyenne égale à m et de variance où est inconnue.
2
On cherche à estimer à partir d’un échantillon aléatoire (X1 ; X2 ; :::; Xn ). Or
on a vu qu’un estimateur (obtenu par la méthode des moments) sans biais et
2
convergent pour est S 2 avec
n
X
1 2
S2 = Xi Xn :
n 1 i=1
Par conséquent, on a
(n 1) S 2
Pr C =2 2
C1 =2 =1
48
– Tirage sans remise (se référer à la loi hypergéométrique) : E (nF ) = np;
donc F est un estimateur sans biais de p.
N n N n
V (nF ) = np (1 p) d’où V (F ) = p (1 p)
N 1 N 1
La variable est forcément discrète car elle n’a qu’un nombre …ni de valeurs.
2
– Tirage avec remise : X est un estimateur sans biais de m et V X = n :
nS 2 2
n 1 est un estimateur sans biais de :
– Tirage sans remise : x est un estimateur sans biais de m et V (X) =
2
N n 2 N 1 n 2
n N 1: L’estimateur sans biais de est N n 1S
49
estimateurs et en étudiant l’in‡uence des valeurs de l’échantillon de trouver des
intervalles de con…ance sans référence à un modèle de population.
50
8
< 1; 5 si x < 1; 5
(x) = x si jxj < 1; 5 (Huber)
:
+1; 5 si x > 1; 5
Ces estimateurs sont généralement obtenus par un processus de calcul itéra-
tif. L’estimateur robuste de dispersion s est prise généralemnt égale à la médiane
des écarts absolus à la médiane.
Cette technique est proposée par Quenouille pour diminuer le biais d’un
estimateur et reprise par Tukey.
Ti = nT (n 1) T i
– Réduction du biais
E (TJ ) = E (T ) (n 1) (E (T i ) E (T ))
= + (n 1) +
n n 1 n
n 1
= + a+ a=
n n
51
A titre d’exercice on peut véri…er que la méthode de Jackknife appliquée
à la variance S 2 donne S 2 , et que appliquée à x on retrouve x: Le calcul du
Jackknife est surtout utile pour des statistiques biaisées dont le biais est très
di¢ cile à calculer (coe¢ cient de corrélation par exemple).
52
Chapitre 5
Tests statistiques
53
5.1 Introduction générale à la théorie des tests
Des relevés e¤ectués pendant de nombreuses années ont permis d’établir que
le niveau naturel des pluies dans la Donga en millimètres par an suit une loi de
normale N (600; 100) : Des féticheurs surnommés faiseurs de pluie, prétendaient
augmenter de 50 mm le niveau moyen de pluie, ceci par des pratiques occultes.
Leur procédé fut mis à l’essai entre 1991 et 1999 et on releva les hauteurs de
pluies suivantes :
Année 1991 1992 1993 1994 1995 1996 1997 1998 1999
mm 510 614 780 512 501 534 603 788 650
Que pouvait-on en conclure ? Deux hypothèses s’a¤rontaient : ou bien les
pratiques des faiseurs de pluie étaient sans e¤et, ou bien elles augmentaient
réellement le niveau moyen de pluie de 50 mm. Ces hypothèses pouvent se
formaliser comme suit, si m désigne l’espérance mathématique de X variable
aléatoire égale au niveau annuel de pluie :
H0 : m = 600 mm
H1 : m = 650 mm
Les agriculteurs hésitant à opter pour le procédé forcément onéreux des
faiseurs de pluie tenaient pour l’hypothèse H0 et il fallait donc que l’expérience
puisse les convaincre ; c’est-à-dire que les faits observés contredisent nettement
la validité de l’hypothèse H0 dite "hypothèse nulle" (H1 s’appelle l’hypothèse
alternative). Les agriculteurs n’étaient donc décidés à abandonner H0 qu’en
présence de faits expérimentaux traduisant une éventualité improbable compte
tenu de H0 .
Ils choisirent = 0; 05 comme niveau de probabilité, c’est-à-dire qu’ils
étaient prêts à accepter H1 si le résultat obtenu faisait partie d’une éventualité
improbable qui n’avait que 5 chances sur 100 de se produire. Autrement dit,
ils admettent implicitement que des évéments rares ne sauraient se produire
sans remettre en cause le bien-fondé de l’hypothèse de départ H0 ; ce faisant,
ils assumaient le risque de se trompe dans 5 cas sur 100, cas où précisément les
événements "rares" arrivent quand même.
54
Comment décider ? Puisqu’il s’agit de "tester" la valeur m il est naturel de
s’intéresser à X moyenne des observations qui nous apporte le plus de rensei-
gnements sur m. X est la "variable de décision".
Si H0 est vraie, comme l’expérience a porté sur n = 9 ans, X suit une loi
normale N 600; 100
p
9
. En principe, de grandes valeurs de X sont improbables
et on prendra comme règle de décision la suivante :
Si X est trop grand, c’est-à-dire si X est supérieur à un seuil k qui n’a que
5 chances sur 100 d’être dépassé, on optera pour H1 avec une probabilité 0; 05
de se tromper.
Si X < k on conservera H0 faute de preuves su¢ santes. Il est facile de
calculer k grâce aux tables et on trouve :
100
k = 600 + :1; 64 = 655
3
55
Or, les données relevées indiquent que x = 610; 2 mm. La conclusion était
de conserver H0 ; c’est-à-dire que les pratiques des faiseurs de pluie étaient sans
e¤et notable sur le niveau des pluies : les valeurs observées pouvaient donc être
dues au hasard en l’absence de toute in‡uence des faiseurs de pluie.
Cependant, rien ne dit que conserver H0 mettent à l’abri de se tromper : en
e¤et, les faiseurs de pluie ont peut-être raison, mais on ne s’en est pas aperçu.
Il y avait deux manières de se tromper : croire les faiseurs de pluie, alors
qu’ils n’étaient pour rien dans les résultats obtenus (probabilité = 0; 05) ; ne
pas croire les faiseurs de pluie, alors que leur méthode est bonne et que seul le
hasard (malencontreux pour eux), dû au faible nombre d’observations, a donné
des résultats insu¢ sants pour convaincre les agriculteurs.
Supposons que les faiseurs de pluie ont raison, alors X 2 N 650; 100
3 . On
commet une erreur chaque fois que X prend une valeur inférieure à 655 mm,
c’est-à-dire avec une probabilité :
655 650
=P U< = P (U < 0; 15) donc = 0; 5596 ' 0; 56
100=3
56
donc 4 cas possibles schématisés dans le tableau suivant avec les probabilités
correspondantes :
P (W=H0 ) =
P W =H0 = 1 et P (W=H1 ) = 1
57
– Calcul éventuel de la puissance 1 :
– Calcul de la valeur expérimentale de la variable de décision.
– Conclusion : rejet ou acceptation de H0 .
ou 6= 0:
58
critique optimale c’est-à-dire un domaine de Rn parmi l’ensemble de toutes
les réalisations possibles de l’échantillon (X1 ; X2 ; :::; Xn ) dont la forme dé…nira
ensuite une variable statistique. Il s’agit de maximiser la puissance 1 ceci
pour une valeur donnée de risque de première espèce.
Nous présentons d’abord le test entre deux hypothèses paramétriques simples
puis nous généraliserons à d’autres types d’hypothèses.
Une hypothèse est dite simple si elle se limite à un seul élément. Dans le cas
contraire, on parle d’hypothèses multiples.
H0 : = 0
H1 : = 1
Il s’agit de maximiser :
Z
1 = L (x; 1 ) dx = P (W=H1 )
W
59
Théorème 84 THEOREME DE NEYMAN ET PEARSON
La région critique optimale est dé…nie par l’ensemble de Rn tels que :
L (x; 1)
>k
L (x; 0)
di¤ère de l’intégrale :
Z
L (x; 1)
L (x; 0 ) dx
W0 L (x; 0)
60
ce qui démontre le point a/ car :
0
L ; 1 L( ; 1)
0 k
L ; 0 L( ; 0)
Nous allons montrer que 1 > : Un tel test est dit sans biais :
puisse que :
L (x; 1) > k L (x; 0)
d’où : Z Z
L (x; 1 ) dx > k L (x; 0 ) dx
W W
= P W =H1 et 1 = P W =H0
L(x; 1)
W est tel que L(x; 0)
< k ; donc :
Z Z
L (x; 1 ) dx <k L (x; 0 ) dx
W W
61
Exemple 85 Test de l’espérance d’une loi normale :
2
Supposons que X 7! N m; où est connue. On veut tester :
H0 : m = m0 contre
H1 : m = m1
N
Y h i
p1 exp 1 xi m1 2 n h PN i
2
2 p1 exp 1
i=1 (xi m1 )
2
L(X; m1 ) 2 2 2
= i=1 = n h PN i
L(X; m0 ) YN h i p1 exp 1 2
p1 exp 1 xi m0 2 2 2 2 i=1 (xi m0 )
2 2
i=1
" N N
!#
L(X; m1 ) 1 X 2
X 2
= exp 2
(xi m1 ) (xi m0 )
L(X; m0 ) 2 i=1 i=1
N N N
1 X 2
X 2 1 X
2
(xi m1 ) (xi m0 ) = 2
2xi (m0 m1 ) + m21 m20
2 i=1 i=1
2 i=1
N
1 X
= [(m0 m1 ) (2xi m1 m0 )]
2 2 i=1
n
= (m0 m1 ) (2x m1 m0 )
2 2
On cherche donc l’ensemble des X telle que :
2
(m1 m0 ) (2x m1 m0 ) 2 ln k
62
On distingue deux cas : si m1 < m0 donc
2 2 ln k
x + m1 + m0 K
m1 m0
Ce résultat évident à l’intuition exprime que si m1 > m0 , on rejettera H0 si
X est trop grand. On trouve la constante K en écrivant P X > K j H0 = :
En représentant sur un même graphique les densités de X dans H0 et dans H1
on a la …gure :
W = X telle que XN K
= P XN K sous H0
X N m0 K m
= P p p 0
= N = N
Soit (:) la fonction de répartition de la loi normale entre réduite. On a
donc :
K m
= p 0
= N
Ce qui implique que :
1
K = m0 + p ( )
N
H0 : = 0 contre
H0 : = 1; avec 0 6= 1
63
Cherchons la région critique du test au seuil d’erreur . Soit (X1 ; ::::; XN )
un N échantillon i:i:d: de la variable X.
Sous H0 , on a :
N
!
N=2 N 1 X Xi2
L (X; 0) = (2 ) 0 exp
2 i=1 20
N
X
1 1 1 0
2 2 Xi2 log K N log K0
2 0 1 i=1 1
N
X N
X 0
1 ( 1 + 0) ( 1 0) 2K 20 21 00
2 2 Xi2 K0 ) ( 1 0) Xi2 K
2 0 1 i=1 i=1
( 1 + 0)
PN
– Pour 1 > 0 la région critique est de la forme i=1 Xi2 A; avec
00
K
A ( 1 0)
:
PN
– Pour 1 < 0 la région critique est de la forme i=1 Xi2 A; avec
00
K
A ( 1 0)
PN
Toute transformée a¢ ne de Xi2 peut servir à construire la région du
i=1
PN
test. Ainsi, considérons la variance empirique corrigée S 2 = N 1 1 2
i=1 Xi
(N 1)S 2 2
avec 2 7! (N 1) : Par conséquent, la région critique du test de niveau
peut s’écrire sous la forme :
(N 1) S 2 C (N 1)
=P 2 2
0 0
64
2 C(N 1)
Soit G (:) la fonction de répartition de la loi (N 1) : On a =G 2 :
0
2
1
On en déduit que C = (N 1) G
0
( ) : Ainsi, la région critique au seuil d’erreur
si 1 < 0 est :
2
0
W = X tel que S 2 G 1
( )
(N 1)
H0 : 0 = 4 contre
H1 : 1 =2
1
PN
On observe S 2 = N 1 i=1 Xi2 = 8; 63: Quelle conclusion tirer pour un
niveau de risque de 5% ?
2
On sait que si 1 < 0 W = X j S2 C . Or C = (N 1) G
0 1
( ) =
16 2 1
15 7; 26 ' 7; 73: (à partir de (15) on a G ( ) = 7; 26: Donc on ne rejette
pas H0 ).
Exemple 87
H0 : = 0
1= Test unilatéral
H1 : > 0
H0 : = 0
2= Test bilatéral
H1 : 6= 0
– La fonction puissance
65
L’hypothèse H1 étant composée d’un ensemble de valeur de ; pour chaque
valeur particulière de on peut calculer 1 ( ) ; d’où une fonction, dite fonction
puissance, décrivant les variations 1 selon les valeurs de dans H1 .
La …gure suivante montre la fonction puissance du test H0 : m = 600 contre
H1 : m > 600 correspondant à l’exemple introductif.
Insérer graphique (à faire en cours)
– Tests UPP
Un test est dit uniformément le plus puissant (U P P ) si, quelle que soit la
valeur de appartenant à l’hypothèse alternative, sa puissance 1 ( ) est
supérieure à la puissance de tout autre test.
66
D’autre part il n’existe pas de tests UPP pour les cas H0 : 1 2
Dans les cas où il n’existe pas de tests UPP, on cherchera s’il existe de bons
tests parmi une classe plus restreinte, celle des tests sans biais par exemple. Ainsi
pour le test précédent il existe un test UPP sans biais s’il existe une statistique
G(x) répondant à la condition de Lehmann et la région critique est : G(x) < c1
ou G(x) > c2 .
L (x; 0 )
=
supL (x; )
2
Théorème 89 La distribution de 2 ln est asymptotiquement celle d’un p
dans l’hypothèse H0 :
@ 1 @2
ln L (x; 0) ln L x; ^ = 0
^ ln L x; ^ + 0
^ ln L (x; )
@ 2 @ 2
h i
où 2 0;
^ : Comme est l’estimateur du MV on a @
ln L x; ^ = 0,
@
d’où :
^
2 @2
2 ln = 0 ln L (x; )
@ 2
67
Dans l’hypothèse H0 : = 0; on sait que l’estimation du MV convergence
presque sûrement vers 0 ; donc ! 0 et lorsque n ! 1 :
2
@ ln L (x; ) 2
@ ln f (xi ; ) 1 X @ 2 ln f (xi ; )
=n
@ 2 @ 2 n @ 2
Lorsque n ! 1; la loi des grands nombres nous indique que :
1 X @ 2 ln f (xi ; ) @ ln f
!E = I1 ( )
n @ 2 @ 2
Donc :
@ 2 ln f (xi ; )
! nIn ( ) = In ( )
@ 2
On a alors :
2
2 ln 0
^ In ( 0 )
^ 2
D’autre part on sait que p ! N (0; 1). Donc ^ In ( 0 ) ! 2
1:
0
0
1=In ( )
68
5.3.4 Le critère de Wald
H0 : i = 0 contre H1 : i 6= 0
2
Exemple 95 – Soit L ; la vraisemblance précédente (population nor-
male, variance inconnue). Pour tester H0 : = 0 contre H1 : 6= 0; on
forme :
2 2
(^ 0) (x 0)
W = =
V^ (^ ) ^ 2 =n
Pn 2
où ^ 2 = 1
n i=1 (xi x) est l’estimateur de 2
par maximum de vrai-
semblance.
– Comme précédemment, on peut transformer la statistique W en une autre
statistique possédant une distribution connue sous H0 , à l’aide d’une trans-
formation monotone. En e¤ et, comme ^ 2 = n 1 2
n s , on a :
2
(^ 0) n
W = n 1s 2 = t2obs
n n
n 1
et le critère de Wald conduit donc, dans ce cas-ci, au même test que le
critère du rapport des vraisemblances.
69
5.3.5 Le critère des multiplicateurs de Lagrange
( ; ) = l( ) ( i 0)
^2
0
LM =
V^0 ( )
@l
=
@ i
2
Exemple 96 Soit l ; la vraisemblance logarithmique :
n
2 n n 2 1 X 2
l ; = log 2 log 2
(xi )
2 2 2 i=1
On a :
n
@l 1 X n (x )
= 2
(xi )= 2
@ i=1
= (par l’annulation de la dérivée de )
70
Donc :
n
^ 0 = @l n (x 0) 1X 2
= ; où ^ 20 = (x 0)
@ = 0;
2= 2
0
^ 20 n i=1
Par ailleurs :
n
!
1 X n 2
n n
V ( )= 4
V xi = 4
= 2
; donc V^0 ( ) = 2
i=1
^0
Par conséquent :
n2 (x 0) 2
^ 40 n (x 0)
LM = n =
^ 20 ^ 20
Donc :
2
1 ^ 20 ^ 2 + (x 0) 1 ^2
= 2 = 2 = + 2
LM n (x 0) n (x 0)
n n (x 0)
n 1 2
1 n s 1 n 1 1 t2 + n 1
= + 2 = + 2 = obs 2
n n (x 0)
n n tobs ntobs
Soit
nt2obs
LM = :
nt2obs + n 1
H0 : = 0 contre H1 : 6= 1
71
2 2
Les observations xi 7! N ; indépendantes, inconnue, on a établi
que :
n 2
W = t
n 1 obs
1 1 n 1 1
= +
LM n n t2obs
" # n
2
n (x 0) t2obs
LR = n log 1 + Pn 2 = log 1 + :
i=1 (xi x) n 1
– On a donc une relation bijective entre t2obs et chacune des trois statistiques,
ce qui veut dire que chacune des trois critères conduit au même test (le
test t).
– Il n’en est pas toujours ainsi : dans des situations plus compliquées, les
trois statistiques W , LM , et LR ne seront pas des fonctions bijectives
les unes des autres, et leurs régions critiques seront di¤érentes en petit
échantillon.
– En revanche, si n ! 1; les distributions des trois statistiques sous H0
2
tendront en général vers la même distribution : Ceci peut se véri…er
1 n 1
facilement pour le test que nous venons de voir, puisque n ! 0; n !
t2obs
1; et 1+ n 1 ! exp t2obs : Mais la validité de cette proposition est
beaucoup plus générale !
– Quel est alors l’intérêt de l’étude de ces trois statistiques ? Il réside dans
leur commodité d’emploi. Celle-ci dépend du contexte :
– W sera plus facile à employer chaque fois que le modèle est plus facile
à estimer sans contrainte ;
– LM sera plus facile à employer chaque fois que le modèle est plus facile
à estimer sous H0 ;
– LR nécessite l’estimation du modèle avec et sans contrainte ; en re-
vanche, son calcul ne nécessite que la connaissance des valeurs de la
vraisemblance maximisée. Aucun calcul analytique de dérivées ni de
variance n’est nécessaire.
72
5.4 Tests d’ajustement
Ces tests ont pour but de véri…er qu’un échantillon provient ou non d’une
variable aléatoire de distribution connue F0 (x) :
Soit F (x) la fonction de répartition de la variable échantillonnée, il s’agit
donc de tester H0 : F (x) = F0 (x) contre H1 : F (x) 6= F0 (x) :
2
Avant de présenter le test statistique le plus courant (test de ) il convient
de présenter brièvement les procédures empiriques usuelles qui sont une étape
indispensable et permettent de s’orienter vers une distribution adaptée aux don-
nées.
La forme de l’histogramme
73
Ainsi pour une loi de Poisson on sait que E (X) = V (X) ; on s’assurera que
sur un échantillon x di¤ère peu de s 2 : Une telle constatation est seulement in
indice du caractère poissonniien d’une distribution mais n’en est nullement une
preuve. On ne eput d’ailleurs jamais prouver la véracité d’un modèle par des
moyens statistiques. Un modèle est choisi pour sa commodité et sa faculté de
représenter un phénomène.
Pour une variable de Gauss on sait que le coe¢ cient d’aplatissement de
cette loi est égal à 3 et que son coe¢ cient d’asymétrie est nul. On véri…era sur
l’échantillon que les coe¢ cients empiriques correspondants s’écartent peu des
valeurs théoriques.
Ajustements graphiques
i 1
xi ; ln 1 pour 1 i n
n
74
– Loi de Laplace-Gauss : Ici la fonction de répartition n’ayant pas d’expres-
X m
sion mathématique simple on utilise la propriété U = de la manière
suivante :
Si les observations xi proviennent d’une variable normale N (m; ) alors
xi m
les ui = constituent un échantillon d’une variable normale centrée-
réduite U . Si le nombre des observations est grand, la fonction de ré-
partition empirique (de l’échantillon) doit peu di¤érer de la fonction de
répartition théorique telle qu’elle est issues des tables. Appelons Fi les
ef f ectif < xi
valeurs de la fonction de répartition empirique Fi = n : A
ces valeurs empiriques Fi associons les valeurs correspondantes ui de la
variable normale centrée réduite obtenues par la table : alors si la distri-
bution est réellement gaussienne et si n est grand ui doit peu di¤érer de
xi m
et il doit donc exister une relation linéaire entre ui et xi (la graphe
ui , xi doit être à peu près une droite coupant l’axe des abscisses en m et
de pente 1= ). Cette droite est appelée la droite de Henry.
75
La forme de l’histogramme semble compatible avec l’hypothèse d’une loi de
Laplace-Gauss ainsi que les valeurs des coe¢ cients 1 et 2: En e¤et, d’après
les tables, on trouve approximativement :
et :
P (2:61 < 2 < 3:52) = 0:98
xi 1.95 2 2.05 2.1 2.15 2.2 2.25 2.3 2.35 2.4 2.45 2.5
Fi 2.8 5.7 11.5 18.7 31.6 45.7 61.2 74.9 83.4 90 94.2 98.1
ui -1.91 -1.98 -1.2 -0.89 -0.48 -0.11 -0.28 -0.67 -0.97 1.28 1.57 2.07
76
Graphique à tracer (u ; xi ) (à faire en cours)
2
5.4.2 Le test du
Il est clair que cette statistique est une mesure (on pourrait presque dire une
distance) de l’écart aléatoire entre les e¤ectifs réalisés et les e¤ectifs espérés et
intuitivement on sent que D2 dépend du nombre de termes de la somme k mais
on remarque que D2 ne peut être trop grand. D2 dépend du nombre de termes
de la somme k mais on remarque que tous ces termes ne sont pas indépendants
Pn
puis que i=1 Ni = n ; il su¢ t d’en connaître en fait k 1: Donc en fait D2
dépend de k 1, nombre de degrés de liberté de D2 :
2
Pn (ni npi )2
D’où le test du : on rejettera H0 si d2 constaté = i=1 npi est trop
grand, c’est-à-dire supérieur à une valeur qui n’a qu’une probabilité d’être
2
dépassée par une variable :
77
sur l’échantillon. Soit "l" le nombre d’estimations indépendantes ainsi réalisées.
2
Le degré de liberté du devient alors k 1 l:
Il convient ici de prendre certaines précautions : les estimations en question
doivent être des estimations du maximum de vraisemblances e¤ectuées au moyen
des k classes de la distrubution, faute de quoi la distribution limite de D2 n’est
2 2
plus un , mais en tout état de cause, comprise entre les valeurs d’un k 1
2
et d’un k 1 l ; si k est grand, ce phénomène n’est pas trop important, mais
si k est petit il peut aboutir à garder inconsidérément H0 en se fondant sur la
2
distribution de k 1 l:
Propriétés du test
2
On peut démontrer que le test du présenté ici est asymptotiquement
équivalent au test du rapport des vraisemblances maximales appliqué aux hy-
pothèses :
H0 : pi = pio 8i
H1 : pi 6= pio 9i
78
Exemple d’utilisation
79