1 Introduction
1.1 Dnitions
Rappelons la dnition des variables alatoires gaussiennes relles.
Dnition 1
Une variable alatoire relle Z est dite gaussienne centre rduite si elle admet pour densit par rapport la mesure de Lebesgue sur R la fonction : 1 x2 f (x) = exp 2 2
On note Z
Une variable alatoire relle X est dite gaussienne s'il existe (, ) R R+ et Z tels que X = + Z . La densit de X est alors f (x) =
On note X
1 (x )2 exp 2 2 2
Une variable gaussienne est caractrise par sa fonction caractristique, donne par la proposition suivante :
'
Thorme 1
La fonction caractristique de X
t R,
&
t R,
Z (t) = tZ (t)
Un vecteur alatoire X valeurs dans Rd est dit gaussien si toute combinaison linaire de ses composantes est une variable alatoire gaussienne. Si X = t (X1 , . . . , Xd ) est un vecteur gaussien, on dnit son vecteur moyenne E(X) par
Dnition 2
i, j = 1 . . . d,
V ar(X)i,j = cov(Xi , Xj )
Thorme 2
Soit X = t (X1 , . . . , Xd ) un vecteur gaussien. On note m = E(X) et = V ar(X). On a que X admet pour fonction caractristique la fonction
u Rd ,
&
uX
N ( t um, t uu).
$
Soit X = t (X1 , . . . , Xd ) un vecteur gaussien. On note m = E(X) et = V ar(X). On a pour toute matrice A possdant d colonnes et pour tout vecteur b Rd ,
AX + b
&
N (Am + b , A t A)
%
Soit X = t (X1 , . . . , Xd ) un vecteur gaussien. Pour tout (i, j) {1, . . . , d}2 tel que i = j , Xi et Xj sont indpendantes si et seulement si cov(Xi , Xj ) = 0.
rciproque est fausse. En eet, on considre X N (0, 1) et B(0.5) indpendante de X . Alors t X1 = X et X2 = (2 1)X sont des variables gaussiennes mais (X1 , X2 ) n'est pas un vecteur gaussien. Notons que dans cet exemple, cov(X1 , X2 ) = 0 mais que X1 et X2 ne sont pas indpendantes.
Remarque : Les composantes d'un vecteur gaussien sont des variables alatoires gaussiennes mais la
Soit (Y, X1 , . . . , Xd ) un vecteur gaussien. Alors E(Y | X1 , . . . , Xd ) est une fonction ane de (X1 , . . . , Xd ).
'
Soient X1 , . . . , Xn des vecteurs alatoires de Rd i.i.d. admettant un moment d'ordre 2. On note m leur esprance et leur matrice de variance-covariance. Alors,
n Xn m
n+
loi
N (0, )
%
&
n(X n m) :
u Rd ,
u Rd ,
'
Zn (u) exp
n+
1t uu 2
$
Thorme 5
Soit X = t (X1 , . . . , Xd ) un vecteur gaussien. On note m = E(X) et = V ar(X). X admet une densit f par rapport la mesure de Lebesgue sur Rd si et seulement si det() = 0.
Si det() = 0, la loi de X m est presque srement porte par un espace vectoriel engendr par les vecteurs propres associs aux valeurs propres non nulles de . Si det() = 0, x R ,
d
f (x) =
1 2
&
Preuve :
La matrice est symtrique. Donc il existe U une matrice orthogonale (compose des
vecteurs propres de nots u1 , u2 , . . . , ud ) et il existe 1 2 . . . r > 0 (si r = rg() d) tels que 1 .. . r t = U U avec = 0 .. .
0
Si det() = 0, on a r < d. Pour i {r + 1, . . . , d}, E [( t ui (X m))2 ] = t ui ui = 0. Donc ui (X m) = 0 p.s. et X m prend ses valeurs dans V ect(u1 , . . . , ur ) qui est de mesure de Lebesgue nulle dans Rd . Si det() = 0, U est inversible. On pose Y N (0, Id ). Alors U Y + m X . Pour toute fonction g continue borne, E(g(X)) = E(g(U Y + m)) d y 2 1 = g(U y + m) exp dy 2 2 Rd d t 1 (x m)1 (x m) 1 exp dx = g(x) 2 2 det() Rd
t
Proposition-Dnition 6
Soit X un vecteur gaussien de Rd tel que E(X) = m et V ar(X) = Id . La loi de X dpend que de d et m . On note
ne
X
et on dit que X
&
2
2 (d, m 2 )
suit une loi du 2 (qui est dcentre si m = 0). L'entier d est le nombre de degrs de libert, m 2 est le paramtre de dcentrage. Lorsque m = 0, on note plus simplement X 2 2 (d).
N (m, Id )
= UY
Proposition 7
Si Zd
2 (d), on montre que la densit de Zd est la fonction f telle que exp x R, f (x) =
d x x 2 1 2 1R+ (x) d d 22 2
avec
a > 0,
On a :
(a) =
0
ex xa1 dx
E(Zd ) = d ,
Voici le rsultat principal :
'
V ar(Zd ) = 2d
$
Soit E1 . . . Er une dcomposition de Rd en sous-espaces deux deux orthogonaux de dimensions respectives d1 , . . . , dr . Si X N (m, Id ), les vecteurs alatoires XE1 , . . . , XEr , projections orthogonales de X sur E1 , . . . , Er sont indpendants, les variables alatoires XE1 2 , . . . , XEr 2 sont indpendantes et
t
XE1 2 , . . . , XEr
&
j = 1 . . . d,
X Ej =
k=1
ejk t ejk X
Les variables t ejk X sont indpendantes de la loi N ( t ejk m, 1) donc les vecteurs alatoires XE1 , . . . , XE,d sont indpendants. Pour achever la preuve, il sut alors de remarquer que
dj
j = 1 . . . d,
XEj
=
k=1
ejk X
Proposition 9
Soit X = (X1 , . . . , Xn ) un n-chantillon de loi N (, 2 ). Prenons les estimateurs suivants pour l'estimation de et 2 :
1 Xn = n
Alors, on a :
Xi ,
i=1
2 Sn
1 = n
(Xi X n )2
i=1
2 n
nSn 2
2 (n 1)
%
Xi m . On a alors que (Y1 , . . . , Yn ) est un n t chantillon de loi N (0, 1). On pose ensuite e = (1, . . . , 1) et E = V ect(e). On a alors
Preuve :
On pose pour tout i = 1 . . . n, Yi =
Rn = E E
Les projections de Y = t (Y1 , . . . , Yn ) sur E et E , YE et YE sont indpendantes et valent
1 n
n
YE =
Yi e,
i=1
YE
1 Y1 n . . . 1 Yn n
Yi Yi
i=1 n
i=1
On a
1 (X n ) e = YE ,
nSn = YE 2
Ce rsultat nous permet de construire des intervalles de conance pour l'estimation de et 2 l'aide de la dnition suivante. 5
Dnition 3
X Y
N (, 1), 2 (d), Z= X
Y d est appele loi de Student ( dcentre si = 0) d degrs de libert. On note Z Z t(d, ) t(d)
Si le paramtre de dcentrage est nul, on note plus simplement
Proposition 10
Si Zd
t(d), on montre que la densit de Zd est la fonction f telle que d+1 2 f (x) = d d 2
+
x R,
avec
x2 1+ d
d+1 2
a > 0,
Pour d > 1, on a Pour d > 2, on a
(a) =
0
ex xa1 dx
E(Zd ) = 0 V ar(Zd ) =
On a galement
loi
d d2 N (0, 1)
Zd
n+
avec Z
Comme la loi de Normale, la loi de Student est symtrique mais ses queues sont plus paisses que celles de la loi normale. On dduit de la dnition prcdente que 1 n(X n ) Xn = t(n 1) nSn Sn 1 n1 n1 En notant tn1,1 le quantile d'ordre 1 2 pour la loi t(n 1) et cn1,1 le quantile d'ordre 1 2 pour la loi 2 (n 1), un intervalle de conance de niveau de conance exactement gal 1 pour est Sn Sn , X n + tn1,1 In, = X n tn1,1 2 2 n1 n1 et un intervalle de conance de niveau de conance exactement gal 1 pour 2 est :
Jn, =
nSn nn1,1
, +
2 On dduit de ces intervalles de conance les tests de taille de = 0 conte = 0 et de 2 = 0 2 contre 2 < 0 . Remarquons que l'on obtient une rgion de conance de niveau de conance 12 pour l'estimation de = (, 2 ) en considrant In, Jn, .
3 Test d'ajustement du 2
Dans cette partie, on considre une variable alatoire discrte X valeurs dans {a1 , . . . , ad }. On se donne d rels strictement positifs p1 , . . . , pd tels que p1 + . . . + pd = 1 et on dsire tester
(H0 ) :
contre
P(X = ai ) = pi P(X = ai ) = pi
(H1 ) :
Pour cela, on dispose d'un n-chantillon (X1 , . . . , Xn ) de mme loi que X . On utilise la mthode des moments pour estimer pi et on note
n
i {1, . . . , d},
Nni =
j=1
1Xj =ai ,
pi =
Nni n
Sous (H0 ), pour tout i {1, . . . d}, pi est un estimateur fortement consistant et sans biais de pi . Donc si (H0 ) est vraie, il y a tout lieu de penser que p = t (p1 , . . . , pd ) sera "proche" de p = t (p1 , . . . , pd ). Comment mesurer la distance entre p et p ? On introduit la pseudo-distance du 2 entre p et p :
d 2 Dn (p, p)
=n
i=1
(pi pi )2 pi
Lorsque n est grand, sa limite est connue et surtout indpendante de p, ce qui va nous permettre de rsoudre notre problme de test. On a en eet le thorme suivant :
' $
Thorme 11
Sous (H0 ),
2 Dn (p, p)
n+
loi
2 (d 1)
Sous (H1 ),
2 Dn (p, p)
p.s.
n+
+
%
&
Zj =
1 n
avec
Zj
j=1
n+
N (0, Id
loi
t p p)
n+
t p p)
2 d j=1
f (x) = x
x2 , on obtient j
loi
o V est une variable alatoire telle que V de W N (0, Id ) sur V ect( p) . Donc
Pour tester (H0 ) contre (H1 ), on considre donc le test asymptotique de taille 1
2 (X1 , . . . , Xn ) = 1Dn (p,p)>cd1,1
o cd1,1 est le quantile d'ordre 1 de la loi 2 (d 1). Remarquons que la puissance du test tend vers 1 quand n +.
Remarque 1 : L'approximation par la loi limite est correcte si pour tout i {1, . . . , d}, npi 5. Si
ce n'est pas le cas, il faut eectuer un regroupement par classes.
Remarque 2 : On peut utiliser ce test lorsque la loi de X est continue. SI X est valeurs dans , on
construit une partition nie de et on applique ce qui prcde. Tout le problme porte sur le choix de cette partition.
Un exemple : Pour tester sa thorie gntique, Mendel croisa des pois tous jaunes et lisses et obtint la premire gnration des pois jaunes ou verts et lisses ou rids. Plus prcisment, il obtint 315 pois jaunes et lisses, 108 pois verts et lisses, 101 pois jaunes et rids et 32 pois verts et rids. Est-ce que ces observations conrment ou inrment la thorie mendlienne ? 9 3 3 1 Sous cette approche, la proportion p de chacune des 4 classes prcdentes est p = t , , , . 16 16 16 16 On teste donc 9 3 3 1 (H0 ) : p = t , , , 16 16 16 16
contre
(H1 ) :
p=
9 3 3 1 , , , 16 16 16 16
2 On a c3,0.95 = 7.815. Comme sous (H0 ), D556 (p, p) = 0.47, on accepte (H0 ).