Vous êtes sur la page 1sur 170

Analyse Multivariee

Siegfried Hormann
Universite libre de Bruxelles

Toutes les informations relatives `a ce cours (horaires, references,


fichiers R, etc.) sont disponibles `a ladresse
http://homepages.ulb.ac.be/~shormann

Plan du cours

1. Vecteurs aleatoires.
2. Loi normale multivariee.
3. Inference dans les mod`eles gaussiens.
4. Methodes classiques de lanalyse multivariee.
- Analyse en composantes principales.
- Analyse factorielle.
- Analyse discriminante lineaire.
- MANOVA et regression multivariee.

Chapitre 1

Chapitre 1

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Definition
Soit (, A, P) un espace de mesure.
D
efinition: un p-vecteur aleatoire (ou p-v.a.) X est une fonction
X : Rp
7 X () =

X1 ()
.
.
.
Xp ()

= (X1 (), . . . , Xp ())0

qui est mesurable, cest-`a-dire qui est telle que pour tout B B p ,
X 1 (B) = { | X () B} A.

Terminologie: les composantes Xi dun v.a. X = (X1 , . . . , Xp )0


sont appelees les marginales de X .
Les marginales sont elles-memes des v.a. (exercice).

Definition
La condition de mesurabilite permet de considerer la distribution P X
de X , qui est la mesure de probabilite sur (Rp , B p ) definie par
P X [B] := P[X B] := P[X 1 (B)],

B B p .

Le p-v.a. X induit donc une correspondance entre les espaces de


mesure (, A, P) et (Rp , B p , P X ).

La fonction de repartition de X est definie par


F X (x) = P[X1 x1 , X2 x2 , . . . , Xp xp ],
pour tout x = (x1 , . . . , xp )0 .

Types de distributions

On distingue essentiellement deux grands types de distributions P X :


I

les distributions absolument continues (par rapport `a la


mesure de Lebesgue mp ) et

les distributions singuli`eres.

Types de distributions
D
efinition: P X est absolument continue (par rapport `a mp ) ssi
B Bp tel que mp (B) = 0, on a P X [B] = 0.

Le theor`eme de Radon-Nikodym assure que, pour une telle


distribution, il existe une fonction f : Rp R mesurable (appelee
fonction de densite de probabilite (pdf) de X ) telle que
Z
X
P [B] =
f (x) dx, B B p .
B

Propriete dune pdf: f (x) 0 x Rp et


distribution de X
valeurs possibles
x
pdf
f (x)

Rp

f (x) dx = 1.

Types de distributions
D
efinition: P X est singuli`ere (par rapport `a mp ) ssi N Bp tel
que mp (N) = 0 et P X [N] = 1.
Une classe importante de distributions singuli`eres est celle des
distributions discr`etes:
D
efinition: PX est discr`ete ssi il existe une collection au plus
denombrable {xi , i I} de p-vecteurs telle que
X
P X [B] =
P [X = xi ] , B B p .
i | xi B

Une telle distribution est completement determinee par la donnee


des xi et des probabilites pi = P[X = xi ].
distribution de X
valeurs possibles
x1
x2
probabilit
es
p1
p2

...
...

Types de distributions
Les distributions singuli`eres ne sont pas toutes discr`etes...
Exemples:
I

La distribution de X = (Z , 0, . . . , 0)0 , o`
u Z N (0, 1).

La distribution uniforme sur la sph`ere unite S p1 Rp , qui


X
est la distribution de U := kX
u X est de loi uniforme sur
k , o`
p
p
la boule unite B R (nous ecrirons U Unif(S p1 ) et
X Unif(B p )).

Remarque: si C Rp avec mp (C ) > 0, nous dirons que X est de


loi uniforme sur C (et nous ecrirons X Unif(C )) ssi P X est
absolument continue par rapport `a mp et admet la densite
f X (x) =

1
I
,
mp (C ) [xC ]

o`
u I[xC ] est la fonction indicatrice de C .

Comment engendrer une loi Unif(B p )?


Engendrer une observation X de loi Unif(B p ) peut se faire en
I

engendrant des variables V1 , . . . , Vp i.i.d. de loi uniforme sur


[1, 1], et

en prenant X = (V1 , . . . , Vp )0 pour peu que ce vecteur soit


dans B p (sinon on jette les Vi et on recommence...)

Cette strategie nest pas tr`es efficace pour p grand, puisque


cp :=

p
cp

p/2 ( p2 ( p2 ))1
mp (B p )
=
0,
mp ([1, 1]p )
2p
1
1

2
0.785

3
0.524

4
0.308

5
0.164

6
.081

7
.037

si p .

8
.016

9
.006

10
.002

Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Esperance et moments
Soit X un p-v.a.
Soit g : Rp R une fonction mesurable.
D
efinition: lesperance de g (X ) est definie par
Z
Z
E[g (X )] =
g (X ()) dP() =
g (x) dP X (x),

Rp

pour peu que la valeur commune de ces integrales soit finie.

En pratique, on calculera ces esperances par


Z
X
E[g (X )] =
g (x) f (x) dx et E[g (X )] =
g (xi )pi
Rp

iI

dans le cas absolument continu et le cas discret, respectivement.

Esperance et moments
Si g : Rp Rq (q 2), on prendra lesperance composante par
composante, cest-`a-dire

E[g1 (X )]

..
E[g (X )] =
.
.
E[gq (X )]
En particulier,

E[X1 ]

E[X ] = ... .
E[Xp ]

Remarque: on suivra la meme r`egle si g est `a valeurs dans un


espace de matrices.

Esperance et moments
D
efinition: X a des moments finis dordre r (r > 0) ssi E[kX kr ] < .

Proposition: (i) E[kX kr ] < (ii) E[|Xi |r ] < pour tout


1 i p (iii) E[|v 0 X |r ] < pour tout v Rp .
Preuve:
(i) (ii): cela suit de |Xi |r kXP
kr .

r
Pp
p
r
r
(ii) (i): cela suit de kX k
Cp,r
i=1 |Xi | .
i=1 |Xi |
(i) (iii): cela suit de |v 0 X |r kv kr kX kr .
(iii) (ii): il suffit de prendre v = ei (le i`eme vecteur de la base
canonique de Rp ).

Remarque: en particulier, si X a des moments finis dordre 1, on
peut parler de son esperance := E[X ] = (E[X1 ], . . . , E[Xp ])0 ,
puisqualors |E[Xi ]| E[|Xi |] < pour tout i = 1, . . . , p.

Esperance et moments
On veillera toujours dans la suite `a imposer les hypoth`eses les
moins fortes possibles en termes de moments.

Dans cette optique, le resultat suivant permet dordonner les


hypoth`eses de moments finis.
Proposition: (i) Si E[kX kr ] < pour un certain r > 0, alors
E[kX ks ] < pour tout 0 < s r .
Preuve: fixons s (0, r ). Comme la fonction
f : R+ R
t

7 t s /(1 + t r )

est bornee, on a
E[kX ks ] E[Cs,r (1 + kX kr )] = Cs,r (1 + E[kX kr ]) < .

Esperance et moments
Soit X un p-v.a. avec des moments finis dordre 2.
D
efinition: la matrice de variance-covariance de X est
= Var[X ] = E[(X )(X )0 ].
Proprietes:
I

(ij ) = E[(Xi i )(Xj j )] = Cov[Xi , Xj ] et


(ii ) = Var[Xi ], ce qui justifie la terminologie.

est bien definie. En effet, |ij | |ii |1/2 |jj |1/2 (CS), o`
u
|ii | = E[(Xi )2 ] + 2i < .

est symetrique et semi-definie positive (pour tout v Rp ,


v 0 E[(X )(X )0 ]v = E[v 0 (X )(X )0 v ] =
E[|v 0 (X )|2 ] 0).

= E[XX 0 ] E[X 0 ] E[X ]0 + 0 = E[XX 0 ] 0 , qui


est une expression plus commode pour le calcul de .

Esperance et moments
Pour un X qui a des moments finis dordre 2, on peut donc considerer

E[X1 ]

..
= E[X ] =

.
E[Xp ]
et


= Var[X ] = Cov[Xi , Xj ]
i,j=1,...,p

Var[X1 ]
. . . Cov[X1 , Xp ]

..
..
..
=
.

.
.
Cov[X1 , Xp ] . . .
Var[Xp ]

Esperance et moments
Soient X un p-v.a. et Y un q-v.a., qui ont tous deux des moments
finis dordre 2.
D
efinition: la covariance entre X et Y est
Cov[X , Y ] = E[(X X )(Y Y )0 ].
Proprietes:
I

(Cov[X , Y ])ij = Cov[Xi , Yj ].

Comme pour , on verifie facilement que Cov[X , Y ] est bien


definie.

Cov[1 X1 + 2 X2 , Y ] = 1 Cov[X1 , Y ] + 2 Cov[X2 , Y ] et


Cov[X , 1 Y1 + 2 Y2 ] = 1 Cov[X , Y1 ] + 2 Cov[X , Y2 ].

Cov[X , Y ] = E[XY 0 ] X 0Y .

Si p = q,
Var[X + Y ] = Var[X ] + Var[Y ] + Cov[X , Y ] + Cov[Y , X ].

Esperance et moments

Si on pose Z = (X 0 , Y 0 )0 , on a

E[Z ] =

E[X ]
E[Y ]

et

Var[Z ] =

Var[X ]
Cov[X , Y ]
Cov[Y , X ]
Var[Y ]


.

Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Independance

Soient X un p-v.a. et Y un q-v.a.


D
efinition: X et Y sont independants (X
Y ) ssi
P[X B1 , Y B2 ] = P[X B1 ]P[Y B2 ], B1 B p , B2 B q .
Remarque: si X
Y , g (X )
h(Y ) pour tout g , h. En particulier,
si X
Y , Xi
Yj pour tout i, j.

Independance

0 0

Proposition: X
Y (i) F (X ,Y ) (x, y ) = F X (x)F Y (y ) x, y
0 ,Y 0 )0
(X
(ii) f
(x, y ) = f X (x)f Y (y ) x, y (dans le cas abst continu)
(iii) E[g (X )h(Y )] = E[g (X )]E[h(Y )] g , h `a valeurs reelles.
Remarque: si X
Y , on a X X
Y Y , et donc
(X X )i
(Y Y )j pour tout i, j. La proposition ci-dessus
implique donc que (Cov[X , Y ])ij = E[(X X )i (Y Y )j ] =
E[(X X )i ]E[(Y Y )j ] = 0, de sorte que Cov[X , Y ] = 0.

Esperance et moments
En particulier, si on pose Z = (X 0 , Y 0 )0 ,


Var[X ]
0
Var[Z ] =
,
0
Var[Y ]
et si p = q, Var[X + Y ] = Var[X ] + Var[Y ].
Par contre, Cov[X , Y ] = 0 nimplique pas que X
Y (exemple
aux TP).

Extension `a plus de deux v.a.:


D
efinitions: (i) X1 , . . . , Xn
ssi B1 B p1 , . . . , Bn B pn ,
P[X1 B1 , . . . , Xn Bn ] = P[X1 B1 ] . . . P[Xn Bn ].
(ii) X1 , X2 , . . .
ssi k i1 < i2 < . . . < ik , Xi1 , . . . , Xik
.

Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Estimateurs
Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis dordre 1.
; on peut estimer = E[X ] par
n

X
= 1
Xi .

=X
n
i=1

?
Quels sont les proprietes de X

Proposition: si les Xi ont des moments finis dordre 2,


] = et (ii) Var[X
] = 1 .
(i) E[X
n
Preuve:
P
] = 1 n E[Xi ] = .
(i) E[X
i=1
n
] = 12 Var[Pn Xi ] =
(ii) Var[X
i=1
n


1
n2

Pn

i=1 Var[Xi ]

1
n
n2

= n1 .

Estimateurs
Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis dordre 2.
; on peut estimer = Var[X ] = E[(X E[X ])(X E[X ])0 ] par
n

=S =

1 X
)(Xi X
)0 .
(Xi X
n1
i=1

, cet estimateur est sans biais:


Comme X
Proposition: si les Xi ont des moments finis dordre 2, E[S] = .

P
0
0
Preuve: Soit W = (n 1)S. On a W =
i Xi Xi nX X , de
sorte que P

0
0
0
0
E[W ] =
i E[Xi Xi ] nE[X X ] = nE[X1 X1 ] nE[X X ].
1
0
0
0
] = E[X
X
] 0 .
Or = E[X1 X1 ] et n = Var[X
Donc E[W ] = n( + 0 ) n( n1 + 0 ) = (n 1).


Estimateurs
Soit X un p-v.a.
Soient A une matrice constante m p et b Rm .
Clairement,
E[AX + b] = AE[X ] + b

et

Var[AX + b] = AVar[X ]A0 .

D
efinitions:
(i) Un estimateur T (X1 , . . . , Xn ) de = E[X ] est affine-equivariant
ssi T (AX1 + b, . . . , AXn + b) = AT (X1 , . . . , Xn ) + b, A, b.
(ii) Un estimateur S(X1 , . . . , Xn ) de = Var[X ] est affine-equivariant
ssi S(AX1 + b, . . . , AXn + b) = AS(X1 , . . . , Xn )A0 , A, b.
et S sont des estimateurs affine-equivariants de
Proposition: X
et , respectivement.
Preuve: exercice.

Estimateurs

Ce quon attend avant tout dun estimateur n de est quil soit


proche de .
Il est en fait desirable quil soit arbitrairement proche de si la
taille dechantillon n est suffisamment grande, cest-`a-dire que
n ,
si n .

Il nous faut dabord donner un sens precis `a cette convergence...

Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Modes de convergence, resultats limites


Soit (, A, P) un espace de mesure.
Soit (Xn ) une suite de p-v.a. et X un p-v.a. definis sur (, A, P).

Pour rappel, dans le cas univarie (p = 1), on peut definir de


diverses mani`eres la convergence de (Xn ) vers X :
p.s.

Xn X (presque s
urement) P[{ | Xn () X ()}] = 1.
P

Xn X (en probabilite) Pour tout > 0, P[|Xn X | > ] 0.


Lr

Xn X (en norme Lr , r > 0) E[|Xn X |r ] 0.


D

Xn X en loi F Xn (x) F X (x) pour tout x R en lequel F X


est continue.

Modes de convergence, resultats limites

Ces concepts setendent aisement au cas multivarie:

p.s.

Xn X (presque s
urement) P[{ | Xn () X ()}] = 1.
P

Xn X (en probabilite) Pour tout > 0,


P[kXn X k > ] 0.
Lr

Xn X (en norme Lr , r > 0) E[kXn X kr ] 0.


D

Xn X en loi F Xn (x) F X (x) pour tout x Rp en lequel


F X est continue.

Modes de convergence, resultats limites


Les divers liens entre ces concepts de convergence sont maintenus
dans le cas general:
p.s.

Xn X

Xn X

Lr

Xn X

Xn X

Remarques:
p.s.

Xn X il existe une sous-suite (Xnk ) telle que Xnk X .

Xn a, a constant Xn a.

Xn X et limK supn1 E |Xn |I {|Xn | K } = 0

D
P

L1

Xn X .

Modes de convergence, resultats limites


Le resultat suivant montre que la convergence p.s. composante par
composante implique la convergence p.s. multivariee (et quil en
va de meme pour la convergence en probabilite)...
Proposition: soient (Xn ) une suite de p-v.a. et X un p-v.a. Alors
p.s.
p.s.
(i) (Xn )i Xi i = 1, . . . , p (Xn ) X ;
P

(ii) (Xn )i Xi i = 1, . . . , p (Xn ) X .


Preuve:
(i) Soient A := {  | Xn () X ()} et
Ai := { | Xn () P
Xi ()}, i = 1, . . . , p. Alors
i
P[Ac ] = P[pi=1 Aci ] pi=1 P[Aci ] = 0, de sorte que
P[A] = 1 P[Ac ] = 1.
P
2
2
(ii) P[kXn X k > ] = P[ pi=1 |(X
n )i Xi | > ]
P
p
p
2
2 /p]]
2
2
P[
i=1 P[|(Xn )i Xi | > /p] =
Pp i=1 [|(Xn )i Xi | >

i=1 P[|(Xn )i Xi | > / p] 0, si n .

Modes de convergence, resultats limites


Il en decoule directement que la loi des grands nombres est
egalement valide dans le cas multivarie. Plus precisement:
Corollaire: soient X1 , X2 , . . . des p-v.a. i.i.d., avec
des moments
1 Pn
(n)

finis dordre 1. Notons = E[X1 ] et X := n i=1 Xi . Alors


(n) ) p.s.
(i) (X
(loi forte);
P
(n)

(ii) (X ) (loi faible).


Remarques:
I

La moyenne empirique est donc un estimateur fortement


convergent pour .

On montre de la meme mani`ere que, si X1 , P


X2 , . . . sont i.i.d.,
n
1

0
avec des moments finis dordre 2, S = n1
i=1 (Xi X )(Xi X )
est un estimateur fortement convergent pour .

Modes de convergence, resultats limites


A linverse des convergences p.s. et en proba, il nest pas suffisant
de considerer la convergence en loi des marginales.
D

Plus precisement, il ne suffit pas detablir que Xn X et que


D
Yn Y pour en deduire que
 
 
Xn D X

.
Yn
Y
(exemple aux TP).

Par contre, on a le fameux lemme de Slutzky :


D

Lemme: Si Xn X et Yn a (a constant), alors

Xn
Yn

 
X
a .
D

Modes de convergence, resultats limites


Quelques resultats supplementaires sur la convergence en loi:
D

Proposition: (i) Xn X et Xn Y X = Y (cest-`a-dire


P X = P Y ). (ii) Soit g : Rp Rq une fonction telle que
P[X Cg ] = 1, o`
u Cg = {points de continuite de g }. Alors
D

Xn X g (Xn ) g (X ).
Il decoule directement de cette proposition et du lemme de Slutzky
le resultat suivant:
D

Corollaire: Si Xn X et Yn a (a Rs constant) et si
D

g : Rp+s Rq est continue, alors g (Xn , Yn ) g (X , a).


D

En particulier, si les dimensions concident, Xn X et Yn a


D
D
impliquent que Xn + Yn X + a, Xn0 Yn X 0 a, etc.

Modes de convergence, resultats limites

Le resultat suivant est connu sous le nom de methode delta:


Proposition: Soit (Xn ) une suite de p-v.a. telle que
D

n (Xn a) Z , o`
u n . Soit g : Rp Rq une fonction
D

differentiable en a. Alors n (g (Xn ) g (a)) Dg (a) Z , o`


u
gi
Dg (a) = ( xj (a)).

Modes de convergence, resultats limites


Preuve: le lemme de Slutzky implique que
D

Xn a = n1 [n (Xn a)] 0.
Dautre part, lhypoth`ese de differentiabilite permet decrire
g (t) g (a) = Dg (a)(t a) + k(t) kt ak,
o`
u la fonction k(.) definie par
k(t) = [g (t) g (a) Dg (a)(t a)]/kt ak I[t6=a]
D

est continue en t = a. On a donc que k(Xn ) k(a) = 0. Une nouvelle


application du lemme de Slutzky permet de conclure que
n (g (Xn ) g (a)) = Dg (a)n (Xn a) + k(Xn ) kn (Xn a)k
D

Dg (a)Z + 0 kZ k = Dg (a)Z .

Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Fonction caracteristique
Nous definissons maintenant un outil qui, comme nous le verrons,
est tr`es puissant pour etablir des resultats distributionnels.
D
efinition: la fonction caracteristique du p-v.a. X est la fonction
X : R p C
t

7 E[e it X ].

Remarques:
I

X est `a valeurs dans le disque unite de C


0
(puisque |X (t)| E[|e it X |] = E[1] = 1).

X (0) = 1; X (t) = X (t).

X est uniformement continue (ce qui decoule de linegalite


0
|X (s) X (t)| E[|e i(st) X 1|]).

Fonction caracteristique
Si la loi de X est absolument continue (de densite f X ),
Z
0
0
X (t) = E[e it X ] =
e it x f X (x) dx,
Rp

de sorte que X est la transformee de Fourier de f X .


Lexistence de la cel`ebre formule dinversion
 1 p Z
0
e ix y X (y ) dy
f X (x) =
2
Rp
justifie le qualificatif caracteristique:
Proposition:
D
(i) X = Y X (t) = Y (t) t Rp .
D

(ii) (Xn ) X Xn (t) X (t) t Rp .

Fonction caracteristique
Exemple: si X N (0, 1),


Z
1 x 2 /2
2
itX
itx
e
dx = . . . = e t /2 .
X (t) = E[e ] =
e
2
R
Proposition: Soient A Rqp , b Rq . Alors
0
AX +b (t) = e it b X (A0 t) t Rq .
0

Preuve: AX +b (t) = E[e it (AX +b) ] = E[e it b e i(A t) X ] = e it b X (A0 t). 


D

On en deduit que, si X N (, 2 ) (X = Z + , o`
u
2
Z N (0, 1)), X (t) = e it Z (t) = e it(t) /2 .
Remarque: si = 0, X est `a valeurs reelles. Ceci est en fait une
illustration du resultat suivant:
D

Proposition: X : Rp R X = X (exercice).

Fonction caracteristique

Proposition: soient X , Y des p-v.a. independants. Alors


X +Y (t) = X (t)Y (t) t Rp .
0

Preuve: X +Y (t) = E[e it (X +Y ) ] = E[e it X e it Y ] =


0
0
E[e it X ]E[e it Y ] = X (t)Y (t).

Proposition: pour autant que les esperances ci-dessous existent,


k

E[X1k1 . . . Xp p ] =
Preuve: exercice.

k1 +...+kp

i k1 +...+kp tk1 . . . tkp


p
1

X (t)

t=0

Fonction caracteristique

Th
eor`
eme (Cramer-Wold): X = Y u 0 X = u 0 Y u S p1 .
Preuve:
() Pour tout t R, u0X (t) = X (tu) = Y (tu) = u0 Y (t).
() Soit t Rp \{0}. Posons u = t/ktk. Alors X (t) =
X (ktku) = u0X (ktk) = u0 Y (ktk) = Y (ktku) = Y (t). Ceci
permet de conclure, puisque X (0) = 1 = Y (0).


Plan du cours

1. Vecteurs aleatoires.
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.

Jacobiens
Le resultat suivant decoule facilement de la formule de changement
de variables dans les integrales multiples.
Proposition: soit X un p-v.a. de loi absolument continue (de
densite f X ). Soit Y = (X ) , o`
u est un diffeomorphisme. Alors
Y est egalement de loi absolument
continue et sa densite est
donnee par f Y (y ) = f X (1 (y )) D1 (y ) , y Rp (o`
u |Dg (y )|
designe la valeur absolue du jacobien de g en y ).
Preuve: soit B B p .
P[Y B] = P[(X ) B] = P[X

Z
(B)] =

f X (x) dx,

1 (B)

ce qui, en posant x = 1 (y ), livre


Z


P[Y B] =
f X (1 (y )) D1 (y ) dy .
B

Chapitre 2

Plan du cours

1. Vecteurs aleatoires.
2. Loi normale multivariee.
3. Inference dans les mod`eles gaussiens.
4. Methodes classiques de lanalyse multivariee.

Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.
Appendix: Conditional expectations.

Definitions, proprietes de base


Soit X = (X1 , . . . , Xp )0 un p-v.a.
D
efinition: X est de loi normale p-variee centree reduite (notation:
X Np (0, Ip )) les Xi , i = 1, . . . , p sont i.i.d. N (0, 1).
Clairement, cette loi est absolument continue par rapport `a la
mesure de Lebesgue et a pour densite
p
p 

Y
Y
1
X
Xi
exp(xi2 /2)
x 7 f (x) =
f (xi ) =
2
i=1
i=1
p

 1 
X
1
2
2
/2)
=
exp(
x
exp(kxk2 /2).
=
i
p/2
2
(2)
i=1
Aussi,
E[X ] =

E[X
.. 1 ]
.
E[Xp ]

!
=0

et



Var[X ] = Cov[Xi , Xj ]

i,j=1,...,p

= Ip .

Definitions, proprietes de base

Remarque: si X Np (0, Ip ), X a des moments finis de tout ordre.


En effet, pour tout s > 0, on a

E [kX ks ] Cp,s

p
X
i=1

E |Xi |s = pCp,s E |X1 |s < .

Definitions, proprietes de base

500 observations i.i.d. de loi N2 (0, I2 ):

0
2
4

X_2

0
X_1

Definitions, proprietes de base


D
efinition: X est de loi normale p-variee il y a un vecteur
Rp et une matrice A (p q) tels que X = AZ + , o`
u
Z Nq (0, Iq ).
Remarques:
(i) E[X ] = AE[Z ] + = et Var[X ] = AVar[Z ]A0 = AA0 .
0

(ii) X (t) = E[e it X ] = E[e it (AZ +) ] = E[e i(A t) Z ) ]e it . Donc




1
X (t) = exp(it 0 ) exp t 0 AA0 t .
2
C
a implique que la loi de X depend que de et
Var(X ) = AA0 =: .
On
ecrit: X Np (, ).

Definitions, proprietes de base


(iii) Si X Np (, ), alors Y = BX + ( Rd et B Rdp )
est de loi normale d-variee, Y Np ( + B, BB 0 ).

En particulier, en prenant B = Ip1 | 0p1 (pp1 ) et = 0, il
decoule de cette proposition le resultat suivant.
Proposition: soit X = (X10 , X20 )0 Np (, ), o`
u Xi est un pi -v.a.
(i = 1, 2) et o`
u
 


1
11 12
=
et =
2
21 22
Alors X1 Np1 (1 , 11 ).
Ceci montre donc que tous les v.a. extraits dun v.a. de loi normale
multivariee sont egalement de loi normale.

Definitions, proprietes de base

(iv) Soit Rp et Rpp symetrique et semi-defini positive


(on ecrit: 0), alors il y a un vecteur aleatoire X Np (, ).
Preuve: Le theor`eme spectral implique, que
= OO 0 ,
o`
u 0 (p p) est une matrice diagonale et O (p p) est une
matrice orthogonale (O 0 O = Ip ). Donc si on definit A = O1/2 O 0
D

et Z Np (0, Ip ), alors + AZ = Np (, ).
(v) Comme dans le cas standard (i.e., = 0 et = Ip ),
X Np (, ) a des moments finis de tout ordre.

Definitions, proprietes de base


(vi) Si est une matrice (p p) symetrique et definie positive (on
ecrit: > 0), et X N (, ), alors la loi dun tel X est
absolument continue par rapport `a la mesure de Lebesgue et a
pour densite
x 7 f X (x) = |A1 |f Z (A1 (x ))
 1 p 1
2
exp(kA1 (x )k2 /2)
=
2 |A|
 1 p 1
2
=
exp((x )0 1 (x )/2),
2 || 12
(nous avons pris A = 1/2 de (iv)).

Definitions, proprietes de base

(vii) Soit X N (, ). Dans le cas > 0, on a = OO 0 avec


> 0. Donc, on peut definir 1/2 = O1/2 O 0 . Alors
1/2 (X ) N (0, Ip ).
C
a ressemble `a
1
(X ) N(0, 1),

dans le cas o`
u X a de loi normale univariee N(, ).

Definitions, proprietes de base


Proposition: X Np (, ) a Rp \{0},
a0 X N1 (a0 , a0 a).
Preuve:
() t R, on a
0

a0X (t) = X (ta) = e i(ta) e (ta) (ta)/2 = e it(a ) e (a a)t


o`
u Y N1 (a0 , a0 a), de sorte que a0 X N1 (a0 , a0 a).

2 /2

= Y (t),

() t Rp \{0}, on a
0

X (t) = t 0X (1) = e i1(t ) e (t t)1 /2 = e it e t t/2 = Y (t),


o`
u Y Np (, ). Bien entendu, on a aussi X (0) = 1 = Y (0).
Donc X Np (, ).


Definitions, proprietes de base


Il ne suffit pas que toutes les marges multivariees soient de loi
normale pour que le vecteur lui-meme soit de loi normale!
Exemple:
Soit X = (X1 , X2 )0 , o`
u X1 N (0, 1) et X2 = X1 , o`
u est
1
independante de X1 est P( = 1) = 2 .
Alors on verifie facilement que
I

X2 N (0, 1) (exercice), mais que

X nest pas de loi normale bivariee.

Ce second point est obtenu en observant que


1
P(X1 + X2 = 0) = ,
2
et par consequence a0 X , avec a = (1, 1)0 , nest pas de loi normal.

Definitions, proprietes de base

500 observations i.i.d. qui ont la loi bivariee ci-dessus:

X_2

0
X_1

Definitions, proprietes de base

D
efinition: la distance de Mahalanobis entre x et y dans la
m
petrique associee `a (notation: d (x, y )) est la quantite
(x y )0 1 (x y ).
La densite dune loi normale p-variee est alors
 1 p 1

2
x 7 f X (x) =
d2 (x, )/2 ;
1 exp
2 || 2
les courbes de niveau de f X sont donc des hyper-ellipsodes (dans
Rp ) de centre et dont la forme et lorientation sont determinees
par .

Definitions, proprietes de base

10

500 observations i.i.d. de loi N2 (, ), o`


u
 


4
5
3
=
et =
.
3
3 2.25

X_2

4
X_1

10

Definitions, proprietes de base


Proposition: si X Np (, ) o`
u > 0, d2 (X , ) 2p .
D

Preuve: en utilisant le fait que X = AZ + , o`


u Z Np (0, Ip ) et
AA0 = , on obtient
D

d2 (X , ) = (X )0 1 (X ) = ((AZ +))0 1 (AZ +))


p
X
= (AZ )0 1 (AZ ) = Z 0 A0 (AA0 )1 AZ = Z 0 Z =
Zi2 ,
i=1

qui est bien de loi


definition.

2p ,

puisque les Zi sont i.i.d. N (0, 1) par




Par consequent, lellipsode E1 := {y Rp | d2 (y , ) 2p;1 }


(o`
u 2p;1 designe le quantile dordre 1 de la loi 2p ) contient
une masse de probabilite dexactement 1 . On parlera de zone
de tolerance (`a (1 ) 100%) .

Definitions, proprietes de base

500 observations i.i.d. de loi N2 (0, I2 ) et la zone de tolerance E.95 .

0
2
4

X_2

0
X_1

Definitions, proprietes de base


500 observations i.i.d. de loi N2 (, ), o`
u
 


4
5
3
=
et =
.
3
3 2.25

10

et la zone de tolerance E.95 .

4
2
0

X_2

4
X_1

10

Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.

Independance et normalite multivariee


Soit X1 un p1 -v.a. et X2 un p2 -v.a. On sait que
I

X1
X2 Cov[X1 , X2 ] = 0, mais que

la reciproque nest pas vraie en general


(exemple: p1 = p2 = 1, X1 N1 (0, 1) et X2 = (X1 )2 ).

Le resultat suivant montre que la reciproque tient dans le cas o`


u
X = (X10 , X20 )0 est de loi normale p-variee (p = p1 + p2 ).
Proposition: soit X = (X10 , X20 )0 Np (, ), o`
u Xi est un pi -v.a.
(i = 1, 2) et o`
u
 


1
11 12
=
et =
2
21 22
Alors X1
X2 ssi 12 = 0.
Remarque: 12 = Cov[X1 , X2 ].

Independance et normalite multivariee


Preuve:
() Prouve au 1er chapitre (sans hypoth`ese de normalite).
() Par definition,
X = AZ + ,
o`
u Z Np (0, Ip ) et o`
u A est une matrice (p p) quelconque telle
que AA0 = . Clairement, puisque 12 = 0, on peut prendre


A11 0
A=
,
0 A22
o`
u Aii est une matrice (pi qi ) telle que Aii A0ii = ii (i = 1, 2).
On obtient alors

 

X1
A11 Z1 + 1
h1 (Z1 )
= X = AZ + =
=
,
X2
A22 Z2 + 2
h2 (Z2 )
ce qui montre que X1
X2 (puisque Z1
Z2 ).

Independance et normalite multivariee


Vice versa, il convient la suivante:
Proposition: soit X = (X10 , X20 )0 , o`
u Xi Npi (i , i ) (i = 1, 2)
sont independants. Alors X Np1 +p2 (, ), o`
u
 


1
1 0
=
et =
.
2
0 2

En utilisant la proposition, on obtient pour n p-v.a. independants


et de la loi normal, que X = (X10 , . . . , Xn0 )0 Nnp (, ), o`
u

1
1
0

..
= ... et =
.
.
n
0
n

Independance et normalite multivariee


Corollaire: soient Xi , i = 1, . . . , n des p-v.a. independants tels que
Xi Np (i , i ). Soient ci , di , i = 1, . . . , n des constantes reelles. Alors
Pn

(i)

i=1 ci Xi

(ii)

P
P
Np ( ni=1 ci i , ni=1 ci2 i );

 Pn c X 
Pni=1 i i
i=1 di Xi
 Pn
  Pn c 2
c

i
i
i=1
Pn
N2p
, Pni=1 i i
d

i
i
i=1 ci di i
i=1
I

Pn

c
d

i
i
i
i=1
Pn
;
2
i=1 di i

(iii)
P si i = 1 i,
P
P
( ni=1 ci Xi )
( ni=1 di Xi ) ni=1 ci di = 0.

Independance et normalite multivariee

Preuve: (i) et (ii) decoulent de BX Np (B, BB 0 ), o`


u


c1 Ip . . . cn Ip
B = (c1 Ip . . . cn Ip ) et B =
.
d1 Ip . . . dn Ip
(iii) est une consequence directe du fait que la non-correlation des
marges equivaut `a leur independance pour les v.a. normaux.

Corollaire: soient
Xi , i = 1, . . . , n des p-v.a. i.i.d. de loi Np (, ).
1 Pn

Alors X := n i=1 Xi Np (, n1 ).

Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.

Lois conditionnelles
Proposition: soit X = (X10 , X20 )0 Np (, ), o`
u Xi est un pi -v.a.
(i = 1, 2), > 0 eto`
u


1
11 12
=
et =
.
2
21 22
Alors X2 | X1 = x1 Np2 (2 + 21 1
u
11 (x1 1 ), 22.1 ), o`
1
22.1 := 22 21 11 12 .
Remarques:
I

la variance de X2 | X1 = x1 ne depend pas de x1 . Ce


phenom`ene est connu sous le nom dhomoscedasticite.

La variance des lois conditionnelles est plus petite que celle


des lois originales.
En effet, Var[X2 ] Var[X2 |X1 = x1 ]
= 22 22.1 = 21 1
11 12 0.

Lois conditionnelles
Preuve: 11 est definie positive (puisque cest le cas de ), et est
donc aussi inversible. Bien entendu, X Np (0, ). Donc, en
posant


Ip1
0
B=
21 1
Ip2
11
on obtient B(X ) Np (0, BB 0 ), o`
u


X1 1
B(X ) =
21 1
11 (X1 1 ) + (X2 2 )
et
BB 0 =



11
0
.
0 22.1

Nous posons Y := 21 1
11 (X1 1 ) + (X2 2 ).

Lois conditionnelles
Alors
Y Np2 (0, 22.1 ),
X2 = 2 + Y + 21 1
11 (X1 1 ),
X1
Y,
et donc


E exp(it 0 X2 )|X1 = x1


= E exp(it 0 [2 + Y + 21 1
11 (X1 1 )])|X1 = x1


0
= exp(it 0 [21 1
11 (x1 1 )]) E exp(it [2 + Y ])|X1 = x1
{z
}
|
=E [exp(it 0 [2 +Y ])]

= exp(it

[21 1
11 (x1

puisque X1
Y



1 ) + 2 ]) E exp(it 0 Y )


Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.

Loi normale matricielle


Pour definir la loi normale matricielle, nous aurons besoin des deux
notations suivantes, qui sont classiques en analyse multivariee.
D
efinition: soient A = (A1 . . . An ) = (aij ) une matrice m n et B
une matrice p q. Alors

A1
a11 B . . . a1n B

.. .
vec A = ...
et A B = ...
.
am1 B . . . amn B
An
Remarques:
I

A B est appele le produit de Kronecker de A et B.

A B est de taille mp nq.

En general, A B 6= B A.

Loi normale matricielle


Proprietes:
Pour toute matrice A, A1 , A2 , B, B1 , B2 , C et pour tout reel , ,
I

(A1 + A2 ) B = A1 B + A2 B et
A (B1 + B2 ) = A B1 + A B2 .

(A B) C = A (B C ).

(A1 B1 )(A2 B2 ) = (A1 A2 ) (B1 B2 ), (A B)0 = A0 B 0


et (A B)1 = A1 B 1 .

tr[A B] = (tr A)(tr B) et, si A (m m) et B (n n),


det[A B] = (det A)n (det B)m .

A, B > 0 A B > 0.

On a aussi (et surtout) les liens suivants entre vec et :


I

(vec A)0 (vec B) = tr[A0 B] et vec (ABC ) = (C 0 A)(vec B).

Loi normale matricielle


Soit X une matrice aleatoire de dimension n p.
D
efinition: X est de loi normale de moyenne M et de
variance-covariance (notation: X Nn,p (M, ))
vec X 0 Nnp (vec M 0 , ).
Exemple: posons 1n = (1, 1, . . . , 1)0 Rn . Alors, si X1 , . . . , Xn
sont i.i.d. Np (, ), la matrice echantillon
!


X.10
..
X =
Nn,p 1n 0 , In
Xn0
puisque vec X 0 = (X10 , . . . , Xn0 )0 Nnp (1n , In ), o`
u
1n = vec (1n 0 )0 .

Loi normale matricielle


Le resultat suivant indique comment une matrice aleatoire de loi
normale se comporte sous lapplication de transformations
lineaires.
Proposition: soit X Nn,p (M, ) et soient A, B des matrices de
dimensions respectives (r n) et (p s). Alors
AXB Nr ,s (AMB, (A B 0 )(A B 0 )0 ).
Preuve: On a vu que vec (AXB)0 = (A B 0 )(vec X 0 )
Nrs ((A B 0 )(vec M 0 ), (A B 0 )(A B 0 )0 ).

Exemple: Si X designe la matrice echantillon dans la situation


ci-dessus, on a que X 0 = n1 10n XIp N1,p (0 , n1 ), ce qui signifie
bien que X = vec (X 0 )0 Np (, n1 ).

Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.

Lemme de Fisher multivarie


Nous savons que linference statistique dans de nombreux mod`eles
(gaussiens) univaries est fondee sur le lemme de Fisher:
2
Proposition:
soient X1 , . . . , XP
n i.i.d. N1 (, ). Alors, en notant
n
1 Pn
1
2

X := n i=1 Xi et S := n1 i=1 (Xi X ) , on a


I
I
I

2
(i) X N1 (, n ),

(ii) (n 1)S 2 2n1 , et


(iii) X
S.

Notre but est ici detendre ce resultat au cas multivarie :


Proposition: soient X1 , . . . , Xn i.i.d. Np (, ). Alors
Np (, 1 ),
I (i) X
n

I
I

(ii) S ?, et
(iii) X
S.

Lemme de Fisher multivarie


S,
Nous savons dej`a que X Np (, n1 ). Pour montrer que X
nous aurons besoin du lemme suivant.
Lemme: soient P, Q deux matrices de projection sur Rn (i.e., deux
matrices symetriques et idempotentes de dimension n n).
Supposons que PQ = 0. Si X Nn,p (0, Inp ), alors PX
QX .
Preuve: Tous les composants de X sont independantes. Alors
PXi
QXj si i 6= j (o`
u Xi est la i-`eme colonne de X ). Dans le cas
i = j, on obtient que
Cov(PXi , QXi ) = E [PXi (QXi )0 ] = PE [Xi Xi0 ]Q = PQ = 0.


Lemme de Fisher multivarie


Proposition: soient X1 , . . . , Xn i.i.d. Np (, ). Alors X
S.
Preuve:
D

En ecrivant, Xi = AZi + (o`


u = AA0 et les Zi sont i.i.d. Np (0, Ip )),
on a X = AZ + et S = ASz A0 , de sorte quil suffit de montrer
que Z
Sz .
Pour ce faire, posons P = n1 1n 10n , Q = In P et
Z = (Z1 , . . . , Zn )0 . On verifie alors tr`es facilement (exercice) que
I

Z Nn,p (0, Inp )


0
Z = PZ 1n .

Sz = (n 1)1 (QZ )0 (QZ ).

La proposition decoule donc du lemme precedent.

Lemme de Fisher multivarie

Il ne nous reste donc qu`a preciser/etablir le point (ii) du lemme de


Fisher multivarie:
Proposition (lemme de Fisher): soient X1 , . . . , Xn i.i.d. Np (, ).
Alors
Np (, 1 ).
I (i) X
n

I
I

(ii) S ?
(iii) X
S.

Que faut-il ecrire `a la place de ?


Une extension multivariee de la loi 2n1 ...

Loi de Wishart

D
efinition: soit V une matrice aleatoire p p. Alors
I

V est de loi de Wishart `a m degres de liberte (notation:


D P
0
V Wp (m)) V = m
u les Zi sont i.i.d.
i=1 Zi Zi , o`
Np (0, Ip ).

V est de loi de Wishart de param`etre (une matrice p p


symetrique et definie positive) `a m degres de liberte (notation:
D P
0
u les Xi sont i.i.d.
V Wp (m, )) V = m
i=1 Xi Xi , o`
Np (0, ).

Loi de Wishart

Remarques:
I

V W1 (m) V 2m (et V W1 (m, 2 ) V / 2 2m );


la loi
de Wishart generalise donc bien la loi 2 dans le cas multivarie.

En ecrivant comme dhabitude Xi = AZi (o`


u = AA0 et les
Zi sont i.i.d. Np (0, Ip )), on voit que V Wp (m, )

V = AV0 A0 , o`
u V0 Wp (m).

Lemme de Fisher multivarie


Nous pouvons maintenant completer le lemme de Fisher multivarie:
Proposition (lemme de Fisher): soient X1 , . . . , Xn i.i.d. Np (, ).
Alors
Np (, 1 ).
I (i) X
n

I
I

(ii) (n 1)S Wp (n 1, ) .
(iii) X
S.

Preuve: il ne reste plus qu`a prouver (ii).


D

Pour ce faire, ecrivons une fois de plus Xi = AZi (o`


u = AA0 et
les Zi sont i.i.d. Np (0, Ip )). Alors
(n 1)S = A[(n 1)Sz ]A0 ,
de sorte quil suffit de montrer que (n 1)Sz Wp (n 1).

Lemme de Fisher multivarie


Posons comme plus haut Q = In n1 1n 10n . Q admet une
decomposition spectrale de la forme Q = OO 0 .
En posant Z = (Z1 , . . . , Zn )0 ( Nn,p (0, Inp )), on a
(n 1)Sz = (QZ )0 (QZ ) = Z 0 QZ = (O 0 Z )0 (O 0 Z ) = Y 0 Y
o`
u Y = (Y1 , . . . , Yn )0 = O 0 Z Nn,p (0, Inp ) (de sorte que les Yi
sont aussi i.i.d. Np (0, Ip )).
Nous determinons la decomposition spectrale Q:
1. Pour un matrice de projection les valeurs propres i sont
egales `a 1 ou 0. [Q = Q 2 implique que = 2 ]
P
2. tr(Q) = ni=1 i . [tr(Q) = tr(OO 0 ) = tr(O 0 O)]
3. tr(Q) = n 1. [par la definition de Q]
Il decoule donc que 1 = . . . = n1 = 1 et n = 0.

Lemme de Fisher multivarie

Alors Q admet une decomposition spectrale de la forme


!
1 .
0
.
.
Q = OO , o`
u :=
1 0 .
Ceci fournit le resultat, puisque
0

(n 1)Sz = Y Y =

n1
X
i=1

Yi Yi0 Wp (n 1).

Plan du cours

2. Loi normale multivariee.


2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.

TCL multivarie
Nous terminons ce chapitre en etendant au cas multivarie le
theor`eme central limite.
Proposition: soient X1 , X2 , . . . des p-v.a. i.i.d., avec des moments
P
finis dordre 2. Notons = E[X1 ], = Var[X1 ] et X (n) = n1 ni=1 Xi .
 L

Alors, si n , n X (n) Np (0, ).


Preuve:
Fixons u Rp tel que kuk = 1, et posons Yi = u 0 Xi (i = 1, 2, . . .)
Clairement, les Yi sont i.i.d. et leur loi commune, qui admet des
moments finis dordre 2, a pour moyenne E[Y1 ] = u 0 et pour
variance Var[Y1 ] = u 0 u(> 0). Le TCL univarie livre donc que
n
h

i  1 X
L
0
(n)

u
u 0 Xi u 0 N1 (0, u 0 u).
n X = n
n
i=1

Le theor`eme de Cramer-Wold permet donc de conclure.

Appendix: conditional expectation

Motivation. If you consider a random variable X with E |X | <


(i.e. expectation exists), then one can consider EX to be the best
guess one can make for X if we have no additional information.
More precisely, if in addition EX 2 < , then
argmin E (X )2 = EX .
= EX minimizes the mean-squared loss.

Appendix: conditional expectation

Assume now that we have additional information about some other


random variable Y say.
In this case our best guess for X can be dependent on Y , i.e. it
should be some function f0 (Y ).
This suggest to define E [X |Y ] = f0 (Y ) if
f0 = argminf E (X f (Y ))2 ,
where the minimum is taken over all f for which E (f (Y ))2 < .
We then call E [X |Y ] the conditional expectation of X given Y .

Appendix: conditional expectation


How to compute E [X |Y ]? Is it unique?
We suppose that X has square moments, i.e.
Z
2
EX =
X 2 ()dP() < .

In other words, X L2 = L2 (, A, P). The space L2 is a Hilbert


space withp
inner product
hX , Y i = E [XY ]. Hence its norm is given
by kX k = hX , X i = EX 2 .
Now lets look at all random variables Z = f (Y ) L2 for some
measurable f . This is clearly a subspace of L2 . In fact it is the
space L2 (, A0 , P) where
A0 = (Y ) = {Y 1 (B), B a Borel set}.
This is again a Hilbert space, and by completeness of the HS it
follows that it is a closed subspace of L2 (, A, P).

Appendix: conditional expectation


Set S = L2 (, A0 , P).
Now the target is to find
argminZ S E X Z )2 = argminZ S kX Z k2 .
By the projection theorem there exists a unique element Z0 S
such that this is minimized.
Since Z0 S is follows that Z0 is of the form Z0 = f0 (X ).
Z0 is characterized by
hX Z0 , Z i = E (X Z0 )Z = 0 Z S.
In particular, if Z = IA for some A (Y ) we get
Z
Z
XdP =
Z0 dP.
A

Appendix: conditional expectation


A more general definition of the conditional expectation of X given
Y is as follows:
Def. The conditional expectation X given Y is the (almost surely)
unique random variable Z0 , which is
(i) (Y )-measurable
and satisfies
(ii)
Z

Z
XdP =

Z0 dP

A (Y ).

The factorization theorem implies that Z0 = f0 (Y ). We write


Z0 = E [X |Y ] and set E [X |Y = y ] = f0 (y ).

Appendix: conditional expectation

Remarks.
I

The conditional expectation E [X |Y ] is again a random


variable.

Hence it is a (measurable) function E [X |Y ]() = f0 (Y ()).

It can be also seen as a function in Y = y , because for all


for which Y () = y , we have E [X |Y ] = f0 (y ).

Appendix: conditional expectation

Some important properties:


1. E [X + Z |Y ] = E [X |Y ] + E [Z |Y ].
2. E [XZ |Y ] = XE [Z |Y ] if X is (Y )-measurable.
3. E [X |Y ] = E [X ] if X and Y are independent.

Chapitre 3

Plan du cours

1. Vecteurs aleatoires.
2. Loi normale multivariee.
3. Inference dans les mod`eles gaussiens.
4. Methodes classiques de lanalyse multivariee.
5. Inference dans les mod`eles non gaussiens.

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

MLE
Le resultat suivant donne les estimateurs du maximum de
vraisemblance de et pour un echantillon gaussien p-varie.
Th
eor`
eme: soient X1 , . . . , Xn i.i.d. Np (, ). Alors les
estimateurs du maximum de vraisemblance de et de sont
respectivement
n
n
X
X
:= 1 W := 1
)(Xi X
)0 .
:= 1
Xi et
(Xi X

=X
n
n
n
i=1

i=1

Preuve: la vraisemblance de cet echantillon est donnee par


n 
p
 1

Y
1 2 1
(n)
0 1
L, =
exp (Xi ) (Xi ) ,
2 || 21
2
i=1
de sorte que la log-vraisemblance est
n
i
n
1 Xh
(n)
log L, = C log ||
(Xi )0 1 (Xi ) .
2
2
i=1

MLE
) + (X
), on obtient
En decomposant Xi en (Xi X
n h
i
X
(Xi )0 1 (Xi )
i=1

n h
X

i
)0 1 (Xi X
) + n(X
)0 1 (X
)
(Xi X

i=1

ce qui livre
(n)

log L, = C

n
log ||
2

i
1 Xh
)0 1 (X
).
)0 1 (Xi X
) n (X
(Xi X
2
2
i=1

Puisque (et donc 1 ) est definie-positive, on en deduit que,


pour toute valeur fixee de ,
(n)

)0 1 (X
) = X
.
arg max log L, = arg min (X

MLE
Il ne reste donc qu`a maximiser, en , la quantite
n
i
1 Xh
n
(n)
)0 1 (Xi X
) .
log LX , = C log ||
(Xi X
2
2
i=1

Pour ce faire, remarquons que


n
X


)0 1 (Xi X
)
(Xi X
i=1

n
X



)0 1 (Xi X
)
tr (Xi X

i=1

n
X



)(Xi X
)0
tr 1 (Xi X

i=1

= tr

n
X

)(Xi X
)0
(Xi X
i=1

= tr


W .

MLE
Donc
(n)


n
1 
log |1 (W /n)| tr 1 W
2h
2

i
n
1
+
=C
log | (W /n)| tr 1 (W /n)
2

+
log LX , = C

qui ne depend pas de .


pour une certaine quantite C
Comme, en ecrivant W = W 1/2 (W 1/2 )0 , on a
h

i
= arg max log L(n) = arg max log |1 (W /n)|tr 1 (W /n)

,
X

h

i
1/2 0 1
= arg max log |(W ) W 1/2 /n| tr (W 1/2 )0 1 W 1/2 /n ,

est
le resultat suivant permet de conclure (puisquil montre que
1/2
0
1
1/2

tel que (W ) W /n = Ip , ce qui livre = W /n).

MLE
Lemme: soit S la collection des matrices (p p) symetriques et
definies positives. Alors
h
i
arg max log |T | tr T = Ip .
T S

Preuve du lemme: decomposons T en T = OO 0 , o`


u O est
orthogonale et est diagonale (notons i := ii > 0). Alors




log |T |tr T = log |OO 0 |tr OO 0 = log(|O||||O 0 |)tr O 0 O
= log || tr = log

p
Y
i=1

p
p h
 X
i
X
i
i =
log i i .
i=1

i=1

Comme arg maxx>0 (log x x) = 1, on en deduit que le maximum


en T de log |T | tr T est atteint pour 1 = . . . = p = 1, cest-`a-dire
en T = OIp O 0 = Ip .


MLE
Le resultat suivant donne les estimateurs du maximum de
vraisemblance de et pour un echantillon gaussien p-varie.
Th
eor`
eme: soient X1 , . . . , Xn i.i.d. Np (, ). Alors les
estimateurs
du maximum de vraisemblance de et de sont respectivement
n
n
X
X
:= 1 W := 1
)(Xi X
)0 .
:= 1
Xi et
(Xi X

=X
n
n
n
i=1

i=1

Remarques:
I

est seulement

est sans biais pour ; par contre,


= E[ n1 S] = n1 ).
asymptotiquement non biaise (E[]
n
n

Tout ceci est similaire `a ce qui se passe dans le cas univarie


est convergent, normal,
(p = 1). En particulier,
=X
UMVU, affine-equivariant, etc.

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

Tests de Hotelling ( connu)


Soient X1 , . . . , Xn i.i.d. Np (, ).
Soit 0 un p-vecteur fixe. Considerons le probl`eme de test

H0 : = 0
H1 : 6= 0 .

Comme pour p = 1, il est naturel de baser la r`egle de decision sur X

(et plus specifiquement sur la distance entre X et 0 ).


Np (0 , 1 ) sous H0 , on a que, sous H0 ,
Puisque X
n
0 )0 1 (X
0 ) = d 21 (X
, 0 ) 2p .
Tc2 (X ) = n(X

On rejete H0 pour de grandes valeurs de

Tc2 (X ).

Il en decoule quau niveau , un test convenable est le test qui


consiste `a rejeter H0 ssi Tc2 (X ) > 2p;1 .

Tests de Hotelling asymptotique


Bien entendu, ceci requiert que soit connu.

= S...
Si est inconnu, il est naturel de remplacer par
2
0
1

; T (X ) = n(X 0 ) S (X 0 ) (notation usuelle: T 2 ).


En utilisant le lemme de Slutzky, on obtient que, sous H0 ,
L

0 )0 1 (X
0 ) + oP (1) 2p .
T 2 = n(X
Donc, un test asymptotique (au niveau asymptotique ) consiste `a
rejeter H0 ssi T 2 > 2p;1 .
Remarque: il decoule du TCL multivarie que ce test ne requiert pas
que la loi commune des Xi soit normale, mais seulement que
celle-ci ait des moments finis dordre 2.

Test de Student
Pour p = 1, cette statistique est simplement


n
0 ) 2
n (X
1 X
2
2


)2 ,
u s :=
(Xi X
T =
, o`
s
n1
i=1

ce qui est le carre de la statistique de Student usuelle.


Si X1 , . . . , Xn sont i.i.d. N1 (0 , 2 ), le lemme de Fisher implique que

n(X 0 )
tn1 ,
s
de sorte que la loi exacte de T 2 sous H0 (pour p = 1) est F1,n1 .
Un test exact (au niveau ) consiste donc `a rejeter H0 ssi
T 2 > F1,n1;1 (cest le test de Student usuel).
Remarque: ce test exact, contrairement au precedent, requiert
clairement la normalite des Xi .

Tests de Hotelling (loi exacte)


Une question naturelle est:
Pour p > 1, quelle est la loi exacte (sous H0 ) de la statistique de
test
0 )0 S 1 (X
0 ),
T 2 = n(X
si les Xi sont i.i.d. de loi normale p-variee ?

Le lemme suivant permet de repondre `a cette question:


Lemme: soient Y Np (0, ) et V Wp (m, ). Alors, si m p
et Y
V,
m p + 1 0 1
Y V Y Fp,mp+1 .
p

Tests de Hotelling (loi exacte)


Soient X1 , . . . , Xn i.i.d. Np (, ), o`
u n p + 1.
En utilisant le lemme de Fisher multivarie, il decoule de ce lemme
que, sous H0 : = 0 ,
np
T 2 Fp,np .
p(n 1)
Un test exact (au niveau ) consiste donc `a rejeter H0 ssi
np
2
p(n1) T > Fp,np;1 .
Remarque: la version asymptotique de ce test est bien le test
asymptotique vu precedemment.
Ce test, qui est appele test de Hotelling, etend donc au cas
multivarie le test de Student usuel.

Tests de Hotelling
Preuve du lemme: comme dhabitude nous supposons que > 0.
Alors Y 0 V 1 V = (Y )0 (V )1 Y o`
u Y = 1/2 Y et

1/2
1/2
V =
V
. Donc on peut supposer que Y Np (0, Ip ) et
V Wp (m, Ip ) = Wp (m).
On peut montrer (cest un peu delicat), que
1
a0 V 1 a
2
0
aa
mp+1

a Rp , a 6= 0.

(Par contre, cest facile a montrer (exercise) que


a0 Va
2
p
a0 a m a R , a 6= 0.)
Nous ecrivons
Y 0 V 1 Y =

Y 0 V 1 Y
Y 0 Y = A(Y , V ) B(Y ).
Y 0Y

Tests de Hotelling
On note F la fonction de repartition de Y . Alors par independence
de V et Y
P(A(Y , V ) x B(Y ) y )
Z
=
P(A(h, V ) x B(h) y )dF (h)
p
ZR
=
P(A(h, V ) x)I {B(h) y }dF (h)
Rp
!Z
1
x
I {B(h) y }dF (h)
=P
2mp+1
Rp
!
1
=P
x P(B(Y ) y ) .
|
{z
}
2mp+1
P(2p y )

Tests de Hotelling

Il decoule des calculations precedentes, que


D

Y 0 V 1 Y =

2p
2mp+1

2p /p
p
2
mp+1 /(m p + 1) m p + 1

p
Fp,pm+1 .
mp+1


Tests de Hotelling
Soient X1 , . . . , Xn i.i.d. Np (, ).
Le test de Hotelling, pour


H0 : = 0
H1 : 6= 0 ,

consiste (au niveau ) `a rejeter H0 ssi


np
(n p)n
0 ) > Fp,np;1 .
T2 =
(X 0 )0 S 1 (X
p(n 1)
p(n 1)

Quelles sont les proprietes de ce test?


; Th
eor`
eme: le test de Hotelling concide avec le test du rapport
de vraisemblance (gaussien) .

Test du rapport de vraisemblance


Preuve: pour rappel, pour le probl`eme de test H0 : 0 contre
H1 : \0 , la statistique du test du rapport de vraisemblance est
(n) =

L
,
L

o`
u := arg max0 L et := arg max L sont respectivement
les estimateurs de maximum de vraisemblance contraint et non
contraint pour .
Et le test associe consiste `a rejeter H0 : 0 (au niveau
asymptotique ) ssi
2 ln (n) > 2kk0 ;1 ,
o`
u k et k0 sont respectivement les nombres de param`etres libres
dans et 0 .

Test du rapport de vraisemblance


Ici, = (, ), = Rp Vp , o`
u Vp designe la collection des
matrices p p symetriques et definies positives. Et
0 = {0 } Vp . ; k = p + p(p + 1)/2 et k0 = p(p + 1)/2.
= (X
, W /n).
Comme on la vu, = (
, )
Clairement,
Que vaut = (
, )?
= 0 . Et en utilisant les
memes arguments que lors du calcul de lestimateur de maximum
de vraisemblance de , on montre que
:= W0 /n, o`

u W0 :=

n
X
(Xi 0 )(Xi 0 )0 .
i=1

Donc
(n) =

L ,W /n
L
= 0 0 .
L
LX ,W /n

Test du rapport de vraisemblance


Ceci livre
(n)
P
(2)np/2 |W0 /n|n/2 exp[ 12 ni=1 (Xi 0 )0 (W0 /n)1 (Xi 0 )]
=
.
P
)0 (W /n)1 (Xi X
)]
(2)np/2 |W /n|n/2 exp[ 12 ni=1 (Xi X
Comme
n
X

)0 (W /n)1 (Xi X
)
(Xi X

i=1

= tr[(W /n)1 W ] = tr[n Ip ] = np


et
n
X

(Xi 0 )0 (W0 /n)1 (Xi 0 )

i=1

= tr[(W0 /n)1 W0 ] = tr[n Ip ] = np,


on obtient que

Test du rapport de vraisemblance

(n) =

|W0 /n|n/2
|W /n|n/2

= |W0 W 1 |n/2
0 )(X
0 )0 )W 1 |n/2 ,
= |(W + n(X
0 )(X
0 )0 en decomposant
o`
u on a obtenu W0 = W + n(X

Xi 0 en (Xi X ) + (X 0 ).
Le lemme suivant est tr`es utile:

Lemma
Suppose que C Rpp avec |C | > 0. Alors pour tous y Rp
|C + yy 0 | = |C |(1 + y 0 C 1 y ).

Test du rapport de vraisemblance

En utilisant le lemme, on vois que


0 )0 W 1 (X
0 )|n/2
(n) = |1 + n(X
0 )0 S 1 (X
0 ))n/2
= (1 + (n 1)1 n(X
= (1 + (n 1)1 T 2 )n/2 .
Les statistiques (n) et T 2 sont donc en bijection.
Par consequent, les tests associes sont equivalents.

Test du rapport de vraisemblance


Remarque:
comme nous lavons rappele, le test de rapport du vraisemblance
associe consiste `a rejeter H0 : 0 (au niveau asymptotique )
ssi
2 ln (n) > 2kk0 ;1 ,
cest-`a-dire, dans ce cas, ssi (pour n grand)
2 ln (n)


2 ln (1 + (n 1)1 T 2 )n/2
= n ln(1 + (n 1)1 T 2 )
T 2 > 2p;1 ,
ce qui nest rien dautre que la version asymptotique du test de
Hotelling.

Tests de Hotelling
Autres proprietes du test de Hotelling:
I

pour H0 : = 0, la statistique de test T 2 (et par suite, le test


lui-meme) est invariante par transformations lineaires , ce qui
signifie que T 2 (AX1 , . . . , AXn ) = T 2 (X1 , . . . , Xn ) pour toute
matrice A (p p) inversible (interpretation!)

Cette invariance explique le fait que la loi de T 2 sous H0 ne


depende pas de ...

Par contre, il ny a pas invariance par rapport au groupe des


translations (T 2 (X1 + b, . . . , Xn + b) = T 2 (X1 , . . . , Xn ) pour
tout p-vecteur b). Heureusement! (commenter).

Le test de Hotelling est UMPI (uniformly most poweful


invariant), cest-`a-dire que, pour tout test de niveau et
invariant par transformations lineaires, la puissance du test de
Hotelling est superieure `a celle de en tout (6= 0 ).

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

Zones de confiance
Les resultats distributionnels de la section precedente permettent
de construire des zones de confiance pour .

Definition (Zones de confiance)


(n)

On appelle un ensemble C1 = C1 (X1 , . . . , Xn ) Rp un zone


de confiance pour un parametre au niveau (1 ) 100%, si
(n)

P(C1 contient ) = 1 .

En effet, si X1 , . . . , Xn i.i.d. Np (, ), on a vue




p(n 1)
0 1

P n(X ) S (X )
Fp,np;1 = 1 .
np

Zones de confiance

Par consequent une zone de confiance (au niveau de confiance


(1 ) 100%) est donnee par lellipsode:



p(n 1)

(n)
Fp,np;1
C1 := Rp T 2 ()
np



p(n 1)
p 2
= R dS (X , )
Fp,np;1 .
n(n p)

Zones de confiance
De meme, le fait que
h
i
P T 2 () 2p;1 1 , si n ,
implique, quune zone de confiance (au niveau de confiance
asymptotique (1 ) 100%) est donnee par lellipsode
o
n

()
C1 := Rp T 2 () 2p;1
n
o

, ) 1 2p;1 .
= Rp dS2 (X
n
Remarque: tout comme le test de Hotelling asymptotique, cette
procedure ne requiert pas la normalite des Xi , mais seulement
lexistence de moments finis dordre 2.

Exemple

10

10

Ellipses de confiance exact (rouge) et asymptotique


(noir)
pour
 

4
5
3
X1 , . . . , X10 (X1 , . . . , X50 ) N2 (, ), o`
u
et =
.
3
3 2.25

X_2

X_2

10

X_1

10

X_1

Jai repete cette experience 10000 fois, et calcule la proportion des


experiments o`
u netait pas contenu dans les ellipse de confiance:
n = 10: 0.0511 (zone exact) et 0.1271 (zone asymptotique).
n = 50: 0.0486 (zone exact) et 0.06 (zone asympotique).

Zones de confiance
A ces zones de confiance elliptiques




(n)
, ) p(n 1) Fp,np;1 ,
C1 = Rp dS2 (X
(n p)n
il est souvent prefere en pratique des zones rectangulaires, qui
livrent des intervalles de confiance pour chacune des composantes
de = (1 , . . . , p )0 .
Bien entendu, il est facile de construire des intervalles de confiance
pour toute combili a0 des composantes de
(ici, a est un p-vecteur non nul fixe).
puisque a0 X1 , . . . , a0 Xn sont i.i.d. N1 (a0 , a0 a).

Zones de confiance
On obtient en effet directement que



1
2
(n)
0
C1 (a) := t R da0 Sa (a X , t) F1,n1;1 ,
n
constitue une zone (un intervalle) de confiance `a (1 ) 100%
pour a0 .
Cet intervalle de confiance se reecrit simplement
r
a0 Sa
0
F1,n1;1 ,
aX
n
ou encore

r
0

aX

a0 Sa
t
.
n n1;1/2

Zones de confiance
Ainsi, un intervalle de confiance `a (1 ) 100% pour i
(i = 1, . . . , p) est donne par
r
(S)ii
i,(n)

F1,n1;1 .
C1 = (X )i
n
Neanmoins, il faut insister sur le fait quil sagit l`a dintervalles de
confiance individuels, dans le sens o`
u, sil est vrai que, i = 1, . . . , p,

i,(n) 
P i C1 1 , il est faux (pour p 2) que
h
i
i,(n)
P i = 1, . . . , p, i C1 1 .
1,(n)

p,(n)

Le zone rectangulaire C1 . . . C1 nest donc pas une zone


de confiance `a (1 ) 100% pour .

Zones de confiance
Question naturelle:
Comment construire des intervalles de confiance simultanes ?
Nous aurons besoin du lemme suivant:
Lemme soit M une matrice p p symetrique et definie positive.
Alors, a, b Rp , (a0 b)2 (a0 Ma)(b 0 M 1 b).
Preuve: Notez que a0 Ma = kM 1/2 ak2 et que linequation de
Cauchy-Schwarz donne
(a0 b)2 = (a0 M 1/2 M 1/2 b)2
= hM 1/2 a, M 1/2 bi2
kM 1/2 ak2 kM 1/2 bk2 .


Zones de confiance

Consequence: pour tout a Rp , on a


))2 (a0 Sa)((X
)0 S 1 (X
)),
(a0 (X
ou encore

))2
1
(a0 (X
T 2 (),
0
a Sa
n

de sorte que


))2
(a0 (X
(n 1)p
P sup

Fp,np;1 1 .
a0 Sa
n(n p)
a

Zones de confiance
Des intervalles de confiance simultanes (pour tout a Rp ) pour
a0 `a (1 ) 100% sont donc donnes par
s
(n 1)p 0
0
(a Sa) Fp,np;1 .
aX
n(n p)
Ceux-ci sont `a comparer aux intervalles de confiance individuels
r
0

aX
qui ont ete obtenus plus haut.

a0 Sa
F1,n1;1 ,
n

Exemple

10

Intervalles de confiance simultanes (noir) 


et individuels

(rouge!) 
4
5
3
pour X1 , . . . , X10 i.i.d. N2 (, ), o`
u=
et =
.
3
3 2.25

X_2

4
X_1

10

Exemple

10

Intervalles de confiance simultanes (noir) 


et individuels

(rouge!) 
4
5
3
pour X1 , . . . , X50 i.i.d. N2 (, ), o`
u=
et =
.
3
3 2.25

6
2

X_2

4
X_1

10

Jai repete cette experience 10000 fois avec constellation n = 10 et


n = 50 et calcule la proportion des experiments o`
u netait pas
contenu dans les recangles de confiance: n = 10: 0.0511 (zone
individuel) et 0.1271 (zone simultane). n = 50: 0.0486 (zone
individuel) et 0.06 (zone simultane).

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

Probl`emes `a plusieurs echantillons


Soient deux echantillons independants:
X1 , . . . , Xn1 i.i.d. Np (1 , ) et Y1 , . . . , Yn2 i.i.d. Np (2 , ).
Nous considerons le probl`eme de test

H0 : 1 = 2
H1 : 1 6= 2 .
Remarque: plus generalement, on pourrait traiter le cas o`
u les
matrices de variance-covariance des deux echantillons sont
differentes.
Dans ce cas, les tests gaussiens fondent la r`egle de decision sur
Y (et plus specifiquement sur la distance entre X
et Y ).
X

Tests de Hotelling
; la statistique du test de Hotelling pour deux echantillons est
T2 =


1
 1 1 1
Y )0 S 1 (X
, Y ),
Y ) = 1 + 1
(X
dS2pool (X
+
pool
n1 n2
n1 n2
n1
n1
X
X
:= 1
)(Xi X
)0 ,
o`
uX
Xi , Wx :=
(Xi X
n1
i=1

1
Y :=
n2
et

n2
X

i=1

Yi , Wy :=

i=1

n2
X

(Yi Y )(Yi Y )0 ,

i=1

Spool :=

Wx + Wy
.
n1 + n2 2

Et il convient de rejeter H0 : 1 = 2 pour de grandes valeurs de


T 2.

Tests de Hotelling (loi exacte)


Le resultat suivant precise la loi exacte (sous H0 ) de la statistique
de test de Hotelling:
Proposition: supposons que n1 + n2 p + 2. Alors sous H0 ,
n1 + n2 p 1 2
T Fp,n1 +n2 p1 .
p(n1 + n2 2)
Le test de Hotelling exact consiste donc (au niveau ) `a rejeter
n1 +n2 p1 2
H0 : 1 = 2 ssi p(n
T > Fp,n1 +n2 p1;1 .
1 +n2 2)
Dans sa version asymptotique, ce test rejette H0 : 1 = 2 ssi
T 2 > 2p;1 . Dans ce cas, comme pour le probl`eme `a un
echantillon, la normalite nest pas requise (seules lexistence de
moments finis dordre 2 et legalite des matrices de
variance-covariance population le sont). Exercice: verifier ceci en
utilisant le TCL.

Tests de Hotelling
Preuve de la proposition: comme dans le cas `a un echantillon, la
loi (sous H0 ) de la statistique T 2 decoule du lemme suivant:
Lemme: soient Y Np (0, ) et V Wp (m, ). Alors, si m p
Y 0 V 1 Y Fp,mp+1 .
et Y
V , mp+1
p
et Y sont independantes et de loi respective
En effet, sous H0 , X
1
Np (, n1 ) et Np (, n12 ) (o`
u est la valeur commune de 1 et 2 ).
1
1

Donc X Y Np (0, ( n1 + n2 )).


Dautre part, Wx Wp (n1 1, ) et Wy Wp (n2 1, ) sont
aussi independantes, de sorte que
(n1 + n2 2)Spool = Wx + Wy Wp (n1 + n2 2, ).
Le lemme fournit alors le resultat en prenant
Y ) et V := (n1 + n2 2)Spool .
Y := ( n11 + n12 )1/2 (X

Proprietes dinvariance

La statistique de test T 2 (et par suite, le test lui-meme) est ici


invariante par transformations lineaires et par translations :
pour toute matrice A (p p) inversible et pour tout p-vecteur b,
T 2 (AX1 + b, . . . , AXn1 + b, AY1 + b, . . . , AYn2 + b)
= T 2 (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ).
Cette invariance affine explique le fait que la loi de T 2 sous H0 ne
depende
I

ni de la valeur de ,

ni de la valeur commune de 1 = 2 .

Test du rapport de vraisemblance

Comme dans le cas `a un echantillon, le test de Hotelling est


essentiellement celui du rapport de vraisemblance gaussien:
Th
eor`
eme: soit (n1 ,n2 ) la statistique du test du rapport de
vraisemblance. Alors

(n1 ,n2 ) = 1 +
Preuve: exercice.

(n1 +n2 )/2


T2
.
n1 + n2 2

Remarque
Pour ce probl`eme, on a constamment suppose que les deux
echantillons (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) sont independants.
Si ce nest pas le cas, tout ce qui a ete fait plus haut seffondre...

Exemple classique:
Supposons que les deux echantillons soient paires : (X1 , . . . , Xn ) et
(Y1 , . . . , Yn ), o`
u Xi et Yi reprennent p mesures effectuees, avant
et apr`es traitement respectivement, sur un meme individu.
Dans ce cas, si on veut tester H0 : 1 = 2 , il convient deffectuer
un test `a un echantillon de H0 : = 0 sur la serie des differences
(Y1 X1 , . . . , Yn Xn ).

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

Test dadequation sur


Tous les tests suivants sont des test de rapport de vraisemblance.
Je laisse les preuves pour les TP.

Soient X1 , . . . , Xn i.i.d. Np (, ). Considerons le probl`eme de test



H0 : = 0
H1 : 6= 0 ,
o`
u 0 une matrice p p symetrique et definie positive fixee.
Dans ce cas, le test de rapport de vraisemblance rejette H0 (au
niveau asymptotique ) si
2 ln (n) > 2p(p+1)/2;1 ,
o`
u

i
h
.
n/2 exp n tr (1 )
(n) = e np/2 |1
|
0
0
2

Probl`eme `a deux echantillons


Soient deux echantillons independants:
X1 , . . . , Xn1 i.i.d. Np (1 , 1 ) et Y1 , . . . , Yn2 i.i.d. Np (2 , 2 ).
Pour le probl`eme de test


H0 : 1 = 2
H1 : 1 6= 2

le test de rapport de vraisemblance rejette H0 (au niveau


asymptotique ) si
2 ln (n1 ,n2 ) > 2p(p+1)/2;1 ,
o`
u
(n1 ,n2 ) =

|Wx /n1 |n1 /2 |Wy /n2 |n2 /2


.
|(Wx + Wy )/(n1 + n2 )|(n1 +n2 )/2

Test de sphericite
Soient X1 , . . . , Xn i.i.d. Np (, ).
Considerons le probl`eme de test

H0 : > 0 tel que = Ip
H1 : > 0, 6= Ip ,
qui consiste `a tester la sphericite des contours dequidensite
sous-jacents.
Dans ce cas, le test de rapport de vraisemblance rejette H0 (au
niveau asymptotique ) si


|S|1/p np/2
(n)
2
(n)
, o`
u = 1
.
2 ln > p(p+1)
1;1
2
p (tr S)

Test de sphericite

Remarque: en ecrivant
0

S = OO , o`
u :=

1
2

!
..

et o`
u O est orthogonale, on obtient que


(n)

2/(np)

Q 1/p
i i
= 1P
,
i i
p

qui nest autre que le quotient de la moyenne geometrique des


valeurs propres de S par leur moyenne arithmetique (intuition).

3. Inference dans les mod`eles gaussiens.


3.1. Sur le param`etre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Probl`emes `a plusieurs echantillons.
3.2. Sur le param`etre de dispersion.
3.3. Autres types de probl`emes.

Test dindependance

Soient Z1 = (X10 , Y10 )0 , . . . , Zn = (Xn0 , Yn0 )0 i.i.d. Np1 +p2 (, ), o`


u



11 12
= 12
et =
22 .
21
Considerons le probl`eme de test

H0 : 12 = 0
H1 : 12 6= 0
qui ( dans cette situation gaussienne ) consiste `a tester
lindependance entre X1 et Y1 .

Test dindependance
Le test de rapport de vraisemblance rejette ici H0 (au niveau
asymptotique ) si
2 ln (n) > 2p1 p2 ;1 ,
o`
u

(n)


=

|Sz |
|Sx ||Sy |

n/2
,

avec



n 

0
1 X Xi X
Xi X
Sx
Sz :=
=:
Syx
Yi Y
Yi Y
n1
i=1

Sxy
Sy


.

MATHF309 Analyse Multivari


ee. TP 1.
Ex 1. Les marginales dun vecteur aleatoire sont elles-memes des variables aleatoires.
Ex 2. Soit X un p-v.a. et soit P X la distribution de X. Montrez que P X est
uniquement determinee par sa fonction de repartition F X .
Ex 3. Montrez lequivalence des trois conditions suivantes: (i) EkXkr < , (ii)
E|Xi |r < pour i {1, . . . , p}, (iii) E|v 0 X|r < v Rp .
Ex 4. Soit la matrice de variance-covariance de X = (X1 , . . . , Xp )0 . Montrez
que est singuli`ere si et seulement si a Rp \ {0}, tel que Var(a0 X) = 0.
Donc en cas de || = 0, a0 X est constant.
Ex 5. Montrez que Var(X) = EXX 0 0 .
Ex 6. Soit X un p-v.a. et Y un q-v.a. verifier que pour A Rrp et B Rsq
Cov(AX, BY ) = ACov(X, Y )B 0 .
En particulier, Var(AX) = AVar(X)A0 .
Ex 7. Soit Rpp semi-definie positive et symetrique. Montrez que est une
matrice de variance-covariance.
et S sont des estimateurs affine-equivariants de et ,
Ex 8. Montrer que X
respectivement.
Ex 9. Soit X = (X1 , X2 )0 un 2-v.a. tel que (a) X1 , X2 N (0, 1) independantes et
(b) X Unif(B 2 ) cest-`
a-dire que X est `a densite :
f X (x) =

1
1xB2 ,
m2 (B 2 )

o`
u m2 la mesure de Lebesgue et B 2 est la boule unite fermee de R2 .
Soient Y = (R, ) les coordonnees polaires de X. Dans chacun des cas,
determinez les densites des variables R est , sont-elles independantes?

MATHF309 Analyse Multivari


ee. TP 2.
Ex 1. Montrer que la fonction caracteristique X dun p-v.a. X est uniformement
continue.
d

Ex 2. Montrez que X (t) R t Rp , sii X = X.


Ex 3. Soient X1 , X2 , . . . , Xn des p-v.a. iid tels que EkX1 k2 < . Montrer que
lestimateur de la matrice de covariance
n

X
= 1

(Xi X)(Xi X)0 ,


n j=1
p.s.

est consistant, i.e.
.

Ex 4. Soit X = (X1 , . . . Xp )0 un p-v.a. tel que les Xi sont i.i.d. N (0, 1). Determiner
la densite de Y = AX + b, o`
u A GL(Rp ) et b Rp .
Ex 5. Soient X1 , X2 , . . . , Xn des p-v.a. iid tels que EkX1 k2 < . Montrer quil
existe une variable aleatoire Z telle que

n(kXk kk) Z.

Determiner la distribution de Z en utilisant la methode , et trouver le vecteur


Rp qui minimise Var(Z).
Ex 6 Soient X, Y des p-v.a. dont les composantes Xi , Yi sont toutes iid de variances
d
X0Y
finies et symetriques (i.e. X = X). Calculer E[] et Var(), o`
u = kXkkY
k.
Ex 7. Soit X = (X1 , . . . Xp )0 un p-v.a. tel que les Xi sont iid N (i , 2 ). Montrer
que
2




p2
,
X

EkX k2 > E


2
kXk
pour tout Rp , p 3 et 2 > 1/2.
Indication : montrer que




Xi (Xi i )
kXk2 2Xi
2
E
= E
.
kXk2
kXk4

Paradoxe de Stein
La moyenne empirique X dun echantillon de n vecteurs Gaussiens standards
p-varies est elle meme la realisation unique dun p-v.a. comme ci-dessus, avec
2 = n1 . Il en resulte que lestimateur de


p2

S = 1
X,
kXk2
est meilleur que lestimateur naf
= X, au sens o`
u R(
, ) > R(
S , ) pour
tout Rp , lorsque p 3 et n 3.

MATHF309 Analyse Multivari


ee 2014
1. Soit X = (X1 , X2 )0 un 2-v.a. avec fonction de densite
 2

1
x1 + x22 2x1 x2
X
f (x1 , x2 ) =
exp
.
2(1 2 )
2(1 2 )
X suit quelle loi ?

Quelle est la loi de AX + b, o`
uA=

1
3


2
et b = (4, 5)0 ?
4

Si = 1, X na plus de densite. Trouver une representation de X de


la forme X = AZ + o
u Z suit une loi normale centre reduite.
Dans ce dernier cas ( = 1), trouvez la probabilite que X1 + 2X2 > 3.
Quelle est la fonction caracteristique de X ?
Quelle est la loi de X1 ?
Quelle est la loi de X1 + 3X2 ?
Soit = 1/2. Est-ce que x = (2, 1) est dans une zone de tolerance `a
95% ?
2. Soit Rpp une matrice symetrique et definie positive. Montrer que d :
Rp Rp [0, ) avec d2 (x, y) = (x y)0 1 (x y) est une distance sur Rp .
3. Montrez que les courbes de niveau de la loi normale p-variee Np (, ), > 0,
sont des ellipsodes avec les axes e1 , . . . , ep , o`
u les ei sont les vecteurs propres
de .
4. The production of tires requires a very precise composition of synthetic rubbers to guarantee optimal traction between the vehicle and the road. Three
different sorts of synthetic rubber are mixed and, if all processes run normally,
the machine made composition is following a 3 variate normal vector X with

3 1 2
1
1 4 1 .
EX = (4.1, 3.22, 6.81)0 and Var(X) =
1000
2 1 4
Once in 2 weeks a quality control is performed. In a sample of 10 observations
the following measurements were taken.
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,7]
[,8]
[,9]
[,10]
[1,] 4.210619 4.187051 4.179901 4.190450 3.990219 4.008184 4.015704 4.296161 4.287021 4.289658
[2,] 3.313502 3.315440 3.328547 3.118566 3.105510 3.115786 3.120105 3.422434 3.415658 3.419418
[3,] 6.913022 6.922251 6.921745 6.719244 6.691387 6.702546 7.012949 7.010364 6.997263 7.000275

What is your conclusion?


5. Etudiez les operations vec(A) et AB pour des matrices A et B (voir syllabus,
chapitre 2) et montrez (a) vec(ABC) = (C 0 A)(vec(B)) et (b) tr(A B) =
tr(A)tr(B).

MATHF309 Analyse Multivari


ee 2015
1. Soit X = (X1 , X2 )0 un 2-v.a. avec fonction de densite
 2

x1 + x22 2x1 x2
1
X
p
exp
f (x1 , x2 ) =
.
2(1 2 )
2 1 2
Quelle est la loi de X1 |X2 = x2 ?
Soit Y un 2-v.a. independant de X avec la meme loi que X. Quelle est
la loi de (X 0 , Y 0 )0 ?
Quelle est la loi de X + Y ?
Montrer que X + Y et X Y sont independants.
Lorsque = 1/2, trouver un rectangle de tolerance `a 95%.
2. Soient X1 , X2 , X3 iid et de loi Np (, ). Soient Y1 = X1 +X2 , Y2 = X1 +X3 et
Y3 = X2 +X3 . Determinez la loi de Y1 |Y2 = y2 et la loi de Y1 |Y2 = y2 , Y3 = y3 .
3. Si M Wp (m, ) et A est un p-v.a. tel que P (A0 A 6= 0) = 1 qui est
independant de M , alors
A0 M A/(A0 A) 2m ,
et cette variable aleatoire est independante de A.
SX .
4. Soient X1 , . . . , Xn des v.a. iid Np (, ). Montrer que X
Indication : montrer quon peut se ramener au cas o`
u les Xi sont iid Np (0, Ip ).
5. Soit A une matrice aleatoire symetrique et telle que pour tout c Rp on ait
c0 Ac > 0 p.s. Montrer que cela nimplique pas que A soit p.s definie positive.
6. Soit X = (X1 , X2 )0 N2 (0, ). Montrer que
E[X1 |X2 ] = P (X1 ),
o`
u P est la projection orthogonale sur sp(X2 ) = {X2 : R} L2 (, A, P).
Est-ce le cas pour tout vecteur aleatoire de R2 ?

MATHF309 Analyse Multivari


ee 2015
1. Find the maximum likelihood estimates of the 2 1 mean vector and the
2 2 covariance matrix based on the random sample


3 4 5 4
X0 =
6 4 7 7
from a bivariate normal population.
2. Let X1 , . . . , Xn be a random sample from a multivariate normal distribution
and S are sufficient statistics.
with mean and variance . Then X
3. Let X1 , . . . , Xn be a random sample from a multivariate normal distribution
with variance and mean = 1p , where 1p = (1, . . . , 1)0 Rp . Derive the
MLE for when (i) is known and (ii) is unknown.
4. Suppose X = {X1 , . . . , Xn } is a p-variate random sample (not necessarily
normally distributed). We assume finite second moments. We wish to test
H0 : EX1 = 0p against H1 : 6= 0p . (Here 0p = (0, . . . , 0)0 Rp .) We use the
test statistics
0 S 1 X,

T 2 (X) = nX
and reject if T 2 (X) > 2p,1 . Show that the test is asymptotically unbiased.
I.e., when n , we reject H0 with probability when H0 is correct.
5. Our results in the lectures often rely on the assumption that we have a random
sample from a multivariate normal distribution. In practice, we first have to
(approximately) verify this assumption from the data. A very good empirical
method offer so-called q-q-plots. If p = 1 (univariate case), the idea is to
plot the hypothesized normal quantiles against the corresponding empirical
quantiles of the observations. The algorithm is as follows:
(a) Estimate and 2 from the sample X = {X1 , . . . , Xn }.
(b) Order the sample: X(1) , . . . , X(n) .
(c) Let 0 < 1 < 2 < < k < 1 be a partition of [0, 1].
(d) Plot the k empirical quantiles
Xb1 nc , Xb2 nc , . . . , Xbk nc
(here bxc is the floor function) against

+
q1 ,
+
q2 , ,
+
qk ,
where q be the -quantile of a standard normal random variable.
If the data X are normally distributed, we expect that the plot is more or less
diagonal. (See the figure on the next page.)
Can you propose a similar procedure for a multivariate normal sample?
6. The following data give the age x1 , measured in years, as well as the selling
price x2 , measured in thousands of dollars, for n = 10 used cars.


3
5 5 7
7 7
8
9
10 11
X0 =
2.3 1.9 1 0.7 0.3 1 1.05 0.45 0.7 0.3
Do you think these data are approximately bivariate normal?

Normal QQ Plot

student.t4

1
0

Sample Quantiles

Theoretical Quantiles

normal

Figure 1: Q-Q-plot from a standard normal sample (left) and a t sample with 4
degrees of freedom (right).

Analyse multivari
ee
TP6 : Inference dans les mod`eles gaussiens multivaries

Exercice 1

Soient X1 , . . . , Xn1 i.i.d. de loi commune Np (1 , 1 ) et Y1 , . . . , Yn2 i.i.d. de loi


commune Np (2 , 2 ). Considerons le probl`eme de test

H0 : 1 = 2
H1 : 1 6= 2 .
1. Ecrire la vraisemblance et rappeler lestimateur du maximum de vraisemblance pour (1 , 1 ) et (2 , 2 ).
2. Determiner lestimateur du maximum de vraisemblance pour (1 , 1 ) et
(2 , 2 ) sous la contrainte associee a` H0 .
3. En deduire que le test de rapport de vraisemblance rejette H0 (au niveau
asymptotique ) si
|Wx /n1 |n1 /2 |Wy /n2 |n2 /2
,
|(Wx + Wy )/(n1 + n2 )|(n1 +n2 )/2
Pn1

0 et Wy = Pn2 (Yi Y )(Yi Y )0 , avec


o`
u Wx =
(X

X)(X

X)
i
i
i=1
i=1
= 1 Pn1 Xi et Y = 1 Pn2 Yi .
X
i=1
i=1
n1
n2
2 log (n) > 2p(p+1)/2;1 , o`
u (n) =

Exercice 2

Soient Z1 = (X10 , Y10 )0 , . . . , Zn = (Xn0 , Yn0 )0 i.i.d. de loi commune Np1 +p2 (, ), o`
u
 


1
11 12
=
et =
.
2
21 22
Considerons le probl`eme de test


H0 : 12 = 0
H1 : 12 6= 0,

qui consiste a` tester lindependance entre X1 et Y1 . Posons






n 

0
1 X Xi X
Xi X
Sx Sxy
Sz :=
=:
.
Yi Y
Yi Y
Syx Sy
n 1 i=1
1

1. Determiner lestimateur du maximum de vraisemblance pour (, ).


2. Determiner lestimateur du maximum de vraisemblance pour (, ) sous la
contrainte associee a` H0 .
3. En deduire que le test de rapport de vraisemblance rejette H0 (au niveau
asymptotique ) si
n/2

|Sz |
(n)
2
(n)
.
2 log > p1 p2 ;1 , o`
u =
|Sx ||Sy |

Exercice 3

Soient X1 , . . . , Xn des p-vecteurs aleatoires i.i.d. de loi commune Np (, ), o`


u
est symetrique et definie positive. On consid`ere le probl`eme de test

H0 : > 0 tel que = 0
H1 :
> 0, 6= 0 ,
o`
u 0 est une matrice symetrique et definie positive fixee.
1. Ecrire la fonction de vraisemblance associee a` ce mod`ele.
2. Donner les estimateurs du maximum de vraisemblance non contraint pour
(, ).
3. Determiner les estimateurs du maximum de vraisemblance sous H0 pour (, ).
4. Calculer la statistique du test de rapport de vraisemblance (n) pour le probl`eme
de test considere.
5. Donner la loi asymptotique de 2 log (n) sous H0 ; enoncer la r`egle de decision
du test de rapport de vraisemblance.
1/2
1/2
6. Ecrire la statistique de test (n) en fonction des valeurs propres de 0 S0 ,
o`
u S represente la matrice de variance-covariance empirique de lechantillon et
1/2
o`
u 0
designe la racine carree symetrique de 1
0 . Sur base de ces valeurs
propres, expliquer intuitivement pourquoi ce test permet de discerner entre
H0 et H1 .

Exercice 4

Supposons que X1 , . . . , Xn sont des p-vecteurs aleatoires i.i.d. de loi Np (, ), o`


u
est une matrice symetrique et definie positive. Soit C une matrice de dimension
(p1)p de rang maximal, et telle que C1p = 0p1 (avec 1p := (1, 1, . . . , 1)0 Rp
et 0p1 := (0, 0, . . . , 0)0 Rp1 ).
2

1. Prouver que Ker(C) = {1p , R}.


2. En deduire que H0 : C = 0 H0 : 1 = 2 = = p .
3. Prouver que

C = A

1 0 . . . 0 1
0 1
0 1

..
..
...
.
.
0
1 1

pour une certaine matrice A inversible de dimension (p 1) (p 1).


4. En deduire que la valeur de
0 (CSC 0 )1 (C X),

T 2 = n(C X)

0
:= n1 Pn Xi et S = (n 1)1 Pn (Xi X)(X
epend
o`
uX
i X) , ne d
i=1
i=1
pas de C.
5. Determiner la distribution exacte, puis asymptotique, de T 2 sous H0 , en
justifiant tous les calculs.
6. En deduire (en expliquant intuitivement votre r`egle de decision) un test
exact, puis asymptotique, de H0 contre H1 : i, j tel que i =
6 j .

Exercice 5

Soient X1 , . . . , Xn i.i.d. de loi commune Np (, 2 Ip ), o`


u 2 est connu.
1. Determiner lestimateur du maximum de vraisemblance pour .
2. Determiner lestimateur du maximum de vraisemblance pour sous la
contrainte kk2 = 1.
3. En deduire la statistique (n) du test de rapport de vraisemblance pour
H0 : kk2 = 1 contre H1 : kk2 6= 1 et enoncer la r`egle de decision (en
utilisant la theorie generale des tests de rapport de vraisemblance).
1)2 / 2 , o`
:= 1 Pn Xi .
4. Montrer que 2 log (n) = n(kXk
uX
n

i=1

5. Utiliser la methode delta pour retrouver le fait que 2 log (n) 21 .

MATHF309 Analyse Multivarie 2015

Exercice 1
Soit 1 q p. Montrer que
2
2




q
q
n
n
X
X
X



1
1 X
0
0

Xk X

Xk X
bj (Xk X)
ej (Xk X)
.


n
n


j=1
j=1
k=1
k=1
Pour toute base orthonorme (bj )pj=1 de Rp et o (
ej )pj=1 sont les vecteurs
propres de S.

Exercice 2
Soit X = (X1 , X2 )0 , o X1 Ber(p) (0 < p < 1) et X2 = 1 X1 .
Calculer = Var(X)
Dterminer les composantes principales et interprtez.

Exercice 3
Dterminer les composantes principales du vecteur alatoire X = (X1 , X2 , X3 )0 ,
sachant que EX = 0 et que

1 0
= 2 1
0 1
Calculer la proportion de variance explique par chaque composante.

Exercice 4
Chargez les donnes "pollution.txt". Il sagit dune matrice n p contenant une certaine mesure de la pollution de lair au cours du temps, toute les
demi-heures (donc p = 48 mesures par jours), pendant n = 182 jours. Faire
lACP et interprter en utilisant la fonftion prcomp. Mme travail avec les donnes "NationalTrackRecord.txt".

Exercice 5
Chargez les donnes "data.txt" et "missing.txt". Imaginez une mthode
destimation de et lorsquil manque certaines donnes.

Exercice 6
Chargez les donnes "salmondata.txt". On suppose quil sagit dun chantillons Gaussien bivari. Comparer les diffrentes zones de confiances (exactes)
95% : ellipsodales, rectangulaires, individuelles.
1

MATHF309 Analyse Multivarie 2014


Ex 1. (a) Notre but ici consiste montrer que, si X est un p-vecteur alatoire dont
la matrice de variance-covariance peut scrire comme = 0 +, alors
il existe des facteurs F et un bruit U tels que le modle k-facteur tient
pour X. Pour ce faire, nous allons considrer Y Nk (0, Ik + 0 1 )
indpendant de X et dfinir
  
U
Ip
=
F
0 1

Ik

1


X

.
Y

Montrez qualors le modle k-facteur tient pour X.


(b) Si X suit une loi multinormale, montrez qualors (F, U ) peut tre suppos
galement de loi multinormale.
(c) En dduire que F et U ne sont pas uniquement dtermins par X.
et
de et sont chelle-invariants. En dautres
Ex 2. Montrez que les MLE
mots, si `(, |X1 , . . . , Xn ) est la fonction de vraisemblance, maximise par
et ,
alors `(, |CX1 , . . . , CXn ) est maximise par = C
et = C C,

o C est une matrice p p diagonale.


Ex 3. Supposons que X1 , . . . , Xn est un chantillon issu dune population multinormale. Obtenez le test de rapport de vraisemblance pour H0 : est de la
forme = 0 + avec Rpk contre H1 : est une quelconque autre
matrice symtrique dfinie positive.
Ex 4. Soit = (M 0 BM +Ip )0 avec B = diag(b1 , b2 , ..., bk ), 0 = Ip et M M 0 =
Ik . Dmontrez que
(a)
( )1 = (Ip M 0 B(B + Ik )1 M )0 ,
(b)
| | =

k
Y

(1 + bi ).

i=1

Ex 5. Soient b1 ... bk 0, 1 ... p 0. Alors


(a)
arg max{M Rkp ,M M 0 =I}

p
k X
X
bi j
m2ij = (Ik |0)0 ,
1
+
b
i
i=1 j=1

(b)
arg min{bi 0}

k 
X

log(1 + bi ) +

i=1

avec ci = max{i 1, 0}.

bi j
1 + bi


= (c1 , c2 , ..., ck ),

MATHF309 Analyse Multivarie 2014


Ex 1. Considrons le cas o i = Np (i , ), i = 1, 2. Dans cet exercice, nous ne
tenons pas compte dventuelles probabilits a priori p1 , p2 , ni de cots de
misclassification c1|2 , c2|1 .
1. Montrer que la procdure optimale classifie alors x en 1 si
h + i
1
2
, o a := 1 (1 2 ),
a0 x a0
2
et en 2 sinon.
2. Montrer que lhyperplan sparateur des deux zones de classification R1
et R2 est orthogonal := 1 2 ssi est lun des vecteurs propres de
.
3. Dans la situation o p = 2, prenons 2 = (0, 0)0 , 1 = (r, s)0 , r > 0, et
 2

1 0
=
.
0 22
Etudier la direction de a dans les cas (a) s = 0 (et donc r 6= 0), (b) s 6= 0
et 22 >> |s|, puis (c) s 6= 0 et 22 << |s|.
4. Montrer que cette rgle de classification est quivalente la rgle optimale
qui classifie x en 1 ssi d2 (x, 2 ) d2 (x, 1 ).
5. Quest-ce qui change si nous tenons quand mme compte des probabilits
a priori p1 , p2 et des cots de misclassification c1|2 , c2|1 ?
Ex 2. Considrons nouveau le cas o i = Np (i , ), i = 1, 2. Au cours thorique,
nous avons expliqu quil tait raisonnable dadopter une rgle de classification
fonde sur la projection sur la droite vectorielle engendre par a := 1 (1
2 ). Ceci mne aux procdures Pc , c R, o Pc consiste classifier x en 1
si
a0 x c,
et en 2 sinon.
1. Calculer (en fonction de c) les probabilits de misclassification e1 que X
provenant de 1 soit classifi en 2 et e2 que X provenant de 2 soit
classifi en 1 . Discuter ce quil se passe quand c .
2. Il est naturel de choisir c de telle manire que les deux types derreurs
squilibrent (e1 = e2 ). Dterminer le c correspondant et comparer la
rgle qui en rsulte avec la rgle optimale de lexercice 1. Calculer la
valeur commune e1 = e2 (=: e).
Ex 3. Considrons le cas o i = Np (i , i ), i = 1, 2. Montrer que la procdure
de classification optimale (tenant compte de probabilits a priori p1 , p2 , ainsi
que de cots de misclassification c1|2 , c2|1 ) classifie x en 1 si
hc p i
1
k
1|2 2
1
0 1
0 1
x0 (1
+ ln
1 2 )x + (1 1 2 2 )x
2
2
c2|1 p1
et en 2 sinon, o


|1 |
0 1
k := ln
+ (01 1
1 1 2 2 2 ).
|2 |
Ex 4. Considrons le cas o i = Np (i , ), i = 1, 2, . . . , m. De nouveau, nous
ne tenons pas compte dventuelles probabilits a priori ni de cots de misclassification. Montrer que la procdure optimale classifie alors x en i si
di (x) = maxj {dj (x)}, o
1
dj (x) := 0j 1 x 0j 1 j .
2

MATHF309 Analyse Multivarie 2014


Ex 1. Considrons le modle linaire Y = X + , o Nn (0, ) avec > 0
connu. Dterminez le MLE pour de deux manires.
Ex 2. Supposons quon ait une famille paramtrique de densits f . Une statistique T est dite exhaustive pour si les densits peuvent tre dcomposes

en f (x) = g (T (x))h(x). Montrez que (,
2 ) est exhaustif pour (, 2 )
lorsque nous considrons la famille de densits f,2 (y) donne par le modle
Y X + o Nn (0, 2 In ).
Ex 3. Supposons que L2 L1 sont des sous-espaces linaires de Rn . Montrez
qualors
(i) L1 L2

est un sous-espace linaire;

(ii) L1 L2 L2 ;
(iii)

(L1 L2 ) L2 = L1

(= L L = Rn );

(iv) pL (v) = v pL (v).


Ex 4. Supposons avoir un modle linaire Y Nn (, 2 In ), avec L. Montrez
qualors
et R (rsidus) sont indpendants.

Vous aimerez peut-être aussi