Multi Va

Analyse Multivariee
Siegfried Hormann
Universite libre de Bruxelles
Toutes les informations relatives à ce cours (horaires, references,

fichiers R, etc.) sont disponibles à ladresse
http://homepages.ulb.ac.be/~shormann
Plan du cours
1. Vecteurs aleatoires.
2. Loi normale multivariee.
3. Inference dans les modèles gaussiens.
4. Methodes classiques de lanalyse multivariee.
- Analyse en composantes principales.
- Analyse factorielle.
- Analyse discriminante lineaire.
- MANOVA et regression multivariee.
Chapitre 1
Chapitre 1
1.1. Definition, types de distributions.
1.2. Esperance et moments.
1.3. Independance.
1.4. Estimateurs usuels de et .
1.5. Modes de convergence, resultats limites.
1.6. Fonction caracteristique.
1.7. Jacobiens.
Definition
Soit (, A, P) un espace de mesure.
D
efinition: un p-vecteur aleatoire (ou p-v.a.) X est une fonction
X : Rp
7 X () =
X1 ()
.
.
.
Xp ()
= (X1 (), . . . , Xp ())0
qui est mesurable, cest-à-dire qui est telle que pour tout B B p ,
X 1 (B) = { | X () B} A.
Terminologie: les composantes Xi dun v.a. X = (X1 , . . . , Xp )0

sont appelees les marginales de X .
Les marginales sont elles-memes des v.a. (exercice).
Definition
La condition de mesurabilite permet de considerer la distribution P X
de X , qui est la mesure de probabilite sur (Rp , B p ) definie par
P X [B] := P[X B] := P[X 1 (B)],
B B p .
Le p-v.a. X induit donc une correspondance entre les espaces de

mesure (, A, P) et (Rp , B p , P X ).
La fonction de repartition de X est definie par

F X (x) = P[X1 x1 , X2 x2 , . . . , Xp xp ],
pour tout x = (x1 , . . . , xp )0 .
Types de distributions
On distingue essentiellement deux grands types de distributions P X :

I
les distributions absolument continues (par rapport à la

mesure de Lebesgue mp ) et
les distributions singulières.
D
efinition: P X est absolument continue (par rapport à mp ) ssi
B Bp tel que mp (B) = 0, on a P X [B] = 0.
Le theorème de Radon-Nikodym assure que, pour une telle

distribution, il existe une fonction f : Rp R mesurable (appelee
fonction de densite de probabilite (pdf) de X ) telle que
Z
X
P [B] =
f (x) dx, B B p .
B
Propriete dune pdf: f (x) 0 x Rp et

distribution de X
valeurs possibles
x
pdf
f (x)
Rp
f (x) dx = 1.
D
efinition: P X est singulière (par rapport à mp ) ssi N Bp tel
que mp (N) = 0 et P X [N] = 1.
Une classe importante de distributions singulières est celle des
distributions discrètes:
D
efinition: PX est discrète ssi il existe une collection au plus
denombrable {xi , i I} de p-vecteurs telle que
X
P X [B] =
P [X = xi ] , B B p .
i | xi B
Une telle distribution est completement determinee par la donnee

des xi et des probabilites pi = P[X = xi ].
distribution de X
valeurs possibles
x1
x2
probabilit
es
p1
p2
...
...
Les distributions singulières ne sont pas toutes discrètes...
Exemples:
I
La distribution de X = (Z , 0, . . . , 0)0 , o`
u Z N (0, 1).
La distribution uniforme sur la sphère unite S p1 Rp , qui

X
est la distribution de U := kX
u X est de loi uniforme sur
k , o`
p
p
la boule unite B R (nous ecrirons U Unif(S p1 ) et
X Unif(B p )).
Remarque: si C Rp avec mp (C ) > 0, nous dirons que X est de

loi uniforme sur C (et nous ecrirons X Unif(C )) ssi P X est
absolument continue par rapport à mp et admet la densite
f X (x) =
1
I
,
mp (C ) [xC ]
o`
u I[xC ] est la fonction indicatrice de C .
Comment engendrer une loi Unif(B p )?

Engendrer une observation X de loi Unif(B p ) peut se faire en
I
engendrant des variables V1 , . . . , Vp i.i.d. de loi uniforme sur

[1, 1], et
en prenant X = (V1 , . . . , Vp )0 pour peu que ce vecteur soit

dans B p (sinon on jette les Vi et on recommence...)
Cette strategie nest pas très efficace pour p grand, puisque

cp :=
p
cp
p/2 ( p2 ( p2 ))1
mp (B p )
=
0,
mp ([1, 1]p )
2p
1
1
2
0.785
3
0.524
4
0.308
5
0.164
6
.081
7
.037
si p .
8
.016
9
.006
10
.002
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Esperance et moments
Soit X un p-v.a.
Soit g : Rp R une fonction mesurable.
D
efinition: lesperance de g (X ) est definie par
Z
Z
E[g (X )] =
g (X ()) dP() =
g (x) dP X (x),
Rp
pour peu que la valeur commune de ces integrales soit finie.
En pratique, on calculera ces esperances par

Z
X
E[g (X )] =
g (x) f (x) dx et E[g (X )] =
g (xi )pi
Rp
iI
dans le cas absolument continu et le cas discret, respectivement.
Si g : Rp Rq (q 2), on prendra lesperance composante par
composante, cest-à-dire
E[g1 (X )]
..
E[g (X )] =
.
.
E[gq (X )]
En particulier,
E[X1 ]
E[X ] = ... .
E[Xp ]
Remarque: on suivra la meme règle si g est à valeurs dans un

espace de matrices.
D
efinition: X a des moments finis dordre r (r > 0) ssi E[kX kr ] < .
Proposition: (i) E[kX kr ] < (ii) E[|Xi |r ] < pour tout

1 i p (iii) E[|v 0 X |r ] < pour tout v Rp .
Preuve:
(i) (ii): cela suit de |Xi |r kXP
kr .

r
Pp
p
r
r
(ii) (i): cela suit de kX k
Cp,r
i=1 |Xi | .
i=1 |Xi |
(i) (iii): cela suit de |v 0 X |r kv kr kX kr .
(iii) (ii): il suffit de prendre v = ei (le ième vecteur de la base
canonique de Rp ).

Remarque: en particulier, si X a des moments finis dordre 1, on
peut parler de son esperance := E[X ] = (E[X1 ], . . . , E[Xp ])0 ,
puisqualors |E[Xi ]| E[|Xi |] < pour tout i = 1, . . . , p.
On veillera toujours dans la suite à imposer les hypothèses les
moins fortes possibles en termes de moments.
Dans cette optique, le resultat suivant permet dordonner les

hypothèses de moments finis.
Proposition: (i) Si E[kX kr ] < pour un certain r > 0, alors
E[kX ks ] < pour tout 0 < s r .
Preuve: fixons s (0, r ). Comme la fonction
f : R+ R
t
7 t s /(1 + t r )
est bornee, on a
E[kX ks ] E[Cs,r (1 + kX kr )] = Cs,r (1 + E[kX kr ]) < .
Soit X un p-v.a. avec des moments finis dordre 2.
D
efinition: la matrice de variance-covariance de X est
= Var[X ] = E[(X )(X )0 ].
Proprietes:
I
(ij ) = E[(Xi i )(Xj j )] = Cov[Xi , Xj ] et

(ii ) = Var[Xi ], ce qui justifie la terminologie.
est bien definie. En effet, |ij | |ii |1/2 |jj |1/2 (CS), o`
u
|ii | = E[(Xi )2 ] + 2i < .
est symetrique et semi-definie positive (pour tout v Rp ,

v 0 E[(X )(X )0 ]v = E[v 0 (X )(X )0 v ] =
E[|v 0 (X )|2 ] 0).
= E[XX 0 ] E[X 0 ] E[X ]0 + 0 = E[XX 0 ] 0 , qui

est une expression plus commode pour le calcul de .
Pour un X qui a des moments finis dordre 2, on peut donc considerer
E[X1 ]
..
= E[X ] =
.
E[Xp ]
et

= Var[X ] = Cov[Xi , Xj ]
i,j=1,...,p
Var[X1 ]
. . . Cov[X1 , Xp ]
..
..
..
=
.
.
.
Cov[X1 , Xp ] . . .
Var[Xp ]
Soient X un p-v.a. et Y un q-v.a., qui ont tous deux des moments
finis dordre 2.
D
efinition: la covariance entre X et Y est
Cov[X , Y ] = E[(X X )(Y Y )0 ].
Proprietes:
I
(Cov[X , Y ])ij = Cov[Xi , Yj ].
Comme pour , on verifie facilement que Cov[X , Y ] est bien

definie.
Cov[1 X1 + 2 X2 , Y ] = 1 Cov[X1 , Y ] + 2 Cov[X2 , Y ] et

Cov[X , 1 Y1 + 2 Y2 ] = 1 Cov[X , Y1 ] + 2 Cov[X , Y2 ].
Cov[X , Y ] = E[XY 0 ] X 0Y .
Si p = q,
Var[X + Y ] = Var[X ] + Var[Y ] + Cov[X , Y ] + Cov[Y , X ].
Si on pose Z = (X 0 , Y 0 )0 , on a

E[Z ] =
E[X ]
E[Y ]
et

Var[Z ] =
Var[X ]
Cov[X , Y ]
Cov[Y , X ]
Var[Y ]

.
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Independance
Soient X un p-v.a. et Y un q-v.a.

D
efinition: X et Y sont independants (X
Y ) ssi
P[X B1 , Y B2 ] = P[X B1 ]P[Y B2 ], B1 B p , B2 B q .
Remarque: si X
Y , g (X )
h(Y ) pour tout g , h. En particulier,
si X
Y , Xi
Yj pour tout i, j.
Independance
0 0
Proposition: X
Y (i) F (X ,Y ) (x, y ) = F X (x)F Y (y ) x, y
0 ,Y 0 )0
(X
(ii) f
(x, y ) = f X (x)f Y (y ) x, y (dans le cas abst continu)
(iii) E[g (X )h(Y )] = E[g (X )]E[h(Y )] g , h à valeurs reelles.
Remarque: si X
Y , on a X X
Y Y , et donc
(X X )i
(Y Y )j pour tout i, j. La proposition ci-dessus
implique donc que (Cov[X , Y ])ij = E[(X X )i (Y Y )j ] =
E[(X X )i ]E[(Y Y )j ] = 0, de sorte que Cov[X , Y ] = 0.
En particulier, si on pose Z = (X 0 , Y 0 )0 ,

Var[X ]
0
Var[Z ] =
,
0
Var[Y ]
et si p = q, Var[X + Y ] = Var[X ] + Var[Y ].
Par contre, Cov[X , Y ] = 0 nimplique pas que X
Y (exemple
aux TP).
Extension à plus de deux v.a.:

D
efinitions: (i) X1 , . . . , Xn
ssi B1 B p1 , . . . , Bn B pn ,
P[X1 B1 , . . . , Xn Bn ] = P[X1 B1 ] . . . P[Xn Bn ].
(ii) X1 , X2 , . . .
ssi k i1 < i2 < . . . < ik , Xi1 , . . . , Xik
.
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Estimateurs
Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis dordre 1.
; on peut estimer = E[X ] par
n
X
= 1
Xi .
=X
n
i=1
?
Quels sont les proprietes de X
Proposition: si les Xi ont des moments finis dordre 2,

] = et (ii) Var[X
] = 1 .
(i) E[X
n
Preuve:
P
] = 1 n E[Xi ] = .
(i) E[X
i=1
n
] = 12 Var[Pn Xi ] =
(ii) Var[X
i=1
n
1
n2
Pn
i=1 Var[Xi ]
1
n
n2
= n1 .
Estimateurs
Soient X1 , . . . , Xn des p-v.a. i.i.d., avec des moments finis dordre 2.
; on peut estimer = Var[X ] = E[(X E[X ])(X E[X ])0 ] par
n
=S =
1 X
)(Xi X
)0 .
(Xi X
n1
i=1
, cet estimateur est sans biais:

Comme X
Proposition: si les Xi ont des moments finis dordre 2, E[S] = .

P
0
0
Preuve: Soit W = (n 1)S. On a W =
i Xi Xi nX X , de
sorte que P

0
0
0
0
E[W ] =
i E[Xi Xi ] nE[X X ] = nE[X1 X1 ] nE[X X ].
1
0
0
0
] = E[X
X
] 0 .
Or = E[X1 X1 ] et n = Var[X
Donc E[W ] = n( + 0 ) n( n1 + 0 ) = (n 1).
Estimateurs
Soit X un p-v.a.
Soient A une matrice constante m p et b Rm .
Clairement,
E[AX + b] = AE[X ] + b
et
Var[AX + b] = AVar[X ]A0 .
D
efinitions:
(i) Un estimateur T (X1 , . . . , Xn ) de = E[X ] est affine-equivariant
ssi T (AX1 + b, . . . , AXn + b) = AT (X1 , . . . , Xn ) + b, A, b.
(ii) Un estimateur S(X1 , . . . , Xn ) de = Var[X ] est affine-equivariant
ssi S(AX1 + b, . . . , AXn + b) = AS(X1 , . . . , Xn )A0 , A, b.
et S sont des estimateurs affine-equivariants de
Proposition: X
et , respectivement.
Preuve: exercice.
Estimateurs
Ce quon attend avant tout dun estimateur n de est quil soit

proche de .
Il est en fait desirable quil soit arbitrairement proche de si la
taille dechantillon n est suffisamment grande, cest-à-dire que
n ,
si n .
Il nous faut dabord donner un sens precis à cette convergence...
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Modes de convergence, resultats limites

Soit (, A, P) un espace de mesure.
Soit (Xn ) une suite de p-v.a. et X un p-v.a. definis sur (, A, P).
Pour rappel, dans le cas univarie (p = 1), on peut definir de

diverses manières la convergence de (Xn ) vers X :
p.s.
Xn X (presque s
urement) P[{ | Xn () X ()}] = 1.
P
Xn X (en probabilite) Pour tout > 0, P[|Xn X | > ] 0.

Lr
Xn X (en norme Lr , r > 0) E[|Xn X |r ] 0.

D
Xn X en loi F Xn (x) F X (x) pour tout x R en lequel F X

est continue.
Ces concepts setendent aisement au cas multivarie:
p.s.
Xn X (presque s
urement) P[{ | Xn () X ()}] = 1.
P
Xn X (en probabilite) Pour tout > 0,

P[kXn X k > ] 0.
Lr
Xn X (en norme Lr , r > 0) E[kXn X kr ] 0.

D
Xn X en loi F Xn (x) F X (x) pour tout x Rp en lequel

F X est continue.

Les divers liens entre ces concepts de convergence sont maintenus
dans le cas general:
p.s.
Xn X
Xn X
Lr
Xn X
Xn X
Remarques:
p.s.
Xn X il existe une sous-suite (Xnk ) telle que Xnk X .
Xn a, a constant Xn a.
Xn X et limK supn1 E |Xn |I {|Xn | K } = 0
D
P
L1
Xn X .

Le resultat suivant montre que la convergence p.s. composante par
composante implique la convergence p.s. multivariee (et quil en
va de meme pour la convergence en probabilite)...
Proposition: soient (Xn ) une suite de p-v.a. et X un p-v.a. Alors
p.s.
p.s.
(i) (Xn )i Xi i = 1, . . . , p (Xn ) X ;
P
(ii) (Xn )i Xi i = 1, . . . , p (Xn ) X .

Preuve:
(i) Soient A := { | Xn () X ()} et
Ai := { | Xn () P
Xi ()}, i = 1, . . . , p. Alors
i
P[Ac ] = P[pi=1 Aci ] pi=1 P[Aci ] = 0, de sorte que
P[A] = 1 P[Ac ] = 1.
P
2
2
(ii) P[kXn X k > ] = P[ pi=1 |(X
n )i Xi | > ]
P
p
p
2
2 /p]]
2
2
P[
i=1 P[|(Xn )i Xi | > /p] =
Pp i=1 [|(Xn )i Xi | >

i=1 P[|(Xn )i Xi | > / p] 0, si n .

Il en decoule directement que la loi des grands nombres est
egalement valide dans le cas multivarie. Plus precisement:
Corollaire: soient X1 , X2 , . . . des p-v.a. i.i.d., avec
des moments
1 Pn
(n)
finis dordre 1. Notons = E[X1 ] et X := n i=1 Xi . Alors

(n) ) p.s.
(i) (X
(loi forte);
P
(n)
(ii) (X ) (loi faible).

Remarques:
I
La moyenne empirique est donc un estimateur fortement

convergent pour .
On montre de la meme manière que, si X1 , P

X2 , . . . sont i.i.d.,
n
1
0
avec des moments finis dordre 2, S = n1
i=1 (Xi X )(Xi X )
est un estimateur fortement convergent pour .

A linverse des convergences p.s. et en proba, il nest pas suffisant
de considerer la convergence en loi des marginales.
D
Plus precisement, il ne suffit pas detablir que Xn X et que

D
Yn Y pour en deduire que

Xn D X
.
Yn
Y
(exemple aux TP).
Par contre, on a le fameux lemme de Slutzky :

D
Lemme: Si Xn X et Yn a (a constant), alors
Xn
Yn

X
a .
D

Quelques resultats supplementaires sur la convergence en loi:
D
Proposition: (i) Xn X et Xn Y X = Y (cest-à-dire

P X = P Y ). (ii) Soit g : Rp Rq une fonction telle que
P[X Cg ] = 1, o`
u Cg = {points de continuite de g }. Alors
D
Xn X g (Xn ) g (X ).
Il decoule directement de cette proposition et du lemme de Slutzky
le resultat suivant:
D
Corollaire: Si Xn X et Yn a (a Rs constant) et si
D
g : Rp+s Rq est continue, alors g (Xn , Yn ) g (X , a).

D
En particulier, si les dimensions concident, Xn X et Yn a

D
D
impliquent que Xn + Yn X + a, Xn0 Yn X 0 a, etc.
Le resultat suivant est connu sous le nom de methode delta:

Proposition: Soit (Xn ) une suite de p-v.a. telle que
D
n (Xn a) Z , o`
u n . Soit g : Rp Rq une fonction
D
differentiable en a. Alors n (g (Xn ) g (a)) Dg (a) Z , o`

u
gi
Dg (a) = ( xj (a)).

Preuve: le lemme de Slutzky implique que
D
Xn a = n1 [n (Xn a)] 0.
Dautre part, lhypothèse de differentiabilite permet decrire
g (t) g (a) = Dg (a)(t a) + k(t) kt ak,
o`
u la fonction k(.) definie par
k(t) = [g (t) g (a) Dg (a)(t a)]/kt ak I[t6=a]
D
est continue en t = a. On a donc que k(Xn ) k(a) = 0. Une nouvelle

application du lemme de Slutzky permet de conclure que
n (g (Xn ) g (a)) = Dg (a)n (Xn a) + k(Xn ) kn (Xn a)k
D
Dg (a)Z + 0 kZ k = Dg (a)Z .
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Fonction caracteristique
Nous definissons maintenant un outil qui, comme nous le verrons,
est très puissant pour etablir des resultats distributionnels.
D
efinition: la fonction caracteristique du p-v.a. X est la fonction
X : R p C
t
7 E[e it X ].
Remarques:
I
X est à valeurs dans le disque unite de C

0
(puisque |X (t)| E[|e it X |] = E[1] = 1).
X (0) = 1; X (t) = X (t).
X est uniformement continue (ce qui decoule de linegalite

0
|X (s) X (t)| E[|e i(st) X 1|]).
Si la loi de X est absolument continue (de densite f X ),
Z
0
0
X (t) = E[e it X ] =
e it x f X (x) dx,
Rp
de sorte que X est la transformee de Fourier de f X .

Lexistence de la celèbre formule dinversion
1 p Z
0
e ix y X (y ) dy
f X (x) =
2
Rp
justifie le qualificatif caracteristique:
Proposition:
D
(i) X = Y X (t) = Y (t) t Rp .
D
(ii) (Xn ) X Xn (t) X (t) t Rp .
Exemple: si X N (0, 1),

Z
1 x 2 /2
2
itX
itx
e
dx = . . . = e t /2 .
X (t) = E[e ] =
e
2
R
Proposition: Soient A Rqp , b Rq . Alors
0
AX +b (t) = e it b X (A0 t) t Rq .
0
Preuve: AX +b (t) = E[e it (AX +b) ] = E[e it b e i(A t) X ] = e it b X (A0 t).

D
On en deduit que, si X N (, 2 ) (X = Z + , o`
u
2
Z N (0, 1)), X (t) = e it Z (t) = e it(t) /2 .
Remarque: si = 0, X est à valeurs reelles. Ceci est en fait une
illustration du resultat suivant:
D
Proposition: X : Rp R X = X (exercice).
Proposition: soient X , Y des p-v.a. independants. Alors

X +Y (t) = X (t)Y (t) t Rp .
0
Preuve: X +Y (t) = E[e it (X +Y ) ] = E[e it X e it Y ] =

0
0
E[e it X ]E[e it Y ] = X (t)Y (t).
Proposition: pour autant que les esperances ci-dessous existent,

k
E[X1k1 . . . Xp p ] =
Preuve: exercice.
k1 +...+kp
i k1 +...+kp tk1 . . . tkp

p
1
X (t)

t=0
Th
eor`
eme (Cramer-Wold): X = Y u 0 X = u 0 Y u S p1 .
Preuve:
() Pour tout t R, u0X (t) = X (tu) = Y (tu) = u0 Y (t).
() Soit t Rp \{0}. Posons u = t/ktk. Alors X (t) =
X (ktku) = u0X (ktk) = u0 Y (ktk) = Y (ktku) = Y (t). Ceci
permet de conclure, puisque X (0) = 1 = Y (0).
Plan du cours
1.3. Independance.
1.7. Jacobiens.
Jacobiens
Le resultat suivant decoule facilement de la formule de changement
de variables dans les integrales multiples.
Proposition: soit X un p-v.a. de loi absolument continue (de
densite f X ). Soit Y = (X ) , o`
u est un diffeomorphisme. Alors
Y est egalement de loi absolument
continue et sa densite est
donnee par f Y (y ) = f X (1 (y )) D1 (y ), y Rp (o`
u |Dg (y )|
designe la valeur absolue du jacobien de g en y ).
Preuve: soit B B p .
P[Y B] = P[(X ) B] = P[X
Z
(B)] =
f X (x) dx,
1 (B)
ce qui, en posant x = 1 (y ), livre

Z

P[Y B] =
f X (1 (y )) D1 (y ) dy .
B
Chapitre 2
Plan du cours
Plan du cours

2.1. Definitions, proprietes de base.
2.2. Independance et normalite multivariee.
2.3. Lois conditionnelles.
2.4. Loi normale matricielle.
2.5. Loi de Wishart, lemme de Fisher multivarie.
2.6. TCL multivarie.
Appendix: Conditional expectations.
Definitions, proprietes de base

Soit X = (X1 , . . . , Xp )0 un p-v.a.
D
efinition: X est de loi normale p-variee centree reduite (notation:
X Np (0, Ip )) les Xi , i = 1, . . . , p sont i.i.d. N (0, 1).
Clairement, cette loi est absolument continue par rapport à la
mesure de Lebesgue et a pour densite
p
p

Y
Y
1
X
Xi
exp(xi2 /2)
x 7 f (x) =
f (xi ) =
2
i=1
i=1
p
1
X
1
2
2
/2)
=
exp(
x
exp(kxk2 /2).
=
i
p/2
2
(2)
i=1
Aussi,
E[X ] =
E[X
.. 1 ]
.
E[Xp ]
!
=0
et

Var[X ] = Cov[Xi , Xj ]
i,j=1,...,p
= Ip .
Remarque: si X Np (0, Ip ), X a des moments finis de tout ordre.

En effet, pour tout s > 0, on a
E [kX ks ] Cp,s
p
X
i=1
E |Xi |s = pCp,s E |X1 |s < .
500 observations i.i.d. de loi N2 (0, I2 ):
0
2
4
X_2
0
X_1

D
efinition: X est de loi normale p-variee il y a un vecteur
Rp et une matrice A (p q) tels que X = AZ + , o`
u
Z Nq (0, Iq ).
Remarques:
(i) E[X ] = AE[Z ] + = et Var[X ] = AVar[Z ]A0 = AA0 .
0
(ii) X (t) = E[e it X ] = E[e it (AZ +) ] = E[e i(A t) Z ) ]e it . Donc

1
X (t) = exp(it 0 ) exp t 0 AA0 t .
2
C
a implique que la loi de X depend que de et
Var(X ) = AA0 =: .
On
ecrit: X Np (, ).

(iii) Si X Np (, ), alors Y = BX + ( Rd et B Rdp )
est de loi normale d-variee, Y Np ( + B, BB 0 ).

En particulier, en prenant B = Ip1 | 0p1 (pp1 ) et = 0, il
decoule de cette proposition le resultat suivant.
Proposition: soit X = (X10 , X20 )0 Np (, ), o`
u Xi est un pi -v.a.
(i = 1, 2) et o`
u

1
11 12
=
et =
2
21 22
Alors X1 Np1 (1 , 11 ).
Ceci montre donc que tous les v.a. extraits dun v.a. de loi normale
multivariee sont egalement de loi normale.
(iv) Soit Rp et Rpp symetrique et semi-defini positive

(on ecrit: 0), alors il y a un vecteur aleatoire X Np (, ).
Preuve: Le theorème spectral implique, que
= OO 0 ,
o`
u 0 (p p) est une matrice diagonale et O (p p) est une
matrice orthogonale (O 0 O = Ip ). Donc si on definit A = O1/2 O 0
D
et Z Np (0, Ip ), alors + AZ = Np (, ).
(v) Comme dans le cas standard (i.e., = 0 et = Ip ),
X Np (, ) a des moments finis de tout ordre.

(vi) Si est une matrice (p p) symetrique et definie positive (on
ecrit: > 0), et X N (, ), alors la loi dun tel X est
absolument continue par rapport à la mesure de Lebesgue et a
pour densite
x 7 f X (x) = |A1 |f Z (A1 (x ))
1 p 1
2
exp(kA1 (x )k2 /2)
=
2 |A|
1 p 1
2
=
exp((x )0 1 (x )/2),
2 || 12
(nous avons pris A = 1/2 de (iv)).
(vii) Soit X N (, ). Dans le cas > 0, on a = OO 0 avec

> 0. Donc, on peut definir 1/2 = O1/2 O 0 . Alors
1/2 (X ) N (0, Ip ).
C
a ressemble à
1
(X ) N(0, 1),
dans le cas o`
u X a de loi normale univariee N(, ).

Proposition: X Np (, ) a Rp \{0},
a0 X N1 (a0 , a0 a).
Preuve:
() t R, on a
0
a0X (t) = X (ta) = e i(ta) e (ta) (ta)/2 = e it(a ) e (a a)t

o`
u Y N1 (a0 , a0 a), de sorte que a0 X N1 (a0 , a0 a).
2 /2
= Y (t),
() t Rp \{0}, on a
0
X (t) = t 0X (1) = e i1(t ) e (t t)1 /2 = e it e t t/2 = Y (t),

o`
u Y Np (, ). Bien entendu, on a aussi X (0) = 1 = Y (0).
Donc X Np (, ).

Il ne suffit pas que toutes les marges multivariees soient de loi
normale pour que le vecteur lui-meme soit de loi normale!
Exemple:
Soit X = (X1 , X2 )0 , o`
u X1 N (0, 1) et X2 = X1 , o`
u est
1
independante de X1 est P( = 1) = 2 .
Alors on verifie facilement que
I
X2 N (0, 1) (exercice), mais que
X nest pas de loi normale bivariee.
Ce second point est obtenu en observant que

1
P(X1 + X2 = 0) = ,
2
et par consequence a0 X , avec a = (1, 1)0 , nest pas de loi normal.
500 observations i.i.d. qui ont la loi bivariee ci-dessus:
X_2
0
X_1
D
efinition: la distance de Mahalanobis entre x et y dans la
m
petrique associee à (notation: d (x, y )) est la quantite
(x y )0 1 (x y ).
La densite dune loi normale p-variee est alors
1 p 1

2
x 7 f X (x) =
d2 (x, )/2 ;
1 exp
2 || 2
les courbes de niveau de f X sont donc des hyper-ellipsodes (dans
Rp ) de centre et dont la forme et lorientation sont determinees
par .
10
500 observations i.i.d. de loi N2 (, ), o`

u

4
5
3
=
et =
.
3
3 2.25
X_2
4
X_1
10

Proposition: si X Np (, ) o`
u > 0, d2 (X , ) 2p .
D
Preuve: en utilisant le fait que X = AZ + , o`

u Z Np (0, Ip ) et
AA0 = , on obtient
D
d2 (X , ) = (X )0 1 (X ) = ((AZ +))0 1 (AZ +))

p
X
= (AZ )0 1 (AZ ) = Z 0 A0 (AA0 )1 AZ = Z 0 Z =
Zi2 ,
i=1
qui est bien de loi

definition.
2p ,
puisque les Zi sont i.i.d. N (0, 1) par

Par consequent, lellipsode E1 := {y Rp | d2 (y , ) 2p;1 }

(o`
u 2p;1 designe le quantile dordre 1 de la loi 2p ) contient
une masse de probabilite dexactement 1 . On parlera de zone
de tolerance (à (1 ) 100%) .
500 observations i.i.d. de loi N2 (0, I2 ) et la zone de tolerance E.95 .
0
2
4
X_2
0
X_1

500 observations i.i.d. de loi N2 (, ), o`
u

4
5
3
=
et =
.
3
3 2.25
10
et la zone de tolerance E.95 .
4
2
0
X_2
4
X_1
10
Plan du cours

Independance et normalite multivariee

Soit X1 un p1 -v.a. et X2 un p2 -v.a. On sait que
I
X1
X2 Cov[X1 , X2 ] = 0, mais que
la reciproque nest pas vraie en general

(exemple: p1 = p2 = 1, X1 N1 (0, 1) et X2 = (X1 )2 ).
Le resultat suivant montre que la reciproque tient dans le cas o`

u
X = (X10 , X20 )0 est de loi normale p-variee (p = p1 + p2 ).
(i = 1, 2) et o`
u

1
11 12
=
et =
2
21 22
Alors X1
X2 ssi 12 = 0.
Remarque: 12 = Cov[X1 , X2 ].

Preuve:
() Prouve au 1er chapitre (sans hypothèse de normalite).
() Par definition,
X = AZ + ,
o`
u Z Np (0, Ip ) et o`
u A est une matrice (p p) quelconque telle
que AA0 = . Clairement, puisque 12 = 0, on peut prendre

A11 0
A=
,
0 A22
o`
u Aii est une matrice (pi qi ) telle que Aii A0ii = ii (i = 1, 2).
On obtient alors

X1
A11 Z1 + 1
h1 (Z1 )
= X = AZ + =
=
,
X2
A22 Z2 + 2
h2 (Z2 )
ce qui montre que X1
X2 (puisque Z1
Z2 ).

Vice versa, il convient la suivante:
Proposition: soit X = (X10 , X20 )0 , o`
u Xi Npi (i , i ) (i = 1, 2)
sont independants. Alors X Np1 +p2 (, ), o`
u

1
1 0
=
et =
.
2
0 2
En utilisant la proposition, on obtient pour n p-v.a. independants

et de la loi normal, que X = (X10 , . . . , Xn0 )0 Nnp (, ), o`
u

1
1
0

..
= ... et =
.
.
n
0
n

Corollaire: soient Xi , i = 1, . . . , n des p-v.a. independants tels que
Xi Np (i , i ). Soient ci , di , i = 1, . . . , n des constantes reelles. Alors
Pn
(i)
i=1 ci Xi
(ii)
P
P
Np ( ni=1 ci i , ni=1 ci2 i );
Pn c X
Pni=1 i i
i=1 di Xi
Pn
Pn c 2
c
i
i
i=1
Pn
N2p
, Pni=1 i i
d
i
i
i=1 ci di i
i=1
I
Pn

c
d
i
i
i
i=1
Pn
;
2
i=1 di i
(iii)
P si i = 1 i,
P
P
( ni=1 ci Xi )
( ni=1 di Xi ) ni=1 ci di = 0.
Preuve: (i) et (ii) decoulent de BX Np (B, BB 0 ), o`

u

c1 Ip . . . cn Ip
B = (c1 Ip . . . cn Ip ) et B =
.
d1 Ip . . . dn Ip
(iii) est une consequence directe du fait que la non-correlation des
marges equivaut à leur independance pour les v.a. normaux.

Corollaire: soient
Xi , i = 1, . . . , n des p-v.a. i.i.d. de loi Np (, ).
1 Pn
Alors X := n i=1 Xi Np (, n1 ).
Plan du cours

Lois conditionnelles
(i = 1, 2), > 0 eto`
u

1
11 12
=
et =
.
2
21 22
Alors X2 | X1 = x1 Np2 (2 + 21 1
u
11 (x1 1 ), 22.1 ), o`
1
22.1 := 22 21 11 12 .
Remarques:
I
la variance de X2 | X1 = x1 ne depend pas de x1 . Ce

phenomène est connu sous le nom dhomoscedasticite.
La variance des lois conditionnelles est plus petite que celle

des lois originales.
En effet, Var[X2 ] Var[X2 |X1 = x1 ]
= 22 22.1 = 21 1
11 12 0.
Preuve: 11 est definie positive (puisque cest le cas de ), et est
donc aussi inversible. Bien entendu, X Np (0, ). Donc, en
posant

Ip1
0
B=
21 1
Ip2
11
on obtient B(X ) Np (0, BB 0 ), o`
u

X1 1
B(X ) =
21 1
11 (X1 1 ) + (X2 2 )
et
BB 0 =

11
0
.
0 22.1
Nous posons Y := 21 1
11 (X1 1 ) + (X2 2 ).
Alors
Y Np2 (0, 22.1 ),
X2 = 2 + Y + 21 1
11 (X1 1 ),
X1
Y,
et donc

E exp(it 0 X2 )|X1 = x1

= E exp(it 0 [2 + Y + 21 1
11 (X1 1 )])|X1 = x1

0
= exp(it 0 [21 1
11 (x1 1 )]) E exp(it [2 + Y ])|X1 = x1
{z
}
|
=E [exp(it 0 [2 +Y ])]
= exp(it
[21 1
11 (x1
puisque X1
Y

1 ) + 2 ]) E exp(it 0 Y )
Plan du cours

Loi normale matricielle

Pour definir la loi normale matricielle, nous aurons besoin des deux
notations suivantes, qui sont classiques en analyse multivariee.
D
efinition: soient A = (A1 . . . An ) = (aij ) une matrice m n et B
une matrice p q. Alors

A1
a11 B . . . a1n B

.. .
vec A = ...
et A B = ...
.
am1 B . . . amn B
An
Remarques:
I
A B est appele le produit de Kronecker de A et B.
A B est de taille mp nq.
En general, A B 6= B A.

Proprietes:
Pour toute matrice A, A1 , A2 , B, B1 , B2 , C et pour tout reel , ,
I
(A1 + A2 ) B = A1 B + A2 B et
A (B1 + B2 ) = A B1 + A B2 .
(A B) C = A (B C ).
(A1 B1 )(A2 B2 ) = (A1 A2 ) (B1 B2 ), (A B)0 = A0 B 0

et (A B)1 = A1 B 1 .
tr[A B] = (tr A)(tr B) et, si A (m m) et B (n n),

det[A B] = (det A)n (det B)m .
A, B > 0 A B > 0.
On a aussi (et surtout) les liens suivants entre vec et :

I
(vec A)0 (vec B) = tr[A0 B] et vec (ABC ) = (C 0 A)(vec B).

Soit X une matrice aleatoire de dimension n p.
D
efinition: X est de loi normale de moyenne M et de
variance-covariance (notation: X Nn,p (M, ))
vec X 0 Nnp (vec M 0 , ).
Exemple: posons 1n = (1, 1, . . . , 1)0 Rn . Alors, si X1 , . . . , Xn
sont i.i.d. Np (, ), la matrice echantillon
!

X.10
..
X =
Nn,p 1n 0 , In
Xn0
puisque vec X 0 = (X10 , . . . , Xn0 )0 Nnp (1n , In ), o`
u
1n = vec (1n 0 )0 .

Le resultat suivant indique comment une matrice aleatoire de loi
normale se comporte sous lapplication de transformations
lineaires.
Proposition: soit X Nn,p (M, ) et soient A, B des matrices de
dimensions respectives (r n) et (p s). Alors
AXB Nr ,s (AMB, (A B 0 )(A B 0 )0 ).
Preuve: On a vu que vec (AXB)0 = (A B 0 )(vec X 0 )
Nrs ((A B 0 )(vec M 0 ), (A B 0 )(A B 0 )0 ).
Exemple: Si X designe la matrice echantillon dans la situation

ci-dessus, on a que X 0 = n1 10n XIp N1,p (0 , n1 ), ce qui signifie
bien que X = vec (X 0 )0 Np (, n1 ).
Plan du cours

Lemme de Fisher multivarie

Nous savons que linference statistique dans de nombreux modèles
(gaussiens) univaries est fondee sur le lemme de Fisher:
2
Proposition:
soient X1 , . . . , XP
n i.i.d. N1 (, ). Alors, en notant
n
1 Pn
1
2
X := n i=1 Xi et S := n1 i=1 (Xi X ) , on a

I
I
I
2
(i) X N1 (, n ),
(ii) (n 1)S 2 2n1 , et

(iii) X
S.
Notre but est ici detendre ce resultat au cas multivarie :

Proposition: soient X1 , . . . , Xn i.i.d. Np (, ). Alors
Np (, 1 ),
I (i) X
n
I
I
(ii) S ?, et
(iii) X
S.

S,
Nous savons dejà que X Np (, n1 ). Pour montrer que X
nous aurons besoin du lemme suivant.
Lemme: soient P, Q deux matrices de projection sur Rn (i.e., deux
matrices symetriques et idempotentes de dimension n n).
Supposons que PQ = 0. Si X Nn,p (0, Inp ), alors PX
QX .
Preuve: Tous les composants de X sont independantes. Alors
PXi
QXj si i 6= j (o`
u Xi est la i-ème colonne de X ). Dans le cas
i = j, on obtient que
Cov(PXi , QXi ) = E [PXi (QXi )0 ] = PE [Xi Xi0 ]Q = PQ = 0.

Proposition: soient X1 , . . . , Xn i.i.d. Np (, ). Alors X
S.
Preuve:
D
En ecrivant, Xi = AZi + (o`

u = AA0 et les Zi sont i.i.d. Np (0, Ip )),
on a X = AZ + et S = ASz A0 , de sorte quil suffit de montrer
que Z
Sz .
Pour ce faire, posons P = n1 1n 10n , Q = In P et
Z = (Z1 , . . . , Zn )0 . On verifie alors très facilement (exercice) que
I
Z Nn,p (0, Inp )

0
Z = PZ 1n .
Sz = (n 1)1 (QZ )0 (QZ ).
La proposition decoule donc du lemme precedent.
Il ne nous reste donc quà preciser/etablir le point (ii) du lemme de

Fisher multivarie:
Proposition (lemme de Fisher): soient X1 , . . . , Xn i.i.d. Np (, ).
Alors
Np (, 1 ).
I (i) X
n
I
I
(ii) S ?
(iii) X
S.
Que faut-il ecrire à la place de ?

Une extension multivariee de la loi 2n1 ...
Loi de Wishart
D
efinition: soit V une matrice aleatoire p p. Alors
I
V est de loi de Wishart à m degres de liberte (notation:

D P
0
V Wp (m)) V = m
u les Zi sont i.i.d.
i=1 Zi Zi , o`
Np (0, Ip ).
V est de loi de Wishart de paramètre (une matrice p p

symetrique et definie positive) à m degres de liberte (notation:
D P
0
u les Xi sont i.i.d.
V Wp (m, )) V = m
i=1 Xi Xi , o`
Np (0, ).
Loi de Wishart
Remarques:
I
V W1 (m) V 2m (et V W1 (m, 2 ) V / 2 2m );

la loi
de Wishart generalise donc bien la loi 2 dans le cas multivarie.
En ecrivant comme dhabitude Xi = AZi (o`

u = AA0 et les
Zi sont i.i.d. Np (0, Ip )), on voit que V Wp (m, )
V = AV0 A0 , o`
u V0 Wp (m).

Nous pouvons maintenant completer le lemme de Fisher multivarie:
Proposition (lemme de Fisher): soient X1 , . . . , Xn i.i.d. Np (, ).
Alors
Np (, 1 ).
I (i) X
n
I
I
(ii) (n 1)S Wp (n 1, ) .
(iii) X
S.
Preuve: il ne reste plus quà prouver (ii).

D
Pour ce faire, ecrivons une fois de plus Xi = AZi (o`

u = AA0 et
les Zi sont i.i.d. Np (0, Ip )). Alors
(n 1)S = A[(n 1)Sz ]A0 ,
de sorte quil suffit de montrer que (n 1)Sz Wp (n 1).

Posons comme plus haut Q = In n1 1n 10n . Q admet une
decomposition spectrale de la forme Q = OO 0 .
En posant Z = (Z1 , . . . , Zn )0 ( Nn,p (0, Inp )), on a
(n 1)Sz = (QZ )0 (QZ ) = Z 0 QZ = (O 0 Z )0 (O 0 Z ) = Y 0 Y
o`
u Y = (Y1 , . . . , Yn )0 = O 0 Z Nn,p (0, Inp ) (de sorte que les Yi
sont aussi i.i.d. Np (0, Ip )).
Nous determinons la decomposition spectrale Q:
1. Pour un matrice de projection les valeurs propres i sont
egales à 1 ou 0. [Q = Q 2 implique que = 2 ]
P
2. tr(Q) = ni=1 i . [tr(Q) = tr(OO 0 ) = tr(O 0 O)]
3. tr(Q) = n 1. [par la definition de Q]
Il decoule donc que 1 = . . . = n1 = 1 et n = 0.
Alors Q admet une decomposition spectrale de la forme

!
1 .
0
.
.
Q = OO , o`
u :=
1 0 .
Ceci fournit le resultat, puisque
0
(n 1)Sz = Y Y =
n1
X
i=1
Yi Yi0 Wp (n 1).
Plan du cours

TCL multivarie
Nous terminons ce chapitre en etendant au cas multivarie le
theorème central limite.
Proposition: soient X1 , X2 , . . . des p-v.a. i.i.d., avec des moments
P
finis dordre 2. Notons = E[X1 ], = Var[X1 ] et X (n) = n1 ni=1 Xi .
L
Alors, si n , n X (n) Np (0, ).

Preuve:
Fixons u Rp tel que kuk = 1, et posons Yi = u 0 Xi (i = 1, 2, . . .)
Clairement, les Yi sont i.i.d. et leur loi commune, qui admet des
moments finis dordre 2, a pour moyenne E[Y1 ] = u 0 et pour
variance Var[Y1 ] = u 0 u(> 0). Le TCL univarie livre donc que
n
h

i 1 X
L
0
(n)
u
u 0 Xi u 0 N1 (0, u 0 u).
n X = n
n
i=1
Le theorème de Cramer-Wold permet donc de conclure.
Appendix: conditional expectation
Motivation. If you consider a random variable X with E |X | <

(i.e. expectation exists), then one can consider EX to be the best
guess one can make for X if we have no additional information.
More precisely, if in addition EX 2 < , then
argmin E (X )2 = EX .
= EX minimizes the mean-squared loss.
Assume now that we have additional information about some other

random variable Y say.
In this case our best guess for X can be dependent on Y , i.e. it
should be some function f0 (Y ).
This suggest to define E [X |Y ] = f0 (Y ) if
f0 = argminf E (X f (Y ))2 ,
where the minimum is taken over all f for which E (f (Y ))2 < .
We then call E [X |Y ] the conditional expectation of X given Y .

How to compute E [X |Y ]? Is it unique?
We suppose that X has square moments, i.e.
Z
2
EX =
X 2 ()dP() < .
In other words, X L2 = L2 (, A, P). The space L2 is a Hilbert

space withp
inner product
hX , Y i = E [XY ]. Hence its norm is given
by kX k = hX , X i = EX 2 .
Now lets look at all random variables Z = f (Y ) L2 for some
measurable f . This is clearly a subspace of L2 . In fact it is the
space L2 (, A0 , P) where
A0 = (Y ) = {Y 1 (B), B a Borel set}.
This is again a Hilbert space, and by completeness of the HS it
follows that it is a closed subspace of L2 (, A, P).

Set S = L2 (, A0 , P).
Now the target is to find
argminZ S E X Z )2 = argminZ S kX Z k2 .
By the projection theorem there exists a unique element Z0 S
such that this is minimized.
Since Z0 S is follows that Z0 is of the form Z0 = f0 (X ).
Z0 is characterized by
hX Z0 , Z i = E (X Z0 )Z = 0 Z S.
In particular, if Z = IA for some A (Y ) we get
Z
Z
XdP =
Z0 dP.
A

A more general definition of the conditional expectation of X given
Y is as follows:
Def. The conditional expectation X given Y is the (almost surely)
unique random variable Z0 , which is
(i) (Y )-measurable
and satisfies
(ii)
Z
Z
XdP =
Z0 dP
A (Y ).
The factorization theorem implies that Z0 = f0 (Y ). We write

Z0 = E [X |Y ] and set E [X |Y = y ] = f0 (y ).
Remarks.
I
The conditional expectation E [X |Y ] is again a random

variable.
Hence it is a (measurable) function E [X |Y ]() = f0 (Y ()).
It can be also seen as a function in Y = y , because for all

for which Y () = y , we have E [X |Y ] = f0 (y ).
Some important properties:

1. E [X + Z |Y ] = E [X |Y ] + E [Z |Y ].
2. E [XZ |Y ] = XE [Z |Y ] if X is (Y )-measurable.
3. E [X |Y ] = E [X ] if X and Y are independent.
Chapitre 3
Plan du cours
5. Inference dans les modèles non gaussiens.

3.1. Sur le paramètre de position.
3.1.1. Estimateurs MLE.
3.1.2. Tests de Hotelling.
3.1.3. Zones de confiance.
3.1.4. Problèmes à plusieurs echantillons.
3.2. Sur le paramètre de dispersion.
3.3. Autres types de problèmes.
MLE
Le resultat suivant donne les estimateurs du maximum de
vraisemblance de et pour un echantillon gaussien p-varie.
Th
eor`
eme: soient X1 , . . . , Xn i.i.d. Np (, ). Alors les
estimateurs du maximum de vraisemblance de et de sont
respectivement
n
n
X
X
:= 1 W := 1
)(Xi X
)0 .
:= 1
Xi et
(Xi X
=X
n
n
n
i=1
i=1
Preuve: la vraisemblance de cet echantillon est donnee par

n
p
1

Y
1 2 1
(n)
0 1
L, =
exp (Xi ) (Xi ) ,
2 || 21
2
i=1
de sorte que la log-vraisemblance est
n
i
n
1 Xh
(n)
log L, = C log ||
(Xi )0 1 (Xi ) .
2
2
i=1
MLE
) + (X
), on obtient
En decomposant Xi en (Xi X
n h
i
X
(Xi )0 1 (Xi )
i=1
n h
X
i
)0 1 (Xi X
) + n(X
)0 1 (X
)
(Xi X
i=1
ce qui livre
(n)
log L, = C
n
log ||
2
i
1 Xh
)0 1 (X
).
)0 1 (Xi X
) n (X
(Xi X
2
2
i=1
Puisque (et donc 1 ) est definie-positive, on en deduit que,

pour toute valeur fixee de ,
(n)
)0 1 (X
) = X
.
arg max log L, = arg min (X
MLE
Il ne reste donc quà maximiser, en , la quantite
n
i
1 Xh
n
(n)
)0 1 (Xi X
) .
log LX , = C log ||
(Xi X
2
2
i=1
Pour ce faire, remarquons que

n
X

)0 1 (Xi X
)
(Xi X
i=1
n
X

)0 1 (Xi X
)
tr (Xi X
i=1
n
X

)(Xi X
)0
tr 1 (Xi X
i=1
= tr
n
X

)(Xi X
)0
(Xi X
i=1
= tr

W .
MLE
Donc
(n)

n
1
log |1 (W /n)| tr 1 W
2h
2

i
n
1
+
=C
log | (W /n)| tr 1 (W /n)
2
+
log LX , = C
qui ne depend pas de .

pour une certaine quantite C
Comme, en ecrivant W = W 1/2 (W 1/2 )0 , on a
h

i
= arg max log L(n) = arg max log |1 (W /n)|tr 1 (W /n)
,
X
h

i
1/2 0 1
= arg max log |(W ) W 1/2 /n| tr (W 1/2 )0 1 W 1/2 /n ,
est
le resultat suivant permet de conclure (puisquil montre que
1/2
0
1
1/2
tel que (W ) W /n = Ip , ce qui livre = W /n).
MLE
Lemme: soit S la collection des matrices (p p) symetriques et
definies positives. Alors
h
i
arg max log |T | tr T = Ip .
T S
Preuve du lemme: decomposons T en T = OO 0 , o`

u O est
orthogonale et est diagonale (notons i := ii > 0). Alors

log |T |tr T = log |OO 0 |tr OO 0 = log(|O||||O 0 |)tr O 0 O
= log || tr = log
p
Y
i=1
p
p h
X
i
X
i
i =
log i i .
i=1
i=1
Comme arg maxx>0 (log x x) = 1, on en deduit que le maximum

en T de log |T | tr T est atteint pour 1 = . . . = p = 1, cest-à-dire
en T = OIp O 0 = Ip .
MLE
Le resultat suivant donne les estimateurs du maximum de
vraisemblance de et pour un echantillon gaussien p-varie.
Th
eor`
eme: soient X1 , . . . , Xn i.i.d. Np (, ). Alors les
estimateurs
du maximum de vraisemblance de et de sont respectivement
n
n
X
X
:= 1 W := 1
)(Xi X
)0 .
:= 1
Xi et
(Xi X
=X
n
n
n
i=1
i=1
Remarques:
I
est seulement
est sans biais pour ; par contre,

= E[ n1 S] = n1 ).
asymptotiquement non biaise (E[]
n
n
Tout ceci est similaire à ce qui se passe dans le cas univarie

est convergent, normal,
(p = 1). En particulier,
=X
UMVU, affine-equivariant, etc.

Tests de Hotelling ( connu)

Soient X1 , . . . , Xn i.i.d. Np (, ).
Soit 0 un p-vecteur fixe. Considerons le problème de test

H0 : = 0
H1 : 6= 0 .
Comme pour p = 1, il est naturel de baser la règle de decision sur X
(et plus specifiquement sur la distance entre X et 0 ).

Np (0 , 1 ) sous H0 , on a que, sous H0 ,
Puisque X
n
0 )0 1 (X
0 ) = d 21 (X
, 0 ) 2p .
Tc2 (X ) = n(X
On rejete H0 pour de grandes valeurs de
Tc2 (X ).
Il en decoule quau niveau , un test convenable est le test qui

consiste à rejeter H0 ssi Tc2 (X ) > 2p;1 .
Tests de Hotelling asymptotique

Bien entendu, ceci requiert que soit connu.
= S...
Si est inconnu, il est naturel de remplacer par
2
0
1
; T (X ) = n(X 0 ) S (X 0 ) (notation usuelle: T 2 ).

En utilisant le lemme de Slutzky, on obtient que, sous H0 ,
L
0 )0 1 (X
0 ) + oP (1) 2p .
T 2 = n(X
Donc, un test asymptotique (au niveau asymptotique ) consiste à
rejeter H0 ssi T 2 > 2p;1 .
Remarque: il decoule du TCL multivarie que ce test ne requiert pas
que la loi commune des Xi soit normale, mais seulement que
celle-ci ait des moments finis dordre 2.
Test de Student
Pour p = 1, cette statistique est simplement

n
0 ) 2
n (X
1 X
2
2

)2 ,
u s :=
(Xi X
T =
, o`
s
n1
i=1
ce qui est le carre de la statistique de Student usuelle.

Si X1 , . . . , Xn sont i.i.d. N1 (0 , 2 ), le lemme de Fisher implique que

n(X 0 )
tn1 ,
s
de sorte que la loi exacte de T 2 sous H0 (pour p = 1) est F1,n1 .
Un test exact (au niveau ) consiste donc à rejeter H0 ssi
T 2 > F1,n1;1 (cest le test de Student usuel).
Remarque: ce test exact, contrairement au precedent, requiert
clairement la normalite des Xi .
Tests de Hotelling (loi exacte)

Une question naturelle est:
Pour p > 1, quelle est la loi exacte (sous H0 ) de la statistique de
test
0 )0 S 1 (X
0 ),
T 2 = n(X
si les Xi sont i.i.d. de loi normale p-variee ?
Le lemme suivant permet de repondre à cette question:

Lemme: soient Y Np (0, ) et V Wp (m, ). Alors, si m p
et Y
V,
m p + 1 0 1
Y V Y Fp,mp+1 .
p

Soient X1 , . . . , Xn i.i.d. Np (, ), o`
u n p + 1.
En utilisant le lemme de Fisher multivarie, il decoule de ce lemme
que, sous H0 : = 0 ,
np
T 2 Fp,np .
p(n 1)
Un test exact (au niveau ) consiste donc à rejeter H0 ssi
np
2
p(n1) T > Fp,np;1 .
Remarque: la version asymptotique de ce test est bien le test
asymptotique vu precedemment.
Ce test, qui est appele test de Hotelling, etend donc au cas
multivarie le test de Student usuel.
Tests de Hotelling
Preuve du lemme: comme dhabitude nous supposons que > 0.
Alors Y 0 V 1 V = (Y )0 (V )1 Y o`
u Y = 1/2 Y et
1/2
1/2
V =
V
. Donc on peut supposer que Y Np (0, Ip ) et
V Wp (m, Ip ) = Wp (m).
On peut montrer (cest un peu delicat), que
1
a0 V 1 a
2
0
aa
mp+1
a Rp , a 6= 0.
(Par contre, cest facile a montrer (exercise) que

a0 Va
2
p
a0 a m a R , a 6= 0.)
Nous ecrivons
Y 0 V 1 Y =
Y 0 V 1 Y
Y 0 Y = A(Y , V ) B(Y ).
Y 0Y
Tests de Hotelling
On note F la fonction de repartition de Y . Alors par independence
de V et Y
P(A(Y , V ) x B(Y ) y )
Z
=
P(A(h, V ) x B(h) y )dF (h)
p
ZR
=
P(A(h, V ) x)I {B(h) y }dF (h)
Rp
!Z
1
x
I {B(h) y }dF (h)
=P
2mp+1
Rp
!
1
=P
x P(B(Y ) y ) .
|
{z
}
2mp+1
P(2p y )
Tests de Hotelling
Il decoule des calculations precedentes, que

D
Y 0 V 1 Y =
2p
2mp+1
2p /p
p
2
mp+1 /(m p + 1) m p + 1
p
Fp,pm+1 .
mp+1
Tests de Hotelling
Soient X1 , . . . , Xn i.i.d. Np (, ).
Le test de Hotelling, pour

H0 : = 0
H1 : 6= 0 ,
consiste (au niveau ) à rejeter H0 ssi

np
(n p)n
0 ) > Fp,np;1 .
T2 =
(X 0 )0 S 1 (X
p(n 1)
p(n 1)
Quelles sont les proprietes de ce test?

; Th
eor`
eme: le test de Hotelling concide avec le test du rapport
de vraisemblance (gaussien) .
Test du rapport de vraisemblance

Preuve: pour rappel, pour le problème de test H0 : 0 contre
H1 : \0 , la statistique du test du rapport de vraisemblance est
(n) =
L
,
L
o`
u := arg max0 L et := arg max L sont respectivement
les estimateurs de maximum de vraisemblance contraint et non
contraint pour .
Et le test associe consiste à rejeter H0 : 0 (au niveau
asymptotique ) ssi
2 ln (n) > 2kk0 ;1 ,
o`
u k et k0 sont respectivement les nombres de paramètres libres
dans et 0 .

Ici, = (, ), = Rp Vp , o`
u Vp designe la collection des
matrices p p symetriques et definies positives. Et
0 = {0 } Vp . ; k = p + p(p + 1)/2 et k0 = p(p + 1)/2.
= (X
, W /n).
Comme on la vu, = (
, )
Clairement,
Que vaut = (
, )?
= 0 . Et en utilisant les
memes arguments que lors du calcul de lestimateur de maximum
de vraisemblance de , on montre que
:= W0 /n, o`
u W0 :=
n
X
(Xi 0 )(Xi 0 )0 .
i=1
Donc
(n) =
L ,W /n
L
= 0 0 .
L
LX ,W /n

Ceci livre
(n)
P
(2)np/2 |W0 /n|n/2 exp[ 12 ni=1 (Xi 0 )0 (W0 /n)1 (Xi 0 )]
=
.
P
)0 (W /n)1 (Xi X
)]
(2)np/2 |W /n|n/2 exp[ 12 ni=1 (Xi X
Comme
n
X
)0 (W /n)1 (Xi X
)
(Xi X
i=1
= tr[(W /n)1 W ] = tr[n Ip ] = np

et
n
X
(Xi 0 )0 (W0 /n)1 (Xi 0 )
i=1
= tr[(W0 /n)1 W0 ] = tr[n Ip ] = np,

on obtient que
(n) =
|W0 /n|n/2
|W /n|n/2
= |W0 W 1 |n/2
0 )(X
0 )0 )W 1 |n/2 ,
= |(W + n(X
0 )(X
0 )0 en decomposant
o`
u on a obtenu W0 = W + n(X
Xi 0 en (Xi X ) + (X 0 ).
Le lemme suivant est très utile:
Lemma
Suppose que C Rpp avec |C | > 0. Alors pour tous y Rp
|C + yy 0 | = |C |(1 + y 0 C 1 y ).
En utilisant le lemme, on vois que

0 )0 W 1 (X
0 )|n/2
(n) = |1 + n(X
0 )0 S 1 (X
0 ))n/2
= (1 + (n 1)1 n(X
= (1 + (n 1)1 T 2 )n/2 .
Les statistiques (n) et T 2 sont donc en bijection.
Par consequent, les tests associes sont equivalents.

Remarque:
comme nous lavons rappele, le test de rapport du vraisemblance
associe consiste à rejeter H0 : 0 (au niveau asymptotique )
ssi
2 ln (n) > 2kk0 ;1 ,
cest-à-dire, dans ce cas, ssi (pour n grand)
2 ln (n)

2 ln (1 + (n 1)1 T 2 )n/2
= n ln(1 + (n 1)1 T 2 )
T 2 > 2p;1 ,
ce qui nest rien dautre que la version asymptotique du test de
Hotelling.
Tests de Hotelling
Autres proprietes du test de Hotelling:
I
pour H0 : = 0, la statistique de test T 2 (et par suite, le test

lui-meme) est invariante par transformations lineaires , ce qui
signifie que T 2 (AX1 , . . . , AXn ) = T 2 (X1 , . . . , Xn ) pour toute
matrice A (p p) inversible (interpretation!)
Cette invariance explique le fait que la loi de T 2 sous H0 ne

depende pas de ...
Par contre, il ny a pas invariance par rapport au groupe des

translations (T 2 (X1 + b, . . . , Xn + b) = T 2 (X1 , . . . , Xn ) pour
tout p-vecteur b). Heureusement! (commenter).
Le test de Hotelling est UMPI (uniformly most poweful

invariant), cest-à-dire que, pour tout test de niveau et
invariant par transformations lineaires, la puissance du test de
Hotelling est superieure à celle de en tout (6= 0 ).

Zones de confiance
Les resultats distributionnels de la section precedente permettent
de construire des zones de confiance pour .
Definition (Zones de confiance)

(n)
On appelle un ensemble C1 = C1 (X1 , . . . , Xn ) Rp un zone

de confiance pour un parametre au niveau (1 ) 100%, si
(n)
P(C1 contient ) = 1 .
En effet, si X1 , . . . , Xn i.i.d. Np (, ), on a vue

p(n 1)
0 1
P n(X ) S (X )
Fp,np;1 = 1 .
np
Zones de confiance
Par consequent une zone de confiance (au niveau de confiance

(1 ) 100%) est donnee par lellipsode:

p(n 1)

(n)
Fp,np;1
C1 := Rp T 2 ()
np

p(n 1)
p 2
= R dS (X , )
Fp,np;1 .
n(n p)
Zones de confiance
De meme, le fait que
h
i
P T 2 () 2p;1 1 , si n ,
implique, quune zone de confiance (au niveau de confiance
asymptotique (1 ) 100%) est donnee par lellipsode
o
n

()
C1 := Rp T 2 () 2p;1
n
o

, ) 1 2p;1 .
= Rp dS2 (X
n
Remarque: tout comme le test de Hotelling asymptotique, cette
procedure ne requiert pas la normalite des Xi , mais seulement
lexistence de moments finis dordre 2.
Exemple
10
10
Ellipses de confiance exact (rouge) et asymptotique

(noir)
pour

4
5
3
X1 , . . . , X10 (X1 , . . . , X50 ) N2 (, ), o`
u
et =
.
3
3 2.25
X_2
X_2
10
X_1
10
X_1
Jai repete cette experience 10000 fois, et calcule la proportion des

experiments o`
u netait pas contenu dans les ellipse de confiance:
n = 10: 0.0511 (zone exact) et 0.1271 (zone asymptotique).
n = 50: 0.0486 (zone exact) et 0.06 (zone asympotique).
Zones de confiance
A ces zones de confiance elliptiques

(n)
, ) p(n 1) Fp,np;1 ,
C1 = Rp dS2 (X
(n p)n
il est souvent prefere en pratique des zones rectangulaires, qui
livrent des intervalles de confiance pour chacune des composantes
de = (1 , . . . , p )0 .
Bien entendu, il est facile de construire des intervalles de confiance
pour toute combili a0 des composantes de
(ici, a est un p-vecteur non nul fixe).
puisque a0 X1 , . . . , a0 Xn sont i.i.d. N1 (a0 , a0 a).
Zones de confiance
On obtient en effet directement que

1
2
(n)
0
C1 (a) := t R da0 Sa (a X , t) F1,n1;1 ,
n
constitue une zone (un intervalle) de confiance à (1 ) 100%
pour a0 .
Cet intervalle de confiance se reecrit simplement
r
a0 Sa
0
F1,n1;1 ,
aX
n
ou encore
r
0
aX
a0 Sa
t
.
n n1;1/2
Zones de confiance
Ainsi, un intervalle de confiance à (1 ) 100% pour i
(i = 1, . . . , p) est donne par
r
(S)ii
i,(n)
F1,n1;1 .
C1 = (X )i
n
Neanmoins, il faut insister sur le fait quil sagit là dintervalles de
confiance individuels, dans le sens o`
u, sil est vrai que, i = 1, . . . , p,

i,(n)
P i C1 1 , il est faux (pour p 2) que
h
i
i,(n)
P i = 1, . . . , p, i C1 1 .
1,(n)
p,(n)
Le zone rectangulaire C1 . . . C1 nest donc pas une zone

de confiance à (1 ) 100% pour .
Zones de confiance
Question naturelle:
Comment construire des intervalles de confiance simultanes ?
Nous aurons besoin du lemme suivant:
Lemme soit M une matrice p p symetrique et definie positive.
Alors, a, b Rp , (a0 b)2 (a0 Ma)(b 0 M 1 b).
Preuve: Notez que a0 Ma = kM 1/2 ak2 et que linequation de
Cauchy-Schwarz donne
(a0 b)2 = (a0 M 1/2 M 1/2 b)2
= hM 1/2 a, M 1/2 bi2
kM 1/2 ak2 kM 1/2 bk2 .
Zones de confiance
Consequence: pour tout a Rp , on a

))2 (a0 Sa)((X
)0 S 1 (X
)),
(a0 (X
ou encore
))2
1
(a0 (X
T 2 (),
0
a Sa
n
de sorte que

))2
(a0 (X
(n 1)p
P sup
Fp,np;1 1 .
a0 Sa
n(n p)
a
Zones de confiance
Des intervalles de confiance simultanes (pour tout a Rp ) pour
a0 à (1 ) 100% sont donc donnes par
s
(n 1)p 0
0
(a Sa) Fp,np;1 .
aX
n(n p)
Ceux-ci sont à comparer aux intervalles de confiance individuels
r
0
aX
qui ont ete obtenus plus haut.
a0 Sa
F1,n1;1 ,
n
Exemple
10
Intervalles de confiance simultanes (noir)

et individuels

(rouge!)
4
5
3
pour X1 , . . . , X10 i.i.d. N2 (, ), o`
u=
et =
.
3
3 2.25
X_2
4
X_1
10
Exemple
10
Intervalles de confiance simultanes (noir)

et individuels

(rouge!)
4
5
3
pour X1 , . . . , X50 i.i.d. N2 (, ), o`
u=
et =
.
3
3 2.25
6
2
X_2
4
X_1
10
Jai repete cette experience 10000 fois avec constellation n = 10 et

n = 50 et calcule la proportion des experiments o`
u netait pas
contenu dans les recangles de confiance: n = 10: 0.0511 (zone
individuel) et 0.1271 (zone simultane). n = 50: 0.0486 (zone
individuel) et 0.06 (zone simultane).

Problèmes à plusieurs echantillons

Soient deux echantillons independants:
X1 , . . . , Xn1 i.i.d. Np (1 , ) et Y1 , . . . , Yn2 i.i.d. Np (2 , ).
Nous considerons le problème de test

H0 : 1 = 2
H1 : 1 6= 2 .
Remarque: plus generalement, on pourrait traiter le cas o`
u les
matrices de variance-covariance des deux echantillons sont
differentes.
Dans ce cas, les tests gaussiens fondent la règle de decision sur
Y (et plus specifiquement sur la distance entre X
et Y ).
X
Tests de Hotelling
; la statistique du test de Hotelling pour deux echantillons est
T2 =

1
1 1 1
Y )0 S 1 (X
, Y ),
Y ) = 1 + 1
(X
dS2pool (X
+
pool
n1 n2
n1 n2
n1
n1
X
X
:= 1
)(Xi X
)0 ,
o`
uX
Xi , Wx :=
(Xi X
n1
i=1
1
Y :=
n2
et
n2
X
i=1
Yi , Wy :=
i=1
n2
X
(Yi Y )(Yi Y )0 ,
i=1
Spool :=
Wx + Wy
.
n1 + n2 2
Et il convient de rejeter H0 : 1 = 2 pour de grandes valeurs de

T 2.

Le resultat suivant precise la loi exacte (sous H0 ) de la statistique
de test de Hotelling:
Proposition: supposons que n1 + n2 p + 2. Alors sous H0 ,
n1 + n2 p 1 2
T Fp,n1 +n2 p1 .
p(n1 + n2 2)
Le test de Hotelling exact consiste donc (au niveau ) à rejeter
n1 +n2 p1 2
H0 : 1 = 2 ssi p(n
T > Fp,n1 +n2 p1;1 .
1 +n2 2)
Dans sa version asymptotique, ce test rejette H0 : 1 = 2 ssi
T 2 > 2p;1 . Dans ce cas, comme pour le problème à un
echantillon, la normalite nest pas requise (seules lexistence de
moments finis dordre 2 et legalite des matrices de
variance-covariance population le sont). Exercice: verifier ceci en
utilisant le TCL.
Tests de Hotelling
Preuve de la proposition: comme dans le cas à un echantillon, la
loi (sous H0 ) de la statistique T 2 decoule du lemme suivant:
Lemme: soient Y Np (0, ) et V Wp (m, ). Alors, si m p
Y 0 V 1 Y Fp,mp+1 .
et Y
V , mp+1
p
et Y sont independantes et de loi respective
En effet, sous H0 , X
1
Np (, n1 ) et Np (, n12 ) (o`
u est la valeur commune de 1 et 2 ).
1
1
Donc X Y Np (0, ( n1 + n2 )).

Dautre part, Wx Wp (n1 1, ) et Wy Wp (n2 1, ) sont
aussi independantes, de sorte que
(n1 + n2 2)Spool = Wx + Wy Wp (n1 + n2 2, ).
Le lemme fournit alors le resultat en prenant
Y ) et V := (n1 + n2 2)Spool .
Y := ( n11 + n12 )1/2 (X
Proprietes dinvariance
La statistique de test T 2 (et par suite, le test lui-meme) est ici

invariante par transformations lineaires et par translations :
pour toute matrice A (p p) inversible et pour tout p-vecteur b,
T 2 (AX1 + b, . . . , AXn1 + b, AY1 + b, . . . , AYn2 + b)
= T 2 (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ).
Cette invariance affine explique le fait que la loi de T 2 sous H0 ne
depende
I
ni de la valeur de ,
ni de la valeur commune de 1 = 2 .
Comme dans le cas à un echantillon, le test de Hotelling est

essentiellement celui du rapport de vraisemblance gaussien:
Th
eor`
eme: soit (n1 ,n2 ) la statistique du test du rapport de
vraisemblance. Alors

(n1 ,n2 ) = 1 +
Preuve: exercice.
(n1 +n2 )/2

T2
.
n1 + n2 2
Remarque
Pour ce problème, on a constamment suppose que les deux
echantillons (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) sont independants.
Si ce nest pas le cas, tout ce qui a ete fait plus haut seffondre...
Exemple classique:
Supposons que les deux echantillons soient paires : (X1 , . . . , Xn ) et
(Y1 , . . . , Yn ), o`
u Xi et Yi reprennent p mesures effectuees, avant
et après traitement respectivement, sur un meme individu.
Dans ce cas, si on veut tester H0 : 1 = 2 , il convient deffectuer
un test à un echantillon de H0 : = 0 sur la serie des differences
(Y1 X1 , . . . , Yn Xn ).

Test dadequation sur

Tous les tests suivants sont des test de rapport de vraisemblance.
Je laisse les preuves pour les TP.
Soient X1 , . . . , Xn i.i.d. Np (, ). Considerons le problème de test

H0 : = 0
H1 : 6= 0 ,
o`
u 0 une matrice p p symetrique et definie positive fixee.
Dans ce cas, le test de rapport de vraisemblance rejette H0 (au
niveau asymptotique ) si
2 ln (n) > 2p(p+1)/2;1 ,
o`
u
i
h
.
n/2 exp n tr (1 )
(n) = e np/2 |1
|
0
0
2
Problème à deux echantillons

Soient deux echantillons independants:
X1 , . . . , Xn1 i.i.d. Np (1 , 1 ) et Y1 , . . . , Yn2 i.i.d. Np (2 , 2 ).
Pour le problème de test

H0 : 1 = 2
H1 : 1 6= 2
le test de rapport de vraisemblance rejette H0 (au niveau

asymptotique ) si
2 ln (n1 ,n2 ) > 2p(p+1)/2;1 ,
o`
u
(n1 ,n2 ) =
|Wx /n1 |n1 /2 |Wy /n2 |n2 /2

.
|(Wx + Wy )/(n1 + n2 )|(n1 +n2 )/2
Test de sphericite
Soient X1 , . . . , Xn i.i.d. Np (, ).
Considerons le problème de test

H0 : > 0 tel que = Ip
H1 : > 0, 6= Ip ,
qui consiste à tester la sphericite des contours dequidensite
sous-jacents.
Dans ce cas, le test de rapport de vraisemblance rejette H0 (au
niveau asymptotique ) si

|S|1/p np/2
(n)
2
(n)
, o`
u = 1
.
2 ln > p(p+1)
1;1
2
p (tr S)
Test de sphericite
Remarque: en ecrivant
0
S = OO , o`
u :=
1
2
!
..
et o`
u O est orthogonale, on obtient que

(n)
2/(np)
Q 1/p
i i
= 1P
,
i i
p
qui nest autre que le quotient de la moyenne geometrique des

valeurs propres de S par leur moyenne arithmetique (intuition).

Test dindependance
Soient Z1 = (X10 , Y10 )0 , . . . , Zn = (Xn0 , Yn0 )0 i.i.d. Np1 +p2 (, ), o`

u

11 12
= 12
et =
22 .
21

H0 : 12 = 0
H1 : 12 6= 0
qui ( dans cette situation gaussienne ) consiste à tester
lindependance entre X1 et Y1 .
Test dindependance
Le test de rapport de vraisemblance rejette ici H0 (au niveau
asymptotique ) si
2 ln (n) > 2p1 p2 ;1 ,
o`
u
(n)

=
|Sz |
|Sx ||Sy |
n/2
,
avec

n
0
1 X Xi X
Xi X
Sx
Sz :=
=:
Syx
Yi Y
Yi Y
n1
i=1
Sxy
Sy

.
MATHF309 Analyse Multivari

ee. TP 1.
Ex 1. Les marginales dun vecteur aleatoire sont elles-memes des variables aleatoires.
Ex 2. Soit X un p-v.a. et soit P X la distribution de X. Montrez que P X est
uniquement determinee par sa fonction de repartition F X .
Ex 3. Montrez lequivalence des trois conditions suivantes: (i) EkXkr < , (ii)
E|Xi |r < pour i {1, . . . , p}, (iii) E|v 0 X|r < v Rp .
Ex 4. Soit la matrice de variance-covariance de X = (X1 , . . . , Xp )0 . Montrez
que est singulière si et seulement si a Rp \ {0}, tel que Var(a0 X) = 0.
Donc en cas de || = 0, a0 X est constant.
Ex 5. Montrez que Var(X) = EXX 0 0 .
Ex 6. Soit X un p-v.a. et Y un q-v.a. verifier que pour A Rrp et B Rsq
Cov(AX, BY ) = ACov(X, Y )B 0 .
En particulier, Var(AX) = AVar(X)A0 .
Ex 7. Soit Rpp semi-definie positive et symetrique. Montrez que est une
matrice de variance-covariance.
et S sont des estimateurs affine-equivariants de et ,
Ex 8. Montrer que X
respectivement.
Ex 9. Soit X = (X1 , X2 )0 un 2-v.a. tel que (a) X1 , X2 N (0, 1) independantes et
(b) X Unif(B 2 ) cest-`
a-dire que X est à densite :
f X (x) =
1
1xB2 ,
m2 (B 2 )
o`
u m2 la mesure de Lebesgue et B 2 est la boule unite fermee de R2 .
Soient Y = (R, ) les coordonnees polaires de X. Dans chacun des cas,
determinez les densites des variables R est , sont-elles independantes?

ee. TP 2.
Ex 1. Montrer que la fonction caracteristique X dun p-v.a. X est uniformement
continue.
d
Ex 2. Montrez que X (t) R t Rp , sii X = X.

Ex 3. Soient X1 , X2 , . . . , Xn des p-v.a. iid tels que EkX1 k2 < . Montrer que
lestimateur de la matrice de covariance
n
X
= 1
(Xi X)(Xi X)0 ,

n j=1
p.s.

est consistant, i.e.
.
Ex 4. Soit X = (X1 , . . . Xp )0 un p-v.a. tel que les Xi sont i.i.d. N (0, 1). Determiner
la densite de Y = AX + b, o`
u A GL(Rp ) et b Rp .
Ex 5. Soient X1 , X2 , . . . , Xn des p-v.a. iid tels que EkX1 k2 < . Montrer quil
existe une variable aleatoire Z telle que
n(kXk kk) Z.
Determiner la distribution de Z en utilisant la methode , et trouver le vecteur

Rp qui minimise Var(Z).
Ex 6 Soient X, Y des p-v.a. dont les composantes Xi , Yi sont toutes iid de variances
d
X0Y
finies et symetriques (i.e. X = X). Calculer E[] et Var(), o`
u = kXkkY
k.
Ex 7. Soit X = (X1 , . . . Xp )0 un p-v.a. tel que les Xi sont iid N (i , 2 ). Montrer
que
2

p2
,
X
EkX k2 > E

2
kXk
pour tout Rp , p 3 et 2 > 1/2.
Indication : montrer que

Xi (Xi i )
kXk2 2Xi
2
E
= E
.
kXk2
kXk4
Paradoxe de Stein
La moyenne empirique X dun echantillon de n vecteurs Gaussiens standards
p-varies est elle meme la realisation unique dun p-v.a. comme ci-dessus, avec
2 = n1 . Il en resulte que lestimateur de

p2
S = 1
X,
kXk2
est meilleur que lestimateur naf
= X, au sens o`
u R(
, ) > R(
S , ) pour
tout Rp , lorsque p 3 et n 3.

ee 2014
1. Soit X = (X1 , X2 )0 un 2-v.a. avec fonction de densite
2

1
x1 + x22 2x1 x2
X
f (x1 , x2 ) =
exp
.
2(1 2 )
2(1 2 )
X suit quelle loi ?

Quelle est la loi de AX + b, o`
uA=
1
3

2
et b = (4, 5)0 ?
4
Si = 1, X na plus de densite. Trouver une representation de X de

la forme X = AZ + o
u Z suit une loi normale centre reduite.
Dans ce dernier cas ( = 1), trouvez la probabilite que X1 + 2X2 > 3.
Quelle est la fonction caracteristique de X ?
Quelle est la loi de X1 ?
Quelle est la loi de X1 + 3X2 ?
Soit = 1/2. Est-ce que x = (2, 1) est dans une zone de tolerance à
95% ?
2. Soit Rpp une matrice symetrique et definie positive. Montrer que d :
Rp Rp [0, ) avec d2 (x, y) = (x y)0 1 (x y) est une distance sur Rp .
3. Montrez que les courbes de niveau de la loi normale p-variee Np (, ), > 0,
sont des ellipsodes avec les axes e1 , . . . , ep , o`
u les ei sont les vecteurs propres
de .
4. The production of tires requires a very precise composition of synthetic rubbers to guarantee optimal traction between the vehicle and the road. Three
different sorts of synthetic rubber are mixed and, if all processes run normally,
the machine made composition is following a 3 variate normal vector X with
3 1 2
1
1 4 1 .
EX = (4.1, 3.22, 6.81)0 and Var(X) =
1000
2 1 4
Once in 2 weeks a quality control is performed. In a sample of 10 observations
the following measurements were taken.
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,7]
[,8]
[,9]
[,10]
[1,] 4.210619 4.187051 4.179901 4.190450 3.990219 4.008184 4.015704 4.296161 4.287021 4.289658
[2,] 3.313502 3.315440 3.328547 3.118566 3.105510 3.115786 3.120105 3.422434 3.415658 3.419418
[3,] 6.913022 6.922251 6.921745 6.719244 6.691387 6.702546 7.012949 7.010364 6.997263 7.000275
What is your conclusion?

5. Etudiez les operations vec(A) et AB pour des matrices A et B (voir syllabus,
chapitre 2) et montrez (a) vec(ABC) = (C 0 A)(vec(B)) et (b) tr(A B) =
tr(A)tr(B).

ee 2015
1. Soit X = (X1 , X2 )0 un 2-v.a. avec fonction de densite
2

x1 + x22 2x1 x2
1
X
p
exp
f (x1 , x2 ) =
.
2(1 2 )
2 1 2
Quelle est la loi de X1 |X2 = x2 ?
Soit Y un 2-v.a. independant de X avec la meme loi que X. Quelle est
la loi de (X 0 , Y 0 )0 ?
Quelle est la loi de X + Y ?
Montrer que X + Y et X Y sont independants.
Lorsque = 1/2, trouver un rectangle de tolerance à 95%.
2. Soient X1 , X2 , X3 iid et de loi Np (, ). Soient Y1 = X1 +X2 , Y2 = X1 +X3 et
Y3 = X2 +X3 . Determinez la loi de Y1 |Y2 = y2 et la loi de Y1 |Y2 = y2 , Y3 = y3 .
3. Si M Wp (m, ) et A est un p-v.a. tel que P (A0 A 6= 0) = 1 qui est
independant de M , alors
A0 M A/(A0 A) 2m ,
et cette variable aleatoire est independante de A.
SX .
4. Soient X1 , . . . , Xn des v.a. iid Np (, ). Montrer que X
Indication : montrer quon peut se ramener au cas o`
u les Xi sont iid Np (0, Ip ).
5. Soit A une matrice aleatoire symetrique et telle que pour tout c Rp on ait
c0 Ac > 0 p.s. Montrer que cela nimplique pas que A soit p.s definie positive.
6. Soit X = (X1 , X2 )0 N2 (0, ). Montrer que
E[X1 |X2 ] = P (X1 ),
o`
u P est la projection orthogonale sur sp(X2 ) = {X2 : R} L2 (, A, P).
Est-ce le cas pour tout vecteur aleatoire de R2 ?

ee 2015
1. Find the maximum likelihood estimates of the 2 1 mean vector and the
2 2 covariance matrix based on the random sample

3 4 5 4
X0 =
6 4 7 7
from a bivariate normal population.
2. Let X1 , . . . , Xn be a random sample from a multivariate normal distribution
and S are sufficient statistics.
with mean and variance . Then X
3. Let X1 , . . . , Xn be a random sample from a multivariate normal distribution
with variance and mean = 1p , where 1p = (1, . . . , 1)0 Rp . Derive the
MLE for when (i) is known and (ii) is unknown.
4. Suppose X = {X1 , . . . , Xn } is a p-variate random sample (not necessarily
normally distributed). We assume finite second moments. We wish to test
H0 : EX1 = 0p against H1 : 6= 0p . (Here 0p = (0, . . . , 0)0 Rp .) We use the
test statistics
0 S 1 X,
T 2 (X) = nX
and reject if T 2 (X) > 2p,1 . Show that the test is asymptotically unbiased.
I.e., when n , we reject H0 with probability when H0 is correct.
5. Our results in the lectures often rely on the assumption that we have a random
sample from a multivariate normal distribution. In practice, we first have to
(approximately) verify this assumption from the data. A very good empirical
method offer so-called q-q-plots. If p = 1 (univariate case), the idea is to
plot the hypothesized normal quantiles against the corresponding empirical
quantiles of the observations. The algorithm is as follows:
(a) Estimate and 2 from the sample X = {X1 , . . . , Xn }.
(b) Order the sample: X(1) , . . . , X(n) .
(c) Let 0 < 1 < 2 < < k < 1 be a partition of [0, 1].
(d) Plot the k empirical quantiles
Xb1 nc , Xb2 nc , . . . , Xbk nc
(here bxc is the floor function) against
+
q1 ,
+
q2 , ,
+
qk ,
where q be the -quantile of a standard normal random variable.
If the data X are normally distributed, we expect that the plot is more or less
diagonal. (See the figure on the next page.)
Can you propose a similar procedure for a multivariate normal sample?
6. The following data give the age x1 , measured in years, as well as the selling
price x2 , measured in thousands of dollars, for n = 10 used cars.

3
5 5 7
7 7
8
9
10 11
X0 =
2.3 1.9 1 0.7 0.3 1 1.05 0.45 0.7 0.3
Do you think these data are approximately bivariate normal?
Normal QQ Plot
student.t4
1
0
Sample Quantiles
Theoretical Quantiles
normal
Figure 1: Q-Q-plot from a standard normal sample (left) and a t sample with 4
degrees of freedom (right).
Analyse multivari
ee
TP6 : Inference dans les modèles gaussiens multivaries
Exercice 1
Soient X1 , . . . , Xn1 i.i.d. de loi commune Np (1 , 1 ) et Y1 , . . . , Yn2 i.i.d. de loi

commune Np (2 , 2 ). Considerons le problème de test

H0 : 1 = 2
H1 : 1 6= 2 .
1. Ecrire la vraisemblance et rappeler lestimateur du maximum de vraisemblance pour (1 , 1 ) et (2 , 2 ).
2. Determiner lestimateur du maximum de vraisemblance pour (1 , 1 ) et
(2 , 2 ) sous la contrainte associee a` H0 .
3. En deduire que le test de rapport de vraisemblance rejette H0 (au niveau
asymptotique ) si
|Wx /n1 |n1 /2 |Wy /n2 |n2 /2
,
|(Wx + Wy )/(n1 + n2 )|(n1 +n2 )/2
Pn1
0 et Wy = Pn2 (Yi Y )(Yi Y )0 , avec

o`
u Wx =
(X
X)(X
X)
i
i
i=1
i=1
= 1 Pn1 Xi et Y = 1 Pn2 Yi .
X
i=1
i=1
n1
n2
2 log (n) > 2p(p+1)/2;1 , o`
u (n) =
Exercice 2
Soient Z1 = (X10 , Y10 )0 , . . . , Zn = (Xn0 , Yn0 )0 i.i.d. de loi commune Np1 +p2 (, ), o`
u

1
11 12
=
et =
.
2
21 22

H0 : 12 = 0
H1 : 12 6= 0,
qui consiste a` tester lindependance entre X1 et Y1 . Posons

n
0
1 X Xi X
Xi X
Sx Sxy
Sz :=
=:
.
Yi Y
Yi Y
Syx Sy
n 1 i=1
1
1. Determiner lestimateur du maximum de vraisemblance pour (, ).

2. Determiner lestimateur du maximum de vraisemblance pour (, ) sous la
contrainte associee a` H0 .
3. En deduire que le test de rapport de vraisemblance rejette H0 (au niveau
asymptotique ) si
n/2

|Sz |
(n)
2
(n)
.
2 log > p1 p2 ;1 , o`
u =
|Sx ||Sy |
Exercice 3
Soient X1 , . . . , Xn des p-vecteurs aleatoires i.i.d. de loi commune Np (, ), o`

u
est symetrique et definie positive. On considère le problème de test

H0 : > 0 tel que = 0
H1 :
> 0, 6= 0 ,
o`
u 0 est une matrice symetrique et definie positive fixee.
1. Ecrire la fonction de vraisemblance associee a` ce modèle.
2. Donner les estimateurs du maximum de vraisemblance non contraint pour
(, ).
3. Determiner les estimateurs du maximum de vraisemblance sous H0 pour (, ).
4. Calculer la statistique du test de rapport de vraisemblance (n) pour le problème
de test considere.
5. Donner la loi asymptotique de 2 log (n) sous H0 ; enoncer la règle de decision
du test de rapport de vraisemblance.
1/2
1/2
6. Ecrire la statistique de test (n) en fonction des valeurs propres de 0 S0 ,
o`
u S represente la matrice de variance-covariance empirique de lechantillon et
1/2
o`
u 0
designe la racine carree symetrique de 1
0 . Sur base de ces valeurs
propres, expliquer intuitivement pourquoi ce test permet de discerner entre
H0 et H1 .
Exercice 4
Supposons que X1 , . . . , Xn sont des p-vecteurs aleatoires i.i.d. de loi Np (, ), o`

u
est une matrice symetrique et definie positive. Soit C une matrice de dimension
(p1)p de rang maximal, et telle que C1p = 0p1 (avec 1p := (1, 1, . . . , 1)0 Rp
et 0p1 := (0, 0, . . . , 0)0 Rp1 ).
2
1. Prouver que Ker(C) = {1p , R}.

2. En deduire que H0 : C = 0 H0 : 1 = 2 = = p .
3. Prouver que
C = A
1 0 . . . 0 1
0 1
0 1
..
..
...
.
.
0
1 1
pour une certaine matrice A inversible de dimension (p 1) (p 1).

4. En deduire que la valeur de
0 (CSC 0 )1 (C X),
T 2 = n(C X)
0
:= n1 Pn Xi et S = (n 1)1 Pn (Xi X)(X
epend
o`
uX
i X) , ne d
i=1
i=1
pas de C.
5. Determiner la distribution exacte, puis asymptotique, de T 2 sous H0 , en
justifiant tous les calculs.
6. En deduire (en expliquant intuitivement votre règle de decision) un test
exact, puis asymptotique, de H0 contre H1 : i, j tel que i =
6 j .
Exercice 5
Soient X1 , . . . , Xn i.i.d. de loi commune Np (, 2 Ip ), o`

u 2 est connu.
1. Determiner lestimateur du maximum de vraisemblance pour .
2. Determiner lestimateur du maximum de vraisemblance pour sous la
contrainte kk2 = 1.
3. En deduire la statistique (n) du test de rapport de vraisemblance pour
H0 : kk2 = 1 contre H1 : kk2 6= 1 et enoncer la règle de decision (en
utilisant la theorie generale des tests de rapport de vraisemblance).
1)2 / 2 , o`
:= 1 Pn Xi .
4. Montrer que 2 log (n) = n(kXk
uX
n
i=1
5. Utiliser la methode delta pour retrouver le fait que 2 log (n) 21 .
MATHF309 Analyse Multivarie 2015
Exercice 1
Soit 1 q p. Montrer que
2
2

q
q
n
n
X
X
X

1
1 X
0
0

Xk X

Xk X
bj (Xk X)
ej (Xk X)
.

n
n

j=1
j=1
k=1
k=1
Pour toute base orthonorme (bj )pj=1 de Rp et o (
ej )pj=1 sont les vecteurs
propres de S.
Exercice 2
Soit X = (X1 , X2 )0 , o X1 Ber(p) (0 < p < 1) et X2 = 1 X1 .
Calculer = Var(X)
Dterminer les composantes principales et interprtez.
Exercice 3
Dterminer les composantes principales du vecteur alatoire X = (X1 , X2 , X3 )0 ,
sachant que EX = 0 et que
1 0
= 2 1
0 1
Calculer la proportion de variance explique par chaque composante.
Exercice 4
Chargez les donnes "pollution.txt". Il sagit dune matrice n p contenant une certaine mesure de la pollution de lair au cours du temps, toute les
demi-heures (donc p = 48 mesures par jours), pendant n = 182 jours. Faire
lACP et interprter en utilisant la fonftion prcomp. Mme travail avec les donnes "NationalTrackRecord.txt".
Exercice 5
Chargez les donnes "data.txt" et "missing.txt". Imaginez une mthode
destimation de et lorsquil manque certaines donnes.
Exercice 6
Chargez les donnes "salmondata.txt". On suppose quil sagit dun chantillons Gaussien bivari. Comparer les diffrentes zones de confiances (exactes)
95% : ellipsodales, rectangulaires, individuelles.
1

Ex 1. (a) Notre but ici consiste montrer que, si X est un p-vecteur alatoire dont
la matrice de variance-covariance peut scrire comme = 0 +, alors
il existe des facteurs F et un bruit U tels que le modle k-facteur tient
pour X. Pour ce faire, nous allons considrer Y Nk (0, Ik + 0 1 )
indpendant de X et dfinir

U
Ip
=
F
0 1
Ik
1

X
.
Y
Montrez qualors le modle k-facteur tient pour X.

(b) Si X suit une loi multinormale, montrez qualors (F, U ) peut tre suppos
galement de loi multinormale.
(c) En dduire que F et U ne sont pas uniquement dtermins par X.
et
de et sont chelle-invariants. En dautres
Ex 2. Montrez que les MLE
mots, si `(, |X1 , . . . , Xn ) est la fonction de vraisemblance, maximise par
et ,
alors `(, |CX1 , . . . , CXn ) est maximise par = C
et = C C,
o C est une matrice p p diagonale.

Ex 3. Supposons que X1 , . . . , Xn est un chantillon issu dune population multinormale. Obtenez le test de rapport de vraisemblance pour H0 : est de la
forme = 0 + avec Rpk contre H1 : est une quelconque autre
matrice symtrique dfinie positive.
Ex 4. Soit = (M 0 BM +Ip )0 avec B = diag(b1 , b2 , ..., bk ), 0 = Ip et M M 0 =
Ik . Dmontrez que
(a)
( )1 = (Ip M 0 B(B + Ik )1 M )0 ,
(b)
| | =
k
Y
(1 + bi ).
i=1
Ex 5. Soient b1 ... bk 0, 1 ... p 0. Alors

(a)
arg max{M Rkp ,M M 0 =I}
p
k X
X
bi j
m2ij = (Ik |0)0 ,
1
+
b
i
i=1 j=1
(b)
arg min{bi 0}
k
X
log(1 + bi ) +
i=1
avec ci = max{i 1, 0}.
bi j
1 + bi

= (c1 , c2 , ..., ck ),

Ex 1. Considrons le cas o i = Np (i , ), i = 1, 2. Dans cet exercice, nous ne
tenons pas compte dventuelles probabilits a priori p1 , p2 , ni de cots de
misclassification c1|2 , c2|1 .
1. Montrer que la procdure optimale classifie alors x en 1 si
h + i
1
2
, o a := 1 (1 2 ),
a0 x a0
2
et en 2 sinon.
2. Montrer que lhyperplan sparateur des deux zones de classification R1
et R2 est orthogonal := 1 2 ssi est lun des vecteurs propres de
.
3. Dans la situation o p = 2, prenons 2 = (0, 0)0 , 1 = (r, s)0 , r > 0, et
2

1 0
=
.
0 22
Etudier la direction de a dans les cas (a) s = 0 (et donc r 6= 0), (b) s 6= 0
et 22 >> |s|, puis (c) s 6= 0 et 22 << |s|.
4. Montrer que cette rgle de classification est quivalente la rgle optimale
qui classifie x en 1 ssi d2 (x, 2 ) d2 (x, 1 ).
5. Quest-ce qui change si nous tenons quand mme compte des probabilits
a priori p1 , p2 et des cots de misclassification c1|2 , c2|1 ?
Ex 2. Considrons nouveau le cas o i = Np (i , ), i = 1, 2. Au cours thorique,
nous avons expliqu quil tait raisonnable dadopter une rgle de classification
fonde sur la projection sur la droite vectorielle engendre par a := 1 (1
2 ). Ceci mne aux procdures Pc , c R, o Pc consiste classifier x en 1
si
a0 x c,
et en 2 sinon.
1. Calculer (en fonction de c) les probabilits de misclassification e1 que X
provenant de 1 soit classifi en 2 et e2 que X provenant de 2 soit
classifi en 1 . Discuter ce quil se passe quand c .
2. Il est naturel de choisir c de telle manire que les deux types derreurs
squilibrent (e1 = e2 ). Dterminer le c correspondant et comparer la
rgle qui en rsulte avec la rgle optimale de lexercice 1. Calculer la
valeur commune e1 = e2 (=: e).
Ex 3. Considrons le cas o i = Np (i , i ), i = 1, 2. Montrer que la procdure
de classification optimale (tenant compte de probabilits a priori p1 , p2 , ainsi
que de cots de misclassification c1|2 , c2|1 ) classifie x en 1 si
hc p i
1
k
1|2 2
1
0 1
0 1
x0 (1
+ ln
1 2 )x + (1 1 2 2 )x
2
2
c2|1 p1
et en 2 sinon, o

|1 |
0 1
k := ln
+ (01 1
1 1 2 2 2 ).
|2 |
Ex 4. Considrons le cas o i = Np (i , ), i = 1, 2, . . . , m. De nouveau, nous
ne tenons pas compte dventuelles probabilits a priori ni de cots de misclassification. Montrer que la procdure optimale classifie alors x en i si
di (x) = maxj {dj (x)}, o
1
dj (x) := 0j 1 x 0j 1 j .
2

Ex 1. Considrons le modle linaire Y = X + , o Nn (0, ) avec > 0
connu. Dterminez le MLE pour de deux manires.
Ex 2. Supposons quon ait une famille paramtrique de densits f . Une statistique T est dite exhaustive pour si les densits peuvent tre dcomposes

en f (x) = g (T (x))h(x). Montrez que (,
2 ) est exhaustif pour (, 2 )
lorsque nous considrons la famille de densits f,2 (y) donne par le modle
Y X + o Nn (0, 2 In ).
Ex 3. Supposons que L2 L1 sont des sous-espaces linaires de Rn . Montrez
qualors
(i) L1 L2
est un sous-espace linaire;
(ii) L1 L2 L2 ;
(iii)
(L1 L2 ) L2 = L1
(= L L = Rn );
(iv) pL (v) = v pL (v).

Ex 4. Supposons avoir un modle linaire Y Nn (, 2 In ), avec L. Montrez
qualors
et R (rsidus) sont indpendants.

Multi Va

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Multi Va

Transféré par

Droits d'auteur :

Formats disponibles

Analyse Multivariee

Toutes les informations relatives `a ce cours (horaires, references,

= (X1 (), . . . , Xp ())0

Terminologie: les composantes Xi dun v.a. X = (X1 , . . . , Xp )0

Le p-v.a. X induit donc une correspondance entre les espaces de

La fonction de repartition de X est definie par

On distingue essentiellement deux grands types de distributions P X :

les distributions absolument continues (par rapport `a la

les distributions singuli`eres.

Le theor`eme de Radon-Nikodym assure que, pour une telle

Propriete dune pdf: f (x) 0 x Rp et

Une telle distribution est completement determinee par la donnee

La distribution uniforme sur la sph`ere unite S p1 Rp , qui

Remarque: si C Rp avec mp (C ) > 0, nous dirons que X est de

Comment engendrer une loi Unif(B p )?

engendrant des variables V1 , . . . , Vp i.i.d. de loi uniforme sur

en prenant X = (V1 , . . . , Vp )0 pour peu que ce vecteur soit

Cette strategie nest pas tr`es efficace pour p grand, puisque

pour peu que la valeur commune de ces integrales soit finie.

En pratique, on calculera ces esperances par

dans le cas absolument continu et le cas discret, respectivement.

Remarque: on suivra la meme r`egle si g est `a valeurs dans un

Proposition: (i) E[kX kr ] < (ii) E[|Xi |r ] < pour tout

Dans cette optique, le resultat suivant permet dordonner les

(ij ) = E[(Xi i )(Xj j )] = Cov[Xi , Xj ] et

est symetrique et semi-definie positive (pour tout v Rp ,

= E[XX 0 ] E[X 0 ] E[X ]0 + 0 = E[XX 0 ] 0 , qui

(Cov[X , Y ])ij = Cov[Xi , Yj ].

Comme pour , on verifie facilement que Cov[X , Y ] est bien

Cov[1 X1 + 2 X2 , Y ] = 1 Cov[X1 , Y ] + 2 Cov[X2 , Y ] et

Soient X un p-v.a. et Y un q-v.a.

Extension `a plus de deux v.a.:

Proposition: si les Xi ont des moments finis dordre 2,

, cet estimateur est sans biais:

Var[AX + b] = AVar[X ]A0 .

Ce quon attend avant tout dun estimateur n de est quil soit

Il nous faut dabord donner un sens precis `a cette convergence...

Modes de convergence, resultats limites

Pour rappel, dans le cas univarie (p = 1), on peut definir de

Xn X (en probabilite) Pour tout > 0, P[|Xn X | > ] 0.

Xn X (en norme Lr , r > 0) E[|Xn X |r ] 0.

Xn X en loi F Xn (x) F X (x) pour tout x R en lequel F X

Modes de convergence, resultats limites

Ces concepts setendent aisement au cas multivarie:

Xn X (en probabilite) Pour tout > 0,

Xn X (en norme Lr , r > 0) E[kXn X kr ] 0.

Xn X en loi F Xn (x) F X (x) pour tout x Rp en lequel

Modes de convergence, resultats limites

Xn X il existe une sous-suite (Xnk ) telle que Xnk X .

Xn X et limK supn1 E |Xn |I {|Xn | K } = 0

Modes de convergence, resultats limites

(ii) (Xn )i Xi i = 1, . . . , p (Xn ) X .

Modes de convergence, resultats limites

finis dordre 1. Notons = E[X1 ] et X := n i=1 Xi . Alors

(ii) (X ) (loi faible).

La moyenne empirique est donc un estimateur fortement

On montre de la meme mani`ere que, si X1 , P

Modes de convergence, resultats limites

Plus precisement, il ne suffit pas detablir que Xn X et que

Par contre, on a le fameux lemme de Slutzky :

Lemme: Si Xn X et Yn a (a constant), alors

Modes de convergence, resultats limites

Proposition: (i) Xn X et Xn Y X = Y (cest-`a-dire

g : Rp+s Rq est continue, alors g (Xn , Yn ) g (X , a).