Académique Documents
Professionnel Documents
Culture Documents
Chapitre 2
Vecteurs aléatoires gaussiens
1 Vecteurs aléatoires
Certaines notions que l’on a définies dans le chapitre précédent que pour
les variables aléatoires réelles se transposent pour les variables aléatoires vecto-
rielles.
On dispose dans Rd du produit scalaire usuel :
hx | yi = x1 y1 + · · · + xd yd
si x = (x1 , . . . , xd ) et y = (y1 , . . . , yd ) ∈ Rd .
ΦX (u) = E eihu|Xi , ∀u ∈ Rd ,
où hu | Xi (ω) = hu | X(ω)i, ∀ω ∈ Ω. Autrement dit, si X = (X1 , . . . , Xd ) et
u = (u1 , . . . , ud ) :
ΦX (u) = E ei(u1 X1 +···+ud Xd )
Xd
et alors :
t
X = (X1 · · · Xd )
est une matrice-ligne (noter l’absence maintenant des virgules).
1
u1
Si u = ... , le produit scalaire s’écrira, en identifiant les éléments de R
ud
à des matrices à une ligne et une colonne, comme le produit des matrices :
hu | Xi = t X.u = t u.X .
Comme lorsque d = 1, on a :
Théorème 1.1 Deux v.a. possédant la même fonction caractéristique ont la
même loi : si X et Y sont deux v.a. à valeurs dans Rd telles que ΦX = ΦY ,
alors PX = PY .
d’où le résultat, puisque le membre de droite est la f.c d’une v.a. suivant la loi
PX1 ⊗ · · · ⊗ PXn .
1.2 Espérance
On dira que X = (X1 , . . . , Xd ) : Ω → Rd est intégrable (resp., de carré
intégrable, resp. de puissance rème intégrable : X ∈ Lr (Ω; Rd )) si chacune de ses
composantes X1 , . . . , Xd : Ω → R l’est. On notera, pour X intégrable :
E (X) = E (X1 ), . . . , E (Xd ) ,
ou, matriciellement :
E (X1 )
E (X) = ..
.
.
E (Xd )
2
0
Proposition 1.3 Soit A : Rd → Rd une application linéaire, et X : Ω → Rd
un vecteur aléatoire intégrable. Alors :
E (AX) = A E (X) .
Dans cette proposition, de la même manière que l’on a identifié les vecteurs
à des matrices-colonnes, on identifie l’application linéaire A à sa matrice ; donc :
α1,1 · · · α1,d
A = ... .. .
.
αd0,1 ··· αd,d
0
d
X
E (AX) = E αk,l Xl
16k6d0
l=1
d
X
= αk,l Xl E (Xl ) = A E (X) .
16k6d0
l=1
E (AM ) = A E (M ) et E (M B) = E (M ) B .
3
Définition 1.6 Si X : Ω → Rd est un vecteur aléatoire de carré intégrable, on
définit sa matrice de covariance, avec les notations matricielles, par :
KX = E X − E (X) .t X − E (X) .
On notera que :
X1 − E (X1 )
..
X − E (X) .t X − E (X) =
. X − (X ) · · · X − (X )
. 1 E 1 d E d
Xd − E (Xd )
ud
t
u KX u > 0 .
Mais cela résulte du lemme suivant.
t
u KX u = E [hu | X − E (X)i]2 .
4
Preuve. C’est un simple calcul ; grâce à la Proposition 1.3, on a :
t
u KX u = t u E [X −E (X)].t [X −E (X)] u = E t u.[X −E (X)].t [X −E (X)].u ;
La covariance est donc nulle (on dit alors que X et Y sont non corrélées, ou
décorrélées, si et seulement si les v.a.r. centrées X − E (X) et Y − E (Y ) sont
orthogonales. Lorsque X et Y sont indépendantes, on a E (XY ) = E (X)E (Y ) ;
donc cov (X, Y ) = 0. Ainsi :
5
2 Vecteurs aléatoires gaussiens
Rappelons que la loi gaussienne (ou normale) centrée réduite est la loi
N (0, 1) sur R dont la densité est :
2
fG (x) = √1
2π
e−x /2
.
2
Si G ∼ N (0, 1), sa f.c. est ΦG (t) = e−t /2 ; son espérance est nulle : E (G) =
0, et sa variance est Var (G) = 1.
Si G ∼ N (0, 1), alors σG + m ∼ N (m, σ 2 ) et, inversement, si X ∼
N (m, σ 2 ), alors G = X−mσ ∼ N (0, 1).
On conviendra de dire que les constantes sont des gaussiennes dégé-
nérées (correspondant à σ = 0).
On peut “ visualiser une v.a.r. gaussienne centrée réduite G ainsi : prenons
Ω = − 12 , 12 , muni de sa tribu borélienne, avec la probabilité P qui est la
mesure de Lebesgue λ.
Ω qui, sur 0, 21 , est la fonction réciproque
Soit G la fonction impaire sur
de : Z u
2 dx
u 7−→ e−x /2 √
0 2π
6
Définition 2.1 On dit qu’un vecteur aléatoire X : Ω → Rd est un vecteur
aléatoire gaussien si la v.a.r. ϕ(X) : Ω → R est gaussienne, pour toute
forme linéaire ϕ : Rd → R.
7
Preuve du lemme. On a vu (Lemme 1.8) que t u KX u = E [hu | X −
E (X)i]2 ; mais :
hu | X − E (X)i = t u. X − E (X) = t u.X − t u.E (X) = t u.X − E (t u.X);
donc :
t
u KX u = E [t u.X − E (t u.X)]2 = Var (t u.X) .
Suite de la preuve du Théorème 2.5. Donc, pour tout v ∈ R, on a :
1
Φt u.X (v) = exp ivm − σ 2 v 2 ·
2
Comme : t
Φt u.X (v) = E eiv( u.X) = E eivhu|Xi ,
on obtient, en prenant v = 1 :
1
ΦX (u) = E eivhu|Xi = Φt u.X (1) = exp i t u.E (X) − t u KX u .
2
Comme corollaire, on obtient le très important résultat suivant.
8
ce qui prouve l’indépendance de X1 , . . . , Xd .
Remarque. Il est indispensable de savoir au préalable que le vecteur X est
gaussien.
Exemple. Soit Y une v.a.r. de loi N (0, 1) et ε une v.a.r. de Rademacher :
P (ε = −1) = P (ε = 1) = 12 , indépendante de Y , et posons Z = εY . Alors :
a) Z ∼ N (0, 1).
En effet, pour tout borélien A de R, on a :
P (Z ∈ A) = P (εY ∈ A) = P (ε = 1, Y ∈ A) + P (ε = −1, −Y ∈ A) ;
9
Considérons la variable aléatoire :
Y0 : Ω −→ Rr
t 7−→ t.
C’est évidemment une variable aléatoire gaussienne : sa loi est PY0 = P = γ.λd ,
centrée, de matrice de covariance égale à Ir , la matrice unité d’ordre r.
Comme K est symétrique positive, il existe une matrice (d × r) A telle que
K = A.t A. Alors Y = AY0 : Ω → Rd est un vecteur gaussien (Proposition 2.2),
centré, et sa matrice de covariance est :
= A.Ir .t A = A.t A = K.
Preuve. On peut d’abord supposer que E (X) = 0 ; ensuite, comme cet énoncé
ne concerne que la loi de la v.a. X, on peut supposer que X est donné par
l’égalité X = AY0 , comme dans la preuve du Théorème 2.8, avec A.t A = KX .
Lorsque KX n’est pas inversible, son rang r est < d ; alors A est de taille
(d × r), et X = AY0 prend ses valeurs, presque sûrement, dans un sous-espace
de Rd de dimension r < d ; X ne peut donc avoir de densité (ce sous-espace est
de mesure de Lebesgue nulle, alors que pour PX , il est de mesure 1).
Si KX est inversible, son rang est r = d, et A est inversible. Comme X = AY0 ,
on peut utiliser la formule de changement de variable :
10
Or ici ϕ = A est linéaire ; donc :
1 1
|Jac A−1 (y)| = |dét (A−1 )| = =p ;
|dét A| |dét KX |
et par conséquent, puisque Y0 possède la densité fY0 = γ, X possède une densité,
donnée par :
1 1 1 1
fX (x) = p γ(A−1 x) = √ p exp − kA−1 xk22 ,
|dét KX | ( 2π)d |dét KX | 2
d’où le résultat, puisque :
kA−1 xk22 = t (A−1 x).(A−1 x) = t x.t A−1 .A−1 .x = t x.(A.t A)−1 .x
−1
= t x.KX .x .
Preuve du Corollaire 2.11. Pour tout borélien B, on a :
Z
PV (B) = 1IB (v) dPV (v) = E (1IB ◦ V ) = E 1IB ◦ ϕ(U )
d0
ZR Z
= (1IB ◦ ϕ)(u) dPU (u) = (1IB ◦ ϕ)(u) fU (u) du
d Rd
ZR
1IB (v) fU ϕ−1 (v) |Jac ϕ−1 (v)| dv .
=
Rd0
3 Statistique gaussienne
3.1 Résultats théoriques
1
(X1 − X n )2 + · · · + (Xn − X n )2
Vn =
n
est appelée la variance empirique de l’échantillon.
11
n
Notons que les Statisticiens préfèrent prendre pour variance empirique n−1 V n,
car son espérance est égale à Var (X) ; on dit que c’est un estimateur sans biais.
Définition 3.3
1) On appelle loi du chi-deux à d degrés de liberté la loi de la somme
de d carrés de gaussiennes centrées réduites indépendantes : Y12 + · · · + Yd2 . On
la note χ2d . p
2) On appelle loi de Student à d degrés de liberté la loi de X/ K/d,
où X ∼ N (0, 1), K ∼ χ2d et X ⊥⊥ K ( X indépendante de K). On la note Td .
3) X n et V n sont indépendantes ;
Xn − m
4) q ∼ Tn−1 .
V n /(n − 1)
1 Xn − m
Yn = (Y1 + · · · + Yn ) = ;
n σ
1 1
(Y1 − Y n )2 + · · · + (Yn − Y n )2 = 2 V n .
Wn =
n σ
Il s’agit donc de montrer que :
nW n ∼ χ2n−1 .
12
Notons pour cela (e1 , . . . , en ) la base canonique de Rn , et choisissons une
autre base orthonormée (f1 , . . . , fn ) de Rn en imposant que :
e1 + · · · + en
fn = √ ·
n
nW n = (Y1 − Y n )2 + · · · + (Yn − Y n )2
2
= Y12 + · · · + Yn2 − 2(Y1 + · · · Yn ) Y n + nY n
2
= Y12 + · · · + Yn2 − nY n = Z12 + · · · + Zn2 − Zn2
= Z12 + · · · + Zn−1
2
∼ χ2n−1 .
13
3.2 Application pratique
Considérons la situation suivante.
Un produit commercialisé est vendu dans des boîtes portant la mention
“contenance 500 grammes”.
En fait, la quantité de produit dans chaque boîte n’est pas rigoureusement
constante et dépend des aléas de la fabrication (fiabilité de la machine, entre-
autres). La fonction qui à chaque boîte lui associe sa contenance peut donc être
considérée comme une variable aléatoire réelle X. La mention de contenance de
500 grammes annoncée par le fabricant est la moyenne E (X) de cette v.a.r. .
Pour contrôler la contenance, on ne pèse pas toutes les boîtes, mais on ef-
fectue des tests. On choisit donc, au hasard, un certain nombre de boîtes dont
on pèse le contenu. Si le nombre total de boîtes est très grand par rapport au
nombre de boîtes choisies, on peut considérer que la situation est la même à
chaque prélèvement, et donc que l’on renouvelle à chaque fois la même opé-
ration ; autrement dit, au lieu de considérer que l’on a n valeurs (occurences)
X(ω1 ), . . . , X(ωn ) de la v.a.r. X, on considère que l’on fait n fois la même ex-
périence, et donc que l’on a n v.a.r. X1 , . . . , Xn , ayant toutes la même loi que
X, et dont on mesure une valeur : X1obs = X1 (ω), . . . , Xnobs = Xn (ω). Ces v.a.r.
peuvent de plus être considérées comme indépendantes, puisque l’on choisit les
boîtes au hasard. On a donc un n-échantillon de X.
Nous allons faire (parce c’est plus simple !) l’hypothèse que X suit une loi
normale N (m, σ 2 ). Il n’y a évidemment aucune raison que ce soit réellement
le cas. Néanmoins, on peut le faire, en théorie, de façon approximative, puisque
l’on verra (Théorème Limite Central), qu’en un certain sens, toutes les lois
peuvent être approximées par des gaussiennes (on peut, par exemple, prendre
pour X1 , . . . , Xn , non pas directement les valeurs observées, mais des moyennes
de valeurs de lots observés). C’est le travail du Statisticien de déterminer la loi
suivie, ou, du moins, avec quelle approximation on peut dire que telle loi est
suivie.
L’intérêt de la loi normale est qu’elle est très peu dispersée autour de sa
moyenne (il y a une très petite probabilité que l’on soit loin de sa moyenne).
Définition 3.5 Soit Z une v.a.r., à valeurs dans R. Supposons, pour simplifier,
que sa fonction de répartition FZ soit continue et strictement croissante. Pour
0 6 β 6 1, on note ϕβ l’unique nombre réel vérifiant :
FZ (ϕβ ) = P (Z 6 ϕβ ) = β
Pour β = 1/2, ϕ1/2 est la médiane. ϕ1/4 est le premier quartile et ϕ3/4 le
troisième quartile.
On obtient ces valeurs en utilisant des calculatrices, ou des logiciels ; autre-
fois, mais encore aujourd’hui, on utilisait des tables de valeurs.
14
Pour Z ∼ N (0, 1) , les valeurs les plus couramment utilisées sont :
et surtout :
ϕ0,95 ≈ 1, 645 .
On a ϕ0 = −∞ et ϕ1 = +∞.
Comme la densité de PZ est paire (Z est symétrique), on a :
ϕ1−α = −ϕα .
On a donc :
P (−ϕ1−α 6 Z 6 ϕ1−β ) = 1 − (α + β) .
Xn − m
Z= q ∼ N (0, 1) ;
σ2
n
donc :
r r !
σ2 σ2
P − ϕ1−α 6 X n − m 6 ϕ1−β = 1 − (α + β) .
n n
15
Revenons au problème des boîtes de conserve.
Supposons que l’on ait fait n = 10 mesures indépendantes, et que l’on ait
observé les valeurs suivantes :
495 ; 497 ; 498 ; 498 ; 498 ; 501 ; 501 ; 501 ; 502 ; 504 .
Supposons aussi que l’on sache (d’une façon ou d’une autre, par exemple parce
que c’est l’imprécision due à la machine remplissant les boîtes) que l’écart-type
est σ = 1 gramme (en moyenne les contenances s’écartent de la valeur 500
grammes que de 1 gramme).
On a alors :
obs
X n = X 1 0(ω) = 499, 5 .
Choisissons (c’est le testeur qui décide de cela) de prendre un niveau de
confiance de 90% (soit 0, 9). On dit aussi que l’on prend un cœfficient de
sécurité de 90%, ou que l’on se laisse une marge d’erreur de 10%.
Il y a plusieurs façons de procéder.
1) Supposons que l’on veuille être impartial. On prendra alors α = β = 0, 05.
Comme ϕ0,95 ≈ 1, 645, on aura, aux approximations près :
r r
1 1
− × 1, 645 6 4999, 5 − m 6 × 1, 645 ,
10 10
1,645
soit, puisque √
10
≈ 0, 52 :
498, 98 6 m 6 500, 02 .
Cet intervalle de confiance ne permet pas de conclure si la contenance est res-
pectée ou non.
2) Supposons que le test soit fait par le fabricant. Il choisira α = 0 et β =
0, 10. Alors, comme ϕ0,90 ≈ 1, 282 et 1,282
√
10
≈ 0, 41, on trouve :
m > 499, 5 − 0, 41 = 499, 09 .
Avec cette façon de procéder, on ne peut rien conclure, mais un fabricant peu
scrupuleux pourra prétendre qu’il n’y a rien à lui reprocher !
3) Si le test est fait par une association de consommateurs, celle-ci prendra
β = 0 et α = 0, 10. On trouve :
m 6 499, 5 + 0, 41 = 499, 91 .
16
On peut donc dire, avec une confiance de 90%, que le fabricant ne respecte pas
la contenance.
Nous venons de supposer que l’on connaissait l’écart-type. Ce n’est en général
pas le cas. On doit alors utiliser la variance empirique. Rappelons que :
Xn − m
q ∼ Tn−1 .
V n /(n − 1)
En notant tn−1,β les quantiles de cette loi, on a donc :
s s !
Vn Vn
P − tn−1,α 6 X n − m 6 tn−1,β = 1 − (α + β) .
n−1 n−1
17