PROBA02

Université d’Artois
Faculté des Sciences Jean Perrin

Probabilités (Master 1 Mathématiques-Informatique)
Daniel Li
Chapitre 2
Vecteurs aléatoires gaussiens
1 Vecteurs aléatoires
Certaines notions que l’on a définies dans le chapitre précédent que pour
les variables aléatoires réelles se transposent pour les variables aléatoires vecto-
rielles.
On dispose dans Rd du produit scalaire usuel :
hx | yi = x1 y1 + · · · + xd yd
si x = (x1 , . . . , xd ) et y = (y1 , . . . , yd ) ∈ Rd .
1.1 Fonction caractéristique

Si X : Ω → Rd est une variable aléatoire, on définit sa fonction caracté-
ristique ΦX : Rd → C par :
ΦX (u) = E eihu|Xi , ∀u ∈ Rd ,

où hu | Xi (ω) = hu | X(ω)i, ∀ω ∈ Ω. Autrement dit, si X = (X1 , . . . , Xd ) et
u = (u1 , . . . , ud ) :

ΦX (u) = E ei(u1 X1 +···+ud Xd )
Convention. Il est d’usage d’identifier les vecteurs de Rd à des matrices-

colonnes ; ainsi on écrira le vecteur aléatoire X = (X1 , . . . , Xd ) sous la forme :
 
X1
X =  ... 
 
Xd
et alors :
t
X = (X1 · · · Xd )
est une matrice-ligne (noter l’absence maintenant des virgules).
1
 
u1
Si u =  ... , le produit scalaire s’écrira, en identifiant les éléments de R
 
ud
à des matrices à une ligne et une colonne, comme le produit des matrices :
hu | Xi = t X.u = t u.X .
Comme lorsque d = 1, on a :
Théorème 1.1 Deux v.a. possédant la même fonction caractéristique ont la
même loi : si X et Y sont deux v.a. à valeurs dans Rd telles que ΦX = ΦY ,
alors PX = PY .
dans le cas d = 1, en utilisant l’unité

Preuve. Elle est la même que celle faite
approchée définie par pa (y) = a1d p ay , a > 0, avec p(y) = p(y1 , . . . , yd ) =
1
π d (1+y 2 )···(1+y 2 )
·
1 d
Corollaire 1.2 Soit Xk : Ω → Rdk , 1 6 k 6 n, des v.a. ; elles sont indépen-

dantes si et seulement si :
Φ[X1 ,...,Xn ) (t1 , . . . , tn ) = ΦX1 (t1 ) · · · ΦXn (tn ) , ∀tk ∈ Rdk , 1 6 k 6 n.
Preuve. Le Théorème de Fubini donne :

Z
ei(t1 x1 +···+tn xn ) d PX1 ⊗· · ·⊗PXn (x1 , . . . , xn ) ;

ΦX1 (t1 ) · · · ΦXn (tn ) =
Rd1 +···+dn
d’où le résultat, puisque le membre de droite est la f.c d’une v.a. suivant la loi
PX1 ⊗ · · · ⊗ PXn .
1.2 Espérance
On dira que X = (X1 , . . . , Xd ) : Ω → Rd est intégrable (resp., de carré
intégrable, resp. de puissance rème intégrable : X ∈ Lr (Ω; Rd )) si chacune de ses
composantes X1 , . . . , Xd : Ω → R l’est. On notera, pour X intégrable :

E (X) = E (X1 ), . . . , E (Xd ) ,
ou, matriciellement :
 
E (X1 )
E (X) =  ..
 .
 
.
E (Xd )
Il est facile de voir que la v.a. X ∈ Lr (Ω; Rd ) si et seulement si :

E (kXkr ) < +∞.
2
0
Proposition 1.3 Soit A : Rd → Rd une application linéaire, et X : Ω → Rd
un vecteur aléatoire intégrable. Alors :
E (AX) = A E (X) .
Dans cette proposition, de la même manière que l’on a identifié les vecteurs
à des matrices-colonnes, on identifie l’application linéaire A à sa matrice ; donc :
 
α1,1 · · · α1,d
A =  ... ..  .

. 
αd0,1 ··· αd,d
0
Preuve. Il suffit de l’écrire ; on a :

d
X
AX = αk,l Xl ;
16k6d0
l=1
chacune des composantes de AX est intégrable ; donc AX est intégrable et :
d
X
E (AX) = E αk,l Xl
16k6d0
l=1
d
X
= αk,l Xl E (Xl ) = A E (X) .
16k6d0
l=1
En particulier, pour tout a ∈ Rd , on a :

E ha | Xi = ha | E (X)i ,
ou, autrement écrit :

E (t a.X) = t a.E (X) .

Définition 1.4 Si M = Xk,l 16k6n est une matrice formée de variables aléa-
16l6s
toires réelles Xk,l : Ω → R, on dit que c’est une matrice aléatoire. On dit
qu’elle est intégrable si chacune des Xk,l l’est, et l’on pose alors :

E (M ) = E (Xk,l k,l .
Proposition 1.5 Soit M une matrice aléatoire et A et B deux matrices (non

aléatoires ; on dit qu’elles sont déterministes) telles que les produits AM et
M B existent et soient intégrables. On a :
E (AM ) = A E (M ) et E (M B) = E (M ) B .
Preuve. Il suffit de regarder la définition du produit des matrices.
3
Définition 1.6 Si X : Ω → Rd est un vecteur aléatoire de carré intégrable, on
définit sa matrice de covariance, avec les notations matricielles, par :

KX = E X − E (X) .t X − E (X) .
On notera que :
 
X1 − E (X1 )
..

X − E (X) .t X − E (X) = 

. X − (X ) · · · X − (X )

.  1 E 1 d E d
Xd − E (Xd )
est une matrice carrée d’ordre d, dont les termes sont :

Xk − E (Xk ) Xl − E (Xl ) , 1 6 k, l 6 d.
Lorsque X, Y ∈ L2 (Ω) sont deux v.a. réelles de carré intégrable, on définit

leur covariance par :

cov (X, Y ) = E X − E (X) Y − E (Y ) = E (XY ) − E (X) E (Y ) .
Lorsque Y = X, on obtient la variance de X.

Revenant au cas où X = (X1 , . . . , Xd ) est un vecteur aléatoire, on voit que
sa matrice de covariance est :

KX = cov (Xk , Xl ) .
16k,l6d
Proposition 1.7 La matrice de covariance est symétrique et positive. La

forme quadratique associée est non dégénérée si et seulement si, en tant qu’élé-
ments de L2 (Ω, P ), les vecteurs X1 −E (X1 ), . . . , Xd −E (Xd ) sont linéairement
indépendants.
Preuve. La symétrie est évidente.

Rappelons qu’une matrice symétrique est positive si la forme bilinéaire (ou
la forme quadratique)
  associée est une forme positive. Il faut donc voir que, pour
u1
tout u =  ...  , on a :
 
ud
t
u KX u > 0 .
Mais cela résulte du lemme suivant.
Lemme 1.8 Pour tout u ∈ Rd , on a :
t

u KX u = E [hu | X − E (X)i]2 .
4
Preuve. C’est un simple calcul ; grâce à la Proposition 1.3, on a :
t
u KX u = t u E [X −E (X)].t [X −E (X)] u = E t u.[X −E (X)].t [X −E (X)].u ;

d’où le résultat, puisque t u.[X −E (X)] = hu | X −E (X)i et que t [X −E (X)].u =

hX − E (X) | ui = hu | X − E (X)i.
Cette formule montre de plus que la forme quadratique u 7→ t u KX u est
dégénérée si, et seulement si, il existe u 6= 0 tel que hu | X − E (X)i = 0, ce qui
signifie que l’on a, dans L2 (P ), u1 X1 −E (X1 ) +· · ·+ud Xd −E (Xd ) = 0 pour
des u1 , . . . , ud non tous nuls ; autrement dit, que X1 − E (X1 ), . . . , Xd − E (Xd )
sont linéairement indépendants dans L2 (P ).
Remarque. Il faut bien faire attention que si des v.a.r., non constantes, sont
indépendantes, elles sont linéairement indépendantes (sinon, l’une peut s’expri-
mer comme combinaison linéaire des autres ; elle ne peut donc être indépendante
de celles-ci), l’inverse est bien sûr loin d’être vrai.
Exemple. Si X suit la loi uniforme sur [0, 1], X et X 2 , qui ne sont, bien sûr,
pas indépendantes, sont linéairement indépendantes, car si aX + bX 2 = 0, alors,
d’une part, en prenant l’espérance, on a a2 + 3b = 0, puisque :
Z 1
1
E (X k ) = xk dx = ;
0 k+1
mais on a aussi, d’autre part, aX 2 + bX 3 = 0, d’où a3 + 4b ; donc a = b = 0.

Notons que, par définition, la covariance de deux v.a.r. X et Y est le produit
scalaire, dans L2 (P ), des v.a.r. centrées X − E (X) et Y − E (Y ) :
cov (X, Y ) = hX − E (X) | Y − E (Y )i .
La covariance est donc nulle (on dit alors que X et Y sont non corrélées, ou
décorrélées, si et seulement si les v.a.r. centrées X − E (X) et Y − E (Y ) sont
orthogonales. Lorsque X et Y sont indépendantes, on a E (XY ) = E (X)E (Y ) ;
donc cov (X, Y ) = 0. Ainsi :
Proposition 1.9 Si X et Y sont deux v.a.r. indépendantes, alors cov (X, Y ) =

0, et X − E (X) et Y − E (Y ) sont orthogonales dans L2 (P ).
On avait déjà vu cela dans la Remarque suivant le Corollaire 14 du Cha-

pitre 1.
Corollaire 1.10 Si X1 , . . . , Xd : Ω → R sont indépendantes, la matrice de co-

variance du vecteur aléatoire X = (X1 , . . . , Xd ) est diagonale.
La réciproque est évidemment en général fausse, puisque le fait que la matrice

de covariance soit diagonale signifie seulement que les composantes du vecteur
aléatoire sont deux-à-deux non corrélées.
5
2 Vecteurs aléatoires gaussiens
Rappelons que la loi gaussienne (ou normale) centrée réduite est la loi
N (0, 1) sur R dont la densité est :
2
fG (x) = √1
2π
e−x /2
.
2
Si G ∼ N (0, 1), sa f.c. est ΦG (t) = e−t /2 ; son espérance est nulle : E (G) =
0, et sa variance est Var (G) = 1.
Si G ∼ N (0, 1), alors σG + m ∼ N (m, σ 2 ) et, inversement, si X ∼
N (m, σ 2 ), alors G = X−mσ ∼ N (0, 1).
On conviendra de dire que les constantes sont des gaussiennes dégé-
nérées (correspondant à σ = 0).
On peut “ visualiser une v.a.r. gaussienne centrée réduite G ainsi : prenons
Ω = − 12 , 12 , muni de sa tribu borélienne, avec la probabilité P qui est la
mesure de Lebesgue λ.
Ω qui, sur 0, 21 , est la fonction réciproque

Soit G la fonction impaire sur
de : Z u
2 dx
u 7−→ e−x /2 √
0 2π
On a bien, puisque G−1 est strictement croissante :

Z u
2 dx
P (0 6 G 6 u) = λ([0, G−1 (u)]) = G−1 (u) = e−x /2
√ ·
0 2π
6
Définition 2.1 On dit qu’un vecteur aléatoire X : Ω → Rd est un vecteur
aléatoire gaussien si la v.a.r. ϕ(X) : Ω → R est gaussienne, pour toute
forme linéaire ϕ : Rd → R.
En d’autres termes, si X = (X1 , . . . , Xd ), les v.a.r. a1 X1 +· · ·+ad Xd doivent

être gaussiennes, pour tout choix des nombres réels a1 , . . . , ad .
On dira souvent vecteur gaussien au lieu de “vecteur aléatoire gaussien”.
Il est clair que :
0
Proposition 2.2 Si X : Ω → Rd est un vecteur gaussien et si A : Rd → Rd est
0
une application linéaire, alors AX : Ω → Rd est encore un vecteur gaussien.
0
puisque ψ ◦ A est une forme linéaire sur Rd , pour toute forme linéaire ψ sur Rd .
Il résulte aussi immédiatement de la définition que l’on a :
Proposition 2.3 Si X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur gaussien, alors

chaque v.a.r. Xk : Ω → R, est gaussienne.
puisque les applications (x1 , . . . , xd ) 7→ xk sont des formes linéaires sur Rd .

L’inverse est faux, comme on le verra. Néanmoins, on a :
Théorème 2.4 Soit X1 , . . . , Xd : Ω → R des v.a.r. gaussiennes ; si elles sont

indépendantes, alors le vecteur X = (X1 , . . . , Xd ) est gaussien.
Preuve. Pour tous réels a1 , . . . , ad ∈ R, les v.a.r. a1 X1 , . . . , ad Xd sont encore

gaussiennes et indépendantes ; alors (voir Chapitre 1, Corollaire 5.10), la v.a.r.
a1 X1 + · · · + ad Xd est encore gaussienne.
Théorème 2.5 Si X est un vecteur gaussien, sa fonction caractéristique vaut :

1
ΦX (u) = exp i t u.E (X) − t u KX u , ∀u ∈ Rd ,
2
où KX est la matrice de covariance de X.
On notera que lorsque X est une v.a.r. gaussienne (d = 1), alors u ∈ R et

t
u KX u = Var (X)u2 = σ 2 u2 , t u.E (X) = mu ; cette formule étend bien le cas
scalaire.
Preuve. L’application x 7→ t u.x = hu | xi est une forme linéaire. La v.a.r. t u.X
est donc gaussienne. Son espérance est m = E (t u.X) = t u.E (X), et sa variance
est σ 2 = Var (t u.X) = t u KX u ; en effet :
Lemme 2.6 Pour tout vecteur aléatoire X, on a : t u KX u = Var (t u.X).
7
Preuve du lemme. On a vu (Lemme 1.8) que t u KX u = E [hu | X −
E (X)i]2 ; mais :
hu | X − E (X)i = t u. X − E (X) = t u.X − t u.E (X) = t u.X − E (t u.X);

donc :
t
u KX u = E [t u.X − E (t u.X)]2 = Var (t u.X) .

Suite de la preuve du Théorème 2.5. Donc, pour tout v ∈ R, on a :
1
Φt u.X (v) = exp ivm − σ 2 v 2 ·
2
Comme : t
Φt u.X (v) = E eiv( u.X) = E eivhu|Xi ,

on obtient, en prenant v = 1 :
1
ΦX (u) = E eivhu|Xi = Φt u.X (1) = exp i t u.E (X) − t u KX u .

2
Comme corollaire, on obtient le très important résultat suivant.
Théorème 2.7 Si X = (X1 , . . . , Xd ) est un vecteur gaussien, alors ses

composantes sont indépendantes si et seulement si elles sont non corrélées :
cov (Xj , Xk ) = 0, ∀j 6= k, c’est-à-dire si et seulement si sa matrice de cova-
riance est diagonale.
Autrement dit, si et seulement si X1 − E (X1 ), . . . , Xd − E (Xd ) sont ortho-

gonales dans L2 (P ).
Preuve. Nous savons déjà que des v.a.r. indépendantes sont non corrélées.
Inversement, si elles ne sont pas corrélées, la matrice de covariance de X est
diagonale :
 2
σ1 ······




0
KX = 
 .. 
,
 . 
0
 
 
······ σd2
avec σk2 = Var (Xk ). Si l’on note mk = E (Xk ), on a E (X) = (m1 , . . . , md ).
Comme X est un vecteur gaussien, on a, pour u = (u1 , . . . , ud ) ∈ Rd :
1
ΦX (u) = exp ihu | E(X)i − t u KX u
2
1
= exp i(u1 m1 + · · · + ud md ) − (σ12 u21 + · · · σd2 u2d )
2
1 2 2 1
= exp iu1 m1 − σ1 u1 × · · · × exp iud md − σd2 u2d
2 2
= ΦX1 (u1 ) · · · ΦXd (ud ) ,
8
ce qui prouve l’indépendance de X1 , . . . , Xd .
Remarque. Il est indispensable de savoir au préalable que le vecteur X est
gaussien.
Exemple. Soit Y une v.a.r. de loi N (0, 1) et ε une v.a.r. de Rademacher :
P (ε = −1) = P (ε = 1) = 12 , indépendante de Y , et posons Z = εY . Alors :
a) Z ∼ N (0, 1).
En effet, pour tout borélien A de R, on a :
P (Z ∈ A) = P (εY ∈ A) = P (ε = 1, Y ∈ A) + P (ε = −1, −Y ∈ A) ;
mais l’indépendance donne d’une part :

1
P (ε = 1, Y ∈ A) = P (ε = 1) P (Y ∈ A) = P (Y ∈ A) ,
2
et, d’autre part :
1 1
P (ε = −1, −Y ∈ A) = P (ε = −1) P (−Y ∈ A) = P (−Y ∈ A) = P (Y ∈ A) ,
2 2
puisque (−Y ) suit la même loi que Y . On a donc P (Z ∈ A) = P (Y ∈ A), de
sorte que Z suit la même loi que Y .
⊥
⊥
b) cov (Y, Z) = E (Y Z) = E (Y.εY ) = E (εY 2 ) = E (ε) E (Y 2 ) = 0 × 1 = 0.
Pourtant, les v.a.r. Y et Z ne sont pas indépendantes (car sinon Y serait
indépendante de Z 2 = (εY )2 = Y 2 , ce qui n’est pas). Il en résulte que le vecteur
X = (Y, Z) n’est pas gaussien, bien que ses composantes soient des v.a.r.
gaussiennes.
Nous avons vu que toute matrice de covariance est symétrique positive. In-
versement, nous allons voir que toute telle matrice est la matrice de covariance
d’un vecteur gaussien. C’est la généralisation de ce qui se passe pour la dimen-
sion 1, où la moyenne et la variance d’une v.a.r. gaussienne peuvent être données
arbitrairement. Cela permet aussi d’assurer l’existence de vecteurs gaussiens en
dehors du cas où les composantes sont indépendantes.
Théorème 2.8 (Théorème d’existence) Pour tout m ∈ Rd et toute matrice

réelle K carrée d’ordre d, symétrique positive, il existe un vecteur gaussien de
moyenne m et de matrice de covariance K.
Preuve. Il suffit de le voir pour m = 0.

Nous pouvons choisir à notre gré l’espace de probabilitésur lequel la variable
aléatoire sera définie. Choisissons (Ω, A ) = Rr , Bor (Rr ) , où r est le rang de
la matrice K (on suppose K non nulle, car si K = 0, la variable aléatoire nulle
convient), et munissons-le de la probabilité gaussienne P , de densité :
r
1 1X 1 1
γ(t) = √ exp − t2j = √ exp − ktk22 .
( 2π)r 2 j=1 ( 2π)r 2
9
Considérons la variable aléatoire :
Y0 : Ω −→ Rr
t 7−→ t.
C’est évidemment une variable aléatoire gaussienne : sa loi est PY0 = P = γ.λd ,
centrée, de matrice de covariance égale à Ir , la matrice unité d’ordre r.
Comme K est symétrique positive, il existe une matrice (d × r) A telle que
K = A.t A. Alors Y = AY0 : Ω → Rd est un vecteur gaussien (Proposition 2.2),
centré, et sa matrice de covariance est :
E (Y.t Y ) = E (AY0 ).t (AY0 ) = E (A.Y0 .t Y0 .t A) = A.E (Y0 .t Y0 ).t A

= A.Ir .t A = A.t A = K.
La preuve que l’on vient de faire permet d’obtenir facilement le résultat

suivant.
Corollaire 2.9 Un vecteur gaussien X : Ω → Rd possède une densité, par rap-

port à la mesure de Lebesgue sur Rd , si et seulement si sa matrice de covariance
KX est inversible. Cette densité est alors :
1 1 1
−1

fX (x) = √ p exp − t [x − E (X)].KX .[x − E (X)] .
( 2π)d |dét KX | 2
Preuve. On peut d’abord supposer que E (X) = 0 ; ensuite, comme cet énoncé
ne concerne que la loi de la v.a. X, on peut supposer que X est donné par
l’égalité X = AY0 , comme dans la preuve du Théorème 2.8, avec A.t A = KX .
Lorsque KX n’est pas inversible, son rang r est < d ; alors A est de taille
(d × r), et X = AY0 prend ses valeurs, presque sûrement, dans un sous-espace
de Rd de dimension r < d ; X ne peut donc avoir de densité (ce sous-espace est
de mesure de Lebesgue nulle, alors que pour PX , il est de mesure 1).
Si KX est inversible, son rang est r = d, et A est inversible. Comme X = AY0 ,
on peut utiliser la formule de changement de variable :
Théorème 2.10 (formule de changement de variable) Soit O un ouvert

0
de Rd et O0 un ouvert de Rd , tels qu’il existe un difféomorphisme ϕ de classe
C 1 de O sur O0 . Alors, pour toute fonction f : O → R mesurable positive ou
intégrable, on a :
Z Z
f ϕ−1 (v) |Jac ϕ−1 (v)| dv .

f (u) du =
O O0
via son corollaire :
Corollaire 2.11 Sous les hypothèses du Théorème 2.10, soit U : Ω → Rd une

variable aléatoire prenant presque sûrement ses valeurs dans O. Alors, si U a
une densité de probabilité fU , V = ϕ(U ) possède aussi une densité de probabilité,
donnée par :
fV (v) = fU ϕ−1 (v) |Jac ϕ−1 (v)| .

10
Or ici ϕ = A est linéaire ; donc :
1 1
|Jac A−1 (y)| = |dét (A−1 )| = =p ;
|dét A| |dét KX |
et par conséquent, puisque Y0 possède la densité fY0 = γ, X possède une densité,
donnée par :
1 1 1 1
fX (x) = p γ(A−1 x) = √ p exp − kA−1 xk22 ,
|dét KX | ( 2π)d |dét KX | 2
d’où le résultat, puisque :
kA−1 xk22 = t (A−1 x).(A−1 x) = t x.t A−1 .A−1 .x = t x.(A.t A)−1 .x
−1
= t x.KX .x .
Preuve du Corollaire 2.11. Pour tout borélien B, on a :
Z

PV (B) = 1IB (v) dPV (v) = E (1IB ◦ V ) = E 1IB ◦ ϕ(U )
d0
ZR Z
= (1IB ◦ ϕ)(u) dPU (u) = (1IB ◦ ϕ)(u) fU (u) du
d Rd
ZR
1IB (v) fU ϕ−1 (v) |Jac ϕ−1 (v)| dv .

=
Rd0
3 Statistique gaussienne
3.1 Résultats théoriques
Définition 3.1 On dit qu’une suite (X1 , . . . , Xn ) de variables aléatoires in-

dépendantes et suivant toutes la même loi PX , est un n-échantillon de
la loi PX , ou n-échantillon de X.
On dit aussi que les variables aléatoires X1 , . . . , Xn sont indépendantes
et identiquement distribuées, en abrégé : i.i.d. .
Définition 3.2 Soit (X1 , . . . , Xn ) un n-échantillon d’une v.a.r. X ∈ L2 (P ).

1) La v.a.r.
X1 + · · · + Xn
Xn =
n
est appelée la moyenne empirique de l’échantillon.
2) La v.a.r.
1
(X1 − X n )2 + · · · + (Xn − X n )2

Vn =
n
est appelée la variance empirique de l’échantillon.
11
n
Notons que les Statisticiens préfèrent prendre pour variance empirique n−1 V n,
car son espérance est égale à Var (X) ; on dit que c’est un estimateur sans biais.
Définition 3.3
1) On appelle loi du chi-deux à d degrés de liberté la loi de la somme
de d carrés de gaussiennes centrées réduites indépendantes : Y12 + · · · + Yd2 . On
la note χ2d . p
2) On appelle loi de Student à d degrés de liberté la loi de X/ K/d,
où X ∼ N (0, 1), K ∼ χ2d et X ⊥⊥ K ( X indépendante de K). On la note Td .
Student est le pseudonyme de William Sealey Gosset (1876–1937).

L’intérêt de ces lois vient du résultat suivant.
Théorème 3.4 (Théorème de Cochran)

Soit (X1 , . . . , Xn ) un n-échantillon gaussien, de loi N (m, σ 2 ), σ > 0.
Alors :
2
1) X n ∼ N m, σn ;
2) σn2 V n ∼ χ2n−1 ;

3) X n et V n sont indépendantes ;
Xn − m
4) q ∼ Tn−1 .
V n /(n − 1)
Remarque. Les points essentiels sont 2) et 3).

On notera que dans le 2), on perd un degré de liberté.
Dans le 2), il est sans doute plus naturel d’écrire :
n 1
V n = 2 (X1 − X n )2 + · · · + (Xn − X n )2 .

σ 2 σ
Preuve. 1) Les v.a.r. X1 , . . . , Xn étant gaussiennes et indépendantes, leur
somme est encore gaussienne. Donc X n est gaussienne ; de plus : E (X n ) =
1 1
nm = m, et Var (X n ) = n12 Var (X1 ) + · · · +

n E (X 1 ) + · · · + E (X n ) = n ×
2
Var (Xn ) = n12 × nσ 2 = σn ·

2) Commençons par nous ramener au cas centré réduit en posant Yk =

Xk −m
σ ; Yk ∼ N (0, 1) et :
1 Xn − m
Yn = (Y1 + · · · + Yn ) = ;
n σ
1 1
(Y1 − Y n )2 + · · · + (Yn − Y n )2 = 2 V n .

Wn =
n σ
Il s’agit donc de montrer que :
nW n ∼ χ2n−1 .
12
Notons pour cela (e1 , . . . , en ) la base canonique de Rn , et choisissons une
autre base orthonormée (f1 , . . . , fn ) de Rn en imposant que :
e1 + · · · + en
fn = √ ·
n
La matrice de passage a donc la forme suivante :

 √ 
· · · · · 1/ n
 .. .. √ 
U =  . . 1/ n 

√
· · · · · 1/ n
et elle est orthogonale, puisque les bases sont orthonormées.

Les v.a.r. Y1 , . . . , Yn étant gaussiennes et indépendantes, le vecteur Y =
(Y1 , . . . , Yn ) est gaussien. Il en résulte que le vecteur t U Y = Z = (Z1 , . . . , Zn )
est aussi gaussien. Comme sa matrice de covariance :
KZ = E (Z.t Z) = E (U Y ).t (t U Y ) = E (t U.Y.t Y.U )

= t U E (Y.t Y ) U = t U.KY .U = t U.In .U = t U.U = In
(puisque U est orthogonale) est l’identité, en particulier diagonale, les compo-

santes de Z sont indépendantes (Théorème 2.7), et de loi N (0, 1).
De plus, comme la matrice U est orthogonale, elle définit une transformation
isométrique de Rn ; donc kY k2 = kZk2 (c’est-à-dire que pour tout ω ∈ Ω, on a
kY (ω)k2Rn = kZ(ω)k2Rn ), soit :
Y12 + · · · + Yn2 = Z12 + · · · + Zn2 ;

√
d’où, puisque Zn = Y1 +···+Y
√
n
n
= nY n :
nW n = (Y1 − Y n )2 + · · · + (Yn − Y n )2
2
= Y12 + · · · + Yn2 − 2(Y1 + · · · Yn ) Y n + nY n
2
= Y12 + · · · + Yn2 − nY n = Z12 + · · · + Zn2 − Zn2
= Z12 + · · · + Zn−1
2
∼ χ2n−1 .
3) Comme Z1 , . . . , Zn sont indépendantes, les deux v.a.r. :

1 1 2 2
Y n = √ Zn et W n = (Z + · · · + Zn−1 )
n n 1
le sont aussi. Donc X n et V n sont aussi indépendantes.

4) Résulte maintenant de ce qui précède et de la définition de la loi de
Student.
13
3.2 Application pratique
Considérons la situation suivante.
Un produit commercialisé est vendu dans des boîtes portant la mention
“contenance 500 grammes”.
En fait, la quantité de produit dans chaque boîte n’est pas rigoureusement
constante et dépend des aléas de la fabrication (fiabilité de la machine, entre-
autres). La fonction qui à chaque boîte lui associe sa contenance peut donc être
considérée comme une variable aléatoire réelle X. La mention de contenance de
500 grammes annoncée par le fabricant est la moyenne E (X) de cette v.a.r. .
Pour contrôler la contenance, on ne pèse pas toutes les boîtes, mais on ef-
fectue des tests. On choisit donc, au hasard, un certain nombre de boîtes dont
on pèse le contenu. Si le nombre total de boîtes est très grand par rapport au
nombre de boîtes choisies, on peut considérer que la situation est la même à
chaque prélèvement, et donc que l’on renouvelle à chaque fois la même opé-
ration ; autrement dit, au lieu de considérer que l’on a n valeurs (occurences)
X(ω1 ), . . . , X(ωn ) de la v.a.r. X, on considère que l’on fait n fois la même ex-
périence, et donc que l’on a n v.a.r. X1 , . . . , Xn , ayant toutes la même loi que
X, et dont on mesure une valeur : X1obs = X1 (ω), . . . , Xnobs = Xn (ω). Ces v.a.r.
peuvent de plus être considérées comme indépendantes, puisque l’on choisit les
boîtes au hasard. On a donc un n-échantillon de X.
Nous allons faire (parce c’est plus simple !) l’hypothèse que X suit une loi
normale N (m, σ 2 ). Il n’y a évidemment aucune raison que ce soit réellement
le cas. Néanmoins, on peut le faire, en théorie, de façon approximative, puisque
l’on verra (Théorème Limite Central), qu’en un certain sens, toutes les lois
peuvent être approximées par des gaussiennes (on peut, par exemple, prendre
pour X1 , . . . , Xn , non pas directement les valeurs observées, mais des moyennes
de valeurs de lots observés). C’est le travail du Statisticien de déterminer la loi
suivie, ou, du moins, avec quelle approximation on peut dire que telle loi est
suivie.
L’intérêt de la loi normale est qu’elle est très peu dispersée autour de sa
moyenne (il y a une très petite probabilité que l’on soit loin de sa moyenne).
Définition 3.5 Soit Z une v.a.r., à valeurs dans R. Supposons, pour simplifier,
que sa fonction de répartition FZ soit continue et strictement croissante. Pour
0 6 β 6 1, on note ϕβ l’unique nombre réel vérifiant :
FZ (ϕβ ) = P (Z 6 ϕβ ) = β
(c’est-à-dire que ϕβ = FZ−1 (β)). On dit que c’est le quantile d’ordre β.
Pour β = 1/2, ϕ1/2 est la médiane. ϕ1/4 est le premier quartile et ϕ3/4 le
troisième quartile.
On obtient ces valeurs en utilisant des calculatrices, ou des logiciels ; autre-
fois, mais encore aujourd’hui, on utilisait des tables de valeurs.
14
Pour Z ∼ N (0, 1) , les valeurs les plus couramment utilisées sont :
ϕ0,975 ≈ 1, 96 et ϕ0,90 ≈ 1, 282 ,
et surtout :
ϕ0,95 ≈ 1, 645 .
On a ϕ0 = −∞ et ϕ1 = +∞.
Comme la densité de PZ est paire (Z est symétrique), on a :
ϕ1−α = −ϕα .
On a donc :
P (−ϕ1−α 6 Z 6 ϕ1−β ) = 1 − (α + β) .
On peut bien sûr prendre α = β, mais il prendre α 6= β sera aussi utile.

Soit maintenant un n-échantillon (X1 , . . . , Xn ) de la loi N (m, σ 2 ).
2
Comme X n ∼ N m, σn , on a :
Xn − m
Z= q ∼ N (0, 1) ;
σ2
n
donc :
r r !
σ2 σ2
P − ϕ1−α 6 X n − m 6 ϕ1−β = 1 − (α + β) .
n n
Pour chaque valeur de ω ∈ Ω, l’intervalle :

r r
σ2 σ2

X n (ω) − ϕ1−α ; X n (ω) + ϕ1−β
n n
est appelé intervalle de confiance pour la moyenne m au niveau 1 − (α + β)
(1 − (α + β) est le niveau de confiance) : il y a une probabilité 1 − (α + β)
que la moyenne m soit dans cet intervalle.
15
Revenons au problème des boîtes de conserve.
Supposons que l’on ait fait n = 10 mesures indépendantes, et que l’on ait
observé les valeurs suivantes :
495 ; 497 ; 498 ; 498 ; 498 ; 501 ; 501 ; 501 ; 502 ; 504 .
Supposons aussi que l’on sache (d’une façon ou d’une autre, par exemple parce
que c’est l’imprécision due à la machine remplissant les boîtes) que l’écart-type
est σ = 1 gramme (en moyenne les contenances s’écartent de la valeur 500
grammes que de 1 gramme).
On a alors :
obs
X n = X 1 0(ω) = 499, 5 .
Choisissons (c’est le testeur qui décide de cela) de prendre un niveau de
confiance de 90% (soit 0, 9). On dit aussi que l’on prend un cœfficient de
sécurité de 90%, ou que l’on se laisse une marge d’erreur de 10%.
Il y a plusieurs façons de procéder.
1) Supposons que l’on veuille être impartial. On prendra alors α = β = 0, 05.
Comme ϕ0,95 ≈ 1, 645, on aura, aux approximations près :
r r
1 1
− × 1, 645 6 4999, 5 − m 6 × 1, 645 ,
10 10
1,645
soit, puisque √
10
≈ 0, 52 :
498, 98 6 m 6 500, 02 .
Cet intervalle de confiance ne permet pas de conclure si la contenance est res-
pectée ou non.
2) Supposons que le test soit fait par le fabricant. Il choisira α = 0 et β =
0, 10. Alors, comme ϕ0,90 ≈ 1, 282 et 1,282
√
10
≈ 0, 41, on trouve :
m > 499, 5 − 0, 41 = 499, 09 .
Avec cette façon de procéder, on ne peut rien conclure, mais un fabricant peu
scrupuleux pourra prétendre qu’il n’y a rien à lui reprocher !
3) Si le test est fait par une association de consommateurs, celle-ci prendra
β = 0 et α = 0, 10. On trouve :
m 6 499, 5 + 0, 41 = 499, 91 .
16
On peut donc dire, avec une confiance de 90%, que le fabricant ne respecte pas
la contenance.
Nous venons de supposer que l’on connaissait l’écart-type. Ce n’est en général
pas le cas. On doit alors utiliser la variance empirique. Rappelons que :
Xn − m
q ∼ Tn−1 .
V n /(n − 1)
En notant tn−1,β les quantiles de cette loi, on a donc :
s s !
Vn Vn
P − tn−1,α 6 X n − m 6 tn−1,β = 1 − (α + β) .
n−1 n−1
Dans notre exemple, on a :

10
obs 1 X 2
V n = V n (ω) = Xk (ω) − X n (ω) ≈ 6, 65 ;
10
k=1
obs
l’écart-type obervé est donc σ ≈ 2, 58. Comme t9;0,95 ≈ 1, 833, on a, avec un
niveau de confiance de 90% (α = β = 0, 05) : 497, 92 6 m 6 501, 08.
On peut vouloir aussi avoir une estimation de l’écart-type σ. Pour cela, on
utilise que σn2 V n ∼ χ2n−1 . On a donc :
n
P 2 V n 6 χ2n−1,α = α .
σ
Si l’on veut une estimation supérieure, on écrira :

2 nV n
P σ 6 2 = 1 − α.
χn−1,α
Pour α = 0, 05, on aura, avec une sécurité de 95%, en utilisant la valeur χ29;0,05 ≈
3, 325 :
10 × 6, 65
σ2 6 = 20 ,
3, 325
soit σ 6 4, 5.
Si l’on veut une estimation inférieure, on écrira :

2 nV n
P σ > 2 = α;
χn−1,α
alors, en prenant α = 0, 95, on a χ29;0,95 ≈ 16, 919 et, avec une sécurité de 95%,
on a :
10 × 6, 65
σ2 > ≈ 3, 93 ,
16, 919
soit σ > 1, 98.
La différence est importante car le nombre de mesures n = 10 est petit :
10 10 30 30
3,325 ≈ 3 et 16,919 ≈ 0, 6. Pour n = 30 : χ2 ≈ 17,708 ≈ 1, 7 et χ2 30 ≈
29;0,05 29;0,95
30
42,557 ≈ 0, 7.
17

PROBA02

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PROBA02

Transféré par

Droits d'auteur :

Formats disponibles

Université d’Artois

Faculté des Sciences Jean Perrin

1.1 Fonction caractéristique

Convention. Il est d’usage d’identifier les vecteurs de Rd à des matrices-

dans le cas d = 1, en utilisant l’unité

Corollaire 1.2 Soit Xk : Ω → Rdk , 1 6 k 6 n, des v.a. ; elles sont indépen-

Φ[X1 ,...,Xn ) (t1 , . . . , tn ) = ΦX1 (t1 ) · · · ΦXn (tn ) , ∀tk ∈ Rdk , 1 6 k 6 n.

Preuve. Le Théorème de Fubini donne :

Il est facile de voir que la v.a. X ∈ Lr (Ω; Rd ) si et seulement si :

Preuve. Il suffit de l’écrire ; on a :

chacune des composantes de AX est intégrable ; donc AX est intégrable et :

En particulier, pour tout a ∈ Rd , on a :

ou, autrement écrit :

Proposition 1.5 Soit M une matrice aléatoire et A et B deux matrices (non

Preuve. Il suffit de regarder la définition du produit des matrices.

est une matrice carrée d’ordre d, dont les termes sont :

Lorsque X, Y ∈ L2 (Ω) sont deux v.a. réelles de carré intégrable, on définit

Lorsque Y = X, on obtient la variance de X.

Proposition 1.7 La matrice de covariance est symétrique et positive. La

Preuve. La symétrie est évidente.

Lemme 1.8 Pour tout u ∈ Rd , on a :

d’où le résultat, puisque t u.[X −E (X)] = hu | X −E (X)i et que t [X −E (X)].u =

mais on a aussi, d’autre part, aX 2 + bX 3 = 0, d’où a3 + 4b ; donc a = b = 0.

cov (X, Y ) = hX − E (X) | Y − E (Y )i .

Proposition 1.9 Si X et Y sont deux v.a.r. indépendantes, alors cov (X, Y ) =

On avait déjà vu cela dans la Remarque suivant le Corollaire 14 du Cha-

Corollaire 1.10 Si X1 , . . . , Xd : Ω → R sont indépendantes, la matrice de co-

La réciproque est évidemment en général fausse, puisque le fait que la matrice

On a bien, puisque G−1 est strictement croissante :

En d’autres termes, si X = (X1 , . . . , Xd ), les v.a.r. a1 X1 +· · ·+ad Xd doivent

Proposition 2.3 Si X = (X1 , . . . , Xd ) : Ω → Rd est un vecteur gaussien, alors

puisque les applications (x1 , . . . , xd ) 7→ xk sont des formes linéaires sur Rd .

Théorème 2.4 Soit X1 , . . . , Xd : Ω → R des v.a.r. gaussiennes ; si elles sont

Preuve. Pour tous réels a1 , . . . , ad ∈ R, les v.a.r. a1 X1 , . . . , ad Xd sont encore

Théorème 2.5 Si X est un vecteur gaussien, sa fonction caractéristique vaut :

où KX est la matrice de covariance de X.

On notera que lorsque X est une v.a.r. gaussienne (d = 1), alors u ∈ R et

Lemme 2.6 Pour tout vecteur aléatoire X, on a : t u KX u = Var (t u.X).

Théorème 2.7 Si X = (X1 , . . . , Xd ) est un vecteur gaussien, alors ses

Autrement dit, si et seulement si X1 − E (X1 ), . . . , Xd − E (Xd ) sont ortho-

mais l’indépendance donne d’une part :

Théorème 2.8 (Théorème d’existence) Pour tout m ∈ Rd et toute matrice

Preuve. Il suffit de le voir pour m = 0.

E (Y.t Y ) = E (AY0 ).t (AY0 ) = E (A.Y0 .t Y0 .t A) = A.E (Y0 .t Y0 ).t A

La preuve que l’on vient de faire permet d’obtenir facilement le résultat

Corollaire 2.9 Un vecteur gaussien X : Ω → Rd possède une densité, par rap-

Théorème 2.10 (formule de changement de variable) Soit O un ouvert

via son corollaire :

Corollaire 2.11 Sous les hypothèses du Théorème 2.10, soit U : Ω → Rd une

Définition 3.1 On dit qu’une suite (X1 , . . . , Xn ) de variables aléatoires in-

Définition 3.2 Soit (X1 , . . . , Xn ) un n-échantillon d’une v.a.r. X ∈ L2 (P ).

Student est le pseudonyme de William Sealey Gosset (1876–1937).

Théorème 3.4 (Théorème de Cochran)

Remarque. Les points essentiels sont 2) et 3).

2) Commençons par nous ramener au cas centré réduit en posant Yk =

La matrice de passage a donc la forme suivante :

et elle est orthogonale, puisque les bases sont orthonormées.

KZ = E (Z.t Z) = E (U Y ).t (t U Y ) = E (t U.Y.t Y.U )

= t U E (Y.t Y ) U = t U.KY .U = t U.In .U = t U.U = In

(puisque U est orthogonale) est l’identité, en particulier diagonale, les compo-

Y12 + · · · + Yn2 = Z12 + · · · + Zn2 ;

3) Comme Z1 , . . . , Zn sont indépendantes, les deux v.a.r. :

le sont aussi. Donc X n et V n sont aussi indépendantes.

(c’est-à-dire que ϕβ = FZ−1 (β)). On dit que c’est le quantile d’ordre β.