Vous êtes sur la page 1sur 4

A́ E M́ – U́ R 1 10 ́ 2006

M́ – P́  S J-B B

Théorème de Cochran et applications en statistiques

1 Théorème de Cochran
On munit Rn de sa structure euclidienne canonique.

Théorème 1 (Cochran1 ). Soit X = t (X1 , . . . , Xn ) un vecteur gaussien centré réduit. Pour F un sous-
espace vectoriel de Rn de dimension p, on note PF (resp. PF ⊥ ) la projection orthogonale sur F (resp.
F ⊥ ).
Alors les vecteurs aléatoires PF X et PF ⊥ X sont gaussiens indépendants de lois

PF X ∼ N(0, PF ) et PF ⊥ X ∼ N(0, PF ⊥ )

De plus, les variables aléatoires kPF Xk2 et kPF ⊥ Xk2 sont indépendantes de lois

kPF Xk2 ∼ χ2p et kPF ⊥ Xk2 ∼ χ2n−p

Remarque 2. Ce théorème est un analogue “en loi” du théorème de Pythagore. L’identité kxk2 = kPF xk2 +
L
kPF ⊥ xk2 (pour x ∈ Rn ) devient en effet dans le contexte du théorème kXk2 = kPF Xk2 + kPF ⊥ Xk2 , et on a
aussi (surtout !) les lois des 2 termes de la somme.

Démonstration. Le résultat est immédiat si on l’écrit dans une base orthonormée adaptée à la somme
directe orthogonale Rn = F ⊕ F ⊥ : soit (u1 , . . . , u p ) (resp. (u p+1 , . . . , un )) une base orthonormée de F
(resp. F ⊥ ), alors u = (u1 , . . . , un ) est une base orthonormée de Rn . Notons U la matrice (orthogonale,
t U = U −1 ) de passage de la base canonique à la base u.

Les projections orthogonales sur F et F ⊥ s’expriment très simplement dans la base u :

PF = UI p t U et PF ⊥ = U Jn−p t U

où I p est la matrice diagonale avec des 1 sur les p premiers coefficients diagonaux et des 0 ensuite, et
Jn−p = Id − I p .
On pose Y = t UX. C’est encore un vecteur gaussien centré réduit (car il est de matrice de covariance
t UIdU = Id, la loi gaussienne centrée réduite est invariante par rotation), qui correspond aux coordonnées
de X dans la base u.
Pour Y, on a immédiatement que I p Y = t (Y1 , . . . , Y p , 0, . . . , 0) et Jn−p Y = t (0, . . . , 0, Y p+1 , . . . , Yn ) sont
Pp
indépendants, de lois N(0, I p ) et N(0, Jn−p ), puis que kI p Yk2 = i=1 Yi2 ∼ χ2p et kJn−p Yk2 = ni=p+1 Yi2 ∼
P

χ2n−p .
On peut alors revenir au vecteur X en remarquant que PF X = UI p Y et PF ⊥ X = U Jn−p Y sont gaus-
siens centrés indépendants de matrice de covariance respective UI p t U = PF et U Jn−p t U = PF ⊥ , puis,
comme une transformation orthogonale préserve la norme, que

kPF Xk2 = kI p Yk2 ∼ χ2p et kPF ⊥ Xk2 = kJn−p Yk2 ∼ χ2n−p


1
Je triche un peu, c’est une version simplifiée, donc plus compréhensible mais généralement suffisante en pratique, du
théorème de Cochran.
T́̀  C     Page 2

2 Statistique des échantillons gaussiens


Soit (X1 , · · · , Xn ) un échantillon de variables aléatoires réelles iid de loi N(µ, σ2 ).
On note
n
1X
X= Xi la moyenne empirique de l’échantillon
n i=1
n
1 X 2
S =
2
Xi − X la variance empirique de l’échantillon
n − 1 i=1

Théorème 3. Les variables aléatoires X et S 2 sont indépendantes, et on connait les lois de


 σ2  n
S2 X 2 √ X−µ
X ∼ N µ, ; (n − 1) 2 = Xi − X ∼ χ2n−1 ; n ∼ T n−1
n σ i=1
S

Remarque 4. On note T n la loi de Student à n degrés de liberté, qui est par définition la loi de √XZ/n , avec
X et Z indépendantes, X de loi normale centrée réduite, Z de loi du chi-deux à n degrés de liberté.
Démonstration. Soit Y = t (Y1 , . . . , Yn ) un vecteur gaussien centré réduit. On notera
n n
1X 1 X 2
Y= Yi et R2 = Yi − Y
n i=1 n − 1 i=1

On sait que Y est de loi normale centrée de variance 1n .


Soit 1 = t (1, . . . , 1) ∈ Rn et F = Vect(1). Pour tout y ∈ Rd , on note y = 1 Pn
n i=1 yi . On vérifie
immédiatement que PF (y) = y1 car y1 ∈ F et
n
X
hy − y1, 1i = (yi − y) = 0
i=1

donc y − y ∈ On en déduit que Y1 = PF Y et Y − Y1 = PF ⊥ (Y). On peut alors appliquer le théorème


F⊥.
de Cochran, en remarquant que F ⊥ est de dimension n − 1. Ainsi la variable
2 X n
2
Y − Y1 = (Yi − Y) = (n − 1)R2 ∼ χ2n−1
i=1

et est indépendante de Y. On en déduit immédiatement, par définition de la loi de Student, que


√ Y
n ∼ T n−1
R
L
On sait que X = t (X1 , · · · , Xn ) = µ + σY, soit aussi
L  σ2 
X = µ + σY ∼ N µ,
2
L
X − X1 = σ(Y − Y1) ∈ F ⊥
S2 1 2 L 2
(n − 1) 2 = 2 X − X1 = Y − Y1 = (n − 1)R2 ∼ χ2n−1
σ σ
√ X−µ L √ Y
n = n ∼ T n−1
S R
et X et S 2 sont indépendantes. 
Corollaire 5. La variable aléatoire X (resp. S 2 ) est un estimateur sans biais et convergent de µ (resp.
2 √
σ2 ). De plus, la connaissance des lois de (n − 1) σS 2 et n X−µ
S permet de construire des intervalles de
confiance pour ces estimations.

Jean-Baptiste Bardet – Université Rennes 1


T́̀  C     Page 3

3 Modèle linéaire gaussien


Soit (x1 , . . . , xn ) des valeurs fixées, et (Y1 , . . . , Yn ) un échantillons de variables aléatoires réelles dé-
finies par Yi = α + βxi + σEi où (E1 , . . . , En ) sont des vaiid gaussiennes centrées réduites.
On peut remarquer que c’est une généralisation du modèle étudié section 2, qui correspond exactement
au cas β = 0 (et α = µ). Ici aussi, le calcul sur les vecteurs gaussiens va permettre de construire des
estimateurs et des intervalles de confiance (voire des tests) pour les paramètres du modèle α, β et σ2 .
On note
n n
1X 1X
x= xi Y= Yi
n i=1 n i=1
Pn
(xi − x)Yi
B = Pi=1 A = Y − Bx
n
i=1 (xi − x)2
n
1 X
∀ x0 ∈ R , Y0? = A + Bx0 (Yi − Yi? )
2
S2 =
n − 2 i=1

Théorème 6. Les variables aléatoires Y, B et S 2 sont indépendantes, et on connait les lois de


 σ2   σ2 
Y ∼ N α + βx, B ∼ N β, Pn
n − x)2
i=1 (xi
x2 ! (x0 − x)2 
1 !
2 1

?
A ∼ N α, σ2
+ Pn 2
Y0 ∼ N α + βx0 , σ + Pn 2
n i=1 (xi − x)
n i=1 (xi − x)
S2
(n − 2) ∼ χ2n−2
σ2

Démonstration. Les deux variables aléatoires Y et B sont obtenues par combinaison linéaire des (Yi )1≤i≤n
gaussiennes indépendantes, donc sont gaussiennes de moyennes E(Y) = α+βx et E(B) = β et de variances
et covariance
n
1 X σ2
Var(Y) = Var(Yi ) =
n2 i=1 n
n
1 X σ2
Var(B) =  P (xi − x)2 Var(Yi ) = Pn
2 2 − x)2

i=1 (xi
n
i=1 (xi − x) i=1
n
1 X
Cov(Y, B) = (xi − x) = 0
− x)2
Pn
n i=1 (xi i=1

Comme Y et B sont gaussiennes indépendantes, on obtient immédiatement que A = Y − Bx et Y0? =


A + Bx0 = Y + B(x0 − x) sont gaussiennes, ainsi que leur loi.
Soit 1 = t (1, . . . , 1) et x − x1 deux
Pn vecteurs (orthogonaux) de R , et F = Vect(1, x − x1). Pour tout
d
(x −x)e ? ?
e ∈ Rd , on note e = 1n ni=1 ei , b(e) = Pi=1 i
2 et e = e1 + b(e)(x − x1). On a alors e = P F (e) ; en effet
i
P
n
i=1 (xi −x)
e? ∈ F et, comme h1, x − x1i = 0,

he − e? , 1i = he − e1, 1i = 0 et he − e? , x − x1i = he, x − x1i − b(e)kx − x1k2 = 0

On peut donc appliquer le théorème de Cochran au vecteur gaussien centré réduit E = t (E1 , . . . , En )
pour obtenir que la variable aléatoire kE − E ? k2 suit une loi du chi-deux à n − 2 degrés de liberté et est
indépendante de E et b(E).
La conclusion est alors immédiate en remarquant que Y = α + βx + σE, donc Y = α + βx + σE,
B = β + σb(E), Y ? = α + βx + σE ? , et par conséquent (n − 2) σS 2 = kE − E ? k2 .
2


Jean-Baptiste Bardet – Université Rennes 1


T́̀  C     Page 4

Comme dans le cas d’un échantillon gaussien, ce résultat permet de construire des intervalles de
confiance centrés en A, B et S 2 pour les paramètres α, β et σ2 . Je détaille en corollaire la construction
d’un intervalle de confiance pour α + βx0 , qui est la moyenne de la variable aléatoire Y0 , lorsqu’une
valeur x0 est donnée. Ça donne une région de confiance pour l’estimation de la droite de liaison linéaire,
d’équation y = α + βx, par la droite de régression linéaire, d’équation y = A + Bx.
Corollaire 7. La variable aléatoire
Y0? − α − βx0
s ∼ T n−2
1 (x0 − x)2
S + Pn 2
n i=1 (xi − x)

Un intervalle de confiance pour α + βx0 est donné par


s s
(x0 − x)2 (x0 − x)2
" #
? 1 ? 1
Y0 − tn−2 S + Pn 2
; Y0 − tn−2 S + Pn 2
n i=1 (xi − x) n i=1 (xi − x)

où tn−2 est le quantile de niveau souhaité de la loi de Student à n − 2 degrés de liberté.


Démonstration. On sait que

Y0? − α − βx0 S2
∼ N(0, 1) (n − 2) ∼ χ2n−2
σ2
s
1 (x0 − x)2
σ + Pn 2
n i=1 (xi − x)

et que S 2 est indépendante de B et de Y, donc de Y0? . On peut donc conclure par définition d’une loi de
Student. 

On peut aussi utiliser la valeur estimée Y0? pour prévoir la valeur de Y0 = α + βx0 + E0 lors d’un
tirage futur. Un intervalle de prévision sert à encadrer cette valeur. On utilise pour cela le fait que E0 est
un tirage indépendant de (E1 , . . . , En ), donc

(x0 − x)2 
!
?
 1
Y0 − Y0 ∼ N 0; σ 1 + + Pn
2
2
n i=1 (xi − x)

soit aussi
Corollaire 8. La variable aléatoire
Y0 − Y0?
s ∼ T n−2
1 (x0 − x)2
S 1 + + Pn 2
n i=1 (xi − x)

Un intervalle de prédiction pour Y0 est donné par


s s
2
(x0 − x)2
" #
? 1 (x 0 − x) ? 1
Y0 − tn−2 S 1 + + Pn 2
; Y0 − tn−2 S 1 + + Pn 2
n i=1 (xi − x) n i=1 (xi − x)

où tn−2 est le quantile de niveau souhaité de la loi de Student à n − 2 degrés de liberté.


Remarque 9. Par exemple, pour tn−2 tel que P(|T n−2 | > tn−2 ) = 0.05, l’intervalle de prédiction contiendra
environ (car Y0? n’est qu’une estimation de la vraie moyenne α + βx0 au vu des observations précédentes)
95% des tirages de variables indépendantes de même loi que Y0 .

Jean-Baptiste Bardet – Université Rennes 1

Vous aimerez peut-être aussi