Regmultipleslidesb

ECO 4272 : Introduction à l’Économétrie
Le modèle de régression multiple
Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler
Hiver 2018
Objectifs
1. Présenter le modèle de régression multiple.

2. Dériver l’estimateur MCO.
3. Étudier ses propriétés algébriques.
4. Regarder les hypothèses statistiques du modèle et analyser
leurs conséquences (absence de biais, convergence, efficience).
5. Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs
homoscédastiques.
6. Analyser les tests d’hypothèse simples et le calcul
d’intervalles de confiance dans le cadre du modèle.
7. Les tests d’hypothèses jointes et les ensembles de confiance.
Introduction
I Presque rien de nouveau par rapport au modèle de régression

simple.
I Quasiment un rappel de la matière d’avant l’examen intra.
I Introduction et utilisation de la notation matricielle.
I Nouveau concept : tester les hypothèses jointes.
Biais dû à une variable omise
I Façon de motiver le modèle de régression multiple.

I Si nous omettons un ou des facteurs qui ont un impact sur la
variable dépendante, l’estimé de l’impact de la variable
explicative d’intérêt peut être biaisé.
Biais dû à une variable omise (suite)
I L’estimateur β̂1 est égal à

1 Pn

n i=1 Xi − X̄ ui
β̂1 = β1 + 2 .
1 Pn
n i=1 Xi − X̄
I Modifions les hypothèse statistiques :

n
1X p
Xi − X̄ ui −
→ Cov (u , X ) = Corr (u , X ) σu σX ,
n
i=1
et
n
1X 2 p 2
Xi − X̄ − → σX .
n
i=1
Biais dû à une variable omise (suite)
I On a
p Corr (u , X ) σu σX σu
β̂1 −
→ β1 + 2
= β1 + Corr (u , X ) .
σX σX
I L’estimateur ne converge plus à β1 en probabilité.

I Le signe du biais dépend (même lorsque n → ∞) du signe de
la corrélation entre Xi et ui .
I Notez que dans ce cas-ci
E (ui |X = Xi ) 6= 0.
I S’il y a une variable dans la banque de données qui en principe

pourrait affecter la variable dépendante de l’étude et qui
risque d’être corrélée avec une variable qui est incluse comme
variable explicative dans le modèle, il y a probablement un
problème de variable omise.
Exemple
I Nous pouvons être encore plus explicite.

I Suppons que le vrai modèle est donné par
Yi = β0 + β1 X1i + β2 X2i + ui
I Le modèle estimé est
Yi = β0 + β1 X1i + ũi
I Le terme d’erreur du modèle estimé incorpore la variable

omise X2i avec le vrai terme d’erreur ui .
Exemple (suite)
I Nous avons
Pn
1
− X¯1

n i=1 X1i Yi − Ȳ
β̂1 = 2 =
1 Pn
n i=1 X1i − X¯1
Pn
1
X1i − X¯1

n i=1 β0 + β1 X1i + β2 X2i + ui − β0 − β1 X̄1 − β2 X̄2 −
1 Pn ¯ 2

n i=1 X1i − X1
Pn 2 1 Pn
1
X1i − X¯1 ¯ X2i − X¯2

i=1 i=1 X1i − X1
= β1 n 2 + β 2
n
¯1 2
Pn 1 Pn
1
X1i − X¯1

n i=1 n i=1 X1i − X
1 Pn ¯

X1i − X1 (ui − ū)
+ n i=1 2
1 Pn
n i=1 X1i − X¯1
Exemple (suite)
I ce qui doit enfin être égal à
1 Pn ¯ X2i − X¯2

n i=1 X1i − X1
= β1 + β2
1 Pn ¯ 2

n i=1 X1i − X1
Pn
1
− X¯1 (ui − ū)

n i=1 X1i
+ 2 .
1 Pn
n i=1 X1i − X¯1
I Calculant l’espérance de β̂1 , nous obtenons

1 Pn
!
¯1 X2i − X¯2

X 1i − X
Eβ̂1 = β1 + β2 E n i=1Pn
1 ¯1 2

n i=1 X1i − X
Pn !
1
X1i − X¯1 E ((ui − ū) |X11 , X12 , . . . , X1n )

n i=1
+E +
1 Pn ¯ 2

n i=1 X1i − X1
Exemple (suite)
I ce qui doit enfin être égal à

Pn !
1 ¯1 X2i − X¯2

n i=1 X 1i − X
= β1 + β2 E
1 Pn ¯ 2

n i=1 X1i − X1
par la loi des espérances itérées.

I En général
Pn !
1 ¯ X2i − X¯2

n i=1 X1i − X1
E 2 6= 0.
1 Pn
n i=1 X1i − X¯1
I L’estimateur est biaisé, le biais étant donné par la valeur de

l’espérance dans l’équation précédente.
Exemple (suite)
I Nous avons
n
1X
X1i − X¯1 X2i − X¯2

n
i=1
qui est (presque) la covariance échantillonnale entre X1 et X2 .

I Et
n
1X 2
X1i − X¯1
n
i=1
est (presque) la variance échantillonnale de X1 .

Exemple (suite)
I Si les deux expressions sont des estimateurs convergents de

leurs équivalents dans la population, nous avons :
n
1X p
X1i − X¯1 X2i − X¯2 −

→ Cov (X1 , X2 )
n
i=1
I et
n
1X 2 p
X1i − X¯1 − → Var (X1 ) .
n
i=1
Exemple (suite)
I Théorème de Slutsky =>
p Cov (X1 , X2 )
β̂1 −
→ β1 + β2
Var (X1 )
I L’écart entre β̂1 et sa vraie valeur est approximativement

égale à la vraie valeur de β2 fois le ratio de la covariance entre
X1 et X2 et la variance de X1 .
I Si on connaı̂t au moins le signe de β2 et de la covariance, on
peut prédire le signe de cet écart. Aussi, nous savons que
Cov (X1 , X2 )
Var (X1 )
est la valeur (asymptotique) du coefficient de pente d’une

régression où X2 est la variable dépendante et X1 est la
variable explicative.
Modèle de régression multiple
I Modèle :
Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .
I Version matricielle :
Y = X β + U,
I Il faut définir les matrices/vecteurs (page suivante).

Modèle de régression multiple (suite)
0
Y ≡ Y1 Y2 . . . Yn
 
1 X11 X21 . . . Xk1
 1 X12 X22 . . . Xk2 
X ≡ . ..  ,
 
.. .. ..
 .. . . . . 
1 X1n X2n . . . Xkn
0
β ≡ β0 β1 β2 . . . βk
0
U≡ u1 u2 . . . un
Estimateur MCO
I Problème de minimisation :
min U 0 U.
β
I Remplaçons U par sa définition.
min (Y − X β)0 (Y − X β) .
β
I Équivalent à :
min Y 0 Y − β 0 X 0 Y − Y 0 X β + β 0 X 0 X β .

β
Estimateur MCO (suite)
I CPOs (dérivée par rapport à β) :

0
−X 0 Y − X 0 Y + X 0 X β + X 0 X β=0
⇒ 2X 0 X β − 2X 0 Y = 0
⇒ X 0X β = X 0Y .
I Nous avons k + 1 équations linéaires pour trouver k + 1

inconnus (les éléments de β).
I Nous appelons communément ces équations les équations
normales.
Estimateur MCO (suite)
I Nous obtenons
−1 −1
X 0X X 0X β = X 0X X 0 Y = β.
I Résultat fondamental :
−1
β̂ = X 0 X X 0Y
Différentiation matricielle
I Application de :
∂y
y ∂x
Ax A0
x 0A A
x 0x 2x
x 0 Ax Ax + A0 x
I Étudiez bien la CPO pour comprendre pourquoi c’est une
application de ces règles.
I Étudiez bien les exemples simples dans les notes.
Approche non matricielle
I Le problème est
n
X
min (Yi − β0 − X1i β1 − X2i β2 − . . . − Xki βk )2 .
β0 ,β1 ,...,βk
i=1
I CPOs :
n
X
β0 : 0 = −2 (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1
n
X
βj : 0 = −2 Xji (Yi − β0 − X1i β1 − . . . − Xki βk )
i=1
pour j 6= 0.
I k + 1 équations (linéaires) en k + 1 inconnus.
Approche non matricielle (suite)
I Nous obtenons
n
X n
X
Yi = (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X1i Yi = X1i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X2i Yi = X2i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
...
n
X n
X
Xki Yi = Xki (β0 + X1i β1 + . . . + Xki βk ) .
i=1 i=1
I Nous pouvons maintenant convertir en notation matricielle.

 
Y1
1 . . . 1  ...  = 1 . . . 1 X β̂;
 
Yn
 
Y1
 . 
X11 . . . X1n  ..  = X11 . . . X1n X β̂;
Yn
..
.
 
Y1
 . 
Xk1 . . . Xkn  ..  = Xk1 . . . Xkn X β̂,
Yn
I On empile les k + 1 équations les unes pardessus les autres :

   
1 ... 1   1 . . . 1
 X11 . . . X1n 
 Y1
 X11 . . . X1n 
  
 X21
 . . . X2n   ...  = 
  
 X21 . . . X2n  X β̂

 .. .. ..   .. .. .. 
 . . .  Yn  . . . 
Xk1 . . . Xkn Xk1 . . . Xkn
⇒ X 0 Y = X 0 X β̂
⇒ β̂ = (X 0 X )−1 X 0 Y .
I On obtient la même solution (pas surprenant).

Propriétés algébriques de l’estimateur MCO
I Plus facile de les dériver en notation matricielle.
I Orthogonalité : les équations normales sont
X 0 X β̂ = X 0 Y

⇒ X 0 X β̂ − Y = 0

⇒ X 0 Y − X β̂ = 0.
Y − X βb ≡ U.
b
Donc, nous avons :

X 0 Ub = 0.
I Une conséquence directe est que la somme des résidus est

égale à zéro.
Orthogonalité (suite)
I Même interprétation géométrique que dans le modèle de
régression simple.
Figure 1
Propriétés algébriques (suite)
I Définissons
Ŷ ≡ X β̂,
I Nous avons
−1 0 0 −1 0
Ŷ 0 Ub = X X 0 X X Y Ub = Y 0 X X 0 X X Ub = 0.
I Les valeurs prédites de Y sont orthogonales aux résidus.

I Finalement, nous avons
−1 0
X 0 Yb − Y = X 0 X X 0 X X Y −Y
−1
= X 0X X 0X X 0 Y − X 0 Y = X 0 Y − X 0 Y = 0.
I Conséquence : la moyenne échantillonnale des valeurs prédites

est égale à Ȳ .
Écart type de la régression
I On définit
SER ≡ su ,
où
n
1 X SSR Ub0 Ub
su2 ≡ ûi2 = = .
n−k −1 n−k −1 n−k −1
i=1
I Donc SSR est la somme des résidus au carré. On divise par

(n − k − 1) afin d’obtenir un estimé non biaisé de la variance
de l’erreur dans l’équation de régression (si les erreurs sont
homoscédastiques).
Ajustement statistique
I La mesure R 2 est définie de la même façon que dans le cas du

modèle de régression simple :
ESS SSR
R2 = =1− ,
TSS TSS
où on définit
n
X 2
ESS ≡ Ŷi − Ȳ ,
i=1
où Ȳ est la moyenne échantillonnale des Yi , et

n
X 2
TSS ≡ Yi − Ȳ
i=1
Ajustement statistique (suite)
I Il faut montrer que TSS = ESS + SSR.
I Puisque Y ≡ Ŷ + U,b nous avons
0
TSS = Y − Ȳ Y − Ȳ
0
= Ŷ + Ub − Ȳ Ŷ + Ub − Ȳ
0
= Ŷ − Ȳ + Ub Ŷ − Ȳ + Ub
0 0
= Ŷ − Ȳ Ŷ − Ȳ + Ŷ − Ȳ Ub + Ub0 Ŷ − Ȳ + Ub0 Ub
0
= Ŷ − Ȳ Ŷ − Ȳ + Ub0 Ub
≡ ESS + SSR,
ce qui fut à démontrer.
I R 2 est aussi égal à la corrélation (échantillonnale) au carré

entre Y et Ŷ .
I Pour rendre la preuve plus facile, introduisons un peu de
notation. −1 0
M 0 ≡ I − i i 0i i .
I On a
M 0 Y = Y − Ȳ,
0
M 0 = M 0, et M 0M 0 = M 0.
I M 0 est une matrice idempotente.

I Nous pouvons réécrire le R 2 comme

0
ESS Ŷ − Ȳ Ŷ − Ȳ
R2 ≡ = 0
TSS

Y − Ȳ Y − Ȳ
Ŷ 0 M 0 Ŷ
= .
Y 0M 0Y
Nous avons aussi
M 0 Û = Û
puisque la somme des résidus est zéro.
I Donc, nous avons

Ŷ 0 M 0 Ŷ = Ŷ 0 M 0 Y − Û
= Ŷ 0 M 0 Y − Ŷ 0 M 0 Û
= Ŷ 0 M 0 Y − Ŷ 0 Û
= Ŷ 0 M 0 Y − β̂ 0 X 0 Û
(puisque Ŷ ≡ X β̂)
= Ŷ 0 M 0 Y − 0 = Ŷ 0 M 0 Y
puisque X 0 Û = 0 (orthogonalité entre les variables expicatives

et les résidus).
I Nous pouvons donc écrire le R 2 comme
Ŷ 0 M 0 Y
R2 =
Y 0M 0Y
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
Y 0 M 0 Y Ŷ 0 M 0 Y
(multipliant numérateur et dénominateur par la même chose)

Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
(Y 0 M 0 Y ) Ŷ 0 M 0 Y

Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
= .
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ
I On peut réécrire ceci en notation non matricielle pour obtenir

Ŷ 0 M 0 Y Ŷ 0 M 0 Y Ŷ 0 M 0 M 0 Y Ŷ 0 M 0 M 0 Y
=
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ (Y 0 M 0 M 0 Y ) Ŷ 0 M 0 M 0 Ŷ
P
n
2
i=1 Ŷi − Ȳ Yi − Ȳ
= 2
Pn 2 Pn
i=1 Yi − Ȳ i=1 Ŷi − Ȳ

1 Pn 2
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
= 2
1 Pn 2 1 Pn

n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
 2
1 Pn
 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
= r 
q Pn 2 2
1 1 Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
2
≡ Corr Y , Ŷ .
I Le R 2 nous dit à quel point le modèle de régression permet de

prédire les variations de la variable dépendante autour de sa
moyenne (mesuré par la corrélation entre les valeurs prédites
et les valeurs réalisées).
I Dans le cas du modèle de régression simple, nous avons

Ŷi − Ȳ = Xi − X̄ β̂1 .
I Nous avons tout de suite

 2
1 Pn

 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
 r 
q
2
2 
1 P n 1 P n
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
 2
1 Pn
 n−1 i=1 Xi − X̄ β̂1 Yi − Ȳ 
=
q r

2 
1 Pn 2 1 P n
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄ β̂1
 Pn 2
1

n−1 i=1 Xi − X̄ Yi − Ȳ
= q Pn 2 q 1 Pn 2

1
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄
2
≡ Corr (Y , X )
2
⇒ R 2 = Corr (Y , X ) .
I On voit que le résultat trouvé dans le chapitre sur le modèle

de régression simple n’est qu’un cas spécial du résultat général
développé ici.
R 2 ajusté
I Ajouter une variable explicative au modèle ne peut que faire

augmenter R 2 .
I Avec autant de variables explicatives que d’observations
((k + 1) = n), on aura R 2 = 1. X est alors une matrice carrée
et on a
0 = U = Y − X β̂
⇒ Y = X β̂.
⇒ β̂ = X −1 Y .
I Donc, un R 2 élevé n’est pas toujours et partout une bonne

chose.
R 2 ajusté (suite)
I Une autre mesure qui pénalise l’ajustement lorsqu’on ajoute

des variables explicatives.
n − 1 SSR s2
R̄ 2 ≡ 1 − = 1 − 2û .
n − k − 1 TSS sY
I Trois propriétés importantes du R̄ 2 .

n−1
1. n−k−1 > 1, et donc R̄ 2 < R 2 .
2. Ajouter une variable explicative supplémentaire a deux effets
sur R̄ 2 . 1) SSR doit baisser, ce qui fait augmenter R̄ 2 . 2) Le
n−1
facteur n−k−1 augmente, ce qui fait diminuer R̄ 2 . L’effet net
est ambigu.
3. R̄ 2 peut être négatif.
R 2 ajusté (suite)
I La définition du R 2 ajusté semble arbitraire.

I Elle a une justification statistique.
I Si on ajoute une variable explicative additionnelle Xk+1 à un
modèle, on peut tester sa significativité.
I Si la statistique t normalisée pour le test à une valeur absolue
supérieure à 1, le R 2 ajusté augmente. Si non, il diminue.
I Nous allons revenir à cette question après la section sur les
tests d’hypothèse.
Propriétés statistiques de l’estimateur MCO
I Hypothèses de base :
1. E (ui |Xi ) = 0.
2. (Xi , Yi ) i.i.d.
3. Xi et ui ont des quatrièmes moments non nuls et finis.
4. X est de rang plein en colonnes. En fait, cette hypothèse est
nécessaire pour que l’estimateur MCO existe.
I Hypothèses additionnelles :
1. Var (ui |Xi ) = σu2 .
2. La distribution de ui conditionnelle à la valeur de Xi suit une
loi normale.
Absence de biais
I Nous avons
β̂ = (X 0 X )−1 X 0 Y
= (X 0 X )−1 X 0 (X β + U)
= β + (X 0 X )−1 X 0 U

→ E β̂ = β + E (X 0 X )−1 X 0 U

= β + E (X 0 X )−1 X 0 E (U|X ) = β.

La dernière égalité dépend de la loi des espérances itérées.

Théorème de Slutsky
p p
I Sous certaines conditions, Xn −
→ X ⇒ h (Xn ) −
→ h(X ).
I En général,
Zn = f (Xn , Yn ) ,
p p
→ X et Yn −
et si Xn − → Y , alors
p
Zn −
→ f (X , Y ).
p
I Convergence en probabilité et en distribution. Si an −
→ a où a
d
est une constante et si Sn −
→ S, alors
d
an + Sn −
→ a + S,
d
an Sn −
→ aS,
et si a 6= 0,
Sn d S
−
→ .
an a
Convergence
I Nous avons
β̂ = (X 0 X )−1 X 0 Y
= (X 0 X )−1 X 0 (X β + U)
= β + (X 0 X )−1 X 0 U
(X 0 X ) −1 (X 0 U)
→ β̂ − β =
n n
Nous avons divisé et multiplié par le scalaire n afin de pouvoir
0
parler de convergence en probabilité. (XnX ) est une matrice
dont l’élément i, j est donné par
n
Xi 0 Xj 1X
= Xi−1,l Xj−1,l .
n n
l=1
Convergence (suite)
I Par une des hypothèses du modèle de régression multiple,
nous avons
Xi 0 Xj
= E Xi 0 Xj .

lim
n→∞ n
I Ceci veut dire qu’il y a convergence en probabilité vers

0
l’espérance de Xi 0 Xj . Donc, (XnX ) converge en probabilité à
Qx , qui est définie comme
0
XX
Qx ≡ E .
n
I Donc, le premier terme converge en probabilité à
(Qx )−1
Convergence (suite)
I Le 2e terme converge en probabilité à zéro. Voici l’argument.
0 0
(X U) (X E (U|X ))
E =E = 0.
n n
I Si on considère l’ième colonne de la matrice X , nous avons

n
2 2 !
1 0 1 1 X
Var Xi 0 U =

Var Xi U = Var Xi−1,l Ul
n n n
l=1
n
2 X
1
= Var (Xi−1,l Ul ) .
n
l=1
Définissons Xi−1,l Ul ≡ Vi,l . Nous avons
2 X n 2
1 0 1 1
Var Xi U = Var (Vi,l ) = nVar (Vi )
n n n
l=1

1
= Var (Vi ) .
n
Convergence (suite)
I Avec une espérance de zéro et une variance qui tend vers zéro,
on a (presque) la preuve de la convergence :
(X 0 U) p
−
→ 0.
n
I Les hypothèses du théorème de Slutsky sont satisfaites, donc

la limite de probabilité du produit est le produit des limites de
probabilité. Donc, nous avons :
p
β̂ − β −→ 0.
Covariances en notation matricielle
I Notation matricielle pour les covariances. Considérons
(Y − E(Y )) (Y − E(Y ))0 .
I L’élément (i, j) est :
(Yi − E (Yi )) (Yj − E (Yj )) .
I Donc son espérance est une covariance (variance si i = j).
E ((Yi − E (Yi )) (Yj − E (Yj )))
I Donc, la matrice suivante contient toutes les variances et

covariances possibles entre les éléments de Y .
E (Y − E(Y )) (Y − E(Y ))0 .

Distribution échantillonnale de β̂
I Nous avons √
n β̂ − β
−1
(X 0 X ) (X 0 U)

= √ .
n n
I Nous avons déjà vu que

E β̂ − β = 0.
I Donc, une expression qui nous donne

la matrice de
√
variance-covariance de n β̂ − β est donnée par :
0
E n β̂ − β β̂ − β
Distribution échantillonnale de β̂ (suite)
I Nous devons examiner le comportement en grand échantillon

de
0 −1 0 ! 0 −1 0 !0
(X X ) (X U) (X X ) (X U)
√ √
n n n n
−1 0 −1
(X 0 X ) (X 0 U) (X 0 U) (X 0 X )

= √ √ .
n n n n
−1
(X 0 X )
p
I Nous avons déjà vu que n → (Qx )−1 . Regardons
−
0
(X 0 U) (X 0 U)

√ √ .
n n
I Nous avons :
 
ui
n 
 X1i ui 
 X n
X
(X 0 U) = X2i ui ≡ Vi .
 


i=1 
.. 
i=1
. 
Xki ui
I Selon le Key Concept 18.1 , les Vi sont i.i.d., donc

n
1X p
Vi −
→ 0,
n
i=1
n
1 X d
√ Vi −
→ N (0 , ΣV ) ,
n
i=1
ΣV ≡ E Vi Vi 0 .

I Donc (théorème de Slutsky)

√
d
→ N 0k+1 , Qx −1 ΣV Qx −1 ,

n β̂ − β −
Cas homoscédastique
I Nous pouvons écrire
E UU 0 = σu2 In .

Nous avons 0 0
(X 0 U)

(X U)
√ √
n n
0
X UU 0 X p

1 2 0 1 2 0
= −
→E σ X In X = E σ X X = σu2 Qx .
n n u n u
I Donc
√
d
→ N 0k+1 , σu2 Qx −1 Qx Qx −1 = N 0k+1 , σu2 Qx −1 .

n β̂ − β −
Estimateurs convergents
I Nous remplaçons QX avec
(X 0 X )
Q̂x ≡ .
n
I Nous remplaçons ΣV avec

n
1 X
Σ̂V ≡ Xi Xi 0 (ûi )2
n−k −1
i=1
I Nous pouvons finalement écrire

−1
1 −1
β̂ ≈ N β , Q̂x Σ̂v Q̂x ≡ N β , Σ̂β̂ .
n
I Un estimateur convergent de σu2 est donné par

n
1 X
su2 ≡ ûi2 .
n−k −1
i=1
Nous utilisons le même estimateur de Qx , et donc

1 −1 2 −1
β̂ ≈ N β , Q̂x su Q̂x Q̂x ≡ N β , Σ̃β̂ ,
n

1 2 −1
β̂ ≈ N β , su Q̂x ≡ N β , Σ̃β̂ ,
n
Gauss-Markov
I Dans le cas homoscédastique, si β̃ est n’importe quel

estimateur linéaire et non biaisé de β, il faut que

Var c 0 β̂ ≤ Var c 0 β̃
pour toute combinaison linéaire c 0 β.

I Il y a une preuve dans la section 18.5 du manuel.
I Notez que cette preuve ne suppose pas la normalité du terme
d’erreur. Voir Giles (2011b).
I Il y a aussi une preuve simple si on suppose que les variables
explicatives X sont fixes ou non stochastiques. Voir la page
suivante.
Gauss-Markov : preuve
I Soit β̃ = CY un autre estimateur linéaire de β.

I On suppose que C peut s’écrire C = (X 0 X )−1 X 0 + D où D
est une matrice non nulle.
I Nous avons
−1
E (CY ) = E X 0X X 0 + D (X β + U)
−1 −1 0
= X 0XX0 + D Xβ + E X 0X X +D U
−1 0
= β + DX β + E X 0X X + D E (U|X )
= β + DX β
Gauss-Markov : preuve (suite)
I Nous voulons prouver que β̂ a la plus petite variance parmi les

estimateurs non biaisés. Il faut donc que DX = 0
I Nous avons
Var (CY |X , D) = C Var (Y |X , D) C 0
= C Var (U|X ) C 0 = σu2 CC 0

−1 0 −1 −1 0 0
= σu2 X 0 X X X X 0X + X 0X XD
−1
+DX X 0 X + DD 0
−1
= σu2 X 0 X + σu2 DD 0
où DD 0 est positive semi-définie.
Gauss-Markov : preuve (suite)
I Nous avons
Var β̃ − Var β̂ = σu2 DD 0

⇒ Var c 0 β̃ − Var c 0 β̂ = σu2 c 0 DD 0 c ≥ 0,
ce qui fut à démontrer.

Tests d’hypothèses simples par rapport à un seul coefficient
I Nous utilison la statistique t donnée par
β̂i − βiH0
t= .
sβ̂i
I Toute la discussion du chapitre sur la statistique et l’inférence

s’applique. Nous avons
t ∼ N (0 , 1) .
I Si H1 : βi 6= βiH0 nous avons
Φ (−|t a |) = Pr (t ≤ −|t a |)
!
β̂i − βiH0
= Pr t ≤ − .
sβ̂i
Tests d’hypothèses simples : H1 unilatérale 1
I On a
H0 : βi = βiH0
et
H1 : βi > βiH0 ,
I La p-value du test est donnée par
p = Pr z > t act = 1 − Φ t act .

Tests d’hypothèses simples : H1 unilatérale 2
I On a
H0 : βi = βiH0
et
H1 : βi < βiH0 ,
I La p-value du test est donnée par
p = Pr z < t act = Φ t act .

Tests par rapport à une combinaison linéaire de coefficients
I Modèle en notation non matricielle :
I Nous voulons tester la restriction suivante :
H0 : β1 + β2 = 1,
contre
H1 : β1 + β2 6= 1.
Combinaison linéaire de coefficients (suite)
I Version équivalente au modèle original :
Yi = β0 + X1i (β1 + β2 ) + (X2i − X1i ) β2 + . . . + Xki βk + ui .
I Nous pouvons réécrire le modèle comme
Yi = β0 + X1i γ1 + Zi β2 + . . . + Xki βk + ui ,
où Zi ≡ X2i − X1i et γ1 ≡ β1 + β2 .

I Tester H0 : β1 + β2 = 1 revient à tester H0 : γ1 = 1.
Les tests séquentiels ne sont pas valides
I Supposons que nous voulons tester l’hypothèse jointe
suivante :
H0 : β1 = β2 = 0.
contre
H1 : ∃i, i = 1, 2 tel que βi 6= 0.
I Pourquoi pas tester les 2 hypothèses de façon séquentielle ?
β̂1 − β1H0
t1 = ,
sβ̂1
β̂2 − β2H0
t2 = .
sβ̂2
I On pourrait rejeter si une des deux hypothèses est rejetée par

un test d’hypothèse simple.
Les tests séquentiels ne sont pas valides (suite)
I Le problème avec cette idée est qu’il s’agit de distributions de

probabilité jointes.
I Prenons le cas simple où les 2 coefficients sont
indépendamment distribués.
I Dans les deux cas, on ne rejetterait pas l’hypothèse nulle à un
niveau de significativité marginal de 5% si |t1 | < 1.96 et
|t2 | < 1.96.
I La probabilité d’obtenir au moins un rejet en effectuant deux
tests si les hypothèses nulles sont vraies serait égale à
1 − 0.952 .
I Il faudrait au moins ajuster le niveau de significativité
marginal.
Test Bonferroni
I L’annexe (7.1) du livre décrit une façon d’ajuster les niveaux

de significativité marginaux pour tenir compte de la
corrélation non nulle entre les coefficients.
I Cette méthodologie peut être utile dans certains cas,
notamment lorsqu’on lit les résultats de régressions rapportés
dans des articles publiés ou des cahiers de recherche où on ne
donne pas la matrice variance-covariance complète des
coefficients estimés.
Test Bonferroni
I Choisir une valeur critique où la probabilité de rejeter H0 ne
dépasse pas la probabilité de la rejeter si on tient compte de la
non-indépendance entre les hypothèses faisant partie de
l’hypothèse jointe.
I On rejette H0 si on rejette au moins une des hypothèses
individuelles.
I Cas de 2 hypothèses simples : appelons A l’événement que
nous rejetons la première hypothèse, et B l’événement que
nous rejetons la 2e hypothèse simple :
Pr (A ∪ B) ≤ Pr (A) + Pr (B) ,
I Avec des p-values identiques, on va choisir des p-values tel

que leur somme soit égale à la p-value désirée du test joint.
I Le test Bonferroni est très conservateur : minimiser la
probabilité de rejeter H0 (jointe) lorsqu’elle est vraie.
Tests d’hypothèses jointes
I Reprenons l’exemple de la sous-section précédente.
L’hypothèse nulle à tester est
H0 : β1 + β2 = 1,
I Nous pouvons écrire cette hypothèse sous forme matricielle de

la façon suivante :
 
β0
 β1 
 
 β 2

0 1 1 0 ... 0  β  = 1
 
 3 
 .. 
 . 
βk
I Ceci est de la forme :

Rβ = r ,
Tests d’hypothèses jointes (suite)
I Prenons un cas où le nombre d’hypothèses est égal à deux.
H0 : β 1 = β 2 = 0
et
H1 : ∃i, i = 1, 2 tel que βi 6= 0.
I Sous forme matricielle, nous avons

 
β0
 β1 
 
β2

0 1 0 0 ... 0  0
 
H0 : = .

0 0 1 0 ... 0 
 β3  0
 .. 
 . 
βk
Tests d’hypothèses jointes (suite)
I On peut montrer que la statistique suivante obéit, (en grand
échantillon et sous H0 ) à une loi Fq,∞ :
0 h i−1
F ≡ R β̂ − r R Σ̂β̂ R 0 R β̂ − r /q.
I Ici, on a q le nombre de restrictions que l’on veut tester et Σ̂β̂

la matrice variance-covariance de l’estimé β̂.
I Dans l’exemple que nous venons d’étudier, q = 2, et donc
d
F −
→ Fq,∞ .
I La plupart des logiciels de régression, dont R offrent la

possibilité de spécifier les équivalents de R et r afin de tester
des hypothèses jointes quelconques.
Une seule restriction comme cas spécial
I Dans les cas q = 1, la statistique F est le carré de la

statistique t.
I Nous ne pouvons pas faire la distinction entre une statistique
t qui serait grande en valeur absolue et négative et une
statistique t grande en valeur absolue et positive.
I Pour illustrer l’équivalence prenons l’exemple H0 : β1 = 0.
Sous forme matricielle
 
β0
 β1 
 
0 1 0 . . . 0  β2 
 
 .. 
 . 
βk
= β1 = 0.
Une seule restriction comme cas spécial (suite)
I Nous avons dans ce cas
  −1
0




 1 

0

F = β̂1 − 0  0 1 0 . . . 0 Σ̂β̂  β̂1 − 0 .
  

  .. 
  . 
0
I On peut montrer (exercice) que

 
0

 1 

0  = σ̂β̂21 ,

0 1 0 ... 0 Σ̂β̂ 
 
 .. 
 . 
0
I Donc, nous avons
!2
β̂1 − 0
F = = t 2.
sβ̂1
I Deuxième exemple :
H0 : β1 + β2 = 1.
I Sous forme matricelle :

 
β0

 β1 

 β2 
0 1 1 0 ... 0   = β1 + β2 = 1.
 
 β3 
 .. 
 . 
βk
I Dans ce cas
 0  −1
0 0

 1 


 1 

 1   1 
F = β̂1 + β̂2 − 1   Σ̂β̂  β̂1 + β̂2 − 1 .
   
 0   0 

 ..   .. 
 .   . 
0 0
I On peut vérifier que

 
0

 1 

 1 
 = sβ̂21 + sβ̂22 + 2sβ̂1 ,β̂2

0 1 1 0 . . . 0 Σ̂β̂ 
 
 0 
 .. 
 . 
0
I Ici, sβ̂1 ,β̂2 est l’élément hors-diagonale de la matrice

variance-covariance, un estimé convergent de la covariance
entre β̂1 et β̂2 .
I Il s’agit donc de l’estimateur convergent de la variance de
β̂1 + β̂2 .
I La statistique F devient
2
β̂1 + β̂2 − 1
F = = t 2.
s 2 + s 2 + 2sβ̂1 ,β̂2
β̂1 β̂2
I On voit l’équivalence entre la statistique F et le carré de la

statistique t.
Significativité de la régression
I Souvent, on veut tester l’hypothèse nulle selon laquelle tous
les coefficients de la régression sauf la constante sont égaux
à zéro.
I Nous pouvons écrire cette restriction sous forme matricielle
sans problème avec
 
0 1 0 0 ... 0
 0 0 1 0 ... 0 
 
R =  0 0 0 1 ... 0 ,
 
 .. .. .. .. . . .. 
 . . . . . . 
0 0 0 0 ... 1
et  
0

 0 

r =
 0 .

 .. 
 . 
0
I Rien de différent par rapport au cas général. On remplace Σ̂β̂

par Σ̃β̂ .
I Donc, nous avons :
0 h i−1
F ≡ R β̂ − r R Σ̃β̂ R 0 R β̂ − r /q,
I Alternative : estimer le modèle sous l’hypothèse nulle et sous

l’hypothèse alternative, et utiliser la formule suivante :
(SSRrestricted − SSRunrestricted ) /q
F = .
SSRunrestricted / (n − kunrestricted − 1)
Cas homoscédastique (suite)
I Formule équivalente :
2 2

Runrestricted − Rrestricted /q
F = 2
,
1 − Runrestricted / (n − kunrestricted − 1)
I Vous devriez montrer algébriquement comment passer de la

première à la deuxième version de ce test. La démonstration
est en fait très simple.
I Nous n’allons pas montrer formellement pourquoi les
statistiques F dans le cas homoscédastique peuvent être
écrites sous cette forme. Voir par exemple Greene (2000).
I Un exemple concret. Soit le modèle de régression multiple
standard
I Nous voulons tester H0 : β1 + β2 = 1. Isolant β2 nous donne

β2 = 1 − β1 .
I Substituant dans le modèle, nous donne

Yi = β0 + X1i β1 + X2i (1 − β1 ) + . . . + Xki βk + ui ,
ou
Yi − X2i = β0 + (X1i − X2i ) β1 + X3i β3 + . . . + Xki βk + ui .
I Le modèle à estimer devient

Ỹi = β0 + Zi β1 + X3i β3 + . . . + Xki βk + ui .
I La loi F est définie seulement pour des valeurs positives de la

variable aléatoire.
I Les estimés MCO du modèle contraint proviennent de la
solution à un problème de minimisation contraint, où la
contrainte est l’hypothèse nulle que nous voulons tester.
I Les estimés MCO du modèle non contraint proviennent de la
solution à un problème de minimisation où cette contrainte
n’est pas imposée.
I Donc la somme des résidus carrés du modèle contraint doit
être au moins aussi élevée que pour le modèle non contraint,
et la statistique F calculée par une des formules ou par l’autre
doit être positive.
I L’extension au cas d’hypothèses jointes est directe.
Test de significativité de la régression (homoscédasticité)
I Dans ce cas, lu modèle contraint prend la forme
Yi = β0 + ui .
I On sait que β̂0 = Ȳ .

I Nous avons
n
X 2
TSS ≡ Yi − Ȳ
=1
n
X 2
= Ȳ + ûi − Ȳ
i=1
n
X
= ûi2 ≡ SSR
i=1
⇒ R 2 = 0.
Test de significativité de la régression (homoscédasticité)
I La deuxième forme de la statistique F devient dans ce cas
R 2 /k

F =
(1 − R 2 ) / (n − k − 1)
R2 (n − k − 1)
= ,
(1 − R 2 ) k
I 2
Je n’ai pas écrit explicitement Runrestricted puisqu’il n’y a
pas d’ambiguı̈té (on estime seulement le modèle non

contraint).
Tests exacts
I Les tests développés ici tiennent en grand échantillon.

I Si on fait l’hypothèse les erreurs sont homoscédastiques, i.i.d.,
et distribuées selon une loi normale, on peut montrer que la
statistique F suit une loi Fq,n−kunrestricted −1 même en petit
échantillon.
I Vous devriez comparer les valeurs tablées de Fq,∞ et
Fq,n−kunrestricted −1 pour des valeurs différentes de n afin de
développer une idée de la taille d’échantillon où les différences
entre les deux deviennent négligeables.
Ensembles de confiance
I Extension naturelle de l’idée de tests d’hypothèse.

I Un point est dans l’ensemble de confiance de X % si nous ne
pouvons rejeter ces valeurs à un niveau de significativité
marginal de (100 − X )% sous l’hypothèse nulle que les vraies
valeurs des coefficients sont égales à celles obtenues par
l’estimation MCO.
I Les bornes d’un ensemble de confiance prend la forme d’une
ellipse dans le plan des coefficients pour lesquels on le calcule.
Ensembles de confiance (exemple)
I Supposons que nous voulons établir un ensemble de confiance

pour les coefficients β1 , β2 et β4 .
I Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0 ) est dans
l’ensemble de confiance, nous testons
H0 : β1,0 = β̂1 , β2,0 = β̂2 , β4,0 = β̂4 .
I Si H0 est acceptée à un niveau de significativité marginal de

(100 − X )%, le point est dans l’ensemble de confiance.
I Le nombre de points dans la borne est infini. Il y a des
formules explicites, basées sur la formule pour la statistique F
utilisée pour tester si un point fait partie de l’ensemble de
confiance, mais nous n’allons pas étudier ces formules en
détail.
Multicollinéarité (parfaite)
I Il existe une relation linéaire exacte qui relie un sous-ensemble

des variables explicatives.
I Il résulte normalement d’un problème logique dans le choix
des régresseurs.
I L’exemple le plus connu de ce problème est la soi-disant
trappe des variables dichotomiques .
I Nous pouvons illustrer avec un exemple simple.

Multicollinéarité parfaite (exemple simple)
I Un échantillon d’individus.
I Une première variable dichotomique prend la valeur de un
lorsque l’individu est une femme et zéro autrement.
I Une deuxième prend la valeur de un lorsque l’individu est un
homme et zéro autrement.
Multicollinéarité parfaite (exemple simple suite)
I Nous pourrions avoir
     
1 0 1
 0   1   1 
     
 1   0   1 
     
X1 =  1 , X2 =  0  ⇒ X1 + X2 =  1 .
     
 0   1   1 
     
 . .. ..
 ..
    
  .   . 
0 1 1
I Si nous essayons d’estimer une régression et d’inclure une

constante, X1 et X2 comme variables explicatives, la
constante sera tout simplement la somme de X1 et X2 . (X 0 X )
sera singulière.
I Il y a plusieurs autres exemples classiques de multicollinéarité
parfaite. Voir la section 6.7 du manuel.
Multicollinéarité imparfaite
I Une variable explicative est très fortement corrélée avec une

autre variable explicative ou avec une combinaison linéaire de
ces variables.
I La matrice (X 0 X ) n’est pas singulière mais peut souvent être
presque singulière. Elle aura une valeur caractéristique près de
zéro, et beaucoup plus faible que les autres valeurs
caractéristiques de la matrice X 0 X .
I La multicollinéarité imparfaite n’est typiquement pas un signe
d’une erreur logique dans le choix des variables explicatives du
modèle, mais est due aux données utilisées et à la question à
laquelle on essaie de répondre en spécifiant le modèle de
régression multiple.
Multicollinéarité imparfaite (suite)
I Une conséquence de cette situation qui est strictement dans le

domaine de l’analyse numérique. Le calcul de (X 0 X )−1 sera
sujet à des erreurs numériques importantes. Les coefficients
estimés seront imprécis au sens numérique.
I Les écarts types des coefficients estimés risquent d’être plutôt
élevés.
I Difficile de montrer rigoureusement ce résultat L’Annexe 6.2
du manuel présente un exemple spécifique qui illustre le
principe.
Multicollinéarité imparfaite (exemple)
I Modèle :
Yi = β0 + β1 X1i + β2 X2i + ui .
I On a

Yi − Ȳ = β1 X1i − X̄1 + β2 X2i − X̄2 + (ui − ū)
ou
β1
Y =X +U
β2
I Estimateur MCO :

β̂1
= (X 0 X )−1 X 0 Y
β̂2
Multicollinéarité imparfaite (exemple suite)
I La matrice variance-covariance est (homoscédasticité)

−1
σ2 σX2 1

σX1 ,X2
Σβ̂ = u .
n σX1 ,X2 σX2 2
I La matrice Q qui normalement est une matrice de moments

bruts est aussi (dans ce cas) la matrice variance-covariance de
X1 et X2 . On a
−1
σX2 1

σX1 ,X2
σX1 ,X2 σX2 2
σX2 2

1 −σX1 ,X2
= 2 2
σX1 σX2 − (σX1 ,X2 )2 −σX1 ,X2 σX2 1
Multicollinéarité imparfaite (exemple suite)
I ce qui donne
" #
σ2 σX2 2
σβ̂2 = u
1 n σX2 1 σX2 2 − (σX1 ,X2 )2
 
1 1  2
=  2  σu

n (σX1 ,X2 )
σX2 1 − σX2
2
 
" #
1 1  σu2 1 1 σu2
=   = .
(σX1 ,X2 )  σX2 1 n 1 − ρ2X1 ,X2 σX2 1
2
n
1− σX2 σX2
1 2
I La variance estimée σβ̂2 va croı̂tre avec la valeur absolue du

1
coefficient de corrélation entre X1 et X2 .
Multicollinéarité imparfaite (suite)
I La multicollinéarité imparfaite traduit le fait qu’il peut être

très difficile d’isoler l’impact individuel de chacune d’un
groupe de variables explicatives qui sont fortement corrélées.
I Possible que chaque variable soit non significative tandis que
le bloc est significatif sur la base d’une statistique F .
I Important d’insister sur l’importance du bloc de variables pour
expliquer la variable dépendante, tout en soulignant
l’impossibilité d’attribuer l’importance à une variable
particulière.
I Truc 1 : Calculer la matrice de coefficients de corrélation entre
variables explicatives.
I Truc 2 : Calculer la valeur du conditionnement de la
matrice (X 0 X ).
Concepts à retenir
I Spécification matricielle du modèle.

I Hypothèses de base du modèle.
I Suivre et comprendre le calcul de l’estimateur MCO en
notation matricielle.
I Suivre et comprendre le calcul de l’estimateur MCO en
notation non matricielle.
I Comprendre les preuves des propriétés algébriques de
l’estimateur MCO.
I Retenir les propriétés elles-mêmes.
I Comprendre la distinction entre R 2 et R̄ 2 .
I Comprendre pourquoi le R 2 ne peut qu’augmenter si on
ajoute des variables au modèle.
Concepts à retenir (suite)
I Comprendre les grandes lignes des propriétés de l’estimateur

MCO.
I Comprendre les hypothèses qui doivent tenir pour que le
théorème Gauss-Markov tienne.
I Comprendre la distinction entre la matrice de
variance-covariance robuste des coefficients et la matrice de
variance-covariance non robuste.
I Comment effectuer un test d’hypothèse simple.
I Comment effectuer un test d’hypothèse simple portant sur
une combinaison linéaire de coefficients en estimant une
version transformée mais équivalente du modèle.
I Comment effectuer un test d’hypothèses jointes, et la façon
générale d’exprimer les contraintes à tester sous forme
matricielle.
Concepts à retenir (suite)
I Comment tester une ou des restrictions en estimant le modèle
restreint dans le cas homoscédastique.
I L’idée que les ensembles de confiance sont des ellipses.
I L’idée que les ensembles de confiance sont des valeurs pour
lesquelles on ne peut rejeter l’hypothèse jointe que les
coefficients sont égaux aux valeurs estimées.
I La distinction entre multicollinéarité parfaite et
multicollinéarité imparfaite.
I L’idée que la multicollinéarité parfaite indique un problème
logique dans la sélection des variables explicatives.
I L’idée que la multicollinéarité imparfaite reflète une corrélation
forte entre sous-ensembles de variables explicatives.
I L’idée qu’un groupe de variables peut être significatif sans la
possibilité d’attribuer cette importance à une des variables
individuelles du groupe.

Regmultipleslidesb

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regmultipleslidesb

Transféré par

Droits d'auteur :

Formats disponibles

ECO 4272 : Introduction à l’Économétrie

Le modèle de régression multiple

1. Présenter le modèle de régression multiple.

I Presque rien de nouveau par rapport au modèle de régression

I Façon de motiver le modèle de régression multiple.

I L’estimateur β̂1 est égal à

I Modifions les hypothèse statistiques :

I L’estimateur ne converge plus à β1 en probabilité.

I S’il y a une variable dans la banque de données qui en principe

I Nous pouvons être encore plus explicite.

I Le modèle estimé est

I Le terme d’erreur du modèle estimé incorpore la variable

I Calculant l’espérance de β̂1 , nous obtenons

I ce qui doit enfin être égal à

par la loi des espérances itérées.

I L’estimateur est biaisé, le biais étant donné par la valeur de

qui est (presque) la covariance échantillonnale entre X1 et X2 .

est (presque) la variance échantillonnale de X1 .

I Si les deux expressions sont des estimateurs convergents de

I L’écart entre β̂1 et sa vraie valeur est approximativement

est la valeur (asymptotique) du coefficient de pente d’une

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

I Il faut définir les matrices/vecteurs (page suivante).

I Remplaçons U par sa définition.

I CPOs (dérivée par rapport à β) :

I Nous avons k + 1 équations linéaires pour trouver k + 1

I Nous pouvons maintenant convertir en notation matricielle.

I On empile les k + 1 équations les unes pardessus les autres :

I On obtient la même solution (pas surprenant).

Donc, nous avons :

I Une conséquence directe est que la somme des résidus est

I Les valeurs prédites de Y sont orthogonales aux résidus.

I Conséquence : la moyenne échantillonnale des valeurs prédites

I Donc SSR est la somme des résidus au carré. On divise par

I La mesure R 2 est définie de la même façon que dans le cas du

où Ȳ est la moyenne échantillonnale des Yi , et

I R 2 est aussi égal à la corrélation (échantillonnale) au carré

I M 0 est une matrice idempotente.

I Nous pouvons réécrire le R 2 comme

puisque X 0 Û = 0 (orthogonalité entre les variables expicatives

I On peut réécrire ceci en notation non matricielle pour obtenir

I Le R 2 nous dit à quel point le modèle de régression permet de

I Nous avons tout de suite

I On voit que le résultat trouvé dans le chapitre sur le modèle

I Ajouter une variable explicative au modèle ne peut que faire

I Donc, un R 2 élevé n’est pas toujours et partout une bonne

I Une autre mesure qui pénalise l’ajustement lorsqu’on ajoute

I Trois propriétés importantes du R̄ 2 .

I La définition du R 2 ajusté semble arbitraire.

La dernière égalité dépend de la loi des espérances itérées.

I Ceci veut dire qu’il y a convergence en probabilité vers

I Donc, le premier terme converge en probabilité à

I Si on considère l’ième colonne de la matrice X , nous avons

I Les hypothèses du théorème de Slutsky sont satisfaites, donc

(Y − E(Y )) (Y − E(Y ))0 .

I L’élément (i, j) est :

(Yi − E (Yi )) (Yj − E (Yj )) .

I Donc son espérance est une covariance (variance si i = j).

E ((Yi − E (Yi )) (Yj − E (Yj )))

I Donc, la matrice suivante contient toutes les variances et

E (Y − E(Y )) (Y − E(Y ))0 .

I Nous avons déjà vu que

I Donc, une expression qui nous donne

I Selon le Key Concept 18.1 , les Vi sont i.i.d., donc