Vous êtes sur la page 1sur 98

ECO 4272 : Introduction à l’Économétrie

Le modèle de régression multiple

Steve Ambler
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018: Steve Ambler

Hiver 2018
Objectifs

1. Présenter le modèle de régression multiple.


2. Dériver l’estimateur MCO.
3. Étudier ses propriétés algébriques.
4. Regarder les hypothèses statistiques du modèle et analyser
leurs conséquences (absence de biais, convergence, efficience).
5. Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs
homoscédastiques.
6. Analyser les tests d’hypothèse simples et le calcul
d’intervalles de confiance dans le cadre du modèle.
7. Les tests d’hypothèses jointes et les ensembles de confiance.
Introduction

I Presque rien de nouveau par rapport au modèle de régression


simple.
I Quasiment un rappel de la matière d’avant l’examen intra.
I Introduction et utilisation de la notation matricielle.
I Nouveau concept : tester les hypothèses jointes.
Biais dû à une variable omise

I Façon de motiver le modèle de régression multiple.


I Si nous omettons un ou des facteurs qui ont un impact sur la
variable dépendante, l’estimé de l’impact de la variable
explicative d’intérêt peut être biaisé.
Biais dû à une variable omise (suite)

I L’estimateur β̂1 est égal à


1 Pn

n i=1 Xi − X̄ ui
β̂1 = β1 + 2 .
1 Pn
n i=1 Xi − X̄

I Modifions les hypothèse statistiques :


n
1X  p
Xi − X̄ ui −
→ Cov (u , X ) = Corr (u , X ) σu σX ,
n
i=1

et
n
1X 2 p 2
Xi − X̄ − → σX .
n
i=1
Biais dû à une variable omise (suite)
I On a
p Corr (u , X ) σu σX σu
β̂1 −
→ β1 + 2
= β1 + Corr (u , X ) .
σX σX

I L’estimateur ne converge plus à β1 en probabilité.


I Le signe du biais dépend (même lorsque n → ∞) du signe de
la corrélation entre Xi et ui .
I Notez que dans ce cas-ci

E (ui |X = Xi ) 6= 0.

I S’il y a une variable dans la banque de données qui en principe


pourrait affecter la variable dépendante de l’étude et qui
risque d’être corrélée avec une variable qui est incluse comme
variable explicative dans le modèle, il y a probablement un
problème de variable omise.
Exemple

I Nous pouvons être encore plus explicite.


I Suppons que le vrai modèle est donné par

Yi = β0 + β1 X1i + β2 X2i + ui

I Le modèle estimé est

Yi = β0 + β1 X1i + ũi

I Le terme d’erreur du modèle estimé incorpore la variable


omise X2i avec le vrai terme d’erreur ui .
Exemple (suite)

I Nous avons
Pn
1
− X¯1
 
n i=1 X1i Yi − Ȳ
β̂1 = 2 =
1 Pn
n i=1 X1i − X¯1
Pn
1
X1i − X¯1

n i=1 β0 + β1 X1i + β2 X2i + ui − β0 − β1 X̄1 − β2 X̄2 −
1 Pn ¯ 2

n i=1 X1i − X1
Pn 2 1 Pn
1
X1i − X¯1 ¯ X2i − X¯2
 
i=1 i=1 X1i − X1
= β1 n 2 + β 2
n
¯1 2
Pn 1 Pn
1
X1i − X¯1

n i=1 n i=1 X1i − X
1 Pn ¯

X1i − X1 (ui − ū)
+ n i=1 2
1 Pn
n i=1 X1i − X¯1
Exemple (suite)
I ce qui doit enfin être égal à
1 Pn ¯ X2i − X¯2
 
n i=1 X1i − X1
= β1 + β2
1 Pn ¯ 2

n i=1 X1i − X1
Pn
1
− X¯1 (ui − ū)

n i=1 X1i
+ 2 .
1 Pn
n i=1 X1i − X¯1

I Calculant l’espérance de β̂1 , nous obtenons


1 Pn
!
¯1 X2i − X¯2

X 1i − X
Eβ̂1 = β1 + β2 E n i=1Pn
1 ¯1 2

n i=1 X1i − X
Pn !
1
X1i − X¯1 E ((ui − ū) |X11 , X12 , . . . , X1n )

n i=1
+E +
1 Pn ¯ 2

n i=1 X1i − X1
Exemple (suite)

I ce qui doit enfin être égal à


Pn !
1 ¯1 X2i − X¯2

n i=1 X 1i − X
= β1 + β2 E
1 Pn ¯ 2

n i=1 X1i − X1

par la loi des espérances itérées.


I En général
Pn !
1 ¯ X2i − X¯2

n i=1 X1i − X1
E 2 6= 0.
1 Pn
n i=1 X1i − X¯1

I L’estimateur est biaisé, le biais étant donné par la valeur de


l’espérance dans l’équation précédente.
Exemple (suite)

I Nous avons
n
1X
X1i − X¯1 X2i − X¯2
 
n
i=1

qui est (presque) la covariance échantillonnale entre X1 et X2 .


I Et
n
1X 2
X1i − X¯1
n
i=1

est (presque) la variance échantillonnale de X1 .


Exemple (suite)

I Si les deux expressions sont des estimateurs convergents de


leurs équivalents dans la population, nous avons :
n
1X  p
X1i − X¯1 X2i − X¯2 −

→ Cov (X1 , X2 )
n
i=1

I et
n
1X 2 p
X1i − X¯1 − → Var (X1 ) .
n
i=1
Exemple (suite)
I Théorème de Slutsky =>

p Cov (X1 , X2 )
β̂1 −
→ β1 + β2
Var (X1 )

I L’écart entre β̂1 et sa vraie valeur est approximativement


égale à la vraie valeur de β2 fois le ratio de la covariance entre
X1 et X2 et la variance de X1 .
I Si on connaı̂t au moins le signe de β2 et de la covariance, on
peut prédire le signe de cet écart. Aussi, nous savons que

Cov (X1 , X2 )
Var (X1 )

est la valeur (asymptotique) du coefficient de pente d’une


régression où X2 est la variable dépendante et X1 est la
variable explicative.
Modèle de régression multiple

I Modèle :

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

I Version matricielle :

Y = X β + U,

I Il faut définir les matrices/vecteurs (page suivante).


Modèle de régression multiple (suite)

 0
Y ≡ Y1 Y2 . . . Yn
 
1 X11 X21 . . . Xk1
 1 X12 X22 . . . Xk2 
X ≡ . ..  ,
 
.. .. ..
 .. . . . . 
1 X1n X2n . . . Xkn
 0
β ≡ β0 β1 β2 . . . βk

 0
U≡ u1 u2 . . . un
Estimateur MCO

I Problème de minimisation :

min U 0 U.
β

I Remplaçons U par sa définition.

min (Y − X β)0 (Y − X β) .
β

I Équivalent à :

min Y 0 Y − β 0 X 0 Y − Y 0 X β + β 0 X 0 X β .

β
Estimateur MCO (suite)

I CPOs (dérivée par rapport à β) :


0
−X 0 Y − X 0 Y + X 0 X β + X 0 X β=0

⇒ 2X 0 X β − 2X 0 Y = 0

⇒ X 0X β = X 0Y .

I Nous avons k + 1 équations linéaires pour trouver k + 1


inconnus (les éléments de β).
I Nous appelons communément ces équations les  équations
normales. 
Estimateur MCO (suite)

I Nous obtenons
−1 −1
X 0X X 0X β = X 0X X 0 Y = β.

I Résultat fondamental :
−1
β̂ = X 0 X X 0Y
Différentiation matricielle

I Application de :

∂y
y ∂x

Ax A0
x 0A A
x 0x 2x
x 0 Ax Ax + A0 x
I Étudiez bien la CPO pour comprendre pourquoi c’est une
application de ces règles.
I Étudiez bien les exemples simples dans les notes.
Approche non matricielle
I Le problème est
n
X
min (Yi − β0 − X1i β1 − X2i β2 − . . . − Xki βk )2 .
β0 ,β1 ,...,βk
i=1

I CPOs :
n
X
β0 : 0 = −2 (Yi − β0 − X1i β1 − . . . − Xki βk ) ;
i=1

n
X
βj : 0 = −2 Xji (Yi − β0 − X1i β1 − . . . − Xki βk )
i=1

pour j 6= 0.
I k + 1 équations (linéaires) en k + 1 inconnus.
Approche non matricielle (suite)

I Nous obtenons
n
X n
X
Yi = (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1

n
X n
X
X1i Yi = X1i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
n
X n
X
X2i Yi = X2i (β0 + X1i β1 + . . . + Xki βk ) ;
i=1 i=1
...
n
X n
X
Xki Yi = Xki (β0 + X1i β1 + . . . + Xki βk ) .
i=1 i=1
Approche non matricielle (suite)

I Nous pouvons maintenant convertir en notation matricielle.


 
Y1
1 . . . 1  ...  = 1 . . . 1 X β̂;
    

Yn
 
Y1
  .   
X11 . . . X1n  ..  = X11 . . . X1n X β̂;
Yn
..
.
 
Y1
  .   
Xk1 . . . Xkn  ..  = Xk1 . . . Xkn X β̂,
Yn
Approche non matricielle (suite)

I On empile les k + 1 équations les unes pardessus les autres :


   
1 ... 1   1 . . . 1
 X11 . . . X1n 
 Y1
 X11 . . . X1n 
  
 X21
 . . . X2n   ...  = 
  
 X21 . . . X2n  X β̂

 .. .. ..   .. .. .. 
 . . .  Yn  . . . 
Xk1 . . . Xkn Xk1 . . . Xkn

⇒ X 0 Y = X 0 X β̂

⇒ β̂ = (X 0 X )−1 X 0 Y .

I On obtient la même solution (pas surprenant).


Propriétés algébriques de l’estimateur MCO
I Plus facile de les dériver en notation matricielle.
I Orthogonalité : les équations normales sont

X 0 X β̂ = X 0 Y

 
⇒ X 0 X β̂ − Y = 0
 
⇒ X 0 Y − X β̂ = 0.

Y − X βb ≡ U.
b

Donc, nous avons :


X 0 Ub = 0.

I Une conséquence directe est que la somme des résidus est


égale à zéro.
Orthogonalité (suite)
I Même interprétation géométrique que dans le modèle de
régression simple.

Figure 1
Propriétés algébriques (suite)
I Définissons
Ŷ ≡ X β̂,

I Nous avons
 −1 0 0 −1 0
Ŷ 0 Ub = X X 0 X X Y Ub = Y 0 X X 0 X X Ub = 0.

I Les valeurs prédites de Y sont orthogonales aux résidus.


I Finalement, nous avons
   −1 0 
X 0 Yb − Y = X 0 X X 0 X X Y −Y

−1
= X 0X X 0X X 0 Y − X 0 Y = X 0 Y − X 0 Y = 0.

I Conséquence : la moyenne échantillonnale des valeurs prédites


est égale à Ȳ .
Écart type de la régression

I On définit
SER ≡ su ,
où
n
1 X SSR Ub0 Ub
su2 ≡ ûi2 = = .
n−k −1 n−k −1 n−k −1
i=1

I Donc SSR est la somme des résidus au carré. On divise par


(n − k − 1) afin d’obtenir un estimé non biaisé de la variance
de l’erreur dans l’équation de régression (si les erreurs sont
homoscédastiques).
Ajustement statistique

I La mesure R 2 est définie de la même façon que dans le cas du


modèle de régression simple :
ESS SSR
R2 = =1− ,
TSS TSS
où on définit
n 
X 2
ESS ≡ Ŷi − Ȳ ,
i=1

où Ȳ est la moyenne échantillonnale des Yi , et


n
X 2
TSS ≡ Yi − Ȳ
i=1
Ajustement statistique (suite)
I Il faut montrer que TSS = ESS + SSR.
I Puisque Y ≡ Ŷ + U,b nous avons
0 
TSS = Y − Ȳ Y − Ȳ

 0  
= Ŷ + Ub − Ȳ Ŷ + Ub − Ȳ
  0   
= Ŷ − Ȳ + Ub Ŷ − Ȳ + Ub
 0    0  
= Ŷ − Ȳ Ŷ − Ȳ + Ŷ − Ȳ Ub + Ub0 Ŷ − Ȳ + Ub0 Ub
 0  
= Ŷ − Ȳ Ŷ − Ȳ + Ub0 Ub

≡ ESS + SSR,
ce qui fut à démontrer.
Ajustement statistique (suite)

I R 2 est aussi égal à la corrélation (échantillonnale) au carré


entre Y et Ŷ .
I Pour rendre la preuve plus facile, introduisons un peu de
notation.  −1 0 
M 0 ≡ I − i i 0i i .

I On a
M 0 Y = Y − Ȳ,

0
M 0 = M 0, et M 0M 0 = M 0.

I M 0 est une matrice idempotente.


Ajustement statistique (suite)

I Nous pouvons réécrire le R 2 comme


 0  
ESS Ŷ − Ȳ Ŷ − Ȳ
R2 ≡ = 0
TSS

Y − Ȳ Y − Ȳ

Ŷ 0 M 0 Ŷ
= .
Y 0M 0Y
Nous avons aussi
M 0 Û = Û
puisque la somme des résidus est zéro.
Ajustement statistique (suite)
I Donc, nous avons
 
Ŷ 0 M 0 Ŷ = Ŷ 0 M 0 Y − Û

= Ŷ 0 M 0 Y − Ŷ 0 M 0 Û

= Ŷ 0 M 0 Y − Ŷ 0 Û

= Ŷ 0 M 0 Y − β̂ 0 X 0 Û
(puisque Ŷ ≡ X β̂)

= Ŷ 0 M 0 Y − 0 = Ŷ 0 M 0 Y

puisque X 0 Û = 0 (orthogonalité entre les variables expicatives


et les résidus).
Ajustement statistique (suite)
I Nous pouvons donc écrire le R 2 comme

Ŷ 0 M 0 Y
R2 =
Y 0M 0Y

Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=
Y 0 M 0 Y Ŷ 0 M 0 Y
(multipliant numérateur et dénominateur par la même chose)
  
Ŷ 0 M 0 Y Ŷ 0 M 0 Y
=  
(Y 0 M 0 Y ) Ŷ 0 M 0 Y
  
Ŷ 0 M 0 Y
Ŷ 0 M 0 Y
=  .
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ
Ajustement statistique (suite)

I On peut réécrire ceci en notation non matricielle pour obtenir


     
Ŷ 0 M 0 Y Ŷ 0 M 0 Y Ŷ 0 M 0 M 0 Y Ŷ 0 M 0 M 0 Y
  =  
(Y 0 M 0 Y ) Ŷ 0 M 0 Ŷ (Y 0 M 0 M 0 Y ) Ŷ 0 M 0 M 0 Ŷ

P
n
   2
i=1 Ŷi − Ȳ Yi − Ȳ
=  2 
Pn 2  Pn 
i=1 Yi − Ȳ i=1 Ŷi − Ȳ


1 Pn    2
n−1 i=1 Ŷi − Ȳ Yi − Ȳ
=  2 
1 Pn   2 1 Pn

n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ
Ajustement statistique (suite)

   2
1 Pn 
 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
= r 
q Pn 2   2
1 1 Pn
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ

  2
≡ Corr Y , Ŷ .

I Le R 2 nous dit à quel point le modèle de régression permet de


prédire les variations de la variable dépendante autour de sa
moyenne (mesuré par la corrélation entre les valeurs prédites
et les valeurs réalisées).
Ajustement statistique (suite)
I Dans le cas du modèle de régression simple, nous avons
  
Ŷi − Ȳ = Xi − X̄ β̂1 .

I Nous avons tout de suite


   2
1 Pn

 n−1 i=1 Ŷi − Ȳ Yi − Ȳ 
 r 
q
2
  2 
1 P n  1 P n
n−1 i=1 Yi − Ȳ n−1 i=1 Ŷi − Ȳ

   2
1 Pn  
 n−1 i=1 Xi − X̄ β̂1 Yi − Ȳ 
=
q r 

2 
1 Pn 2 1 P n 
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄ β̂1
Ajustement statistique (suite)

 Pn 2
1
 
n−1 i=1 Xi − X̄ Yi − Ȳ
= q Pn 2 q 1 Pn 2

1
n−1 i=1 Yi − Ȳ n−1 i=1 Xi − X̄
2
≡ Corr (Y , X )

2
⇒ R 2 = Corr (Y , X ) .

I On voit que le résultat trouvé dans le chapitre sur le modèle


de régression simple n’est qu’un cas spécial du résultat général
développé ici.
R 2 ajusté

I Ajouter une variable explicative au modèle ne peut que faire


augmenter R 2 .
I Avec autant de variables explicatives que d’observations
((k + 1) = n), on aura R 2 = 1. X est alors une matrice carrée
et on a
0 = U = Y − X β̂

⇒ Y = X β̂.

⇒ β̂ = X −1 Y .

I Donc, un R 2 élevé n’est pas toujours et partout une bonne


chose.
R 2 ajusté (suite)

I Une autre mesure qui pénalise l’ajustement lorsqu’on ajoute


des variables explicatives.

n − 1 SSR s2
R̄ 2 ≡ 1 − = 1 − 2û .
n − k − 1 TSS sY

I Trois propriétés importantes du R̄ 2 .


n−1
1. n−k−1 > 1, et donc R̄ 2 < R 2 .
2. Ajouter une variable explicative supplémentaire a deux effets
sur R̄ 2 . 1) SSR doit baisser, ce qui fait augmenter R̄ 2 . 2) Le
n−1
facteur n−k−1 augmente, ce qui fait diminuer R̄ 2 . L’effet net
est ambigu.
3. R̄ 2 peut être négatif.
R 2 ajusté (suite)

I La définition du R 2 ajusté semble arbitraire.


I Elle a une justification statistique.
I Si on ajoute une variable explicative additionnelle Xk+1 à un
modèle, on peut tester sa significativité.
I Si la statistique t normalisée pour le test à une valeur absolue
supérieure à 1, le R 2 ajusté augmente. Si non, il diminue.
I Nous allons revenir à cette question après la section sur les
tests d’hypothèse.
Propriétés statistiques de l’estimateur MCO

I Hypothèses de base :
1. E (ui |Xi ) = 0.
2. (Xi , Yi ) i.i.d.
3. Xi et ui ont des quatrièmes moments non nuls et finis.
4. X est de rang plein en colonnes. En fait, cette hypothèse est
nécessaire pour que l’estimateur MCO existe.
I Hypothèses additionnelles :
1. Var (ui |Xi ) = σu2 .
2. La distribution de ui conditionnelle à la valeur de Xi suit une
loi normale.
Absence de biais

I Nous avons
β̂ = (X 0 X )−1 X 0 Y

= (X 0 X )−1 X 0 (X β + U)

= β + (X 0 X )−1 X 0 U
 
→ E β̂ = β + E (X 0 X )−1 X 0 U


= β + E (X 0 X )−1 X 0 E (U|X ) = β.


La dernière égalité dépend de la loi des espérances itérées.


Théorème de Slutsky
p p
I Sous certaines conditions, Xn −
→ X ⇒ h (Xn ) −
→ h(X ).
I En général,
Zn = f (Xn , Yn ) ,
p p
→ X et Yn −
et si Xn − → Y , alors
p
Zn −
→ f (X , Y ).

p
I Convergence en probabilité et en distribution. Si an −
→ a où a
d
est une constante et si Sn −
→ S, alors
d
an + Sn −
→ a + S,
d
an Sn −
→ aS,
et si a 6= 0,
Sn d S

→ .
an a
Convergence
I Nous avons
β̂ = (X 0 X )−1 X 0 Y

= (X 0 X )−1 X 0 (X β + U)

= β + (X 0 X )−1 X 0 U

   (X 0 X ) −1  (X 0 U) 
→ β̂ − β =
n n
Nous avons divisé et multiplié par le scalaire n afin de pouvoir
0
parler de convergence en probabilité. (XnX ) est une matrice
dont l’élément i, j est donné par
n
Xi 0 Xj 1X
= Xi−1,l Xj−1,l .
n n
l=1
Convergence (suite)
I Par une des hypothèses du modèle de régression multiple,
nous avons
Xi 0 Xj
= E Xi 0 Xj .

lim
n→∞ n

I Ceci veut dire qu’il y a convergence en probabilité vers


0
l’espérance de Xi 0 Xj . Donc, (XnX ) converge en probabilité à
Qx , qui est définie comme
 0 
XX
Qx ≡ E .
n

I Donc, le premier terme converge en probabilité à

(Qx )−1
Convergence (suite)
I Le 2e terme converge en probabilité à zéro. Voici l’argument.
 0   0 
(X U) (X E (U|X ))
E =E = 0.
n n

I Si on considère l’ième colonne de la matrice X , nous avons


n
   2  2 !
1 0 1 1 X
Var Xi 0 U =

Var Xi U = Var Xi−1,l Ul
n n n
l=1
n
 2 X
1
= Var (Xi−1,l Ul ) .
n
l=1
Définissons Xi−1,l Ul ≡ Vi,l . Nous avons
   2 X n  2
1 0 1 1
Var Xi U = Var (Vi,l ) = nVar (Vi )
n n n
l=1
 
1
= Var (Vi ) .
n
Convergence (suite)

I Avec une espérance de zéro et une variance qui tend vers zéro,
on a (presque) la preuve de la convergence :

(X 0 U) p

→ 0.
n

I Les hypothèses du théorème de Slutsky sont satisfaites, donc


la limite de probabilité du produit est le produit des limites de
probabilité. Donc, nous avons :
  p
β̂ − β −→ 0.
Covariances en notation matricielle
I Notation matricielle pour les covariances. Considérons

(Y − E(Y )) (Y − E(Y ))0 .

I L’élément (i, j) est :

(Yi − E (Yi )) (Yj − E (Yj )) .

I Donc son espérance est une covariance (variance si i = j).

E ((Yi − E (Yi )) (Yj − E (Yj )))

I Donc, la matrice suivante contient toutes les variances et


covariances possibles entre les éléments de Y .

E (Y − E(Y )) (Y − E(Y ))0 .



Distribution échantillonnale de β̂
I Nous avons √  
n β̂ − β
−1 
(X 0 X ) (X 0 U)
 
= √ .
n n

I Nous avons déjà vu que


 
E β̂ − β = 0.

I Donc, une expression qui nous donne


 la matrice de
√ 
variance-covariance de n β̂ − β est donnée par :
   0 
E n β̂ − β β̂ − β
Distribution échantillonnale de β̂ (suite)

I Nous devons examiner le comportement en grand échantillon


de
 0 −1  0 !  0 −1  0 !0
(X X ) (X U) (X X ) (X U)
√ √
n n n n
−1  0  −1
(X 0 X ) (X 0 U) (X 0 U) (X 0 X )
 
= √ √ .
n n n n
−1
(X 0 X )
 p
I Nous avons déjà vu que n → (Qx )−1 . Regardons

0
(X 0 U) (X 0 U)
 
√ √ .
n n
Distribution échantillonnale de β̂ (suite)
I Nous avons :
 
ui
n 
 X1i ui 
 X n
X
(X 0 U) = X2i ui ≡ Vi .
 


i=1 
.. 
i=1
. 
Xki ui

I Selon le  Key Concept 18.1 , les Vi sont i.i.d., donc


n
1X p
Vi −
→ 0,
n
i=1

n
1 X d
√ Vi −
→ N (0 , ΣV ) ,
n
i=1

ΣV ≡ E Vi Vi 0 .

Distribution échantillonnale de β̂ (suite)

I Donc (théorème de Slutsky)


√  
d
→ N 0k+1 , Qx −1 ΣV Qx −1 ,

n β̂ − β −
Cas homoscédastique

I Nous pouvons écrire

E UU 0 = σu2 In .


Nous avons   0 0
(X 0 U)

(X U)
√ √
n n
 0
X UU 0 X p
    
1 2 0 1 2 0
= −
→E σ X In X = E σ X X = σu2 Qx .
n n u n u

I Donc
√  
d
→ N 0k+1 , σu2 Qx −1 Qx Qx −1 = N 0k+1 , σu2 Qx −1 .
 
n β̂ − β −
Estimateurs convergents

I Nous remplaçons QX avec

(X 0 X )
Q̂x ≡ .
n

I Nous remplaçons ΣV avec


n
1 X
Σ̂V ≡ Xi Xi 0 (ûi )2
n−k −1
i=1

I Nous pouvons finalement écrire


  −1 
1  −1  
β̂ ≈ N β , Q̂x Σ̂v Q̂x ≡ N β , Σ̂β̂ .
n
Cas homoscédastique

I Un estimateur convergent de σu2 est donné par


n
1 X
su2 ≡ ûi2 .
n−k −1
i=1

Nous utilisons le même estimateur de Qx , et donc


 
1  −1 2    −1  
β̂ ≈ N β , Q̂x su Q̂x Q̂x ≡ N β , Σ̃β̂ ,
n
 
1 2  −1  
β̂ ≈ N β , su Q̂x ≡ N β , Σ̃β̂ ,
n
Gauss-Markov

I Dans le cas homoscédastique, si β̃ est n’importe quel


estimateur linéaire et non biaisé de β, il faut que
   
Var c 0 β̂ ≤ Var c 0 β̃

pour toute combinaison linéaire c 0 β.


I Il y a une preuve dans la section 18.5 du manuel.
I Notez que cette preuve ne suppose pas la normalité du terme
d’erreur. Voir Giles (2011b).
I Il y a aussi une preuve simple si on suppose que les variables
explicatives X sont fixes ou non stochastiques. Voir la page
suivante.
Gauss-Markov : preuve

I Soit β̃ = CY un autre estimateur linéaire de β.


I On suppose que C peut s’écrire C = (X 0 X )−1 X 0 + D où D
est une matrice non nulle.
I Nous avons
 −1  
E (CY ) = E X 0X X 0 + D (X β + U)
 −1   −1 0  
= X 0XX0 + D Xβ + E X 0X X +D U
 −1 0  
= β + DX β + E X 0X X + D E (U|X )

= β + DX β
Gauss-Markov : preuve (suite)

I Nous voulons prouver que β̂ a la plus petite variance parmi les


estimateurs non biaisés. Il faut donc que DX = 0
I Nous avons

Var (CY |X , D) = C Var (Y |X , D) C 0

= C Var (U|X ) C 0 = σu2 CC 0


 −1 0 −1 −1 0 0
= σu2 X 0 X X X X 0X + X 0X XD
−1 
+DX X 0 X + DD 0
−1
= σu2 X 0 X + σu2 DD 0
où DD 0 est positive semi-définie.
Gauss-Markov : preuve (suite)

I Nous avons    
Var β̃ − Var β̂ = σu2 DD 0
   
⇒ Var c 0 β̃ − Var c 0 β̂ = σu2 c 0 DD 0 c ≥ 0,

ce qui fut à démontrer.


Tests d’hypothèses simples par rapport à un seul coefficient
I Nous utilison la statistique  t  donnée par

β̂i − βiH0
t= .
sβ̂i

I Toute la discussion du chapitre sur la statistique et l’inférence


s’applique. Nous avons

t ∼ N (0 , 1) .

I Si H1 : βi 6= βiH0 nous avons

Φ (−|t a |) = Pr (t ≤ −|t a |)

!
β̂i − βiH0
= Pr t ≤ − .
sβ̂i
Tests d’hypothèses simples : H1 unilatérale 1

I On a
H0 : βi = βiH0
et
H1 : βi > βiH0 ,

I La p-value du test est donnée par

p = Pr z > t act = 1 − Φ t act .


 
Tests d’hypothèses simples : H1 unilatérale 2

I On a
H0 : βi = βiH0
et
H1 : βi < βiH0 ,

I La p-value du test est donnée par

p = Pr z < t act = Φ t act .


 
Tests par rapport à une combinaison linéaire de coefficients

I Modèle en notation non matricielle :

Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

I Nous voulons tester la restriction suivante :

H0 : β1 + β2 = 1,

contre
H1 : β1 + β2 6= 1.
Combinaison linéaire de coefficients (suite)

I Version équivalente au modèle original :

Yi = β0 + X1i (β1 + β2 ) + (X2i − X1i ) β2 + . . . + Xki βk + ui .

I Nous pouvons réécrire le modèle comme

Yi = β0 + X1i γ1 + Zi β2 + . . . + Xki βk + ui ,

où Zi ≡ X2i − X1i et γ1 ≡ β1 + β2 .


I Tester H0 : β1 + β2 = 1 revient à tester H0 : γ1 = 1.
Les tests séquentiels ne sont pas valides
I Supposons que nous voulons tester l’hypothèse jointe
suivante :
H0 : β1 = β2 = 0.
contre
H1 : ∃i, i = 1, 2 tel que βi 6= 0.

I Pourquoi pas tester les 2 hypothèses de façon séquentielle ?

β̂1 − β1H0
t1 = ,
sβ̂1

β̂2 − β2H0
t2 = .
sβ̂2

I On pourrait rejeter si une des deux hypothèses est rejetée par


un test d’hypothèse simple.
Les tests séquentiels ne sont pas valides (suite)

I Le problème avec cette idée est qu’il s’agit de distributions de


probabilité jointes.
I Prenons le cas simple où les 2 coefficients sont
indépendamment distribués.
I Dans les deux cas, on ne rejetterait pas l’hypothèse nulle à un
niveau de significativité marginal de 5% si |t1 | < 1.96 et
|t2 | < 1.96.
I La probabilité d’obtenir au moins un rejet en effectuant deux
tests si les hypothèses nulles sont vraies serait égale à
1 − 0.952 .
I Il faudrait au moins ajuster le niveau de significativité
marginal.
Test Bonferroni

I L’annexe (7.1) du livre décrit une façon d’ajuster les niveaux


de significativité marginaux pour tenir compte de la
corrélation non nulle entre les coefficients.
I Cette méthodologie peut être utile dans certains cas,
notamment lorsqu’on lit les résultats de régressions rapportés
dans des articles publiés ou des cahiers de recherche où on ne
donne pas la matrice variance-covariance complète des
coefficients estimés.
Test Bonferroni
I Choisir une valeur critique où la probabilité de rejeter H0 ne
dépasse pas la probabilité de la rejeter si on tient compte de la
non-indépendance entre les hypothèses faisant partie de
l’hypothèse jointe.
I On rejette H0 si on rejette au moins une des hypothèses
individuelles.
I Cas de 2 hypothèses simples : appelons A l’événement que
nous rejetons la première hypothèse, et B l’événement que
nous rejetons la 2e hypothèse simple :

Pr (A ∪ B) ≤ Pr (A) + Pr (B) ,

I Avec des p-values identiques, on va choisir des p-values tel


que leur somme soit égale à la p-value désirée du test joint.
I Le test Bonferroni est très conservateur : minimiser la
probabilité de rejeter H0 (jointe) lorsqu’elle est vraie.
Tests d’hypothèses jointes
I Reprenons l’exemple de la sous-section précédente.
L’hypothèse nulle à tester est
H0 : β1 + β2 = 1,

I Nous pouvons écrire cette hypothèse sous forme matricielle de


la façon suivante :
 
β0
 β1 
 
  β 2

0 1 1 0 ... 0  β  = 1
 
 3 
 .. 
 . 
βk

I Ceci est de la forme :


Rβ = r ,
Tests d’hypothèses jointes (suite)
I Prenons un cas où le nombre d’hypothèses est égal à deux.

H0 : β 1 = β 2 = 0

et
H1 : ∃i, i = 1, 2 tel que βi 6= 0.

I Sous forme matricielle, nous avons


 
β0
 β1 
   
β2

0 1 0 0 ... 0  0
 
H0 : = .

0 0 1 0 ... 0 
 β3  0
 .. 
 . 
βk
Tests d’hypothèses jointes (suite)
I On peut montrer que la statistique suivante obéit, (en grand
échantillon et sous H0 ) à une loi Fq,∞ :
 0 h i−1  
F ≡ R β̂ − r R Σ̂β̂ R 0 R β̂ − r /q.

I Ici, on a q le nombre de restrictions que l’on veut tester et Σ̂β̂


la matrice variance-covariance de l’estimé β̂.
I Dans l’exemple que nous venons d’étudier, q = 2, et donc
d
F −
→ Fq,∞ .

I La plupart des logiciels de régression, dont R offrent la


possibilité de spécifier les équivalents de R et r afin de tester
des hypothèses jointes quelconques.
Une seule restriction comme cas spécial

I Dans les cas q = 1, la statistique F est le carré de la


statistique t.
I Nous ne pouvons pas faire la distinction entre une statistique
t qui serait grande en valeur absolue et négative et une
statistique t grande en valeur absolue et positive.
I Pour illustrer l’équivalence prenons l’exemple H0 : β1 = 0.
Sous forme matricielle
 
β0
 β1 
 
0 1 0 . . . 0  β2 
  
 .. 
 . 
βk

= β1 = 0.
Une seule restriction comme cas spécial (suite)
I Nous avons dans ce cas
  −1
0


 

 1 
  
0

F = β̂1 − 0  0 1 0 . . . 0 Σ̂β̂  β̂1 − 0 .
  

  .. 
  . 
0

I On peut montrer (exercice) que


 
0

 1 

0  = σ̂β̂21 ,
 
0 1 0 ... 0 Σ̂β̂ 
 
 .. 
 . 
0
Une seule restriction comme cas spécial (suite)
I Donc, nous avons
!2
β̂1 − 0
F = = t 2.
sβ̂1

I Deuxième exemple :
H0 : β1 + β2 = 1.

I Sous forme matricelle :


 
β0

 β1 

  β2 
0 1 1 0 ... 0   = β1 + β2 = 1.
 
 β3 
 .. 
 . 
βk
Une seule restriction comme cas spécial (suite)
I Dans ce cas
 0  −1
0 0

 1 


 1 

   1   1   
F = β̂1 + β̂2 − 1   Σ̂β̂  β̂1 + β̂2 − 1 .
   
 0   0 

 ..   .. 
 .   . 
0 0

I On peut vérifier que


 
0

 1 

 1 
 = sβ̂21 + sβ̂22 + 2sβ̂1 ,β̂2
 
0 1 1 0 . . . 0 Σ̂β̂ 
 
 0 
 .. 
 . 
0
Une seule restriction comme cas spécial (suite)

I Ici, sβ̂1 ,β̂2 est l’élément hors-diagonale de la matrice


variance-covariance, un estimé convergent de la covariance
entre β̂1 et β̂2 .
I Il s’agit donc de l’estimateur convergent de la variance de
β̂1 + β̂2 .
I La statistique F devient
 2
β̂1 + β̂2 − 1
F = = t 2.
s 2 + s 2 + 2sβ̂1 ,β̂2
β̂1 β̂2

I On voit l’équivalence entre la statistique F et le carré de la


statistique t.
Significativité de la régression
I Souvent, on veut tester l’hypothèse nulle selon laquelle tous
les coefficients de la régression sauf la constante sont égaux
à zéro.
I Nous pouvons écrire cette restriction sous forme matricielle
sans problème avec
 
0 1 0 0 ... 0
 0 0 1 0 ... 0 
 
R =  0 0 0 1 ... 0 ,
 
 .. .. .. .. . . .. 
 . . . . . . 
0 0 0 0 ... 1
et  
0

 0 

r =
 0 .

 .. 
 . 
0
Cas homoscédastique

I Rien de différent par rapport au cas général. On remplace Σ̂β̂


par Σ̃β̂ .
I Donc, nous avons :
 0 h i−1  
F ≡ R β̂ − r R Σ̃β̂ R 0 R β̂ − r /q,

I Alternative : estimer le modèle sous l’hypothèse nulle et sous


l’hypothèse alternative, et utiliser la formule suivante :

(SSRrestricted − SSRunrestricted ) /q
F = .
SSRunrestricted / (n − kunrestricted − 1)
Cas homoscédastique (suite)

I Formule équivalente :
2 2

Runrestricted − Rrestricted /q
F = 2
 ,
1 − Runrestricted / (n − kunrestricted − 1)

I Vous devriez montrer algébriquement comment passer de la


première à la deuxième version de ce test. La démonstration
est en fait très simple.
I Nous n’allons pas montrer formellement pourquoi les
statistiques F dans le cas homoscédastique peuvent être
écrites sous cette forme. Voir par exemple Greene (2000).
Cas homoscédastique (suite)
I Un exemple concret. Soit le modèle de régression multiple
standard
Yi = β0 + X1i β1 + X2i β2 + . . . + Xki βk + ui .

I Nous voulons tester H0 : β1 + β2 = 1. Isolant β2 nous donne


β2 = 1 − β1 .

I Substituant dans le modèle, nous donne


Yi = β0 + X1i β1 + X2i (1 − β1 ) + . . . + Xki βk + ui ,
ou
Yi − X2i = β0 + (X1i − X2i ) β1 + X3i β3 + . . . + Xki βk + ui .

I Le modèle à estimer devient


Ỹi = β0 + Zi β1 + X3i β3 + . . . + Xki βk + ui .
Cas homoscédastique (suite)

I La loi F est définie seulement pour des valeurs positives de la


variable aléatoire.
I Les estimés MCO du modèle contraint proviennent de la
solution à un problème de minimisation contraint, où la
contrainte est l’hypothèse nulle que nous voulons tester.
I Les estimés MCO du modèle non contraint proviennent de la
solution à un problème de minimisation où cette contrainte
n’est pas imposée.
I Donc la somme des résidus carrés du modèle contraint doit
être au moins aussi élevée que pour le modèle non contraint,
et la statistique F calculée par une des formules ou par l’autre
doit être positive.
I L’extension au cas d’hypothèses jointes est directe.
Test de significativité de la régression (homoscédasticité)
I Dans ce cas, lu modèle contraint prend la forme

Yi = β0 + ui .

I On sait que β̂0 = Ȳ .


I Nous avons
n
X 2
TSS ≡ Yi − Ȳ
=1
n
X 2
= Ȳ + ûi − Ȳ
i=1
n
X
= ûi2 ≡ SSR
i=1

⇒ R 2 = 0.
Test de significativité de la régression (homoscédasticité)

I La deuxième forme de la statistique F devient dans ce cas

R 2 /k

F =
(1 − R 2 ) / (n − k − 1)

R2 (n − k − 1)
= ,
(1 − R 2 ) k

I 2
Je n’ai pas écrit explicitement  Runrestricted  puisqu’il n’y a

pas d’ambiguı̈té (on estime seulement le modèle non


contraint).
Tests exacts

I Les tests développés ici tiennent en grand échantillon.


I Si on fait l’hypothèse les erreurs sont homoscédastiques, i.i.d.,
et distribuées selon une loi normale, on peut montrer que la
statistique F suit une loi Fq,n−kunrestricted −1 même en petit
échantillon.
I Vous devriez comparer les valeurs tablées de Fq,∞ et
Fq,n−kunrestricted −1 pour des valeurs différentes de n afin de
développer une idée de la taille d’échantillon où les différences
entre les deux deviennent négligeables.
Ensembles de confiance

I Extension naturelle de l’idée de tests d’hypothèse.


I Un point est dans l’ensemble de confiance de X % si nous ne
pouvons rejeter ces valeurs à un niveau de significativité
marginal de (100 − X )% sous l’hypothèse nulle que les vraies
valeurs des coefficients sont égales à celles obtenues par
l’estimation MCO.
I Les bornes d’un ensemble de confiance prend la forme d’une
ellipse dans le plan des coefficients pour lesquels on le calcule.
Ensembles de confiance (exemple)

I Supposons que nous voulons établir un ensemble de confiance


pour les coefficients β1 , β2 et β4 .
I Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0 ) est dans
l’ensemble de confiance, nous testons

H0 : β1,0 = β̂1 , β2,0 = β̂2 , β4,0 = β̂4 .

I Si H0 est acceptée à un niveau de significativité marginal de


(100 − X )%, le point est dans l’ensemble de confiance.
I Le nombre de points dans la borne est infini. Il y a des
formules explicites, basées sur la formule pour la statistique F
utilisée pour tester si un point fait partie de l’ensemble de
confiance, mais nous n’allons pas étudier ces formules en
détail.
Multicollinéarité (parfaite)

I Il existe une relation linéaire exacte qui relie un sous-ensemble


des variables explicatives.
I Il résulte normalement d’un problème logique dans le choix
des régresseurs.
I L’exemple le plus connu de ce problème est la soi-disant
 trappe des variables dichotomiques .

I Nous pouvons illustrer avec un exemple simple.


Multicollinéarité parfaite (exemple simple)

I Un échantillon d’individus.
I Une première variable dichotomique prend la valeur de un
lorsque l’individu est une femme et zéro autrement.
I Une deuxième prend la valeur de un lorsque l’individu est un
homme et zéro autrement.
Multicollinéarité parfaite (exemple simple suite)
I Nous pourrions avoir
     
1 0 1
 0   1   1 
     
 1   0   1 
     
X1 =  1 , X2 =  0  ⇒ X1 + X2 =  1 .
     
 0   1   1 
     
 . .. ..
 ..
    
  .   . 
0 1 1

I Si nous essayons d’estimer une régression et d’inclure une


constante, X1 et X2 comme variables explicatives, la
constante sera tout simplement la somme de X1 et X2 . (X 0 X )
sera singulière.
I Il y a plusieurs autres exemples classiques de multicollinéarité
parfaite. Voir la section 6.7 du manuel.
Multicollinéarité imparfaite

I Une variable explicative est très fortement corrélée avec une


autre variable explicative ou avec une combinaison linéaire de
ces variables.
I La matrice (X 0 X ) n’est pas singulière mais peut souvent être
presque singulière. Elle aura une valeur caractéristique près de
zéro, et beaucoup plus faible que les autres valeurs
caractéristiques de la matrice X 0 X .
I La multicollinéarité imparfaite n’est typiquement pas un signe
d’une erreur logique dans le choix des variables explicatives du
modèle, mais est due aux données utilisées et à la question à
laquelle on essaie de répondre en spécifiant le modèle de
régression multiple.
Multicollinéarité imparfaite (suite)

I Une conséquence de cette situation qui est strictement dans le


domaine de l’analyse numérique. Le calcul de (X 0 X )−1 sera
sujet à des erreurs numériques importantes. Les coefficients
estimés seront imprécis au sens numérique.
I Les écarts types des coefficients estimés risquent d’être plutôt
élevés.
I Difficile de montrer rigoureusement ce résultat L’Annexe 6.2
du manuel présente un exemple spécifique qui illustre le
principe.
Multicollinéarité imparfaite (exemple)
I Modèle :
Yi = β0 + β1 X1i + β2 X2i + ui .

I On a
 
Yi − Ȳ = β1 X1i − X̄1 + β2 X2i − X̄2 + (ui − ū)

ou  
β1
Y =X +U
β2

I Estimateur MCO :
 
β̂1
= (X 0 X )−1 X 0 Y
β̂2
Multicollinéarité imparfaite (exemple suite)

I La matrice variance-covariance est (homoscédasticité)


−1
σ2 σX2 1

σX1 ,X2
Σβ̂ = u .
n σX1 ,X2 σX2 2

I La matrice Q qui normalement est une matrice de moments


bruts est aussi (dans ce cas) la matrice variance-covariance de
X1 et X2 . On a
−1
σX2 1

σX1 ,X2
σX1 ,X2 σX2 2

σX2 2
 
1 −σX1 ,X2
= 2 2
σX1 σX2 − (σX1 ,X2 )2 −σX1 ,X2 σX2 1
Multicollinéarité imparfaite (exemple suite)
I ce qui donne
" #
σ2 σX2 2
σβ̂2 = u
1 n σX2 1 σX2 2 − (σX1 ,X2 )2
 
1 1  2
=  2  σu

n (σX1 ,X2 )
σX2 1 − σX2
2
 
" #
1 1  σu2 1 1 σu2
=   = .
(σX1 ,X2 )  σX2 1 n 1 − ρ2X1 ,X2 σX2 1
2
n
1− σX2 σX2
1 2

I La variance estimée σβ̂2 va croı̂tre avec la valeur absolue du


1
coefficient de corrélation entre X1 et X2 .
Multicollinéarité imparfaite (suite)

I La multicollinéarité imparfaite traduit le fait qu’il peut être


très difficile d’isoler l’impact individuel de chacune d’un
groupe de variables explicatives qui sont fortement corrélées.
I Possible que chaque variable soit non significative tandis que
le bloc est significatif sur la base d’une statistique F .
I Important d’insister sur l’importance du bloc de variables pour
expliquer la variable dépendante, tout en soulignant
l’impossibilité d’attribuer l’importance à une variable
particulière.
I Truc 1 : Calculer la matrice de coefficients de corrélation entre
variables explicatives.
I Truc 2 : Calculer la valeur du  conditionnement  de la
matrice (X 0 X ).
Concepts à retenir

I Spécification matricielle du modèle.


I Hypothèses de base du modèle.
I Suivre et comprendre le calcul de l’estimateur MCO en
notation matricielle.
I Suivre et comprendre le calcul de l’estimateur MCO en
notation non matricielle.
I Comprendre les preuves des propriétés algébriques de
l’estimateur MCO.
I Retenir les propriétés elles-mêmes.
I Comprendre la distinction entre R 2 et R̄ 2 .
I Comprendre pourquoi le R 2 ne peut qu’augmenter si on
ajoute des variables au modèle.
Concepts à retenir (suite)

I Comprendre les grandes lignes des propriétés de l’estimateur


MCO.
I Comprendre les hypothèses qui doivent tenir pour que le
théorème Gauss-Markov tienne.
I Comprendre la distinction entre la matrice de
variance-covariance robuste des coefficients et la matrice de
variance-covariance non robuste.
I Comment effectuer un test d’hypothèse simple.
I Comment effectuer un test d’hypothèse simple portant sur
une combinaison linéaire de coefficients en estimant une
version transformée mais équivalente du modèle.
I Comment effectuer un test d’hypothèses jointes, et la façon
générale d’exprimer les contraintes à tester sous forme
matricielle.
Concepts à retenir (suite)
I Comment tester une ou des restrictions en estimant le modèle
restreint dans le cas homoscédastique.
I L’idée que les ensembles de confiance sont des ellipses.
I L’idée que les ensembles de confiance sont des valeurs pour
lesquelles on ne peut rejeter l’hypothèse jointe que les
coefficients sont égaux aux valeurs estimées.
I La distinction entre multicollinéarité parfaite et
multicollinéarité imparfaite.
I L’idée que la multicollinéarité parfaite indique un problème
logique dans la sélection des variables explicatives.
I L’idée que la multicollinéarité imparfaite reflète une corrélation
forte entre sous-ensembles de variables explicatives.
I L’idée qu’un groupe de variables peut être significatif sans la
possibilité d’attribuer cette importance à une des variables
individuelles du groupe.

Vous aimerez peut-être aussi