Vous êtes sur la page 1sur 23

Université Cadi Ayad

Faculté des Sciences Juridiques Economiques et Sociales


Marrakech

ECONOMETRIE I

Polycopié No 4 à l’attention des Etudiants de la Filière Economie


et Gestion, Semestre 5 : Option Economie

Document de Soutien Préparé par les Professeurs


Chakib Tahiri et Mustapha Kchirid
Chapitre 4

Le Modèle Classique de Régression Linéaire


Multiple : Le Cas de Deux Régresseurs

4.1 Introduction
Jusqu´ici nous avons étudié le modèle de régression linéaire simple. Simple
veut dire qu¨une seule variable X est reliée à la variable endogène Y.
Cependant la plupart des modèles économiques postulent plus d´une seule
variable exogène dans l´explication de la variable endogène.

Afin de motiver le modèle multiple, considérons l´exemple suivant. Un


certain nombre d’études ont analysé la relation entre revenue et éducation.
En théorie, plus d’éducation devrait conduire à un revenu plus élevé.
Cependant le modèle simple
Re v     Edu  u (4.1)

est trop simple car il néglige le fait que le revenu est associé à l’Age de la
personne. En effet, les personnes ont des revenus plus élevés au fur et à
mesure de leur âge. Ceci veut donc dire que  surestime l’impact marginal
de l’éducation. Une meilleure spécification serait donc de prendre en
compte l’effet-âge comme dans le modèle
Re v     Edu   Age  u (4.2)

Cependant cette spécification n’est pas encore tout à fait adéquate. Il est en
effet souvent observé que le revenu augmente moins rapidement dans les

2
dernières années de carrière que dans les premières années. Pour prendre en
compte ceci, nous spécifions le modèle comme
Re v    Edu  Age  Age 2  u (4.3)

avec
0
0
0

Mais notez que les modèles (4.2) et (4.3) sont des modèles multiples.

4.2 Les Hypothèses

1. Yt =  + 1X1t +2 X2t + u t


2. u t ~ N(0,  2 )
3. E(u t, u s ) = 0  t  s

4. X1 et X 2 sont non stochastiques


5. Cov(u t, X1t ) = Cov(u t, X 2t ) = 0
6. X1 et X 2 sont non-collinéaires

Hypothèse 6 est une hypothèse additionnelle par rapport au modèle simple.


Cette hypothèse veut dire qu’il n’y a pas de relation exacte entre les
variables explicatives X1 et X 2 . Plus formellement, absence de
multilocollinéarité veut dire qu’il n’existe pas d’ensemble de nombres 1 et
2 tel que

3
1X1t  2X 2t  0

si une telle relation existe entre X1 et X 2 alors X1 et X 2 seront dits


collinéaires ou encore linéairement dépendants. Mais si la relation ci-dessus
n’est vraie que si 1  2  0 alors X1 et X 2 seront dits linéairement
indépendants (non-collinéaires).

Ayant de passer en revue les hypothèses du modèle multiple, quelle est


l'interprétation des coefficients i . On peut démontrer que les i sont des
coefficients partiels de régression.

1 mesure le changement dans Y due à un changement dans X1 , gardant X 2

constante

2 mesure le changement dans Y due à un changement dans X 2 , gardant X 1

constante

Yt  1.23  12.3X2t  13.2X 3t  ut

E (Yt / X2, X 3 )
12.3  / X 3 Cons tan te
X 2

E (Yt / X2, X 3 )
13.2  / X2 Cons tan te
X 3

4
4.3 OLS Estimation

On veut à nouveau minimiser la somme de carres des résidus

 uˆ 2
i
 Min S   (Yi  ˆ1  ˆ2X 2t  ˆ3X 3t )2 (4.4)

soient les dérivées partielles

S
 2 (Yi  ˆ1  ˆ2X 2t  ˆ3X 3t )  0
ˆ1

S
 2 (Yi  ˆ1  ˆ2X 2t  ˆ3X 3t )X 2t  0
ˆ2

S
 2 (Yi  ˆ1  ˆ2X 2t  ˆ3X 3t )X 3t  0
ˆ3

les trois équations normales sont donc

Y t  T ˆ1  ˆ2  X 2t  ˆ2  X 3t (4.5)

Y X t 2t  ˆ1  X 2t  ˆ2  X 22t  ˆ2  X 2t X 3t (4.6)

Y X  ˆ1  X 3t  ˆ2  X 2t X 3t  ˆ2  X 3t (4.7)


2
t 3t

De ces équations normales on tire nos trois estimateurs

ˆ1  Y  ˆ2X 2  ˆ3X 3 (4.8)

ˆ2 
y x x  y x x
i 2i
2
3i i 3i 2i
x 3i
(4.9)
 x  x  ( x x )
2
2i
2
3i 2i 3i
2

ˆ3 
y x x  y x x
i 3i
2
2i i 2i 2i
x 3i
(4.10)
 x  x  ( x x )
2
2i
2
3i 2i 3i
2

5
On peut aussi démontrer les résultats suivants

 2  x 32i
Var (ˆ2 )  (4.11)
 x  x   x 2i x 3i 
2 2 2
2i 3i

 2  x 22i
Var (ˆ3 )  (4.12)
 x  x   x 2i x 3i 
2 2 2
2i 3i

ˆ2 
 uˆ 2
t
(4.13)
T 3

Maintenant démontrons le résultat suivant

E (Yt / X 2 , X 3 )
12.3  / X 3 Cons tan te (4.14)
X 2

Considérons les deux régressions auxiliaires suivantes

Yi  ˆ0  ˆ13X 3t  t (4.15)

et

X 2t  ˆ1  ˆ23X 3t  t (4.16)

soient les résidus

t  Yt Yˆt (4.17)
t  X 2t  Xˆ2t (4.18)

t représente la valeur de Yt après avoir soustrait l'influence de X 3 .

6
t représente la valeur de X 2 après avoir soustrait l'influence de X 3 . Donc

t et t sont par construction deux variables Yt et X 2 mais purifiées de

l'effet de X 3 .

Considérons maintenant la régression auxiliaire

t  aˆ0  aˆ1t  z t (4.19)

â1 devrait nous donner l´effet net de X 2 sur Yt sans l´effet de X 3 . En d´autres

termes

Yi
aˆ1  ˆ12.3  / X 3 cons tan te
X 2

la démonstration est la suivante

aˆ1 
 (  )(   )    
t t t t

 (   )  t
2 2
t

aˆ1 
 (Y t  ˆ0  ˆ13X 3t )(X 2t  ˆ1  ˆ23X 3t )
 (X  ˆ  ˆ X )2 2t 1 23 3t

aˆ1 
 (y  ˆ13x 3t )(x 2t  ˆ23x 3t )
t

 (x  ˆ x )2 2t 23 3t

aˆ1 
 (y  ˆ13x 3t )(x 2t  ˆ23x 3t )
t

 (x  ˆ x )2 2t 23 3t

aˆ1 
y x t 2t  ˆ13  x 2t x 3t  ˆ23  yt x 3t  ˆ13 ˆ23  x 32t
 x 2  ˆ2  x 2  2ˆ  x x
2t 23 3t 23 2t 3t

Mais ˆ13  y x i 3i
et ˆ23  x x 2i 3i
donc
x 2
3i x 2
3i

Num(aˆ1 )   yi x 2i  ˆ13  x 2i x 3i  ˆ23  yi x 3i  ˆ13 ˆ23  x 32i

7
ou encore

Num(aˆ1 )   yi x 2i 
y x x x y x x x
xi 3i
x 3i  y x 2i 3i
 x i 3i 2i 3i 2

x x x x
2 2i 2 i 3i 2 2 3i
3i 3i 3i 3i

soit

Num(aˆ1 )   yi x 2i 
y x x i 3i 2i x 3i
x 2
3i

Denom(aˆ1 )   x 22t  ˆ232  x 32t  2ˆ23  x 2t x 3t


2
  x 2t x 3t  x x
Denom(aˆ1 )   x    x x
2 2 2t 3t
2 x 3t
  x 32t  x
2t 3t 2 2t
3t

soit
( x 2i x 3i )2
Denom(aˆ1 )   x 22i 
x 2
3i

soit
y x x x 3t
y x 
t 3t 2t

aˆ1 
t 2t
x 2
3t

 y x  x  y x  x
t 2t
2
3t t 3t 2t x 3t
( x x ) 2
 x  x  ( x x ) 2 2 2

x  2 2t 3t 2t 3t 2t 3t

x
2t 2
3t

donc on vient de démontrer que

aˆ1 
 y x  x  y x  x
t 2t
2
3t t 3t 2t x 3t
 ˆ12.3  ˆ2
 x  x  ( x x )
2
2t
2
3t 2t 3t
2

8
4.4 R2 Dans le Modèle à Deux Régresseurs et Concept
de R2 Ajuste : Le R 2

Dans le modèle

Yt  ˆ  ˆXt  uˆt

R 2  ˆ2
x 2
t
 1
 uˆ t
2

y 2
t y 2
t

A quoi est égal R2 dans le modèle à deux régresseurs?

Yt  ˆ1  ˆ2X 2t  ˆi X 3t  uˆt

uˆt  Yt  ˆ1  ˆ2X 2t  ˆ3X 3t

uˆt  yt  ˆ2x 2t  ˆ3x 3t

 uˆ 2
t
  t (yt  ˆ2x 2t  ˆ3x 3t )   uˆt yt
  y (y  ˆ x  ˆ x )
t t 2 2t 3 3t

ce qui implique

 uˆ 2
t
  yt2  ˆ2  yt x 2t  ˆ3  yt x 3t )

or
yt  yˆt  uˆt

donc

y 2
t
  yˆt2   uˆt2

y 2
t   yˆt2   yt2  ˆ2  yt x 2t  ˆ3  yt x 3t )

9
 yˆ 2
t  ˆ2  yt x 2t  ˆ3  yt x 3t  ESS

soit finalement
ESS ˆ2  yt x 2t  ˆ3  yt x 3t
2
R   (4.20)
TSS  yt2

On voit donc que si K = # de Régresseurs augmente, R2 augmente. Donc R2


R 2
= f(K) avec  0.
K

En effet

R 2
 1
 uˆ
t
2

y 2
t

la quantité y 2
i   (Yi Y )2 est indépendante du nombre de régresseurs.

Mais  2
i dépend du nombre de régresseurs. Donc

K    uˆi2   R 2 

En d'autres termes, premièrement, quand on a deux modèles avec la même


variable endogène, mais un nombre différent de régresseurs, on ne devrait
pas comparer les deux régressions sur la base de R2 mais plutôt le R2 ajusté,
le R 2 , deuxièmement lorsque l’on commence par un modèle simple et
qu’on y ajoute plus de variables, le R2 augmentera même si ces variables

additionnelles ne sont pas justifiées.

10
Il semble donc que l’on devrait corriger le R 2 afin de prendre en compte

l’addition de variables, soit

 uˆt2
(T K )
R2  1 
 yt2 (4.21)
(T 1)

où K réfère au nombre de Régresseurs inclus l'intercepte et T, le nombre


d'observations.

Quelle est la relation entre R2 et R 2 ?

 uˆi2  T  1    uˆi2 
 1     
2 (T K )
R  1 2 
 yi2
(T 1)
T  K    yi 
 

donc
 T  1 
R 2  1   1  R2
  K  
T 
11R2 0
1

donc
 K  1 (R 2  R 2 )

Remarque R 2 peut être négatif. En effet


 T  1 
(1  R 2 )  (1  R 2 ) 
T  K 

Si R 2  0.01, T  21, K  2  R 2  0

4.5 Intervalles de Confiance et Tests d’hypothèses

Soit le modèle

11
Yt = 1.23 + 12.3 X2t + 13.2 X 3t + u t

Les t-Statistiques sont respectivement

ˆ1.23  1.23(H
t1  0)

Se(ˆ1.23 )

ˆ12.3  12.3(H
t2  0)

Se(ˆ12.3 )

ˆ13.2  13.2(H
t3  0)

Se(ˆ13.2 )

Les intervalles de confiance

ˆ1.23  t c  Se(ˆ1.23 )  1.23  ˆ1.23  t c  Se(ˆ1.23 )

ˆ12.3  t c  Se(ˆ12.3 )  12.3  ˆ12.3  t c  Se(ˆ12.3 )

ˆ13.2  t c  Se(ˆ13.2 )  13.2  ˆ13.2  t c  Se(ˆ13.2 )

4.6 Le Fisher F-TEST

On veut savoir si X 2 et X 3 sont linéairement reliées à Y, En d’autres termes


on veut savoir si 12.3 et 13.2 sont égales à zéro simultanément. Soient les
hypothèses


H :   13.2  0
 0 12.3


H : Au moins un parametre est different de zero
 A

soient

12
 y  ˆ  y x  ˆ  y x   uˆ
2
 
t 12.3 
t 2t 13.2 t 3t
2
t
TSS ESS RSS

la table ANOVA est la suivante

Source de Variation SS DF MSS


Due to Regression (ESS) ˆ12.3  yt x 2t  ˆ13.2  yt x 3t 2 ESS/2

ESS

Due to Residuals (RSS)  2


t T - 3 RSS/(T-3)

TOTAL y 2
t T-1

On peut montrer que quand l’hypothèse nulle est vraie alors

ESS
2
F
RSS
T 3

Exemple

Y  Foodcons

X 2  Dispinc
X 3  Pr retail

Yˆt  ˆ  ˆX 2t  ˆX 3t

Yˆt  57.66  0.15X 2t  0.26X 3t


t (9.95) (6.37) (4.30)

T  20
R 2  0.867379
RSS  20.122547341
F(2,17)  55.5923

13
soit l’hypothèse à tester

H0::  =  = 0

HA: Au moins un est différent de zéro

En d'autres termes est-ce que Y est linéairement relié à X2 et X3?

ANOVA:

Source de SS DF MSS
Variation
Due to ˆ12.3  yt x 2t  ˆ13.2  yt x 3t =131.606902 2 ESS/2 =

Regression 65.803451
ESS

(ESS)

Due to  uˆ 2
t
=20.122547 T - 3 RSS/(T-3) =
Residuals 1.183679
(RSS)
TOTAL y 2
t =151.729449304 T-1

ESS
2 65.803451
F   55.592310
RSS
T 3 1.183679

ou encore F(2,17) = 55.592310. Maintenant on lit le F critique sur la table


avec par exemple  = 0.05:

14
c c
F0.05 (2,17)  3.59  F  F0.05

ce qui est dans la région de rejet, donc on rejette H0.

La contribution marginale de variables peut aussi être analysée avec la table


ANOVA. Comme exemple supposez que l’on régresse Foodcons sur
Dispinc uniquement,

Y  FOODCONS
X 2  DISPINC
Yˆt  ˆ  ˆX 2t
Yˆt  80.94  0.2030X 2t
t (27.79) (6.84)
R 2  0.7226
RSS  42.08
F (1,18)  46.9005

utilisant un t-test on voit que DSPINC a effet significatif sur FOODCONS.


On peut aussi faire un F-test

Source SS DF MSS
ESS due a X2 111.5189 1 ESS/1 = 111.5189
RSS 42.08 T-2 RSS/18 = 2.3377
TOTAL 153.5989 T-1

111.5189
F  47.70
2.3377

15
Maintenant ajoutons la variable PRRETAIL et voyons si cette dernière a un
effet sur FOODCONS en sachant que la variable DISPINC est déjà dans le
modèle. Afin de faire ce test on construit une nouvelle table ANOVA.

Source SS df

ESS due à x2 seule = 111.5189 1

ESS due à l’addition de x3 = 83.543823 1

ESS due à x2 de x3 = 131.6069 2

RSS avec X2 et X3 = 20.12254 T-3

TSS = 151.72944 T-1

Quelle est la contribution marginale de X3 sachant que X2 est déjà dans le


modèle et qu'elle est significative. Est-ce que la contribution marginale de
X3 est statistiquement significative?

83.543823
F  70.5798
1.183678

ce qui est significatif.

L’avantage de ANOVA est que l’on peut faire un ensemble de tests sur
certaines variables en contrôlant pour d’autres.

Il existe une relation très intime entre R2 et F.

ESS
1
F
RSS
(T 2)

16
dans le cas d’un seul régresseur et une constante

ESS
2
F
RSS
(T 3)

dans le cas de deux régresseurs et une constante. Soit K le nombre de


paramètres a estimer. Soit q le nombre de restrictions quand on passe du
modèle restreint au modèle non-restreint. En général donc

ESS q ESS T  K R2 q R2 T  K
F   2 
RSS
(T K ) RSS q (1R )
(T K ) 1  R2 q

Q2
q Q2 T  K (RSSR RSSNR )
q RSS R  RSS NR T  K
F Q4
  RSSNR

T K Q4 q T K RSS NR q

ANOVA en termes de R2

Source of Variation SS DF MSS


Due to Regression (ESS) R 2  yi2 2 ESS/2

Due to Residuals (RSS) ( 1  R 2 )  y 2 T - 3 RSS/(T-3)


i
TOTAL  yi2 T-1

Le F-test qui est une mesure de la signification totale des paramètres


estimés, est aussi un test de signification de R2. En d'autres termes, tester
l'hypothèse nulle

H0: 1 = 2 = …=k = 0

est équivalent a tester l'hypothèse nulle

17
H0 : R 2 = 0

Pour finir on peut voir le résultat suivant. Supposons les deux modèles
suivants

Modele I  Modele Re stre int : Yt  ˆ  ˆX 2t  t

Modele II  Modele Non  Re stre intYt  ˆ  ˆX 2t  ˆX 3t  t

RSS R  RSS NR T  3
F  t 2ˆ
RSS NR 1

4.6 Corrélation Partielle

Quelquefois notre intérêt est de connaître la puissance explicative d’une


variable j après après avoir inclus  j ·1 variables. Définissons le coefficient
de corrélation simple comme

r12 
y x t 2t
(4.22)
y x 2
t
2
2t

on peut calculer (4.22) pour toute paire de variables.

1. -1 < r < 1

2. mesure une association linéaire

3. n’implique rien sur la causalité

4. S’il y a plus d’une variable indépendante, celui-ci ne reflète pas le vrai


degré d’association entre par exemple x2 et y.

18
Donc si on veut connaître le degré d’association entre x2 and y quand x3 est
présente on ne peut plus utiliser le coefficient simple de corrélation.

Définissons les quantités suivantes

r12 = Corrélation entre Y et X3

r12 = Corrélation entre Y et X2

r23 = Corrélation entre X2 et X3

Ceux-ci sont appelés des coefficients de corrélations simples ou des


coefficients de corrélation d'ordre zéro.

Maintenant considérons la question suivante: Est-ce que r12 mesure le vrai


degré d'association entre Y et X2 quand une troisième variable, X3 , est
associée aux deux? En général, r12 ne reflétera pas le vrai degré
d'association entre Y et X2 en présence de X3. En fait, r12 donnera une
fausse impression d'association entre Y et X2. Donc nous avons besoin d'un
coefficient de corrélation qui serait indépendant de l'influence de X3 sur X2.
Ce type de coefficient de corrélation peut être obtenu et est appelé
coefficient partiel de corrélation. Conceptuellement il est similaire aux
coefficients partiels de régression.

r12.3 = Coefficient partiel de corrélation entre Y et X2 , X3 constante

r13.2 = Coefficient partiel de corrélation entre Y et X3 , X2 constante

r23.1 = Coefficient partiel de corrélation entre X2 et X3 , Y constante

19
Une façon de calculer r12.3 serait de faire la chose suivante:

Etape 1 : Régresse Y sur X3  yt = xt + wt

Etape 2: Régresse X2 sur X3  x2t = x3t + vt

r12.3 
 (w  w )(v  v )   w v
t t t t

 (w  w )  (v  v )  w  v
t
2
t
2
t
2
t

En réalité, nous n'avons pas besoin de faire ces deux étapes, nous avons les
formules suivantes

sont appelés des coefficients partiels de corrélations ou encore des


coefficients de corrélation d’ordre un. Par ordre, nous voulons dire les
nombres après le point.

20
r12.3 = Coefficients de corrélation de premier ordre

r12.34 = Coefficients de corrélation de second ordre etc…

Interprétation

1. r12  0 n’implique pas que r12.3  0

2. r12.3 et r12 n’ont pas nécessairement les mêmes signes

3. r12.3
2
peut être interprété comme la proportion de variance dans Y non
expliquée par X3.

Supposez l’exemple suivant ou Y est le rendement agricole, X2, le niveau de


pluviométrie, et X3, la température

Supposons que r12 = 0 (Pas d’association entre rendement et pluviométrie).


Supposons aussi que r13 >, r23 > 0  r12.3 > 0.

En gardant la température constante, il existe une relation positive entre


rendement et pluviométrie. Ce qui constitue un résultat paradoxal par
rapport à l’hypothèse r12 = 0. Ce pseudo paradoxe n’est toutefois pas
surprenant. Puisque la température X3 affecte et le rendement y et la
pluviométrie X2, afin de trouver l’effet net entre rendement et pluviométrie,
nous avons besoin d’éliminer l’effet de la nuisance température. Cet
exemple montre donc clairement que l’on peut être faussement guidé par le
coefficient simple de corrélation.

21
(+)

X2 X3

(-)

R 2  R122  (1  R122 )r13.2


R 2  R132  (1  R132 )r12.3

On peut écrire la matrice de corrélation R

r11 r12 ... r1k 


 
r21 r22 ... r2k 
R   ... ... 
 ... ... 
 
rk 1 rk 2 ... rkk 
 

de cette matrice on peut calculer tous les coefficients partiels de n'importe


quel ordre en utilisant la formule suivante1

r12.345...( p1)  r1p.345...( p1)r2 p.345...( p1)


r12.345...p  (4.23)
(1  R12p.345...( p1) ) (1  R22p.345...( p1) )

donc par exemple

1
Assez longue à démontrer.

22
r12  r13r23
r12.3  2
(1  R13) ) (1  R232 )
r12.3  r14.3r24.3
r12.34  2 2
(1  R14.3 ) (1  R24.3 )
r12.34  r15.34r25.34
r12.345  2 2
(1  R15.34 ) (1  R25.34 )

23

Vous aimerez peut-être aussi