Vous êtes sur la page 1sur 61

UNIVERSITE MOHAMMED V - RABAT

Faculté des Sciences Juridiques, Economiques et Sociales de Salé

Notes de cours
Méthodes économétriques

Année universitaire 2020 - 2021

Mohamed Bouzahzah

1
Chapitre 2. Le modèle linéaire multiple

2
Chapitre 2. Le modèle linéaire multiple

- Le modèle linéaire multiple (régression multiple) est une généralisation du modèle linéaire simple.
-L’essentiel des techniques qui sous-tendent le modèle linéaire simple restent valables
- Dans le modèle multiple on s’intéresse à savoir dans quelle mesure les variations de la variable expliquée
sont expliquées par les variations des variables explicatives : x1, x2,…, xk

-Ainsi le modèle linéaire multiple s’écrira comme suit

y i   0   1 x1  ...   k x k   i i  1, 2 ,..., n
On peut montrer que si les hypothèses suivantes (Gauss-Markov) sont remplies

1. E ( i )  0 2. V (  i )   2
3. cov(  i ,  j )  0 i  j

4. cov(  i , x i )  0 5.  i  N ( 0 ,  2 )

Les estimateurs par les moindres carrés ˆ 0 , ˆ1 ,..., ˆ k sont non biaisés et présentent la variance la plus
petite de tous les autres estimateurs (moments et maximum de vraisemblance)

3
Chapitre 2. Le modèle linéaire multiple

Bien entendu, comme dans le cas simple, les estimateurs par les moindres carrés sont ceux qui minimisent la
somme des carrés des résidus. Soit

  y   0   1 x1  ...   k x k 
n n
SCR  ˆ 2 
i 1 i i 1 i
2

En plus des hypothèses précédentes (Gauss-Markov), il ne faut pas qu’il ait de colliniarité entre les variables
explicatives. C’est-à-dire qu’il n’existe pas de relation linéaire déterministe entre les variables
explicatives.

On reviendra plus tard sur cette hypothèse.

4
Chapitre 2. Le modèle linéaire multiple
1. Coefficients de la régression multiple
Le modèle linéaire général s’écrit
y i   0   1 x1 i  ...   k x ki   i i  1, 2 ,..., n
Le système complet s’écrit

 y 1   0   1 x11  ...   k x k 1   1

M
 y     x  ...   x  
 n 0 1 n1 k kn n

Ou sous forme matricielle


 y1   1 x11 L x1 k    0   1 
      
 y 2  1 x12 L x k 2   1  2 
  
M  M M M M  M  M 
      
 y n   1 x1 n L x kn    k   
   n
Ou encore

La colonne de la constante
Y  X  
Les dimensions des matrices (n,1) = (n,k+1)*(k+1,1)+(n,1)

5
Chapitre 2. Le modèle linéaire multiple
1. Coefficients de la régression multiple
La somme des carrés des résidus est donnée par

SCR   '   (Y  X  )' (Y  X  )


En développant,
SCR  Y ' Y  ( X  )' Y  Y ' X   ( X  )' ( X  )

SCR  Y ' Y  2  ' X ' Y  X '  ' X 

La minimisation de la somme des carrés des résidus est données par

 SCR
  2 ( X ' Y )  2 ( X ' X ) ˆ  0
 ˆ
Enfin les estimateurs sont donnés par le vecteur suivant

ˆ  ( X ' X )  1 X ' Y

6
Chapitre 2. Le modèle linéaire multiple
2. Propriétés des coefficients de la régression multiple
Rappelons que les coefficients sont donnés par

ˆ  ( X ' X )  1 X ' Y
Ou encore
ˆ  ( X ' X )  1 X ' [ X    ]

En distribuant,
ˆ  ( X ' X )  1 X ' X   ( X ' X )  1 X ' 

Ou ˆ  ( X ' X )  1 X ' 
En introduisant l’espérance, il vient que

E ( ˆ )    ( X ' X )  1 X ' E (  )

E ( ˆ )  

Les estimateurs par la Méthode des MCO sont non biaisés


Par ailleurs ont peux montrer qu’ils sont convergents
Enfin on peut montrer qu’ils sont Blue (Best Linear Unbiaised Estimator)

7
Chapitre 2. Le modèle linéaire multiple
3. Exemple numérique
Exemple 1. Considérons les données suivantes

Y X1 X2 X3
8,5 16,9 0,7 2,1
7,2 19,2 0,9 2,4
11,3 9,6 0,6 2,0
4,6 4,9 0,3 2,0
13,0 18,0 0,9 1,9
11,0 10,5 0,6 2,2
10,1 14,8 0,8 2,0
7,8 19,9 1,0 2,0
9,1 17,8 0,9 1,9
11,0 16,4 0,9 2,1
12,0 18,1 0,8 2,0
11,1 9,3 0,5 2,1
9,2 13,6 0,7 2,4
4,6 10,0 0,6 1,8
3,1 1,2 0,1 1,7
18,5 20,4 1,1 2,0
12,6 15,3 0,9 2,2
12,0 18,9 0,8 2,1
4,9 5,4 0,3 2,0
15,9 17,4 0,9 2,2
9,2 8,7 0,5 2,1
10,6 10,3 0,6 2,1
12,2 18,2 0,9 2,0
13,9 14,4 0,7 2,4

Estimez sur excel et eviews la relation


y   0   1 x1   2 x 2   3 x 3  
8
Chapitre 2. Le modèle linéaire multiple
3. Exemple numérique
Exemple 1. Excel rend les résultats suivants :

 24 , 00 329 , 20 17 , 00 49 , 70 
 
 329 , 20 5165 , 78 261 , 78 688 , 03 
X'X  
17 , 00 261 , 73 13 , 40 35 , 47 
 
 49 , 70 688 , 03 35 , 47 103 , 61 

 6 , 49 0 , 068  1, 34  3 ,10 
 
1  0 , 068 0 , 020  0 , 42  0 , 023 
X 
 1, 34  0 , 42 9 , 53 0 ,17 
 
 1, 59 
  3 ,120  0 , 023 0 ,17

 243 , 40   ˆ 0    4 ,985 
     
 3616 , 28       0 ,323 
ˆ
X 'Y   ˆ   1    
186 , 26   ˆ
  16 , 237

  2
 ˆ   3 ,894 
 509 , 00 
   3  

9
Chapitre 2. Le modèle linéaire multiple
3. Exemple numérique
Exemple 1. Excel rend les résultats suivants :

Le logiciel Eviews rend le résultat suivant :

Dependent Variable: Y
Method: Least Squares
Date: 04/08/21 Time: 11:27
Sample: 1 24
Included observations: 24

Variable Coefficien... Std. Error t-Statistic Prob.

C -4.985071 6.985763 -0.713604 0.4837


X1 -0.323658 0.389601 -0.830742 0.4159
X2 16.23736 8.462302 1.918787 0.0694
X3 3.894463 3.461161 1.125190 0.2738

R-squared 0.506753 Mean dependent var 10.14167


Adjusted R-squared 0.432766 S.D. dependent var 3.639269
S.E. of regression 2.740913 Akaike info criterion 5.005471
Sum squared resid 150.2520 Schwarz criterion 5.201813
Log likelihood -56.06565 Hannan-Quinn criter. 5.057560
F-statistic 6.849215 Durbin-Watson stat 1.841169
Prob(F-statistic) 0.002341

10
Chapitre 2. Le modèle linéaire multiple
4. Interprétation des coefficients dans la régression multiple
Supposons que deux variables x1 et x2 permettent d’expliquer une variable dépendante y

Le vrai modèle s’écrit alors


y i   0   1 x1   2 x 2  

Les coefficients ˆ1 et ˆ 2 donnent une estimation de l’influence de chacune des deux variables
explicatives sur y en contrôlant l’effet de l’autre variable explicative.

Supposons que

ˆ1  0 ˆ 2  0 cov( x1 , x 2 )  0

Supposons que nous estimons le modèle

y i   0   1 x1  

11
Chapitre 2. Le modèle linéaire multiple
4. Interprétation des coefficients dans la régression multiple

y i   0   1 x1  

Si x1 augmente alors

- y va augmenter car ˆ1  0


- x2 va augmenter car cov( x1 , x 2 )  0
- y va encore augmenter car x2 a augmenté et que ˆ 2  0

Ainsi avec un modèle simple, la valeur de ˆ1 va capter tous ces effets et sa valeur sera sur-estimée par
rapport à la réalité. Donc ˆ1 sera biaisé. Ainsi, lorsque certaines variables ne sont pas prises en compte
les estimateurs sont biaisés.

Ainsi, plus le nombre de variables explicatives est important, plus les estimateurs auront moins tendance à
être biaisés.

12
Chapitre 2. Le modèle linéaire multiple

3. Interprétation des coefficients dans la régression multiple

Malheureusement, on ne peut pas inclure toutes les variables. Et ce pour deux raisons
- Certaines ne sont pas connues ou ne sont pas mesurables
- La précision des estimations devient faible

Le choix des variables explicative à inclure dans le modèle est le problème majeur qui se pose en pratique.
Ces problèmes sont surmontés grâce à l’expérience et à la connaissance fine du domaine et de la théorie
économique.
Un autre problème se pose lorsqu’on considère un nombre important de variables explicatives. Il y a le
risque que certaines d’entre elles soient corrélées. Dans ce cas il est difficile de déterminer l’effet de
chacune d’entre elles. C’est le problème de la multicollinéarité.
Enfin se pose le problème de la stratégie d’estimation
- Du général vers le particulier
- Du particulier vers le général

13
Chapitre 2. Le modèle linéaire multiple

4. l’inférence statistique dans la régression multiple

Les tests d’hypothèses présentés dans le cas simple restent valables.


On commence par tester les hypothèses
H 0 : i  0 contre H 0 : i  0
Comme dans le cas simple, la décision est prise en comparant l’écart observé
ˆ i
t obs 
s .e .( ˆ i )
À l’écart théorique lu sur la table de Student avec n  k  1 d.d.l.

Lorsqu’une variable explicative n’est pas significative (c.a.d. pour laquelle H0 est acceptée) on régresse le
modèle à nouveau sans la prendre en considération. Par contre, on garde la constante même si elle n’est
pas significative (Stratégie d’estimation)

14
Chapitre 2. Le modèle linéaire multiple

4. l’inférence statistique dans la régression multiple

Dependent Variable: Y
Method: Least Squares
Date: 04/08/21 Time: 11:27
Sample: 1 24
Included observations: 24

Variable Coefficien... Std. Error t-Statistic Prob.

C -4.985071 6.985763 -0.713604 0.4837


X1 -0.323658 0.389601 -0.830742 0.4159
X2 16.23736 8.462302 1.918787 0.0694
X3 3.894463 3.461161 1.125190 0.2738

R-squared 0.506753 Mean dependent var 10.14167


Adjusted R-squared 0.432766 S.D. dependent var 3.639269
S.E. of regression 2.740913 Akaike info criterion 5.005471
Sum squared resid 150.2520 Schwarz criterion 5.201813
Log likelihood -56.06565 Hannan-Quinn criter. 5.057560
F-statistic 6.849215 Durbin-Watson stat 1.841169
Prob(F-statistic) 0.002341

15
Chapitre 2. Le modèle linéaire multiple

4. l’inférence statistique dans la régression multiple


Dependent Variable: Y
Method: Least Squares
Date: 04/08/21 Time: 11:27
Sample: 1 24
Included observations: 24

Variable Coefficien... Std. Error t-Statistic Prob.

C -4.985071 6.985763 -0.713604 0.4837


X1 -0.323658 0.389601 -0.830742 0.4159
X2 16.23736 8.462302 1.918787 0.0694
X3 3.894463 3.461161 1.125190 0.2738

R-squared 0.506753 Mean dependent var 10.14167


Adjusted R-squared 0.432766 S.D. dependent var 3.639269
S.E. of regression 2.740913 Akaike info criterion 5.005471
Sum squared resid 150.2520 Schwarz criterion 5.201813
Log likelihood -56.06565 Hannan-Quinn criter. 5.057560
F-statistic 6.849215 Durbin-Watson stat 1.841169
Prob(F-statistic) 0.002341

Dependent Variable: Y
Method: Least Squares Dependent Variable: Y
Date: 04/15/21 Time: 13:54 Method: Least Squares
Sample: 1 24 Date: 04/15/21 Time: 13:55
Included observations: 24 Sample: 1 24
Included observations: 24
Variable Coefficien... Std. Error t-Statistic Prob.
Variable Coefficien... Std. Error t-Statistic Prob.
C -3.895437 6.810711 -0.571957 0.5734
X2 9.507400 2.427714 3.916195 0.0008 C 2.918405 1.747078 1.670449 0.1090
X3 3.526453 3.407275 1.034977 0.3125 X2 10.19755 2.338113 4.361444 0.0002

R-squared 0.489733 Mean dependent var 10.14167 R-squared 0.463705 Mean dependent var 10.14167
Adjusted R-squared 0.441136 S.D. dependent var 3.639269 Adjusted R-squared 0.439328 S.D. dependent var 3.639269
S.E. of regression 2.720616 Akaike info criterion 4.956062 S.E. of regression 2.725013 Akaike info criterion 4.922479
Sum squared resid 155.4367 Schwarz criterion 5.103319 Sum squared resid 163.3653 Schwarz criterion 5.020650
Log likelihood -56.47274 Hannan-Quinn criter. 4.995129 Log likelihood -57.06975 Hannan-Quinn criter. 4.948524
F-statistic 10.07746 Durbin-Watson stat 1.753960 F-statistic 19.02219 Durbin-Watson stat 1.601258
Prob(F-statistic) 0.000855 Prob(F-statistic) 0.000250

16
Chapitre 2. Le modèle linéaire multiple

5. Qualité globale de la régression


Comme dabs le modèle simple, nous avons

SCT  SCE  SCR

 (y  ( yˆ  (y
2
i  y)  i  y )2  i  yˆ i ) 2

Source des variations Somme des carrés Degrés de libertés Carrés moyens
x SCE K–1 SCE / (k -1)
Résidus SCR n–2 SCR / (n – 2)
Total SCT n-1

SCE SCR
R2   1
SCT SCT

17
Chapitre 2. Le modèle linéaire multiple

5. Qualité globale de la régression


Dans le modèle linéaire multiple la qualité globale du modèle ne peut pas être évalué à l’aide du R2. Ce
dernier est d’autant plus important que le nombre de variables explicatives est important.
Par ailleurs, il n’est pas possible de comparer les qualités de plusieurs modèles qui n’ont pas le même
nombre de variables explicatives
C’est pourquoi on ajuste le R2 par rapport aux nombre de variables explicatives (nddl).
On définit le R2 ajusté noté ( R 2 )

Le R2 ajusté (par le nombre de ddl) est donné par

SCR /( n  k  1)
R 2
1
SCT /( n  1)

18
Chapitre 2. Le modèle linéaire multiple

5. Qualité globale de la régression


Reprenons notre exemple
Dependent Variable: Y
Method: Least Squares
Date: 04/08/21 Time: 11:27
Sample: 1 24
Included observations: 24

Variable Coefficien... Std. Error t-Statistic Prob.

C -4.985071 6.985763 -0.713604 0.4837


X1 -0.323658 0.389601 -0.830742 0.4159
X2 16.23736 8.462302 1.918787 0.0694
X3 3.894463 3.461161 1.125190 0.2738

R-squared 0.506753 Mean dependent var 10.14167


Adjusted R-squared 0.432766 S.D. dependent var 3.639269
S.E. of regression 2.740913 Akaike info criterion 5.005471
Sum squared resid 150.2520 Schwarz criterion 5.201813
Log likelihood -56.06565 Hannan-Quinn criter. 5.057560
F-statistic 6.849215 Durbin-Watson stat 1.841169
Prob(F-statistic) 0.002341

24  1
R 2
 1 (1  0 , 506753 )  0 , 432766
24  3  1

19
Chapitre 2. Le modèle linéaire multiple

6. Test de significativité globale de la régression


La statistique de Student est utilisée pour tester un seul coefficient à la fois. Si on souhaite tester des
hypothèses relatives à plusieurs variables on utilise la statistique de Fisher

La statistique de Fisher dans le cas multiple est donnée par

SCE / k R2 /k
F  
SCR /( n  k  1) (1  R 2 ) /( n  k  1)

Ainsi, on peut tester les hypothèses suivantes :

H 0 :  1   2  ...   k  0

H1 : i  0
Ce test donne le pouvoir explicatif des toutes les variables prises ensemble.
On peut montrer que F suit une loi de Fisher avec (k) et (n - k - 1) d.d.l

20
Chapitre 2. Le modèle linéaire multiple

6. Test de significativité globale des coefficients


Reprenons notre exemple
Dependent Variable: Y
Method: Least Squares
Date: 04/08/21 Time: 11:27
Sample: 1 24
Included observations: 24

Variable Coefficien... Std. Error t-Statistic Prob.

C -4.985071 6.985763 -0.713604 0.4837


X1 -0.323658 0.389601 -0.830742 0.4159
X2 16.23736 8.462302 1.918787 0.0694
X3 3.894463 3.461161 1.125190 0.2738

R-squared 0.506753 Mean dependent var 10.14167


Adjusted R-squared 0.432766 S.D. dependent var 3.639269
S.E. of regression 2.740913 Akaike info criterion 5.005471
Sum squared resid 150.2520 Schwarz criterion 5.201813
Log likelihood -56.06565 Hannan-Quinn criter. 5.057560
F-statistic 6.849215 Durbin-Watson stat 1.841169
Prob(F-statistic) 0.002341

R2 /k 0 ,5067 / 3
F    6 ,849
(1  R 2 ) /( n  k  1) (1  0 , 5067 ) /( 24  3  1)

Prob ( F )  0 , 00234

21
Application : validation empirique du modèle de Solow ?

Economiste américain
Travaux sur la théorie de la croissance, résidu de Solow
Paradoxe éponyme
Prix Nobel 1987 pour ces travaux.

Robert Solow (1956) « A Contribution to the Theory of Economic Growth », QJE


Robert Solow (1957) « Technical Change and the Aggregate Production Function», RES

22
Présentation du modèle

- Apportent une première explication aux écarts de développement et de taux de croissance entre pays
- Constituent les bases de la théorie de la croissance
- Courant néoclassique
Le modèle de Solow utilise deux équations ; la fonction de production et celle d’accumulation du capital.
L’ économie produit un bien composite en quantité Y à partir de deux facteurs primaires K et L selon une
technologie à rendements constants
Hypothèses :
- Economie fermée et absence de l’Etat I = S
- L’épargne est une fraction fixe s du revenu S = s Y
- Fonction de production néoclassique Y = F (K, L)
* substitution entre capital et travail
* PmF décroissantes (Hypothèse très importante)
* Rendements constants

23
Présentation du modèle
Exemple : Fonction de production Cobb-Douglas

Yt  F ( Kt , Lt )  Kt L1t 0   1

Que représente L dans cette fonction ?


L est le nombre de travailleurs efficients

At est l’efficience du travail Lt  At N t

La fonction de production s’écrit


Yt  F ( Kt , Lt )  Kt At1 Nt1

L’efficience s’accroit au taux g et la population au taux n

At  (1  g ) At 1 Nt  (1  n) Nt 1

Le travail efficace croit alors au taux n + g

Lt  (1  n  g ) Lt 1

24
Pour simplifier, nous présentons toutes les variables par rapport au volume de la force de travail efficient

Yt Kt
Ainsi, on pose yt  et kt 
Lt Lt

~ Y
Le revenu par habitant est donné par yt  t
Nt

La production (le revenu) par travailleur est donc donnée par

Yt
yt   F (kt ,1)  f (kt )
Lt

Par la suite nous retenons comme exemple la fonction Cobb-Douglas

1
Yt  Kt Lt

yt  kt

25
L ’accumulation du capital physique

La seconde équation de Solow décrit l’accumulation du capital physique


Le point de départ est la demande de biens et services (identité comptable = équilibre sur le marché des biens)

y  c i

Les individus épargnent une fraction constante s du revenu et consomment la fraction restante (1-s)

c  (1 s)y

y  (1  s ) y  i

i  sy i  sf ( k )

L’accumulation du capital est donnée par l’investissement sf ( k )


diminué de l’investissement stabilisateur (consommation du capital) (  n  g )k

 k  sf ( k )  (   n  g ) k

26
3. Confrontations aux données

Déterminons le revenu de long terme (état stationnaire).

y  k

k  sf (k )  (n    g )k  0

sk   (n    g ) k  0

sk   (n    g )k sk  1  (n    g )

1
 s  1
kes   
 n    g 

27
3. Confrontations aux données

Si on remplace dans la fonction de production et on introduit le logarithme des deux côtés nous obtenons

 
ln( y )  ln( A0 )  ln( s )  ln(n    g )
1 1

Le A0 reflète non seulement l’état de la technologie mais aussi les ressources, le climat, les institutions, etc. Donc
il diffère d’un pays à un autre.

On peut écrire
A0   0  

Ainsi le modèle économétrique s’écrit

ln( y )   0  1 ln(s )   2 ln(n    g )  

Ainsi le modèle prédit


- Un effet positif de l’épargne (investissement) sur le revenu par tête
- Un effet négatif du taux de croissance de la population sur le revenu par tête
- Les coefficients des deux variables explicatives sont assez proches

28
3. Confrontations aux données

Nous utilisons les données de MANKIW N.G., D. ROMER et D. WEIL (1992), “A contribution to the
empirics of economic growth”, The Quarterly Journal of economics, vol. 107, no.2, pp. 407-437.

Eviews donne le résultat suivant :


Dependent Variable: GDP
Method: Least Squares
Date: 04/20/21 Time: 15:37
Sample: 1 106
Included observations: 106

Variable Coefficien... Std. Error t-Statistic Prob.

C 5.642796 1.411028 3.999069 0.0001


INV 1.470884 0.169561 8.674645 0.0000
POP -0.793577 0.606490 -1.308474 0.1936

R-squared 0.470702 Mean dependent var 8.123731


Adjusted R-squared 0.460425 S.D. dependent var 1.118648
S.E. of regression 0.821712 Akaike info criterion 2.473040
Sum squared resid 69.54667 Schwarz criterion 2.548420
Log likelihood -128.0711 Hannan-Quinn criter. 2.503592
F-statistic 45.79871 Durbin-Watson stat 1.398609
Prob(F-statistic) 0.000000

Le modèle économétrique confirme une partie des prédictions théoriques


Le modèle explique 47% de la réalité

29
3. Confrontations aux données
MRW(1992) introduisent un troisième facteur : le capital humain

Yt  K t H t ( At Lt )1  
Le revenu d’équilibre est donné par
ln( y )   0  1 ln(sk )   2 ln(n    g )   2 ln(sh )  
-MRW(1992) prédisent des paramètres  ,  , 
1 2 3
Dependent Variable: GDP
Method: Least Squares
Date: 04/20/21 Time: 15:36
Sample: 1 106
Included observations: 106

Variable Coefficien... Std. Error t-Statistic Prob.

C 6.938353 1.126200 6.160855 0.0000


INV 0.710886 0.164554 4.320074 0.0000
POP -0.862911 0.479046 -1.801312 0.0746
HC 0.686682 0.086412 7.946622 0.0000

R-squared 0.673093 Mean dependent var 8.123731


Adjusted R-squared 0.663478 S.D. dependent var 1.118648
S.E. of regression 0.648934 Akaike info criterion 2.010034
Sum squared resid 42.95375 Schwarz criterion 2.110541
Log likelihood -102.5318 Hannan-Quinn criter. 2.050770
F-statistic 70.00496 Durbin-Watson stat 1.956580
Prob(F-statistic) 0.000000

- L’explication des différences de développement entre les nations est améliorée


- Les différences d’accumulations du capital humain contribue a expliquer les différences de revenus
- Le modèle explique maintenant 66,3% de la réalité alors que le modèle de Solow n’explique que 46% de la réalité
- Les valeurs de paramètres sont pratiquement identiques comme le prédit la théorie

30
Chapitre 3. Variations autour du modèle
linéaire multiple

31
- Les propriétés des estimateurs dépendent des propriétés de l’erreur
- Jusqu’à présent nous avons supposé que l’erreur satisfait toutes les conditions de Gauss-Markov
- Dans ce chapitre nous allons examiner ce que devient le modèle linéaire si une ou plusieurs conditions ne sont
pas satisfaites.

Pour chacune des conditions nous allons examiner, à chaque fois que c’est possible, les éléments suivants :

- Comment savoir si une des conditions est vérifiée ou non ?


- Les causes de la violation de la condition
- Les conséquences sur les coefficients, les écart-types etc.
- Les solutions

32
3.1. La nullité de la moyenne des erreurs E ( )  0

Bien entendu, il n’est pas possible de savoir si E ( )  0

C’est pourquoi on examine la validité de cette condition au niveau des résidus.


Nous devons avoir

 ˆ i 0

En réalité à chaque fois que le modèle contient une constante on est sûr que cette condition est vérifiée

33
3.2. La variance est finie et constante

Nous avons supposé que la variance est constante E ( 2 )   2 . Dans ce cas on parle d’un modèle
homoscédastique. Dans le cas contraire on parle de modèle hétéroscédastique

Comment détecter l’ hétéroscédasticité ?


1. La méthode graphique. La distribution des résidus doit avoir la forme suivante

. . .. . .
0
. . .. . .
.
Homoscédasticité

34
3.2. La variance est finie et constante

Nous avons supposé que la variance est constante E ( 2 )   2 nous avons à faire à un modèle
homoscédastique. Dans le cas contraire nous parlons de modèle hétéroscédastique

Comment détecter l’ hétéroscédasticité ?


1. La méthode graphique. La distribution des résidus doit avoir la forme suivante

. .
.. . .
0
. . .
. . .
.
Hétéroscédasticité
35
3.2. La variance est finie et constante

Nous avons supposé que la variance est constante E ( 2 )   2 nous avons à faire à un modèle
homoscédastique. Dans le cas contraire nous parlons de modèle hétéroscédastique

Comment détecter l’ hétéroscédasticité ?


1. La méthode graphique. La distribution des résidus doit avoir la forme suivante

. .
. . ..
0
. .. .
. .
.
hétéroscédasticité
36
3.2. La variance est finie et constante

Si nous reprenons l’exemple du modèle de Solow, la distribution des résidus est donnée par
4

-1

-2

-3
10 20 30 40 50 60 70 80 90 100

GDP Residuals

On peut suspecter au regard de ce graphique la violation de l’hypothèse de l’homoscédasticité

37
3.2. La variance est finie et constante
Comment détecter l’ hétéroscédasticité ?
2. Les tests formels. Il en existe plusieurs. Le plus utilisé et qui est implémenté dans Eviews est le test de White
Il consiste à utiliser une régression auxiliaire.
On rérgesse le carré des résidus sur les variables explicatives, les carrés des variables explicatives et sur les produits
croisés des variables explicatives
Si par exemple notre modèle s’écrit
y   0  1 x1   2 x2  
La régression auxiliaire est donnée par

ˆ 2   0   1 x1   2 x2   3 x12   4 x22   5 x1 x2  

Si on note R2 le coefficient de détermination de cette régression on peut montrer que sous l’hypothèse nulle
d’homoscédasticité nR2 suit approximativement un Chi-deux avec q degrés de libertés (q est le nombre de
variables explicatives dans le nouveau modèle (ici 5).
Bien entendu si nR 2   2 on accepte l’hypothèse nulle que le modèle est homoscédastique
 q ,

38
3.2. La variance est finie et constante
Reprenons l’exemple du modèle de Solow
Dans Eviews il faut aller
view residual diagnistics heteroscedasticity tests white
Eviews rend le résultat suivant
Heteroskedasticity Test: White

F-statistic 16.70157 Prob. F(5,100) 0.0000


Obs*R-squared 48.23680 Prob. Chi-Square(5) 0.0000
Scaled explained SS 82.11785 Prob. Chi-Square(5) 0.0000

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 04/20/21 Time: 15:40
Sample: 1 106
Included observations: 106

Variable Coefficien... Std. Error t-Statistic Prob.

C 113.7917 26.11136 4.357938 0.0000


N  R 2  106  0,455064  48,23680
INV^2 0.028777 0.362305 0.079427 0.9369
INV*POP
INV
2.587884
-5.165361
2.183923
5.213185
1.184970
-0.990826
0.2388
0.3242
 52;0, 05  11,0705
POP^2 27.17942 4.012494 6.773697 0.0000
POP -111.2389 20.43553 -5.443405 0.0000 Pr  0,0000
R-squared 0.455064 Mean dependent var 0.656101
Adjusted R-squared 0.427817 S.D. dependent var 1.251820
S.E. of regression 0.946911 Akaike info criterion 2.783716
Sum squared resid 89.66409 Schwarz criterion 2.934477
Log likelihood -141.5369 Hannan-Quinn criter. 2.844820 On rejette l’hypothèse nulle.
F-statistic 16.70157 Durbin-Watson stat 1.900136
Prob(F-statistic) 0.000000 Le modèle est hétéroscédastique
39
3.2. La variance est finie et constante
Conséquences de l’hétéroscédasticité
Si l’hypothèse de l’hétéroscédasticité est vérifiée, les coefficients restent toujours non biaisés mais pas BLUE. Cela
signifie qu’on peut toujours continuer à utiliser les MCO. Cependant les S.E. (écart-types) ne sont pas bons. On
ne peut pas faire de l’inférence statistique.

Solutions
- Si on connait la source de l’hétéroscédasticité (population non homogène, grand pays et petits pays, données non
stationnaires, etc.) on peut résoudre le problème (prendre des variables par tête, travailler avec des données
stationnaires, etc). Utilisation des données en log
- On estime les erreurs standards à la white
- Dans ce cas il faut être prudent pour rejeter l’hypothèse nulle de non significativité des coefficients

Dans Eviews
Estimate equation options white

40
3.2. La variance est finie et constante
Reprenons le modèle de Solow

Dependent Variable: GDP


Method: Least Squares
Dependent Variable: GDP Date: 04/20/21 Time: 15:38
Method: Least Squares Sample: 1 106
Date: 04/20/21 Time: 15:37 Included observations: 106
Sample: 1 106 White heteroskedasticity-consistent standard errors & covariance
Included observations: 106
Variable Coefficien... Std. Error t-Statistic Prob.
Variable Coefficien... Std. Error t-Statistic Prob.
C 5.642796 2.032262 2.776609 0.0065
C 5.642796 1.411028 3.999069 0.0001 INV 1.470884 0.133734 10.99859 0.0000
INV 1.470884 0.169561 8.674645 0.0000 POP -0.793577 0.982294 -0.807881 0.4210
POP -0.793577 0.606490 -1.308474 0.1936
R-squared 0.470702 Mean dependent var 8.123731
R-squared 0.470702 Mean dependent var 8.123731 Adjusted R-squared 0.460425 S.D. dependent var 1.118648
Adjusted R-squared 0.460425 S.D. dependent var 1.118648 S.E. of regression 0.821712 Akaike info criterion 2.473040
S.E. of regression 0.821712 Akaike info criterion 2.473040 Sum squared resid 69.54667 Schwarz criterion 2.548420
Sum squared resid 69.54667 Schwarz criterion 2.548420 Log likelihood -128.0711 Hannan-Quinn criter. 2.503592
Log likelihood -128.0711 Hannan-Quinn criter. 2.503592 F-statistic 45.79871 Durbin-Watson stat 1.398609
F-statistic 45.79871 Durbin-Watson stat 1.398609 Prob(F-statistic) 0.000000 Wald F-statistic 66.86426
Prob(F-statistic) 0.000000 Prob(Wald F-statistic... 0.000000

Grace à la procédure white on a estimé les nouveaux écarts-types

41
3.2. Condition 3. Absence d’autocorrélation
Les erreurs ne doivent pas être corrélées entre elles cov( i ,  j )  0 i  j

On examine les résidus


 

0 0

Autocorrélation positive  Autocorrélation négative

0 Absence d’autocorrélation

42
3.2. Condition 3. Absence d’autocorrélation
Détection de l’autocorrélation
- Examen du graphique des résidus
- Tests formels : test du Durbin Watson (DW), test de Durbin, test LM

Le test de Durbin Watson permet de détecter les autocorrélations d’ordre 1.


Supposons que le vrai modèle est donné par
yt   0  1 xt   t (1)

Et que  t   t 1  t (2)

L’équation (2) décrit un modèle auto-régressif d’ordre 1 noté AR(1)


Un modèle AR(p) est donné par

 t  1 t 1   2 t 2  ...   p t  p  t

43
3.2. Condition 3. Absence d’autocorrélation
Détection de l’autocorrélation
-Il existe un autre type d’autocorrélation appelée moyenne mobile MA. Elle peut être d’ordre q et notée MA(q).
-Si nous avons par exemple MA(3), elle s’écrit

 t  0 t  1t 1   2 t  2  3t 3

-Bien entendu, il est possible d’avoir les deux types d’autocorrélations en même temps ARMA(p , q)
-Supposons que notre autocorrélation est de type AR(1)

 t   t 1  t

- Si  0 on a une autocorrélation positive


- Si   0 on a une autocorrélation négative
- Si   0 on n’a pas d’autocorrélation

44
3.2. Condition 3. Absence d’autocorrélation
Le test de Durbin Watson consiste à tester

H 0 :   0

 H1 :   0
La statistique de DW est donnée par

DW 
 (ˆ  ˆ
t t 1 )2
 ˆ t
2

Si n est très grand alors


DW  2  2 
-Si pas d’autocorrélation   0  DW  2
-Si autocorrélation positive   1  DW  0
- Si autocorrélation négative   1  DW  4

Ainsi 0 2 4

Auto. + Pas d’auto. Auto. -

45
3.2. Condition 3. Absence d’autocorrélation
Pour décider de manière formelle, on compare la statistique de Durbin Watson à in intervalle [ d , d ] qui dépend
des paramètres  , k, n dont les valeurs sont lues sur une table de Durbin-Watson

Exemple (modèle de Solow). T  106 k 2   0,05

La table de Durbin watson rend l’intervalle [1,63 ;1,72]

1,63 1,72 2,28 2,37


Ainsi
0 2 4

Autocorrélation
Absence négative
Autocorrélation d’autocorrélation
positive

46
3.2. Condition 3. Absence d’autocorrélation
Reprenons notre exemple relatif au modèle de Solow

Dependent Variable: GDP


Method: Least Squares
Date: 04/20/21 Time: 15:37
Sample: 1 106
Included observations: 106

Variable Coefficien... Std. Error t-Statistic Prob.

C 5.642796 1.411028 3.999069 0.0001


INV 1.470884 0.169561 8.674645 0.0000
POP -0.793577 0.606490 -1.308474 0.1936

R-squared 0.470702 Mean dependent var 8.123731


Adjusted R-squared 0.460425 S.D. dependent var 1.118648
S.E. of regression 0.821712 Akaike info criterion 2.473040
Sum squared resid 69.54667 Schwarz criterion 2.548420
Log likelihood -128.0711 Hannan-Quinn criter. 2.503592
F-statistic 45.79871 Durbin-Watson stat 1.398609
Prob(F-statistic) 0.000000

-La statistique du DW est donnée par 1,398


-Pour qu’il y ait absence d’autocorrélation la statistique de DW doit être comprise entre 1,72 et 2,28
- Le DW appartient à l’intervalle [0 ; 1,63] : il y a autocorrélation positive
47
3.2. Condition 3. Absence d’autocorrélation
Conséquences de l’autocorrélation
Comme pour l’hétéroscédasticité, les coefficients restent non biaisés mais sont inefficients. Il n’est pas possible de
faire de l’inférence statistique.

Elimination de l’autocorrélation
Supposons que le vrai modèle est
yt   0  1 xt   t (1)
Et
 t   t 1  t t  N (0,  2 )

48
3.2. Condition 3. Absence d’autocorrélation
Conséquences de l’autocorrélation
Comme pour l’hétéroscédasticité, les coefficients restent non biaisés mais sont inefficients. Il n’est pas possible de
faire de l’inférence statistique.

Elimination de l’autocorrélation
Supposons que le vrai modèle est
yt   0  1 xt   t (1)
Et
 t   t 1  t t  N (0,  2 )
Si le modèle est vrai pour t, il l’est aussi pour t -1
yt 1   0  1 xt 1   t 1

49
3.2. Condition 3. Absence d’autocorrélation
Conséquences de l’autocorrélation
Comme pour l’hétéroscédasticité, les coefficients restent non biaisés mais sont inefficients. Il n’est pas possible de
faire de l’inférence statistique.

Elimination de l’autocorrélation
Supposons que le vrai modèle est
yt   0  1 xt   t (1)
Et
 t   t 1  t t  N (0,  2 )
Si le modèle est vrai pour t, il l’est aussi pour t -1
yt 1   0  1 xt 1   t 1

yt 1   0  1 xt 1   t 1 (2)

50
3.2. Condition 3. Absence d’autocorrélation
Conséquences de l’autocorrélation
Comme pour l’hétéroscédasticité, les coefficients restent non biaisés mais sont inefficients. Il n’est pas possible de
faire de l’inférence statistique.

Elimination de l’autocorrélation
Supposons que le vrai modèle est
yt   0  1 xt   t (1)
Et
 t   t 1  t t  N (0,  2 )

yt 1   0  1 xt 1   t 1

yt 1   0  1 xt 1   t 1 (2)


(1)-(2)
yt  yt 1   0 (1   )  xt  1 xt 1   t   t 1

51
3.2. Condition 3. Absence d’autocorrélation

yt  yt 1   0 (1   )  xt  1 xt 1   t   t 1

yt  yt 1   0 (1   )  xt  1 xt 1  t

Comme on peut le voir, l’autocorrélation d’ordre 1 disparait


Dans Eviews on introduit AR(1) parmi les variables explicatives
Dependent Variable: GDP
Dependent Variable: GDP Method: ARMA Maximum Likelihood (OPG - BHHH)
Method: Least Squares Date: 04/20/21 Time: 17:20
Date: 04/20/21 Time: 15:37 Sample: 1 106
Sample: 1 106 Included observations: 106
Included observations: 106 Convergence achieved after 22 iterations
Coefficient covariance computed using outer product of gradients
Variable Coefficien... Std. Error t-Statistic Prob.
Variable Coefficien... Std. Error t-Statistic Prob.
C 5.642796 1.411028 3.999069 0.0001
INV 1.470884 0.169561 8.674645 0.0000 C 4.859152 1.230492 3.948951 0.0001
POP -0.793577 0.606490 -1.308474 0.1936 INV 1.145075 0.194530 5.886368 0.0000
POP 0.054681 0.454694 0.120260 0.9045
AR(1) 0.437891 0.095963 4.563139 0.0000
R-squared 0.470702 Mean dependent var 8.123731 SIGMASQ 0.568806 0.084472 6.733693 0.0000
Adjusted R-squared 0.460425 S.D. dependent var 1.118648
S.E. of regression 0.821712 Akaike info criterion 2.473040 R-squared 0.541126 Mean dependent var 8.123731
Sum squared resid 69.54667 Schwarz criterion 2.548420 Adjusted R-squared 0.522952 S.D. dependent var 1.118648
Log likelihood -128.0711 Hannan-Quinn criter. 2.503592 S.E. of regression 0.772635 Akaike info criterion 2.370009
F-statistic 45.79871 Durbin-Watson stat 1.398609 Sum squared resid 60.29343 Schwarz criterion 2.495643
Prob(F-statistic) 0.000000 Log likelihood -120.6105 Hannan-Quinn criter. 2.420929
F-statistic 29.77595 Durbin-Watson stat 2.171192

52
3.2. Normalité des erreurs
Afin de réaliser l’inférence statistiques nous avons supposé que les erreurs sont normales. Nous devons tester cette
hypothèse en testant la normalité des erreurs.
Il existe plusieurs tests pour vérifier si les erreurs sont un bruit blanc gaussien. Le plus connu et le plus utilisé
(implémenté dans Eviews) est le test de Jarque-Berra. Il est basé sur les moments d’ordre 3 (asymétrie ou Skewness)
et 4 (aplatissement ou Kurtosis).

3
1  ˆ  ˆ 
Le Skewness est donné par S   i 
T   
4
1  ˆ  ˆ 
Le Kurtosis est donné par K   i 
T   
Dans le cas de la loi normale nous avons S 0 et K 3
Le test de Jarque-Bera regroupe ces deux tests en un seul. La statistique de Jarque-Bera est donné par

T k 2 1
K
6

S  4 ( K  3) 2 

53
3.2. Normalité des erreurs

T k 2 1
JB 
6

S  4 ( K  3) 2 

On peut montrer que, sous l’hypothèse nulle (les erreurs suivant une loi normale), cette quantité suit une loi de Khi-
deux avec 2 d.d.l.
Ainsi si JB   2 on ne peut rejeter l’hypothèse nulle et les erreurs suivent une loi normale.

Sur Eviews :
View Residual diagnostics Histogram-Normality test

Eviews donne la statistique de JB et la probabilité d’acceptation de l’hypothèse nulle.


Bien entendu si Pr  0,05 on accepte H0 et les erreurs sont considérées normales au seuil 5%

54
3.3. Normalité des erreurs
Dans notre exemple relatif au modèle de Solow, Eviews rend le résultat suivant

20
Series: Residuals
Sample 1 106
16 Observations 106

Mean -2.79e-16
12 Median -0.035471
Maximum 3.156154
Minimum -2.002630
8 Std. Dev. 0.813848
Skewness 0.376422
Kurtosis 4.606005
4
Jarque-Bera 13.89495
Probability 0.000961
0
-2 -1 0 1 2 3

Comme la probabilité est inférieur à 0,05, on rejette H0 : les erreurs ne sont pas normales

55
3.4. Les autres quesitons
Test de spécification fonctionnelle
Jusqu’à présent nous avons supposé que le modèle est linéaire. Ce qui n’est pas forcément le cas.
On peut tester formellement l’hypothèse que la forme est linéaire en utilisant le test RESET (Regression
Specification Error Test).
On teste H0 : Forme fonctionnelle correcte
H1: Erreur de spécification
Le test fonctionne de la manière suivante :
On construit une régression auxiliaire

 t   0  1 x1  ...   2 xk   1 yˆ t2  ...   p 1 yˆ tp  t

Le test revient à tester l’hypothèse nulle H0 :  i  0 i

La statistique associée à ce test est la statistique F de Fisher


Si H0 est acceptée alors le modèle ne souffre pas de mauvaise spécification

56
3.4. Les autres quesitons
Test de spécification fonctionnelle
Sur Eviews
-Estimer le modèle sous forme de liste de variables explicatives
View Stability test Ramsey RESET test Choix de P

En reprenant le modèle relatif au modèle de Solow et pour p =1, on obtient On accepte H0. Le
Ramsey RESET Test Unrestricted Test Equation:
modèle est bien
Equation: EQ01 Dependent Variable: GDP linéaire
Specification: GDP C INV POP Method: Least Squares
Omitted Variables: Squares of fitted values Date: 04/21/21 Time: 12:07
Sample: 1 106
Value df Probability Included observations: 106
t-statistic 1.431484 102 0.1553
F-statistic 2.049146 (1, 102) 0.1553 Variable Coefficie... Std. Error t-Statistic Prob.
Likelihood ratio 2.108397 1 0.1465
C -0.03257... 4.205901 -0.007746 0.9938
F-test summary: INV -2.75686... 2.958218 -0.931935 0.3536
Sum of S... df Mean Squares POP 1.836818 1.934073 0.949715 0.3445
Test SSR 1.369654 1 1.369654 FITTED^2 0.181975 0.127124 1.431484 0.1553
Restricted SSR 69.54667 103 0.675210
Unrestricted SSR 68.17702 102 0.668402 R-squared 0.481126 Mean dependent var 8.123731
Adjusted R-squared 0.465865 S.D. dependent var 1.118648
LR test summary: S.E. of regression 0.817559 Akaike info criterion 2.472017
Value df Sum squared resid 68.17702 Schwarz criterion 2.572524
Restricted LogL -128.071... 103 Log likelihood -127.016... Hannan-Quinn criter. 2.512753
Unrestricted LogL -127.016... 102 F-statistic 31.52652 Durbin-Watson stat 1.385906
Prob(F-statistic) 0.000000

57
3.4. Les autres quesitons
Le problème de la multicollinéarité
- On parle de multicollinéarité lorsque certaines variables explicatives sont liées entre elles de manière linéaire
-Le problème survient essentiellement dans le cas des séries temporelles et lorsque les variables présentent des
tendances fortes
- Lorsqu’il y a multicollinéarité le R2 est très élevé mais les SE sont très élevés, il s’en suit des intervalles de
confiances assez larges donc absence de précisions au niveau des tests
- Il existe plusieurs tests pour tester la multicollinéarité
- Nous en présentons deux
-Test de Klein
- Test de Farrar-Glauber

58
3.4. Les autres quesitons
Le problème de la multicollinéarité
Test de Klein : il consiste à examiner la matrice des corrélations simple
Si les coefficients de corrélations simples élevés au carré sont tous inférieurs à R2 alors il n’y a pas de risque de
multicollinéarité.
Dans notre exemple relatif au modèle de Solow, la matrice des corrélations simple est donnée par
INV POP GDP
INV 1 -0,29457977 0,67963517
POP -0,29457977 1 -0,28984326
GDP 0,67963517 -0,28984326 1

La matrices des coefficients de corrélation au carré est donnée par

INV POP GDP


INV 1 0,08677724 0,46190396
POP 0,08677724 1 0,08400912
GDP 0,46190396 0,08400912 1

On voit qu’un des coefficients de corrélations simples élevés au carré est proche du R 2 =0,46, alors il y a risque de
multicollinéarité.
59
3.4. Les autres quesitons
Le problème de la multicollinéarité
Test de Farrar—Glauber :Il teste que le déterminant D de la matrice de corrélation est égal à 1.

Ainsi on teste
H0 : Les variables explicatives sont des variables aléatoires non-corrélées
H1 : Les variables explicatives sont des variables aléatoires corrélées.
Le test est basé sur le fait que sous H0 et avec une hypothèse de normalité, la statistique (sur 10 observations)

 obs
2
 n  1  16 [2( k  1)  5]log( D )

Suit une loi de Khi-deux à( k  1) k / 2d.d.l.

Bien entendu si  obs


2
 2 il n’y a pas de problème de multicollinéarité

60
3.4. Les autres quesitons
Le problème de la multicollinéarité
Dans notre exemple, le déterminant de la matrice des coefficients de corrélation est donné par 0,483
Ainsi

 obs
2
 10  1  16 [2(3  1)  5]log(0,483)  2,15

A comparer avec  02, 05;6  12,59

Comme  obs
2
 2 on ne rejette pas H0. Il n’ ya pas de problème de multicollinéarité

61