Econométrie II

FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION DE
SOUSSE
ECONOMETRIE II
Réalisé par :
Mohamed BELHEDI
Ragnar Anton Kittil Frisch (Oslo, 3 mars, 1895 - 31 janvier, 1973), économiste norvégien et
lauréat du premier « prix Nobel » d'économie décerné en 1969, est l'un des pères de
l'économétrie.
Jan Tinbergen (La Haye, 12 avril 1903 - 9 juin 1994 ), économiste néerlandais et lauréat,
avec Ragnar Frisch du premier Prix de la Banque de Suède en sciences économiques en
mémoire d'Alfred Nobel décerné en 1969 et du Prix Érasme en 1967.
Faculté des Sciences Economiques et de Gestion de
Sousse
Cours d’économétrie II
Rédigé par :
Mohamed BELHEDI*
*Tous les suggestions et les remarque seront le bienvenues écrire au med.belhedi@gmail.com

Table des matières
Chapitre 1 : La Régression Multiple : Extension et Violation des hypothèses ................... 2
I. Rappel : .............................................................................................................................. 2
1.1 Estimateurs des moindres Carrés Ordinaires : ............................................................ 2
1.2 Propriétés des estimateurs ........................................................................................... 3
II. La méthode des Moindres Carrées Généralisé ou estimateur d’Aïtken. .......................... 4
2.1 Présentation et estimation............................................................................................ 4
2.2 Inférences Statistiques .................................................................................................. 6
III. L’Autocorrélation des résidus : ....................................................................................... 7
3.1 Erreurs autorégressives d’ordre un :............................................................................. 8
3.2 Tests de l’autocorrélation : ........................................................................................... 9
3.3 Test d’autocorrélation de Durbin et Watson (1950 et 1951) ...................................... 10
3.3.1 Test H de Durbin : ............................................................................................... 12
3.3.2 Test de Breusch-Godfrey (1978) ......................................................................... 12
3.3.3 Estimation avec autocorrélation des erreurs : ..................................................... 13
3.2.4 Méthode de Cochrane-Orcutt. ............................................................................. 15
3.2.5 Méthode de Hildreth-Lu. ..................................................................................... 16
3.2.6 Méthode de Maximum de Vraisemblance : ........................................................ 16
IV. Les problèmes d’hétéroscédasticité : ............................................................................ 16
4.1 Les causes d’hétéroscédasticité : ............................................................................... 16
4.2 Les tests d’hétéroscédasticité : ................................................................................... 17
4.2.1 Test de Goldfeld-Quandt ..................................................................................... 18
4.2.2 Test de Breush-Pagan : (test asymptotique) ........................................................ 19
4.2.3 Test de Glesjer (1969) : ....................................................................................... 19
4.2.4 Test de White (1980) : ......................................................................................... 20
4.3 Correction de l’hétéroscédasticité causée par Xj : ...................................................... 20
V. La multicolinéarité .......................................................................................................... 21
5.1 Détection de la multicolinéarité ................................................................................. 22
Chapitre 2 : Les modèles à équations simultanées .............................................................. 27
I. Introduction .................................................................................................................. 27
II. Généralités et exemples .................................................................................................. 27
2.1 Forme structurelle : ................................................................................................... 27
2.2 Présentation matricielle du modèle et hypothèses ..................................................... 29
III. Problème de l’identification : ........................................................................................ 30
3.1 Restrictions sur les coefficients : ............................................................................... 30
3.2 Conditions d’identifications : .................................................................................... 31
IV. Les méthodes d’estimation d’un système interdépendant :........................................... 34
4.1 L’estimateur MCI : ..................................................................................................... 34
4.2 L’estimateur DMC : ................................................................................................... 36
Chapitre 3 : Les modèles dynamiques et à retards échelonnés .......................................... 43
I. Généralité ......................................................................................................................... 43
1.1 Quelques définitions :................................................................................................ 43
1.2 Effet de court terme et effet de long terme ................................................................ 44
1.3 Le retard moyen ......................................................................................................... 45
II. Les modèles à distribution finie des retards ................................................................. 46
2.1 Le modèle à retards géométriques : Le modèle de Koyck ........................................ 46
2.2 Le modèle à retard polynomiaux (modèle d’Almon) ................................................ 47
III. les critères de détermination du nombre de retard ....................................................... 49
3.1 Le test de Fisher ......................................................................................................... 49
3.2 Le critère de Akaike (AIC) et le critère de Schwarz (SC)........................................ 49
IV. Exemples de modèles dynamiques ............................................................................... 49
4.1 Les modèles d’ajustement partiel .............................................................................. 49
4.2 Le modèle d’anticipation adaptative ......................................................................... 50
Cours d’Econométrie II BELHEDI Mohamed
Objectifs du cours
Ce cours est destiné aux étudiants de licence et première année master (Maîtrise
Ancien régime) d’Econométrie, Economie Bancaire et financière et Finance.
A la fin de ce cours l’étudiant devra être en mesure de distinguer les différents

modèles économétriques : modèle de régression multiple, modèle dynamique,
modèle à équation simultanée, modèle non linéaire ainsi que les problèmes
posés par la violation des hypothèses de Gauss-Markov: Homoscédasticité et
autocorrélation des résidus.
Pré requis
Pour Comprendre ces notions l’étudiant devrait avoir des bonnes connaissances
en algèbre linéaire ainsi que les notions fondamentales de Statistique.
1
Chapitre 1 : La Régression Multiple : Extension et Violation des

hypothèses
I. Rappel :
1.1 Estimateurs des moindres Carrés Ordinaires :
Soit le modèle linéaire fournit par la théorie économique sous la forme :
yt  1  2 x2t  3 x3t  ...  k xkt  ut t = 1 , 2, ..., T
Ce modèle s’écrit sous la forme matricielle : Y  X   U
Avec : - Y est un vecteur représentant la variable dépendante et contenant T observations.
- X est une matrice de k colonnes et T lignes et contenant les variables explicatives
plus la constante.
-  est un vecteur contenant les k paramètres à estimer.
- U est un vecteur contenant les T perturbations aléatoires de la régression.
On suppose que :
H1 : E(U)=0, l’espérance mathématique de l’erreur est nulle.
H2 : E(UU’)=²I, la variance de l’erreur est constante (t) (homoscédasticité) et la
covariance entre deux termes d’erreurs différents est nulle.
H3 : XU, les variables explicatives sont indépendantes des résidus.
H4 : X est de pleine Rang Rang X = k c’est à dire que la matrice (X’X) est inversible.
On peut estimer le modèle par MCO en minimisant le score S()=U’U qui n’est autre que la
somme des carrées des résidus. On a donc :
U Y  X
S (  )  U 'U  (Y  X  ) '(Y  X  )  YY '  ' X ' Y  Y ' X    ' X ' X 
 Y ' Y  2 ' X ' Y   ' X ' X 
2
Les conditions nécessaires de minimisation du Score S() sont :
S (  )
1)  0  2 X ' Y  2 X ' X ˆ  0   MCO  ( X ' X ) 1 X ' Y

( ' X ' X  ) (  ' X ' Y )
on rappele que :  2X ' X  ;  X 'Y
 
 2 S     S (  )
2)  ( )  2 X ' X qui est une matrice définie positive
 2  
(ayant des valeurs propres positives)
1.2 Propriétés des estimateurs
  
1) E(  )= puisque : E ˆ  E  X ' X  X '  X   U   E     X ' X  X 'U   
1
 
1

car E(U)=0.
 
2) V   E    
       ']  E  X ' X  1
X 'UU ' X  X ' X   =  2  X ' X 
1

1
3)  est le meilleur estimateur linéaire non biaisé BLUE (théorème de Gauss Markov1)
YY '  ' X ' Y Uˆ 'Uˆ SCR

4)  ² 
T k
 
T k T k
 
et Vˆ   ˆ ²  X ' X 
1
  Ŷ  Y 
T T
u
2
2
i t
SCE SCR
5) R²  t 1
  1 t 1
 1
Y  Y
T
Y  Y
T
2 SCT 2 SCT
t t
t 1 t 1
SCR T  1 T 1
6) R²  1    1 1  R² 
SCT T  k Tk
Supposons maintenant que certaines hypothèses classiques ne sont plus vérifiées. Que se
passent il si les résidus sont autocorrélés ou ne sont plus homoscédastiques (H2) ?
Dans ce cas les estimateurs des MCO ne sont plus à variance minimale et le théorème de
Gauss-Markov n’est plus vérifié. Nous verrons dans la section suivante que les estimateurs
par moindre carré généralisé vérifient ce théorème et que cet estimateur est sans biais
convergent et à variance minimale.
1
S’il existe un autre estimateur de  alors il a une variance supérieur a celle de 
3
II. La méthode des Moindres Carrées Généralisé ou estimateur d’Aïtken.

2.1 Présentation et estimation
Reprenons le modèle Y  X   U avec E(U) = 0 mais V(U) = E(UU’) = V = ²   2 I
c’est à dire que les hypothèses H2 et H3 ne sont plus vérifiée. Si on estime par la méthode des
MCO on a :
 MCO   X ' X  X ' Y     X ' X  X 'U

1 1
 
1) E   
2) Var     E          '  E  X ' X  X 'UU ' X  X ' X  

1 1
   
X 'X   X 'VX  X ' X  ²X ' X   X ' X  X ' X  ²X ' X 
1 1 1 1 1
Donc l’estimateur des MCO n’est plus BLUE.

Exemple :
Soit le modèle suivant : yt  0  1 xt  ut t = 1 , 2, ..., T 1
Supposons que le modèle (1) vérifie les hypothèses de Gauss Markov.
Si on souhaite estimer le modèle (1) sur les variations :
yt  1xt  ut t = 1 , 2, ..., T-1  2
On perd la 1ère observation.
avec yt  yt  yt 1 ; xt  xt  xt 1 ; ut  ut  ut 1
Posons  t  ut  ut  ut 1
E   t   E  ut  ut 1   0
Var   t   Var  ut   Var  ut 1   2 Cov  ut ; ut 1   2 ²
0
Cov   t ;  t '   E   t ;  t '   ?

 
E   t ;  t 1   E  ut  ut 1  ;  ut 1  ut  2     E ut21   ²  0
E   t ;  t  2   E  ut  ut 1  ;  ut  2  ut 3    0
Donc : j>1  E   t ;  t  j   0
 2 1 0 0
 
 1 2 1 0 
 0 1 
Var      ²     ² IT 1
 0
 0 1
 
0 0 1 2 
Donc Var() est une matrice de termes connues à un terme près.
4
Le théorème d’AITKEN permet de déterminer un estimateur linéaire sans biais et à variance

minimale. Ce théorème est une généralisation du théorème de Gauss-Markov.
1er cas : Si Y  X   U avec E(U) = 0 , Var(U) = V = ² (avec  est une matrice connue à
100%) et X est de plein rang et non aléatoire.
Rappel : pour toute matrice  (TT), définie et positive, il existe une matrice P /
PP '  IT   P ' P   

1
Vérification :
Y  X   U Supposons qu’il existe une matrice P tel que : 1  P ' P
PY  PX   PU
Y *  X *  U *
E U *   E  PU   PE U   0
Var U *   V  PU   E  PU  PU  '  E  PUU ' P '  PE UU ' P '
 P ² P '   ² PP '   ² IT
Les hypothèses classiques sont vérifiées pour U* et on peut appliquer les MCO pour le
modèle : Y *  X *  U *
 MCO  ( X * ' X * ) 1 X * ' Y *    PX  ' PX 

1
 PX  ' PY   X ' P ' PX 
1
X ' P ' PY
  X ' 1 X  X ' 1Y '   MCG

1
  X 'V 1 X  X 'V 1Y '

1
 
Var  G   ²  X * ' X *    ²  X ' 1 X    X 'V 1 X 
1 1 1
Comme ² est inconnue, nous allons chercher un estimateur sans biais de ² est définie par :

2
G 
Y *

 X * ˆG ' Y *  X * ˆG    PY  PX ˆ  '  PY  PX ˆ 
G G
T k T k

  
 P Y  X ˆG  '  P Y  X ˆG 
    
 
Y  X ˆG ' P ' P Y  X ˆG  
T k T k

  
Y  X ˆG '  1 Y  X ˆG 
T k
2ème cas : Si Y  X   U avec E(U) = 0, Var(U) = V (avec V est une matrice inconnue)
Il faut d’abord chercher un estimateur convergent Vˆ de V, ensuite appliquer les MCG estimés
ˆ
 
1
(appelé encore MCQG) : ˆG  X 'Vˆ 1 X X 'Vˆ 1Y
5
ˆ
On peut démontrer que P lim  ˆG    mais attention, en petits échantillons, on ne peut pas
  
ˆ ˆ
dire que E  ˆG    et Var  ˆG  est minimale.
   
2.2 Inférences Statistiques
Si U N (0,  ²) alors :
1)  G 
N  ,  ²  X ' 1 X 
1
 avec -1  P ' P
2
G
2) T  k   2 T  k 
²
N   j , b jj  avec b jj est le jième élément diagonal de  ²  X'-1 X 
j 1
3)  G
Remarques :
 a  U
 N  0,V  : si V est connue à 100%.
U N (0,  ²) Alors 
 b  U
 N  0,V  : si  V= ²  est connue à terme  ² prés.
(a) on applique la loi normale dans le cas d’un test sur une hypothèse simple, et la loi de
Khi-deux dans le cas d’un test sur une hypothèse linéaire générale.
(b) on applique la loi de Student dans le cas d’un test sur une hypothèse simple, et la loi
de Fisher dans le cas d’un test sur une hypothèse linéaire générale.
6
III. L’Autocorrélation des résidus :

Introduction :
Soit le modèle : Y = X + U
Si E(ut,ut’) = tt’  0 il y a autocorrélation des erreurs, on rencontre ce type de phénomène
lorsqu’on travaille sur des données temporelles.
Dans ce cas, la matrice des variances covariances s’écrit :
  12  12  1T 
 
  21  22 
E UU '   
 
 
 T1  T 2  T2 
T² T
On dispose de T observations et k coefficients inconnus (j) en plus coefficients
2
inconnus (t² et tt’). On a beaucoup plus de coefficients inconnus que d’observations donc
l’estimation est à priori impossible.
La solution est d’assimiler l’erreur ut à un processus usuel et stationnaire.
Rappel :
 Le processus autorégressif AR(p) : ut AR(p)
ut = 1ut–1 + 2ut–2 + … + put–p + t ; t est un bruit blanc.
 Le processus moyenne mobile MA(q) : ut MA(q)
ut = t + 1t–1 + 2t–2 + … + qt–q ; t est un bruit blanc.
 Le processus mixte ARMA(p, q) : ut ARMA(p, q)
ut = 1ut–1 + 2ut–2 + … + put–p + t + 1t–1 + 2t–2 + … + qt–q ; t est un bruit blanc.
i et i vérifient certaines conditions pour la stationnarité :

 Espérance et variance constantes.
 Covariance dépend de l’écart entre t et t’ et pas de la période t.
Remarque : on se limitera dans notre cours aux processus autorégressifs d’ordre 1 AR(1)
 ut = ut-1 + t avec t est un bruit blanc.
7
3.1 Erreurs autorégressives d’ordre un :
Il arrive fréquemment, dans les séries temporelles, que les résidus présentent une
allure cyclique : soit un résidu positif tend à être suivi par un résidu positif ou un résidu
négatif tend à être suivi par un résidu négatif ; soit les résidus successifs alternent. Le premier
cas correspond à une autocorrélation positive ; le second, à une autocorrélation négative.
Dans un modèle de consommation par exemple, la présence d’une autocorrélation

positive des erreurs pourrait traduire une certaine inertie du comportement des agents : une
consommation supérieur à la normale aurait tendance à se poursuivre durant plusieurs
périodes successives. La présence d’une autocorrélation négative pourrait traduire un
phénomène oscillatoire, l’individu compense par une consommation moindre à la période t un
excès de consommation à la période t–1.
Dans un cas comme dans l’autre, l’hypothèse de non corrélation des erreurs est violée.
Il faut alors appliquer la méthode d’Aïtken. Mais il est nécessaire pour cela de décrire
formellement cette dépendance des erreurs, c’est-à-dire de postuler une forme explicite de la
matrice des variances-covariances des erreurs. On pose donc les hypothèses suivantes :
ut  ut 1   t avec :   1
On dit que ut suit un processus autorégressif d’ordre 1 : ut  AR(1) avec :

E(t) = 0 pour tout t,
 2 si t = s
E(t,s)=  
 0 si t  s
L’erreur ut possède donc une composante systématique (ut-1) et une composante purement
aléatoire (t).
Pour calculer la matrice des variances-covariances des erreurs on calcule :
E (ut2 ), E (ut , ut 1 ),..., E (ut , ut s )
On a ut  ut 1   t   ( ut 2   t 1 )   t   2ut 2   t 1   t
=  2 ( ut 3   t 2 )   t 1   t
=  3ut 3   2 t 2   t 1   t
= t  t 1  ² t 2  3 t 3  ...


Soit, en remontant indéfiniment dans le temps : ut    i t i
i 0
8
Ce qui implique :

E (ut )    i E ( t i )  0
i 0
 2
E (ut2 )  E ( t2 )   2 E ( t21 )   4 E ( t2 2 )  ...   2 (1   2   4  ...)  .
1  2
De même :
 2
E (ut , ut 1 )  E (ut , ( ut 1   t ))   E (ut21 )    u2
1  2
E (ut , ut 2 )  E ((  2ut 2   t 1   t ), ut 2 )   2 E (ut22 )   2 u2

....
E (ut , ut  s )   s u2
On a donc la matrice variance covariance :
 1   ² ...  T 1 
 
  1  ...  T  2 
 ²
E (UU ')  V   u   ²
2
 . . .   u  
2

  1  ²
 . . . .  
  T 1 . ²  1 

3.2 Tests de l’autocorrélation :

a) Test graphique :
Nous pouvons distinguer une autocorrélation positive (graphique 1) d’une autocorrélation
négative (graphique 2).
ut
t
0
Graphique 1 : Autocorrélation positive
9
ut
t
0
Graphique 2 : Autocorrélation négative

L’examen visuel des résidus permet le plus souvent de détecter un processus de reproduction
des erreurs lorsque :
 Les résidus sont pendant plusieurs périodes consécutives soit positifs, soit négatifs :
autocorrélation positive (graphique 1).
 Les résidus sont alternés : autocorrélation négative.
Cependant, le plus souvent, l’analyse graphique est délicate d’interprétation car le dessin des
résidus ne présente pas des caractéristiques toujours évidentes.
Les tests statistiques :
3.3 Test d’autocorrélation de Durbin et Watson (1950 et 1951)

H :   0
Ce test permet de tester  0 .
 H1 :   0
Sa distribution n’a pas pu être déterminé indépendamment de la matrice X. il existe
donc une zone d’incertitude quant à la décision d’accepter ou rejeter l’hypothèse nulle ou
l’hypothèse alternative pour des valeurs de la statistique de Durbin-Watson qui est définie
 u 
T 2
t  u t 1
par : DW  t 2
T
 uˆ
t 1
2
t
On pourra montrer facilement que ̂

En effet :
10
 
T T T T T T
 u t  u t 1  2 u t u t 1 2 u t  2 u t u t 1
2 2 2 2
u t  u t 1
DW  t 2
T
 t 2 t 2
T
t 2
 t 2
T
t 2
u u u
2 2 2
t t t
t 1 t 1 t 1
∑ ̂ ̂
Or lorsque T tend vers l’infini on a : ∑ ̂ ∑ ̂ et on a : ̂ ∑ ̂
∑ ̂ ̂
Donc : ( ∑ ̂
) ̂
Si  = 0 la valeur du statistique DW prend la valeur 2.

Si  = 1 la valeur du statistique DW s’annule.
Si  = -1 la valeur du statistique DW prend la valeur 4.
Les valeurs de DW sont donc comprises entre 0 et 4 s’approche de 0 dans le cas

d’autocorrélation positive, de 4 dans le cas d’autocorrélation négative et s’approche de la
valeur de 2 en absence d’autocorrélation.
On pourra résumer ces valeurs dans un tableau en indiquant deux valeurs critiques de
Durbin-Watson théorique qui prennent deux valeurs dU et dL et qui dépendent du nombre des
variables explicatives dans la régression ainsi que de la taille de l’échantillon. Notons enfin
que la présence de la constante et l’absence du retard sur la variable dépendante dans la
régression sont indispensables pour ce test.
0 dL dU 2 4-dU 4-dL 4
>0 ? =0 =0 ? <0
H1 DW < dL dL  DW < dU dU  DW < 4-dU 4-dU  DW < 4-dL 4-dL  DW

Rejeter H0 Rejeter H0
0 Incertain Ne pas rejeter H0 Incertain
>0 <0
Les valeurs critiques dL et dU sont en fonction de la taille de l’échantillon (T > 15) du

nombre des variables explicatives sans la constante et du seuil de confiance. (Exemple pour T
= 20 et dans un modèle linéaire à deux variables explicative d L = 1.1 et dU = 1.54 au risque de
5%).
11
3.3.1 Test H de Durbin :
Le test de DW n’est pas applicable quand on a des variables endogènes retardées en tant que
explicatives dans le modèle.
Exemple : yt  0  1x1t  ...  k x kt  yt 1  u t avec t  1,...,T ;
E(yt–1, ut)  0 donc H4 n’est plus vérifiée.
Durbin (1970) a développé une autre statistique qu’il appelle H-Durbin :
T
h  ˆ 
assy
 
(0,1)
ˆ ˆ
1 T  V  yt 1 
̂ : est le coefficient de la régression uˆ t  uˆ t 1   t .
û t : sont les résidus des MCO.
 
V̂ ˆ  yt1  : La variance estimée par MCO associée au coefficient yt–1 dans la modèle.
H0 :   0
 Avec un risque de 5%, si h  1,962 : on accepte H0.
 H1 :   0
ˆ ˆ
Remarque : 1  T  V   3
 yt 1  peut être négative, Durbin propose une autre procédure de test .
3.3.2 Test de Breusch-Godfrey (1978)
Ce test permet de tester la présence d’autocorrélation dans un processus autorégressive

d’ordre p (AR(p)) et peut être employé lorsqu’il y a des retards sur la variable endogène dans
le modèle (yt-1, yt-2,…). Lorsque les erreurs sont de type:
ut  1ut 1  2 ut 2  ....   p ut  p   t
 H0 : 1  2  ...  p  0
Il permet de tester l’hypothèse : 
H1 : 1  0; 2  0;...; p  0
La statistique est obtenue en appliquant le principe des Multiplicateurs de Lagrange
(critère LM) dans le contexte du maximum de vraisemblance pour un modèle à erreurs
autorégressives.
Pour appliquer ce test on fait la régression auxiliaire :
2
Lu dans la table de la loi normale centrée réduite.
3
Voir Jhonston
12
k p
yt  0   i xti    j u t  j  vt
i 1 j 1
Où les u t  s sont les résidus de la régression de yt sur les k variables explicatives xt par MCO.
La statistique est définie par :
LM = TR²
T est la taille de l’échantillon et R² est le coefficient de détermination de la régression des
résidus sur les explicatives.
Si H0 est vraie on peut montrer que la distribution limite (lorsque n) de cette statistique
est une  2p . Si TR²   2p 4 on accepte l’hypothèse d’indépendance des erreurs.
On pourra aussi utiliser un test de Fisher classique de nullité des coefficients i pour la
régression auxiliaire lorsque la taille de l’échantillon est faible (H0 : 1 = 2 =…= p = 0).
3.3.3 Estimation avec autocorrélation des erreurs :
Les procédures suivantes ne sont valides que si : ut = ut–1 + t. (i)
La méthode de Durbin (le modèle transformé) :
La matrice inverse de  peut être calculée si le coefficient d’autorégression  est

connu et on pourra en ce moment calculer l’estimateur MCG du modèle. On pourra vérifier
que :
 1  0 ... ... 0 
 
  1  ²  0 ... 0 
1  0  1   ² ... ... 
 1  2  
1    ...  ...  0 
 0 ... ... 1   ²   
 
 0 ... 0  1 
De cette expression on peut déduire la matrice de transformation :
4
Lu dans la table khi deux au seuil  et au p degrés de liberté.
13
 1  ² 0 0
 
  1 
1  0  1 
P  
1  2  
 0
 
 0   1 
 0
Lorsqu’on on applique cette matrice à la matrice X et le vecteur Y, on peut retenir comme

 1  2 z 
 1
  
 z  z 
 2 1 
 z3   z 2 
formule de transformation d’une colonne z la règle suivante : z *   .
 et on
 
 . 
 
 . 
 z  z 
 n n 1 
applique les moindres carrés ordinaires aux données transformées.

Cette écriture matricielle peut être reprise de la manière suivante :
Soit le modèle à l’instant t : yt  0  1x1t  ...  k x kt  u t avec t  1,...,T (1)
Avec ut = ut–1 + t
Le modèle peut s’écrire en t–1 : yt 1  0  1x1t 1  ...  k x kt 1  u t 1 avec t  2,...,T (2)
(1) – (2) :
y t  y t 1  0 (1  )  1 (x1t  x1t 1 )  ...  k (x kt  x kt 1 )  (u t  u t 1 ) avec t  2,..., T
y t  b0  1x1t  ...  k x kt   t
On peut écrire ce dernier modèle « transformé »sous la forme :
k k
yt   yt 1    j X jt   (  j ) X jt 1   t
j 1 j 1
t est un bruit blanc, donc le meilleur estimateur pour ce dernier modèle est celui des MCO.
Les coefficients estimés du modèle transformé sont les mêmes que ceux du modèle de départ
(1) sauf la constante : 0 = b0 / (1 – ).
Il convient donc de connaître ou d’estimer le paramètre . C’est l’objet des procédures
suivantes :
14
1ère étape : Estimation directe de  à partir des résidus de la régression sur le modèle initial
∑ ̂ ̂ DW
(i) : ̂ ∑ ̂
Ou à partir de la statistique de DW : ˆ  1 
2
2ème étape : Transformation des variables (endogène et exogènes). Les paramètres estimés par
MCO sont alors : ˆ 1 , ˆ 2 ,..., ˆ k et ˆ 0  bˆ 0 /(1  ˆ ).
Les méthodes itératives :
3.2.4 Méthode de Cochrane-Orcutt.
Cette méthode est la plus utilisée, elle permet d’estimer à la fois  et .

Soit le modèle : yt  0  1x1t  ...  k x kt  u t avec t  1,...,T (1)
1ère étape : On commence par appliquer les MCO sur le modèle (1) pour obtenir un vecteur u
des résidus, soit u   I  X ( X ' X )1 X ' Y .
∑ ̂ ̂
2ème étape : On obtient ensuite  en régressant u t sur u t 1 . Ceci donne : ̂ ∑ ̂
3ème étape : On applique alors la formule des moindres carrées généralisés en remplaçant  par
 dans l’expression de la matrice V. Soit donc :

̂ ̂ ̂ ̂ ̂
̂ ̂ ̂ ̂ ̂
̂ ̂ ̂ ̂ ̂ ̂
̂ ̂ ̂
[̂ ̂ ̂ ]
On calcule . ̂ ̂ ̂
Ceci fournit un nouveau vecteur des résidus. ̂̂ ̂
On recommence à partir de la 2ème étape : ce nouveau vecteur peut servir à calculer une
nouvelle estimation de , soit ̂̂…Cette dernière peut servir à calculer une troisième
estimation de , et ainsi de suite .
4ème étape : On peut poursuivre cette procédure jusqu’à la convergence5 des estimations de .
Remarque : il n’est pas certain que cette procédure converge vers un extremum global.
5
On dit qu’il y’a convergence si à l’itération i on a : ̂ ̂
15
3.2.5 Méthode de Hildreth-Lu.
Il s’agit ici d’une méthode d’estimation par tâtonnement :   ] –1, 1 [.

1ère étape : Prendre des différentes valeurs de   ] –1, 1 [, avec un pas régulier (par exemple
0,1 ; 0,01 ; …).
2ème étape : Pour chaque valeur de , on estime :
  
ˆ G et par la suite SCR   Y  Xˆ G 'V 1 Y  Xˆ G 
3ème étape : On choisie la valeur de  qui minimise la SCR().
3.2.6 Méthode de Maximum de Vraisemblance :
 1   ² ...  T 1 
 
 1  ...  T  2 
1 
N (0,   ) Avec   ²  . . . 
2
U
1  ²  
 . . . .  
  T 1 . ²  1 

 1   1   1 
T
 1 
T
f  u1 ,..., uT          exp   2 U '  1U 

 2         2  
1
avec  
1  ²
 1 1
Log ( L)  const  Log ( 2 )  Log (1   ²)  2  y  x  '  1  y  x 
2 2 2 
Log  L 
 0
 
 Log  L 
  0  résoudre le système  ˆ( MV ) , ˆ 2( MV ) , ˆ ( MV )
  2

 Log  L 
 0
 
IV. Les problèmes d’hétéroscédasticité :

4.1 Les causes d’hétéroscédasticité :
Lorsque la variance des erreurs ne sont plus constantes sur la première diagonale
V (U )   2 I on parle de présence d’hétéroscédasticité dans ce cas les estimateurs des MCO
sont sans biais mais non efficace (la variance n’est plus minimale) ce phénomène peut être
expliqué par plusieurs raisons:
16
- la répétition d‘une même valeur de la variable à expliquer pour des valeurs différentes d’une
variable explicative ;
- la présence des moyennes calculée sur des échantillons de taille différente ;
- lorsque les erreurs sont liées aux valeurs prises par une variable explicative, dans un modèle
en coupe instantanée la variance de la consommation croit, par exemple, avec le revenu
disponible, etc.…
Nous avons dit que la matrice variance covariance des erreurs prend la forme suivante :
²diag(k1,…,kn) où les ki sont des constantes positives connues. Pour remédier ce problème
1
on peut adopter la transformation des observations en multipliant par .
ki
Plus généralement, on peut pourra adopter la méthode des moindre carrée pondérés pour
remédier le problème d’hétéroscédasticité. Si ce problème est dû à des variations aléatoires
des coefficients de régressions de régression, en illustrant cette situation par exemple simple.
Soit le modèle :
yt  a  bxt  ut et supposons que b = b* + t où b* est constant en probabilité et où t est une
erreur aléatoire avec E(t) = 0, V(t) =  2 , E(t, s) = 0 pour t  s, et E(ut, t) = 0. On peut alors
écrire :
yt  a  (b*   t ) xt  ut  a  b* xt  vt avec vt  ut   t xt
On a E (vt2 )  E (ut2 )  xt2 E (t2 )   u2  xt2 2 dépend de l’indice t.

2
Une solution possible, en grand échantillon, est de poser : vt     xt2  t où v t est un résidu
de la régression de yt sur xt par MCO. On estime  et  par MCO et on estime
 t2  E (vt2 ) par    xt2 on utilise ensuite les moindres carrés pondérés pour estimer a* et b*.
4.2 Les tests d’hétéroscédasticité :

Test graphique :
17
V(ut)  xj V(ut)  xj
Exemples d’hétéroscédasticité.
Exemple d’homoscédasticité.
4.2.1 Test de Goldfeld-Quandt
Soit le modèle de régression multiple suivant : yt  1  2 x2t  3 x3t  ...  k xkt  ut

Supposons que la variable xj soit la source de l’hétéroscédasticité de ce fait on pourra stipuler
que V (ut )  f ( x jt )   2 x 2jt . Ceci représente une violation de l’hypothèse d’homoscédasticité.
Pour tester cette hypothèse on procède comme suit :

1ère étape : On classe par ordre croissant les données de la variable Xj.
2ème étape : On omet de l’échantillon, c observations centrales et on divise le reste en deux
T c
sous échantillons de même taille ( ) . T étant la taille de l’échantillon initial, c est
2
généralement le quart de l’ensemble des observations.
3ème étape : On effectue séparément les estimations par MCO des deux sous échantillons et
sauve les SCR de chacun des deux régressions (SCR1 et SCR2).
4) Sous l’hypothèse d‘homoscédasticité H0 : (  12   22 ) le rapport des variations résiduelles :
18
SCR1 SCR2
 2T c Et  2T c . Le rapport de deux khi deux rapporté chacun à son
² 
 2

 ( k 1) 

 ² 
 2

 ( k 1) 

degré de liberté est un Fischer :

SCR2 T  c
/  (k  1)
T c T c
Fˆ   ² 2 SCR2
  F(  (k  1),  (k  1)) (Tabulé).
SCR1 T  c SCR 2 2
/  (k  1) 1
² 2
Si F  F on accepte H0 sinon il y a présence d’hétéroscédasticité des erreurs.

Notons enfin que le numérateur prend toujours la valeur la plus élevée des SCR on pourra
donc calculer SCR1/SCR2 si SCR1>SCR2.
4.2.2 Test de Breush-Pagan : (test asymptotique)
Supposons que le modèle étudié est sous la forme matricielle suivante : Y = X + U et que la
variance  2  f (Z , ) avec Z  X cela veut dire que la source de l’hétéroscédasticité est une
partie des variables explicatives. Breusch et Pagan propose de faire le test suivant :
1ère étape : Faire la régression Y=X+U. Par MCO.
2
u
2ème
étape : Faire la régression 2
 0  1 z1   2 z2  ...  l zl

3ème
étape : Faire le test H0 : 1 = 2 = … = l = 0
SCE
La statistique est S   2l 
2
Si S   (2l ) tabulé on rejette l’hypothèse nulle H0 de l’homoscédasticité et on peut accepter la
présence de l’hétéroscédasticité des erreurs.
4.2.3 Test de Glesjer (1969) :
Ce test permet de déterminer la forme de la corrélation qui existe entre la variable Xj et la

variance des erreurs. Il se base sur la régression des résidus du modèle :
yt  1  2 x2t  3 x3t  ...  k xkt  ut
On teste ensuite la significativité de 1 dans l’estimation par MCO des modèles suivants :
19

 u t   0  1 xtk  t


 u t   0  1 xtk  t Si 1 est statiquement significatif dans l’une des régressions citée on

 u t     1 
 0 1
xtk
t
accepte alors la présence d’hétéroscédasticité dans le modèle du départ.
4.2.4 Test de White (1980) :
Soit le modèle de départ : yt  1  2 x2t  3 x3t  ...  k xkt  ut (1)

C’est le test le plus utilisé et le plus général puisqu’on n’impose aucune forme a priori de
l’hétéroscédasticité. On fait la régression suivante :
u t   0   q xqt    q xqt2  ql xqt xlt  vt (2)

2
q q q l q
On voit donc le caractère général de ce test puisque dans les variables explicative on trouve
les xi leurs carrés et leurs produits croisés. La statistique de test de White repose sur le calcul
du coefficient de détermination R² tiré de la régression précédente (2). Sous H0 (les q, les q
et les ql sont nulles) on peut montrer que W  TR²  (2p ) p étant le nombre de régresseurs
k (k  3)
dans la régression précédente ( p  k est le nombre de variable explicative dans la
2
régression du départ (1)). La règle de décision est toujours la même.
4.3 Correction de l’hétéroscédasticité causée par Xj :

MCG :
Reprenons le modèle : yt  1  2 x2t  3 x3t  ...  k xkt  ut et supposons que : V (ut )   2 x 2jt
L’estimateur BLUE d’un modèle hétéroscédastique est alors celui des MCG :
1
 
𝛽̂𝐺 G   X ' 1 X  X ' 1Y ' et V  G   X 'V 1 X    ²  X ' 1 X 
1 1
MCP :
Pour rendre les erreurs homoscédastiques il faut transformer le modèle du départ afin d’avoir
ut
une variance constante ceci est possible si on pose ut  t = 1, …, T.
x jt
Le modèle transformé sous forme matricielle est Y  X   U avec :
Y  PY , X  PX et U  PU
20
Cette forme est obtenue en multipliant toutes les équations par l’inverse des éléments de Xj.
yt 1 x x x u
   2 2t  3 3t  ...   k kt  t t=1,....,T
x jt 1 x jt x jt x jt x jt
Ou alors on peut écrire :

yt  1  2 x2t  3 x3t  ...  k xkt  u t t = 1, …, T
 1 
x 0 0 
 1j 
 1 
 0 . . 
 x2 j 
Donc la matrice de transformation est : P   . 
 
 . 
 . . 0 

 1 
 0 0
xTj 

 1 
 x2 0 0 
 1j 
 1 
 0 . . 
 x22 j 
  PP '  
1
. 
 
 . 
 . . 0 

 1 
 0 0
xTj2 

V. La multicolinéarité
La multicolinéarité est un autre problème de violation des hypothèses classiques pour les
estimations par MCO. Cette violation est due à l’existence d’une dépendance linéaire entre les
vecteurs représentatifs des variables explicatives. On parle de multicolinéarité parfaite ou
stricte lorsque une des variables explicatives soit fortement corrélé avec une autre ou des
autres explicatives. Dans ce cas il est impossible d’estimer le modèle par MCO puisque la
matrice X ne soit pas de plein rang et le déterminant de X’X sera nul. Mais ce cas est extrême
et il arrive souvent que la dépendance linéaire des variables explicatives soit approximative.
Les conséquences de ce phénomène sont les suivant :
 Les éléments de la matrice (X’X) sont élevés et sont déterminant tend vers 0.
21
 La variance des estimateurs est élevée.

 Les t de student des estimateurs sont très faibles, ce qui pousse à éliminer des
explicatives pouvant être pertinente.
 Les intervalles de confiance des estimateurs sont d’amplitudes larges et l’erreur de
prévision sera grande.
 Instabilité des estimateurs des MCO : faible fluctuation des données entraîne une forte
variation des valeurs estimées des coefficients.
5.1 Détection de la multicolinéarité

Intuitivement on peut détecter la multicolinéarité dans un modèle si les t de Student des
paramètres sont faibles et le R² est élevé. Mais on doit procéder par des tests statistiques qui
permettent de détecter les variables explicatives fortement corrélées. Klein (1962) propose de
comparer le coefficient de détermination R² du modèle initial au coefficient de corrélation
simple rx2i x j entre deux variables explicatives Xi et Xj pour ij. Il y a présomption de
Cov( x ; x ) 
2

i j
multicolinéarité si R² < rx2i x j . Avec rx2i x j
V ( xi )V ( x j )
Les rx2i x j sont observées dans la matrice de corrélation qui est fournit par la majorité des
logiciels d’économétrie.
On pourra utiliser le test de Farrar et Glauber (1967) qui suggèrent de réaliser un test en
deux étapes :
1ère étape : Calculer le déterminant de ma matrice des coefficients de corrélation entre les
variables explicatives :
1 rx1x2 rx1x3 ... rx1xk
rx2 x1 1 rx2 x3 ... rx2 xk
D . . .
. .
rxk x1 rxk x2 ... rxk xk 1 1
Lorsque la valeur du déterminant D tend vers 0, le risque de multicolinéarité est important.

Par exemple, pour un modèle à deux variables explicatives, si les deux séries sont
parfaitement corrélées, le déterminant s’écrit :
1 rx1x2 1 1
D   0.
rx2 x1 1 1 1
Dans le cas opposé, où les séries explicatives sont orthogonales, le déterminant devient :
22
1 rx1x2 1 0
D  1
rx2 x1 1 0 1
2ème étape : on effectue un test du  ² , en posant les hypothèses suivantes :
 H 0 : D  1 (les séries sont orthogonales)


 H1 : D  1 (les séries sont dépendantes)
 1 
La valeur empirique du teste est : c2   T  1   2k  5  Log ( D)
 6 
Avec :
 T : la taille de l’échantillon.
 k : nombre d’exogène dans le modèle (y compris la constante).
 Log : le logarithme népérien.
Si  c2  21 
: on rejette H 0  présemption de la multicolinéarité.
 k ( k 1) 
2 
Si  c2  21 
: on accepte H 0  les séries sont orthogonales.
 k ( k 1) 
2 
Exemple :
Soit me modèle linéaire suivant : yi  0  1 x1i  2 x2i  3 x3i   4 x4i   i i  1,...,13
Les résultats d’une estimation par MCO de ce modèle sont résumés dans le tableau suivant :
Variable
Coefficient Ecart-type
62.41 C
70.07
1.5511 x1
0.7448
0.5102 x2
0.7238
0.1019 x3
0.7547
-0.1441 x4
0.7091
R² = 0.93024
La matrice des corrélations entre les variables explicatives est la suivante :
x1 x2 x3 x4
x1 1 0.229 0.824 0.245
x2 0.229 1 0.139 0.973
x3 0.824 0.139 1 0.03
x4 0.245 0.973 0.03 1
Avec, le déterminant de cette dernière matrice est égal à 0.00139533.
 1 
c2   13  1   2  5  5  6.5746  62.46
 6 
Si c2  62.46  21 
=18.31 : on rejette H0  présemption de la multicolinéarité.
 k ( k 1) 10 
2 
Estimation avec quasi-multicolinéarité :
23
Il existe trois techniques permettant d’apporter des solutions au problème de la

multicolinéarité :
 Augmenter la taille de l’échantillon : cette technique n’est efficace que si l’ajout
d’observations diffère significativement de celles figurant déjà dans le modèle, sinon il
y aura reconduction de la multicolinéarité.
 La régression Ridge : est une réponse purement numérique, il s’agit de transformer la
matrice X’X en (X’X + cI) où c est une constante choisie arbitrairement qui, en
augmentant les valeurs de la 1ère diagonale, réduit les effets numériques de la
multicolinéarité.
 La seule parade vraiment efficace consiste, lors de la spécification du modèle, à
éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et
donc d’être corrélées entre elles (en pratique, quand rx2, z est élevé par rapport à un
certain seuil, on élimine soit x soit z). La question qui se pose ici, est ce qu’on peut
toujours éliminer des variables explicatives sans changer la structure du modèle ?
La régression Ridge : c’est l’idée de Kennard et Hoerl (1970), afin de rendre la matrice X’X
bien conditionnée et obtenir un estimateur assez stable  ˆR   X ' X  cI  X 'Y est
-1
l’estimateur Ridge. Avec c est un réel non stochastique appartenant à [0, 1].
Remarque :
max
 l’indice de conditionnement d’une matrice A : J = A.A-1= avec les j
min
sont les valeurs propres de la matrice A.
Inférences statistiques :
E (ˆR )  E[( X ' X  cI )1 X '( X   U )]  ( X ' X  cI ) 1 X ' X    si c  0. Car E(U)=0.
Donc ˆR est biaisé.
     
V (  R )  E   R  E  R  R  E  R '  E ( X ' X  cI ) 1 X 'UU ' X ( X ' X  cI ) 1 
 
  ²( X ' X  cI )1 ( X ' X )( X ' X  cI )1
Si c = 0 alors V( ˆR ) = V( ˆMCO ).
24
Théorème 1 : le carré du biais de l’estimateur Ridge est une fonction croissante de c et sa

variance est une fonction décroissante de c6.
Donc V( ˆR )  V( ˆMCO ).
Faire le choix entre deux estimateurs, l’un est sans biais mais de variance élevée et l’autre de
variance réduite mais biaisé. Ce choix se fera sur la base de l’erreur quadratique moyenne
EQM.
Théorème 2 : il existe toujours des valeurs positives de c tel que EQM( ˆR )  EQM( ˆMCO ).
²
Pour cela, il suffit de choisir c  .
max
2
ˆ ²
Choix de c : Hoerl et Kennard (1975) proposent d’estimer c par : cHK   k  1
ˆ ˆMCO
'
MCO
Uˆ 'Uˆ ˆ
,  MCO   X ' X  X ' Y et k : nombre de paramètres à estimer dans le modèle.
1
Avec  ² 
T k
Calcul de l’estimateur Ridge :
Xt  X Yt  Y
Il faut toujours standardiser le modèle : ;
x y
On utilise un programme MCO pour l’estimation tout en écrivant le modèle comme suit :
 Y1   X 11 X 12 ... X 1k 
   
X ... 
 Y2   21
 ...   ... 
  X X
  1   u1 
 T 
Y  T 1 ... ... Tk    

               2    2 
 u
     ...   ...  Yc  X c   U c
 0   c 0 ... 0     
 ...      k   uT  k 
0 ...
   
 ...   ... ... 
 0   
   0 c 
(T  k ,1) (T  k , k ) (k ,1) (T  k ,1)
6
Démonstration : voir Judge, G.G. (1988) pp 874-882.
25
 X 
'
 X  
    
X c X c            X ' X  cI  
'
 cI   cI  
 k  k 
'   ˆR
 X Y  
   
X cYc             X ' Y  cI  0   X ' Y 
'
 cI   0  
 k   
Exemple :
1  10 25 
   
Y   2  ; X   15 17  ; c  0,1.
 3  30 15 
   
1  10 25 
   
 2  15 17 
 
1
Alors Yc   3  ; X c   30 15   ˆR  X c' X c X c' Yc
   
0
   0,1 0 
0  
   0 0,1 
26
Chapitre 2 : Les modèles à équations simultanées

I. Introduction
Un modèle économique est, généralement, un système d’équations interdépendantes puisque
les variables économiques sont généralement interdépendantes. Dans un tel système une
variable endogène peut être une variable explicative d’une ou plusieurs équations du modèle.
L’estimation d’un modèle à une seule équation ne suffit pas toujours à étudier un phénomène
économique. Par exemple l’estimation de la loi de demande nécessite l’étude de la fonction
d’offre et l’identité entre cette fonction et la fonction d’offre. On est amené donc à estimer un
système d’équations simultanées. L’estimation d’un modèle à équations simultanées par les
MCO donne des estimateurs biaisés et pas convergents. Le biais de l’estimation est appelé
biais de simultanéité.
La modélisation opère en trois phases:
 la conception, c'est à dire l'écriture ou la spécification du modèle

 l'estimation des équations du modèle, selon des techniques appropriées
 la résolution du modèle, préalable à son emploi pour la simulation ou la prévision
II. Généralités et exemples

2.1 Forme structurelle :
La forme structurelle (FS) traduit les lois du marché telle que propose la théorie économique.
Sous cette forme les variables endogène et exogène peuvent intervenir sans que l’endogène
s’exprime uniquement en fonction des exogènes. L’estimation dans ce cas donne des résultats
erronés. Prenons quelques exemples.
Exemple 1 : modèle keynésien élémentaire
Considérons le modèle à deux équations suivantes :
Ct  a  bRt   t : équation économétrique, fonction de consommation

 Rt  Ct  I t : équation comptable, équilibre des biens
Ct est la consommation, qui est une variable endogène du modèle , Rt est le revenu national,
qui est aussi une variable endogène, It est l’investissement, qui est une variable exogène du
modèle.
La première équation est une équation stochastique de comportement, la seconde est une
identité comptable qui n’est autre qu’une définition. Cette représentation est appelé forme
structurelle.
27
Exemple 2 : modèle d’offre et de demande
Soit le système de 2 équations représentant l’offre et demande dans un modèle canonique de

comportement. Les quantités demandées (qt) dépendent du prix (pt) et du revenu (rt). Le prix
(pt) dépend des quantités offertes (qt) et de coût de production (xt). Le système s’écrit :
qt  a1 pt  b1rt  c1  1t : fonction de demande

qt  a2 pt  b2 xt  c2   2t : fonction d'offre
 o
qt  qt : condition d'équilibre de marché
d
La première équation représente la fonction de demande qui dépend du prix et du revenu. La

seconde représente la fonction d’offre qui dépend également du prix et du coût de la
production. qt et pt sont les endogènes du système et xt et rt sont les exogènes.
Remarque :
 E  pt , 1t   0
 Donc le modèle sous FS pose un problème statistique : H2 n’est pas vérifiée.
 E  pt ,  2t   0
Les estimateurs de cette forme seront biaisés et non convergents.
2) Forme réduite :
La forme réduite (FR) est obtenue à partir de la forme structurelle lorsque l’on exprime
chaque variable endogène en fonction des exogènes du modèle.
Exemple 1 : Si on substitue la première dans la seconde on obtient :
a 1 
Rt   It  t
1 b 1 b 1 b
L’application des moindres carrés ordinaire ne donne pas des estimateurs convergents.
Si on remplace Rt par sa valeur dans la première équation on obtient :
a b 1
Ct   It  t
1 b 1 b 1 b
 a b 1
Ct  1  b  1  b I t  1  b  t
D’où la forme réduite du modèle est : 
R  a  1 I  1 
 1 b 1 b 1 b
t t t
L’estimation de cette forme par MCO en régressant Ct et Rt sur une constante et It permet
d’estimer les coefficients de It et la constante mais ces derniers n’ont plus la même
signification économique suggéré pas la FS. Il y’a donc un problème d’identification.
28
Exemple 2 : Si on fait légalité des deux fonctions, qui assure l’équilibre du marché, on pourra
déduire immédiatement la forme réduite du modèle.
 b1 b2 c1  c2 1t   2t
 pt  a  a rt  a  a xt  a  a  a  a
 2 1 2 1 2 1 2 1

q  a2b1 r  a1b2 x  a2c1  a1c2  a21t  a1 2t
 t a2  a1 t a2  a1 t a2  a1 a2  a1
En posant :
b1 b2 c c
1  , 2   ,3  1 2 ,
a2  a1 a2  a1 a2  a1
a2b1 ab a c ac
1  ,  2   1 2 , 3  2 1 1 2 ,
a2  a1 a2  a1 a2  a1
1t   2t a21t  a1 2t
u1t  et u2t 
a2  a1 a2  a1
 pt  1rt   2 xt   3  u1t
On a la forme réduite suivante :  qui vérifie H2. On peut avoir des
qt  1rt   2 xt  3  u2t
estimateurs sans biais et convergents des coefficients 1, 2, 3, 1, 2 et 3, mais n’ont pas de
signification économique et la aussi on un problème d’identification des paramètres.
2.2 Présentation matricielle du modèle et hypothèses

On peut représenter le modèle de l’exemple 2 sous la forme matricielle canonique suivante :
1
qt  a1 pt  b1rt  c1  1t 1 a1   qt   c1 b1 0     1t 
       r  
 t
q  a p
2 t  b x
2 t  c 2   2t  1  a2   pt   c2 0 b2   t    2t 
 xt 
En général pour un système de g variables endogènes et k variables prédéterminées (les
exogènes + les variables endogènes retardées) la forme structurelle peut être représentée sous
la forme suivante : BY  AX  
Où B est une matrice gg de coefficients des variables endogènes;
Y est un vecteur g1 de variables endogènes;
A est une matrice gk de coefficients des variables prédéterminées;
X est un vecteur k1 de variables prédéterminées ;
 est un vecteur g1 d’erreurs inobservables.
29
Les hypothèses de ce modèle sont les suivantes :
H1 : E(t) = 0 pour tout t =1, …, T

H2: E(’) = V
H3: E(t s) = gg (ts)
H4 : B est régulière (inversible)
H5: rang(X) = k < T
1
H6: p lim( X 'U )   k  g
T
1
H7: p lim( X ' X )  QXX est définie positive
T
On peut transformer la forme structurelle BY  AX   sous la forme réduite en multipliant
les 2 membres par B-1 on a :
Y   X  V avec   -B-1 A et V  B1U
Les erreurs (vt) sont d’espérance nulle, homoscédastique, non corrélées dans le temps et non
corrélées avec les régresseurs contemporains. Leur matrice des variances-covariances est
Vv  B 1V ( B' )1
La FR peut aussi s’écrire sous la forme : Y  X '  V , où V  U ( B' )1
MCO   X X 
1
ˆ'
Cette forme peut être estimer par MCO il vient :  '
X 'Y
III. Problème de l’identification :

A priori, on a beaucoup plus d’inconnus que d’équations pour faire l’identification des
paramètres. Mais il y a des restrictions sur la FS qui peuvent réduire le nombre d’inconnus.
3.1 Restrictions sur les coefficients :

Il existe deux types de restrictions :
a) Restrictions d’exclusion :
Nous pouvons considérer que chaque fois qu’une variable endogène ou exogène n’apparaît
pas dans une équation de la FS qu’elle est exclue. Cela revient à l’affecter d’un coefficient
nul. Dans l’exemple 2, la variable xt ne figure pas dans la première équation, son coefficient
est donc nul.
b) Restrictions linéaires :
Certaines spécifications du modèle imposent que des variables soient affectées d’in
coefficient identique, il s’agit là de restrictions a priori sur les paramètres du modèle.
30
3.2 Conditions d’identifications :

Les conditions d’identification se déterminent équation par équation. Nous pouvons distinguer
trois cas d’identifications :
 Un modèle est sous-identifié : si au moins une équation du modèle est sous-
identifiable (il y a moins d’équations que de paramètres à identifier dans la FS, le
modèle est donc impossible à résoudre).
 Un modèle est juste-identifié : si toutes les équations du modèle sont juste-
identifiables.
 Un modèle est sur-identifié : si toutes les équations du modèle sont soit juste-
identifiables, soit sur-identifiables.
Remarque : si le modèle est sous-identifié, il n’existe aucune possibilité d’estimation des
paramètres du modèle.
a) Les conditions d’ordre :
Soit :
g : le nombre des variables endogènes dans le modèle (nombre d’équations dans le modèle).
g' : le nombre des variables endogènes figurant dans l’équation.
k : le nombre des variables exogènes dans le modèle.
k' : le nombre des variables exogènes figurant dans l’équation.
Lorsque les restrictions ne sont que des restrictions d’exclusion, les conditions nécessaires
d’identification s’énoncent ainsi :
 Si g – 1 > g – g' + k – k'  l’équation est sous-identifiée.
 Si g – 1 = g – g' + k – k'  l’équation est juste-identifiée.
 Si g – 1 < g – g' + k – k'  l’équation est sur-identifiée.
Lorsque nous avons r restrictions, autres que celles d’exclusion, concernant les paramètres
d’une équation (égalité de deux coefficients, par exemple), les conditions deviennent :
 Si g – 1 > g – g' + k – k' + r  l’équation est sous-identifiée.
 Si g – 1 = g – g' + k – k' + r  l’équation est juste-identifiée.
 Si g – 1 < g – g' + k – k' + r  l’équation est sur-identifiée.
Ces conditions nécessaires sont appelées conditions d’ordre d’identification. Il convient de
vérifier les conditions suffisantes, qualifiées conditions de rang.
b) Les conditions du rang :
BY  AX  
31
On définie une matrice P, appelée matrice des structures qui est formée par la juxtaposition
des matrices B et A, soit P   BA . P est donc de dimension [g, (g+k)].
Soit une matrice des restrictions i relative à l’équation i et construite de la façon suivante :
i ih  0 (i
P ème
ligne de P et hième colonne de i).
Soit i = rang (Pi) et g le nombre des variables endogènes dans le modèle :

 Si i < g – 1  l’équation est sous-identifiée.
 Si i = g – 1  l’équation est juste-identifiée.
 Si i > g – 1  l’équation est sur-identifiée.
On dit que le iième équation est identifiable si et seulement si rang  Pi ih   g  1 c’est le
nombre des endogènes - 1.

Remarque : c’est une condition nécessaire et suffisante d’identification.
Exemples :
1) soit un modèle comportant trois variables endogènes Y1, Y2 et Y3 et deux variables
exogènes X1 et X2.
La forme structurelle à l’instant t est donnée par :
 y1t  c12 x2t  1t  y1t  0 y2t  0 y3t  0 x1t  c12 x2t  1t
 
b21 y1t  y2t  c21 x1t   2t  b21 y1t  y2t  0 y3t  c21 x1t  0 x2t   2t
b y  y  c x   b y  0 y  y  0 x  c x  
 31 1t 3t 2 2t 3t  31 1t 2t 3t 1t 2 2t 3t
 1 0 0 0 c12 
 
La matrice des structures est : P   b21 1 0 c21 0 
b c32 
 31 0 1 0
y1  0  Y2 ne figure pas dans l’équation.

y2  1 
La matrice des restrictions de l’équation 1 est : 1  y3  1  X1 figure dans l’équation.
 
x1  1 
x2  0 
La colonne de cette matrice est constituée de 0 sauf le deuxième terme égal à 1 qui
correspond à l’exclusion de la deuxième variable (Y2) de cette équation (première restriction),
le 3ème terme égal à 1 qui correspond à l’exclusion de la 3 ème variable (Y3) de cette équation
(2ème restriction). Et en fin le 4ème terme qui correspond à l’exclusion de la 4ème variable (X1)
de cette équation (3ème restriction).
32
De la même on peut obtenir les matrices de restrictions relatives aux équations 2 et 3

0 0
   
0 1
 2   1  ; 3   0 
   
0 1
1 0
   
Remarquons dans cet exemple que les matrices des restrictions (i) sont des vecteurs
(constituées d’une seule colonne). Car il n’existe que des restrictions d’exclusion dans cet
exemple.
On peut alors donner les matrices Pi
 0   c12   0 
     
P1  1  c21  , P 2   0  et P 3  1  c21 
 1  1  c   0 
   32   
A l’aide des critères préalablement définie nous pouvons en déduire que :
 L’équation (1) est juste-identifiée car le rang de P1 = 2 = g – 1. Sauf si c21 = -1.
 L’équation (2) est juste-identifiée car le rang de P2 = 2 = g – 1. Sauf si c12 = 0 ou
c32 = -1.
 L’équation (3) est sous-identifiée car le rang de P1 = 1 < g – 1. c21.
Y1t  a Y2t  X 1t   1t

 1
2) Soit le modèle suivant sous sa FS : 
Y2t  bY1t  cY1t 1   2t
  2
Ce modèle s’écrit sous sa forme matricielle :
 1 a  Y1t   a 0   X 1t   1t 
 b 1  Y    0 c  Y    
   2t     1t 1   2t 
B Y  A  X  
 1 a a 0 
Alors P   BA  
 b 1 0 c 
0 0 
 
 0 1
1 
 0 1
  Les variables Y2 et X1 ont le même coefficient.
1 0 
La variable Y1t-1 est absente.
33
0
 
0  0 0  a 
 2    Alors P1    ; P 2   
1  c 1  0
 
0
 L’équation (1) est juste-identifiée car le rang de P1 = 1 = g – 1.
 L’équation (2) est juste-identifiée car le rang de P2 = 1 = g – 1. Sauf si a = 0.
IV. Les méthodes d’estimation d’un système interdépendant :

Nous pouvons dégager un cas particulier : les modèles récursifs :
Un système d’équation est appelé "récursif" si chaque variable endogène peut être déterminée
de manière séquentielle :
 y1t  f  x1t , x2t ,..., xkt ; 1t 

 y2t  f  x1t , x2t ,..., xkt ; y1t ;  2t 

 y3t  f  x1t , x2t ,..., xkt ; y1t ; y2t ;  3t 
Avec : les variables aléatoires (it) sont, par hypothèse, indépendantes.
Nous remarquons que la 1ère équation ne contient aucune variable endogène comme variable
exogène. La 2ème équation a pour variable exogène, la variable endogène de la 1ère équation, et
ainsi de suite…
Dans ce cas particulier d’un modèle à équations simultanées, il est permis d’appliquer la
méthode des MCO équation par équation. En effet, dans la 2 ème équation, y1t dépend de 1t
mas pas de 2t.
Les modèles récursifs sont appelés aussi « système triangulaire » car les coefficients des
variables endogènes forment un triangle au sein de la matrice B.
Les méthodes d’estimation que nous pouvons proposer dans le cadre des équations
simultanées sont en fonction du critère d’identification du modèle :
 Si le modèle est sous-identifiable : pas d’estimation possible.
 Si l’équation est juste-identifiée : les moindres carrés indirects (MCI) ou les doubles
moindres carrés (DMC).
 Si l’équation est sur-identifiée : les doubles moindres carrés (DMC).
4.1 L’estimateur MCI :

 Méthode d’estimation à information complète (toutes les équations en même
temps).
 S’applique aux équations juste-identifiables.
34
FS : BY  AX    FR : Y   B 1 A X  B 1
 U
On peut réécrire la FS autrement :
FS : YB ' XA '    YB '  B '   XA '  B '    B '  FR : Y  X  ' U (1)

1 1 1
MCO sur (1)  ˆ '   X ' X  X ' Y

1
Puis on utilise la relation suivante afin de faire l’identification :

   B1 A  B   A   ' B '   A ' (*) 
 1 
   X ' Z  X ' Y avec : Z  Y1 X1 
1
 MCI  
1 
  MCI
Démonstration :
 1   1 
 ˆ  ˆ1    ˆ 
D'après (*) : ˆ '   1       X ' X  X ' Y   ˆ1    1 
1
 0  0  0  0
   
 1 
  ˆ  ˆ 
X 'X  X ' Y 0   ˆ1    1    X ' X  X ' Y  Y1ˆ1    1 
1 1
Y1
 0  0 0
 
ˆ 
 X ' X  X ' X  X ' Y   X ' X  X ' X  X ' Y1ˆ1   X ' X   1 
1 1
0
ˆ  ˆ 
X ' Y  X ' Y1ˆ1   X ' X   1   X ' Y  X ' Y1ˆ1   X ' X   1 
0 0
or , X   X 1 X 0 
ˆ 
 X ' Y  X ' Y1ˆ1   X '  X 1 X 0   1 
0
 ˆ 
X ' Y  X ' Y1ˆ1  X ' X 1ˆ1  X ' Y1ˆ1  X 1ˆ1   X ' Y1 X1   1 
Z ˆ1 
X ' Y  X ' Z ˆ  ˆMCI   X ' Z  X ' Y

1
35
Exemple :
 a b 1
Ct  1  b  1  b I t  1  b u1t Ct  (  1) I t    t
 
R  a  1 I  1 u  Rt   I t    t
 t 1  b 1  b t 1  b 1t
1 a u
avec :   , et t  1t
1 b 1 b 1 b
La méthode des MCO permet d’estimer les paramètres  et . Ces estimateurs sont sans
1 ˆ
biais et convergents. On peut déterminer dans ce cas bˆ  1  et aˆ  ˆ (1- bˆ) 
ˆ ˆ
Et on démontre que : bˆ  b et aˆ  a il ya convergence en probabilité.
On dit que les estimation de a et b on été obtenus par « régression indirecte ».
Remarque : L’estimation de la forme structurelle de l’exemple 1 donne :
Ct  a  bRt  u1t

 bˆMCO 
  Ct  C   Rt  R 

 Rt  Ct  I t   Rt  R 
2
Une régression directe sur la FS introduit un biais systématique sur l’estimation de a et b. On

peut montrer que b̂ surestime b et â sous-estime a.
Pour faire la démonstration il suffit de comparer les estimateurs obtenus par les MCO de la FS
et ceux obtenus par les MCI.
4.2 L’estimateur DMC :

Cette méthode des DMC est fondée, comme son nom l’indique, sur l’application en deux
étapes des MCO.
 Méthode d’estimation à information limitée (équation par équation).
 S’applique aux équations identifiables et utilise des variables instrumentales.
 Méthodes très populaire et facile à appliquer.
a) L’estimateur à variables instrumentales :
Soit le modèle sous sa forme matricielle suivante : Y  X    vérifie H1 et H3 mais ne vérifie
1
pas H2. Alors E(X’)  0 ; p lim  X '    0. Alors ˆ est biaisé et non convergent.
T
 
- E ˆ    E  X ' X  X '    

1
36
1
  1  1  1 
- p lim ˆ    p lim  X ' X   p lim  X '      Q 1  p lim  X '    
T  T  T 
Q 0
On suppose qu’il existe des variables proches de X et non corrélées en limite avec .
Soit Z : la matrice des observations de ces variables qui sont appelées les instrumentales.
Les propriétés à vérifier par les instrumentales :
1
- p lim  Z '    0.
T
1 
- p lim  Z ' X   QZX Existe, de termes finis et non singulière.
T 
1 
- p lim  Z ' Z   QZZ Existe et de termes finis.
T 
L’estimateur à variables instrumentales est définit par : ˆVI   Z ' X  Z 'Y

1
Les propriétés asymptomatiques de l’estimateur :
ˆVI   Z ' X  Z 'Y   Z ' X  Z '  X         Z ' X  Z ' 

1 1 1
1
  1  1 
p lim ˆVI    p lim  Z ' X   p lim  Z '    
T  T 
1 0
QZX
    T1 p lim T   ˆ
Asy Var ˆVI VI   ˆ
VI 
  '

1
p lim T   Z ' X  Z '  ' Z  Z ' X  ' 
1 1

T  
1 1'
1 1  1  1 
 p lim  Z ' X  p lim  Z '  ' Z  p lim  Z ' X 
T T  T  T 
1 1 1  1
 QZX p lim  Z '  ' Z  QZX '
T T 
 ² TQZZ
1 1
 QZX  ²TQZZ QZX
1
'   ²QZX
1 1
QZZ QZX '
T
Remarque : en petits échantillons, en estime Asy Var ˆVI    par :

Y  X ˆ  ' Y  X ˆ 
 
Var ˆVI  ˆ ²  Z ' X  Z ' Z  Z ' X  ' avec : ˆ ² 
1 1 VI
T
VI
37
Exemple : (pratique)
Quand on estime une fonction de production de type Cobb-Douglass :
Log Yt   0  1Log  Lt   2 Log  Kt    t avec : t  1,...T
Le capital est souvent corrélé avec le terme d’erreur. Donc les MCO vont fournir des
estimateurs biaisés.
Problème : comment choisir une variable instrumentale pour K.
1ère possibilité : (une seule variable instrumentale)
1 Log  L1  Log  PK 1  
 
Z   On prend le prix du capital PK comme instrumentale pour K.
1 Log  L  Log  P  
 T KT 
2ème possibilité : (plusieurs variables instrumentales)

Exemple : prix du capital PK, prix du matière première PM, prix du produit fini PP…
1 Log  L1  Log  PK 1  Log  PM 1  Log  PP1  
 
Z ' X 
1
ˆ
Z    VI  Z 'Y ?
1 Log  L  Log  P  Log  P  Log  P  
 T KT MT PT 
matrice n'est plus carrée
Solution : on va faire une première régression par MCO du modèle suivant :

Log  Kt   0 Log  PKt   1Log  PMt    2 Log  PPt    rreur avec : t  1,...T
Alors on peut créer une nouvelle variable qui est la combinaison linéaire des instrumentales :
Log  Kt    0 Log  PKt    1 Log  PMt    2 Log  PPt  avec : t  1,...T
1 Log  L  Log  P  
 1 K1 
Dans ce cas : Z   
 
1 Log  L  Log  P  
 T KT 
b) L’estimateur des doubles moindres carrés :

Il est à noter que l’estimateur des DMC peut s’interpréter comme étant un estimateur des
variables instrumentales, les variables exogènes des autres équations étant les instrumentales.
Soit le modèle à équations simultanées à g variables endogènes et k variables exogènes :
b11 y1t  b12 y2t  ...  b1g y gt  a11 x1t  a12 x2t  ...  a1k xkt  1t

b21 y1t  b22 y2t  ...  b2 g y gt  a21 x1t  a22 x2t  ...  a2 k xkt   2t


b y  b y  ...  b y  a x  a x  ...  a x  
 g1 1t g 2 2t gg gt g 1 1t g 2 2t gk kt gt
38
1ère étape : effectuer une régression de chacune des variables endogènes sur toutes les
variables exogènes :
 y1t  11 x1t  12 x2t  ...  1k xkt  u1t

 y2t   21 x1t   22 x2t  ...   2 k xkt  u2t


 ygt   g1 x1t   g 2 x2t  ...   gk xkt  u gt

2ème étape : remplacer les variables endogènes figurant à droite des équations structurelles par
leurs valeurs ajustées à l’aide des modèles estimés :
 y1t  b12 y 2t  ...  b1g y gt  a11 x1t  a12 x2t  ...  a1k xkt  1t

 y2t  b21 y1t  ...  b2 g y gt  a21 x1t  a22 x2t  ...  a2 k xkt   2t



 y gt  bg1 y1t  bg 2 y 2t  ...  ag1 x1t  ag 2 x2t  ...  agk xkt   gt
3ème étape : appliquer les MCO sur le dernier modèle, équation par équation.
Propriétés asymptotiques de l’estimateur des DMC :
 
Y = Y11 + X11 +   Y  Y 11  X11    Y  Y1 X1   1     Z  
  1 
 
  Z ' Z  Z 'Y
1
  DMC   1 
 
 1  DMC
1  1
  1

p lim  Yˆ1 '    p lim  X ˆ '    p lim  X  X ' X  X ' Y1 '  
T  T  T
1
 
1
 p lim Y1 ' X  X ' X  X '  
1
T  
1
1  1  1 
 p lim  Y1 ' X  p lim  X ' X  p lim  X '    0
T  T  T 
QY1X Q 1 0
39
 
Asy Var ˆDMC   T1 p lim T  ˆ DMC 
  ˆDMC   '
 
1
p lim T   Z ' Z  Z '  ' Z  Z ' Z  
1 1

T  
1 1
1 1  1  1 
 p lim  Z ' Z  p lim  Z '  ' Z  p lim  Z ' Z 
T T  T  T 
1  1 
or , p lim  Z '  ' Z    ² p lim  Z ' Z 
T  T 
1
 
Asy Var ˆDMC  
²
T
1 
p lim  Z ' Z 
T 
En petits échantillons (taille finie) on estime :

1
 Yˆ ' Yˆ Yˆ1 ' X 1 
 
Var ˆDMC  ˆ ²  Z ' Z 
1
 ˆ ²  1 1
 X ' Yˆ

X 1 ' X 1 
 1 1
'
Y  Y1ˆ1DMC  X 1ˆ1DMC  Y  Y1ˆ1DMC  X 1ˆ1DMC 
avec : ˆ ²    
T
Attention, si on utilise les MCO dans la troisième étape, on va estimer ² par :
'
Y  Yˆ ˆ  ˆ ˆ 
1 1DMC  X 11DMC  Y  Y1 1DMC  X 11DMC 
ˆ ˆ
   
² 
T
Exercice : montrer que pour MCI  DMC pour les équations justes-identifiables.
 
X ' Y  X ' Y11  X ' X 11  X '   X ' Y  X ' Y1 X1   1   X '  X ' Z  X '
 1 
or ,
E  X '    0
Var  X '    E  X '    ' X     ²  X ' X 
Comme l’équation est juste identifiable : (X’Z) est une matrice carré.
Donc l’estimateur efficace dans ce cas est celui des MCG qui n’est que celui des DMC :
1
ˆDMC   X ' Z  '  X ' X   X ' Z   X ' Z  '  X ' X   X 'Y 
1 1

 X ' X   X ' Z  '  X ' Z  '  X ' X   X 'Y 
1
 X 'Z 
1 1
 X 'Z   X ' Y   ˆMCI

1
2) L’estimateur TMC :
 Méthode à information complète, proposée par Theil ZEILNER (1962).
 On se limitera dans la présentation du cours à deux équations.
40
Y1  Y2 1  X 11  1

Y2  Y1 2  X 2 2   2
On suppose que :
 Les deux équations sont identifiables.
 Les termes d’erreurs entre équations sont corrélés E 1t ,  2t   12  0.
On déduit alors :
 1   E  1  
    E       0.
2   E  2  
 11 ' 1 2 '    12 IT  12 IT    12  12 
Var     E  '  E      I T   ² I 2T
  21 '  2 2 '    12 IT  22 IT    12  22 
On rappelle que pour résoudre le problème des corrélations des endogènes (présents comme
exogènes dans le modèle) avec l’erreur, on utilise les DMC.
 X ' Y1  X ' Y2 1  X ' X 11  X ' 1
 
 X ' Y2  X ' Y 
1 2  X ' X 
2 2  X '  2
 X ' Y1   X ' Z1 0   1   X '  1 

 X 'Y    0  
X ' Z 2    2   X '  2 
 2 
   U
   
avec : Z1  Y2 X 1  ; Z 2  Y1 X 2  ; 1   1  ;  2   2 
 1  2 
E U   0;
  X ' 1    X ' 1    X ' E  11 ' X X ' E  1 2 '  X 
'
Var U   E UU '  E         

  X '  2    X '  2    X ' E   21 ' X X ' E  2 2 '  X 
  12  X ' X   12  X ' X     12  12 
   X ' X      X ' X 
   X ' X   2  X ' X     2 
 12 2   12  2  connue
inconnue
L’estimateur efficace dans ce cas est celui des MCG estimés :
  ˆ   ˆ1 ˆ12    X ' X 

2
ˆ 1
ˆG   ' 
ˆ 1 ˆ 1
 ' avec : 
 ˆ12 ˆ 2 
2
L’idée est de chercher un estimateur convergent de  :

1ère étape : appliquer les DMC équation par équation et calculer les résidus :
41
'
Y1  Y2 ˆ1DMC  X 1ˆ1DMC  Y1  Y2 ˆ1DMC  X 1ˆ1DMC 
ˆ12 DMC     
T
est un estimateur convergent de  12 .
'
Y2  Y1ˆ2 DMC  X 2ˆ 2 DMC  Y2  Y1ˆ2 DMC  X 2ˆ 2 DMC 
ˆ2

2 DMC 
 
T
est un estimateur convergent de  2 . 2
'
Y1  Y2 ˆ1DMC  X 1ˆ1DMC  Y2  Y1ˆ2 DMC  X 2ˆ 2 DMC 
ˆ122  DMC     
T
est un estimateur convergent de  12 .
2ème étape : appliquer en suite les MCG estimés :

ˆˆ  ˆ   ' 

1
ˆ 1  ' ˆ 1
  ˆ12DMC ˆ12 DMC 
    X ' X 
G TMC
 avec : ˆ
  ˆ
  X ' X 
     ˆ12 DMC ˆ 22DMC 
1
Var ˆTMC   ' 
ˆ 1

Conclusion :
 Lorsque  est une matrice diagonale (les termes d’erreurs entres équations ne sont pas
corrélés) : alors TMC  DMC.
 Si en plus, toutes les équations sont juste-identifiables : alors TMC  DMC  MCI.
 Dans le cas où certaines équations du modèles ne sont pas identifiables (p équations
non identifiables), on peut appliquer les TMC aux (g – p) équations identifiables.
 Lorsque le nombre d’observations est faible (T < 50), utiliser les TMC :
o Augmente les degrés de liberté (gT – nombre d’exogènes).
o On empile les g équations du modèle, toute erreur de spécification sur une
équation du modèle entraîne un biais sur tout les coefficient du modèle. Or
lorsqu’on applique les méthodes à information limitée (DMC), le biais
n’affecte que les paramètres de l’équation en question.
42
Chapitre 3 : Les modèles dynamiques et à retards échelonnés

I. Généralité
1.1 Quelques définitions :
L’introduction des retards dans un modèle des séries temporelle est nécessaire voire
indispensable. Ces retards peuvent exprimer une certaine forme d’inertie dans le
comportement des agents économiques. On peut citer deux exemples :
-Dans le cadre de la fonction de consommation, la variable dépendante qui est la
consommation actuelle est expliquée par le revenu espéré. Ce dernier est une combinaison
linéaire des revenus observés, présents et passé :
Ct  0  1Rt   2 Rt 1   t (3.1)
Dans ce modèle on peut déterminer deux proportions marginales à consommer : une à court
terme qui est 1 est une à long terme 1+2.
-Dans le cadre d’un modèle d’investissement la variable dépendante It dépend à la fois du
volume des ventes xt mais aussi du stock du capital investi précédemment It-1 :
It  0  1It 1   2 xt  ut (3.2)
Bien sur l’estimation de ce modèle par MCO ne donne pas des estimateurs convergent et
efficace car E(xt ut) est différent de 0. Ce problème sera résolu ultérieurement.
On peut distinguer deux types de modèle qui incorporent des retards :
-Le premier est appelé modèle à retard échelonné qui ne contient que des retards sur les
variables exogènes ils sont de type :
q
yt     i xt i   t (3.3)
i 0
Ce type de modèle est noté DL(q) (Distributed Lag model)

- Le second type est appelé modèle à retards échelonnés auto régressif et qui contient des
retards sur les exogènes et les endogènes comme variables explicatives.
p q
yt    i yt i   j xt  j   t (3.4)
i 1 j 0
Ce modèle est noté ADL( p, q) (Autregressive Distributed Lag Model)
43
1.2 Effet de court terme et effet de long terme

Considérons le modèle DL(q) définie par l’équation (3.3).
yt    0 xt  1 xt 1  ...   q xt q   t
Dans ce modèle on peut distinguer deux effets sur la variable dépendante y suite à une
variation de x. L’impact immédiat sur y suite à une variation d’une unité de x est donné par le
paramètre 0 c’est un effet de court terme, on l’appelle souvent multiplicateur d’impact.
L’effet total de long terme sur y suite à une variation de x définie par la somme des
coefficients i i=0,1,…q. On l’appelle multiplicateur de long terme ou multiplicateur
dynamique.
Si nous reprenons les deux modèles (2.3) et (2.4) sous les formes suivantes :
yt    B( L) xt   t (3.5)
A( L) yt    B( L) xt   t (3.6)
q
B( L)    i Li
i 0
p
A( L)  1    i Li
i 1
On peut définir le Multiplicateur Dynamique dans un modèle DL(q) par :

q
MD   i  B(1) (3.7)
i 0
Dans un modèle ADL(p,q) Le MD est définit par:

B(1)
MD  (3.8)
A(1)
Exemple :
yt  1.07  0.24 xt  0.16 xt 1  0.5 yt 1   t
(1  0.5 L) yt  1.07  (0.24  0.16 L) xt   t
0.24  0.16
MD   0.8
1  0.5
A( z )  0  1  0.5 z  0  z  2  1
Le système est stable car A(z) a une solution de module >1
Le multiplicateur d’impact est 0.24
44
Pour mieux saisir les impacts de court et long terme dans un modèle dynamique on considère
un modèle ADL(1,0) :
yt     0 xt  1 yt 1   t
yt 1     0 xt 1  1 yt   t 1
yt  2     0 xt  2  1 yt 1   t  2
....
yt  j     0 xt  j  1 yt  j 1   t  j
Sachant que :
 yt y y y
  0 , t 1  t 1 t   01
 xt  xt  yt  xt
 yt  2  yt  2  yt  yt  2  yt 1  yt
   12  0 .....
 xt  yt  xt  yt 1  yt  xt
 yt  s  yt  s  yt
  1s  0
 xt  yt  xt
Le multiplicateur dynamique pour ce modèle est définie par :
MD   0   01   012  ....   01n  ...

= 0 1i
i 0
0
-Si 1<1, le système est dit stable et le multiplicateur dynamique est défini par :
1  1
-Si 1>1, le système est dit explosif et n’admet pas d’équilibre.

Dans le cas d’un modèle ADL(p,q) le modèle est stationnaire(stable) si les racine de du
polynôme A(L) sont de module supérieur à 1.
1.3 Le retard moyen

Le retard moyen exprime la vitesse d’ajustement de y suit à un choc sur x. Lorsque cette
valeur est faible l’ajustement de y suit à une variation de x est rapide. On dit que l’effet de x
sur y s‘estompe rapidement. Dans le cas inverse une valeur élevée du retard moyen indique
un délai d’ajustement plus grand et l’effet de x sur y dure plus longtemps.
Dans un modèle DL(q) le Retard Moyen est définit par :

yt    B( L) xt   t
45
B '(1)
RM  (3.9)
B(1)
Exemple :
yt  2.14  0.34 xt  0.46 xt 1  0.6 xt  2
B( L)  0.34  0.46 L  0.6 L2
B(1)  0.34  0.46  0.6  1.4
B '(1)  0.46  2  0.6  1.66
1.66
RM   1.185 périodes
1.4
Donc en moyenne un changement d’une unité de x met 1.185 périodes avant d’affecter y. y
retrouve une nouvelle situation d’équilibre au bout de 1.185 périodes après le choc sur x.
Le multiplicateur d’impact est 0.34 c’est l’effet direct sur y. Une variation d’une unité de x
Augmentent la variable y de 0.34 unités.
Le MD est égale à 1.4 c’est l’effet total de long terme d’une augmentation de x d’une unité
qui se traduit par une hausse de 1.4 unités de y.
II. Les modèles à distribution finie des retards

L’estimation des paramètres d’un modèle dynamique soulève deux types de difficultés :
- D’abord la difficulté de détermination des nombres de retard optimale à prendre en

considération. Cette difficulté est surmontée à l’aide des tests usuels tel que le test de Fisher
ou les critères d’Akaike ou de Schwarz. Ces critères vont être exposés dans la suite.
-La colinéarité que peut exister entre les régresseurs ; en effet lorsque le nombre des retards
est important la colinéarité entre les variables explicatives décalées risque d’entraîner une
imprécision dans l’estimation des coefficients.
2.1 Le modèle à retards géométriques : Le modèle de Koyck

Considérons un modèle DL(q) de type : yt    B( L) xt   t et on suppose que les poids des
retards dans l’effet global sont géométriquement décroissant. L’impact d’un choc sur la
variable x s’amenuise avec le temps. i  0 i i  0,1,..., q; 0    1
Le modèle DL(q) devient sous la forme :
yt    0 ( xt   xt 1   2 xt 2   3 xt 3  ...   xt q )   t (3.10)
q
yt     0   s xt  s   t
s 0
46
Dans ce cas le multiplicateur d’impact est mesuré par 0, et le multiplicateur dynamique est
q
1   q 1
mesuré par : MD   0   i   0
i 0 1 
0 
Lorsque q tend vers l’infini le MD= et le retard moyen est RM  c’est une
1  1 
fonction croissante de . Pour =0.8 ; RM=4 pour =0 l’ajustement est immédiat. Pour des
valeurs faible de , l’ajustement est rapide est inversement.
Le modèle DL(q) dans le cas des retards géométriques peut êtres transformé en un modèle
ADL(1,o) en effet :
yt 1     0 ( xt 1   xt 2   2 xt 3   3 xt 4  ...   xt q 1 )   t 1
yt   yt 1   (1   )   0 xt   t   t 1
D’ou finalement :
yt   (1   )   yt 1  0 xt  vt avec vt   t   t 1 (3.11)
Cette formulation réduit sensiblement le nombre des paramètres à estimés, néanmoins le
modèle reste non linéaire dans les paramètres et les termes d’erreurs sont autocorrélés car :
C ov(vt , vt 1 )   2 . Les estimateurs des MCO sont biaisés et non convergents. Pour obtenir
des meilleurs estimateurs, on peut utiliser la méthode des variables instrumentales en adoptant
xt-1 comme instrument pour yt-1.
2.2 Le modèle à retard polynomiaux (modèle d’Almon)

Dans ce type de modèle on suppose que les paramètres i sont des polynômes en i de degrés q,
q
i   0  1i   2i 2  .... qi q   j i j (3.12)
j 0
Pour q=2 on a : i  0  1i   2i 2
0  0
1   0  1   2
 2   0  21  4 2
 3   0  31  9 2
47
Sous forme matricielle on peut écrire :

  0  1 0 0
   1  0 
 1   1 1   
1
  2  1 2 22   
     2 
  3  1 3 32   
Si on remplace  i par sa valeur dans le modèle DL(q) on aura :

q
yt     ( 0  1i   2i 2 ) xt i   t
i 0
q q q
=   0  xt i  1  ixt i   2  i 2 xt i   t
i 0 i 0 i 0
q q q
En posant : z0t   xt i , z1t   ixt i et z2t   i 2 xt i
i 0 i 0 i 0
Le modèle devient plus parcimonieux

yt    0 z0t  1 z1t  2 z2t   t (3.13)
On régresse uniquement y sur les variables z0, z1 et z2 pour obtenir des estimations de , 0,
1, et 2. En suite on utilise l’équation (3.12) pour estimer i.
Almon suggère d’utiliser des contraintes dites d’extrémités: -1=0 et q+1=0, dans ce cas on a
les deux relations suivantes : 0  1   2  0 et 0  1 (q  1)   2 (q  1)2  0
La résolution de ces relations donne : 0  2 (q  1) et 1  2 q

Ainsi, on peut simplifier la régression pour avoir:
q
yt     2 zt   t où z t   (i 2  qi  q  1) xt i
i 0
Notons au passage que l’imposition de ces contraintes n’a pas de fondement théorique mais
pourra être testé. Ce test permet aussi d’avoir une idée claire sur le nombre de retards.
Dans le cas général d’un polynôme de degrés q on a :

  0  1 0 0 . . . . 0   0 
   1  
 1   1 1 . . . . 1  1 
 .  1 2 22 . . . . 2q   . 
    (3.14)
 .  1 3 32 . . . . 3q   . 
  h 1   . . . . . . . .  
    
  h  1 h h2 . . . . h q   q 
Sous forme matricielle on Y=X+
48
Y=XH+
Y=Z+
Par MCO on estime ̂ puis on déduit ̂ .

Le degré q peut être déterminé à l’aide d’un test portant sur le significativité par rapport à 0
de q de la dernière « nouvelle » variable explicative. En partant d’une valeur q=h-1, on teste
la significativité du coefficient  du terme le plus élevé à l’aide d’un test de student et on
réduit le degré du polynôme jusqu'à ce que ce coefficient soit significatif.
III. les critères de détermination du nombre de retard

Considérons un modèle DL(q) définie par l’équation (3.5), on suppose que le nombre de
retards q est inconnu. Pour déterminer le nombre de retard optimal on utilise différents tests
statistiques.
3.1 Le test de Fisher

La procédure de ce test considère que les coefficients des retards considérés supérieur à q sont
nuls. Ceci revient à considérer un modèle avec s retards et déterminer d’une manière
descendante, une valeur de q entre 0 et s.
La statistique du test est définie par :
( SCRs i  SCRs i 1 ) / 2
Sˆ   F (2, n  s  i  3) (3.15)
SCRs i 1 /(n  s  i  3)
Ce test correspond à l’hypothèse : H0 : q=s-is-i+1=0 n étant le nombre d’observation.
3.2 Le critère de Akaike (AIC) et le critère de Schwarz (SC)

Ces deux critères consistent à retenir le modèle qui minimise l’un ou l’autre des fonctions
suivantes :
SCR 2q
AIC (q)  log( )
n n
SCR q log(n)
SC (q)  log( )
n n
IV. Exemples de modèles dynamiques

4.1 Les modèles d’ajustement partiel
Soit le modèle suivant :
yt*     xt   t (3.16)
49
yt* étant la valeur désiré (non observable) de y. Elle peut être le stock du capital d’une
entreprise qui dépend de l’output ou y alors le niveau d’utilité d’un ménage qui dépend du
niveau du revenu disponible. Le niveau optimal de y peut être différent de son niveau actuel.
Supposons que y* et y sont reliés par la relation :
yt  yt 1   ( yt*  yt 1 ); 0    1 (3.17)
 est appelé paramètre d’ajustement (taux d’ajustement).Si =0, aucun ajustement n’a eu
lieu. Dans le cas extrême ou =1, l’ajustement dans la période actuel est intégral.  mesure
l’écart entre yt* et yt-1 éliminé dans la période actuelle. Ce modèle est appelé modèle
d’ajustement partiel (graduel).
En substituant l’équation (3.17) dans (3.16) on obtient :
yt     xt  (1   ) yt 1  ut où ut   t (3.18)
Il s’agit d’un modèle ADL(1,0). L’effet de court terme est mesuré par  alors que l’effet de

long terme est mesuré par : 
1  (1   )
4.2 Le modèle d’anticipation adaptative

Dans un modèle d’anticipation adaptative la variable dépendante (endogène) yt est expliquée
par une anticipation de la variable exogène xta.
yt     xta   t (3.19)
Sachant que les valeurs anticipées de xt ne sont pas observables et sont reliées de la façon
suivante :
xta  xta1   ( xt  xta1 ) où 0    1 (3.20)
 est appelé coefficient d’anticipation.

L’équation précédente peut être écrite sous la forme suivante :
xta   xt  (1   ) xta1
Si on développe cette formule on aboutit à la relation suivante qui lie xta aux valeurs passées
de xt.

xta    (1   )i xt i
i 0
En substituant xta par son expression, l’équation de régression devient :


yt      (1   )i xt i   t (3.21)
i 0
50
L’application de la transformation de Koyck (3.11), permet de réécrire le modèle sous la

forme suivante :
yt     xt  (1   ) yt 1   t  (1   ) t 1 (3.22)
On retrouve ainsi un modèle ADL(1,0) avec autocorrélation des erreurs.
Exemple : Soit le modèle ADL(1,0) estimé :

yˆt  103.07  0.882 xt  0.156 yt 1
 t  0.549 t 1 DW=1.83
Identifier les paramètres.
51
Bibliographie
1. William Greene, Econometrie Pearson Education, 2011, 7e éd., 1232 p

2. Régis Bourbonnais Économétrie. Cours et exercices corrigés.
DUNOD 9e édition 2015.
3. Claudio Araujo, Jean-François Brun et Jean-Louis Combes, Econométrie,
Bréal, 2008, 2e éd., 312 p.
4. Valérie Mignon, Econométrie : théorie et applications, Economica, 2008, 400p.
52

Econométrie II

Transféré par

Informations du document

Copyright

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Econométrie II

Transféré par

Droits d'auteur :

FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION DE

*Tous les suggestions et les remarque seront le bienvenues écrire au med.belhedi@gmail.com

A la fin de ce cours l’étudiant devra être en mesure de distinguer les différents

Chapitre 1 : La Régression Multiple : Extension et Violation des

Les conditions nécessaires de minimisation du Score S() sont :

1.2 Propriétés des estimateurs

YY '  ' X ' Y Uˆ 'Uˆ SCR

II. La méthode des Moindres Carrées Généralisé ou estimateur d’Aïtken.

 MCO   X ' X  X ' Y     X ' X  X 'U

2) Var     E          '  E  X ' X  X 'UU ' X  X ' X  

Donc l’estimateur des MCO n’est plus BLUE.

Cov   t ;  t '   E   t ;  t '   ?

Donc Var() est une matrice de termes connues à un terme près.

Le théorème d’AITKEN permet de déterminer un estimateur linéaire sans biais et à variance

PP '  IT   P ' P   

 MCO  ( X * ' X * ) 1 X * ' Y *    PX  ' PX 

  X ' 1 X  X ' 1Y '   MCG

  X 'V 1 X  X 'V 1Y '

2.2 Inférences Statistiques

Si U N (0,  ²) alors :

III. L’Autocorrélation des résidus :

i et i vérifient certaines conditions pour la stationnarité :

3.1 Erreurs autorégressives d’ordre un :

Dans un modèle de consommation par exemple, la présence d’une autocorrélation

On dit que ut suit un processus autorégressif d’ordre 1 : ut  AR(1) avec :

On a ut  ut 1   t   ( ut 2   t 1 )   t   2ut 2   t 1   t

= t  t 1  ² t 2  3 t 3  ...

E (ut , ut 2 )  E ((  2ut 2   t 1   t ), ut 2 )   2 E (ut22 )   2 u2

3.2 Tests de l’autocorrélation :

Graphique 1 : Autocorrélation positive

Graphique 2 : Autocorrélation négative

Les tests statistiques :

3.3 Test d’autocorrélation de Durbin et Watson (1950 et 1951)

On pourra montrer facilement que ̂

Si  = 0 la valeur du statistique DW prend la valeur 2.

Les valeurs de DW sont donc comprises entre 0 et 4 s’approche de 0 dans le cas

H1 DW < dL dL  DW < dU dU  DW < 4-dU 4-dU  DW < 4-dL 4-dL  DW

Les valeurs critiques dL et dU sont en fonction de la taille de l’échantillon (T > 15) du

3.3.1 Test H de Durbin :

E(yt–1, ut)  0 donc H4 n’est plus vérifiée.

Durbin (1970) a développé une autre statistique qu’il appelle H-Durbin :

̂ : est le coefficient de la régression uˆ t  uˆ t 1   t .

û t : sont les résidus des MCO.

3.3.2 Test de Breusch-Godfrey (1978)

Ce test permet de tester la présence d’autocorrélation dans un processus autorégressive

Pour appliquer ce test on fait la régression auxiliaire :

3.3.3 Estimation avec autocorrélation des erreurs :

Les procédures suivantes ne sont valides que si : ut = ut–1 + t. (i)

La méthode de Durbin (le modèle transformé) :

La matrice inverse de  peut être calculée si le coefficient d’autorégression  est

De cette expression on peut déduire la matrice de transformation :

Lorsqu’on on applique cette matrice à la matrice X et le vecteur Y, on peut retenir comme

applique les moindres carrés ordinaires aux données transformées.

Les méthodes itératives :

3.2.4 Méthode de Cochrane-Orcutt.

Cette méthode est la plus utilisée, elle permet d’estimer à la fois  et .

des résidus, soit u   I  X ( X ' X )1 X ' Y .

 dans l’expression de la matrice V. Soit donc :

Ceci fournit un nouveau vecteur des résidus. ̂̂ ̂

3.2.5 Méthode de Hildreth-Lu.

Il s’agit ici d’une méthode d’estimation par tâtonnement :   ] –1, 1 [.

3.2.6 Méthode de Maximum de Vraisemblance :

f  u1 ,..., uT          exp   2 U '  1U 

IV. Les problèmes d’hétéroscédasticité :

On a E (vt2 )  E (ut2 )  xt2 E (t2 )   u2  xt2 2 dépend de l’indice t.

de la régression de yt sur xt par MCO. On estime  et  par MCO et on estime

4.2 Les tests d’hétéroscédasticité :