Vous êtes sur la page 1sur 85

Ass. Cédrick Tombola M.

50

.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE

IV.1. Formulation et hypothèses de base

Le modèle de régression linéaire multiple n est qu une extension du modèle de régression linéaire simple au
cas multivarié dans lequel interviennent plusieurs variables exogènes dans l explication du phénomène
étudié. On parle aussi de modèle de régression linéaire général ou standard pour souligner que ce modèle
reste valable quel que soit le nombre d exogènes qui s y figurent. Dans sa forme générale, il s écrit de la
sorte :

où chaque est un coefficient marginal qui – après estimation – saisit, ceteris paribus, l effet d une
variation d un point de la variable exogène Xj sur la variable endogène ; t= , …, n correspond { la date des
observations.

Si l on considère plusieurs dates, la relation [4.1], sous forme matricielle, s écrit :

où k est le nombre de variables explicatives, k+ le nombre de paramètres que l on prendra l habitude de


noter par K dans la suite de ce chapitre.

Sous forme compacte, on a :

[4.2] Y=X +†

En principe, le critère des moindres carrés ordinaires, comme pour le modèle simple, ne soulève aucune
difficulté, à la différence que pour le modèle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan .

En algèbre linéaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace à 3 dimensions, la
notion d hyperplan est confondue avec celle de plan, mais cela n est plus vrai quand on dépasse dimensions.
Ass. Cédrick Tombola M. 51

Hypothèses de base

La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes :
Hypothèses stochastiques Hypothèses structurelles
H1. Les erreurs sont IID (0, ). Cette hypothèse implique que H3. Le modèle est linéaire ou linéarisable en X
les erreurs sont normalement distribuées, non-autocorrélées et [ou sur ses paramètres] tels que l exprime la
homoscédastiques. relation [4.2].

Formellement, on a : H4. Les exogènes Xj et la variable endogène Y


sont observées sans erreur. Y est aléatoire par
l intermédiaire de ut.

H5. Les exogènes Xj et la variable endogène Y


sont gaussiennes et stationnaires en niveau.

H6. Le nombre d observations n doit être


supérieur au nombre des paramètres à estimer.

H7. La matrice X X est non singulière de rang K,


c est-à-dire et existe. Cette
hypothèse implique l absence de colinéarité
entre les exogènes, autrement dit les différents
vecteurs Xj sont linéairement indépendants. En
cas de multicolinéarité, la méthode des MCO
devient défaillante.

H2. Il y a indépendance entre la partie systématique et la partie


stochastique, soit E(XU) = 0.

IV.2. Estimateurs des MCO et propriétés

Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des
résidus. Mathématiquement, le problème se présente comme suit :

[4.3]

En notation matricielle§§§§§§§, la relation [ . ] s écrit :

[4.4]

Par conséquent, on a :

[4.5]

§§§§§§§
Un bref rappel matriciel est proposé en annexe 1 de ce chapitre.
Ass. Cédrick Tombola M. 52

En effectuant dans la parenthèse, il vient :

[4.6]

Les termes et étant des scalaires provenant des variables identiques, ils sont égaux et on peut
donc les regrouper. Ce qui permet d écrire :

[4.7]

En appliquant les conditions du premier ordre, on obtient les équations normales telles que :

En considérant un modèle simple, la relation [4.8] devient :

En effectuant dans chaque bloc, on obtient :

On retrouve ainsi les équations normales, vues au chapitre précédent, pour un modèle simple. Mais
pourquoi normales ? La réponse à cette question est proposée ci-après.

Dans le système ci-haut, renvoyons tous les termes dans un membre, il vient :

Exprimée sous forme vectorielle, la dernière équation s écrit : X e = 0. Un vecteur tel que e, orthogonal à
tout vecteur de l hyperplan engendré par X, est dit normal { l hyperplan. D o‘ le qualificatif "d équations
normales".

En pratique, l estimation ponctuelle par les MCO se fait en pré-multipliant chaque côté de la relation [4.8]
par , ce qui permet d écrire******** :

[4.9]

********
où est une matrice forcément symétrique, de même que son inverse ( )–1.
Ass. Cédrick Tombola M. 53

Propriétés des estimateurs

Le théorème de Gauss – Markov avance, au respect des hypothèses de base susmentionnées, que dans la
famille des estimateurs linéaires non biaisés, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.

. Estimateurs linéaires

Pour démontrer cette propriété, il suffit, dans l équation [ . ], de poser = , il vient :

. Estimateurs sans biais

Réécrivons la relation [4.9] comme suit :

Ainsi,

[4.10]

En passant à l espérance mathématique de , il ressort clairement que est sans biais :

[4.11] E( =

. Estimateurs convergents

Les variances des estimateurs OLS sont calculées comme suit.

Var( ) = E

Connaissant les relations [4.10] et [4.11], il vient :

Après une petite manipulation simple, on obtient :

[4.12]

Ou encore :

Il faut noter en passant que la matrice est symétrique, elle est donc égale à sa transposée.
Ass. Cédrick Tombola M. 54

Et l estimateur de la variance résiduelle est donné par la formule suivante :

Ainsi obtient-on :

[4.13]

Lorsque le nombre d observations tend vers l infini, l expression [ . ] ci-dessus tend vers zéro. Par
conséquent, l estimateur est convergent. Toutefois, la condition suffisante serait que les variables
exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini. De plus, selon le théorème de
Gauss-Markov, Var( ‡ar ) [avec un estimateur linéaire et non biaisé obtenu par une autre méthode
que les MCO]

La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimées de [ ],
nécessaires pour mener les tests statistiques.

Conséquence du théorème de Gauss-Markov

Soit le modèle de régression linéaire multiple suivant :

où ut N(0, . L application de la méthode OLS { cette équation implique que .

1ère conséquence : Sous l hypothèse de normalité des erreurs, non seulement que l estimateur des MCO est
BLUE par le théorème de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de l inégalité de Cramer-Rao, borne inférieure pour tous les
estimateurs.

2ère conséquence : Sous l hypothèse de normalité, on obtient des tests exacts. Sachant que
, cela revient à dire que l on connaît les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits échantillons.
Ass. Cédrick Tombola M. 55

IV.3. R2 et R2 ajusté

Connaissant l équation d analyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :

2
[4.14] R =

Lorsque la régression est faite sur données centrées, le coefficient de détermination se calcule avec la
formule :

2
[4.15] R =

Il faut noter que, comme pour le modèle simple, le coefficient de détermination reste un indicateur du
caractère explicatif de l équation de régression { bien modéliser Y t. Il mesure ainsi la part de variance de la
variable endogène attribuable à sa régression sur les X. Ceci est confirmé par le fait que le coefficient de
détermination n est rien d autre que le carré du coefficient de corrélation de Bravais-Pearson entre les
valeurs observées et les valeurs prédites de Y.

[4.16] R2 = =

Note importante: Le coefficient de corrélation linéaire entre et Y ( ) est appelé coefficient de


corrélation multiple. Cela suggère d'ailleurs de construire le graphique nuage de points confrontant et Y
pour évaluer la qualité de la régression. Si le modèle est parfait, les points seraient parfaitement alignés.

Bien évidement [ R2 ], plus R2 est proche de 1, plus le caractère explicatif du modèle est important.

Le R2 est certes un indicateur de qualité, mais il présente l inconvénient d être mécanique. C est-à-dire que
sa valeur augmente avec l augmentation des variables explicatives, mêmes non pertinentes { l explication
du phénomène étudié.

A l extrême, si on augmente le nombre de variables explicatives, mêmes impertinentes, tels que le nombre
de paramètres devienne égal au nombre d observations, on aurait un R2=1. Ainsi, en tant que tel, le R2 n est
pas l outil approprié pour juger de l apport des variables supplémentaires lors de la comparaison de
plusieurs modèles. Lorsqu il augmente de manière mécanique, de l autre c té l on perd en degrés de
liberté.

La mesure alternative, plus robuste { l ajout des variables, qui corrige ce problème associé aux degrés de
liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit comme suit :

[4.17]

Comme on le voit, il s agit l{ d un R2 corrigé par les degrés de liberté. )l peut d ailleurs s exprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :

[4.18]
Ass. Cédrick Tombola M. 56

Cependant, il faut faire attention de ne pas interpréter le en termes de part de variance expliquée. Son
seul avantage est qu il permet de comparer plusieurs modèles . De plus, le peut prendre des valeurs
négatives. Dans ce dernier cas, il faut l assimiler { zéro.

Note importante :
Dans un modèle linéaire simple, R2
Dans un modèle linéaire multiple, < R2
Si n est grand, alors R2
2
Le R et le n ont de sens que dans un modèle qui comporte un terme constant.

Coefficient de corrélation partielle

Dans le chapitre sur la corrélation, nous avions mis en évidence qu il était possible que la corrélation entre
deux variables Xi et Xj ne tienne qu { un artefact statistique ou à un facteur confondant – une troisième
variable Xk à laquelle Xi et Xj seraient liées en réalité –, appelé aussi phénomène-source. L on peut se
souvenir de l exemple du journaliste qui a découvert qu il existait une très forte corrélation entre le fait
d avoir un nid de cigognes sur sa demeure et le fait d avoir des enfants { Washington, oubliant que cela ne
tenait qu au rang social des familles étudiés, car la présence d un nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aisée et donc disposée, financièrement, { avoir plus d enfants.

Ainsi, dans la sélection des variables pertinentes { l explication d un phénomène, pour éviter une telle
éventualité o‘ la corrélation entre la variable endogène et l exogène ne tiendrait qu { un artefact, on a
recours au coefficient de corrélation partielle.

Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l influence d une
troisième variable [des autres variables présentes dans le modèle] est retirée.

Coefficient de corrélation partielle du premier ordre Coefficient de corrélation partielle du deuxième ordre
Soit Y une variable endogène, et Xi, Xj et Xk des En considérant l exemple ci-contre, le coefficient de
exogènes, le coefficient de corrélation partielle corrélation partielle du deuxième ordre sert à quantifier
mesure le lien entre Y et chaque X, l influence juste le lien entre Y et chaque X, l influence de deux autres
étant exclue. Ainsi, partant du même exemple, il est
d une troisième variable exogène étant exclue.
possible de calculer trois coefficients de corrélation
Partant de l exemple choisi, on peut calculer ainsi six partiels du deuxième ordre, soit :
coefficients de corrélation partielle du premier ordre : ; ;
; ; ; ; ; Etapes de calcul

Dans ce cas, le coefficient de corrélation partielle du Supposons que l on veule mesurer le lien entre Y et Xi,
premier ordre peut être calculé à partir des l influence de Xj et de Xk étant neutralisée, soit
coefficients§§§§§§§§ de corrélation de Bravais-Pearson , on aura les étapes ci-après :
comme suit :
(i) Calcul des résidus e1 issus de la régression de
Y sur Xj et Xk ;
(ii) Calcul des résidus e2 issus de la régression de
Xi sur Xj et Xk ;
(iii) correspondra au carré du
En suivant les indices, l étudiant peut aisément coefficient de corrélation linéaire calculé
généraliser. entre e1 et e2 :

Pour la comparaison des modèles, on utilise aussi les critères d information [Aikaïké A)C ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la différence que ces critères sont à minimiser dans le choix du meilleur modèle.
§§§§§§§§
Appelés dans ce cas coefficients d ordre zéro.
Ass. Cédrick Tombola M. 57

La notion de corrélation partielle est importante dans la mesure où elle permet de juger de la pertinence
d introduire une variable exogène dans le modèle. Plus élevé sera le coefficient de corrélation partielle
d une variable, plus importante sera sa contribution { l explication globale du modèle.

IV.4. Test de significativité des paramètres

Test de significativité individuelle

Comme pour le cas simple, le test de significativité individuelle, qui porte sur chaque paramètre, est mené
en calculant les ratios de Student. Pour un test bilatéral, les hypothèses du test sont :

Le ratio de Student est calculé comme suit :

[4.19] =

Sous H0, la formule [4.19] devient :

[4.20] =

On démontre, sous H0, que cette statistique suit une distribution de Student au seuil [ % sauf indication
contraire] et à (n – K) degrés de liberté.

Critère de décision : Si >t / ; (n – K), alors RH0, le paramètre est statistiquement non nul, la variable lui
associée est par conséquent non pertinente dans la prédiction de Y.

Comme cela a été vu au chapitre précédent, l estimation par intervalle se fait en appliquant la formule ci-
après :

[4.21] I= ±t / ; (n – 2)

Test de significativité conjointe ou globale

Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la question de savoir si
l ensemble des exogènes apporte de l information utile { la connaissance de la variable endogène. Ceci dit,
seuls les paramètres associés aux variables explicatives interviennent dans le test, la constante n est donc
prise en compte ici, car c est bien l influence des exogènes sur la variable expliquée que l on cherche {
établir.

Dans la littérature anglophone, ce test est parfois considéré comme un test de significativité du R 2, dans le
sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur globalité, sur l endogène.

Les hypothèses du test sont :


Ass. Cédrick Tombola M. 58

Et la statistique à calculer est :

[4.22] F=

Sous H0, on démontre que la statistique F suit une distribution de Fisher à respectivement (K – 1) et (n – K)
degrés de liberté.

Critère de décision : Si F > F [(K – 1) ; (n – K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modèle est bon.

Application de tests de significativité : Test des rendements d échelle

Soit le modèle suivant :

[4.23] Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut

où Qt est la production, Lt le travail, Kt le capital et 1 et 2 les élasticités de la production au travail et au


capital, respectivement.

La théorie macroéconomique avance qu il y a rendements { l échelle constants s il se vérifie que :

[4.24] 1 + 2 = 1.

Comment alors tester une telle hypothèse ?

Pour tester cette restriction sur les paramètres, on suivra les étapes suivantes :

Estimer le modèle [4.23] sans restriction sur les paramètres, dit modèle non contraint ;
Calculer les variances de et , ainsi que leur covariance Cov( , )
Calculer ensuite le ratio de Student avec la formule :

[4.25] tcal =

Connaissant [4.24] et en sachant que Var = Var( ) + Var( ) + 2Cov( , ), la formule [4.25]
devient :

[4.26] tcal =

Tester enfin l hypothèse des rendements d échelle constants contre celle des rendements
d échelle non constants, soit :

Critère de décision : Si >t / ; (n – K) RH0 selon laquelle il y a rendements { l échelle constants.


Ass. Cédrick Tombola M. 59

IV.5. Prévision dans le modèle de régression linéaire multiple

Soit la régression suivante de Yt sur le terme constant et sur les exogènes Xj :

Si le vecteur des valeurs des exogènes pour un horizon h est connu, soit R= ,
la prévision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :

Ce qui, en écriture matricielle, s écrit :

Sous forme compacte, on a :

[4.29]

Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-après :

[4.30] Yn+h I= ±t /2 ; (n – K)

où est l écart-type de l erreur de prévision *********. Il est donné par la formule :

[4.31] =

*********
L erreur de prévision capte l écart entre ce qui sera réalisé et ce qu on prévoit.
Ass. Cédrick Tombola M. 60

Synthèse des formules sur la régression linéaire multiple

Formules Indications

Modèle d analyse :

donne une matrice K 1 des paramètres


Ponctuelle
estimés du modèle.
Estimation fixe un intervalle de confiance, avec un
Par intervalle I i= ±t / ; (n – 2) risque , dans lequel le i inconnu de la
population serait compris.
Modèle estimé :

sur sa diagonale principale, on lit les


Matrice COVA variances estimées de ( ), nécessaires
pour mener les tests statistiques.
2 le coefficient de détermination reste un
Données brutes R = indicateur du caractère explicatif de
l équation de régression { bien modéliser
2 Yt.
R2 Données centrées R =
, appelé coefficient de corrélation
multiple, est le coefficient de corrélation
étant connu R2 = = de Bravais-Pearson entre les valeurs
observées et les valeurs prédites de Y.

il s agit l{ d un R2 corrigé par les degrés de


R2 ajusté de Theil
liberté.

Test de
individuelle = t /2 ; (n – K) [sous H0] Si >t / ; (n – K) RH0
significativité

conjointe F= F [(K – 1) ; (n – K)] Si F > F [(K – 1) ; (n – K)] RH0

Ponctuelle
Permet de deviner la valeur de Y à
Prévision Yn+h I= ±t /2 ; (n – K) la période h, les exogènes de la
Par intervalle même période étant fixées.
où =
Ass. Cédrick Tombola M. 61

IV.6. Utilisation des variables indicatrices†††††††††


Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.

Une variable indicatrice est une variable spéciale qui ne prend que deux valeurs, à savoir :

1 pour indiquer que le phénomène ou l événement a lieu ;


0 pour indiquer que le phénomène ou l événement n a pas lieu.

Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe, la religion ou
même un événement tel qu une guerre, une grève, un tsunami, etc. – que l on désire intégrer dans les
modèles. Comme variable explicative, on la note généralement par la lettre D, pour dire dummy.

Il est également important de noter que les variables binaires peuvent intervenir dans le modèle de deux
manières, soit comme endogène [modèle de probabilité linéaire, modèles Logit, Probit, Tobit, Gombit] soit
comme exogène [modèles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intéressons qu au cas o‘ la
variable muette entre comme explicative dans le modèle.

Aussi, l utilisation de ces variables dépend fortement du problème posé. Comme exogènes, les variables
dummy sont utilisées pour répondre à un triple objectif :

Corriger les écarts aberrants (ou déviants) ;


Capter la présence de la discrimination ;
Capter les variations saisonnières.

. Corriger les valeurs singulières (ou anormales)

Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c est-à-dire des valeurs
anormalement élevées ou anormalement basses – associées en général à la survenance de chocs ou
d événement rares, il y a lieu d incorporer une dummy dans le modèle afin d en tenir compte. La démarche
consisterait simplement à détecter les valeurs anormales et à les corriger, en mettant 1 à ces dates là et 0
ailleurs, afin que les déviants ne perturbent pas l estimation statistique des autres variables.

Considérons le jeu de données ci-après, où Yt est l endogène et Xt l exogène. On veut estimer le modèle :
Yt = 0 + 1Xt + ut [A]

Date 11 février 12 février 13 février 14 février 15 février


Yt 10 12 2 15 17
Xt 5 7 8 9 10

On observant l évolution de Yt, il y a un écart criant au 13 février qui frappe notre attention. La conséquence
directe serait que, s il faut régresser Yt sur Xt, cette valeur aura tendance à fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrés de façon à avoir une moyenne.
On s en rend bien compte { travers le graphique nuage de points avec droite de régression, y
correspondant, suivant.

Le terme anglo-saxon dummy est le plus utilisé.


Ass. Cédrick Tombola M. 62

20

15

10

0
0 2 4 6 8 10 12

Et l estimation par OLS, donne la droite suivante :

= 1.6081 + 1.2297Xt
[0.1265] [0.7728]
R2 =0.1660

Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a complètement perturbé l estimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modèle. On mettra 1 à la date du 13 février et 0 partout ailleurs. Le modèle à estimer devient :

Yt = 0 + 1Xt + 2Dt + ut [B]

Date 11 février 12 février 13 février 14 février 15 février


Yt 10 12 2 15 17
Xt 5 7 8 9 10
Dt 0 0 1 0 0

L estimation par OLS du modèle [B] donne à présent :

= 2.7288 + 1.3898Xt – 11.8475Dt


[2.6032] [10.5862] [–20.9805]
R2 =0.9962

L incorporation dans le modèle d une dummy a donc permis de corriger la valeur atypique.

Note importante :
La correction effectuée n est valable que si le coefficient associé à la variable dummy est
statistiquement significatif.

Après estimation, le signe affecté { la variable binaire est proportionnelle { l anomalie constatée
dans les données. S il s agit d une observation anormalement basse, comme c est le cas dans
l exemple ci-haut, le signe affecté à la dummy sera –, ce qui indique que l écart criant avait
tendance à ramener la droite de régression vers le bas. En revanche, s il est plut t question d une
observation anormalement élevée, le signe affecté à la dummy sera +, ce qui indique que le déviant
avait tendance à tirer la droite de régression vers le haut.

Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une même une
variable muette. Lorsque la série présente à la fois les deux types d écarts, il convient de les capter
par deux variables auxiliaires différentes, l une pour les observations exceptionnellement élevées
et l autre pour celles exceptionnellement basses.
Ass. Cédrick Tombola M. 63

. Capter la présence de la discrimination

L explication d un phénomène peut parfois nécessiter la présence des variables qualitatives. Supposons
que l on souhaite expliquer, pour dix étudiants de première licence en Economie échantillonnés, le
phénomène " cote obtenue en macroéconomie CMi" ; tout naturellement les variables comme présence au
cours PCi, nombre d’heures d’étude consacrées à la macroéconomie (E i…s avèrent pertinentes. Mais il est
tout à fait aussi possible que des variables comme la religion de l’étudiant REi, ou sa tribu TEi, soient
déterminantes dans l explication du phénomène étudié. Dans ce cas, l utilisation d une variable binaire
permet de segmenter les individus en deux groupes et de déterminer si le critère de segmentation est
réellement discriminant.

Dans l exemple de tout { l heure sur la cote obtenue en macroéconomie, si l on assume que l appartenance
ou non à la religion catholique est déterminante dans la réussite, ce qui revient à dire que la religion est un
facteur de discrimination, le modèle à estimer sera :

CMi = 0+ 1 PCi + 2HEi + 3REi

où REi =

Puis estimer, comme vu précédemment, en appliquant les MCO. Après estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a joué sur la cotation en macroéconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroéconomie. A l opposé, si 3 est
statistiquement non significatif, on en conclurait que la religion catholique n a pas joué sur la réussite en
macroéconomie.

Note importante :
Dans le cas de variables dummy à plusieurs modalités, par exemple l état civil célibataire, marié,
divorcé, autres), il est convenable de coder alors autant de variables indicatrices qu il y a de
modalités moins une . Ainsi, pour l état civil, on définira trois variables binaires : célibataire (=1
si l individu est célibataire, sinon , marié = si l individu est marié, sinon , divorcé = si
l individu est divorcé, sinon , la modalité autres étant implicitement contenue dans le terme
constant [et ne serait donc spécifiée à part que dans un modèle sans terme constant].

La codification dépend du modélisateur et doit être prise en compte dans l interprétation des
résultats. A titre exemplatif, si l on considère la variable qualitative sexe, le modélisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
l interprétation.

. Capter les variations saisonnières

Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements saisonniers qui
caractérisent certaines variables comme les dépenses de publicité, qui sont généralement plus importantes
en certaines périodes de l année qu en d autres.

Supposons que l on s intéresse { la relation entre le chiffre d affaires Ch t) et les dépenses de publicité
(Dpubt). On peut écrire :

L une d elles étant implicitement contenue dans le terme constant.


Ass. Cédrick Tombola M. 64

Cht = 0 + 1Dpubt + ut [i]

En utilisant les données trimestrielles, il ne serait pas correct d estimer directement le modèle [i], parce
qu on n aurait pas tenu compte de l effet saisonnier, les dépenses de publicité ne sont pas les mêmes tous
les trois mois [trimestre].

On peut capter l effet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy qu il y a de trimestres, soit quatre dummy. Sachant qu on compte quatre
trimestres par année, l introduction des variables dummy se fera comme suit :

Trimestre D1t D2t D3t D4t ∑


2 1èr trimestre 1 0 0 0 1
0 2ème trimestre 0 1 0 0 1
0 3ème trimestre 0 0 1 0 1
5 4ème trimestre 0 0 0 1 1
2 1èr trimestre 1 0 0 0 1
0 2ème trimestre 0 1 0 0 1
0 3ème trimestre 0 0 1 0 1
6 4ème trimestre 0 0 0 1 1

Et le modèle [i] devient :

Cht = 0 + 1Dpubt + 2D1t + 3D2t + 4D3t + ut [ii]

ou encore :

Cht = 1Dpubt + 2D1t + 3D2t + 4D3t + 5D4t + ut [iii]

Si le modèle contient un terme constant, celui-ci joue d office le r le de l une de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rôle de D4t [on a le choix pour la variable binaire à écarter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.

Une fois cette gymnastique terminée, on peut alors, sans difficulté normalement, appliquer les MCO soit
sur le modèle [ii], soit sur le modèle [iii].
Ass. Cédrick Tombola M. 65

ANNEXES DU CHAPITRE IV

ANNEXE 1 : Quelques rappels de calcul matriciel


Le calcul matriciel a été introduit en Econométrie par Alexander Craig Aitken.
1. Opérations matricielles

Addition et soustraction

Soient deux matrices carrées§§§§§§§§§ A et B de format 2. La somme ou la soustraction de ces deux matrices
s effectue comme suit :

A B= =

L'addition et la soustraction des matrices ne sont donc définies que pour des matrices de même format ou de
même ordre.

Propriétés importantes de l addition et la soustraction des matrices

(i) A B=B A
(ii) A (B C) = (A B) C

Multiplication par un scalaire

Soient un scalaire k (un nombre réel) et la matrice carrée A ci-dessus. La multiplication de A par le scalaire k
s effectue de la sorte :

kA =k =

La multiplication par un scalaire est donc possible quel que soit l ordre de la matrice A.

Propriétés importantes de la multiplication par un scalaire

(i) kA = Ak
(ii) k(A B) = kA kB

Produit matriciel

Soient les deux matrices carrées A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la première matrice est égal au nombre de lignes
de la deuxième matrice [principe du produit matriciel]. Le produit matriciel s effectue en faisant la somme
algébrique des produits des éléments de chaque ligne de la première matrice par les éléments
correspondants de chaque colonne de la deuxième matrice.

§§§§§§§§§
Une matrice carrée est une matrice dont le nombre de lignes est égal au nombre de colonnes. On dit matrice
carrée de format n ou d ordre n m.
Ass. Cédrick Tombola M. 66

Pour les matrices carrées A et B ci-haut, on obtient :

AB =

2 2 2 2

Propriétés importantes du produit matriciel

Soient trois matrices conformables A, B et C, on a les propriétés essentielles suivantes :

(i) A(B + C) = AB + AC
(ii) A(BC) = (AB)C
(iii) AB ≠ BA en général

Transposée d une matrice

La transposée d une matrice A de format m n, notée AT ou A , est une matrice de format n m obtenue
en permutant les lignes et les colonnes de A.

Soit A = AT =

Propriétés importantes de la transposition des matrices

Soient trois matrices conformables A, B et C, on a :

(i) (A + B + C)T = AT + BT + CT
(ii) (ABC)T = CTBTAT
(iii) (AT)T = A
(iv) (kA)T = kAT

Rang d une matrice

Soit une matrice A d ordre m n. Le rang de la matrice A, noté r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linéairement indépendants, dit autrement, c est le nombre de ses lignes ou ses
colonnes) non entièrement nulles, après échelonnement de la matrice.

Si le rang d une matrice A donnée correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.

Une matrice carrée A d ordre n est dite non – singulière si son rang est maximum, soit [r (A) = n].
Ass. Cédrick Tombola M. 67

2. Matrices carrées

Matrice diagonale Matrice scalaire Matrice unité ou identité

est une matrice carrée dont un au est une matrice diagonale dont notée I, est une matrice scalaire dont
moins des éléments situés sur sa tous les éléments, non nuls, sur sa les éléments sur la diagonale
diagonale principale est non nul, tous diagonale principale sont égaux. principale sont égaux à 1.
les autres éléments étant nuls.
Exemple : Exemple :
Exemple :

B=
A= I=

Matrice symétrique Matrice idempotente Trace d une matrice carrée


Soit une matrice carrée A. On dit que A Soit une matrice carrée A. on dit La trace d une matrice carrée A,
est une matrice symétrique si AT = A. que A est une matrice idempotente notée tr (A), se définit comme étant
si AA = A. la somme algébrique des éléments
Exemples : de sa diagonale principale.
La matrice unité I est forcément Exemple :
symétrique. On vérifie donc que Soient deux matrices A et B, dont les
IT = I; M = [I – X(X'X)–1X'] dimensions respectives sont de
La matrice (X'X), dans (m n) et de (n m). Par conséquent,
l estimation des , est AB et BA sont deux matrices carrées
symétrique, soit (X'X)' =(XTX). et :
tr (AB) = tr (BA)

Pour trois matrices A, B et C, si le


produit donne des matrices carrées,
on a :
tr (ABC) = tr (CAB) = tr (BCA)

Propriétés importantes de la matrice unité

(i) II = I
(ii) InAn = An
(iii) tr (In) = n

Déterminant d une matrice carrée

D ordre

Soit la matrice carrée A, d ordre , son déterminant noté est calculé comme suit :
Ass. Cédrick Tombola M. 68

D ordre 3

Le déterminant d une matrice carrée A d ordre est calculé en appliquant la règle de Sarrus********** comme
suit :

D ordre n quelconque

Le déterminant d une matrice A d ordre n est donné par la somme algébrique des produits obtenus en
multipliant les éléments d une ligne ou d une colonne de la matrice A par leurs cofacteurs correspondants,
notés Cij.

La matrice des cofacteurs, quant à elle, est trouvée en pré – multipliant la matrice des mineurs, notée Mij,
par (–1)i+j, soit :
Cij = (–1)i+jMij

La méthode des cofacteurs, dite aussi méthode d expansion de LAPLACE , permet de calculer un
déterminant d ordre n { l aide des mineurs [déterminants d ordre n – 1)]. On a toujours intérêt à
développer un déterminant des lignes ou des colonnes où apparaissent beaucoup de zéros.

Note : Le mineur mij de la matrice A est le déterminant calculé en supprimant la ligne i et la colonne j de A.

Propriétés importantes des déterminants

(i)
(ii)
(iii) Si une ou plusieurs lignes ou colonnes d une matrice sont linéairement dépendantes, alors le
déterminant de cette matrice est nul. On dit qu une telle matrice est singulière.
(iv) Si une matrice carrée A est de rang maximum, alors son déterminant est différent de zéro.

)nverse d une matrice carrée

Soit A une matrice carrée et B une autre matrice carrée du même ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
–1
L'inverse de A, noté A , n'existe que si A est une matrice carrée de rang maximum. Cet inverse est unique.

**********
Du nom du mathématicien français Pierre – Frédéric Sarrus (1798 – 1861).
Du nom du mathématicien, astronome et physicien français Pierre – Simon de LAPLACE (1749 – 1827).
Ass. Cédrick Tombola M. 69

Il existe, dans la littérature, plusieurs méthodes de calcul de l inverse d une matrice carrée. Dans ce papier, nous
n en présentons que deux.

Méthode classique ou méthode de l adjointe Méthode itérative (ou gaussienne)


Par la méthode de l adjointe, l inverse de la matrice B, Soit la matrice A, d ordre n, dont on veut trouver
notée B–1, se calcule de la sorte : l inverse. La méthode itérative consiste { mettre c te
à côte la matrice A et la matrice unité I de même
–1
B = ordre, puis { échelonner A jusqu { la rendre unité. A–1
sera ce que serait devenue la matrice unité { l issue de
où est la matrice adjointe, et n est rien d autre que la l échelonnement, soit :
transposée de la matrice des cofacteurs Cij, soit :

B–1 =

Propriétés importantes de l inverse d une matrice carrée

(i) B B–1 = I
(ii) (B–1)–1 = B
(iii) (BT)–1 = (B–1)T (B–1)TBT = I

ANNEXE 2 : La fonction DRO)TEREG d Excel

La fonction DRO)TEREG d Excel permet d obtenir presque tous les résultats, en un clic, mis en évidence
dans ce chapitre, et au chapitre précédent. Il suffit, pour ce faire, de sélectionner une plage en
conséquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramètres à
estimer dans le modèle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exogènes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.

Soit le modèle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procéder sur Excel.

En appuyant simultanément sur les touches CTRL + SHIFT + ENTER, on obtient :


Ass. Cédrick Tombola M. 70

ANNEXE 3 : La régression linéaire avec le logiciel Eviews

Sur le logiciel économétrique Eviews, après création de la feuille de travail et saisie des données, aller dans
Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l ordre apparaissant
dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode
d estimation – pour notre cas LS ou Least squares – et valider.

En considérant le modèle de tout { l heure, on a les étapes suivantes :

En validant, on a les résultats suivants :

Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8

Variable Coefficient Std. Error t-Statistic Prob.

C -247.3274 122.8357 -2.013481 0.1143


X1 1.133525 0.520299 2.178604 0.0949
X2 2.944909 3.361460 0.876080 0.4304
X3 7.146491 2.286172 3.125963 0.0353

R-squared 0.974926 Mean dependent var 264.3750


Adjusted R-squared 0.956120 S.D. dependent var 41.95895
S.E. of regression 8.789365 Akaike info criterion 7.491815
Sum squared resid 309.0117 Schwarz criterion 7.531536
Log likelihood -25.96726 Hannan-Quinn criter. 7.223914
F-statistic 51.84210 Durbin-Watson stat 1.160052
Prob(F-statistic) 0.001169
Ass. Cédrick Tombola M. 71

Le même résultat peut être obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.

Du tableau des résultats ci-dessus, appelés parfois output de l’estimation, il ressort les informations
importantes suivantes :

Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramètre estimé, son écart – type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estimé, la probabilité de commettre l erreur de
première espèce. Si cette probabilité est faible (< 0.05, de manière générale) RH0, le paramètre
concerné est donc statistiquement significatif (non nul).

Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(F-
statistic) correspondent respectivement au R2, au R2 ajusté, au , à la SCR, à la statistique de
Fisher et la probabilité critique associée à la statistique de Fisher.

Mean dependent var et S.D. dependent var représentent respectivement la moyenne et l écart –
type de la variable dépendante.

Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critères d information
intervenant dans le choix du modèle optimal. Le meilleur modèle étant celui qui minimise ces
critères.

A. Après estimation, la série prédite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la série) puis valider.

B. Après estimation, la série des résidus est générée en saisissant la commande GENR (nom)=resid
Ass. Cédrick Tombola M. 72

Exercices sur le modèle de régression linéaire multiple

Exercice 1
On examine l évolution d une variable Yt en fonction de deux exogènes X1t et X2t. On dispose de n
observations de ces variables. On note X = où 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.

1. On a obtenu les résultats suivants :

(a) Donner les valeurs manquantes.


(b) Que vaut n ?

2. La régression de Y sur la constante et les deux exogènes donne :

Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ; =73.48 et = – 1.6

(a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le R2 et le R2 ajusté
de Theil.
(b) Déduire la matrice COVA, et tester la significativité individuelle de chaque paramètre ainsi que leur
significativité conjointe.

Exercice 2
Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences économiques, on spécifie
le modèle suivant :

NLi = 0+ 1NDi + 2DSi + ut

où :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisième graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)

L estimation { partir d un échantillon de étudiants conduit aux résultats suivants :


= 8.5 + 0.3NDi – 1.2DSi
[4.5] [7.1] [2.3]
n=60
R2=0.72
[.] = t de Student

Travail demandé : le sexe a-t-il une influence sur la note obtenue en licence de sciences économiques ?

Solution de l exercice

La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait d’être homme ou femme est bel et bien un facteur discriminant de la réussite de la licence en sciences
économiques.
Ass. Cédrick Tombola M. 73

)l est à noter que le signe négatif affecté à DS indique qu’il est « pénalisant » d’être un homme DS = et qu’en
moyenne, sur l’échantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
inférieure de 1.2 point à celle des femmes, soit 7.3.

Exercice 3
Soit le modèle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
où Yi est le salaire perçu par l individu i ; Xi le nombre d années d expérience ; Di1 et Di2 deux variables
dummy.

On dispose du tableau ci-dessous :

Ind. 1 2 3 4 5 6 7 8 9 10 11 12
Yi 350 150 305 290 310 270 340 400 430 410 400 290
Xi 2 1 2 2 2 2 5 3 5 4 3 2

Les individus 3, 5, 8, 10, 15, 12 sont des étrangers (étrangères) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et étrangers).

Di1 = et Di2 =

Construisez les chroniques Di1 et Di2.

Exercice 4
Soit le modèle :
Yt = 0 + 1X1t + 2X2t + ut

On dispose des données du tableau ci-dessous :

Yt X1t X2t Travail à faire :


10 4 7
12 6 4 (a) Trouver les valeurs du vecteur .
16 5 8 (b) Calculer le coefficient de détermination R2.
18 8 6 (c) Mener les tests de significativité individuelle sur chaque
20 7 9 paramètre.

Exercice 5
Soit le tableau suivant :

Année Yt X1t X2t X3t


1989 220 57 51 34
1990 215 43 53 36
1991 250 63 54 39
1992 245 65 52 38
1993 249 68 53 37
1994 301 69 56 42
Ass. Cédrick Tombola M. 74

TD :

- Si on considère le modèle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramètres 0, 1, 2,
3, et tester leur significativité individuelle et la significativité globale du modèle.

- Calculer le R2. Quelle critique peut-on formuler l égard de cet indicateur ?


-
Calculer le 2
- Trouver l intervalle de prévision pour sachant que pour cette dernière année X1t sera égal à
78, X2t sera égal à 54 et X3t atteindra 48.

Exercice 6
Soit le modèle Yt = 0 + 1X1t + 2X2t + εt

où Yt est la quantité offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accordée de
manière journalière et εt le terme d erreur.

Connaissant les données du tableau ci-dessous, il est demandé :

- d estimer les paramètres 0, 1 et 2.


- de calculer le R2 et le R2 ajusté de Theil.
- de montrer que le R2 n est autre que le r de Bravais-Pearson entre Yt et .
- de vérifier l équation d analyse de la variance.
- de dériver la matrice COVA.

Date Yt X1t X2t


2 janvier 2012 10 4 7
3 janvier 2012 12 6 4
4 janvier 2012 16 5 8
5 janvier 2012 18 8 6
6 janvier 2012 20 7 9
Ass. Cédrick Tombola M. 75

.V.
MODELES DE REGRESSION NON LINEAIRES

Comme vu jusqu ici, l application de la méthode des moindres carrés ordinaires exige que le modèle soit
linéaire ou linéarisable en X. Cependant, il est fréquent de rencontrer en économie des modèles non
linéaires dans leur spécification, comme c est le cas des fonctions de production de type Cobb – Douglas et
CES [Constant Elasticity of Substitution] .

Les modèles non linéaires sont généralement regroupés en deux familles, à savoir :

Modèles non linéaires mais linéarisables ;


Modèles non linéaires et non linéarisables.

Pour la première famille de ces modèles, le plus souvent, une transformation logarithmique suffit à les
rendre linéaires, ce qui, du reste, valide leur estimation par les MCO. Et c est précisément sur ce type de
modèles que porte ce chapitre. Quant { la deuxième famille de ces modèles, il convient d appliquer les
méthodes d estimation non linéaire, que nous n abordons pas directement ici.

A titre d avertissement, le présent chapitre n a pour objet la présentation de nouvelles méthodes


d estimation. )l présente plut t les artifices de calcul – entendus comme préalables – nécessaires à
l estimation, par les MCO, de la première famille de modèles non linéaires.

V.1. Linéarisation des modèles non linéaires

A. Le modèle double log ou log – log B. Le modèle log – lin (ou semi-log)

Forme : Yt =A [a] Forme : Yt = [m]

En appliquant la transformation logarithmique, il La transformation logarithmique de [m] donne :


vient :
LnYt = LnA + LnXt + ut [b] LnYt = 0 + 1Xt + ut [n]

Exemple :
o‘ = = La formule de l intérêt composé Yt = Y0(1 + r)t [o]
où Y0 est une constante, (1 + r) un paramètre et t le temps
A présent, en posant : (la variable exogène).

= LnYt ; 0= LnA; 1 = et =LnXt, La transformation logarithmique de [o] donne :

on retrouve ainsi le modèle linéaire bien connu, = + + ut [p]


qu on peut écrire de la sorte : où = LnYt, =LnY0, =Ln(1 + r), = t.

= 0 + 1 + ut [c] Avantage : Le modèle [o] permet le calcul du taux de


croissance d une part, et de la tendance (croissante ou
Exemple : la forme Cobb – Douglas Q =AK L . décroissante caractérisant l évolution de Yt selon le signe
de (positif ou négatif) d autre part.
Avantage : une lecture directe des élasticités.

La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a été proposée en
1928 ; alors que la CES, appelée aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a été introduite en 1961.
Ass. Cédrick Tombola M. 76

C. Les modèles du trend linéaire D. Le modèle lin – log (ou semi-log)

Forme : = 0 + 1t+ ut Forme : [i]


où = LnYt et t =tendance ou trend
En appliquant la transformation logarithmique, il vient :
Avantage : Le modèle de trend linéaire, appelé
également modèle de tendance, peut être utilisé en Yt = 0 + 1LnXt+ ut [ii]
lieu et place du modèle log – lin afin d analyser le où 1 est une semi-élasticité, soit :
comportement (croissant ou décroissant) du trend
1 = = [iii]
linéaire affectant Yt. En effet, la tendance sera
croissante si le coefficient associé à la variable t est L élasticité peut être retrouvée, en divisant la relation [iii]
positif et décroissante dans le cas contraire. par Yt. Et cela est beaucoup plus commode en prenant les
moyennes comme suit :
= [iv]

Si l on pose =LnXt, la relation [ii] est ramenée à la


formulation standard antérieure comme suit :

Yt = 0 + + ut [v]

Avantage :
Ce modèle permet l estimation des modèles
d Engle : « La dépense totale consacrée à la
nourriture tend à croître selon une progression
arithmétique lorsque la dépense totale augmente
en progression géométrique.
Cette forme peut servir également au traitement
de l hétéroscédasticité dont il sera question plus
loin.
E. Les modèles réciproques F. Le modèle log – hyperbole (ou log – inverse)

Forme 1 : Yt = 0 + 1 + ut [j] Forme : Yt =


La forme linéaire standard est retrouvée en posant
simplement = , ainsi obtient-on : En appliquant la transformation logarithmique sur cette
forme, on obtient :
Yt = 0 + 1 + ut [k]
LnYt = 0 + 1 + ut
Cette spécification est notamment utilisée pour
estimer la courbe de Phillips, qui est la relation Cette forme s apparente beaucoup { la forme réciproque
entre l inflation et le taux de chômage. sauf que la variable dépendante est exprimée sous forme
logarithmique. Quand Xt augmente, LnYt diminue.
Forme 2 : = 0 + 1Xt + ut [l]
En posant = et =LnYt, on obtient :
En posant = , il vient :
= 0 + 1 + ut
= 0 + 1Xt+ ut [m] Le modèle log-hyperbole est apte à représenter une
fonction de production de court terme.

G. Le modèle polynomial

Forme : Yt =

†ne manipulation simple permet d écrire ce modèle sous la forme :


Ass. Cédrick Tombola M. 77

Yt =
où =Xt ; = ;…; =

Le modèle polynomial trouve des applications dans les cas suivants :


L estimation d une tendance pour une chronique accusant, par exemple, deux points de retournement :
Yt = 0 + 1t2 + 2t3 + ut où t représente le temps.

L estimation d une fonction de coût total :


CTt = 0 + 1Qt + 2 + ut où CT est le coût total et Q la quantité produite.

V.2. Modèles de cycle de vie du produit

Les modèles de cycle de vie d un produit, appelés parfois modèles de diffusion, ont pour objet de
déterminer l évolution probable des ventes d un produit connaissant le seuil de saturation, puisqu il est
vérifié que les ventes évoluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu {
maturité (seuil de saturation qui correspond { un point d inflexion { partir duquel le rythme de croissance
des ventes diminue.

A. Le modèle logistique B. Le modèle de Gompertz


Le modèle logistique est aussi connu sous le nom de Le modèle de Gompertz, du nom du mathématicien
modèle (ou courbe) de Verhulst, du nom de son anglais Benjamin Gompertz, a été introduit en 1825.
auteur Pierre-François Verhulst, qui le proposa en
1838. Forme : Yt = [x]

Forme : [e] où est le seuil de saturation et r la vitesse de


où Ymax représente le seuil de saturation et r la diffusion.
vitesse de diffusion.
Deux transformations logarithmiques sont
†ne manipulation triviale permet d écrire : nécessaires pour linéariser ce type de modèles.

Dans un premier temps, la transformation


logarithmique du modèle [x] donne :

Après application de la transformation LnYt = brt + a


logarithmique, il vient :
Après manipulation et en log-linéarisant, il vient :
= 0 + 1t+ ut [f]
= 0 + 1t+ ut [y]
où ; 0 =Lnb et 1=Lnr
où ; 0 =Lnb et 1=Lnr
Note : L estimation par OLS de ces deux modèles n est possible que si l on ne connaît, ou plut t que l on
postule la valeur du seuil de saturation.
Ass. Cédrick Tombola M. 78

ANNEXE DU CHAPITRE V

La commande NLS d Eviews

En effet, plusieurs modèles non linéaires se prêtent facilement, comme vu précédemment, à la linéarisation,
ce qui rend beaucoup plus aisée leur estimation par la méthode des MCO. Mais lorsque cette gymnastique
de linéarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grâce { la commande NLS d Eviews – qui donne l estimation fournie par la méthode des moindres non
linéaires – , directement estimer de tels modèles sans avoir besoin de les rendre linéaires.

Exemple

En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d estimer le modèle ci-après :

Q=

Jour 1 2 3 4 5 6 7 8 9 10
Q 25 28 32 35 39 37 44 40 38 45
K 12 13 10 15 22 17 21 23 25 20
L 3 5 9 8 12 13 10 11 14 19

Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les résultats suivants :

Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)

Coefficient Std. Error t-Statistic Prob.

C(1) 12.45037 3.586039 3.471900 0.0104


C(2) 0.190189 0.125849 1.511251 0.1745
C(3) 0.232165 0.078957 2.940398 0.0217

R-squared 0.823231 Mean dependent var 36.30000


Adjusted R-squared 0.772726 S.D. dependent var 6.464433
S.E. of regression 3.081806 Akaike info criterion 5.332234
Sum squared resid 66.48269 Schwarz criterion 5.423009
Log likelihood -23.66117 Durbin-Watson stat 2.381746

où les coefficient c(2) et c(3) donnent directement les élasticités du produit au capital et au travail,
respectivement.
Ass. Cédrick Tombola M. 79

Exercices sur les modèles de régression non linéaires

Exercice 1
Soit le modèle log-linéaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-après qui montre
l évolution des ventes d une entreprise au cours de mois, on demande d ajuster cette fonction et de
trouver Y0 et r.
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Interpréter les résultats.

Exercice 2
On dispose des informations suivantes sur les ventes des syllabus d économétrie :

Année 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Ventes 24 36 45 49 54 63 78 79 83 99

On Se propose d ajuster, par OLS, sur ces données une fonction du type :
Yt =

a) Effectuer cet ajustement en supposant que la valeur du coefficient 0 =3;


b) Donner la valeur de r ;
c) Calculer le coefficient de détermination R2 ;

Exercice 3
Mêmes données et mêmes questions qu { l exercice , en ajustant le modèle suivant :

On prendra Ymax = 10.

Exercice 4
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d estimer le modèle ci-après :

Q=

Jour 1 2 3 4 5 6
Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13

- Calculer le R2 et le 2.
-
Mener le test des rendements d échelle. Les rendements { l échelle sont-ils constants ?
Ass. Cédrick Tombola M. 80

.VI.
VIOLATION DES HYPOTHESES DE BASE
En présentant la méthode des moindres carrés ordinaires, nous avions émis un faisceau d hypothèses de
base§§§§§§§§§§, sous respect desquelles cette méthode fournissait les meilleurs estimateurs linéaires,
convergents et sans biais, et que le théorème de Gauss-Markov était vérifié. Cependant, dans la pratique, il
est possible que l une ou l autre de ces hypothèses fondamentales soit relâchée.

Ce chapitre présente donc à la fois les tests de vérification et les stratégies à adopter en cas de violation
éventuelle de l une ou l autre hypothèse.

VI.1. Autocorrélation des erreurs

A. Problème

)l y a autocorrélation des erreurs lorsque l hypothèse est violée. La conséquence directe


est que les estimateurs des MCO, bien qu ils gardent encore leur caractère non biaisé, ne sont plus
efficients, puisque n ayant plus une variance minimale. Formellement, on a :

En absence d autocorrélation En présence d autocorrélation


Y=X +U Y=X +U
E(U) = 0 E(U) = 0
E UU = E UU =
Par conséquent
les t de Student et F de Fisher ne sont plus
utilisables.

)l faut noter aussi que l autocorrélation des erreurs est un phénomène que l on ne retrouve qu en travaillant
sur séries temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de
corrélation spatiale des résidus, qui ne nous intéresse pas directement ici.

B. Tests de détection

On recourt généralement { deux tests pour détecter l éventuelle autocorrélation des erreurs : le test de
Durbin et Watson et le LM – Test de Breush – Godfrey.

Le test de Durbin et Watson

Soit le modèle linéaire simple ci-après :

[6.1] Yt = 0 + 1Xt + ut

Le test très populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui l on proposé en , permet de détecter une autocorrélation d ordre , AR , selon la forme :

[6.2] ut = ρut–1 + vt
où vt est un bruit blanc*********** et (condition de convergence)

§§§§§§§§§§
Erreurs homoscédastiques, non autocorrélées et normalement distribuées. De plus la matrice X X doit être
non singulière, ce qui correspond { assumer l absence de multicolinéarité.
***********
Voir annexe 3.
Ass. Cédrick Tombola M. 81

On fait donc l hypothèse, pour des raisons de simplification, que l erreur n est liée qu { son passé immédiat.
Et l estimateur de ρ, basé sur les résidus et issus de la relation [6.2], est donné par :

[6.3]

Or, si n +∞, = , ce qui permet d écrire la relation [ . ] de la sorte :

[6.4]

où est le coefficient de corrélation linéaire de Bravais – Pearson.

Par conséquent, varie dans l intervalle [– 1, + 1].

Les hypothèses pour mener le test DW sont :

La statistique associée à ce test est :

[6.5] DW = d =

Pour comprendre pourquoi d est une statistique pertinente pour tester l autocorrélation, on réécrit d
comme suit :

d=

En éclatant cette somme en ses composantes, on a :

[6.6] d=

Connaissant la relation [6.3], et en sachant que pour grands échantillons, = , [6.5] devient :

[6.7] DW=d )

Il ressort donc de [6.6] que DW varie de 0 à 4 :

Valeur de Valeur conséquente de DW Implications


=1 DW =0 Autocorrélation positive
=0 DW=2 Absence d autocorrélation
=– 1 DW = 4 Autocorrélation négative

Connaissant la taille de l échantillon n, le nombre des variables explicatives k et le risque % sauf


indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calculée DW dans l une des zones du schéma ci-après :
Ass. Cédrick Tombola M. 82

0 dL dU 2 4 – dU 4 – dL 4

Doute

Doute
Zone I Zone III
Zone II
Autocorrélation Autocorrélation
Absence d autocorrélation
positive positive

On dira donc qu il y a autocorrélation des erreurs ou présomption d autocorrélation zone de doute ou


zone d indétermination) si la statistique DW calculée tombe soit dans la zone ), dans l une de deux zones de
doute ou dans la zone ))). La zone )) étant la seule zone o‘ l on conclurait { l indépendance des erreurs.

Note importante :

La statistique DW ne s interprète pas lorsque le modèle est spécifié en coupe instantanée ;


Pour mener le test DW, il est nécessaire que le modèle comporte un terme constant. Pour les
modèles sans terme constant, il existe des tables statistiques appropriées ;
Dans le cas où la régression comporte, parmi les variables explicatives, la variable dépendante
retardée Yt–1 et que les résidus sont autocorrélés d ordre , la statistique DW est alors biaisée vers 2.
Elle ne peut donc être utilisée directement pour tester l autocorrélation. La statistique h
développée par Durbin (1970) doit alors être utilisée.

Le LM – Test de Breusch – Godfrey [BG]

Comme cela vient d être expliqué, le test DW ne permet de tester qu une autocorrélation d ordre , soit
AR(1). Or, il est tout à fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent être :

AR(2) : ut = ρ1ut–1 + ρ2ut–2 + vt

AR(3) : ut = ρ1ut–1 + ρ2ut–2 + ρ3ut–3 + vt

AR(P) : ut = ρ1ut–1 + ρ2ut–2 + … + ρput–p + vt

A cet effet, Trevor Breusch et Leslie Godfrey ont, séparément, proposé, respectivement en 1979 et 1978, un
test – qui porte leurs noms, appelé aussi test du multiplicateur de Lagrange LM – beaucoup plus complet
que le test DW en ce qu il permet de tester une autocorrélation des erreurs d ordre supérieur { , et qui
reste valide en présence de la variable dépendante décalée en tant que variable explicative.

Soit le modèle linéaire simple de l équation [ . ] :

Yt = 0 + 1Xt + ut
où ut est à présent AR(p), p étant à déterminer.

Comme le test DW, le test BG teste l (0 d absence d autocorrélation contre (1 de présence


d autocorrélation, et se déroule en trois étapes suivantes :

(1). Estimer par les MCO le modèle [6.8] et tirer les résidus e t de cette estimation ;

. Estimer par les MCO l équation intermédiaire suivante :

[6.8] et = 0 + 1Xt + ρ1et–1 + ρ2et–2 + … + ρpet–p + ut Puis y tirer la valeur du R2.


Ass. Cédrick Tombola M. 83

(3). Calculer la statistique du test, sachant que ce test peut être mené à deux niveaux :

Soit effectuer un test de Fisher classique de nullité des ρ i, comme suit :

Et la statistique du test est dans ce cas :

où K est le nombre des paramètres du modèle [6.8]

Critère de décision : Si F > F [(K – 1) ; (n – K)] RH0, il y a autocorrélation.

Soit recourir à la statistique LM qui suit une distribution du (p). P étant le nombre de retards
introduits dans le modèle [6.8]. On a :

2
LM = n R

Critère de décision : Si LM > (p) RH0, il y a autocorrélation.

C. Correction d une autocorrélation

Lorsque le test conclut { l évidence d une autocorrélation, la correction se fait en appliquant la méthode
des Moindres Carrés Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { l application des MCO sur les données transformées.

Revenons au modèle simple { une variable o‘ le terme d erreur suit un processus AR :

[6.9] Yt = 0 + 1Xt + ut
où ut = ρut –1 + vt

En substituant ut, par son expression, dans [6.9], on obtient :

[6.10] Yt = 0 + 1Xt + ρut –1 + vt


où ut –1= Yt –1 – 0 – 1Xt –1

Et en tenant compte de ut –1, [6.10] devient :

[6.11] Yt = 0 + 1Xt + ρ(Yt –1 – 0 – 1Xt –1) + vt

En effectuant dans la parenthèse et après manipulation, il vient :

[6.12] = + 1 + vt
0
où =Yt – ρYt –1 ; 0 = 0(1 – ρ ; 1 = 1 et = (Xt – ρ Xt –1)

Une telle transformation est appelée : transformation en quasi-différences.


Ass. Cédrick Tombola M. 84

Lorsque ρ connu, l application des MCO sur ce dernier modèle donne un estimateur BLUE. Le seul
inconvénient de la transformation en quasi-différences qui persisterait serait une perte d information, en
l occurrence et . Afin de contourner cette difficulté, Prais et Winsten (1954) ont proposé de prendre
en compte la première observation en utilisant la procédure suivante :

et =

Procédures d estimation de ρ

Il existe plusieurs méthodes pour estimer ρ, dont les plus populaires sont :

La procédure d estimation directe ;


La méthode basée sur la statistique DW ;
La méthode itérative de Cochrane-Orcutt.

(a) Procédure (b) Méthode basée sur (c) Méthode itérative de Cochrane-Orcutt
d estimation directe la statitistique DW
Modèle : Y = X + U [A]
On suppose que les erreurs suivent un processus AR(1) : ut = ρut –1 + vt
A partir des résidus et du A partir de la statistique DW Soit le modèle linéaire simple :
modèle [A], estimer ρ par la issue de l estimation du Yt = 0 + 1Xt + ut
formule : modèle [A], et connaissant la où ut = ρut –1 + vt
relation [6.7], estimer ρ par
la formule : En quasi-différences, on a :

Yt – ρYt –1 = 0(1 – ρ + 1(Xt – ρ Xt –1) + vt


ou encore, pour grands
échantillons : En faisant fi de la première observation que l on
perd, la procédure itérative de Cochrane-Orcutt
se présente comme suit :

(i) Fixer une première valeur de ρ : on


où est le coefficient de
peut soit donner une valeur à priori,
corrélation linéaire.
soit =0, soit encore partir de la
valeur de ρ telle que calculée en
(a) ;
(ii) Utiliser cette valeur de ρ pour
estimer le modèle en quasi-
différences ci-dessus ;
(iii) A partir des résidus issus de
l estimation effectuée en ii ,
réestimer ρ par la formule donnée
en a , ce qui permet d obtenir un
ρ1 ;
(iv) Utiliser le nouveau ρ calculé en (iii)
pour estimer à nouveau le modèle
en quasi-différences. Les résidus
issus de cette régression
permettent d obtenir un ρ2 :
(v) Et ainsi de suite.

Le processus itératif se termine quand on note


la convergence, c est-à-dire quand les
coefficients estimés ne varient plus
sensiblement d une régression { l autre
Ass. Cédrick Tombola M. 85

Note : Le logiciel Eviews permet automatiquement d effectuer la correction de l autocorrélation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement d insérer, à la commande
d estimation, la variable AR ou AR , ou encore MA ou MA . Mais il faut noter également que la
correction de l autocorrélation n est acceptée que si le coefficient associé au processus introduit dans le
modèle [AR(1), MA(1), etc.] est significatif.

VI.2. Hétéroscédasticité

A. Problème

D un point de vue étymologique, le terme hétéroscédasticité comprend deux mots. D abord « hétéro » qui
fait référence à « plusieurs », ensuite le terme « scédasticité », associé à la « fonction scédastique », qui
signifie « variance conditionnelle ». Hétéroscédasticité signifie donc différentes variances. On dit qu il y a
hétéroscédasticité lorsque l hypothèse de la constance de l erreur , émise lors de la
présentation de la méthode des moindres carrés ordinaires, est violée.

Comme pour l autocorrélation, la conséquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaisés, ne sont plus efficients, puisque n ayant plus une variance minimale. Et par
conséquent les t de Student et F de Fisher ne sont plus utilisables { des fins d inférence.

)l faut noter également que l hétéroscédasticité est un problème qui se pose plus dans les modèles spécifiés
en coupe transversale que ceux des chroniques.

B. Tests de détection

)l existe toute une batterie de tests permettant de détecter l hétéroscédasticité, dont notamment :

Le test de Park
Le test de Goldfeld – Quandt
Le test de Glejser
Le test de Breusch – Pagan – Godfrey
Le test d égalité des variances
Le test de Koenker – Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH

Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utilisés dans la pratique.

Le test de White (1980)

Soit le modèle linéaire multiple suivant :

[6.13] Yt = 0 + 1X1t + 2X2t + 3X3t + ut

Le test de White, proposé par Halbert White en 1980, teste les hypothèses suivantes :

J invite le lecteur qui désire prendre connaissance de tous ces tests à consulter les manuels de Kintambo
(2004) et Bosonga (2010).
Ass. Cédrick Tombola M. 86

Le test de White présente l avantage qu il ne nécessite pas que l on spécifie les variables qui sont { la cause
de l hétéroscédasticité.

Pour tester H0, ce test peut se faire de deux façons ci-après :

(i) Test de White avec termes croisés, qui est basé sur l estimation du modèle :

[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [ . ] et vt le terme d erreur.

(ii) Test de White sans termes croisés, basé sur l estimation du modèle suivant :

[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [ . ] et vt le terme d erreur.

Ce est basé sur la statistique LM, donnée par :

LM = n R2 (m)
où m est le nombre de régresseurs exogènes dans l’expression estimée.

Critère de décision : Si LM > (m) RH0, il y a hétéroscédasticité.

Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)

Les hypothèses à formuler pour ce test sont :

Partant des résidus et issus de l estimation du modèle [ . ], la détection de l hétéroscédasticité par le test
ARCH se fait en régressant le carré des résidus et sur leurs décalages puissance deux, soit :

[6.15]

Le test est fondé soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :

LM = n R2 (m)
où m est le nombre de régresseurs (exogènes) présents dans le modèle [6.15].

Critère de décision : Si LM > (m) RH0, il y a hétéroscédasticité.

Le nombre de retards étant à déterminer.


Ass. Cédrick Tombola M. 87

C. Correction de l hétéroscédasticité

Soit le modèle :
Yi = 0 + 1Xi + ui

La correction de l hétéroscédasticité se fait en appliquant les moindres carrés pondérés, c est-à-dire les
moindres carrés ordinaires sur l un des modèles transformés ci-dessous :

(1) si E(

(2) si E(

(3) si E(

VI.3. Multicolinéarit駧§§§§§§§§§

A. Problème

Il y a multicolinéarité lorsque l hypothèse de l orthogonalité des exogènes ou encore de leur indépendance


linéaire est relâchée. Dans ce cas, la méthode des moindres carrés ordinaires est défaillante et il
devient difficile d isoler l impact individuel de chaque exogène sur l endogène.

On distingue généralement deux types de multicolinéarité : la multicolinéarité parfaite ou exacte et la quasi


multicolinéarité ou multicolinéarité imparfaite.

En cas de multicolinéarité parfaite, la matrice est singulière, et par conséquent son inverse ( )–1
n existe pas, ce qui rend la méthode OLS complètement défaillante ; il est n est donc pas possible devant
une telle situation d estimer les paramètres du modèle.

Dans la pratique, c est plut t le cas de quasi multicolinéarité qui est fréquent. En effet, la multicolinéarité
imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est proche de 0. La
conséquence directe est qu on aura des valeurs très grandes dans la matrice inverse ( )–1 qui, par la
méthode classique, est calculée comme suit :

[6.16] ( )–1 =

Dans [6.16], si 0, la matrice ( )–1 aura des valeurs de plus en plus grandes, la matrice COVA
( ) également. La conséquence, et donc le problème posé par la multicolinéarité est que, du
fait de la valeur élevée des variances des coefficients estimés, les résultats de l estimation perdent en précision,
c est-à-dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont élevés.

L autre problème posé par la multicolinéarité est l instabilité de paramètre et l effet de masque qui rend difficile
la mise en évidence de la contribution individuelle de différentes variables explicatives sur l endogène.

Note : Si les problèmes d autocorrélation des erreurs et d hétéroscédasticité peuvent se poser quel que soit
le nombre d exogènes intervenant dans le modèle, le problème de multicolinéarité, en revanche, n a de
sens que dans un modèle de régression linéaire multiple.

§§§§§§§§§§§
La notion de multicolinéarité a été introduite, dans les années 50, par Lawrence Klein.
Ass. Cédrick Tombola M. 88

B. Tests de détection

Les tests de détection de la multicolinéarité les plus populaires sont le test de Klein et le test de Farrar et
Glauber.

Le test de Klein

Soit le modèle :

Le test de Klein se fait en trois étapes que voici :

(a) Estimer le modèle [6.17] et calculer le R2 ;


(b) Calculer la matrice des coefficients de corrélation linéaire entre variables exogènes, prises deux à
deux, soit :

(c) Comparer, enfin, le R2 de la régression aux différents coefficients de corrélation. Il y a présomption


de multicolinéarité si au moins un des élevé au carré est supérieur au R2.

Note : Le test de Klein n est pas un test statistique au sens test d hypothèses mais simplement un critère de
présomption de multicolinéarité. C est pourquoi il doit être complété par le test de Farrar et Glauber qui est
bien un test statistique.

Le test de Farrar et Glauber

Le test de Farrar et Glauber teste les hypothèses suivantes :

Ce test est basé sur la statistique du , calculée { partir de l échantillon comme suit :

où n est la taille de l’échantillon ; K le nombre de paramètres ; Ln le logarithme népérien et D le déterminant de


la matrice des coefficients de corrélation linéaire entre exogènes, soit :
Ass. Cédrick Tombola M. 89

D=

est le nombre de degrés de liberté.

Critère de décision : si > RH0.

C. Remèdes à la multicolinéarité

Parmi les techniques permettant d éliminer la multicolinéarité, on peut citer :

Augmenter la taille de l échantillon


Appliquer la « Ridge Regression » qui est une réponse purement numérique, il s agit de transformer
la matrice en une matrice ( ) où k est une constante choisie arbitrairement qui et I la
matrice unité.

Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spécification du modèle, à
éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et donc d être corrélées
entre elles, ceci afin d éviter l effet masque ************.

VI.4. Normalité des erreurs

A. Problème

Le problème d absence de normalité se pose lorsque l hypothèse ut (0, ) est violée. A titre de rappel,
l hypothèse de normalité, émise lors de la présentation de la méthode OLS, est la clé de l inférence
statistique. Elle est donc nécessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l inférence, dans le
modèle linéaire, impossible car les distributions des estimateurs ne sont plus connues.

B. Tests de détection

Les tests de normalité ont été rigoureusement présentés dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convié { s y rapporter.

C. Remèdes à la non-normalité des résidus

Le meilleur remède à la non-normalité des résidus est d agrandir la taille de l échantillon. La transformation
de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.

************
Bourbonnais (2005).
Ass. Cédrick Tombola M. 90

Exercices sur le chapitre 6

Exercice 1
Soit le modèle ci-après :

Yt = 0 + 1X1t + 2X2t + εt
o‘ t= , …, n et n=

En l estimant par OLS, on a obtenu =0,52 et =0,28. On aussi calculé la statistique de Durbin-Watson :
d=DW=0,78.

a) Effectuer, au seuil de 5%, le test d hypothèse = .


b) Que faut-il penser de l hypothèse de non autocorrélation des résidus ?

Exercice 2
En cherchant { expliquer le phénomène réussite en économétrie, en , l assistant Dandy Matata a
spécifié le modèle suivant :

Yi = 0 + 1X1i + 2X2i + εi
o‘ Yi est la cote obtenue en économétrie par l étudiant i ; X1i est la présence au cours d économétrie et X2i le
nombre d heures d études consacrées { ce cours.

étudiants ont été échantillonnés. L estimation a permis de calculer la statistique DW = 0.4.

Tester l autocorrélation du premier ordre dans le modèle spécifié par l assistant Matata.

Exercice 3
Soit l échantillon de taille n= :

Yt X1t X2t
8 3 6
2 1 2
6 3 6
0 1 2
4 2 4
∑Yt=20 ∑ X1t=10 ∑ X2t=20

(a) Quel est le problème posé par l estimation du modèle :

Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le résoudre ?

Exercice 4
Au regard des résultats ci-après, sur l estimation de l hypothèse de Kuznet en RDC pour la période allant de
1975 à 2011, quel problème, selon vous, s est posé dans l estimation de cette relation ? Par quoi le voyez-
vous ?
IV. L’analyse de la variance
A. Construction du tableau d’analyse de la variance
et test de signification globale d’une régression
Dans cette section, nous allons nous interroger sur la signification globale du
modèle de régression, c’est-à-dire si l’ensemble des variables explicatives a une
influence sur la variable à expliquer. Ce test peut être formulé de la manière
suivante : existe-t-il au moins une variable explicative significative ? Soit le test
d’hypothèses :
H0 : a1 = a2 = . . . = ak = 0 (tous les coefficients sont nuls1)
H1 : il existe au moins un des coefficients non nul
Nous ne testons pas le cas où le terme constant a0 est nul, car seules nous
intéressent les variables explicatives. Un modèle dans lequel seul le terme
constant est significatif n’a aucun sens économique.
Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation
linéaire significative entre la variable à expliquer et les variables explicatives (ou
encore que la Somme des Carrés Expliqués n’est pas significativement différen-
te de 0).
Nous reprenons l’équation fondamentale [8] d’analyse de la variance :
! ! !
(yt − y)2 = yt − y)2 +
(" et2
t t t

La régression est jugée significative si la variabilité expliquée est signi-


ficativement différente de 0. Le tableau 4 présente le tableau d’analyse de la
variance2 permettant d’effectuer le test de Fisher.

!
yt − y)2 /k
("
t R 2 /k
F∗ = ! 2 = (d’après [9])
et /(n − k − 1) (1 − R 2 )/(n − k − 1)
t
[17]

1. Nous remarquons que nous pouvons répondre à cette question par le test d’un sous-ensemble
de coefficients [15], le test ici présenté conduit évidemment à des résultats identiques.
2. Voir chapitre 2, paragraphe 4, pour la construction de ce tableau.

Le modèle de régression multiple ! 67


Tableau 4 – Analyse de la variance pour une régression multiple

Source de variation Somme des carrés Degré de liberté Carrés moyens


!
. x1 , x2 ,. . . , xk SC E = yt − y)2
(" k SC E/k
t
!
Résidu SC R = et2 n−k−1 SC R/(n − k − 1)
t
!
Total SC T = (yt − y)2 n−1
t

L’hypothèse de normalité des erreurs implique que sous l’hypothèse H0, F ∗


suit une loi de Fisher (rapport de deux chi-deux). Nous comparons donc ce F ∗
calculé au F théorique à k et (n − k − 1) degrés de liberté : si F ∗ > F nous reje-
tons l’hypothèse H0, le modèle est globalement explicatif.
Dans la pratique, ce test est effectué immédiatement grâce à la connaissance
du coefficient de détermination R 2 (seulement si le modèle comporte un terme
constant) qui permet de calculer le Fisher empirique (calculé).

B. Autres tests à partir du tableau d’analyse


de la variance
À partir d’un exercice, nous allons présenter quatre tests usuels se référant à
l’analyse de la variance, la généralisation de ces tests ne posera par la suite aucu-
ne difficulté au lecteur.

1) Introduction d’une ou de plusieurs variables explicatives


supplémentaires
L’ajout d’un bloc supplémentaire de variables explicatives améliore-t-il signifi-
cativement la qualité de l’ajustement ?

2) Stabilité des coefficients du modèle dans le temps (test de CHOW)


Peut-on considérer le modèle comme étant stable sur la totalité de la période, ou
bien doit-on considérer deux sous-périodes distinctes d’estimation (changement
structurel du modèle) ? La spécification du modèle est la même, mais les valeurs
estimées des coefficients pour les deux échantillons sont différentes.

3) Test de restrictions et de contraintes sur les coefficients


Les contraintes souhaitées ou envisagées sur les coefficients sont-elles justifiées
et validées par l’estimation économétrique ?

68 ! ÉCONOMÉTRIE
4) Augmentation de la taille de l’échantillon servant à estimer le modèle
Lorsque la taille de l’échantillon aug mente (le nombre d’observations à dispo-
sition est plus important), le modèle reste-t-il stable ? Ce test se ramène au test
de Chow de stabilité des coefficients sur deux sous-périodes. L’estimation sur la
sous-période 1 est effectuée à partir de l’échantillon initial et l’estimation de la
sous-période 2 à partir des nouvelles observations.
Nous voyons l’intérêt pratique de ces tests et l’apport pour l’économiste des
réponses à ces questions.

"Exercice n° 3
fichier C3EX1
Tests à partir de l’analyse de la variance
En reprenant les données de l’exercice 1 (tableau 1), dont nous rappelons les résul-
tats de l’estimation du modèle1 :

yt = 32,89 + 0,80 x1t − 0,38 x2t − 0,03 x3t + et


(11,66) (0,29) (0,15) (0,05)
R 2 = 0,702
n = 14
(·) = écart type des coefficients
on demande de tester les hypothèses suivantes.
1) L’ajout des variables explicatives x2 et x3 améliore-t-il significativement la qualité de
l’estimation par rapport à x1 seul ?
2) Peut-on considérer le modèle (à trois variables explicatives) comme stable sur l’en-
semble de la période, ou doit-on procéder à deux estimations, l’une de la période 1 à
7, et l’autre de la période 8 à 14 ?
3) Un économiste suggère que dans ce modèle a1 = 1 et a2 = a3 , qu’en pensez-vous ?

Solution2

Nous pouvons tout d’abord appliquer le test de Fisher [17] afin de tester la signifi-
cation globale de la régression à trois variables x1 , x2 et x3 .
R 2 /k 0,702/3 0,05
F∗ = = = 7,878 > F3,10 = 3,71
(1 − R 2 )/(n − k − 1) (1 − 0,702)/10

1. Le lecteur notera la présentation « standard » des résultats d’estimation d’un modèle. Les infor-
mations listées ici doivent impérativement figurer. À noter que le t de Student est souvent indi-
qué à la place de l’écart type des coefficients afin de pouvoir, sans aucun calcul, procéder aux
tests de significativité des coefficients.
2. Les calculs sont effectués à partir d’un logiciel, il peut apparaître de légères différences entre
les calculs manuels et les résultats, imputables au fait que le logiciel tient compte d’un nombre
élevé de décimales.

Le modèle de régression multiple ! 69


Nous rejetons l’hypothèse H0 de nullité de tous les coefficients, la régression est
globalement significative.
1) Test d’ajout de variables

Étape 1 : calcul de la variabilité totale, expliquée et résiduelle sur le modèle complet.


Les résultats calculés précédemment lors de l’exercice 1 nous ont donné :
! !
SC T = (yt − y)2 = 226,86 ; SC E = ("yt − y)2 = 159,41 ;
t t SC R = e′ e = 67,45
Étape 2 : calcul de la variabilité totale, expliquée et résiduelle sur le modèle à une seule
variable explicative x1 .
Le modèle estimé est le suivant :
yt = 1,011x1,t + 11,57 + et
(0,281)
n = 14
R 2 = 0,52
(.) = Ecart type
σε = 3,0165
"

Nous calculons d’abord


SC R 1 = e′ e = d.d.l. × "
σε2 = 12 × 3,01652 = 109,20
puis à partir du coefficient de détermination R 2 , nous déduisons :
SC T 1 = 226,86 et SC E 1 = 117,65
Le test d’hypothèses est le suivant :
H0 : a2 = a3 = 0
H1 : il existe au moins un des deux coefficients non nul.
Ce test se ramène à un test par analyse de la variance : le fait d’ajouter des variables
explicatives dans un modèle entraîne automatiquement une augmentation1 de SCE
(et donc une diminution de SC R ) ; on souhaite donc tester que la différence entre SCE
et SC E 1 soit significativement positive (ou bien que la différence entre SC R 1 et SC R
soit significativement positive, il s’agit du même test). On compare donc la différence
par rapport à la somme des carrés la plus faible, soit ici SC R . Le tableau 5 d’analyse de
la variance permet de procéder au test de Fisher.

Étape 3 : tableau d’analyse de la variance.


Tableau 5 – Tableau d’analyse de la variance pour tester l’ajout
d’un bloc de variables explicatives

Source Somme Degré Carrés


de variation des carrés de liberté moyens

x1 SC E 1 = 117,65 1 117,65
x1 , x2 , x3 SC E = 159,41 3 53,14
Résidu SC R = 67,45 10 6,74
Total SC T = 226,85 13

1. Sauf si la ou les variables ajoutées sont orthogonales à la variable à expliquer, SC E reste alors
identique. Ce cas est évidemment rare.

70 ! ÉCONOMÉTRIE
Étape 4 : calcul du Fisher empirique.
(SC E − SC E 1 )/(k − k ′ ) 41,67/(3 − 1) 0,05
F∗ = = = 3,09 < F2,10 = 4,10
SC R/(n − k − 1) 67,45/10

(SC R 1 − SC R)/(k − k ′ ) (109,2 − 67,45)/2


Ou encore : F ∗ : = = 3,09
SC R/(n − k − 1) 67,45/10
Avec k = nombre de variables explicatives du modèle complet et k ′ = nombre de
variables explicatives du modèle sans l’ajout du bloc de variables. Nous acceptons l’hy-
pothèse H0, il n’y a donc pas de différence significative entre les deux variances expli-
quées, l’ajout des variables explicatives x2 et x3 n’améliore pas de manière significati-
ve – au seuil de 5 % – le pouvoir explicatif du modèle.
2) Le modèle est-il stable sur la totalité de la période ?
Soit le modèle estimé sur une seule période :
yt = !
a1 x1t + !
a2 x2t + ! a0 + et pour t = 1, . . . , 14
a3 x3t + !
ou le modèle estimé sur deux sous-périodes :
a11 x1t + !
yt = ! a21 x2t + !
a31 x3t + !
a01 + et pour t = 1, . . . , 7
a12 x1t + !
yt = ! a22 x2t + !
a32 x3t + !
a02 + et pour t = 8, . . . , 14

Le test d’hypothèses jointes est alors le suivant :


⎛ a = a1 = a2 ⎞
1 1 1
⎜ a2 = a 1 = a 2 ⎟
⎜ 2 2⎟
H0 : ⎜ ⎟
⎝ a3 = a31 = a32 ⎠
a0 = a01 = a02
Ce test de stabilité des coefficients (test de Chow) se ramène à la question suivante :
existe-t-il une différence significative entre la somme des carrés des résidus (SC R) de
l’ensemble de la période et l’addition de la somme des carrés des résidus calculée à par-
tir des deux sous-périodes (SC R 1 + SC R 2 ) ?
En effet, dans le cas d’une réponse négative, cela signifie que le fait de scinder en
deux échantillons n’améliore pas la qualité du modèle, donc qu’il est stable sur la tota-
lité de la période.
Les étapes sont alors les suivantes.
Étape 1 : estimation du modèle sur chacune des deux sous-périodes1 et calcul des
sommes des carrés de résidus.
sous-période 1 : données de 1 à 7

yt = 0,774x1,t − 0,293x2,t − 0,012x3,t + 25,27 + et


(0,53) (0,31) (0,10)
n = 7
R 2 = 0,692
(.) = Ecart type
σε = 3,01759
"

1. Les deux sous-périodes peuvent être de longueur inégale, cependant elles doivent impérative-
ment recouvrir la totalité des observations de la période.

Le modèle de régression multiple ! 71


Nous pouvons en déduire comme précédemment :
SC T 1 = 88,85 ; SC E 1 = 61,54 ; SC R 1 = 27,31

sous-période 2 : données de 8 à 14

yt = 1,228x1,t − 0,620x2,t − 0,184x3,t + 62,63 + et


(0,69) (0,52) (0,15)
n = 7
R 2 = 0,543
(.) = Ecart type
σε = 2,6281
!

D’où SC T 2 = 45,43 ; SC E 2 = 24,70 ; SC R 2 = 20,73.


Étape 2 : calcul du Fisher empirique.
En prenant au dénominateur la plus faible des sommes des carrés (soit
SC R 1 + SC R 2 ) , le Fisher empirique est égal à :

[SC R − (SC R 1 + SC R 2 )]/ddln


F∗ =
(SC R 1 + SC R 2 )/ddld

avec ddln = (n − k − 1) − [(n 1 − k − 1) + (n 2 − k − 1)] = k + 1 = 4


car n = n 1 + n 2
ddld = (n 1 − k − 1) + (n 2 − k − 1) = n − 2(k + 1) = 6
d’où
[(67,45 − (27,31 + 20,73))]/4 4,852
F∗ = = = 0,606 < F40,05
; 6 = 4,53
(27,31 + 20,73)/6 8,00
L’hypothèse H0 est acceptée, les coefficients sont significativement stables sur l’en-
semble de la période.
Attention, en cas d’hétéroscédasticité (cf. chapitre 5), le test de Chow est biaisé dans
le sens d’une surestimation du seuil de rejet du test, nous rejetons trop souvent l’hypo-
thèse H0.
3) Test de a1 = 1 et a2 = a3
Si cette hypothèse est vérifiée, le modèle :
yt = a0 + a1 x1t + a2 x2t + a3 x3t + εt

peut s’écrire :
yt = a0 + 1 x1t + a2 x2t + a2 x3t + εt
ou encore :
yt − x1t = a0 + a2 (x2t + x3t ) + εt
z t = a0 + a2 vt + εt

Il convient de constituer la nouvelle variable à expliquer, z t , et la nouvelle variable


explicative vt , puis d’effectuer la régression de z t sur vt .
Le tableau 6 présente ces nouvelles variables.
L’estimation des deux (k ′ + 1) coefficients du modèle conduit aux résultats suivants :

72 ! ÉCONOMÉTRIE
z t = −0,0111vt + 13,74 + et
(0,051)
n = 14
R 2 = 0,0389
(.) = Ecart type
σε = 3,0109
!

Tableau 6 – Variables transformées sous l’hypothèse


de vérification des contraintes
t z t = yt − x1t vt = x2t + x3t

1 10 166
2 13 175
3 7 197
4 10 192
5 7 171
6 11 197
7 13 164
8 14 180
9 16 169
10 8 201
11 15 193
12 12 203
13 13 209
14 14 209

Nous pouvons en déduire :


SC T 1 = 109,21 ; SC E 1 = 0,425 ; SC R 1 = 108,78
L’hypothèse à tester est donc :
H0 : les restrictions sont toutes vérifiées (SC R 1 = SC R) .
H1 : il existe au moins une restriction non vérifiée (SC R 1 ̸= SC R) .
Le Fisher empirique est donné par :
(SC R 1 − SC R)/ddln (108,78 − 67,45)/2 0,05
F∗ = = = 3,06 < F2,10 = 4,10
SC R/(n − k − 1) 67,45/10
avec ddln = (n − k ′ − 1) − (n − k − 1) = k − k ′ = 2 .
L’hypothèse H0 est acceptée, les contraintes envisagées sur les coefficients sont com-
patibles avec les données.

C. Généralisation des tests par analyse de la variance


Nous pouvons remarquer que tous ces tests par analyse de la variance se ramè-
nent à un test unique, tel que les éléments du vecteur des coefficients a vérifient
un ensemble de q contraintes linéaires :

Le modèle de régression multiple ! 73


H0 : Ra = r
H1 : Ra ̸= r
Ainsi le Fisher empirique est donné par :
a − r)′ [R(X ′ X)−1 R ′ ]−1 (R!
{(R! a − r)}/q
F∗ =
SC R/(n − k − 1)
où !
a est le vecteur des coefficients estimés sur le modèle non contraint.
On rejette H0 si le F ∗ est supérieur au F lu à q et n − k degrés de liberté.
Quelques exemples d’utilisation pour un modèle à k variables explicatives :
– Test sur un coefficient de régression. Hypothèse H0 : a3 = 0,5 .
Soit à tester l’égalité du 3e coefficient par rapport à 0,5 ; la contrainte s’écrit
Ra = r avec R = (0 0 0 1…0 0 0) et r = (0 0 0 0,5…0 0 0) . Le premier élément
des vecteurs correspond au terme constant a0. Ce test peut aussi être mené par
un classique test de Student.
– Test d’égalité de coefficients. Hypothèse H0 : a1 = a3 −→ a1 − a3 = 0 .
La contrainte s’écrit Ra = r avec R = (0 1 0 − 1 . . . 0 0 0)
et r = (0 0 0 0 . . . 0 0 0) .
– Test de significativité globale de la régression.
Hypothèse H0 : a1 = a2 = a3 = … = ak = 0 .
Ce test de Fisher (cf. équation [17]) est équivalent à l’écriture contrainte Ra = r
avec R = (0 1 1 1…1 1) et r = (0 0 0 0…0 0 0) .
De manière équivalente, nous pouvons utiliser la statistique :
(SC Rc − SC R)/q
F∗ = où SC Rc est la somme des carrés des résidus du
SC R/(n − k − 1)
modèle contraint.
Une autre manière de procéder consiste à comparer le ratio de vraisem-
blance1 du modèle contraint et non contraint : si la contrainte est valide, nous
devons avoir L c < L nc où L nc est la fonction de vraisemblance du modèle non
contraint et L c est la fonction de vraisemblance du modèle contraint. Soit
L c /L nc < 1 , sous forme logarithmique Ln(L c ) − Ln(L nc ) < 0 ou encore
lc − lnc < 0 , la différence entre les logarithmes des fonctions doit être significa-
tivement négative. On démontre que ce test se ramène à un test du χ 2 par calcul
de la statistique L R = −2(lc − lnc ) qui suit un χ 2 à r degrés de liberté ( r étant
le nombre de contraintes). Ainsi, si L R est supérieur au χ 2 lu dans la table au
seuil α choisi et à r degrés de liberté, on rejette l’hypothèse H0, les restrictions
ne sont pas vérifiées.
Enfin, nous pouvons citer le test du multiplicateur de Lagrange (« L M test »)
fondé sur l’estimation d’une équation intermédiaire et de la valeur d’une statis-
tique L M = n × R 2 (n = nombre d’observations et R 2 = coefficient de détermi-

1. Dans un modèle de régression classique, la maximisation de la fonction de vraisemblance four-


nit des estimations identiques à celle de la méthode des MCO.

74 ! ÉCONOMÉTRIE
nation issu de l’estimation de l’équation intermédiaire) qui suit un χ 2 à r degrés
de liberté ( r étant le nombre de contraintes) ; nous verrons des applications de
cette statistique au chapitre 5 concernant les tests de détection de l’autocorréla-
tion des erreurs et de l’hétéroscédasticité.

V. L’utilisation de variables indicatrices1


A. Constitution et finalités des variables indicatrices
Une variable indicatrice est une variable explicative particulière qui n’est com-
posée que de 0 ou de 1. Cette variable est utilisée lorsque, dans un modèle, nous
désirons intégrer un facteur explicatif binaire : « le phénomène a lieu ou n’a pas
lieu » pour corriger, par exemple, d’une valeur anormale ; ou bien lorsque le fac-
teur explicatif est qualitatif : « le genre d’un individu, homme ou femme ». Il
s’agit donc d’incorporer une ou des variables explicatives supplémentaires au
modèle spécifié initialement et d’appliquer les méthodes classiques d’estima-
tion.
Le modèle de régression diffère selon l’apparition du phénomène par les valeurs
d’un ou plusieurs coefficients alors que les autres paramètres sont identiques. En
cas de modification structurelle d’un coefficient de régression, la variable muette
affecte alors le coefficient de la ou des variables explicatives considérées.
Par exemple, soit le modèle à deux variables explicatives x1t et x2t :
yt = a0 + a1 x1t + a2 x2t + b0 Dt + b1 Dt x1t + b2 Dt x2t + εt
Si le phénomène existe, Dt = 1 et Dt = 0 sinon.
Si Dt = 0 , le modèle s’écrit : yt = a0 + a1 x1t + a2 x2t + εt
Si Dt = 1 , le modèle s’écrit : yt = (a0 + b0 ) + (a1 + b1 )x1t + (a2 + b2 )x2t + εt
Si b1 = b2 = 0 , le modèle ne diffère que par la valeur du terme constant.

Domaine d’utilisation des variables indicatrices.


Le domaine d’utilisation des variables indicatrices est très vaste, nous pou-
vons citer : la correction des valeurs anormales (cf. exercice n° 4), la modifica-
tion structurelle (0 pour la période avant le changement structurel, 1 après le
changement structurel), l’intégration de la saisonnalité (cf. exercice n° 6), la
caractérisation d’un individu (genre, situation matrimoniale…), l’intégration de
facteurs qualitatifs (appartenance d’un pays à la zone euro, promotion non quan-
tifiable…), etc.

1. Les termes de variables indicatrices, de variables auxiliaires ou de variables muettes sont indif-
féremment employés en français. Le terme anglo-saxon dummy est le plus couramment
utilisé.

Le modèle de régression multiple ! 75


B. Exemples d’utilisation
1) Correction de valeurs anormales
Les séries statistiques sont parfois affectées de valeurs anormales liées à la sur-
venance d’événements exceptionnels : grève, guerre, aberration climatique, etc.
Deux problèmes se posent alors : détecter la valeur anormale et la corriger afin
qu’elle ne perturbe pas l’estimation statistique des autres variables.

"Exercice n° 4
Détection et correction de valeurs anormales par variable indicatrice
Un modèle de production de service du secteur du tourisme est spécifié de la maniè-
re suivante :
Q P St = a0 + a1 V At + a2 P O Pt + εt

avec :
Q P St = production du secteur tourisme pour l’année t ;
V At = valeur ajoutée du secteur tourisme pour l’année t ;
P O Pt = population pour l’année t .

L’économètre chargé de l’estimation de ce modèle sur 18 ans s’interroge sur la per-


turbation entraînée par l’effet d’une guerre pour l’année 16. Pour répondre à cette ques-
tion, il intègre à son modèle de base une variable indicatrice Dt tel que :

Dt = 0 pour t = 1 à 15 et t = 17 à 18

Dt = 1 pour t = 16

L’estimation du modèle économétrique est la suivante :

Q P St = 2 340,4 + 23,5 V At + 0,3 P O Pt − 120,56 Dt + et


(4,5) (2,2) (2,9) (5,8)
n = 18
R 2 = 0,65
(·) = t de Student

L’effet « guerre » a-t-il une influence significative sur la production du service du


secteur du tourisme ?

76 ! ÉCONOMÉTRIE
Solution

0,05
La variable indicatrice Dt a un ratio de Student de t ∗ = 5,8 > t14 = 2,14 , le coef-
ficient de régression de cette variable est significativement différent de 0, la production
de service pour l’année 16 est donc anormalement basse (−120,56) . Cette baisse est,
sans doute imputable à l’effet de la guerre.

• Généralisation
Dans le cas d’un phénomène se produisant de manière sporadique, la variable indi-
catrice prend la valeur 1 pour la ou les périodes que l’on désire corriger et 0 pour les
autres.
Nous remarquons que nous pouvons procéder au test de Chow (stabilité du modèle
sur l’ensemble de la période) en recourant à une variable indicatrice prenant la valeur 1
pour la première sous-période et la valeur 0 pour la deuxième sous-période. Le test de
Student portant sur le coefficient de la variable indicatrice permet alors de se détermi-
ner sur un modèle à un régime ou un modèle à deux régimes.

2) Variable qualitative

Il peut s’avérer important dans certaines spécifications de modèle de tenir comp-


te de l’effet, sur la variable endogène, de variables qualitatives : être titulaire
d’un diplôme, genre d’un individu, appartenance politique, etc. L’utilisation
d’une variable indicatrice permet de segmenter les individus en deux groupes et
de déterminer si le critère de segmentation est réellement discriminant.
Attention, dans le cas de variables qualitatives à plusieurs modalités, par
exemple la couleur des yeux (bleu, vert, marron, autres), ou bien la situation
familiale (célibataire, marié, divorcé, veuf, autres), etc. Il convient alors de
coder autant de variables indicatrices que de modalités moins une. En reprenant
l’exemple de la couleur des yeux nous définissons trois variables indicatrices :
bleu (= 1 si l’individu à les yeux bleus, 0 sinon), vert (= 1 si l’individu à les yeux
verts, 0 sinon), marron (= 1 si l’individu à les yeux marrons, 0 sinon), le cas des
autres individus n’appartenant pas à l’une des trois premières catégories est
implicitement contenu dans le terme constant. Une erreur à ne pas commettre
consiste à créer une seule variable explicative codée, par exemple, de la maniè-
re suivante : bleu = 1, vert = 2, marron = 3, …
Au chapitre 12 nous traitons du cas particulier des variables qualitatives qui
figurent en tant que variables à expliquer.

Le modèle de régression multiple ! 77


"Exercice n° 5
Intégration d’une variable qualitative
Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences
économiques, on spécifie le modèle suivant :
N L = a0 + a1 N D + a2 DS + ε
où :
N L = note moyenne obtenue en licence,
N D = note moyenne obtenue en fin de deuxième année,
DS = variable indicatrice de genre (1 pour les hommes et 0 pour les femmes).
L’estimation à partir d’un échantillon de 60 étudiants conduit aux résultats suivants :
N L = 8,5 + 0,3 N D − 1,2 DS + e
(4,5 ) (7,1) (2,3)
n = 60
R 2 = 0,72
(·) = t de Student
Le fait d’être homme ou femme a-t-il une influence sur la note obtenue en licence
de sciences économiques ?
Solution
La variable indicatrice DS a un ratio de Student de
0,05
t ∗ = 2,3 > t57 = 1,96
le coefficient de régression a2 est significativement différent de 0, le facteur sexe est
donc bien un facteur discriminant de la note obtenue en licence. La probabilité critique,
associée au risque de première espèce (risque de rejeter l’hypothèse H0 à tort), est égale
à 0,025. Nous avons donc 2,5 % de risque de nous tromper en rejetant l’hypothèse H0.
Le risque d’erreur est très faible, nous la rejetons.
Il est à noter que le coefficient négatif indique qu’il est « pénalisant » d’être un
homme (DS = 1) et qu’en moyenne, sur notre échantillon, les hommes ont une note
inférieure de 1,2 point à celle des femmes.
Toutefois le facteur explicatif le plus important reste bien la note obtenue en fin de
deuxième année (t ∗ = 7,1) .

78 ! ÉCONOMÉTRIE
3) Analyse de saisonnalité

"Exercice n° 6
fichier C3EX6

Étude de saisonnalité par variables indicatrices


Une entreprise cherche à appréhender une relation entre ses ventes et ses dépenses
publicitaires. Le directeur du marketing dispose des données (tableau 7) de ventes et de
dépenses publicitaires sur 5 ans par trimestre.
1) Ce directeur du marketing commence par estimer la relation :
Vt = a0 + a1 Pubt + εt
Commenter les résultats obtenus.
2) Tracer le graphique de la série des ventes, que pouvez-vous en conclure ?
3) Spécifier et estimer le modèle adéquat.
Tableau 7 – Ventes et dépenses publicitaires

Années T1 T2 T3 T4
1 Ventes 164 198 85 179
Pub. 34 36 32 29
2 Ventes 168 201 98 197
Pub. 45 67 76 75
3 Ventes 197 209 100 216
Pub. 75 78 72 75
4 Ventes 223 245 119 260
Pub. 78 81 84 83
5 Ventes 298 309 124 267
Pub. 89 82 81 83

Solution

1) L’estimation du modèle de régression simple


Vt = a0 + a1 Pubt + εt
conduit aux résultats suivants :
Vt = 104,89 + 1,29 Pubt + et
(1,85)
n = 20
R 2 = 0,16
(·) = t de Student
La publicité a-t-elle un effet significatif sur les ventes ? La valeur du ratio du Student
empirique permet de répondre à cette question.
0,05
t ∗ = 1,85 < t18 = 2,10 → le coefficient a1 n’est pas significativement différent
de 0, la publicité n’a pas, a priori, d’impact sur les ventes.

Le modèle de régression multiple ! 79


– 2e étape : calcul des et2 ;
– 3e étape : régression autorégressive des résidus sur p retards (résidu décalé)
p
!
où seuls les retards significatifs sont conservés, et2 = α0 + 2
αi et−i ;
i=1
Soit à tester l’hypothèse H0 : α1 = α2 = … = α p = 0 .
– 4e étape : calcul de la statistique du multiplicateur Lagrange, L M = n × R 2 avec :
n = nombre d’observations servant au calcul de la régression de l’étape 3,
R 2 = coefficient de détermination de l’étape 3.
Si L M > χ 2 ( p) à p degrés de liberté lu dans la table à un seuil α fixé (en
général 0,05 ), on rejette H0 ; on considère que le processus est justifiable d’un
modèle ARCH( p) .
C’est le test de significativité des coefficients αi de la régression et2 sur et−
2
p
qui permet de déterminer l’ordre p du processus ARCH sachant qu’un proces-
sus ARCH d’ordre 3 semble un maximum. Une autre approche consiste à
calculer le corrélogramme des résidus aux carrés issus du modèle initial. Si des
termes de ce corrélogramme sont significativement différents de 0 , alors on peut
conclure à une spécification de type ARCH.

III. Modèles à erreurs sur les variables


A. Conséquences lorsque les variables sont entachées
d’erreurs
Quand nous avons étudié le modèle linéaire, nous avons admis que la variable
endogène et les variables exogènes étaient observables sans erreur. Dans la pra-
tique, cette hypothèse est rarement vérifiée ; cependant, nous pouvons admettre,
généralement, que l’erreur de mesure des observations est faible par rapport à
l’erreur de spécification.
Toutefois, dans certains modèles, les variables économiques retenues peu-
vent être entachées d’une erreur de mesure relativement importante. C’est le cas,
par exemple, lorsque les données proviennent, non pas, d’une mesure directe,
mais de données d’enquêtes par sondage. Dans ce cas, il convient de distinguer
les variables vraies (et inconnues) : y ∗ , x1∗ , x2∗ , . . . , xk∗ des valeurs observées
y, x1 , x2 , . . . , xk et d’étudier les conséquences concernant les propriétés de l’es-
timateur obtenu par les MCO.
Soit le modèle Y ∗ = X ∗ a + ε avec ε qui satisfait aux hypothèses habituelles.
Posons : X = X ∗ + µ et Y = Y ∗ + ν
avec : E(µ) = 0 ; E(ν) = 0 ; E(X ∗′ µ) = 0 ; E(Y ∗′ ν) = 0 ; E(X ∗′ ν) = 0 ;
E(Y ∗′ µ) = 0 .

154 ! ÉCONOMÉTRIE
On a alors :

E(ε′ µ) = E{(Y ∗ − X ∗ a)′ µ} = E(Y ∗ µ) − a ′ E(X ∗′ µ) = 0

E(ε′ ν) = E{(Y ∗ − X ∗ a)′ ν} = E(Y ∗ ν) − a ′ E(X ∗′ ν) = 0

Nous avons donc indépendance entre les erreurs sur les variables µ et ν , et l’er-
reur de spécification du modèle ε .
La relation entre les variables observées X et Y est la suivante :

Y ∗ = Y − ν = (X − µ)a + ε → Y = Xa + ν − µa + ε = Xa + η

avec η = ν − µa + ε
Les propriétés stochastiques de η sont :
E(η) = E(ν − µa + ε) = E(ν) − E(µ)a + E(ε) = 0
E(X ∗′ η) = E(X ∗′ ν) − E(X ∗′ µ)a + E(X ∗′ ε) = 0
E(X ′ η) = E{(X ∗ + µ)′ η} = E(µ′ η)
= E(µ′ ν) − E(µ′ µ) a + E(µ′ ε)
= −E(µ′ µ)a ̸= 0
L’hypothèse H6 du modèle général n’est donc pas vérifiée puisque η et X sont
corrélés, la méthode des MCO fournit des estimateurs biaisés négativement.

B. La méthode des variables instrumentales


Lorsqu’on se trouve en présence d’un modèle à erreurs sur les variables
Y = Xa + η , l’hypothèse H6 est en défaut et l’estimateur "
a ne converge pas
asymptotiquement vers a. Les autres hypothèses sont réputées vérifiées.
Le but de la technique des variables instrumentales est de déterminer k
variables z 1 , z 2 , . . . , z k telles que :

E(Z ′ η) = 0 et Z = (z 1 , z 2 , . . . , z k )

Cov (Z ′ X) ̸= 0
c’est-à-dire qu’aucune combinaison linéaire des variables z k n’est orthogonale
aux variables x1 , x2 , . . . , xk ou encore que les variables Z et X soient corrélées.
Nous avons alors :

E(Z ′ Y ) = E{Z ′ (Xa + η)} = E(Z ′ X)a + E(Z ′ η) = E(Z ′ X)a

Problèmes particuliers : la violation des hypothèses ! 155


soit a = (Z ′ X)−1 Z ′ Y
" [12]

On démontre1 que " a est un estimateur convergent de a , la variance de l’es-


timateur "
a est d’autant plus faible que la corrélation entre Z ′ X est forte, la
matrice des variances et covariances des coefficients est égale à :

"â = "
Ω σε2 (Z ′ X)−1 (Z ′ Z )(X ′ Z )−1 [13]

La difficulté de mise en œuvre de cette méthode réside dans la sélection des


variables instrumentales2 « miracles » Z qui doivent être non corrélées avec η
et fortement corrélées avec X . Dans certains cas, nous pouvons simplement rete-
nir, comme variable instrumentale, la variable exogène décalée d’une période.

C. Le test d’exogénéité d’Hausman


Le test d’exogénéité d’Hausman (1978) permet de détecter une éventuelle cor-
rélation entre le terme d’erreur εt et une ou des variables explicatives xit. Dans
cette hypothèse, nous ne pouvons plus utiliser l’estimateur des MCO qui est non
convergent, il faut alors recourir à la méthode des Variables Instrumentales (VI)
ou à la Méthode des Moments Généralisée (GMM).
Soit le test d’hypothèses, H0 : Cov(xt ,εt ) = 0 (la variable xt est exogène) contre
l’hypothèse d’endogénéité H1 : Cov(xt ,εt ) = / 0.
Sous l’hypothèse H0 les estimateurs des MCO et des VI sont convergeant alors
que sous l’hypothèse H1 la covariance est non nulle et l’estimateur des MCO est
biaisé et non convergeant. Ce test peut être mené de deux manières, soit un test
de différence entre l’estimateur des VI et des MCO, soit un test à partir d’une
régression augmentée.

1) Test de différence
Nous calculons la statistique :
H = (⌢
aV I − ⌢
a MC O )′ [Var(⌢
aV I ) − Var(⌢
a MC O )]−1 (⌢
aV I − ⌢
a MC O ) .
La statistique H est distribuée selon un chi-deux à k degrés de liberté. Si
H < χ 2 (k) pour un seuil α % fixé, nous acceptons l’hypothèse H0, l’estimateur
MCO est non biaisé.
1. Judge G.G. et al., pages 577-579, 1988.
2. Les anglo-saxons emploient le terme de « proxy variable », que l’on peut traduire littéralement par
« variable par délégation ».

156 ! ÉCONOMÉTRIE
2) Régression augmentée
La procédure proposée par Hausman est en quatre étapes :
– Estimation d’un modèle par les MCO avec pour variable à expliquer la
variable dont nous désirons tester l’exogénéité et comme variables explica-
tives le ou les instruments, le plus souvent les variables explicatives décalées
d’une période.
– Estimation de la ou des variables ajustées x̂it à partir de la ou des régressions
précédentes.
– Estimation du modèle augmenté (modèle initial dans lequel nous rajoutons la
ou les variables explicatives ajustées x̂it).
– Test de significativité par rapport à 0 du ou des coefficients de la ou des
variables explicatives ajustées. Si ce ou ces coefficients ne sont pas significa-
tivement de 0 (test de Student ou de Fisher), alors nous retenons l’hypothèse
H0 : Cov(xt ,εt ) = 0 .

D. La méthode des moments généralisée


La Méthode des Moments Généralisée, GMM (Generalized Method of
Moments), est utilisée lorsque la ou les variables explicatives sont supposées
exogènes (Cov (xt ,εt ) =
/ 0 ) et que, de plus, la matrice des variances covariances
des erreurs est quelconque ( E(εt ,εt′ ) =
/ σ 2 I ). L’estimateur des GMM combine
alors la méthode des moindres carrés généralisés avec celle des variables instru-
mentales. L’estimateur des GMM est donné par :

ˆ )−1 Z ′ X)−1 X ′ Z (Z ′ (Z
â = (X ′ Z (Z ′ (Z ˆ )−1 Z ′ y [14]

avec :
y = la variable à expliquer
X = les variables explicatives
Z = les instruments

ˆ = la matrice des variances covariances des résidus estimés dans une première
(
étape par la méthode des variables instrumentales
Il est à noter que dans le cas où les hypothèses classiques sont vérifiées
(E(εt ,εt′ ) = σ 2 I ) , l’estimateur des GMM (expression [14]) se ramène à l’esti-
mateur VI (expression [13]).

Problèmes particuliers : la violation des hypothèses ! 157


"Exercice n° 5
fichier C5EX5

Test d’exogénéité d’Hausman, modèle à erreurs sur les variables : la


technique des variables instrumentales
Un agronome désire estimer la relation entre le rendement de blé (yi ) et la quantité
utilisée d’engrais (xi∗ ) . Pour ce faire, il ne dispose que de la quantité d’engrais (xi )
déclarée par l’agriculteur, qui est donc entachée d’une erreur. Cependant, il pense que la
variable de dépense effective en achat d’engrais (z i ) est indépendante de l’erreur d’ob-
servation de la quantité d’engrais déclarée et bien corrélée avec la consommation réelle
d’engrais.
On dispose des vingt observations présentées au tableau 9.

Tableau 9 – Rendement de blé, quantité d’engrais utilisée


et dépense en achat d’engrais

Observation yi xi zi
1 15,30 17,30 3,00
2 19,91 21,91 7,00
3 20,94 22,96 5,40
… … … …
18 25,83 29,43 22,20
19 25,15 28,95 24,60
20 25,06 28,86 24,60

On demande :
1) de tester une éventuelle endogénéité de la variable xi à l’aide du test d’Hausman ;
2) d’estimer la relation entre yi et xi∗ par une méthode adaptée.

Solution

1) Test de différence : Nous calculons la statistique d’Hausman :


⌢ ⌢ ⌢ ⌢ ⌢ ⌢
H = ( aV I − a MC O )′ [Var( aV I ) − Var( a MC O )]−1 ( aV I − a MC O )

Avec :
# $ # $ # $
⌢ 0,795 ⌢ 0,822 ⌢ 0,0004489 −0,01106
aV I = ; a MC O = ; Var( aV I ) = ;
2,153 1,471 −0,01106 0,27613
# $ # $
⌢ 0,0003486 −0,00859 ⌢ ⌢ −0,0276
Var( a MC O ) = ; ( aV I − a MC O = ;
−0,00859 0,214867 0,6817
# $
⌢ ⌢ 0,0001 −0,0024
[Var( aV I ) − Var( a MC O )] =
−0,0024 0,0612

158 ! ÉCONOMÉTRIE
# $# $
1568341,7 63248,1 −0,0276
H = [−0,0276 0,6817] = 7,63 > χ 2 (2)
63248,1 2566,99 0,6817
pour un seuil de 5 % = 5,99. Nous rejetons l’hypothèse H0, l’estimateur des MCO est
biaisé, il convient d’utiliser l’estimateur des VI.
Régression augmentée
Nous procédons au test d’Hausman en quatre étapes.
– Estimation par les MCO de la régression de xi sur l’instrument z i :

Dependent Variable : X
Method : Least Squares
Included observations : 20
Variable Coefficient Std. Error t-Statistic Prob.
C 18.37253 0.622495 29.51436 0.0000
Z 0.440680 0.039908 11.04238 0.0000

– Calcul de la série ajustée : x̂i = 18,37 + 0,44z i


– Estimation du modèle augmenté avec (XF = x̂i ) :

Dependent Variable : Y
Method : Least Squares
Included observations : 20
Variable Coefficient Std. Error t-Statistic Prob.
X 1,010328 0,022324 45,25680 0.0000
XF – 0,215107 0,023915 – 8,994504 0.0000
C 2,153561 0,212721 10,12386 0,0000

– Le coefficient de la variable XF est significativement différent de 0, nous ne sommes


pas en mesure d’accepter l’hypothèse H0, nous avons donc Cov(xt ,εt ) ̸= 0 .

2) La régression de yi sur xi conduit aux résultats suivants :

yi = 1,47 + 0,82 X i
"
(41)
2
R = 0,99
n = 20
(.) = t de Student
Cependant la méthode des MCO n’est pas applicable car E(xi η) ̸= 0 . En revanche, nous
savons par hypothèses que E(z i η) = 0 et que Cov(xi∗ z i ) ̸= 0 .
a est donné par [12], soit :
L’estimateur "

a
" = (Z ′ X)−1 Z′ Y
(2,1) (2,20) (20,2) (2,20) (20,1)

Problèmes particuliers : la violation des hypothèses ! 159


La matrice Z est composée de 1 pour la première colonne et des valeurs de z i pour
la deuxième colonne. De même, la matrice X est composée de 1 pour la première colon-
ne et des valeurs de xi pour la deuxième colonne.
Nous obtenons :
# $ # $
20,00 492,78 1,02 −0,07
Z′X = ; (Z ′ X)−1 = ;
284,40 7 369,53 −0,04 0,00
# $
′ 434,94
ZY =
6472,88
# $ # $
a0
" 2,15
soit a=
" =
a1
" 0,795
Ces coefficients sont à comparer à ceux trouvés lors de l’estimation du modèle par
les MCO.
Nous pouvons calculer l’estimation de la variance de l’erreur :
!
ei2
i 1,29
σε2 =
" = = 0,071
n−2 18
a est alors d’après [13] :
La matrice des variances et covariances de "
" â = "
Ω σε2 (Z ′ X)−1 (Z ′ Z )(X ′ Z )−1
# $ # $
′ 20,00 284,40 " â = 0,071 3,85 −0,15
Z Z= ; soit Ω
284,40 4 866,08 −0,15 0,00
σâ1 = 0,0211
→"
Le modèle estimé à partir de la méthode des variables instrumentales est donc le suivant :
yi = 2,15 + 0,795 X i
"
(37)
n = 20
(.) = t de Student

"Exercice n° 6
fichier C5EX6
Prévision de part de marché
Une entreprise de la grande consommation cherche à prévoir la part de marché d’un
produit apéritif (PMt) en fonction de sa présence dans l’univers de vente 1 (DNt) et de son
indice de prix par rapport aux concurrents (IPt). Les données portent sur 41 semaines.

1. La DN ou distribution numérique représente le nombre de fois où le produit est présent dans la


distribution GMS (Grande et Moyennes Surfaces). Si DN = 100, cela signifie que le produit est
présent dans tous les magasins, si DN = 80, le produit est présent dans 80 % des magasins. Bien
sûr, plus la DN augmente et plus le produit est présent dans les linéaires et donc la probabilité de
vendre le produit s’accroît.

160 ! ÉCONOMÉTRIE
Le chef de produit estime un premier modèle dont les résultats sont présentés ci-des-
sous :
Log(P Mt ) = 2,91 + 1,03 Log(D Nt ) + et
(48,5) (6,83)
n = 41
R 2 = 0,54
DW = 1,29
(.) = t de Student
Log = Logarithme népérien
1) Que représente le coefficient a1 du modèle ? Est-il significativement de 0 ?
2) Le graphique des résidus est le suivant qu’en pensez-vous ?

Existe-t-il une autocorrélation des erreurs ?


3) Le chef de produit ajoute l’indice des prix à son équation de régression et obtient le
résultat suivant :
Log(P Mt ) = 25,22 + 1,28 Log(D Nt ) − 4,71 Log(I Pt ) + et
(6,7) (10,9) (−5,9)
n = 41
R 2 = 0,76
DW = 1,83
Commentez d’un point de vue statistique et économique les résultats obtenus.
4) Connaissant pour la semaine 42 les valeurs de D N42 = 0,60 et I P42 = 100, on vous
demande de calculer une prévision de part de marché pour la semaine 42 assortie de son
intervalle à 95 %.
On donne la matrice (X ′ X)−1
⎡ ⎤
543,63 6,38 −114,92
(X ′ X)−1 = ⎣ 6,38 0,54 −1,32 ⎦
−114,92 −1,32 24,29

Solution
1) Le cofficient a1 du modèle représente une élasticité car le modèle est sous la forme
Log-Log. Ce coefficient est significativement de 0 car la valeur empirique du t de Student
est largement supérieure au t lu dans la table (t 0,05 = 1,96) .
2) Le graphique laisse supposer une autocorrélation des erreurs. Puisque les condi-
tions d’application du test de Durbin et Watson sont vérifiées, nous pouvons interpréter

Problèmes particuliers : la violation des hypothèses ! 161


cette statistique : DW = 1,29 < 1,44 (valeur lue dans la table). Il existe une présomp-
tion d’autocorrélation des erreurs d’ordre 1.
3) Commentaires des résultats
Commentaires statistiques :
• la statistique de Fisher indique que le modèle est globalement significatif,
• les t de Student ont des probabilités critiques inférieures à 0,05, les coefficients sont
donc tous significatifs,
• la statistique de DW = 1,82 ne laisse plus présager d’une autocorrélation des
erreurs.
Nous constatons que le fait d’avoir ajouter au modèle une variable explicative corri-
ge l’autocorrélation des erreurs. Le modèle est validé sur le plan statistique.
Commentaires économiques :
• la variable DN agit positivement, plus l’entreprise est présente dans l’univers de
vente plus la part de marché augmente (10 % d’augmentation entraîne 12,5 % d’aug-
mentation de part de marché),
• la variable IP agit négativement, il s’agit d’un effet prix classique (10 % d’aug-
mentation entraîne 47 % de baisse de part de marché),
Les coefficients des variables ont bien le signe attendu.
4) On calcule le logarithme népérien : LN(DV ) = −0,51; LN(I P) = 4,605
La prévision en semaine 42 est donnée par :
)
Log( P M) = 25,22 + 1,285 × −0,51 − 4,716 × 4,605 = 2,84
2,84
D’où P M = e = 17,18. La part de marché prévue est de 17,18 %
L’écart type de l’erreur de prévision est égal à :
* +
σe2t+h = "
" σε2 1 + X t+h

(X ′ X)−1 X t+h = (0,16132)2 (1 + 0,27) = 0,033.
⎛ ⎞
1
avec X t+h = ⎝ −0,51 ⎠
4,605

L’intervalle de prévision à 95 % de Ln(PM) est donné par : 2,84 ± 1,96 × 0,033.
Soit I C = [2,483; 3,196]
Nous passons aux exponentiels afin d’obtenir l’intervalle de confiance de la part de
marché : [11,95; 24,43].

"Exercice n° 7
fichier C5EX7
Un peu de réflexion économétrique...
Soit trois variables construites artificiellement connues sur n = 40 périodes.
• Y1 et Y1 en différences premières : DY1 = Y1 – Y1(–1)
• Y2 et Y2 en différences premières : DY2 = Y2 – Y2(–1)
• une variable TENDANCE = 1, 2, ... , n

162 ! ÉCONOMÉTRIE
Les graphiques 7 montrent les variations des variables Y1, Y2, DY1, DY2 en fonc-
tion du temps.

Graphique 7 – Évolution des variables Y1, Y2, DY1, DY2 en fonction du temps

En vous aidant des graphiques, de la statistique de Durbin-Watson et du coefficient


de détermination, on demande de marier chacune des 4 régressions proposées (Résultats
du modèle) avec le couple « Variable dépendante/Variable explicative ».

Résultats du modèle Variables


Durbin et Watson R2 Dépendante Explicative
Modèle 1 1,97 0,52 Y1 TENDANCE
Modèle 2 3,91 0,55 DY1 TENDANCE
Modèle 3 0,03 0 Y2 TENDANCE
Modèle 4 0,053 0,52 Y1 DY2

Solution

On procède par déduction et élimination.


• Modèle 3 : Y1/DY2 car coefficient de détermination quasi nul et très forte auto-
corrélation des erreurs.
• Modèle 2 : Y2/TENDANCE car coefficient de détermination élevé et très forte
autocorrélation négative des erreurs.
• Modèle 1 : DY1/TENDANCE car coefficient de détermination élevé et absence
d’autocorrélation.
• Modèle 4 : Y1/TENDANCE car forte autocorrélation positive des erreurs et coef-
ficient de détermination élevé.

Problèmes particuliers : la violation des hypothèses ! 163


Les graphiques 8 suivants illustrent les autocorrélations et les coefficients de déter-
mination.

1000 300 500 50

900 200 400 40

800 100 300 30

700 0 200 20

600 -100 100 10

500 -200 0 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40

Y1 DY2 Y2 TENDANCE

80 60
1000 50
60 50

900 40
40 40

800 30
20 30

0 20 700 20

-20 10 600 10

-40 0 500 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40

DY1 TENDANCE Y1 TENDANCE

Graphique 8 – Illustrations des modèles : autocorrélations


et les coefficients de détermination

164 ! ÉCONOMÉTRIE
1

INTRODUCTION AUX MODÈLES À ÉQUATIONS SIMULTANÉES

On a examiné, et appris à estimer, précédemment des modèles très simples se limitant à une
équation, en général linéaire : une variable (dite endogène, dépendante ou à expliquer) y est
supposée être la résultante d'un ensemble de variables (dites exogènes, indépendantes ou
explicatives), déterminées par ailleurs, et d'une perturbation aléatoire (l'aléa).

En fait, les phénomènes économiques de quelque complexité sont décrits par un ensemble de
variables, mais leur modélisation requiert en général plus d'une relation, ou équation, reliant ces
grandeurs, on parle alors de modèles à équations simultanées.

On distingue à nouveau les variables endogènes, qui sont déterminées par le modèle, et les variables
exogènes déterminées ou fixées en dehors de celui-ci.

La modélisation opère en trois phases :

• la conception, c'est à dire l'écriture ou la spécification du modèle


• l'estimation des équations du modèle, selon des techniques appropriées
• la résolution du modèle, préalable à son emploi pour la simulation ou la prévision

Naturellement, dans la réalité, les choses ne sont pas séquentielles et la mise au point d'un modèle
opère par allers et retours entre les trois étapes ci-dessus.

EXEMPLES ÉLÉMENTAIRES

Pour des raisons théoriques, un modèle doit contenir autant d'équations que de variables endogènes.
On se limite ici à des équations linéaires.

Exemple 1: modèle keynésien élémentaire

(1.1) C = a + b.R + ε fonction de consommation


(1.2) R=C+I équilibre des biens

les variables endogènes sont la consommation: C, et le revenu: R, tandis que l'investissement: I, est
exogène.

La fonction de consommation: (1.1), perturbée par l'aléa: ε, est une équation comportementale; on
remarque que l'endogène: R, y apparaît en position d'explicative. C’est une habitude quelque peu
abusive qui fait qualifier cette équation de « fonction de consommation », il serait tout aussi
légitime de l’appeler « fonction de revenu », les deux grandeurs sont en effet endogènes dans le
modèle et seule une action sur l’investissement exogène est susceptible de les faire varier.

Une version plus raffinée, et réaliste, du modèle pourrait faire aussi intervenir la consommation
décalée

(1.1') C = a + b.R + d.C-1 + ε

La seconde équation: (1.2), est une équation comptable, c'est à dire une identité mathématique, et
elle est donc dépourvue de perturbation aléatoire comme de coefficients inconnus à estimer.
2

Il est commun que les modèles à équations simultanées comportent à la fois des équations
comportementales et des équations comptables.

Exemple 2: premier modèle d'offre-demande

(2.1) q = a1 + b1.p + c1.R + ε1 fonction de demande


(2.2) q = a2 + b2.p + c2.T + ε2 fonction d'offre

les endogènes sont la quantité produite: q, et le prix unitaire: p, d'un certain bien agricole, les
exogènes, le revenu: R, et un facteur climatique: T, et les aléas: ε1 et ε2.

Exemple 3: second modèle d'offre-demande

(3.1) q = a1 + b1.p + ε1 fonction de demande


(3.2) q = a2 + b2.p + c2.T + ε2 fonction d'offre

avec les mêmes notations que précédemment, mais une seule exogène: T, la demande ne dépendant
plus du revenu.

Exemple 4: troisième modèle d'offre-demande

(4.1) q = a1 + b1.p + c1.R + d1.T + ε1 fonction de demande


(4.2) q = a2 + b2.p + ε2 fonction d’offre

cette fois c'est la demande qui dépend simultanément du revenu et du facteur climatique: R et T.

Exemple 5: modèle didactique de Smith

(5.1) R=C+I
(5.2) C = a0 + a1.R + a2.T + ε2
(5.3) I = b0 + b1.R-1 + b2.r-1 + ε3
(5.4) M = h0 + h1.R + h2.r + ε4

les endogènes sont: le revenu: R, la consommation: C, l'investissement: I, et le taux d'intérêt: r. Les


exogènes du modèle sont: la masse monétaire: M, et les taxes: T. Les aléas sont ε2, ε3 et ε4.

On remarque les variables endogènes retardées: R -1 et r-1, apparaissant comme explicatives dans la
fonction d'investissement (5.3).

Dans la spécification d'un modèle, il est impératif de préciser quelles sont les endogènes et les
exogènes, leurs positions dans les équations étant arbitraires et ne suffisant à l'indiquer, comme
l'illustre en particulier la dernière équation: (5.4).

Le caractère endogène ou exogène d’une variable n’est d’ailleurs pas une caractéristique intrinsèque
de celle-ci, il dépend du modèle considéré. Ainsi le PNB sera une variable endogène dans un
modèle global de l’économie française, mais une variable exogène dans un modèle du marché de la
chaussure.
3

FORME STRUCTURELLE - FORME RÉDUITE, IDENTIFICATION

Forme structurelle

Les modèles précédents, dont les équations traduisent directement les idées économiques qui les
inspirent sont dits sous forme structurelle. Leurs coefficients - que l'on souhaite pouvoir estimer -
ont généralement une signification économique naturelle.

La spécification d'un modèle, c'est à dire la conception de sa forme structurelle, doit traduire les
idées économiques retenues dans un cadre comptable et conceptuel cohérent.

Biais dans l'estimation de la forme structurelle

Considérons l'exemple 1. Pour estimer la fonction de consommation:

(1.1) C = a + b.R + ε

on est tenté de régresser la consommation: C, sur le revenu: R, et la constante par les MCO.

En fait, cette méthode n'est pas satisfaisante. La variable endogène R dépend également de l'aléa: ε,
comme on le voit en l'exprimant en fonction des seules exogènes:

a 1 ε
(1'.1) R = ------ + ------.I + ------
1-b 1-b 1-b

et cette liaison entre une variable explicative et l'aléa fait que l'estimation des MCO de b est biaisée,
même si l'aléa ε satisfait les hypothèses des MCO (sous des hypothèses naturelles, on montre que la
valeur véritable de b est surestimée).

Les estimations par les MCO des coefficients de la forme structurelle sont en général biaisées; elles
sont cependant largement utilisées.

Forme réduite

Dans l'exemple précédent, on peut exprimer également la consommation: C, en fonction des


exogènes. On obtient la forme réduite du modèle:

a 1 ε
(1'.1) R = ------ + ------.I + ------
1-b 1-b 1-b

a b ε
(1'.2) C = ------ + ------.I + ------
1-b 1-b 1-b

ou, en renommant les coefficients (sans tenir compte des relations éventuelles qu'ils entretiennent) :
4

(1'.1) R = c0 + c1.I + ε1
(1'.2) C = d0 + d1.I + ε2

Le coefficient c1, égal à 1/(1-b), est appelé multiplicateur de l'investissement (sur le revenu).
Comme 1-b est inférieur à 1, ce multiplicateur est supérieur à 1, ce qui signifie qu'une augmentation
donnée de l'investissement produit une augmentation plus grande du revenu national. De même d 1,
égal à b/(1-b), est le multiplicateur de l'investissement sur la consommation.

La forme réduite d'un modèle est l'ensemble des relations (ou équations réduites) obtenues en
exprimant chacune des variables endogènes en fonction des seules variables exogènes, et des
endogènes retardées s’il y a lieu, avec lesquelles elles constituent l’ensemble des variables dites
prédeterminées. Elle s'obtient par élimination des variables endogènes entre les équations
structurelles.

Estimations de la forme réduite, moindres carrés indirects

Sous des hypothèses convenables sur les aléas, l'estimation par les MCO des équations de la forme
réduite donne des estimations sans biais de leurs coefficients.

A partir de ces estimations, on peut tenter de "remonter" aux coefficients de la forme structurelle en
utilisant les relations les liant aux coefficients de la forme réduite.

Traitons l'exemple 1. Soient C0 et C1, les estimations des coefficients de l'équation réduite (1'.1); en
utilisant les relations liant a et b à c 0 et c1, transposées aux coefficients estimés, on déduit les
estimations A et B, des coefficients de l'équation structurelle (1.1):

C0 C1-1
A = ------ et B = ---------
C1 C1

Cette méthode est dite des moindres carrés indirects (MCI).

Le problème est que le passage des coefficients estimés de la forme réduite aux coefficients de la
forme structurelle n'étant pas linéaire, ces derniers ne sont plus sans biais. Ils le sont toutefois
asymptotiquement sous des hypothèses convenables.

Identification

En fait, dans l'exemple précédent, on aurait aussi bien pu aussi utiliser l'équation réduite (1'.2), ce
qui donne:

D0 D1
A = ------- et B = -------
1+D1 1+D1

Ces solutions ont toutes les chances d'être numériquement différentes des premières, l'équation
(1.1), qui admet plusieurs estimations par les MCI, est dite suridentifiable.
5

Plus contrariant encore est le cas où il est impossible de remonter aux coefficients de l'une des
équations structurelles, cette équation est dite sous-identifiable. Ainsi l'équation (3.2) du troisième
exemple.

Si le calcul est possible d'une seule manière, l'équation est identifiable, ainsi l'équation (3.1). Les
équations économétriques sont le plus souvent suridentifiées.

Un modèle contenant des équations sous-identifiées est un modèle insuffisamment spécifié, sa


forme structurelle est trop vague et ne peut de ce fait être correctement estimée.

Une condition nécessaire d'identifiabilité (resp. de sur-identifiablité) pour une équation structurelle
est que le nombre de variables absentes de celle-ci soit égal (resp. supérieur) au nombre d'endogènes
du modèle moins un. Cette condition n'est malheureusement pas suffisante, comme l'illustre le
premier modèle examiné.

Autres exemples

On reprend l'exemple 2 du début, de forme structurelle:

(2.1) q = a1 + b1.p + c1.R + ε1 fonction de demande


(2.2) q = a2 + b2.p + c2.T + ε2 fonction d'offre

Par élimination de q et de p, on obtient sa forme réduite:

p = (a1 – a2)/(b2 – b1) + c1.R/(b2 – b1) – c2.T/(b2 – b1) +(ε1 – ε2)/(b2 – b1)
q = (a1.b2 – a2.b1)/(b2 – b1) + c1.b2.R/(b2 – b1) – c2.b1.T/(b2 – b1) + (b2.ε1 – b1.ε2)/(b2 – b1)

qu'on peut écrire directement:

p = α1 + β1.R + γ1.T + η1
q = α2 + β2.R + γ2.T + η2

et les six relations liant les coefficients réduits aux coefficients structurels:

(1) α1 = (a1 – a2)/(b2 – b1)


(2) α2 = (a1.b2 – a2.b1)/(b2 – b1)
(3) β1 = c1/(b2 – b1)
(4) β2 = c1.b2/(b2 – b1)
(5) γ1 = – c2/(b2 – b1)
(6) γ2 = – c2.b1/(b2 – b1)

constituent le système à résoudre par rapport aux 6 inconnues a1, b1, c1, a2, b2 et c2 pour identifier les
deux équations structurelles.

Sans en donner la solution explicite, montrons que l'identification est possible : (5) et (6) permettent
d'obtenir b1 et (3) et (4) b2; puis, b1 et b2 étant connus, (3) donne c1 et (5) donne c2, et on peut enfin
considérer (1) et (2) comme un système linéaire régulier donnant a 1 et a2. Le raisonnement fait
montre que la solution est unique : les deux équations sont identifiables, et le système est dit
identifiable.
6

L'exemple 3:

(3.1) q = a1 + b1.p + ε1 fonction de demande


(3.2) q = a2 + b2.p + c2.T + ε2 fonction d'offre

peut être étudié aisément en ôtant les termes en R des calculs précédents. On remarque d'abord
qu'on ne dispose que de 4 relations pour identifier les 5 coefficients structurels, situation a priori
défavorable... Un examen plus attentif montre qu'on peut obtenir a1 et b1, mais il n'y a aucun espoir
d'aller plus loin : l'équation (3.1) est identifiable, alors que (3.2) ne l'est pas elle, elle est trop vague
(de fait toute combinaison linéaire des deux relations en est fonctionnellement indiscernable).

Interprétation géométrique

Un exemple plus simple encore que ceux qui précédent, est celui, classique, du modèle de base
d’offre-demande; sa forme structurelle est:

(0.1) q = a1 + b1.p + ε1 fonction de demande


(0.2) q = a2 + b2.p + ε2 fonction d'offre

et sa forme réduite:

(0’.1) q = q0 + η1 quantité à l'équilibre (et perturbation)


(0’.2) p = p0 + η2 prix à l'équilibre (et perturbation)

où q0 et p0 sont des constantes, solutions à l’équilibre, dont on ne détaille pas les expressions par
rapport aux coefficients a1, b1, a2 et b2, et η1 et η2 les perturbations aléatoires, déduites de celles de la
forme structurelle.

Il est parfaitement clair que la connaissance des deux valeurs: q 0 et p0, ou plus exactement de leurs
estimations, ne peut permettre de remonter à celle des quatre coefficients: a1, b1, a2 et b2, des deux
équations structurelles: ces équations, et le modèle, ne sont pas identifiables. En termes
géométriques, la connaissance d’observations aléatoirement réparties autour du point d’équilibre
(p0,q0) ne permet pas d’identifier les deux droites qui s’y croisent, il y a une infinité de couples de
droites sécantes qui conviendraient (Fig.1).

Considérons à présent le modèle (3) du début, dans lequel l’offre dépend également d’un facteur
climatique T. Si pour diverses valeurs Ti, on dispose d’une ou plusieurs observations à proximité du
point d’équilibre correspondant, on voit qu’on peut maintenant estimer la fonction de demande
(Fig.2).

On peut juger étrange que l’ajout d’une variable à une équation structurelle puisse rendre
identifiable l’autre équation, cela illustre au contraire le fait que l’identifiabilité est une propriété
associée à chaque équation, mais qui dépend globalement de l’ensemble du modèle. Il convient
toutefois de comprendre qu’il ne s’agit pas d’un simple jeu d’écriture, le phénomène précédent
n’aurait pas eu lieu si la variable T n’intervenait pas réellement dans la fonction d’offre.
7

Fig.1 Fig.2
T1
q q T2

*
T3
* * *
q0 * * *
* * *
* T4

p0 p p

ESTIMATION DES MODÈLES À ÉQUATIONS SIMULTANÉES

Une grande variété de méthodes ont été proposées pour estimer les modèles à équations
simultanées, on indique les plus usuelles.

La méthode des moindres carrés ordinaires (MCO)

On a vu sa faiblesse; il est cependant des cas où elle conduit à des estimations correctes, ainsi les
modèles récursifs, dans lesquels une endogène n'apparaît comme explicative que si elle est
expliquée par une équation précédente.

La méthode des moindres carrés indirects (MCI)

On a expliqué son principe; elle est réservée au cas peu fréquent d'équations juste identifiables.

Les variables instrumentales (VI), les doubles moindres carrés (DMC)

On considère une équation structurelle supposée expliquer une certaine variable endogène par
différentes variables endogènes et exogènes.

La méthode des variables instrumentales opère en deux étapes. On substitue d'abord aux endogènes
intervenants comme explicatives leurs valeurs ajustées par régression (par les MCO) sur un
ensemble choisi de variables exogènes, prédéterminées, voire extérieures au modèle: les
instruments.

On espère ainsi, par un choix convenable des variables intrumentales, obtenir des variables peu
corrélées avec l'aléa, mais représentatives de celles qu'elles remplacent.

On opère ensuite la régression par les MCO à l'aide de ces variables ajustées et des exogènes
initialement présentes dans l'équation étudiée.
8

Dans le cas où l'on prend comme instruments l'ensemble des variables exogènes et prédéterminées
(pour de petits modèles), la méthode est parfois appelée: méthode des doubles moindres carrés
(DMC).

Ces méthodes sont à utiliser pour les équations identifiables ou sur-identifiables. On montre que la
méthode des doubles moindres carrés (DMC) est équivalente aux moindres carrés indirects (MCI)
dans le cas d'une équation juste identifiable.

Sous des hypothèses assez générales, les estimations des DMC sont consistantes, propriété qui
disparaît malheureusement dans le cas, fréquent, d’endogènes retardées et d’autocorrélation de
l’aléa.

Exemple : on a réestimé par les doubles moindres carrés la fonction de consommation du modèle de
Klein, déjà utilisée en exemple dans les chapitres précédents

C = 16,55 + 0,0173.P-1 + 0,2162.P + 0,8102.W R2 = 0,9755


(11,28) (0,13) (1,81) (18,11)

Les triples moindres carrés, la méthode SUR

Les trois méthodes précédentes sont des méthodes d'estimation "équation par équation". D'autres
méthodes, mathématiquement plus complexes, estiment globalement l'ensemble des équations d'un
modèle, pour tenir compte, par exemple, de la vraisemblable corrélation entre les aléas des
différentes équations.

La méthode des triples moindres carrés commence par estimer chaque équation par les DMC (ou
les variables instrumentales), puis utilise les résidus de cette première étape pour estimer la liaison
entre les aléas des différentes équation et utilise enfin les moindres carrés généralisés (MCG) pour
estimer globalement l’ensemble du modèle en tenant compte de cette information.

Dans le cas d’équations apparemment indépendantes (l’endogène de l’une n’étant pas explicative
d’une autre), la méthode, qui veut néanmoins exploiter la liaison vraisemblable des aléas des
différentes équations, porte le nom de méthode SUR (« Seemingly Unrelated Regressions »).

PRÉVISION, SIMULATION

Les modèles véritablement réalistes et intéressants sont les modèles autorégressifs, introduisant des
endogènes retardées, tel le modèle (5) par l'équation (5.3). On donne sa forme réduite (sans les
termes d'aléas):

R = (a0 + b0 + b1.R-1 + b2.r-1 + a2.T) / (1 - a1)

C = (a0 + a1.b0 + a1.b1.R-1 + a1.b2.r-1 + a2.T) / (1 - a1)

I = b0 + b1.R-1 + b2.r-1

h1 h1.b1 h1.b2 h1.a2


r = [h0 - -------.(a0+b0) - -------.R-1 - --------.r-1 - --------.T + M] / h2
1-a1 1-a1 1-a1 1-a1
9

En utilisant les valeurs estimées des coefficients et en faisant des hypothèses quant aux valeurs des
exogènes (T et M) à la période prochaine, on peut faire une prévision pour les endogènes (R, C, I et
r) en cette période.

Le procédé peut être itéré pour la période suivante en intégrant en outre les prévisions précédentes
pour les endogènes retardées (R-1 et r-1), et ainsi de suite. Cela s'appelle faire tourner le modèle, ou
encore faire de la simulation. Celle qui vient d'être exposée est dite ex ante, elle est conditionnée par
les hypothèses faites sur les valeurs futures des exogènes.

On peut également utiliser les observations passées, postérieures toutefois à celles qui ont servi aux
estimations, pour faire de la simulation ex post, ce qui permet de tester l'efficacité du modèle, et
éventuellement de le perfectionner.

On peut encore examiner les conséquences d'une modification des coefficients (traduisant par
exemple une évolution de la fonction de consommation).

UN MODÈLE PLUS ÉLABORÉ : ISLM

Il s'agit d'un modèle macro-économique keynésien, dit de Hicks-Hansen, simulant l'équilibre et


l'évolution annuelle à court terme de l'économie d'un pays à proximité de l’équilibre.

Les grandeurs considérées sont:

R : le revenu national
C : la consommation privée
I : l'investissement
G : les dépenses publiques
X : les exportations nettes
t : le taux d'imposition
r : le taux d'intérêt
M : l'offre de monnaie
P : le niveau des prix

Les cinq premières équations sont les suivantes:

(1) R=C+I+G+X identité du revenu

(2) C = a + b.(1-t).R fonction de consommation

(3) I = e - d.r fonction d'investissement

(4) X = g - m.R - n.r fonction d'exportation nette

M
(5) ----- = (k.R - h.r) demande de monnaie
P

Si on se limite à ces cinq équations, en prenant comme exogènes, les prix: P (considérés comme
fixes à court terme), les dépenses publiques: G, l'offre de monnaie: M, et le taux d'imposition: t
10

(grandeurs fixées par les autorités), on obtient un modèle statique d'équilibre, les "ajustements"
s'opérant sur les endogènes: la consommation, les exportations, etc.

Résolution partielle

Il est évidemment possible de résoudre le modèle, c'est à dire de déterminer sa forme réduite, qui
voit chacune des cinq endogènes exprimée en fonction des seules exogènes; il est cependant d'usage
de considérer deux courbes (en l'occurrence deux droites) issues d'une résolution partielle du
modèle, reliant R et r en fonction des exogènes.

a+e+g 1 - b.(1-t) + m 1
r = -------------- - --------------------.R + --------.G courbe IS
d+n d+n d+n

k 1 M
r = ----.R - ----.---- courbe LM
h h P

Le point d'intersection: (R0, r0), donne les valeurs de R et r à l'équilibre. L'observation d'un tel
graphique permet par exemple d'examiner l'incidence d'une politique fiscale (action sur G, qui
déplace la courbe IS), ou d'une politique monétaire (action sur M, qui déplace LM).

(Les dénominations: IS et LM, sont anglo-saxonnes: IS pour Investisment-Saving, et LM pour


Liquidity-Money.)

r
G croît

courbe courbe LM
IS

r0 M croît

R0 R

Modèle dynamique

On introduit la dynamique dans le modèle par l'évolution du niveau des prix. Les prix sont
maintenant endogènes, et l'une des formulations proposées est la suivante:

P P-1 R-1 - R*
(6) ---- = l.------ + f.---------- + Z
P-1 P-2 R*
11

dans cette équation, le premier terme de droite est un terme d'inflation anticipée, le second terme
traduit la loi de Phillips, où R* désigne le revenu de plein emploi, considéré comme stable à court et
moyen terme, et Z permet d'introduire un choc exogène sur les prix (par exemple à la suite d'une
augmentation du prix mondial du pétrole).

Cette équation introduit la dépendance entre les périodes pour l'ensemble du modèle.

La représentation graphique de l'évolution utilise la courbe de demande agrégée (obtenue par


résolution partielle à l'aide des cinq premières équations) qui relie les endogènes: P et R. A titre
d'exemple, on donne son expression:

M
(d+n).----- = -h.(a+e+g) - h.G + {k.(d+n) + h.[m - b.(1-t)]}.R
P

L'examen de cette courbe permet de visualiser l'évolution conjointe de R et P au cours du temps, en


réponse à une variation des exogènes: G ou M.

Courbe de demande agrégée


P

P1
P0

G croît

R* R1 R0 R

Un perfectionnement du modèle consiste à modifier la fonction d'exportation: (4), en:

X = g - m.R - n.(E.P/Pw)

où E désigne le taux de change nominal, et Pw, le niveau des prix étrangers, exogène. Le facteur
E.P/Pw est alors le taux de change réel.

En régime de taux de change fixe, le taux nominal: E, est exogène; en régime de taux de change
flexible, E est endogène, et déterminé dans le modèle par une équation qui pourrait être:

E.P/Pw = q + v.r

----===oo0Θ0oo===----
(09.10.2013)
Économétrie des données de Panel Dr. Montassar Zayati

Présentation

Ce cours est une initiation, tant sur le plan théorique que sur le plan appliqué, à
l’économétrie des données de panel. Effectivement, nous allons présentés les techniques
les plus courantes de modélisation des données de panel, et ce par le biais d’un volet
théorique et un autre empirique. On débutera par une présentation des problèmes de
spécifications de base en économétrie de panel et par les méthodes d’estimation
traditionnelles.

L’objectif est de faire en sorte que le lecteur puisse interpréter, de façon exhaustive et
relativement approfondie, les résultats de base que donnent les principaux logiciels
d’économétrie lorsque l’on envisage des modèles de panel. Nous prendrons ici comme
référence les logiciels STATA et Eviews, mais il est bien entendu évident que ces
résultats de base sont sensiblement identiques si l’on considère d’autres logiciels comme
SAS, Rats ou TSP.

Nous souhaitons, ainsi, présenter les connaissances minimales nécessaires pour pouvoir
interpréter un tableau de résultats d’estimation de panel, comme par exemple :

- Les estimateurs Pooled,


- Les estimateurs Between,
- Les estimateurs du modèle à effets individuels fixes (Within),
- L’Error Component Model (modèle à effets individuels aléatoires),
- Les résultats de trois tests de Fischer,
- L’estimateur de la variance des effets individuels,
- Un estimateur de la variance totale,
- La statistique du test d’Hausman.

Sommaire

Introduction

Chapitre 1 : Les régressions linéaires sur données de panel

1. Tests de spécification ou tests d’homogénéité


2. Modèles à effets individuels
3. Modèles à effets fixes
4. Modèles à effets aléatoires
5. Tests de spécification des effets individuels
6. Modèles à coefficients fixes et aléatoires

Chapitre 2 : Le modèle de panel dynamique

2
Économétrie des données de Panel Dr. Montassar Zayati

Introduction

Les données utilisées en économétrie sont le plus souvent des séries chronologiques ou en
coupe instantanée concernant une période donnée.

Les données de panel, ou données longitudinales possèdent les deux dimensions précédentes
(individuelle et temporelle). En effet, il est souvent intéressant d’identifier l’effet associé à
chaque individu (un effet qui ne varie pas dans le temps, mais qui varie d’un individu à un
autre). Cet effet peut être fixe ou aléatoire.

Par conséquent, le modèle en données de panel s’écrit comme un modèle à double indice qui
prend la forme suivante :
:1 ⟶
= + +� avec
:1 ⟶
La double dimension qu’offrent les données de panel est un atout majeur. En effet, si les
données en séries temporelles permettent d’étudier l’évolution des relations dans le temps,
elles ne permettent pas de contrôler l’hétérogénéité entre les individus. A l’inverse, les
données en coupes transversales permettent d’analyser l’hétérogénéité entre les individus
mais elles ne peuvent pas tenir compte des comportements dynamiques, puisque la dimension
temporelle est exclue du champ d’analyse.

Ainsi, en utilisant des données de panel, on pourra exploiter les deux sources de variation de
l’information statistique :
- Temporelle où variabilité intra-individuelle (within)
- et individuelle ou variabilité inter-individuelle (Between).

Remarques 1 :
- L’augmentation du nombre d’observations permet de garantir une meilleure précision
des estimateurs, de réduire les risques de multi colinéarité et surtout d’élargir le champ
d’investigation.

- Le panel considéré n’est pas nécessairement complet (cylindré) où toutes les unités
statistiques sont observés durant la même période considérée. Il peut s’agir d’un panel
incomplet, non cylindré.

Le cylindrage de l’échantillon n’est pas conseillé à cause du risque de biais de


sélectivité.

Remarques 2 :
- Théoriquement, les méthodes proposées supposent que la dimension individuelle est
infinie (on peut prendre des centaines, ou des milliers d’entreprises) et que la
dimension temporelle est finie. D’où l’intérêt de contrôler l’hétérogénéité individuelle
qui peut être supposé fixe ou aléatoire.

3
Économétrie des données de Panel Dr. Montassar Zayati

Chapitre 1 : Les régressions linéaires sur données de panel

La première étape à établir pour un échantillon de données de panel est de vérifier la


spécification homogène ou hétérogène du processus générateur de données. La phase de test
de spécification revient à déterminer si on a le droit de supposer une fonction de régression
identique pour tous les individus (modèle Pooled). Dans ce cas, les élasticités des facteurs
exogènes sont identiques ( = ) ; et la constante elle aussi identique pour tous les individus
( = ) selon le modèle suivant :

= + +�

Toutefois, lorsqu’on travaille sur des séries agrégées, il est peu probable que la fonction de
régression, soit strictement identique pour tous les individus étudiés. Ainsi, il convient de
tester si les élasticités des différents facteurs ( ) sont identiques. Si ce n’est pas le cas, il
n’existe à priori aucune structure d’estimation commune entre les pays (individus), et donc
l’utilisation des données de panels ne se justifie pas et peut même conduire à des biais
d’estimation. On doit, alors, estimer les fonctions individu par individu.

En revanche, s’il existe bien une relation identique pour toutes les élasticités, alors la
source d’hétérogénéité ne peut provenir que des constantes ( ). Or, rien ne garantit que les
pays étudiés possèdent le même niveau moyen de la variable endogène. Au contraire, il se
peut parfaitement que des facteurs e-temporels ou structurels (comme la position
géographique, le climat, l’éloignement par rapport au grands axes commerciales…) pouvaient
conduire à des différences structurelles entre les individus.

Dans ce cas, le niveau moyen des facteurs, déterminer par + � = ; varie selon
les pays même si les élasticités du modèle ( ) sont les même. On obtient alors un modèle
avec effets individuels qui s’écrit sous la forme :

= + +�

Ainsi, la phase de test de spécification revient à déterminer si le processus générateur de


données peut être considéré comme homogène, c’est-à-dire unique pour tous les individus, ou
si au contraire il apparaît totalement hétérogène, auquel cas l’utilisation des techniques de
panel ne peut se justifier. Entre ces deux cas extrêmes se trouve un modèle dit à effets
individuels. Il convient, surtout, d’identifier la source d’hétérogénéité pour bien spécifier le
modèle.

4
Économétrie des données de Panel Dr. Montassar Zayati

vraie rejetée
Eco

Graphique 1 : Procédure générale de test présentée dans Hsiao1 (1986)

1. Test de Spécification2 :
1.1. Hétérogénéité des Comportements :

Plusieurs configurations sont disponibles :

Les constantes αi et les paramètres βi sont identiques. On qualifie ce panel de panel


homogène (Pooled).

Les N constantes αi et les N vecteurs de paramètres βi sont différents selon les


individus. On a donc N = 5 (selon le nombre de pays) modèles différents, on
rejette la structure de panel.

Les N vecteurs de paramètres βi sont identiques, βi = β ; tandis que les constantes


αi diffèrent selon les individus. On obtient un modèle hétérogène à effets
individuels.

a) Test d’homogénéité globale (H01):

Il s’agit de tester le test suivant :

1
=
� 0: = ∀ ∈ 1,

( �− )/( −1)( +1)


La statistique utilisée est celle de Fisher : 1 =
/[ − +1 ]
Avec :
1
Hsiao, C., 1 6 , ”A al sis of Pa el Data”, Eco o et ic societ Mo og aphs N°11. Cambridge Universirty
Press.
2
L’e plicatio et l’i te p étatio des diffé e tes étapes des tests de spécificatio se o t éalisées su u
cas p ati ue d’u e fonction de production de type Cobb Douglass sur un échantillon de 5 pays et une période
de 16 ans.

5
Économétrie des données de Panel Dr. Montassar Zayati

N = 5 pays, K= 3 variables exogènes et T = 16 années.


SCR c’est la somme des carrés résiduels du modèle (1) : = + +�
= =1 pour chaque individu (pays).

SCRc est celle du modèle contraint (modèle d’homogénéité totale ou Pooled) : elle
est calculée en estimant le modèle sur l’échantillon complet à NT observations.
= + ′ +� .

Pour notre modèle les résultats sont les suivantes : � = 0.645096 et = 0.188292.
( �− )/( −1)( +1) (0.645096 − 0.188292 )/(4∗4)
Donc �1 = = = 9,097 .
/[ − +1 ] 0.188292 /[80−5 4 ]

La statistique ainsi calculée est supérieure à F(16 ; 60) ≈ 2.13 du tableau de Fisher ; on rejette
alors l’hypothèse 01 d’une parfaite homogénéité du modèle et on passe au deuxième test.

b) Test d’homogénéité des coefficients βi (H02) :


2
Le test est le suivant : 0: = ∀ ∈ 1,

( ′
�− )/ −1
La statistique du test est la suivante : 2 =
/[( − +1 ]
Avec, ’� est la somme des carrés résiduels du modèle contraint à effet individuels :

= + +�

Ici les estimateurs (Withen) des paramètres αi et β sont obtenus en centrant les variables sur
les moyennes individuelles respectives. C’est le même que l’estimateur à effet fixe donné
par Eviews et STATA ou l’estimateur Last Squar Damy Variable (LSDV) calculé par le
logiciel TSP.

Les résultats d’estimation dans notre modèle sont les suivantes : ’� = 0.261937

( ′ (0.261937−0.188292)/(4∗3)
�− )/ −1
�2 = = = 1,9556.
/[( − +1 ] 0.188292/[(80−5 4 ]

Cette valeur est inferieur à celle du tableau de Fisher F(12 ; 60) ≈ 2.3. Ainsi, on accepte
l’hypothèse 02 et on admet le modèle de panel avec homogénéité des coefficients βi et on
passe au test suivant d’homogénéité des coefficients αi.

c) Test d’homogénéité des constantes αi (H03) :


3
Test 0: = ∀ ∈ 1,

( ′
�− � )/( −1)
La statistique de ce test est la suivante : 3 = ′
� /[ −1 − ]

6
Économétrie des données de Panel Dr. Montassar Zayati

( ′
�− � )/( −1) (0.645096 −0.261937)/4
�3 = ′ = = 26,33 > (4 ; 72) ≈ 5,63
� /[ −1 − ] 0.261937/[5 15 −3]

On rejette, alors, l’hypothèse H03 pour opter à un modèle de panel à effet individuel causé par
l’hétérogénéité de la constante αi. Il ne reste maintenant que de déterminer la nature de cet
effet (fixe ou aléatoire) par le test d’Hausman.

d) Test d’Hausman :

C’est un test qui sert à discriminer les effets fixes et aléatoires des effets individuels dans un
modèle des données en panel. Il s’agit de tester la présence éventuelle d’une corrélation ou
d’un défaut de spécification (corrélation entre des effets individuels et des variables
explicatives). Le test est le suivant :
4
0 : E(αi / Xi)=0
4
0 : E(αi / Xi) ≠ 0

Sous l’hypothèse 04 , les effets individuels sont aléatoires, alors la méthode adéquate pour
l’estimation est la Méthode des Moindres Carrés Généralisés (MCG). Sinon, sous l’hypothèse
4
0 , l’estimateur utilisé est l’estimateur Within.

La statistique du test est la suivante :


′ −1
= − � �� − � − �

Les résultats d’estimation étaient les suivantes:

Variables Withen (LSDV) MCG


Cte - 8,523***
(11,379)
Log(K) 0,9266*** 0,9277***
(45,608) (32,558)
Log(L) -1,026*** -1,012***
(-35,1546) (-10,968)
IGG 0.0009* 0,0041***
(1,708) (3,554)

Test d’Haus a - 104,378


P-value (0.0000)***

Les valeurs entre parenthèses sont les t-statistic.


*, ** et *** sont les significativités respectivement à 10%, 5% et 1%.
Source : Calcul de l’auteu

La statistique du test d’Hausman est égal à 104,378 et présente une probabilité statistique
de 0,0000 donc on va rejeter l’hypothèse H0, et opter pour un modèle de panel à effet fixe.

7
Économétrie des données de Panel Dr. Montassar Zayati

2. Modèles à effets individuels

Nous allons à présent nous concentrés sur les modèles de panel hétérogènes, où la seule
source d’hétérogénéité provient des constantes individuelles. On suppose ainsi que les
coefficients des différentes variables stochastiques explicatives sont identiques pour tous les
individus du panel ( = ). On suppose en outre que ces coefficients sont des constantes
déterministes. Les constantes individuelles ; quant à elles, diffèrent selon les individus.

= + +�

Les innovations � sont supposées être i:i:d: de moyenne nulle, de variance égale à
��2 ;
∀ ∈ [1; ] et sont supposées non corrélées que ce soit dans la dimension individuelle ou
dans la dimension temporelle.

Dès lors, dans ce contexte, on doit distinguer deux cas : le cas où les paramètres sont
des constantes déterministes (modèle à effets fixes) et le cas où les paramètres sont des
réalisations d’un variable aléatoire d’espérance et de variance finie (modèle à effets
aléatoires). Nous allons donc successivement envisager ces deux types de modèle.

2.1. Modèle à effets fixes

On fait maintenant l’hypothèse que les effets individuels sont représentés par des
constantes (d’où l’appellation modèle à effets fixes). Nous allons déterminer la forme
générale des estimateurs des paramètres et dans ce modèle à effets fixes.

Hypothèses :

- Le modèle à effets fixes individuels présente une structure des résidus qui vérifient les
hypothèses standards des MCO. Il s’agit en fait d’un modèle classique avec variables
indicatrices individuelles.
- nous allons faire une hypothèse supplémentaire sur la nature du processus des résidus
� . Cette hypothèse constitue tout simplement la généralisation dans la dimension de
panel de la définition d’un bruit blanc ∀ ∈ 1; � ∈ 1; :
o � =0
2
o � � = �� =
0 ∀ ≠
o � � = 0 ∀ ≠ , ∀( , )

a) Estimateur Within ou LSDV (Least Square Dummy Variables)

L’estimateur des Moindres Carrés Ordinaires (MCO) des paramètres et dans le


modèle à effets fixes est appelé estimateur Within; ou estimateur à effets fixes ou estimateur
LSDV (Least Square Dummy Variable). Comme nous l’avons vu, le terme Within s’explique
par le fait que cet estimateur tient compte de la variance intra groupe de la variable endogène.

8
Économétrie des données de Panel Dr. Montassar Zayati

La troisième appellation LSDV tient au fait que cet estimateur conduit à introduire des
variables dummies.

Les estimateurs de ce modèle par la méthode des MCO sont les meilleurs estimateurs
linéaires, sans biais et convergents (BLUE 3 ). Dans la pratique, l’estimateur des MCO ou
LSDV est obtenu à partir d’un modèle transformé où les différentes variables du modèle sont
centrées par rapport à leurs moyennes individuelles respectives. On retient, alors, la
spécification suivante :

= − 1
= +� Avec = − et =
� =� −� =1

Les réalisations des estimateurs des constantes sont déduites au point moyen, après
estimation des paramètres par MCO sur le modèle transformé précédent.

= −
=1

Remarque importante :

Il est conseillé dans le cas où le panel est non cylindré d’utiliser l’option robuste
(estimateur à effet fixe robuste) de manière à tenir compte de l’hétéroscédasticité des erreurs,
puisque la variance des erreurs du modèle transformé n’est pas constante. En effet, on vérifie
que : � � = ��2
−1

Limites :

Outre le fait que la variabilité inter-individuelle n’est pas exploitée pour estimer les
paramètres structurels du modèle, une limite inhérente au modèle à effets fixes réside dans le
fait que l’impact des facteurs invariants à travers le temps ne peut être identifié. Ceci constitue
une limite au niveau de l’analyse économique, puisqu’il revient à restreindre le champ
d’analyse économique de l’étude.

2.2. Modèle à effets aléatoires

Dans la pratique standard de l’analyse économétrique, on suppose qu’il existe un grand


nombre de facteurs qui peuvent affecter la valeur de la variable expliquée et qui pourtant ne
sont pas introduits explicitement sous la forme de variables explicatives. Ces facteurs sont
alors approximés par la structure des résidus. Le problème se pose de la façon similaire en
économétrie de panel. La seule différence tient au fait que trois types de facteurs omis
peuvent être envisagés. Il y a tout d’abord les facteurs qui affectent la variable endogène

3
Best Linear Unbiased Estimator

9
Économétrie des données de Panel Dr. Montassar Zayati

différemment suivant la période et l’individu considéré. Il peut en outre exister des facteurs
qui affectent de façon identique l’ensemble des individus, mais dont l’influence dépend de la
période considérée (effets temporel). Enfin, d’autres facteurs peuvent au contraire refléter des
différences entre les individus de type structurelles, c’est à dire indépendantes du temps
(effets individuel).

Dès lors le résidu, noté � ; d’un modèle de panel peut être décomposé en trois principales
composantes de la façon suivante (Hsiao 1986) :

∀ ∈ 1; � ∈ 1; ; � = +� + �

Les variables désignent ici les effets individuels qui représentent l’ensemble des
spécificités structurelles ou a-temporelles de la variable endogène, qui différent selon les
individus. On suppose ici que ces effets sont aléatoires. Les variables aléatoires �
représentent quant à elle les effets temporels strictement identiques pour tous les individus.
Enfin, le processus stochastique � désigne la composante du résidu total � orthogonale aux
effets individuels et aux effets temporels. Généralement, on est conduit à faire un certain
nombre d’hypothèses techniques sur cette structure de résidus.

Hypothèses :

On suppose que les résidus � = + � + � sont i.i.d. et satisfont les conditions


suivantes, ∀ ∈ 1; � ∈ 1; :

o = � = � =0
o � = �� = � =0
2
� =
o =
0 ∀ ≠
2
o � � = �� =
0 ∀ ≠
�2 = ; =
o � � = �
0 ∀ ≠ ;∀ ≠
o = � = � =0

Sous ces hypothèses, la variance de la variable endogène conditionnellement aux


variables explicatives est alors égale à � 2 = � 2 + �� + �� . Les variances � 2 , ��2 et ��2
2 2

correspondent aux différentes composantes de la variance totale. C’est pourquoi, le modèle à


effets aléatoires est aussi appelé modèle à erreurs composés (Error Component Model).

Dans ce cours, en raison de simplification, l’effet temporel est négligé. Nous supposerons
qu’il n’existe pas (panel statique).

10

Vous aimerez peut-être aussi