Académique Documents
Professionnel Documents
Culture Documents
50
.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE
Le modèle de régression linéaire multiple n est qu une extension du modèle de régression linéaire simple au
cas multivarié dans lequel interviennent plusieurs variables exogènes dans l explication du phénomène
étudié. On parle aussi de modèle de régression linéaire général ou standard pour souligner que ce modèle
reste valable quel que soit le nombre d exogènes qui s y figurent. Dans sa forme générale, il s écrit de la
sorte :
où chaque est un coefficient marginal qui – après estimation – saisit, ceteris paribus, l effet d une
variation d un point de la variable exogène Xj sur la variable endogène ; t= , …, n correspond { la date des
observations.
[4.2] Y=X +†
En principe, le critère des moindres carrés ordinaires, comme pour le modèle simple, ne soulève aucune
difficulté, à la différence que pour le modèle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan .
En algèbre linéaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace à 3 dimensions, la
notion d hyperplan est confondue avec celle de plan, mais cela n est plus vrai quand on dépasse dimensions.
Ass. Cédrick Tombola M. 51
Hypothèses de base
La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes :
Hypothèses stochastiques Hypothèses structurelles
H1. Les erreurs sont IID (0, ). Cette hypothèse implique que H3. Le modèle est linéaire ou linéarisable en X
les erreurs sont normalement distribuées, non-autocorrélées et [ou sur ses paramètres] tels que l exprime la
homoscédastiques. relation [4.2].
où
Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des
résidus. Mathématiquement, le problème se présente comme suit :
[4.3]
[4.4]
Par conséquent, on a :
[4.5]
§§§§§§§
Un bref rappel matriciel est proposé en annexe 1 de ce chapitre.
Ass. Cédrick Tombola M. 52
[4.6]
Les termes et étant des scalaires provenant des variables identiques, ils sont égaux et on peut
donc les regrouper. Ce qui permet d écrire :
[4.7]
En appliquant les conditions du premier ordre, on obtient les équations normales telles que :
On retrouve ainsi les équations normales, vues au chapitre précédent, pour un modèle simple. Mais
pourquoi normales ? La réponse à cette question est proposée ci-après.
Dans le système ci-haut, renvoyons tous les termes dans un membre, il vient :
Exprimée sous forme vectorielle, la dernière équation s écrit : X e = 0. Un vecteur tel que e, orthogonal à
tout vecteur de l hyperplan engendré par X, est dit normal { l hyperplan. D o‘ le qualificatif "d équations
normales".
En pratique, l estimation ponctuelle par les MCO se fait en pré-multipliant chaque côté de la relation [4.8]
par , ce qui permet d écrire******** :
[4.9]
********
où est une matrice forcément symétrique, de même que son inverse ( )–1.
Ass. Cédrick Tombola M. 53
Le théorème de Gauss – Markov avance, au respect des hypothèses de base susmentionnées, que dans la
famille des estimateurs linéaires non biaisés, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.
. Estimateurs linéaires
Ainsi,
[4.10]
[4.11] E( =
. Estimateurs convergents
Var( ) = E
[4.12]
Ou encore :
Il faut noter en passant que la matrice est symétrique, elle est donc égale à sa transposée.
Ass. Cédrick Tombola M. 54
Ainsi obtient-on :
[4.13]
Lorsque le nombre d observations tend vers l infini, l expression [ . ] ci-dessus tend vers zéro. Par
conséquent, l estimateur est convergent. Toutefois, la condition suffisante serait que les variables
exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini. De plus, selon le théorème de
Gauss-Markov, Var( ‡ar ) [avec un estimateur linéaire et non biaisé obtenu par une autre méthode
que les MCO]
La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimées de [ ],
nécessaires pour mener les tests statistiques.
1ère conséquence : Sous l hypothèse de normalité des erreurs, non seulement que l estimateur des MCO est
BLUE par le théorème de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de l inégalité de Cramer-Rao, borne inférieure pour tous les
estimateurs.
2ère conséquence : Sous l hypothèse de normalité, on obtient des tests exacts. Sachant que
, cela revient à dire que l on connaît les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits échantillons.
Ass. Cédrick Tombola M. 55
IV.3. R2 et R2 ajusté
2
[4.14] R =
Lorsque la régression est faite sur données centrées, le coefficient de détermination se calcule avec la
formule :
2
[4.15] R =
Il faut noter que, comme pour le modèle simple, le coefficient de détermination reste un indicateur du
caractère explicatif de l équation de régression { bien modéliser Y t. Il mesure ainsi la part de variance de la
variable endogène attribuable à sa régression sur les X. Ceci est confirmé par le fait que le coefficient de
détermination n est rien d autre que le carré du coefficient de corrélation de Bravais-Pearson entre les
valeurs observées et les valeurs prédites de Y.
[4.16] R2 = =
Bien évidement [ R2 ], plus R2 est proche de 1, plus le caractère explicatif du modèle est important.
Le R2 est certes un indicateur de qualité, mais il présente l inconvénient d être mécanique. C est-à-dire que
sa valeur augmente avec l augmentation des variables explicatives, mêmes non pertinentes { l explication
du phénomène étudié.
A l extrême, si on augmente le nombre de variables explicatives, mêmes impertinentes, tels que le nombre
de paramètres devienne égal au nombre d observations, on aurait un R2=1. Ainsi, en tant que tel, le R2 n est
pas l outil approprié pour juger de l apport des variables supplémentaires lors de la comparaison de
plusieurs modèles. Lorsqu il augmente de manière mécanique, de l autre c té l on perd en degrés de
liberté.
La mesure alternative, plus robuste { l ajout des variables, qui corrige ce problème associé aux degrés de
liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit comme suit :
[4.17]
Comme on le voit, il s agit l{ d un R2 corrigé par les degrés de liberté. )l peut d ailleurs s exprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :
[4.18]
Ass. Cédrick Tombola M. 56
Cependant, il faut faire attention de ne pas interpréter le en termes de part de variance expliquée. Son
seul avantage est qu il permet de comparer plusieurs modèles . De plus, le peut prendre des valeurs
négatives. Dans ce dernier cas, il faut l assimiler { zéro.
Note importante :
Dans un modèle linéaire simple, R2
Dans un modèle linéaire multiple, < R2
Si n est grand, alors R2
2
Le R et le n ont de sens que dans un modèle qui comporte un terme constant.
Dans le chapitre sur la corrélation, nous avions mis en évidence qu il était possible que la corrélation entre
deux variables Xi et Xj ne tienne qu { un artefact statistique ou à un facteur confondant – une troisième
variable Xk à laquelle Xi et Xj seraient liées en réalité –, appelé aussi phénomène-source. L on peut se
souvenir de l exemple du journaliste qui a découvert qu il existait une très forte corrélation entre le fait
d avoir un nid de cigognes sur sa demeure et le fait d avoir des enfants { Washington, oubliant que cela ne
tenait qu au rang social des familles étudiés, car la présence d un nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aisée et donc disposée, financièrement, { avoir plus d enfants.
Ainsi, dans la sélection des variables pertinentes { l explication d un phénomène, pour éviter une telle
éventualité o‘ la corrélation entre la variable endogène et l exogène ne tiendrait qu { un artefact, on a
recours au coefficient de corrélation partielle.
Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l influence d une
troisième variable [des autres variables présentes dans le modèle] est retirée.
Coefficient de corrélation partielle du premier ordre Coefficient de corrélation partielle du deuxième ordre
Soit Y une variable endogène, et Xi, Xj et Xk des En considérant l exemple ci-contre, le coefficient de
exogènes, le coefficient de corrélation partielle corrélation partielle du deuxième ordre sert à quantifier
mesure le lien entre Y et chaque X, l influence juste le lien entre Y et chaque X, l influence de deux autres
étant exclue. Ainsi, partant du même exemple, il est
d une troisième variable exogène étant exclue.
possible de calculer trois coefficients de corrélation
Partant de l exemple choisi, on peut calculer ainsi six partiels du deuxième ordre, soit :
coefficients de corrélation partielle du premier ordre : ; ;
; ; ; ; ; Etapes de calcul
Dans ce cas, le coefficient de corrélation partielle du Supposons que l on veule mesurer le lien entre Y et Xi,
premier ordre peut être calculé à partir des l influence de Xj et de Xk étant neutralisée, soit
coefficients§§§§§§§§ de corrélation de Bravais-Pearson , on aura les étapes ci-après :
comme suit :
(i) Calcul des résidus e1 issus de la régression de
Y sur Xj et Xk ;
(ii) Calcul des résidus e2 issus de la régression de
Xi sur Xj et Xk ;
(iii) correspondra au carré du
En suivant les indices, l étudiant peut aisément coefficient de corrélation linéaire calculé
généraliser. entre e1 et e2 :
Pour la comparaison des modèles, on utilise aussi les critères d information [Aikaïké A)C ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la différence que ces critères sont à minimiser dans le choix du meilleur modèle.
§§§§§§§§
Appelés dans ce cas coefficients d ordre zéro.
Ass. Cédrick Tombola M. 57
La notion de corrélation partielle est importante dans la mesure où elle permet de juger de la pertinence
d introduire une variable exogène dans le modèle. Plus élevé sera le coefficient de corrélation partielle
d une variable, plus importante sera sa contribution { l explication globale du modèle.
Comme pour le cas simple, le test de significativité individuelle, qui porte sur chaque paramètre, est mené
en calculant les ratios de Student. Pour un test bilatéral, les hypothèses du test sont :
[4.19] =
[4.20] =
On démontre, sous H0, que cette statistique suit une distribution de Student au seuil [ % sauf indication
contraire] et à (n – K) degrés de liberté.
Critère de décision : Si >t / ; (n – K), alors RH0, le paramètre est statistiquement non nul, la variable lui
associée est par conséquent non pertinente dans la prédiction de Y.
Comme cela a été vu au chapitre précédent, l estimation par intervalle se fait en appliquant la formule ci-
après :
[4.21] I= ±t / ; (n – 2)
Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la question de savoir si
l ensemble des exogènes apporte de l information utile { la connaissance de la variable endogène. Ceci dit,
seuls les paramètres associés aux variables explicatives interviennent dans le test, la constante n est donc
prise en compte ici, car c est bien l influence des exogènes sur la variable expliquée que l on cherche {
établir.
Dans la littérature anglophone, ce test est parfois considéré comme un test de significativité du R 2, dans le
sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur globalité, sur l endogène.
[4.22] F=
Sous H0, on démontre que la statistique F suit une distribution de Fisher à respectivement (K – 1) et (n – K)
degrés de liberté.
Critère de décision : Si F > F [(K – 1) ; (n – K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modèle est bon.
[4.23] Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut
[4.24] 1 + 2 = 1.
Pour tester cette restriction sur les paramètres, on suivra les étapes suivantes :
Estimer le modèle [4.23] sans restriction sur les paramètres, dit modèle non contraint ;
Calculer les variances de et , ainsi que leur covariance Cov( , )
Calculer ensuite le ratio de Student avec la formule :
[4.25] tcal =
Connaissant [4.24] et en sachant que Var = Var( ) + Var( ) + 2Cov( , ), la formule [4.25]
devient :
[4.26] tcal =
Tester enfin l hypothèse des rendements d échelle constants contre celle des rendements
d échelle non constants, soit :
Si le vecteur des valeurs des exogènes pour un horizon h est connu, soit R= ,
la prévision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :
[4.29]
Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-après :
[4.30] Yn+h I= ±t /2 ; (n – K)
[4.31] =
*********
L erreur de prévision capte l écart entre ce qui sera réalisé et ce qu on prévoit.
Ass. Cédrick Tombola M. 60
Formules Indications
Modèle d analyse :
Test de
individuelle = t /2 ; (n – K) [sous H0] Si >t / ; (n – K) RH0
significativité
Ponctuelle
Permet de deviner la valeur de Y à
Prévision Yn+h I= ±t /2 ; (n – K) la période h, les exogènes de la
Par intervalle même période étant fixées.
où =
Ass. Cédrick Tombola M. 61
Une variable indicatrice est une variable spéciale qui ne prend que deux valeurs, à savoir :
Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe, la religion ou
même un événement tel qu une guerre, une grève, un tsunami, etc. – que l on désire intégrer dans les
modèles. Comme variable explicative, on la note généralement par la lettre D, pour dire dummy.
Il est également important de noter que les variables binaires peuvent intervenir dans le modèle de deux
manières, soit comme endogène [modèle de probabilité linéaire, modèles Logit, Probit, Tobit, Gombit] soit
comme exogène [modèles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intéressons qu au cas o‘ la
variable muette entre comme explicative dans le modèle.
Aussi, l utilisation de ces variables dépend fortement du problème posé. Comme exogènes, les variables
dummy sont utilisées pour répondre à un triple objectif :
Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c est-à-dire des valeurs
anormalement élevées ou anormalement basses – associées en général à la survenance de chocs ou
d événement rares, il y a lieu d incorporer une dummy dans le modèle afin d en tenir compte. La démarche
consisterait simplement à détecter les valeurs anormales et à les corriger, en mettant 1 à ces dates là et 0
ailleurs, afin que les déviants ne perturbent pas l estimation statistique des autres variables.
Considérons le jeu de données ci-après, où Yt est l endogène et Xt l exogène. On veut estimer le modèle :
Yt = 0 + 1Xt + ut [A]
On observant l évolution de Yt, il y a un écart criant au 13 février qui frappe notre attention. La conséquence
directe serait que, s il faut régresser Yt sur Xt, cette valeur aura tendance à fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrés de façon à avoir une moyenne.
On s en rend bien compte { travers le graphique nuage de points avec droite de régression, y
correspondant, suivant.
20
15
10
0
0 2 4 6 8 10 12
= 1.6081 + 1.2297Xt
[0.1265] [0.7728]
R2 =0.1660
Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a complètement perturbé l estimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modèle. On mettra 1 à la date du 13 février et 0 partout ailleurs. Le modèle à estimer devient :
L incorporation dans le modèle d une dummy a donc permis de corriger la valeur atypique.
Note importante :
La correction effectuée n est valable que si le coefficient associé à la variable dummy est
statistiquement significatif.
Après estimation, le signe affecté { la variable binaire est proportionnelle { l anomalie constatée
dans les données. S il s agit d une observation anormalement basse, comme c est le cas dans
l exemple ci-haut, le signe affecté à la dummy sera –, ce qui indique que l écart criant avait
tendance à ramener la droite de régression vers le bas. En revanche, s il est plut t question d une
observation anormalement élevée, le signe affecté à la dummy sera +, ce qui indique que le déviant
avait tendance à tirer la droite de régression vers le haut.
Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une même une
variable muette. Lorsque la série présente à la fois les deux types d écarts, il convient de les capter
par deux variables auxiliaires différentes, l une pour les observations exceptionnellement élevées
et l autre pour celles exceptionnellement basses.
Ass. Cédrick Tombola M. 63
L explication d un phénomène peut parfois nécessiter la présence des variables qualitatives. Supposons
que l on souhaite expliquer, pour dix étudiants de première licence en Economie échantillonnés, le
phénomène " cote obtenue en macroéconomie CMi" ; tout naturellement les variables comme présence au
cours PCi, nombre d’heures d’étude consacrées à la macroéconomie (E i…s avèrent pertinentes. Mais il est
tout à fait aussi possible que des variables comme la religion de l’étudiant REi, ou sa tribu TEi, soient
déterminantes dans l explication du phénomène étudié. Dans ce cas, l utilisation d une variable binaire
permet de segmenter les individus en deux groupes et de déterminer si le critère de segmentation est
réellement discriminant.
Dans l exemple de tout { l heure sur la cote obtenue en macroéconomie, si l on assume que l appartenance
ou non à la religion catholique est déterminante dans la réussite, ce qui revient à dire que la religion est un
facteur de discrimination, le modèle à estimer sera :
où REi =
Puis estimer, comme vu précédemment, en appliquant les MCO. Après estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a joué sur la cotation en macroéconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroéconomie. A l opposé, si 3 est
statistiquement non significatif, on en conclurait que la religion catholique n a pas joué sur la réussite en
macroéconomie.
Note importante :
Dans le cas de variables dummy à plusieurs modalités, par exemple l état civil célibataire, marié,
divorcé, autres), il est convenable de coder alors autant de variables indicatrices qu il y a de
modalités moins une . Ainsi, pour l état civil, on définira trois variables binaires : célibataire (=1
si l individu est célibataire, sinon , marié = si l individu est marié, sinon , divorcé = si
l individu est divorcé, sinon , la modalité autres étant implicitement contenue dans le terme
constant [et ne serait donc spécifiée à part que dans un modèle sans terme constant].
La codification dépend du modélisateur et doit être prise en compte dans l interprétation des
résultats. A titre exemplatif, si l on considère la variable qualitative sexe, le modélisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
l interprétation.
Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements saisonniers qui
caractérisent certaines variables comme les dépenses de publicité, qui sont généralement plus importantes
en certaines périodes de l année qu en d autres.
Supposons que l on s intéresse { la relation entre le chiffre d affaires Ch t) et les dépenses de publicité
(Dpubt). On peut écrire :
En utilisant les données trimestrielles, il ne serait pas correct d estimer directement le modèle [i], parce
qu on n aurait pas tenu compte de l effet saisonnier, les dépenses de publicité ne sont pas les mêmes tous
les trois mois [trimestre].
On peut capter l effet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy qu il y a de trimestres, soit quatre dummy. Sachant qu on compte quatre
trimestres par année, l introduction des variables dummy se fera comme suit :
ou encore :
Si le modèle contient un terme constant, celui-ci joue d office le r le de l une de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rôle de D4t [on a le choix pour la variable binaire à écarter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique terminée, on peut alors, sans difficulté normalement, appliquer les MCO soit
sur le modèle [ii], soit sur le modèle [iii].
Ass. Cédrick Tombola M. 65
ANNEXES DU CHAPITRE IV
Addition et soustraction
Soient deux matrices carrées§§§§§§§§§ A et B de format 2. La somme ou la soustraction de ces deux matrices
s effectue comme suit :
A B= =
L'addition et la soustraction des matrices ne sont donc définies que pour des matrices de même format ou de
même ordre.
(i) A B=B A
(ii) A (B C) = (A B) C
Soient un scalaire k (un nombre réel) et la matrice carrée A ci-dessus. La multiplication de A par le scalaire k
s effectue de la sorte :
kA =k =
La multiplication par un scalaire est donc possible quel que soit l ordre de la matrice A.
(i) kA = Ak
(ii) k(A B) = kA kB
Produit matriciel
Soient les deux matrices carrées A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la première matrice est égal au nombre de lignes
de la deuxième matrice [principe du produit matriciel]. Le produit matriciel s effectue en faisant la somme
algébrique des produits des éléments de chaque ligne de la première matrice par les éléments
correspondants de chaque colonne de la deuxième matrice.
§§§§§§§§§
Une matrice carrée est une matrice dont le nombre de lignes est égal au nombre de colonnes. On dit matrice
carrée de format n ou d ordre n m.
Ass. Cédrick Tombola M. 66
AB =
2 2 2 2
(i) A(B + C) = AB + AC
(ii) A(BC) = (AB)C
(iii) AB ≠ BA en général
La transposée d une matrice A de format m n, notée AT ou A , est une matrice de format n m obtenue
en permutant les lignes et les colonnes de A.
Soit A = AT =
(i) (A + B + C)T = AT + BT + CT
(ii) (ABC)T = CTBTAT
(iii) (AT)T = A
(iv) (kA)T = kAT
Soit une matrice A d ordre m n. Le rang de la matrice A, noté r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linéairement indépendants, dit autrement, c est le nombre de ses lignes ou ses
colonnes) non entièrement nulles, après échelonnement de la matrice.
Si le rang d une matrice A donnée correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.
Une matrice carrée A d ordre n est dite non – singulière si son rang est maximum, soit [r (A) = n].
Ass. Cédrick Tombola M. 67
2. Matrices carrées
est une matrice carrée dont un au est une matrice diagonale dont notée I, est une matrice scalaire dont
moins des éléments situés sur sa tous les éléments, non nuls, sur sa les éléments sur la diagonale
diagonale principale est non nul, tous diagonale principale sont égaux. principale sont égaux à 1.
les autres éléments étant nuls.
Exemple : Exemple :
Exemple :
B=
A= I=
(i) II = I
(ii) InAn = An
(iii) tr (In) = n
D ordre
Soit la matrice carrée A, d ordre , son déterminant noté est calculé comme suit :
Ass. Cédrick Tombola M. 68
D ordre 3
Le déterminant d une matrice carrée A d ordre est calculé en appliquant la règle de Sarrus********** comme
suit :
D ordre n quelconque
Le déterminant d une matrice A d ordre n est donné par la somme algébrique des produits obtenus en
multipliant les éléments d une ligne ou d une colonne de la matrice A par leurs cofacteurs correspondants,
notés Cij.
La matrice des cofacteurs, quant à elle, est trouvée en pré – multipliant la matrice des mineurs, notée Mij,
par (–1)i+j, soit :
Cij = (–1)i+jMij
La méthode des cofacteurs, dite aussi méthode d expansion de LAPLACE , permet de calculer un
déterminant d ordre n { l aide des mineurs [déterminants d ordre n – 1)]. On a toujours intérêt à
développer un déterminant des lignes ou des colonnes où apparaissent beaucoup de zéros.
Note : Le mineur mij de la matrice A est le déterminant calculé en supprimant la ligne i et la colonne j de A.
(i)
(ii)
(iii) Si une ou plusieurs lignes ou colonnes d une matrice sont linéairement dépendantes, alors le
déterminant de cette matrice est nul. On dit qu une telle matrice est singulière.
(iv) Si une matrice carrée A est de rang maximum, alors son déterminant est différent de zéro.
Soit A une matrice carrée et B une autre matrice carrée du même ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
–1
L'inverse de A, noté A , n'existe que si A est une matrice carrée de rang maximum. Cet inverse est unique.
**********
Du nom du mathématicien français Pierre – Frédéric Sarrus (1798 – 1861).
Du nom du mathématicien, astronome et physicien français Pierre – Simon de LAPLACE (1749 – 1827).
Ass. Cédrick Tombola M. 69
Il existe, dans la littérature, plusieurs méthodes de calcul de l inverse d une matrice carrée. Dans ce papier, nous
n en présentons que deux.
B–1 =
(i) B B–1 = I
(ii) (B–1)–1 = B
(iii) (BT)–1 = (B–1)T (B–1)TBT = I
La fonction DRO)TEREG d Excel permet d obtenir presque tous les résultats, en un clic, mis en évidence
dans ce chapitre, et au chapitre précédent. Il suffit, pour ce faire, de sélectionner une plage en
conséquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramètres à
estimer dans le modèle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exogènes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.
Soit le modèle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procéder sur Excel.
Sur le logiciel économétrique Eviews, après création de la feuille de travail et saisie des données, aller dans
Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l ordre apparaissant
dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode
d estimation – pour notre cas LS ou Least squares – et valider.
Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8
Le même résultat peut être obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des résultats ci-dessus, appelés parfois output de l’estimation, il ressort les informations
importantes suivantes :
Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramètre estimé, son écart – type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estimé, la probabilité de commettre l erreur de
première espèce. Si cette probabilité est faible (< 0.05, de manière générale) RH0, le paramètre
concerné est donc statistiquement significatif (non nul).
Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(F-
statistic) correspondent respectivement au R2, au R2 ajusté, au , à la SCR, à la statistique de
Fisher et la probabilité critique associée à la statistique de Fisher.
Mean dependent var et S.D. dependent var représentent respectivement la moyenne et l écart –
type de la variable dépendante.
Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critères d information
intervenant dans le choix du modèle optimal. Le meilleur modèle étant celui qui minimise ces
critères.
A. Après estimation, la série prédite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la série) puis valider.
B. Après estimation, la série des résidus est générée en saisissant la commande GENR (nom)=resid
Ass. Cédrick Tombola M. 72
Exercice 1
On examine l évolution d une variable Yt en fonction de deux exogènes X1t et X2t. On dispose de n
observations de ces variables. On note X = où 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.
(a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le R2 et le R2 ajusté
de Theil.
(b) Déduire la matrice COVA, et tester la significativité individuelle de chaque paramètre ainsi que leur
significativité conjointe.
Exercice 2
Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences économiques, on spécifie
le modèle suivant :
où :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisième graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
Travail demandé : le sexe a-t-il une influence sur la note obtenue en licence de sciences économiques ?
Solution de l exercice
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait d’être homme ou femme est bel et bien un facteur discriminant de la réussite de la licence en sciences
économiques.
Ass. Cédrick Tombola M. 73
)l est à noter que le signe négatif affecté à DS indique qu’il est « pénalisant » d’être un homme DS = et qu’en
moyenne, sur l’échantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
inférieure de 1.2 point à celle des femmes, soit 7.3.
Exercice 3
Soit le modèle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
où Yi est le salaire perçu par l individu i ; Xi le nombre d années d expérience ; Di1 et Di2 deux variables
dummy.
Ind. 1 2 3 4 5 6 7 8 9 10 11 12
Yi 350 150 305 290 310 270 340 400 430 410 400 290
Xi 2 1 2 2 2 2 5 3 5 4 3 2
Les individus 3, 5, 8, 10, 15, 12 sont des étrangers (étrangères) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et étrangers).
Di1 = et Di2 =
Exercice 4
Soit le modèle :
Yt = 0 + 1X1t + 2X2t + ut
Exercice 5
Soit le tableau suivant :
TD :
- Si on considère le modèle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramètres 0, 1, 2,
3, et tester leur significativité individuelle et la significativité globale du modèle.
Exercice 6
Soit le modèle Yt = 0 + 1X1t + 2X2t + εt
où Yt est la quantité offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accordée de
manière journalière et εt le terme d erreur.
.V.
MODELES DE REGRESSION NON LINEAIRES
Comme vu jusqu ici, l application de la méthode des moindres carrés ordinaires exige que le modèle soit
linéaire ou linéarisable en X. Cependant, il est fréquent de rencontrer en économie des modèles non
linéaires dans leur spécification, comme c est le cas des fonctions de production de type Cobb – Douglas et
CES [Constant Elasticity of Substitution] .
Les modèles non linéaires sont généralement regroupés en deux familles, à savoir :
Pour la première famille de ces modèles, le plus souvent, une transformation logarithmique suffit à les
rendre linéaires, ce qui, du reste, valide leur estimation par les MCO. Et c est précisément sur ce type de
modèles que porte ce chapitre. Quant { la deuxième famille de ces modèles, il convient d appliquer les
méthodes d estimation non linéaire, que nous n abordons pas directement ici.
A. Le modèle double log ou log – log B. Le modèle log – lin (ou semi-log)
Exemple :
o‘ = = La formule de l intérêt composé Yt = Y0(1 + r)t [o]
où Y0 est une constante, (1 + r) un paramètre et t le temps
A présent, en posant : (la variable exogène).
La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a été proposée en
1928 ; alors que la CES, appelée aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a été introduite en 1961.
Ass. Cédrick Tombola M. 76
Yt = 0 + + ut [v]
Avantage :
Ce modèle permet l estimation des modèles
d Engle : « La dépense totale consacrée à la
nourriture tend à croître selon une progression
arithmétique lorsque la dépense totale augmente
en progression géométrique.
Cette forme peut servir également au traitement
de l hétéroscédasticité dont il sera question plus
loin.
E. Les modèles réciproques F. Le modèle log – hyperbole (ou log – inverse)
G. Le modèle polynomial
Forme : Yt =
Yt =
où =Xt ; = ;…; =
Les modèles de cycle de vie d un produit, appelés parfois modèles de diffusion, ont pour objet de
déterminer l évolution probable des ventes d un produit connaissant le seuil de saturation, puisqu il est
vérifié que les ventes évoluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu {
maturité (seuil de saturation qui correspond { un point d inflexion { partir duquel le rythme de croissance
des ventes diminue.
ANNEXE DU CHAPITRE V
En effet, plusieurs modèles non linéaires se prêtent facilement, comme vu précédemment, à la linéarisation,
ce qui rend beaucoup plus aisée leur estimation par la méthode des MCO. Mais lorsque cette gymnastique
de linéarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grâce { la commande NLS d Eviews – qui donne l estimation fournie par la méthode des moindres non
linéaires – , directement estimer de tels modèles sans avoir besoin de les rendre linéaires.
Exemple
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d estimer le modèle ci-après :
Q=
Jour 1 2 3 4 5 6 7 8 9 10
Q 25 28 32 35 39 37 44 40 38 45
K 12 13 10 15 22 17 21 23 25 20
L 3 5 9 8 12 13 10 11 14 19
Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les résultats suivants :
Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)
où les coefficient c(2) et c(3) donnent directement les élasticités du produit au capital et au travail,
respectivement.
Ass. Cédrick Tombola M. 79
Exercice 1
Soit le modèle log-linéaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-après qui montre
l évolution des ventes d une entreprise au cours de mois, on demande d ajuster cette fonction et de
trouver Y0 et r.
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Exercice 2
On dispose des informations suivantes sur les ventes des syllabus d économétrie :
Année 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Ventes 24 36 45 49 54 63 78 79 83 99
On Se propose d ajuster, par OLS, sur ces données une fonction du type :
Yt =
Exercice 3
Mêmes données et mêmes questions qu { l exercice , en ajustant le modèle suivant :
Exercice 4
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d estimer le modèle ci-après :
Q=
Jour 1 2 3 4 5 6
Q 25 28 32 35 39 37
K 12 13 10 15 22 17
L 3 5 9 8 12 13
- Calculer le R2 et le 2.
-
Mener le test des rendements d échelle. Les rendements { l échelle sont-ils constants ?
Ass. Cédrick Tombola M. 80
.VI.
VIOLATION DES HYPOTHESES DE BASE
En présentant la méthode des moindres carrés ordinaires, nous avions émis un faisceau d hypothèses de
base§§§§§§§§§§, sous respect desquelles cette méthode fournissait les meilleurs estimateurs linéaires,
convergents et sans biais, et que le théorème de Gauss-Markov était vérifié. Cependant, dans la pratique, il
est possible que l une ou l autre de ces hypothèses fondamentales soit relâchée.
Ce chapitre présente donc à la fois les tests de vérification et les stratégies à adopter en cas de violation
éventuelle de l une ou l autre hypothèse.
A. Problème
)l faut noter aussi que l autocorrélation des erreurs est un phénomène que l on ne retrouve qu en travaillant
sur séries temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de
corrélation spatiale des résidus, qui ne nous intéresse pas directement ici.
B. Tests de détection
On recourt généralement { deux tests pour détecter l éventuelle autocorrélation des erreurs : le test de
Durbin et Watson et le LM – Test de Breush – Godfrey.
[6.1] Yt = 0 + 1Xt + ut
Le test très populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui l on proposé en , permet de détecter une autocorrélation d ordre , AR , selon la forme :
[6.2] ut = ρut–1 + vt
où vt est un bruit blanc*********** et (condition de convergence)
§§§§§§§§§§
Erreurs homoscédastiques, non autocorrélées et normalement distribuées. De plus la matrice X X doit être
non singulière, ce qui correspond { assumer l absence de multicolinéarité.
***********
Voir annexe 3.
Ass. Cédrick Tombola M. 81
On fait donc l hypothèse, pour des raisons de simplification, que l erreur n est liée qu { son passé immédiat.
Et l estimateur de ρ, basé sur les résidus et issus de la relation [6.2], est donné par :
[6.3]
[6.4]
[6.5] DW = d =
Pour comprendre pourquoi d est une statistique pertinente pour tester l autocorrélation, on réécrit d
comme suit :
d=
[6.6] d=
Connaissant la relation [6.3], et en sachant que pour grands échantillons, = , [6.5] devient :
[6.7] DW=d )
0 dL dU 2 4 – dU 4 – dL 4
Doute
Doute
Zone I Zone III
Zone II
Autocorrélation Autocorrélation
Absence d autocorrélation
positive positive
Note importante :
Comme cela vient d être expliqué, le test DW ne permet de tester qu une autocorrélation d ordre , soit
AR(1). Or, il est tout à fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent être :
A cet effet, Trevor Breusch et Leslie Godfrey ont, séparément, proposé, respectivement en 1979 et 1978, un
test – qui porte leurs noms, appelé aussi test du multiplicateur de Lagrange LM – beaucoup plus complet
que le test DW en ce qu il permet de tester une autocorrélation des erreurs d ordre supérieur { , et qui
reste valide en présence de la variable dépendante décalée en tant que variable explicative.
Yt = 0 + 1Xt + ut
où ut est à présent AR(p), p étant à déterminer.
(1). Estimer par les MCO le modèle [6.8] et tirer les résidus e t de cette estimation ;
(3). Calculer la statistique du test, sachant que ce test peut être mené à deux niveaux :
Soit recourir à la statistique LM qui suit une distribution du (p). P étant le nombre de retards
introduits dans le modèle [6.8]. On a :
2
LM = n R
Lorsque le test conclut { l évidence d une autocorrélation, la correction se fait en appliquant la méthode
des Moindres Carrés Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { l application des MCO sur les données transformées.
[6.9] Yt = 0 + 1Xt + ut
où ut = ρut –1 + vt
[6.12] = + 1 + vt
0
où =Yt – ρYt –1 ; 0 = 0(1 – ρ ; 1 = 1 et = (Xt – ρ Xt –1)
Lorsque ρ connu, l application des MCO sur ce dernier modèle donne un estimateur BLUE. Le seul
inconvénient de la transformation en quasi-différences qui persisterait serait une perte d information, en
l occurrence et . Afin de contourner cette difficulté, Prais et Winsten (1954) ont proposé de prendre
en compte la première observation en utilisant la procédure suivante :
et =
Procédures d estimation de ρ
Il existe plusieurs méthodes pour estimer ρ, dont les plus populaires sont :
(a) Procédure (b) Méthode basée sur (c) Méthode itérative de Cochrane-Orcutt
d estimation directe la statitistique DW
Modèle : Y = X + U [A]
On suppose que les erreurs suivent un processus AR(1) : ut = ρut –1 + vt
A partir des résidus et du A partir de la statistique DW Soit le modèle linéaire simple :
modèle [A], estimer ρ par la issue de l estimation du Yt = 0 + 1Xt + ut
formule : modèle [A], et connaissant la où ut = ρut –1 + vt
relation [6.7], estimer ρ par
la formule : En quasi-différences, on a :
Note : Le logiciel Eviews permet automatiquement d effectuer la correction de l autocorrélation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement d insérer, à la commande
d estimation, la variable AR ou AR , ou encore MA ou MA . Mais il faut noter également que la
correction de l autocorrélation n est acceptée que si le coefficient associé au processus introduit dans le
modèle [AR(1), MA(1), etc.] est significatif.
VI.2. Hétéroscédasticité
A. Problème
D un point de vue étymologique, le terme hétéroscédasticité comprend deux mots. D abord « hétéro » qui
fait référence à « plusieurs », ensuite le terme « scédasticité », associé à la « fonction scédastique », qui
signifie « variance conditionnelle ». Hétéroscédasticité signifie donc différentes variances. On dit qu il y a
hétéroscédasticité lorsque l hypothèse de la constance de l erreur , émise lors de la
présentation de la méthode des moindres carrés ordinaires, est violée.
Comme pour l autocorrélation, la conséquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaisés, ne sont plus efficients, puisque n ayant plus une variance minimale. Et par
conséquent les t de Student et F de Fisher ne sont plus utilisables { des fins d inférence.
)l faut noter également que l hétéroscédasticité est un problème qui se pose plus dans les modèles spécifiés
en coupe transversale que ceux des chroniques.
B. Tests de détection
)l existe toute une batterie de tests permettant de détecter l hétéroscédasticité, dont notamment :
Le test de Park
Le test de Goldfeld – Quandt
Le test de Glejser
Le test de Breusch – Pagan – Godfrey
Le test d égalité des variances
Le test de Koenker – Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH
Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utilisés dans la pratique.
Le test de White, proposé par Halbert White en 1980, teste les hypothèses suivantes :
J invite le lecteur qui désire prendre connaissance de tous ces tests à consulter les manuels de Kintambo
(2004) et Bosonga (2010).
Ass. Cédrick Tombola M. 86
Le test de White présente l avantage qu il ne nécessite pas que l on spécifie les variables qui sont { la cause
de l hétéroscédasticité.
(i) Test de White avec termes croisés, qui est basé sur l estimation du modèle :
[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [ . ] et vt le terme d erreur.
(ii) Test de White sans termes croisés, basé sur l estimation du modèle suivant :
[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [ . ] et vt le terme d erreur.
LM = n R2 (m)
où m est le nombre de régresseurs exogènes dans l’expression estimée.
Partant des résidus et issus de l estimation du modèle [ . ], la détection de l hétéroscédasticité par le test
ARCH se fait en régressant le carré des résidus et sur leurs décalages puissance deux, soit :
[6.15]
Le test est fondé soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2 (m)
où m est le nombre de régresseurs (exogènes) présents dans le modèle [6.15].
C. Correction de l hétéroscédasticité
Soit le modèle :
Yi = 0 + 1Xi + ui
La correction de l hétéroscédasticité se fait en appliquant les moindres carrés pondérés, c est-à-dire les
moindres carrés ordinaires sur l un des modèles transformés ci-dessous :
(1) si E(
(2) si E(
(3) si E(
VI.3. Multicolinéarit駧§§§§§§§§§
A. Problème
En cas de multicolinéarité parfaite, la matrice est singulière, et par conséquent son inverse ( )–1
n existe pas, ce qui rend la méthode OLS complètement défaillante ; il est n est donc pas possible devant
une telle situation d estimer les paramètres du modèle.
Dans la pratique, c est plut t le cas de quasi multicolinéarité qui est fréquent. En effet, la multicolinéarité
imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est proche de 0. La
conséquence directe est qu on aura des valeurs très grandes dans la matrice inverse ( )–1 qui, par la
méthode classique, est calculée comme suit :
[6.16] ( )–1 =
Dans [6.16], si 0, la matrice ( )–1 aura des valeurs de plus en plus grandes, la matrice COVA
( ) également. La conséquence, et donc le problème posé par la multicolinéarité est que, du
fait de la valeur élevée des variances des coefficients estimés, les résultats de l estimation perdent en précision,
c est-à-dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont élevés.
L autre problème posé par la multicolinéarité est l instabilité de paramètre et l effet de masque qui rend difficile
la mise en évidence de la contribution individuelle de différentes variables explicatives sur l endogène.
Note : Si les problèmes d autocorrélation des erreurs et d hétéroscédasticité peuvent se poser quel que soit
le nombre d exogènes intervenant dans le modèle, le problème de multicolinéarité, en revanche, n a de
sens que dans un modèle de régression linéaire multiple.
§§§§§§§§§§§
La notion de multicolinéarité a été introduite, dans les années 50, par Lawrence Klein.
Ass. Cédrick Tombola M. 88
B. Tests de détection
Les tests de détection de la multicolinéarité les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modèle :
Note : Le test de Klein n est pas un test statistique au sens test d hypothèses mais simplement un critère de
présomption de multicolinéarité. C est pourquoi il doit être complété par le test de Farrar et Glauber qui est
bien un test statistique.
Ce test est basé sur la statistique du , calculée { partir de l échantillon comme suit :
D=
C. Remèdes à la multicolinéarité
Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spécification du modèle, à
éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et donc d être corrélées
entre elles, ceci afin d éviter l effet masque ************.
A. Problème
Le problème d absence de normalité se pose lorsque l hypothèse ut (0, ) est violée. A titre de rappel,
l hypothèse de normalité, émise lors de la présentation de la méthode OLS, est la clé de l inférence
statistique. Elle est donc nécessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l inférence, dans le
modèle linéaire, impossible car les distributions des estimateurs ne sont plus connues.
B. Tests de détection
Les tests de normalité ont été rigoureusement présentés dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convié { s y rapporter.
Le meilleur remède à la non-normalité des résidus est d agrandir la taille de l échantillon. La transformation
de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.
************
Bourbonnais (2005).
Ass. Cédrick Tombola M. 90
Exercice 1
Soit le modèle ci-après :
Yt = 0 + 1X1t + 2X2t + εt
o‘ t= , …, n et n=
En l estimant par OLS, on a obtenu =0,52 et =0,28. On aussi calculé la statistique de Durbin-Watson :
d=DW=0,78.
Exercice 2
En cherchant { expliquer le phénomène réussite en économétrie, en , l assistant Dandy Matata a
spécifié le modèle suivant :
Yi = 0 + 1X1i + 2X2i + εi
o‘ Yi est la cote obtenue en économétrie par l étudiant i ; X1i est la présence au cours d économétrie et X2i le
nombre d heures d études consacrées { ce cours.
Tester l autocorrélation du premier ordre dans le modèle spécifié par l assistant Matata.
Exercice 3
Soit l échantillon de taille n= :
Yt X1t X2t
8 3 6
2 1 2
6 3 6
0 1 2
4 2 4
∑Yt=20 ∑ X1t=10 ∑ X2t=20
Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le résoudre ?
Exercice 4
Au regard des résultats ci-après, sur l estimation de l hypothèse de Kuznet en RDC pour la période allant de
1975 à 2011, quel problème, selon vous, s est posé dans l estimation de cette relation ? Par quoi le voyez-
vous ?
IV. L’analyse de la variance
A. Construction du tableau d’analyse de la variance
et test de signification globale d’une régression
Dans cette section, nous allons nous interroger sur la signification globale du
modèle de régression, c’est-à-dire si l’ensemble des variables explicatives a une
influence sur la variable à expliquer. Ce test peut être formulé de la manière
suivante : existe-t-il au moins une variable explicative significative ? Soit le test
d’hypothèses :
H0 : a1 = a2 = . . . = ak = 0 (tous les coefficients sont nuls1)
H1 : il existe au moins un des coefficients non nul
Nous ne testons pas le cas où le terme constant a0 est nul, car seules nous
intéressent les variables explicatives. Un modèle dans lequel seul le terme
constant est significatif n’a aucun sens économique.
Le cas où l’hypothèse H0 est acceptée signifie qu’il n’existe aucune relation
linéaire significative entre la variable à expliquer et les variables explicatives (ou
encore que la Somme des Carrés Expliqués n’est pas significativement différen-
te de 0).
Nous reprenons l’équation fondamentale [8] d’analyse de la variance :
! ! !
(yt − y)2 = yt − y)2 +
(" et2
t t t
!
yt − y)2 /k
("
t R 2 /k
F∗ = ! 2 = (d’après [9])
et /(n − k − 1) (1 − R 2 )/(n − k − 1)
t
[17]
1. Nous remarquons que nous pouvons répondre à cette question par le test d’un sous-ensemble
de coefficients [15], le test ici présenté conduit évidemment à des résultats identiques.
2. Voir chapitre 2, paragraphe 4, pour la construction de ce tableau.
68 ! ÉCONOMÉTRIE
4) Augmentation de la taille de l’échantillon servant à estimer le modèle
Lorsque la taille de l’échantillon aug mente (le nombre d’observations à dispo-
sition est plus important), le modèle reste-t-il stable ? Ce test se ramène au test
de Chow de stabilité des coefficients sur deux sous-périodes. L’estimation sur la
sous-période 1 est effectuée à partir de l’échantillon initial et l’estimation de la
sous-période 2 à partir des nouvelles observations.
Nous voyons l’intérêt pratique de ces tests et l’apport pour l’économiste des
réponses à ces questions.
"Exercice n° 3
fichier C3EX1
Tests à partir de l’analyse de la variance
En reprenant les données de l’exercice 1 (tableau 1), dont nous rappelons les résul-
tats de l’estimation du modèle1 :
Solution2
Nous pouvons tout d’abord appliquer le test de Fisher [17] afin de tester la signifi-
cation globale de la régression à trois variables x1 , x2 et x3 .
R 2 /k 0,702/3 0,05
F∗ = = = 7,878 > F3,10 = 3,71
(1 − R 2 )/(n − k − 1) (1 − 0,702)/10
1. Le lecteur notera la présentation « standard » des résultats d’estimation d’un modèle. Les infor-
mations listées ici doivent impérativement figurer. À noter que le t de Student est souvent indi-
qué à la place de l’écart type des coefficients afin de pouvoir, sans aucun calcul, procéder aux
tests de significativité des coefficients.
2. Les calculs sont effectués à partir d’un logiciel, il peut apparaître de légères différences entre
les calculs manuels et les résultats, imputables au fait que le logiciel tient compte d’un nombre
élevé de décimales.
x1 SC E 1 = 117,65 1 117,65
x1 , x2 , x3 SC E = 159,41 3 53,14
Résidu SC R = 67,45 10 6,74
Total SC T = 226,85 13
1. Sauf si la ou les variables ajoutées sont orthogonales à la variable à expliquer, SC E reste alors
identique. Ce cas est évidemment rare.
70 ! ÉCONOMÉTRIE
Étape 4 : calcul du Fisher empirique.
(SC E − SC E 1 )/(k − k ′ ) 41,67/(3 − 1) 0,05
F∗ = = = 3,09 < F2,10 = 4,10
SC R/(n − k − 1) 67,45/10
1. Les deux sous-périodes peuvent être de longueur inégale, cependant elles doivent impérative-
ment recouvrir la totalité des observations de la période.
sous-période 2 : données de 8 à 14
peut s’écrire :
yt = a0 + 1 x1t + a2 x2t + a2 x3t + εt
ou encore :
yt − x1t = a0 + a2 (x2t + x3t ) + εt
z t = a0 + a2 vt + εt
72 ! ÉCONOMÉTRIE
z t = −0,0111vt + 13,74 + et
(0,051)
n = 14
R 2 = 0,0389
(.) = Ecart type
σε = 3,0109
!
1 10 166
2 13 175
3 7 197
4 10 192
5 7 171
6 11 197
7 13 164
8 14 180
9 16 169
10 8 201
11 15 193
12 12 203
13 13 209
14 14 209
74 ! ÉCONOMÉTRIE
nation issu de l’estimation de l’équation intermédiaire) qui suit un χ 2 à r degrés
de liberté ( r étant le nombre de contraintes) ; nous verrons des applications de
cette statistique au chapitre 5 concernant les tests de détection de l’autocorréla-
tion des erreurs et de l’hétéroscédasticité.
1. Les termes de variables indicatrices, de variables auxiliaires ou de variables muettes sont indif-
féremment employés en français. Le terme anglo-saxon dummy est le plus couramment
utilisé.
"Exercice n° 4
Détection et correction de valeurs anormales par variable indicatrice
Un modèle de production de service du secteur du tourisme est spécifié de la maniè-
re suivante :
Q P St = a0 + a1 V At + a2 P O Pt + εt
avec :
Q P St = production du secteur tourisme pour l’année t ;
V At = valeur ajoutée du secteur tourisme pour l’année t ;
P O Pt = population pour l’année t .
Dt = 0 pour t = 1 à 15 et t = 17 à 18
Dt = 1 pour t = 16
76 ! ÉCONOMÉTRIE
Solution
0,05
La variable indicatrice Dt a un ratio de Student de t ∗ = 5,8 > t14 = 2,14 , le coef-
ficient de régression de cette variable est significativement différent de 0, la production
de service pour l’année 16 est donc anormalement basse (−120,56) . Cette baisse est,
sans doute imputable à l’effet de la guerre.
• Généralisation
Dans le cas d’un phénomène se produisant de manière sporadique, la variable indi-
catrice prend la valeur 1 pour la ou les périodes que l’on désire corriger et 0 pour les
autres.
Nous remarquons que nous pouvons procéder au test de Chow (stabilité du modèle
sur l’ensemble de la période) en recourant à une variable indicatrice prenant la valeur 1
pour la première sous-période et la valeur 0 pour la deuxième sous-période. Le test de
Student portant sur le coefficient de la variable indicatrice permet alors de se détermi-
ner sur un modèle à un régime ou un modèle à deux régimes.
2) Variable qualitative
78 ! ÉCONOMÉTRIE
3) Analyse de saisonnalité
"Exercice n° 6
fichier C3EX6
Années T1 T2 T3 T4
1 Ventes 164 198 85 179
Pub. 34 36 32 29
2 Ventes 168 201 98 197
Pub. 45 67 76 75
3 Ventes 197 209 100 216
Pub. 75 78 72 75
4 Ventes 223 245 119 260
Pub. 78 81 84 83
5 Ventes 298 309 124 267
Pub. 89 82 81 83
Solution
154 ! ÉCONOMÉTRIE
On a alors :
Nous avons donc indépendance entre les erreurs sur les variables µ et ν , et l’er-
reur de spécification du modèle ε .
La relation entre les variables observées X et Y est la suivante :
Y ∗ = Y − ν = (X − µ)a + ε → Y = Xa + ν − µa + ε = Xa + η
avec η = ν − µa + ε
Les propriétés stochastiques de η sont :
E(η) = E(ν − µa + ε) = E(ν) − E(µ)a + E(ε) = 0
E(X ∗′ η) = E(X ∗′ ν) − E(X ∗′ µ)a + E(X ∗′ ε) = 0
E(X ′ η) = E{(X ∗ + µ)′ η} = E(µ′ η)
= E(µ′ ν) − E(µ′ µ) a + E(µ′ ε)
= −E(µ′ µ)a ̸= 0
L’hypothèse H6 du modèle général n’est donc pas vérifiée puisque η et X sont
corrélés, la méthode des MCO fournit des estimateurs biaisés négativement.
E(Z ′ η) = 0 et Z = (z 1 , z 2 , . . . , z k )
Cov (Z ′ X) ̸= 0
c’est-à-dire qu’aucune combinaison linéaire des variables z k n’est orthogonale
aux variables x1 , x2 , . . . , xk ou encore que les variables Z et X soient corrélées.
Nous avons alors :
"â = "
Ω σε2 (Z ′ X)−1 (Z ′ Z )(X ′ Z )−1 [13]
1) Test de différence
Nous calculons la statistique :
H = (⌢
aV I − ⌢
a MC O )′ [Var(⌢
aV I ) − Var(⌢
a MC O )]−1 (⌢
aV I − ⌢
a MC O ) .
La statistique H est distribuée selon un chi-deux à k degrés de liberté. Si
H < χ 2 (k) pour un seuil α % fixé, nous acceptons l’hypothèse H0, l’estimateur
MCO est non biaisé.
1. Judge G.G. et al., pages 577-579, 1988.
2. Les anglo-saxons emploient le terme de « proxy variable », que l’on peut traduire littéralement par
« variable par délégation ».
156 ! ÉCONOMÉTRIE
2) Régression augmentée
La procédure proposée par Hausman est en quatre étapes :
– Estimation d’un modèle par les MCO avec pour variable à expliquer la
variable dont nous désirons tester l’exogénéité et comme variables explica-
tives le ou les instruments, le plus souvent les variables explicatives décalées
d’une période.
– Estimation de la ou des variables ajustées x̂it à partir de la ou des régressions
précédentes.
– Estimation du modèle augmenté (modèle initial dans lequel nous rajoutons la
ou les variables explicatives ajustées x̂it).
– Test de significativité par rapport à 0 du ou des coefficients de la ou des
variables explicatives ajustées. Si ce ou ces coefficients ne sont pas significa-
tivement de 0 (test de Student ou de Fisher), alors nous retenons l’hypothèse
H0 : Cov(xt ,εt ) = 0 .
ˆ )−1 Z ′ X)−1 X ′ Z (Z ′ (Z
â = (X ′ Z (Z ′ (Z ˆ )−1 Z ′ y [14]
avec :
y = la variable à expliquer
X = les variables explicatives
Z = les instruments
ˆ = la matrice des variances covariances des résidus estimés dans une première
(
étape par la méthode des variables instrumentales
Il est à noter que dans le cas où les hypothèses classiques sont vérifiées
(E(εt ,εt′ ) = σ 2 I ) , l’estimateur des GMM (expression [14]) se ramène à l’esti-
mateur VI (expression [13]).
Observation yi xi zi
1 15,30 17,30 3,00
2 19,91 21,91 7,00
3 20,94 22,96 5,40
… … … …
18 25,83 29,43 22,20
19 25,15 28,95 24,60
20 25,06 28,86 24,60
On demande :
1) de tester une éventuelle endogénéité de la variable xi à l’aide du test d’Hausman ;
2) d’estimer la relation entre yi et xi∗ par une méthode adaptée.
Solution
Avec :
# $ # $ # $
⌢ 0,795 ⌢ 0,822 ⌢ 0,0004489 −0,01106
aV I = ; a MC O = ; Var( aV I ) = ;
2,153 1,471 −0,01106 0,27613
# $ # $
⌢ 0,0003486 −0,00859 ⌢ ⌢ −0,0276
Var( a MC O ) = ; ( aV I − a MC O = ;
−0,00859 0,214867 0,6817
# $
⌢ ⌢ 0,0001 −0,0024
[Var( aV I ) − Var( a MC O )] =
−0,0024 0,0612
158 ! ÉCONOMÉTRIE
# $# $
1568341,7 63248,1 −0,0276
H = [−0,0276 0,6817] = 7,63 > χ 2 (2)
63248,1 2566,99 0,6817
pour un seuil de 5 % = 5,99. Nous rejetons l’hypothèse H0, l’estimateur des MCO est
biaisé, il convient d’utiliser l’estimateur des VI.
Régression augmentée
Nous procédons au test d’Hausman en quatre étapes.
– Estimation par les MCO de la régression de xi sur l’instrument z i :
Dependent Variable : X
Method : Least Squares
Included observations : 20
Variable Coefficient Std. Error t-Statistic Prob.
C 18.37253 0.622495 29.51436 0.0000
Z 0.440680 0.039908 11.04238 0.0000
Dependent Variable : Y
Method : Least Squares
Included observations : 20
Variable Coefficient Std. Error t-Statistic Prob.
X 1,010328 0,022324 45,25680 0.0000
XF – 0,215107 0,023915 – 8,994504 0.0000
C 2,153561 0,212721 10,12386 0,0000
yi = 1,47 + 0,82 X i
"
(41)
2
R = 0,99
n = 20
(.) = t de Student
Cependant la méthode des MCO n’est pas applicable car E(xi η) ̸= 0 . En revanche, nous
savons par hypothèses que E(z i η) = 0 et que Cov(xi∗ z i ) ̸= 0 .
a est donné par [12], soit :
L’estimateur "
a
" = (Z ′ X)−1 Z′ Y
(2,1) (2,20) (20,2) (2,20) (20,1)
"Exercice n° 6
fichier C5EX6
Prévision de part de marché
Une entreprise de la grande consommation cherche à prévoir la part de marché d’un
produit apéritif (PMt) en fonction de sa présence dans l’univers de vente 1 (DNt) et de son
indice de prix par rapport aux concurrents (IPt). Les données portent sur 41 semaines.
160 ! ÉCONOMÉTRIE
Le chef de produit estime un premier modèle dont les résultats sont présentés ci-des-
sous :
Log(P Mt ) = 2,91 + 1,03 Log(D Nt ) + et
(48,5) (6,83)
n = 41
R 2 = 0,54
DW = 1,29
(.) = t de Student
Log = Logarithme népérien
1) Que représente le coefficient a1 du modèle ? Est-il significativement de 0 ?
2) Le graphique des résidus est le suivant qu’en pensez-vous ?
Solution
1) Le cofficient a1 du modèle représente une élasticité car le modèle est sous la forme
Log-Log. Ce coefficient est significativement de 0 car la valeur empirique du t de Student
est largement supérieure au t lu dans la table (t 0,05 = 1,96) .
2) Le graphique laisse supposer une autocorrélation des erreurs. Puisque les condi-
tions d’application du test de Durbin et Watson sont vérifiées, nous pouvons interpréter
"Exercice n° 7
fichier C5EX7
Un peu de réflexion économétrique...
Soit trois variables construites artificiellement connues sur n = 40 périodes.
• Y1 et Y1 en différences premières : DY1 = Y1 – Y1(–1)
• Y2 et Y2 en différences premières : DY2 = Y2 – Y2(–1)
• une variable TENDANCE = 1, 2, ... , n
162 ! ÉCONOMÉTRIE
Les graphiques 7 montrent les variations des variables Y1, Y2, DY1, DY2 en fonc-
tion du temps.
Graphique 7 – Évolution des variables Y1, Y2, DY1, DY2 en fonction du temps
Solution
700 0 200 20
500 -200 0 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40
Y1 DY2 Y2 TENDANCE
80 60
1000 50
60 50
900 40
40 40
800 30
20 30
0 20 700 20
-20 10 600 10
-40 0 500 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40
164 ! ÉCONOMÉTRIE
1
On a examiné, et appris à estimer, précédemment des modèles très simples se limitant à une
équation, en général linéaire : une variable (dite endogène, dépendante ou à expliquer) y est
supposée être la résultante d'un ensemble de variables (dites exogènes, indépendantes ou
explicatives), déterminées par ailleurs, et d'une perturbation aléatoire (l'aléa).
En fait, les phénomènes économiques de quelque complexité sont décrits par un ensemble de
variables, mais leur modélisation requiert en général plus d'une relation, ou équation, reliant ces
grandeurs, on parle alors de modèles à équations simultanées.
On distingue à nouveau les variables endogènes, qui sont déterminées par le modèle, et les variables
exogènes déterminées ou fixées en dehors de celui-ci.
Naturellement, dans la réalité, les choses ne sont pas séquentielles et la mise au point d'un modèle
opère par allers et retours entre les trois étapes ci-dessus.
EXEMPLES ÉLÉMENTAIRES
Pour des raisons théoriques, un modèle doit contenir autant d'équations que de variables endogènes.
On se limite ici à des équations linéaires.
les variables endogènes sont la consommation: C, et le revenu: R, tandis que l'investissement: I, est
exogène.
La fonction de consommation: (1.1), perturbée par l'aléa: ε, est une équation comportementale; on
remarque que l'endogène: R, y apparaît en position d'explicative. C’est une habitude quelque peu
abusive qui fait qualifier cette équation de « fonction de consommation », il serait tout aussi
légitime de l’appeler « fonction de revenu », les deux grandeurs sont en effet endogènes dans le
modèle et seule une action sur l’investissement exogène est susceptible de les faire varier.
Une version plus raffinée, et réaliste, du modèle pourrait faire aussi intervenir la consommation
décalée
La seconde équation: (1.2), est une équation comptable, c'est à dire une identité mathématique, et
elle est donc dépourvue de perturbation aléatoire comme de coefficients inconnus à estimer.
2
Il est commun que les modèles à équations simultanées comportent à la fois des équations
comportementales et des équations comptables.
les endogènes sont la quantité produite: q, et le prix unitaire: p, d'un certain bien agricole, les
exogènes, le revenu: R, et un facteur climatique: T, et les aléas: ε1 et ε2.
avec les mêmes notations que précédemment, mais une seule exogène: T, la demande ne dépendant
plus du revenu.
cette fois c'est la demande qui dépend simultanément du revenu et du facteur climatique: R et T.
(5.1) R=C+I
(5.2) C = a0 + a1.R + a2.T + ε2
(5.3) I = b0 + b1.R-1 + b2.r-1 + ε3
(5.4) M = h0 + h1.R + h2.r + ε4
On remarque les variables endogènes retardées: R -1 et r-1, apparaissant comme explicatives dans la
fonction d'investissement (5.3).
Dans la spécification d'un modèle, il est impératif de préciser quelles sont les endogènes et les
exogènes, leurs positions dans les équations étant arbitraires et ne suffisant à l'indiquer, comme
l'illustre en particulier la dernière équation: (5.4).
Le caractère endogène ou exogène d’une variable n’est d’ailleurs pas une caractéristique intrinsèque
de celle-ci, il dépend du modèle considéré. Ainsi le PNB sera une variable endogène dans un
modèle global de l’économie française, mais une variable exogène dans un modèle du marché de la
chaussure.
3
Forme structurelle
Les modèles précédents, dont les équations traduisent directement les idées économiques qui les
inspirent sont dits sous forme structurelle. Leurs coefficients - que l'on souhaite pouvoir estimer -
ont généralement une signification économique naturelle.
La spécification d'un modèle, c'est à dire la conception de sa forme structurelle, doit traduire les
idées économiques retenues dans un cadre comptable et conceptuel cohérent.
(1.1) C = a + b.R + ε
on est tenté de régresser la consommation: C, sur le revenu: R, et la constante par les MCO.
En fait, cette méthode n'est pas satisfaisante. La variable endogène R dépend également de l'aléa: ε,
comme on le voit en l'exprimant en fonction des seules exogènes:
a 1 ε
(1'.1) R = ------ + ------.I + ------
1-b 1-b 1-b
et cette liaison entre une variable explicative et l'aléa fait que l'estimation des MCO de b est biaisée,
même si l'aléa ε satisfait les hypothèses des MCO (sous des hypothèses naturelles, on montre que la
valeur véritable de b est surestimée).
Les estimations par les MCO des coefficients de la forme structurelle sont en général biaisées; elles
sont cependant largement utilisées.
Forme réduite
a 1 ε
(1'.1) R = ------ + ------.I + ------
1-b 1-b 1-b
a b ε
(1'.2) C = ------ + ------.I + ------
1-b 1-b 1-b
ou, en renommant les coefficients (sans tenir compte des relations éventuelles qu'ils entretiennent) :
4
(1'.1) R = c0 + c1.I + ε1
(1'.2) C = d0 + d1.I + ε2
Le coefficient c1, égal à 1/(1-b), est appelé multiplicateur de l'investissement (sur le revenu).
Comme 1-b est inférieur à 1, ce multiplicateur est supérieur à 1, ce qui signifie qu'une augmentation
donnée de l'investissement produit une augmentation plus grande du revenu national. De même d 1,
égal à b/(1-b), est le multiplicateur de l'investissement sur la consommation.
La forme réduite d'un modèle est l'ensemble des relations (ou équations réduites) obtenues en
exprimant chacune des variables endogènes en fonction des seules variables exogènes, et des
endogènes retardées s’il y a lieu, avec lesquelles elles constituent l’ensemble des variables dites
prédeterminées. Elle s'obtient par élimination des variables endogènes entre les équations
structurelles.
Sous des hypothèses convenables sur les aléas, l'estimation par les MCO des équations de la forme
réduite donne des estimations sans biais de leurs coefficients.
A partir de ces estimations, on peut tenter de "remonter" aux coefficients de la forme structurelle en
utilisant les relations les liant aux coefficients de la forme réduite.
Traitons l'exemple 1. Soient C0 et C1, les estimations des coefficients de l'équation réduite (1'.1); en
utilisant les relations liant a et b à c 0 et c1, transposées aux coefficients estimés, on déduit les
estimations A et B, des coefficients de l'équation structurelle (1.1):
C0 C1-1
A = ------ et B = ---------
C1 C1
Le problème est que le passage des coefficients estimés de la forme réduite aux coefficients de la
forme structurelle n'étant pas linéaire, ces derniers ne sont plus sans biais. Ils le sont toutefois
asymptotiquement sous des hypothèses convenables.
Identification
En fait, dans l'exemple précédent, on aurait aussi bien pu aussi utiliser l'équation réduite (1'.2), ce
qui donne:
D0 D1
A = ------- et B = -------
1+D1 1+D1
Ces solutions ont toutes les chances d'être numériquement différentes des premières, l'équation
(1.1), qui admet plusieurs estimations par les MCI, est dite suridentifiable.
5
Plus contrariant encore est le cas où il est impossible de remonter aux coefficients de l'une des
équations structurelles, cette équation est dite sous-identifiable. Ainsi l'équation (3.2) du troisième
exemple.
Si le calcul est possible d'une seule manière, l'équation est identifiable, ainsi l'équation (3.1). Les
équations économétriques sont le plus souvent suridentifiées.
Une condition nécessaire d'identifiabilité (resp. de sur-identifiablité) pour une équation structurelle
est que le nombre de variables absentes de celle-ci soit égal (resp. supérieur) au nombre d'endogènes
du modèle moins un. Cette condition n'est malheureusement pas suffisante, comme l'illustre le
premier modèle examiné.
Autres exemples
p = (a1 – a2)/(b2 – b1) + c1.R/(b2 – b1) – c2.T/(b2 – b1) +(ε1 – ε2)/(b2 – b1)
q = (a1.b2 – a2.b1)/(b2 – b1) + c1.b2.R/(b2 – b1) – c2.b1.T/(b2 – b1) + (b2.ε1 – b1.ε2)/(b2 – b1)
p = α1 + β1.R + γ1.T + η1
q = α2 + β2.R + γ2.T + η2
et les six relations liant les coefficients réduits aux coefficients structurels:
constituent le système à résoudre par rapport aux 6 inconnues a1, b1, c1, a2, b2 et c2 pour identifier les
deux équations structurelles.
Sans en donner la solution explicite, montrons que l'identification est possible : (5) et (6) permettent
d'obtenir b1 et (3) et (4) b2; puis, b1 et b2 étant connus, (3) donne c1 et (5) donne c2, et on peut enfin
considérer (1) et (2) comme un système linéaire régulier donnant a 1 et a2. Le raisonnement fait
montre que la solution est unique : les deux équations sont identifiables, et le système est dit
identifiable.
6
L'exemple 3:
peut être étudié aisément en ôtant les termes en R des calculs précédents. On remarque d'abord
qu'on ne dispose que de 4 relations pour identifier les 5 coefficients structurels, situation a priori
défavorable... Un examen plus attentif montre qu'on peut obtenir a1 et b1, mais il n'y a aucun espoir
d'aller plus loin : l'équation (3.1) est identifiable, alors que (3.2) ne l'est pas elle, elle est trop vague
(de fait toute combinaison linéaire des deux relations en est fonctionnellement indiscernable).
Interprétation géométrique
Un exemple plus simple encore que ceux qui précédent, est celui, classique, du modèle de base
d’offre-demande; sa forme structurelle est:
et sa forme réduite:
où q0 et p0 sont des constantes, solutions à l’équilibre, dont on ne détaille pas les expressions par
rapport aux coefficients a1, b1, a2 et b2, et η1 et η2 les perturbations aléatoires, déduites de celles de la
forme structurelle.
Il est parfaitement clair que la connaissance des deux valeurs: q 0 et p0, ou plus exactement de leurs
estimations, ne peut permettre de remonter à celle des quatre coefficients: a1, b1, a2 et b2, des deux
équations structurelles: ces équations, et le modèle, ne sont pas identifiables. En termes
géométriques, la connaissance d’observations aléatoirement réparties autour du point d’équilibre
(p0,q0) ne permet pas d’identifier les deux droites qui s’y croisent, il y a une infinité de couples de
droites sécantes qui conviendraient (Fig.1).
Considérons à présent le modèle (3) du début, dans lequel l’offre dépend également d’un facteur
climatique T. Si pour diverses valeurs Ti, on dispose d’une ou plusieurs observations à proximité du
point d’équilibre correspondant, on voit qu’on peut maintenant estimer la fonction de demande
(Fig.2).
On peut juger étrange que l’ajout d’une variable à une équation structurelle puisse rendre
identifiable l’autre équation, cela illustre au contraire le fait que l’identifiabilité est une propriété
associée à chaque équation, mais qui dépend globalement de l’ensemble du modèle. Il convient
toutefois de comprendre qu’il ne s’agit pas d’un simple jeu d’écriture, le phénomène précédent
n’aurait pas eu lieu si la variable T n’intervenait pas réellement dans la fonction d’offre.
7
Fig.1 Fig.2
T1
q q T2
*
T3
* * *
q0 * * *
* * *
* T4
p0 p p
Une grande variété de méthodes ont été proposées pour estimer les modèles à équations
simultanées, on indique les plus usuelles.
On a vu sa faiblesse; il est cependant des cas où elle conduit à des estimations correctes, ainsi les
modèles récursifs, dans lesquels une endogène n'apparaît comme explicative que si elle est
expliquée par une équation précédente.
On a expliqué son principe; elle est réservée au cas peu fréquent d'équations juste identifiables.
On considère une équation structurelle supposée expliquer une certaine variable endogène par
différentes variables endogènes et exogènes.
La méthode des variables instrumentales opère en deux étapes. On substitue d'abord aux endogènes
intervenants comme explicatives leurs valeurs ajustées par régression (par les MCO) sur un
ensemble choisi de variables exogènes, prédéterminées, voire extérieures au modèle: les
instruments.
On espère ainsi, par un choix convenable des variables intrumentales, obtenir des variables peu
corrélées avec l'aléa, mais représentatives de celles qu'elles remplacent.
On opère ensuite la régression par les MCO à l'aide de ces variables ajustées et des exogènes
initialement présentes dans l'équation étudiée.
8
Dans le cas où l'on prend comme instruments l'ensemble des variables exogènes et prédéterminées
(pour de petits modèles), la méthode est parfois appelée: méthode des doubles moindres carrés
(DMC).
Ces méthodes sont à utiliser pour les équations identifiables ou sur-identifiables. On montre que la
méthode des doubles moindres carrés (DMC) est équivalente aux moindres carrés indirects (MCI)
dans le cas d'une équation juste identifiable.
Sous des hypothèses assez générales, les estimations des DMC sont consistantes, propriété qui
disparaît malheureusement dans le cas, fréquent, d’endogènes retardées et d’autocorrélation de
l’aléa.
Exemple : on a réestimé par les doubles moindres carrés la fonction de consommation du modèle de
Klein, déjà utilisée en exemple dans les chapitres précédents
Les trois méthodes précédentes sont des méthodes d'estimation "équation par équation". D'autres
méthodes, mathématiquement plus complexes, estiment globalement l'ensemble des équations d'un
modèle, pour tenir compte, par exemple, de la vraisemblable corrélation entre les aléas des
différentes équations.
La méthode des triples moindres carrés commence par estimer chaque équation par les DMC (ou
les variables instrumentales), puis utilise les résidus de cette première étape pour estimer la liaison
entre les aléas des différentes équation et utilise enfin les moindres carrés généralisés (MCG) pour
estimer globalement l’ensemble du modèle en tenant compte de cette information.
Dans le cas d’équations apparemment indépendantes (l’endogène de l’une n’étant pas explicative
d’une autre), la méthode, qui veut néanmoins exploiter la liaison vraisemblable des aléas des
différentes équations, porte le nom de méthode SUR (« Seemingly Unrelated Regressions »).
PRÉVISION, SIMULATION
Les modèles véritablement réalistes et intéressants sont les modèles autorégressifs, introduisant des
endogènes retardées, tel le modèle (5) par l'équation (5.3). On donne sa forme réduite (sans les
termes d'aléas):
I = b0 + b1.R-1 + b2.r-1
En utilisant les valeurs estimées des coefficients et en faisant des hypothèses quant aux valeurs des
exogènes (T et M) à la période prochaine, on peut faire une prévision pour les endogènes (R, C, I et
r) en cette période.
Le procédé peut être itéré pour la période suivante en intégrant en outre les prévisions précédentes
pour les endogènes retardées (R-1 et r-1), et ainsi de suite. Cela s'appelle faire tourner le modèle, ou
encore faire de la simulation. Celle qui vient d'être exposée est dite ex ante, elle est conditionnée par
les hypothèses faites sur les valeurs futures des exogènes.
On peut également utiliser les observations passées, postérieures toutefois à celles qui ont servi aux
estimations, pour faire de la simulation ex post, ce qui permet de tester l'efficacité du modèle, et
éventuellement de le perfectionner.
On peut encore examiner les conséquences d'une modification des coefficients (traduisant par
exemple une évolution de la fonction de consommation).
R : le revenu national
C : la consommation privée
I : l'investissement
G : les dépenses publiques
X : les exportations nettes
t : le taux d'imposition
r : le taux d'intérêt
M : l'offre de monnaie
P : le niveau des prix
M
(5) ----- = (k.R - h.r) demande de monnaie
P
Si on se limite à ces cinq équations, en prenant comme exogènes, les prix: P (considérés comme
fixes à court terme), les dépenses publiques: G, l'offre de monnaie: M, et le taux d'imposition: t
10
(grandeurs fixées par les autorités), on obtient un modèle statique d'équilibre, les "ajustements"
s'opérant sur les endogènes: la consommation, les exportations, etc.
Résolution partielle
Il est évidemment possible de résoudre le modèle, c'est à dire de déterminer sa forme réduite, qui
voit chacune des cinq endogènes exprimée en fonction des seules exogènes; il est cependant d'usage
de considérer deux courbes (en l'occurrence deux droites) issues d'une résolution partielle du
modèle, reliant R et r en fonction des exogènes.
a+e+g 1 - b.(1-t) + m 1
r = -------------- - --------------------.R + --------.G courbe IS
d+n d+n d+n
k 1 M
r = ----.R - ----.---- courbe LM
h h P
Le point d'intersection: (R0, r0), donne les valeurs de R et r à l'équilibre. L'observation d'un tel
graphique permet par exemple d'examiner l'incidence d'une politique fiscale (action sur G, qui
déplace la courbe IS), ou d'une politique monétaire (action sur M, qui déplace LM).
r
G croît
courbe courbe LM
IS
r0 M croît
R0 R
Modèle dynamique
On introduit la dynamique dans le modèle par l'évolution du niveau des prix. Les prix sont
maintenant endogènes, et l'une des formulations proposées est la suivante:
P P-1 R-1 - R*
(6) ---- = l.------ + f.---------- + Z
P-1 P-2 R*
11
dans cette équation, le premier terme de droite est un terme d'inflation anticipée, le second terme
traduit la loi de Phillips, où R* désigne le revenu de plein emploi, considéré comme stable à court et
moyen terme, et Z permet d'introduire un choc exogène sur les prix (par exemple à la suite d'une
augmentation du prix mondial du pétrole).
Cette équation introduit la dépendance entre les périodes pour l'ensemble du modèle.
M
(d+n).----- = -h.(a+e+g) - h.G + {k.(d+n) + h.[m - b.(1-t)]}.R
P
P1
P0
G croît
R* R1 R0 R
X = g - m.R - n.(E.P/Pw)
où E désigne le taux de change nominal, et Pw, le niveau des prix étrangers, exogène. Le facteur
E.P/Pw est alors le taux de change réel.
En régime de taux de change fixe, le taux nominal: E, est exogène; en régime de taux de change
flexible, E est endogène, et déterminé dans le modèle par une équation qui pourrait être:
E.P/Pw = q + v.r
----===oo0Θ0oo===----
(09.10.2013)
Économétrie des données de Panel Dr. Montassar Zayati
Présentation
Ce cours est une initiation, tant sur le plan théorique que sur le plan appliqué, à
l’économétrie des données de panel. Effectivement, nous allons présentés les techniques
les plus courantes de modélisation des données de panel, et ce par le biais d’un volet
théorique et un autre empirique. On débutera par une présentation des problèmes de
spécifications de base en économétrie de panel et par les méthodes d’estimation
traditionnelles.
L’objectif est de faire en sorte que le lecteur puisse interpréter, de façon exhaustive et
relativement approfondie, les résultats de base que donnent les principaux logiciels
d’économétrie lorsque l’on envisage des modèles de panel. Nous prendrons ici comme
référence les logiciels STATA et Eviews, mais il est bien entendu évident que ces
résultats de base sont sensiblement identiques si l’on considère d’autres logiciels comme
SAS, Rats ou TSP.
Nous souhaitons, ainsi, présenter les connaissances minimales nécessaires pour pouvoir
interpréter un tableau de résultats d’estimation de panel, comme par exemple :
Sommaire
Introduction
2
Économétrie des données de Panel Dr. Montassar Zayati
Introduction
Les données utilisées en économétrie sont le plus souvent des séries chronologiques ou en
coupe instantanée concernant une période donnée.
Les données de panel, ou données longitudinales possèdent les deux dimensions précédentes
(individuelle et temporelle). En effet, il est souvent intéressant d’identifier l’effet associé à
chaque individu (un effet qui ne varie pas dans le temps, mais qui varie d’un individu à un
autre). Cet effet peut être fixe ou aléatoire.
Par conséquent, le modèle en données de panel s’écrit comme un modèle à double indice qui
prend la forme suivante :
:1 ⟶
= + +� avec
:1 ⟶
La double dimension qu’offrent les données de panel est un atout majeur. En effet, si les
données en séries temporelles permettent d’étudier l’évolution des relations dans le temps,
elles ne permettent pas de contrôler l’hétérogénéité entre les individus. A l’inverse, les
données en coupes transversales permettent d’analyser l’hétérogénéité entre les individus
mais elles ne peuvent pas tenir compte des comportements dynamiques, puisque la dimension
temporelle est exclue du champ d’analyse.
Ainsi, en utilisant des données de panel, on pourra exploiter les deux sources de variation de
l’information statistique :
- Temporelle où variabilité intra-individuelle (within)
- et individuelle ou variabilité inter-individuelle (Between).
Remarques 1 :
- L’augmentation du nombre d’observations permet de garantir une meilleure précision
des estimateurs, de réduire les risques de multi colinéarité et surtout d’élargir le champ
d’investigation.
- Le panel considéré n’est pas nécessairement complet (cylindré) où toutes les unités
statistiques sont observés durant la même période considérée. Il peut s’agir d’un panel
incomplet, non cylindré.
Remarques 2 :
- Théoriquement, les méthodes proposées supposent que la dimension individuelle est
infinie (on peut prendre des centaines, ou des milliers d’entreprises) et que la
dimension temporelle est finie. D’où l’intérêt de contrôler l’hétérogénéité individuelle
qui peut être supposé fixe ou aléatoire.
3
Économétrie des données de Panel Dr. Montassar Zayati
= + +�
Toutefois, lorsqu’on travaille sur des séries agrégées, il est peu probable que la fonction de
régression, soit strictement identique pour tous les individus étudiés. Ainsi, il convient de
tester si les élasticités des différents facteurs ( ) sont identiques. Si ce n’est pas le cas, il
n’existe à priori aucune structure d’estimation commune entre les pays (individus), et donc
l’utilisation des données de panels ne se justifie pas et peut même conduire à des biais
d’estimation. On doit, alors, estimer les fonctions individu par individu.
En revanche, s’il existe bien une relation identique pour toutes les élasticités, alors la
source d’hétérogénéité ne peut provenir que des constantes ( ). Or, rien ne garantit que les
pays étudiés possèdent le même niveau moyen de la variable endogène. Au contraire, il se
peut parfaitement que des facteurs e-temporels ou structurels (comme la position
géographique, le climat, l’éloignement par rapport au grands axes commerciales…) pouvaient
conduire à des différences structurelles entre les individus.
Dans ce cas, le niveau moyen des facteurs, déterminer par + � = ; varie selon
les pays même si les élasticités du modèle ( ) sont les même. On obtient alors un modèle
avec effets individuels qui s’écrit sous la forme :
= + +�
4
Économétrie des données de Panel Dr. Montassar Zayati
vraie rejetée
Eco
1. Test de Spécification2 :
1.1. Hétérogénéité des Comportements :
1
=
� 0: = ∀ ∈ 1,
5
Économétrie des données de Panel Dr. Montassar Zayati
′
SCR c’est la somme des carrés résiduels du modèle (1) : = + +�
= =1 pour chaque individu (pays).
SCRc est celle du modèle contraint (modèle d’homogénéité totale ou Pooled) : elle
est calculée en estimant le modèle sur l’échantillon complet à NT observations.
= + ′ +� .
Pour notre modèle les résultats sont les suivantes : � = 0.645096 et = 0.188292.
( �− )/( −1)( +1) (0.645096 − 0.188292 )/(4∗4)
Donc �1 = = = 9,097 .
/[ − +1 ] 0.188292 /[80−5 4 ]
La statistique ainsi calculée est supérieure à F(16 ; 60) ≈ 2.13 du tableau de Fisher ; on rejette
alors l’hypothèse 01 d’une parfaite homogénéité du modèle et on passe au deuxième test.
( ′
�− )/ −1
La statistique du test est la suivante : 2 =
/[( − +1 ]
Avec, ’� est la somme des carrés résiduels du modèle contraint à effet individuels :
′
= + +�
Ici les estimateurs (Withen) des paramètres αi et β sont obtenus en centrant les variables sur
les moyennes individuelles respectives. C’est le même que l’estimateur à effet fixe donné
par Eviews et STATA ou l’estimateur Last Squar Damy Variable (LSDV) calculé par le
logiciel TSP.
Les résultats d’estimation dans notre modèle sont les suivantes : ’� = 0.261937
( ′ (0.261937−0.188292)/(4∗3)
�− )/ −1
�2 = = = 1,9556.
/[( − +1 ] 0.188292/[(80−5 4 ]
Cette valeur est inferieur à celle du tableau de Fisher F(12 ; 60) ≈ 2.3. Ainsi, on accepte
l’hypothèse 02 et on admet le modèle de panel avec homogénéité des coefficients βi et on
passe au test suivant d’homogénéité des coefficients αi.
( ′
�− � )/( −1)
La statistique de ce test est la suivante : 3 = ′
� /[ −1 − ]
6
Économétrie des données de Panel Dr. Montassar Zayati
( ′
�− � )/( −1) (0.645096 −0.261937)/4
�3 = ′ = = 26,33 > (4 ; 72) ≈ 5,63
� /[ −1 − ] 0.261937/[5 15 −3]
On rejette, alors, l’hypothèse H03 pour opter à un modèle de panel à effet individuel causé par
l’hétérogénéité de la constante αi. Il ne reste maintenant que de déterminer la nature de cet
effet (fixe ou aléatoire) par le test d’Hausman.
d) Test d’Hausman :
C’est un test qui sert à discriminer les effets fixes et aléatoires des effets individuels dans un
modèle des données en panel. Il s’agit de tester la présence éventuelle d’une corrélation ou
d’un défaut de spécification (corrélation entre des effets individuels et des variables
explicatives). Le test est le suivant :
4
0 : E(αi / Xi)=0
4
0 : E(αi / Xi) ≠ 0
Sous l’hypothèse 04 , les effets individuels sont aléatoires, alors la méthode adéquate pour
l’estimation est la Méthode des Moindres Carrés Généralisés (MCG). Sinon, sous l’hypothèse
4
0 , l’estimateur utilisé est l’estimateur Within.
La statistique du test d’Hausman est égal à 104,378 et présente une probabilité statistique
de 0,0000 donc on va rejeter l’hypothèse H0, et opter pour un modèle de panel à effet fixe.
7
Économétrie des données de Panel Dr. Montassar Zayati
Nous allons à présent nous concentrés sur les modèles de panel hétérogènes, où la seule
source d’hétérogénéité provient des constantes individuelles. On suppose ainsi que les
coefficients des différentes variables stochastiques explicatives sont identiques pour tous les
individus du panel ( = ). On suppose en outre que ces coefficients sont des constantes
déterministes. Les constantes individuelles ; quant à elles, diffèrent selon les individus.
= + +�
Les innovations � sont supposées être i:i:d: de moyenne nulle, de variance égale à
��2 ;
∀ ∈ [1; ] et sont supposées non corrélées que ce soit dans la dimension individuelle ou
dans la dimension temporelle.
Dès lors, dans ce contexte, on doit distinguer deux cas : le cas où les paramètres sont
des constantes déterministes (modèle à effets fixes) et le cas où les paramètres sont des
réalisations d’un variable aléatoire d’espérance et de variance finie (modèle à effets
aléatoires). Nous allons donc successivement envisager ces deux types de modèle.
On fait maintenant l’hypothèse que les effets individuels sont représentés par des
constantes (d’où l’appellation modèle à effets fixes). Nous allons déterminer la forme
générale des estimateurs des paramètres et dans ce modèle à effets fixes.
Hypothèses :
- Le modèle à effets fixes individuels présente une structure des résidus qui vérifient les
hypothèses standards des MCO. Il s’agit en fait d’un modèle classique avec variables
indicatrices individuelles.
- nous allons faire une hypothèse supplémentaire sur la nature du processus des résidus
� . Cette hypothèse constitue tout simplement la généralisation dans la dimension de
panel de la définition d’un bruit blanc ∀ ∈ 1; � ∈ 1; :
o � =0
2
o � � = �� =
0 ∀ ≠
o � � = 0 ∀ ≠ , ∀( , )
8
Économétrie des données de Panel Dr. Montassar Zayati
La troisième appellation LSDV tient au fait que cet estimateur conduit à introduire des
variables dummies.
Les estimateurs de ce modèle par la méthode des MCO sont les meilleurs estimateurs
linéaires, sans biais et convergents (BLUE 3 ). Dans la pratique, l’estimateur des MCO ou
LSDV est obtenu à partir d’un modèle transformé où les différentes variables du modèle sont
centrées par rapport à leurs moyennes individuelles respectives. On retient, alors, la
spécification suivante :
= − 1
= +� Avec = − et =
� =� −� =1
Les réalisations des estimateurs des constantes sont déduites au point moyen, après
estimation des paramètres par MCO sur le modèle transformé précédent.
�
= −
=1
Remarque importante :
Il est conseillé dans le cas où le panel est non cylindré d’utiliser l’option robuste
(estimateur à effet fixe robuste) de manière à tenir compte de l’hétéroscédasticité des erreurs,
puisque la variance des erreurs du modèle transformé n’est pas constante. En effet, on vérifie
que : � � = ��2
−1
Limites :
Outre le fait que la variabilité inter-individuelle n’est pas exploitée pour estimer les
paramètres structurels du modèle, une limite inhérente au modèle à effets fixes réside dans le
fait que l’impact des facteurs invariants à travers le temps ne peut être identifié. Ceci constitue
une limite au niveau de l’analyse économique, puisqu’il revient à restreindre le champ
d’analyse économique de l’étude.
3
Best Linear Unbiased Estimator
9
Économétrie des données de Panel Dr. Montassar Zayati
différemment suivant la période et l’individu considéré. Il peut en outre exister des facteurs
qui affectent de façon identique l’ensemble des individus, mais dont l’influence dépend de la
période considérée (effets temporel). Enfin, d’autres facteurs peuvent au contraire refléter des
différences entre les individus de type structurelles, c’est à dire indépendantes du temps
(effets individuel).
Dès lors le résidu, noté � ; d’un modèle de panel peut être décomposé en trois principales
composantes de la façon suivante (Hsiao 1986) :
∀ ∈ 1; � ∈ 1; ; � = +� + �
Les variables désignent ici les effets individuels qui représentent l’ensemble des
spécificités structurelles ou a-temporelles de la variable endogène, qui différent selon les
individus. On suppose ici que ces effets sont aléatoires. Les variables aléatoires �
représentent quant à elle les effets temporels strictement identiques pour tous les individus.
Enfin, le processus stochastique � désigne la composante du résidu total � orthogonale aux
effets individuels et aux effets temporels. Généralement, on est conduit à faire un certain
nombre d’hypothèses techniques sur cette structure de résidus.
Hypothèses :
o = � = � =0
o � = �� = � =0
2
� =
o =
0 ∀ ≠
2
o � � = �� =
0 ∀ ≠
�2 = ; =
o � � = �
0 ∀ ≠ ;∀ ≠
o = � = � =0
Dans ce cours, en raison de simplification, l’effet temporel est négligé. Nous supposerons
qu’il n’existe pas (panel statique).
10