Cours Econometrie

Economtrie applique
Matrise sciences conomiques
Cours de Claude Meidinger
Whenever you can, count. Galton (1822-1911)
Table des matires

1 La rgression linaire 1.1 Le principe . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Interprtation . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Rgression linaire simple . . . . . . . . . . . . 1.2.2 Regression linaire multiple . . . . . . . . . . . 1.3 Mesure (descriptive) de la qualit de lajustement linaire 1.3.1 Trois concepts diffrents de la variation de y . . 1.3.2 Mesure de la qualit de lajustement linaire . . 1.4 Une illustration . . . . . . . . . . . . . . . . . . . . . . 1.5 La multicolinarit . . . . . . . . . . . . . . . . . . . . 1.6 Complments mathmatiques . . . . . . . . . . . . . . . 1.6.1 Reprsentation gomtrique . . . . . . . . . . . 1.6.2 Projection et qualit de lestimation . . . . . . . 5 5 7 7 8 9 9 10 11 14 16 16 17
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
2 Estimation des paramtres et tests dhypothses. Principes gnraux 2.1 Estimation : relations entre les coefcient de rgression et les paramtres thoriques . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Le principe . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Les tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Test de lhypothse c = 0 : F global . . . . . . . . . . . 2.2.2 Test de lhypothse k = 0 : t-test . . . . . . . . . . . . .
23 25 25 28 33 33 35
3 Tests de restriction linaires et variables muettes 39 3.1 Tests de restriction linaires sur les paramtres du modle . . . . . 39 3.1.1 Approche gnrale . . . . . . . . . . . . . . . . . . . . . 39 3.1.2 Applications : tests de changement structurel . . . . . . . 44 3
TABLE DES MATIRES

4 Les moindres carrs gnraliss : Htroscdasticit et Autocorrlation 4.1 Le principe des MCG . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Htroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Les tests . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Les remdes . . . . . . . . . . . . . . . . . . . . . . . . 4.3 LAutocorrlation . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Les tests dautocorrlation AR(1) : t = t1 + ut . . . . 4.3.3 Les remdes . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Complments mathmatiques . . . . . . . . . . . . . . . . . . . . 5 Endognit et variables instrumentales 5.1 Endognit des rgresseurs . . . . . . . . . . . . . . . . . . 5.1.1 Les sources de lendognit . . . . . . . . . . . . . . 5.2 Correction des biais : la mthode des variables instrumentales . 5.3 Lidentication . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Suridentication et doubles moindres carrs . . . . . . . . . . 5.5 Complments Mathmatiques . . . . . . . . . . . . . . . . . 5.5.1 En rgression simple . . . . . . . . . . . . . . . . . . 5.5.2 En rgression multiple . . . . . . . . . . . . . . . . . A Rappels dalgbre linaire B Tables statistiques C Introduction la thorie des probabilits
49 49 51 52 53 55 55 57 59 62 65 65 65 68 71 74 77 77 79 83 89 95
. . . . . . . .
. . . . . . . .
Chapitre 1 La rgression linaire

1.1 Le principe
Une tude conomtrique cest : un ensemble de propositions concernant certains aspects de lconomie spcie des relations entre certaines variables : modle une investigation empirique destine fournir des informations sur les paramtres des relations fonctionnelles (estimation) et sur la validit de ces relations (tests) Pour le moment : le modle linaire exprime une variable dpendante y comme fonction de une ou plusieurs variables indpendantes x1 , ..., xk , ..., xK . exemple 1 : (Pindick et Rubinfeld 1999) 5 variables : loyer (LOY ER), nombre de personnes (NBREpers), nombre de chambre (NBREch), sexe (Sexe) et distance entre appartement et campus (DIST ). Ajustement ou regression linaire de LOY ER sur les 4 autres variables :
(1.1) LOY ER = 1 + 2 NBREpers + 3 NBREch + 4 Sexe + 5 DIST qui est du genre : y = 1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 avec x1 :variable constante, prenant toujours la valeur 1, do : y = 1 + 5 k xk k=1 Sil ny a quune seule variable explicative (en plus de la constante) on a une rgression linaire simple, autrement il sagit dune rgression linaire multiple. exemple 2 (Pindick et Rubinfeld 1999) : dpenses trimestrielles en voitures neuves (DeV oitN) et salaires trimestriels (Salaires) (Ex3-3) 5
CHAPITRE 1. LA RGRESSION LINAIRE

DeV oitN = 1 + 2 Salaires du type : y = 1 + 2x2 Rgression linaire sur un chantillon de n observations pour chaque variable, i [1, N] : dans le cas de variables y, x1 , ..., xk , ...xK cela donne K + 1 vecteurs colonnes suivants du type : y1 , x1 , ..., xk , ...xK y y1 . . . yi : yN x1 1 . . . 1 : 1 xk x1k . . . xik : xN k xK x1K : xiK : xN K
TAB . 1.1 variables y et xi Et en particulier, la matrice des observations concernant les variables indpendantes est note X(N,K) . Do, tant donns y et X : calculer les coefcients de rgression, cest dire les paramtres de la relation linaire. colonne k de X : note xk ligne i de X : note xi Soit (1 , 2 , ..., K ) = vecteur quelconque, pour lobservation i, on compare yi et 1 + K k xik , gnralement diffrents, soit ei cet cart : ei = yi 1 + k=2 K k xik Lajustement par les moindres carrs consiste minimiser la somme k=2 des carrs des carts :
N K 2
min
i=1
yi 1
k xik
k=2
Calcul des coefcients de la rgression : Soit e le vecteur des carts : e = y X do la somme des carrs des carts
N
ee=
i=1
e2 = (yX)(yX) = (y X )(yX) = y y X yy X+ X X i = X y y X + 2X X = 2X y + 2X X = 0 en minimisant cela
do
d(e e) d
donne : X X = X y et la solution = (X X)1 X y
Economtrie applique y
yi yi y = 1 + 2 x2
x2 F IG . 1.1 Droite de rgression
1.2 Interprtation
1.2.1 Rgression linaire simple
y = 1 + 2 x2 1 x12 . . = . . . . 1 xN 2 yi i xi2 yi
i
X X =
x1 x2
x1 x2
1 ... 1 x12 . . . xN 2
N i xi2
xi2 2 i xi2
i
X y =
1 ... 1 x12 . . . xN 2
Donc (X X) = X y donne un systme de deux quations normales : (1.2) N1 + ( (1.3) (

i
y1 . . . yi = . . . yN
xi2 )2 =
i i
yi . . . . . . (1) =
i
xi2 )1 + (
i
x2 )2 i2
xi2 yi . . . . . . (2)
(1) en divisant tout par N cela donne 1 + 2 x2 = y donc la droite de rgression passe par (y, x2 ) Si lon remplace 1 par y 2 x2 dans (2) on a alors : 7

(2) ( i xi2 )(y 2 x2 + ( i x2 )2 = i xi2 yi i2 do : 2 [ x2 x2 xi2 ] = xi2 yi y i2
i i i
xi2
i
2 [
i
x2 i2
Nx2 ] 2
=
i
xi2 yi y xi2
2
i
(xi2 x2 )2 = =
Sy2 S22
(xi2 x2 )(yi y)
Soit donc 2 =
i (xi2 x2 )(yi y) 2 i (xi2 x2 )
et 1 = y 2 x2
Interprtation de 2 : un diviseur prs (par le nombre dobservation-1) Sy2 mesure la covariation entre y et x2 et le signe de 2 est dtermin par le sens de cette covariation. y
y = 1 + 2 x2 y
x2 F IG . 1.2 Sens des covariations
x2
La Figure 1.2 montre le cas dune covariation positive : lorsque yi > y, le plus souvent xi > x. On a donc : Sy2 > 0
1.2.2 Regression linaire multiple

cas de 3 variables :y = 1 + 2 x2 + 3 x3 x1 X X = x2 x1 x2 x3 x3 N i xi2 i xi3 8 xi2 x2 i i2 xi3 xi2 i
i
xi3 matrice symtrique i xi2 xi3 2 i xi3

i
Economtrie applique yi do les trois quations normales suivantes : i xi2 yi i xi3 yi

i
X y =
de (1) en divisant tout par N on obtient :1 + 2 x2 + 3 x3 = y donc le plan de rgression passe par y, x2 , x3 avec 1 = y 2 x2 3 x3 remplac dans (2) et (3) on a : 2
i
N1 + beta2 i xi2 + beta1 i xi3 = i yi . . . (1) x + 2 i x2 + 3 i xi2 xi3 = i xi2 yi . . . (2) i2 1 i i2 1 i xi3 + 2 i xi3 xi2 + 3 i x2 = i xi3 yi . . . (3) i3
(xi2 x2 )2 + 3
(xi2 x2 )(xi3 x3 ) = (xi3 x3 )2 =
(xi2 x2 )(yi y) (xi3 x3 )(yi y)
2
i
(xi3 x3 )(xi2 x2 ) + 3
Ou encore : 2 S22 + 3 S23 = Sy2 2 S32 + 3 S33 = Sy3 Donc les 2 et 3 sont fonction des covariations non seulement entre y et (x2 et x3 ) mais aussi entre x2 et x3 .
1.3 Mesure (descriptive) de la qualit de lajustement linaire

1.3.1 Trois concepts diffrents de la variation de y
On pose :
K
yi = 1 +
k=2
k xik
do y = X b et les rsidus sont les ei = yi yi do le vecteur des rsidus ei = y X b. Variation totale : TSS = i (yi y)2 = Syy (total sum of squares) Variation explique : ESS = i (yi y)2 (explained sum of squares) 2 2 Variation rsiduelle : RSS = i (yi yi ) = i (ei ) (residual sum of squares) Ces trois quantits sont lies par le rsultat fondamental : 9

TSS = ESS + RSS Dmonstration : Prliminaires : quelques proprits des rsidus. Avec e = y X on a dabord : X X = X y X X X y = 0 = X (X y) = X e = 0 do, dans le cas dune rgression avec constante : x1 e = 0 soit encore i ei = 0 et donc e = 0. On a galement : y = y + e et x1 y = x1 y + x1 e = x1 y donc : i x1 yi = i yi Comme e = y X = y X(X X)1 X y = [I X(X X)1 X ]y, 2 soit : e = My . My est une matrice symtrique idempotente (My = My = My My ) Do : RSS =
i e2 = e e = (My ) (My ) = y My My y = y My y i
y y y X = y y y y
= y [I X(X X)1 X ]y = y y y X(X X)1 X y
Cette dernire expression est gale TSS ESS : en effet : TSS ESS = 2 2 2 2 i (yi y) = i yi i yi puisque i yi = i yi . Or : i (yi y)
2 yi = y y = (X ) (X ) = X X = [(X X)1 X y] X X i
= y X(X X)1 (X X) = y X = y y Do TSS = ESS + RSS
1.3.2 Mesure de la qualit de lajustement linaire

Le coefcient de dtermination : ESS RSS est compris entre 0 et 1. Il reprsente la part de la variation totale explique par la rgression linaire do : R2 = ESS = R2 TSS RSS = TSS ESS = (1 R2 ) TSS do les deux cas extrmes : 10
Economtrie applique R2 = 0 : ESS = 0 = i (yi y)2 yi = y, i ce qui correspond 2 = 3 = . . . = K = 0. En effet, le modle simple y = 1 entraine min1 (yi 1 )2 1 = y do yi = y. Globalement (x2 , . . . , xK ) nexplique rien par rapport un modle o on pose yi = y R2 = 1 : RSS = 0 = i e2 ei = 0 i do yi = yi i. Le modle i explique parfaitement les donnes. Voir le listing : le document 1 du cours, pour ESS, RSS, TSS, et R2 : les exemples 1 et 2.
1.4 Une illustration

exemple 3 : chantillon de 5 personnes, y :salaire, x2 :annes dducation,x3 :annes dexprience au travail (y est en milliers de dollars). y 30 20 36 24 40 x2 4 3 6 4 8 x3 10 8 11 9 12
Pour le calcul il est parfois commode dutiliser les observations centres par rapport aux valeurs moyennes : On a vu que : 2 s22 + 3 s23 = sy2 2 s32 + 3 s33 = sy3 soit s22 s23 s32 s33 do si lon note "c" pour centr : x12 x2 x13 x3 . . . . . . Xc = xi2 x2 xi3 x3 . . . . . . xN 2 x2 xN 3 x3 11 2 3 sy2 sy3

c = 2 3
Il vient que c = (Xc Xc )1 Xc yc car Xc Xc c = Xc yc dautre part : T SS = 2 i (yi y) = yc yc galement : y i = 1 + 2 xi2 + 3 xi3 y = 1 + 2 x2 + 1 x3 donc yi y = 2 (xi2 x2 ) + 3 (xi3 x3 ) do ESS = 2 y y i (yi y) = ( y) ( y) avec y vecteur des composantes et y y = Xc c (daprs les deux lignes au-dessus) do :
y1 y . . . yc = yi y . . . yN y
ESS = (Xc c ) (Xc c ) = c Xc Xc c = c Xc yc Do pour calculer les caractristiques de la rgression de y sur x2 , x3 il faut utiliser les lments de la matrice symtrique : syy sy2 sy3 s2y s22 s23 s3y s32 s33
Xc Xc =
s22 s23 s32 s33 sy2 sy3
Xc y c =
sy2 sy3
et :
= c
s22 s23 s32 s33
, 1 = y 2 x2 3 x3
Pour les calculs des sij , il convient dutiliser la formule suv = v) = i uivi Nuv do : do syy = 272,sy2 = 62,sy3 = 52,s22 = 16,s23 = 12,s33 = 10 do 162 + 123 = 62 122 + 103 = 52 2 3 = 1 16 10 122 10 12 1216 12 62 52 =
T SS = syy , ESS = c X yc = 2 sy2 + 3 sy3 c 2 ESS R = T SS
i (ui u)(vi
0.25 5.5
Economtrie applique y 30 20 36 24 40
i
x2 4 3 6 4 8
x3 10 8 11 9 12
yx2 ... ... ... ... ... ... ...
yx3
x2 2
x2 3
x2 x3
yi = 150 25 50 y = 30 x2 = 5 x3 = 10
et 1 = 30 (0.25) 5 5.5 10 = 23.75 R2 = 1 272 0.25 5.5 62 52 = 0.998 ESS(x2 , x3 ) = 271.5
Lquation de rgression scrit : y = 23.75 0.25x2 + 5.5x3 Ce sont les annes dexprience dans lentreprise qui sont importantes (effet positif). A x2 constant, une anne de plus accroit le salaire de 5 500$. Par contre, avoir plus dannes dducation a un effet ngatif sur le salaire. Commentaire sur lordonne lorigine : il est dangereux dextrapoler hors chantillon... Supposons quon ait fait une rgression linaire de y juste sur x2 . Dans ce cas : 2 = Sy2 = 3.875 S22
ESS(x2 ) = 2 Sy2 =
(Sy2 )2 = 240.25 R2 = 0.883 S22
Si lon fait prsent une rgression de y juste sur x3 , dans ce cas : 3 = Sy3 = 5.2 S33
ESS(x3 ) = 3 Sy3 =
(Sy3 )2 = 270.4 R2 = 0.994 S33
Do, sans x3 , leffet de x2 sur y est positif. Mais avec x3 , leffet de x2 sur y est ngatif. Pourquoi ? Quel est le bon effet ? 13
1.5 La multicolinarit
Sur le plan de la mesure descriptive de la qualit de lajustement linaire (par rapport au R2 ). La part de variation explique par la rgression est une fonction non dcroissante du nombre de variables explicatives. Pour r < K :
K
RSS(x2 , . . . , xr ) = min sous la contraite r+1 = . . . = k = 0.
1 ,...,K
(yi i
k xik )2
k=2
RSS(x2 , . . . , xK ) = min
1 ,...,K
(yi i
k xik )2
k=2
Sans la prcdente contrainte. Donc le minimum obtenu ici sans contrainte ne peut par dnition qutre infrieur ou gal au minimum obtenu avec contrainte. En consquence : ESS(x2 , . . . , xr ) ESS(x2 , . . . , xr ) Dans notre illustration prcdente : ESS(x2 , x3 ) = 271.5 ESS(x2 ) = 240.25 ESS(x3 ) = 270.40 Dans une rgression, la mesure de la contribution dune variable lexplication de la variation totale de y dpend des autres variables explicatives prises conjointement en considration. Pour y, x2 , x3 par exemple, quelle est la contribution de x2 ? La rgression simple de y sur x2 donne : ESS(x2 ). La rgression multiple de y sur x2 , x3 donne : ESS(x2 |x3 ) = ESS x2 , x3 ESS(x3 ). En rgle gnrale, ces deux quantits sont diffrentes. Dans le cas de notre illustration : ESS(x2 ) = 240.25 ESS(x2 |x3 ) = 272 270.40 = 1.60 La raison de cette diffrence est lexistence de covariations entre les variables explicatives. Il y a un problme de multicolinarit. Avec y, x2 , x3 : supposons cov(x2 , x3 ) = 0, cela implique que S23 = S32 = 0. Dans ce cas :
Xc X c =
S22 0 0 S33 14
Economtrie applique do : 1 S22 c = (Xc Xc )1 Xc yc = 0 0 1 S33 Sy2 Sy3 2 = 3 =

Sy2 S22 Sy3 S33
Les coefcients obtenus en rgression multiple sont donc les mmes que ceux obtenus en rgression simple de y sur x2 et de y sur x3 . On a galement :
ESS(x2 , x3 ) = c Xc yc = Sy2 S22 Sy3 S33
Sy2 Sy3
(Sy2 )2 (Sy3 )2 + S22 S33
= ESS(x2 ) + ESS(x3 ) do : ESS(x2 |x3 ) = ESS(x2 ). Dans le cas de rgresseurs orthogonaux, tout peut se ramener des rgressions simples. Dans le cas contraire, ce nest pas possible : le coefcient de rgression dune variable est fonction des autres variables explicatives, de mme que son pouvoir explicatif. Un biais de spcication peut rsulter de loubli de variables signicatives explicatives : le biais des variables manquantes. Pour y, x2 et x3 , on a : (1.4) (1.5) 2 S22 + 3 S23 = Sy2 2 S32 + 3 S33 = Sy3 (1) (2)
En divisant lquation (1) par S22 , on obtient : 2 + 3 Cest dire : 2 + 3 a32 = ay2 Ici a32 reprsente le coefcient de x2 dans la rgression simple de x3 sur x2 , ay2 reprsente le coefcient de x2 dans la rgression simple de y sur x2 . En consquent, si x3 est une variable explicative de y, 3 = 0 et cov(x2 , x3 ) = 0 donc S32 = 0 donc a32 = 0. Par consquent, le coefcient de x2 dans la rgression simple de y sur x2 , ay2 mlange deux effets : Un effet direct de x2 sur y : toutes choses gales par ailleurs (x3 constante). Cet effet est mesur par 2 . Un effet indirect de x2 sur y, via x3 : mesur par 3 a32 :
32 x2 x3 y
S23 Sy2 = S22 S22
15

Do le biais dans ay2 , menant mme parfois lapparition dune corrlation ctive entre deux variables (spurious correlation) : 2 = 0, mais ay2 = 3 a32 = 0. y x3 x2 Dans les cas o 2 = 0, ce biais peut inverser le signe du coefcient de rgression selon les autres variables explicatives. Dans lillustration : il est erron de dire que les annes dtude aprs le lyce ont une inuence positive sur le salaire sur la base dune rgression simple de y sur x2 donnant 2 = 3.875 et R2 = 0.883 (exemple 3). En ralit : ay2 = 2 + 3 a32 3.875 = 0.25 + 5.5 0.75
4.125
Leffet de x2 sur y est en fait ngatif. Leffet positif observ dans la rgression simple rsulte dune covariance positive entre x2 et x3 dans lchantillon et dun effet positif de x3 sur y (do un effet indirect positif de x2 sur y via x3 . Enn, les cas de multicolinarit extrme peuvent conduire labsence de so lution pour les coefcient de rgression car X X ou Xc Xc nadmettent pas dinverse.
1.6 Complments mathmatiques

1.6.1 Reprsentation gomtrique
On a cherch ici estimer le vecteur des coefcients tel que : (1.6) y = X soit la meilleure approximation de : y = X + . On peut rcrire lquation (1.6) : (1.7) y = X = [x1 x2 xn ][1 2 n ] = 1 x1 + 2 x2 + + n xn On cherche donc un vecteur y, combinaison linaire des vecteurs xi (nos variables explicatives) qui soit la meilleure approximation possible de y. Lensemble des vecteurs combinaison linaire des vecteurs xi appartiennent lespace vectoriel 16
Economtrie applique engendr par les xi , nous notons cet espace L(X). Nous cherchons donc le vecteur y L(X) tel que ce vecteur soit le plus proche possible du vecteur y. On peut crire y = y + u, et nous cherchons donc y tel que u soit le plus petit possible. En utilisant la norme usuelle quest la norme euclidienne, la norme de u est : 2 2 ||u|| = i ui = i (yi yi ) . Trouver le u de norme minimale revient donc minimiser la somme des carrs des rsidus. le thorme du plus court chemin nous dit que u (qui relie y et un vecteur de lespace L(X)) est de norme minimale lorsquil est ortogonal L(X), cest dire lorsque y est le projet orthogonal de y sur L(X). Le principe est reprsent sur la Figure 1.3, p. 18. Pour trouver les coefcients , il faut donc trouver le vecteur u orthogonal L(X). Pour cela, on rsoud le systme des quations normales1 qui reprsente les produits scalaires de u avec les vecteurs xi (qui doivent tre nuls pour assurer lorthogonalit entre u et L(X)). u x1 = 0 u x2 = 0 Xu=0 . . . u x = 0
n
On peut rcrire ce qui prcde :
X u = X (y y) = X y X X = 0 Ce qui correspond bien aux quations normales (voir p. 7).
1.6.2 Projection et qualit de lestimation
Qui assurent, que u est un vecteur normal lespace L(X), cest dire orthogonal celui-ci.
17
Y u
L(X)
F IG . 1.3 Projection de Y sur L(X) Corrlation entre variables explicatives : biais des variables manquantes, et multicolinarit Biais des variables manquantes Lorsque lon omet dans une rgression multiple une variable ayant un impact causal sur la variable explique y, il y a automatiquement un risque de biais dans lestimation des coefcients des variables explicatives. Ce biais existe ds lors que la variable omise est corrle avec une ou plusieurs des variables explicatives. En effet, dans ce cas, les variations de la variables omises, qui ont un effet sur la variable explicative, sont corrles avec les variations de la variables explicative, et lon va attribuer cette dernire une part de leffet sur y de la variable omise. Prenons lexemple dune rgression : y = 1 + 2 x2 + 3 x3 + Supposons que lon omette dans la rgression la variable x3 alors quelle agit sur y et quelle est corrle avec x2 . Le coefcient que lon obtient en rgression simple pour x2 nest pas le mme que celui obtenu en rgression multiple. La Figure 1.4 permet de voir plus prcisment la diffrence qui existe entre les deux coefcients : lorsque le vecteur des observations de la variable x3 est corrl avec le vecteur des observations de la variables x2 , ils ne sont pas orthogonaux. Ds lors, les coefcients a2 et 2 de x2 , respectivement en rgression sinple et en rgression multiple en incluant x3 , ne sont pas gaux. Dans ce cas simple en deux dimension, il est possible de voir trs facilement la diffrence qui existe entre ces deux coefcients : cest 3 cos . On retrouve ici la formule vue prcdemment puisque le coefcient de corrlation entre deux vecteurs est la gnralisation de la notion de cosinus pour des vecteurs n-dimensionnels. a2 = 2 + 3 Cor(x2 , x3 ) 18
Economtrie applique
x2
a2 2 y
3 cos()
a3
x3
F IG . 1.4 Frish Waugh
Ce que montre la Figure 1.4, cest aussi que si lon rgresse y sur le projet de x2 sur lespace orthogonal au vecteur x3 , alors lestimation est sans biais. Cest une illustration du thorme de Frish-Waugh selon lequel les estimations de effectues dans les deux modles suivant sont identiques : y = X + Z + MZ y = MZ X + MZ Ici, Z est une matrice contenant un ensemble de variables zk de coefcient k . La matrice MZ = I PZ est la matrice de projection sur lespace orthogonal lespace engendr par les variables zk . Ce rsultat signie que pour avoir une bonne estimation de , il faut soit prendre en compte les variables zk soit ne conserver que linformation contenue dans y et X qui est orthogonale L(Z). Multicolinarit Le problme de multicolinarit vient du fait que lorsque des variables explicatives sont fortement corrles entre elles, il devient difcile de dpartager leurs effets respectifs. Les estimations de leurs coefcients deviennent alors trs sensibles de faibles variations dans les valeurs observes. La Figure 1.5 montre cette situation : deux vecteurs y lgrement diffrents peuvent donner des estimations trs distinctes pour les coefcients des variables x2 et x3 si 19
x2 2
2 1
y y x1
F IG . 1.5 Cas de multicolinarit : projection sur le plan (x1 , x2 ) ces dernires sont fortement corrles. Rappelons que la matrice de variance des coefcients C = (2 , 3 ) est gale
V (C ) = (XC XC )1 2
Or
(XC XC )1 =
1
|XC XC |
o A est la matrice transpose des cofacteurs de XC XC (voir les complments dalgbre en Annexe, p. 86). On calcule trs facilement : |XC XC | = (x2 )2 (x3 )2 ( (x2 x3 )2 . Or on a :
1
|XC XC |
(x2 )2
(x3 )2 (
x2 x3 )2 0 cov(x2 , x3 ) V (x2 )V (x3 )

2
(x2 )2 (x3 )2 1 ( x2 x3 )2
Cor(x2 , x3 )2 1 Lorsque la corrlation entre x2 et x3 tend vers 1 ou -1, les variances de 2 et 3 qui sont les termes sur la diagonale de V (C ) tendent donc vers linni. En somme, si les variables x2 et x3 sont fortement corrles, les coefcients obtenus sont trs alatoires. Corrlation entre les variables explicatives et les rsidus Si la projection orthogonale reprsente la meilleure estimation pour y, cest que nous supposons que le vecteur des erreurs est asymptotiquement2 ortho2
Cest dire quil tend tre orthogonal lorsque le nombre dobservation tend vers linni
20
Economtrie applique gonal aux variables explicatives : il nest pas corrl avec celles-ci. Choisir un u orthogonal L(X) est donc la meilleure mthode pour estimer y. Toutefois, si le vecteur nest pas asymptotiquement orthogonal, et que lon a cov(xi , i) 0 pour certaines variables explicatives, la projection orthogonale ne donne plus une estimation sans biais. La Figure 5.2 p. 77 reprsente graphiquement cette situation. Ce type de problme sera trait dans la section 5 sur les variables endognes.
21
22
Chapitre 2 Estimation des paramtres et tests dhypothses. Principes gnraux

Lconomtrie repose toujours et avant tout sur un modle. Modle : hypothse thorique concernant la "ralit", cest dire la manire dont les observations sont engendres. Do les diffrentes tapes suivantes de manire shmatique (Maddala) : Figure 2.1. Concernant la construction du modle conomtrique, il faut distinguer les variables explicitement prises ne considration et le terme derreur. On passe souvent du modle conomique au modle conomtrique en ajoutant le terme derreur : yi = 1 +
k
k xik + i
i joue ici le rle de variable fourre tout : "it really comprises no more than giving a name to our ignorance and specifying for it a broad quantitative form". Consquences : Pour quune droite de rgression soit une bonne estimation dune droite thorique, il faut des hypothses sur les i . Concernant lestimation du modle, il y a ici un problme car les points du nuage ne sont pas "harmonieusement" distribus autour de la droite thorique. De ce fait, lestimation est un processus dinfrence statistique : utilisation de donnes connues via les observations pour tester la validit dun modle inconnu car innobservable. La qualit des estimations dpend des hypothses faites en particulier sur les termes derreur i . De ces hypothses dpend la qualit des relations entre les k (paramtres thoriques), et les k (coefcients estims par la rgression).
23
CHAPITRE 2. ESTIMATION DES PARAMTRES ET TESTS DHYPOTHSES. PRINCIPES GNRAUX
Modle conomique suggr par la thorie Modle conomtrique mise en forme du modle conomique sous forme empiriquement testable Informations a priori Estimation du modle Tests dhypothses Rsultats des tests conformes au modle Utilisation du modle (prvision et politique conomique) Rsultats des tests non conformes au modle Donnes
Reformulation du modle
F IG . 2.1 Les tapes de ltude conomtrique selon Maddala
24
Economtrie applique y
y = 1 + 2 x2 y = 1 + 2 x2
x2
2.1 Estimation : relations entre les coefcient de rgression et les paramtres thoriques
2.1.1 Le principe
Relation thorique : (2.1) yi = 1 +
k
k xik + i
Relation empirique : (2.2) yi = 1 +

k
k xik + ei
Relation entre : = 1 2 . . . K = 1 2 . . . K
et
On sait que = (X X)1 X y. Mais de (2.1), y = X + avec 1 2 = . . . N do = + (X X)1 X 25

est donc un vecteur alatoire qui, pour des ovservations donnes (X, y) diffre de en fonction des valeurs prises par le vecteur alatoire . est un estimateur de . On peut souhaiter quelques proprits dsirables pour cet estimateur. Parmi celles-ci : Sans biais : E() = Efcace : de variance minimale p Convergent en probabilit :
Pourquoi cela ? On peut considrer z, une variable alatoire estimateur dun paramtre a. Daprs lingalit de Bienaym-Tchebitcheff, quelque soit la distribution de z,on a : V(z) P[|z E(z)| ] 2 Do, si z est sans biais : E(z) = a, alors
a+
La probabilit que z appartienne cet intervalle est infrieure 1 V(z)/2 . Si z est efcace, V(z) est minimal et la probabilit dappartenir cet intervalle est dautant plus forte. Enn, si V(z) 0 quand la taille N de lchantillon en fonction duquel z est dtermin augmente, on a la convergence en probabilit. Problme ici : est un vecteur alatoire. Or si z est un vecteur alatoire : z1 . . . z= . zi . . zM On peut dnir. E(z) = E(z1 ) . . . . E(zi ). . E(zM )
et V(z), la matrice des variances et covariances de z : V(z) = E [(z E(z)) (z E(z)) ] : 26
Economtrie applique
z1 E(z1 ) zi E(zi ) zM E(zM ) z1 E(z1 ) . . . V(z) = zi E(zi ) . . . zM E(zM ) V(z) = V(z1 ) . . . . . . . . . cov(zM , z1 ) cov(z1 , z2 ) .. . cov(z1 , zM ) . . . . . V(zi ) . . .. . . . V(zM )
V est une matrice symtrique (M, M). Considrons b = + (X x)1 X et posons
Hypothse 1 (Bruit blanc) E() = 0 (vecteur nul) Alors E() = , lestimateur est sans biais. De plus : E() = 0 V() = E[] et V() = E[(b )(b ) ] avec b = (X X)1 X . Ceci donne : V() = E[(X X)1 X X(X X)1 ] = (X X)1 X E()X(X X)1 Hypothse 2 (Homoscdasticit) V()) = 2 I. Avec 2 = V(i ), i
Tous les i ont mme variance. Dans le cas contraire il y a htroscdasticit. Par exemplbe les dpense de consmmation des mnates fort niveau de evenu peuvent avoir une variabilit plus grande que celle des mnages faible revenu. Do, dans lquation c = 1 + 2 Ri + i , V(i ) peut tre fonction des valeurs prises par R. Dans le cas contraire, on parle dautocorrlation : les i ne sont pas indpendant dans le temps. Dans le cadre de donnes temporelles, une autocorrlation positive implique par exemple quun t ngatif va avoir tendance tre suivi dun t+1 ngatif, et inversement (voir Figure 2.2). Cela induit un biais possible dans lestimation des paramtres. Si lon a V() = 2 I alors V() = 2 (X X)1 . Do : E() = V() = 2 (X X)1 27 Hypothse 3 (Non autocorrlation) cov(i , j ) = 0 i = j

y
y = 1 + 2 x2
F IG . 2.2 Autocorrlation positive
x2
2.1.2 Applications
Rgression linaire simple y = b1 + 2 x2 X X = (X X)1 = do V(2 ) = 2 De plus on a : S22 =
i
N i xi2
i
xi2 2 i xi2
i
1 2 i xi2 ( N 2 i xi2 (
xi2 )2 =
x2 i xi2 i2 N i xi2 2
xi2 )2
x2 i2
xi2 )2 N
(x2 x2 ) = i2 2
x2 2x i2
i
xi2 + Nx2 2
i
S22 =
i
x2 i2
2 ( N 2 S22
xi2 )2 + N(
i
xi2 2 ) = N
x2 i2
xi2 )2 N
On a donc :
V(2 ) =
On a galement V(1 ) = 2 N(
i i
xi2 )2
(
xi2 )2 28
xi2 ))2 N
2 i x2 i2 N S22
Economtrie applique Lorsque N , S22 = i (x2 x2 ) do V(2 ) 0 et V(1 ) 0. Par 2 i2 p p consquent 2 2 et 1 1 . Exemple 4 : Donnes concernant la production y et le nombre dheures de travail x2 . Nombre N dobservation : 10. y 11 10 12 6 10 7 9 10 111 10 x2 10 7 10 5 8 8 6 7 9 10 668 952 789 x2 2 y2 yx2
= 96 80
2 =
Sy2 S22
i yi x N yx = x2 i2 x22 V(2 ) = N i i2 2
1 = y 2 x2 V(1 ) = 2 =
2 N
2 S22
2 i (xi2 S22
789 10(9.6x8) = 0.75 668 10(64) 2 = 0.036 2 28
V(2 ) = et
1 = 9.6 0.75(8) = 3.6 2 668 = 2.39 2 V(1 ) = 10 28 Le problme est ici que la variance des coefcients de rgression est inconnue car 2 est inconnu. 2 = V() peut tre estime partir de la variance empirique des rsidus :V(e) = N (ei e)2 . Or e = 0, do V(e = e e = i e2 . Mais i i=1 on veut un estimateur sans biais de 2 . Dans le cadre gnral des rgressions multiples, un estimateur sans biais de 2 est s2 = s2 =
e e N K
do ici :
RSS RSS = N K 10 2 29

Donc ESS = 2 Sy2 = 0.75x21 = 15.75 2 TSS = i yi Ny 2 = 952 10(9.6)2 = 30.4 s2 = do V(2 ) = 0.036x1.83 = 0.06588 V(1 ) = 2.39x1.83 = 4.3737 Et les carts-type estims (standard error) : 2 = 0.256 1 = 2.09 Avec E(k ) = k , les carts-type indiquent lamplitude des carts possibles entre k et k inconnu. Rgression linaire multiple
N
R2 = 0.518
et
30.4 15.75 = 1.83 8
y=
k=2
k xk
On sait que XX=
N i xi2 . . .
i
i xi2 x2 x2
. . .
i xiN x2 xN
xiN
xN x2
xN xN
do V() = 2 (X X)1 et V () = s2 (X X)1 avec s2 = e e N K
Do si (X X)1 matrice [ij ](K,K), on a :
et k = s kk , k. Il est parfois utile de faire abstraction de lordonne lorigine. Prenons c = (Xc Xc )1 Xc yc , et yc = Xc c + , avec = i i/N. En remplaant, on obtient : c = c + (Xc Xc )1 X c( ). Or Xc = i (xik xk ) = 0. Do : 30
V(k ) = s2 kk k [1, K]
Economtrie applique
c = c + (Xc Xc )1 Xc Sous les hypothses 1, 2, et 3 prcdentes, E(c ) = c , V(c ) = 2 (Xc Xc )1 et : S22 S2N . . . Xc Xc = . . . SN 2 S N N
Si lon reprend lexemple 3 du chapitre 1 : y le salaire, x2 le nombre dannes dducation, x3 le nombre dannes dexprience au travail.
Xc Xc =
16 12 12 10
0.5 53
Syy = TSS = 272 R2 = 0.998 ESS = 271.5 = 0.25. De plus : 10 12 12 16
Donc la RSS = 0.5, do s2 =

(Xc Xc )1 =
1 16(10) 122
On a donc : V(2 ) = 0.25 2 = 0.395

10 16(10)122
= 0.156
V(3 ) = 0.25 3 = 0.5
16 16(10)122
= 0.25
Voir le doc. 1 cours (sur les listings) : Std. Err. exemples 1 et 2. Le rle de lhypothse de normalit A ce stade, nous savons que : suit une distribution de probabilit. E() = V() peut tre estime par V() Et donc, pour chaque coefcient on a E(k ) = k et lcart type est k = V(k ). On souhaite dpasser le stade dune simple estimation ponctuelle. Par exemple : Construire des intervalles de conance dans lesquels le paramtre inconnu k (ou les paramtres inconnus ) ont une probabilit donne de se trouver (on choisira en gnral une probabilit de 95%). Construire des tests dhypothses : par exemple tester lhypothse k = 0 (la variable nest pas explicative) ou c = 0 (aucune des variablesmise part la constantenest explicative). 31

Si est une variable fourre tout, reprsentant de multiples variables non incluses dans le modle, et si ces variables sont non corrles avec les variables inclues dans le modle, alors la loi des grands nombre peut justier que lon considre la distribution de ce terme comme suivant une loi normale. Si suit une loi normale multivarie N(0, V() = 2 I), alors suit une loi normale multivarie N(, V() = 2 (X X)1 ). Notons que cette hypothse de distribution normale de nest ncessaire pour assurer la normalit de la distribution de que sur un chantillon ni. Dans tous les cas, suit asymptotiquement (quand N ) une loi normale, quelque soit la distribution de probabilit de . Do galement k N(k , V(k ) = 2 kk ). Do : k k k N(0, 1)
Mais encore une fois, k est inconnu. On peut lestimer par k . Cette approximation implique une perte de prcision : (1) t =
k k k
TN K k [1, K]
TN K est une distribution appele de Student Fisher et est plus tale quune loi normale. On a galement : (2) F =
1 (c (K1)s2 c ) (Xc Xc )(c c )
FK1,N K
F suit une loi de Fisher-Snedecor de degr de libert K 1 et N K. Le rsultat (1) permet de dterminer une intervalle de conance pour k . Ainsi, pour N K grand, t suit une loi normale et on a : P[|t| > 1.96] = 0.05 Do En remplaant t on obtient : P[1.96 t 1.96] = 0.95
P[k 1.96k t k + 1.96k ] = 0.95

k
k 1.96k
k + 1.96k Prob=0, 95
32
Economtrie applique Si on rpte le calcul de k avec des chelles diffrentes, selon les (avec le mme X), 95% des intervalles calculs contiendront la vraie valeur du paramtre k .
2.2 Les tests dhypothses

Quest-ce quun test ? Soit lhypothse H0 :tester cette hypothse, cest choisir une statistique associe lchantillon et pour cette statistique. Dnir une rgion dacceptation et de rejet (gnralement complmentaires) en fonction de laquelle on prend une dcision. La statistique est une variable alatoire do deux types derreurs possibles : le risque de premire espce : rejet de H0 alors quelle est vraie. le risque de deuxime espce : acceptation de H0 alors quelle est fausse. H0 OK risque de deuxime espce non H0 risque de premire espce OK
H0 non H0
En rgle gnrale, on ne peut pas dcrotre simultanment les deux risques et ici on cherche minimiser le risque de premire espce. Dans une premire approche, deux tests sont couramment pratiqus : H0 : c = 0 : aucune variable x2 , . . . xk nest explicative au sens statistique. H0 : k = 0 : la variable xk nest pas explicative, au sens statistique.
2.2.1 Test de lhypothse c = 0 : F global

c ) Xc Xc (c c ) suit une F (K 1, N K). 1 Supposons c = 0 vraie : F = (k1)s2 c Xc Xc c et comme c Xc Xc c = ESS, on a :
F =
1 (c (k1)s2
F =
ESS k1 RSS N K
et le test prsent sous la forme : (STATA). Source SS df K1 N K MS

ESS MSE = k1 RSS MSR = N K
Model ESS Residual RSS
F =
MSE MSR
33

Ide : si c = 0 vraie, le fait dintroduire x2 , . . . xk ne va pas contribuer beaucoup lexplication de y do F prend une valeur faible. Risque de premire espce : probabilit que F region de rejet = 0, 05, / do :
0,05
F0,05 Rgion dacceptation
Rgion de rejet
F IG . 2.3 Zones de rejet et dacceptation de lhypothse
si Fcalcul F0,05 : accpte hypothse c = 0 si Fcalcul > F0,05 : rejet une au moins des variables x2 , . . . xk est signicative ? Grandeur du pouvoir explicatif et caractre signicatif des variables explicatives : ide est quon peut avoir un R2 faible et cependant rejeter lhypothse c = 0. Les rsultats du test dpendent en particulier de N : car Fstat est une fonction croissante de N. On sait que ESS = R2 TSS et RSS = (1 R2 ) TSS do F =
R2 K1 1R2 NK
et rejet de c = 0 si F > F0,05 soit encore :

K1 F0,05 ( N K )
R2 >
K1 1 + F0,05 ( N K )
do par exemple : pour K = 10, on a : N = 20 F0,05 = 3, 02 R2 > 0, 731 N = 40 F0,05 = 2, 21 R2 > 0, 13 N = 60 F0,05 = . . . R2 > 0, 03, il suft dexpliquer 3% de TSS pour rejeter lhypothse c = 0. do : 34
Economtrie applique Exemple 4 y =production, x2 =nombre dheures de travail, N = 10 ESS = 15, 75 1 ESS = 14, 65 8 MSE = 15, 75 F = 8, 62 avec R2 = 0, 5188 galement MSR = 1, 83 =
0,518 1 0,482 8
ou F0,05 (1, 8) = 5, 32 do rejet de lhypothse c = 0. Ici, dans la rgression simple : c = 2 . Exemple 3 y =salaires, x2 annes dducation, x3 annes exprience travail, N = 5 ESS = 271, 5 2 ESS = 0, 5 2 MSE = 135, 75 F = 543 avec R2 = 0, 998 galement MSR = 0, 25 =
0,998 2 0,002 2
ou F0,05 (2, 2) = 19 do rejet de lhypothse c = 0 donc de lhypothse 2 = 0 et 3 = 0.
2.2.2 Test de lhypothse k = 0 : t-test

k suit une t(N K). Do si k = 0, on a tk = k t-stat associe la variable xk . On dispose de tables statistiques donnant pour les dveloppements limits N K, un intervalle dans lequel t se trouve avec une probabilit de 0, 95. Par exemple : k k k
t0,05
+t0,05 Prob=0, 95
Prob[|tk | > t0,005 ] = 0, 05 do le test : si k = 0 vrai, |tk | t0,005 avec une probabilit de 0, 95. si|tk | t0,005 : acceptek = 0 si|tk | > t0,005 : rejet : risque de premire espce = 0, 05 35

si on reprend : regress LOY ER sur NBREpers, NbreCh, Sexe, DIST : listing Fglob F = 40, 05 et F0,05 (4, 27) 2, 73 do rejet de lhypothse k = 0. Au moins une des variables est signicative, mais laquelle ?
k t-test : t = rapport tk = k : or t0,005 (27) = 2, 052 do une seule variable signicative au sueil de 5%, qui est NbreCh.
Remarque : Commentaires sur le listing : propos de Prob > F et P > |t| : instructif de prciser le risque de premire espce (seuil de signicativit) associ la valeur de la Fstat ou la tstat calcule. pour Nbrepers on a P > |t| qui gure pour une valeur = 0, 337 : signication : si je construit mon t-test pour lhypothse N brepers = 0 en prenant comme valeur de rfrence le t calcul sur chantillon (= 0, 898), alors Prob[|tk | > 0, 989] = 0, 337 donc . . . donc : en rejetant lhypothse N brepers = 0 pour |t| > 0, 898, Prob = 0, 337 de rejet de lhypothse si elle est vraie. t = 0, 898 serait statistiquement signicative au sueil de 0, 337
0, 898
+0, 898
Prob = 0, 377
pour Prob > F = 0, 000 : test construit sur rgion de rejet de c = 0 dtermine par F > 40, 05 donne une proba quasiment = 0 de rejet de c = 0 si elle est vraie. Remarque :
0 On peut tester des hypothses autres que k = 0 : par exemple : k = k ,
en utilisant
0 k k k
par Prob[t0,05 0 lhypothse k = k
et donc la rgion docceptation (au seuil de 5%) est dtermine 0 k k t0,05 ] = 0, 95 donc k [ 0 t0,05 k ] accepte
k k
36
Economtrie applique Remarque : t-test symtrique et asymtrique jusquici : implicitement : on teste lhypothse k = 0 contre k = 0 do on admet des valeurs ou pour k . Parfois : restriction priori sur le rgime des paramtres : par exemple : k > 0 et on teste lhypothse k = 0 contre k > 0. avec une table stat donnant le t0,05 pour test symtrique (k = 0 contre k = 0), on a :
0, 025
0, 025
t0,05
+t0,05
F IG . 2.4 Test symtrique si on utilise cette table pour test asymtrique (k = 0 contre k > 0), dans ce cas, il faut une lecture correspondant un t0 , 10 (symtrique).
0, 05
Rgion limine
Rejet Accept.
F IG . 2.5 Test asymtrique
37
38
Chapitre 3 Tests de restriction linaires et variables muettes

3.1 Tests de restriction linaires sur les paramtres du modle
3.1.1 Approche gnrale
Exemple : fonction de consommation macroconomique. (3.1) C = 1 + 2RT + 3 RNT + Avec RT le revenu du travail et RNT les autres revenus. On peut vouloir tester par exemple : Lhypothse dune propension marginale consommer gale 1 : 2 +3 = 1 Lhypothse selon laquelle les deux propensions marginales sont gales : 2 = 3 Ces deux hypothses sont quivalentes des restrictions linaires sur les paramtres. On peut les crire sous forme gnrale : R = q avec R(J,K) si J restrictions linaires et q(J,1) . Ici on a effectivement : 1 1 0 1 1 2 = [0] 0 1 1 2 = [1] et 3 3
R=q R=q
Et pour tester ce genre dhypothses, deux pratiques de test sont possibles et ici quivalents. 39
CHAPITRE 3. TESTS DE RESTRICTION LINAIRES ET VARIABLES MUETTES

1. Test reposant sur la perte de qualit de lajustement linaire (en terme de RSS). 2. Test reposant sur la matrice estime des variances et covariances des estimateurs (Wald) Ce sont deux approches diffrentes pour construire le mme test (mme valeur de F asymptotiquement). Test en terme de RSS Le principe : Le minimum dune expression sans contraintes est toujours infrieur au minimum de cette mme expression si lon introduit des contraintes. En consquence, si lon compare deux modles : Modle :y = X + avec RSS = min carr des carts sans contraintes y = X + avec RSS = min carr des carts sous J Modle (*) : R = q contraintes on a videmment RSS RSS 1 et le test est construit sur la diffrence RSS RSS et plus particulirement sur la statistique : F = (RSS RSS)/J RSS /(N K)
(J, N K) degr de libert. Lide sous-jacente est que si les contraintes R = q sont vraies, alors le fait dimposer ces restrictions au modle ne doit pas impliquer une perte importante de qualit de lajustement linaire. Donc la quantit RSS RSS doit tre faible do une valeur faible de F . Dans le cas contraire, on a un F avec une grande valeur. Pour tester lhypothse R = q on estime donc le modle sans contrainte et le modle avec contrainte. Si cette hypothse est vraie, F = (RSS RSS)/J RSS /(N K) F (J, N K)
Si F > F0.05 : rejet de lhypothse. Si F F0.05 : acceptation de lhypothse. Ceci suppose que lon puisse intgrer les contraintes dans lcriture du modle. Cest parfois possible. Exemple de la fonction de consommation macroconomique : C = 1 + 2 RT + 3 RNT +
RSS = e e et RSS = e e . Or e = y X X( ) donc e = e X( ) do e e = [e X( )] [e X( )] = e e ( ) X e e X( ) + ( ) X X( ). Et comme X e = 0 = e X, on a : e e e e = ( ) X X( ).
1
40
Economtrie applique Pour lhypothse 2 + 3 = 1 : 3 = 1 2 , cela conduit au modle : () C RNT = 1 + 2 (RT RNT ) + Avec deux variables : C RNT et RT RNT . Pour lhypothse 2 = 3 , on a : C = 1 + 2 (RT RNT ) + L aussi le modle est deux variables. Il est cependant parfois difcile dintgrer les contraintes dans le modle (*) pour arriver estimer sous contraintes. On peut alors adopter une autre approche. Test de Wald : en terme de matrice estime des variances et covariances de Principe du test : Soit lhypothse R = q. Le test repose sur la comparaison entre R et q. Un cart important entre R et q est en dfaveur de lhypothse. Le test utilise galement une F statistique : F = (R q) [R(X X)1 R ]1 (R q)/J e e/(N K) F(J,N K)
Toute linformation disponible pour construire ce test nutilise que les rsultats du modle non contraint, savoir : vecteur des paramtres estims du modle non contraint e e/(N K) = s2 estimation sans biais de V(i ) avec le modle non contraint, de sorte que, en remarquant que V() = s2 (X X)1 , matrice estime des variances et covariances de . La F statistique peut encore scrire : F = (R q) [RV()R ]1 (R q) J
La procdure du test est donc la suivante : on estime le modle sans contrainte, on construit la F statistique avec la matrice V() et : F > F0.05 : rejet de lhypothsse R = q F F0.05 : acceptation de lhypothse R = q Exemple 5 : (Greene 2000, p. 240) [voir listing] doc. 2 cours. Considrons la fonction dinvestissement suivante : Invt = 1 + 2 temps + 3 P NB + 4 Int + 5 Inf lat + 41

Et on veut tester lhypothse jointe suivante : 2 = 0 : pas de trend 3 = 1 : propension marginale investif gale 1 4 + 5 = 0 : les investisseurs ne prennent en considration que le taux dintrt rel do en fait simplement 4 (Int Inf l) Il y a trois restriction linaire. On peut crire : 0 1 0 0 0 R= 0 0 1 0 0 0 0 0 1 1 0 q= 1 0
Les estimations du modle non contraint : 1 = 0.50907 = 0.01658 2 : 3 = 0.67038 = 0.0023259 4 5 = 0.000094012 do 2 0.67038 R = 3 0.0024199
4 +5
0.01658
Et
V() est donne (attention lordre des variables : rcrire en mettant la constante en premier) Test de Wald : F = (Rq) [RV()R ](Rq)/3 = 1266.3525 et F0.05 (3.10) = 3.71 do le rejet de lhypothse jointe. Mais parmi les trois hypothses, quelles sont les fausses ? 42
2 0.37038 R q = 3 1 0.0024199
4 +5
0.01658
Economtrie applique Pour 2 = 0 : time trend : on peut regarder le t2 de la rgression : t2 = 8.409 et P > |t| 0 do le rejet de 2 = 0. 3 = 1 : on peut tester lhypothse 3 = 1 contre 3 < 1 (test asymtrique). 1 t3 = 3 dl=10. t3 = 0.670381 = 5.994 or t0.1 = 1.812 do t3 < 0.054997 1.812 on rejette donc lhypothse 3 = 1 et on accepte 3 < 1. Pour 3 + 4 = 0 : seul le taux dintrt rel compte. On peut refaire un test de Wald (voir le listing du test Int + INf lat = 0) avec R = [00010] et q = [0]. On obtient F(1,10) = 3.25 < F0.05 = 4.96 Lhypothse est donc accepte. On peut aussi transformer le modle par intgration de la restriction do le modle (*) : Invt = 1 + 2 temps + 3 P NB + 4 (Int Inf l) +
Int rel
On peut ds lors faire un test en terme de RSS : do (voir les listings) :RSS = 0.000597484, RSS = 0.000450811 et F = RSS RSS = 3.25 galement. RSS /10 Remarques Il est vident que dans lapproche en termes de RSS, on a : F =
2 (R2 R )/J (RSS RSS)/J = RSS /(N K) (1 R2 )/(N K)
Do : Remarque 1 : le test c = 0 (2 = 3 restrictions linaires. 1 0 0 1 R = q 1 0 1 0
= = k = 0) est un test de K 1 0 2 0 . . = . 0 K 1 0 . . . 0
Une approche en terme de RSS implique donc deux rgressions : la premire sur x2 , , xk et lautre simplement avec y = 1 + (modle *). 2 Dans ce dernier modle, 1 = y do yi = y, i et donc R (entre y et y, R2 /(K+1) est nul do F = (1R2 )/(N K) . Ceci est galement le rsultat du Fglobal du Chapitre 2 : F = R2 TSS /(K 1) ESS /(K 1) = RSS /(N K) (1 R2 ) TSS /(N K) 43

Remarque 2 : le test de k = 0 est un test dune restriction linaire. Et dans lapproche par RSS on a : RSS = TSS ESS(X2 , , Xk1, Xk+1 , , Xk ) RSS = TSS ESS(X2 , , Xk1 , Xk , Xk+1 , , Xk ) RSS RSS = ESS(Xk |X2 , , Xk1 , Xk+1, , Xk ) Remarque 3 (non donne en cours, pose en TD 5) : le test de lhypothse k = 0 per le test de Wald montre que la Fstat associe est gale t2 . k En effet, pour lhypothse k = 0 : R = [0, , 0, 1, 0 , 0] do avec q=0: Fk = (R q) [RV()R ]1 (R q) On a R q = k et RV()R est llment diagonal (k, k) de la matrice 2 V() soit k , do 2 Fk = k = 2 k k k
2
= t2 k
Remarque 4 : dans le cas dhypothses sexprimant sous la forme de fonctions non linaires des paramtres (non donn en cours, voir Greene (2000, p. 363) le test de Wald repose sur un 2 J degr de libert.
3.1.2 Applications : tests de changement structurel

Exemple 6 On considre les donnes relatives lconomie US de 1947 1962 en distinguant deux priodes (voir listing du document 2). Jusqu la n de la guerre de Core :1947-1953 (le 25 juin 1950, les troupes Nord corennes franchissent le 38me parallle. Aprs : 1954-1962. Lide est ici que les relations entre lemploi total et les variables explicatives T rend, INGP, P NB, F orcArm ne sont pas ncessairement les mme sur les deux priodes. Modle contraint yi = 1(1) + 2(1) T rend + 3(1) INGP + 4(1) P NB + 5(1) F orcArm + i pour i {1947, , 1953}, N1 = 7 observations. yi = 1(2) + 2(2) T rend + 3(2) INGP + 4(2) P NB + 5(2) F orcArm + i pour i {1954, , 1962}, N2 = 16 observations. 44
Economtrie applique Sous forme matricielle : y 1 = X1 1 + 1 y 2 = X2 2 + 2 N1 obs. N2 obs. y1 y2 N1 observations, K = 5 paramtres. (1-1) N2 observations, K = 5 paramtres. (1-2) X1 0 0 X2 1 2 1 2
(3.2)
X1 est une matrice (N1 , K) et X2 une matrice (N2 , K). On a par ailleurs : N1 + N2 = N = 16 2K = 10 paramtres Pour estimer les 10 paramtres, on peut videmment rentrer les donnes sous la forme gnrale. Mais, les deux sous-modles tant entirement diffrents, on peut montrer que lestimation de (3.2) et ses caractristiques peuvent sobtenir sparment partir de lestimation de (1-1) et lestimation de (1-2). En particulier : RSS(1) = RSS(11) + RSS(12) . Modle contraint (*) Il dpend des contraintes formules. a) Hypothse 1 = 2 : il y a une seule et mme relation quelque soit lanne considre (i 1947, . . . , 1962, N = 16). yi = 1 + 2 T rend + 3 INGP + 4 P NB + 5 F orcArm + i y = X +
[N,1] [N,K] [K,1]
N = 16 observations K = 5 paramtres Et dans ce cas le nombre de contraintes est J = 5. Do, pour tester cette hypothse : F = (RSS RSS)/J RSS /(N1 + N2 2K)
avec RSS = RSS(11) + RSS(12) , cest dire : 1.52 = 0.344 + 0.808. Do (voir listing) : F = (4.934 1.152)/5 = 3.93 < F0.05 (5,6) = 4.39. 1.152/(16 10)
On accepte donc lhypothse 1 = 2 45

1 2 b) hypotyse c = c : soit donc 2(1) = 2(2) , 3(1) = 3(2) , 4(1) = 4(2) , 5(1) = 5(2) . La relation est donc la mme, sauf en ce qui concerne le terme constant. le modle contraint scrit donc : 1 0 1(1) . . . . 1(2) . . 1 y 2 1 0 Z + = y2 3 0 1 . . 4 . . . . 2 0 1
Les deux premires colonnes de 0 et de 1 sont des variables muettes D1 et D2 . La matrice Z est compose des variables T rend, INBP , P NB, F orcArm. Si lon rgresse y sur D1 , D2 et les autres variables (voir listing), Stata limine D2 . La raison est que si lon rajoute une constante, on a multicolinarit parfaite, ce qui veut dire ici : D1 = 0 i 1954, donc cste = 42.02035 D1 = 1 i 1954, donc cste = 42.02035 1.523557 = 40.49686 Une autre manire dobtenir le mme rsultat est dimposer labsence de constante. Stata sort alors : D2 = 42.02039 et D1 = 40.49686. Dans les deux cas : RSS = 3.178, J = 4 do : F = (3.178 1.52)/4 = 2.63 1.52/(16 10)
1 2 Lhypothse c = c est donc accepte. Remarque : ce genre de test est souvent appel test de Chow . Une hypothse implicite est qeu V(ei ) = 2 , i N, donc on suppose des changements structurels avec cependant une variance des termes derreur identique. Lutilisation des variables muettes est trs gnrale pour prendre en considration des changements structurels. Soit par exemple :
yi = + xi2 + i i N = N1 N2 Et on suppose que : yi = (1) + (1) xi2 + i pour i N1 yi = (2) + (2) xi2 + i pour i N2 46
Economtrie applique Le modle non contraint est donc quivalent deux quations spares. On peut aussi les crire sous la forme dun seul modle : soit D2 = 0 pour i N1 et D2 = 1 pour i N2 et le modle yi = + (2) D2 + xi2 (2) xi2 + i Do i N1 : yi = + xi2 + i i N2 : yi = ( + 2 ) + ( + 2 )xi2 + i
Le modle contraint est ici quivalent lhypothse :i, 2 = 2 = 0.
47
48
Chapitre 4 Les moindres carrs gnraliss : Htroscdasticit et Autocorrlation

4.1 Le principe des MCG
On considre le modle y = X + . Jusqu prsent : MCO caractriss par : E() = 0 pour = (X X)1 X y donne V() = 2 I E() = V() = 2 (X X)1 (1)
et est estimateur sans biais, efcace (i.e. de variance minimale), convergent en probabilit vers , distribu normalement si est distribu normal et sur de grands chantillons si non normal, distribu asymptotiquement normal. Modle de rgression linaire gnralis : MCG E() = 0 V() = 2 , matrice dnie positive do en particulier les hypothses 2 et 3 des MCO du chapitre 2 non vries : hyp. 2 : homoscdasticit : V(i ) = 2 , i hyp. 3 : non autocorrlation : Cov(i , j ) = 0, i, j tq i = j et dans ce cas : pour = (X X)1 X y donc = + (X X)1 , on a toujours E() = mais V() = (X X)1 X X(X X)1 devient alors : V() = 2 (X X)1 X X(X X)1 do les problmes : 49 (2)
CHAPITRE 4. LES MOINDRES CARRS GNRALISS : HTROSCDASTICIT ET AUTOCORRLATION

Si on nglige V() = 2 et quon fait les MCO, quelle est la nature des biais introduits ? En particulier, avec forme V() = s2 (X X)1 traditionnelle par lintermdiaire de laquelle ont t construits tous les tests ? Si les biais sont srieux : important de dtecter les cas de divergence des hypothses traditionnelles des MCO (pb de test) et dy porter remde. sur un plan gnral : Nature des biais : non efcace par les MCO (donc les variances ne sont pas min). Les tests partir de M CO sont biaiss car V() = s2 (X X)1 est biaise : s2 est estimateur biais de 2 (X X)1 nest pas la bonne matrice si on laisse de ct pour le moment les problme des tests, les remdes conduisent la procdure des MCG : ide est de transformer y = X + pour retomber sur les hypothses des MCO. Comment ? Supposons connue : matrice dnie positive, do matrice P telle que 1 = P P . On a donc : = (P P )1 = P 1 (P )1 do P P = P P 1(P )1 P = I et donc la procdure des MCG : substituer y = X + le modle : P y = P X + P On a : E(P ) = P E() = 0 V(P ) = E[(P )(P )] = P E[]P = P V()P = 2 P P En posant y = P y, X = P X, = P , on rcrit le modle : y = X + avec E( ) = 0 et V( ) = 2 I et on peut appliquer les MCO : on obtient un estimateur M CG de :
1 M CG = (X X ) X y 1 V() = s2 (X X ) , avec s2 = RSS N K
Le problme est quen rgle gnrale, est inconnue : il faudrait lestimer en plus de 2 , ce qui ferait en tout gnralit N (N +1) paramtres supplmentaires 2 estimer, avec N observations. . .impossible. Ainsi, on met habituellement des restrictions sur la matrice pour pouvoir pratiquer les MCG (en particulier, htroscdasticit, autocorrlation). Cela conduit alors remplacer dans les formules prcdentes par . 50
Economtrie applique
4.2 Htroscdasticit
Ici, seule lhypothse 2 des MCO est non vrie. On a ainsi : 2 1 0 0 . .. .. . . . 0 . . . . .. . . 2 V() = . . . . . i . .. .. . . . 0 . 2 0 0 N
Les raisons de lhtroscdasticit : en particulier sur cross-sections (coupes instantanes) variance des prots des grandes entreprises suprieure celle des petites dpenses des mnages : plus grande variabilit possible pour les hauts revenus Exemple 7 voir listing : (document 3 cons, htro-cons-chap4) : Sur le nuage de points, la variabilit des dpenses de consommation est apparente, et plus vidente encore sur le graphique des rsidus. On a : DepCons = + Revenu + Supposons alors V(i ) = 2 Revenu2 , de sorte que : i Rev2 1 .. . 2 2 Rev2 V() = = i .. . Il est vident que dans ce cas : 1 Rev1 .. . 1 P = Revi Rev2 N
..
. 1 RevN
Ds lors, le modle transform : P y = P X + P scrit :
, car P P = I
1 DepCons = ++ Revenu Revenu Revenu 51

cest--dire : DepRev = InoRev + + terme alatoire, et dans ce cas, par rgression de DepRev sur InoRev on obtient M CG et M CG . On peut comparer : MCO Cff = 0.899 = 0.847 MCG Cff = 0.9100 = 0.612
Std.Err 0.0253 0.7033 Std.Err 0.0179 0.2664
P > |t|
35.53 0 1.20 0.244 t P > |t|
52.62 0 2.30 0.034
Var signif = 0 signif = 0 bien que M CG < M CO en raison de V(M CG ) < V(M CO ) en particulier.
Lapproche gnrale est alors la suivante : dceler lhtroscdasticit avec les tests en cas dhtroscdasticit, procder aux corrections
4.2.1 Les tests

Comme la montr lexemple, le comportement des rsidus obtenus par les MCO sur y = X + , soit y = X + e, rete la naturede la distribution des i : Cest pourquoi tous les tests utilisent les rsidus ei des MCO sur y = X + Test de White : 2 2 2 On teste : H0 [i i = 2 ] contre H1 [H0 ] = [i = j tq. i = j ]. Dans ce cas, on ne fait pas davantage dhypothse sur la nature prcise de lhtroscdasticit. Le test seffectue alors comme suit : On rgresse les e2 sur la constante, i les rgresseurs originaux, leurs carrs et leurs interactions (produits croiss). Par exemple, si le modle est : y = 1 + 2 x2 + 3 x3 , alors la rgression de e2 scrit : i e2 = 1 + 2 x2 + 3 x3 + 4 x2 + 5 x2 + 6 x2 x3 . On considre le R2 obtenu i 2 3 dans cette rgression : sous H0 , NR2 suit un 2 5 degrs de libert (nombre de rgresseurs, constante exclue). Lavantage de ce test est quil est trs gnral. Linconvnient est que si on rejette H0 , le test ne nous dit rien sur la nature de lhtroscdasticit et la correction faire. Dans lexemple Htro-Cons : (listing) : R2 = 0.8781 pour la rgression de e2 sur Revenu, Revenu2 , cest--dire : NR2 = 20R2 = 17.562. i Mais 2 (2) = 5.99, et on rejette H0 . 0.05 Test de GoldfeldQuandt : 52
Economtrie applique Dans le modle : y = X +, on suppose que lune des variables x2 , xk , xK est responsable de lhtroscdasticit : par exemple, V(i ) = 2 x2 . On alors raik lise le test comme suit : on range les observations par ordre croissant des valeurs de xk et on distingue deux souschantillons : ch. 1 : grande variance grandes valeurs de xk , taille N1 ch. 2 : faible variance faibles valeurs de xk , taille N2 On fait la rgression de y sur x2 , . . . xK successivement pour ch. 1 (ce qui donne RSS1 ) et ch. 2 (RSS2 ), (avec RSS1 >RSS2 ) et alors : Sous H0 : les variances sont les mmes dans les deux souschantillons et F = RSS1 /(N1 K) suit une distribution de Fisher (N1 K, N2 K) degrs de RSS2 /(N2 K) libert (On prend parfois N1 , N2 N ). 3 Dans lexemple HtroCons (listing), on a : RSS2 = 1.893, RSS1 = 20.299 et N1 K = N2 K = 6 do F = 10.723. Comme le fractile 5% dune loi de Fisher (6, 6) est : q0.05 (F (6, 6)) = 4.28, on rejette lhypothse H0 . Test de BreuschPagan (ou CookWeisberg) : On fait une hypothse sur lhtroscdasticit du genre : V(i) = 2 f (0 + 1 Z1 + + r Zr ) la forme fonctionnelle f pouvant tre diverse.
e2 i RSS/N
a:
On teste lhypothse H0 [1 = = r = 0]. Pour ce faire, on rgresse les sur Z1 , Zr et tant donne lESS associe cette rgression, sous H0 , on
ESSassocie 2 (r) 2 [dans STATA : la commande hettest ; sans spcication de variables explicatives de lhtroscdasticit, introduit la variable y . Autrement il faut spcier : hettest Z1 Zr ]
Dans lexemple HtroCons : (listing) avec V(i ) = 2 f (0 + 1 Revenu + 2 2 Revenu2 ) on obtient 2 = 8.30. Or, q0.05 (2) = 5.991 : on rejette subsquemment lhypothse H0 .
4.2.2 Les remdes

Si on ne connat rien sur la nature de lhtroscdasticit : lissue du test de White, on peut obtenir avec le M CO , une matrice estime des variances et covariances de plus approprie que s2 (X X)1 en prenant pour cette matrice un estimateur de White : avec STATA, utiliser la commande robust 53

Dans lexemple HtroCons : (listing) on obtient les mmes estimateurs = = 0.899, mais : 0.847 et Std.Err MCO 0.0253 0.7033 Std.Err Robust t Robust 0.0284 31.61 0.5267 1.61 non signif
Si on fait une hypothse sur la nature de lhtroscdasticit : Par exemple : 1 .. . 2 2 i V(i ) = = .. . N avec i = f (0 + 1 Zi1 + + r Zir ). On sait que pour les MCG : 1 P =
1
..
1 i
..
.
1 N
et le M CG est obtenu dans le cadre de la rgression P y = P X +P , cest--dire K xik 1 i yi k + + . Ici, les MCG sont souvent appels = 1 i i i i k=2 Weighted Least Squares ou MCP (moindres carrs pondrs) ; le poids = 1 i accord chaque observation i est inversement proportionnel limportance de V(i). Le problme est quon ne connat pas : il faut donc lestimer. Aprs avoir rejet lhypothse dhomoscdasticit dans le test de Breusch-Pagan, avec bien souvent comme forme fonctionnelle : V(i ) = 2 exp(1 Zi1 + + r Zir ), 2 asymptotiquement connue, on peut crire : e2 = i + vi , vi terme derreur. La i procdure destimation de (id est des i ) conduit utiliser lexpression prcdente. Do : e2 = 2 exp(1 Zi1 + + r Zir ) + vi i Puis : log e2 = log 2 + 1 Zi1 + + r Zir + log vi i 54
Economtrie applique et en rgressant le log e2 sur Z1 , Zr , on obtient par les MCO, les 1 , r i i = exp(1 Zi1 + + r Zir ) do le modle des MCG praticable : y i = 1 i 1 i
K
+
k=2
x ik i
i + i
Dans lexemple HtroCons (listing) : avec lhypothse V(i ) = 2 exp(1 Revenu+ 2 Revenu2 ), on obtient les estimateurs MCG suivants : Cff t Cff t
0.9117 52.42 5.999 2.68 MCG avec

1 i
0.9100 52.62 0.612 2.30

1 Revenu
MCG avec
prcdent
4.3 LAutocorrlation
4.3.1 Gnralits
Il peut advenir que V() = 2 I car cov(i , is ) = 0 pour certains i et s. Cest par exemple le cas dans des chantillons coupe instantane si lordre des incides dobservation traduit un ordre naturel. Mais cela arrive aussi surtout dans des donnes longitudinales o lordre temporel a une importance. exemple 8 : Icecream-Chap.4 - Autocorrlation Document 3 cons (listing) Consommation de crme glace sur des donnes mensuelles. Si on rgresse : const = 1 + 2 pricet + 3 incomet + t = 0.90 2.03 pricet + 0.0002135 incomet Cependant, on obtient quasiment rien de signicatif, sauf la constante, la ri gueur : les variances des M CO sont surestimes (non efcaces). Le graphe de la consommation prdite par la rgression et la consommation observes en fonction de time est suggestif, et les deux graphiques concernant les rsidus et qui montrent la persistence deffets de mme sens le sont plus encore : et1 > 0 et > 0 et et1 < 0 et < 0, cest--dire quon a covariation positive de et , et1 , ou encore autocorrlation positive (cf. graph. et , et1 ). Comme le comportement des rsidus est cens reter la comportement des t (mais pas toujours), cela suggre 55

pour le t un phnomne dautocorrlation du premier ordre : processus AR(1), autorgressif dordre 1 dni par : t = t1 + ut , t [1, T ] 2 E(ut ) = 0, t V(ut ) = u , cov(ut , ut ) = 0 et cov(ut , tr ) = 0 pour r 1 Effets dautocorrlation : On a les mme effets que prcdemment : comme = I, la matrice estime des variances et convariances de usuelle, s2 (X X)1 2 est biaise car la formule approprie est V() = (X X)1 X X(X X)1 . Cela donne lieu des tests incorrects dans leur conclusion. Les effets sont surtout tudis pour les AR(1). On a les rsultats suivants si || < 1 : t = t1 + ut t1 = t2 + ut1 t = ut + ut1 + 2 ut2 + Il vient :
+
t =
r=0
r utr
On a alors1 :
+
E(t ) = E(ut )
r=0
r = E(ut )
1 =0 1
+
Comme les cov(ut , ut ) sont nulles, on obtient :

+
V(t ) =
r=0
V( utr ) = V(ut )
r=0
2r
ou encore :
2 V(t ) = u
1 = 2 1 2
Pour les covariances, on a : cov(t , ts ) = s 2

1
La condition || < 1 assure la convergence de
+ r=0
56
Economtrie applique En effet : cov(t , t1 ) = E(t t1 ) = E((t1 + ut )t1 ) = E(2 + ut t1 ) t1 2 =
cov(t , t2 ) = E(t t2 ) = E((t1 + ut )t2 ) = E(t1 t2 + ut t2 ) = E(t1 t2 ) = ( 2 ) = 2 2 et cetera. . .Do nalement : 1 1 .. . T 1 T 2 . .. . . . .. . 1 2 .. .
2 u 2 = 1 2
2 . . . T 1 T 2
Dans ce cas, comme prcdemment, M CO est non efcace et donc les V(k ) 2 1 calculs partir de s (X X) ne sont pas minimales et en particulier les tstat sont sous-estimes.
4.3.2 Les tests dautocorrlation AR(1) : t = t1 + ut

Lide est la suivante : sil y a autocorrlation dans les t , ceci se retera dans les et obtenus par les MCO. On construit alors un test partir des rsidus. test du 2 : On rgresse et sur et1 . On calcule alors (T 1)R2 qui suit, sous lhypothse nulle [ = 0], un 2 1 degr de libert. Ce test nest quasymptotiquement valable (donc pour de grands chantillons). On utilise donc usuellement un autre test : test de DurbinWatson : Si lautocorrlation est (+), les t successifs sont frquemment de mme signe, si lautocorrlation est () les signes alternent souvent. Ceci se rete dans les 57

rsidus. Ainsi, si on considre la statistique suivante :
T
d=
t=2
(et et1 )2
T
e2 t
t=1
Il se trouve que : avec une autocorrlation (+), [et et et1 souvent de mme signe] d faible avec une autocorrlation (), [et et et1 frquemment de signe =] d fort On peut alors se demander quel est lintervalle de valeurs dans lequel varie d. Le numrateur scrit :
T T T T
t=2
(et et1 ) =
e2 t
t=2
e2 t1
t=2
et et1
t=2
Or les termes suivants sont sensiblement gaux :

T T T
e2 t
t=1
e2 t
t=2
e2 t1
t=2
Il vient alors :
Or le cfcient dautocorrlation du premier ordre entre les rsidus scrit :

T T
d 2 1
et et1 t=2 T 2 et
t=1
rt,t1 =
T
t=2
(et e)(et1 e)
T
et et1
t=2 T
, car e = 0 e2 t
t=2
(et e)2
t=2
(et1 e)2
t=2
On a donc : d = 2(1 rt,t1 ) et comme rt,t1 [1, +1], on a d [0, 4]. On lit donc dans la table de DurbinWatson deux valeurs dinf et dsup (en fonction de T et du nombre de rgresseurs) ce qui donne : 58
Economtrie applique d 0 dinf dsup 2 4 dsup 4 dinf 4 autocor. (+) indter. rej. hyp. autocor. indter. autocor. () TAB . 4.1 DurbinWatson Rem. : Cela suppose que la rgression contient un terme constant et ce nest divemment indicatif que dun AR(1). Il ny a pas de variance explique endogne dtache.Il est noter lexistence dautres tests plus gnraux, tels que BreuschGodfrey par exemple qui teste des AR(p) ou MA(p). Dans lexemple 8 : Icecream-chap4. Autocorrlation (listing), on a : d = 0.4235 et d(3, 30) dans la table donne 1.28 (3 est le nombre de rgresseurs, constante incluse) Do une autocorrlation (+).
4.3.3 Les remdes

Une explication de lautocorrlation peut tenir lexistense de variables explicatives mises dans la rgression qui sont autocorrles et apparaissent subsquemment dans les rsidus. Dans lexemple 8 : Icecream chap4. Autocorrlation (listing) Lautocorrlation peut tre en partie explique par loubli de la variable temprature (variable autocorrle) et ayant une inuence sur la cons dicecream. Voir graphique de cons, temprature /100, price en fonction de time. Cest pourquoi on sest propos dinclure la variable temp dans la liste des rgresseurs : on obtient les rsultats sur listing. On peut noter, par rapport la rgression de cons sur income et price que temp est signicative mais galement income. Il subsiste cependant de lautocorrlation : d = 1.021169 et dinf = 1.21 et les tests usuels des MCO sont encore biaiss. On propose alors les remdes suivants : Correction de NeweyWest : Elle est analogue la correction de White pour obtenir de meilleurs estimateurs des catiances et covariances des k sous MCO : sur lexemple Icecream. Chap4. : dans STATA : newey cons income price temp, lag(1) ou avec lag(2), mais cela namliore pas les k pour des k qui restent ceux des MCO. Ce test : newey y x1 . . . xk . . . xK , lag(l) est cens corriger les k en cas dh troscdasticit et dautocorrlation de nature non spcie. La prcision lag(l) est ncessaire ; l est lcart maximal dans le temps prendre en considration pour 59

autocorrlation. Le cas particulier l = 0 revient la correction de White pour lhtroscdasticit. Les MCG : avec AR(1), on rappelle que : 2 . . . T 1 T 2 1 1 .. . T 1 T 2 . .. . . . .. . 1 2 .. .
2 u 2 = 1 2
et il vient alors2 : 1 2 0 . . . 0 0 1 .. . ... ... .. . 1 .. . 0 ... 0 . . . . .. . . . .. . 0 1
de sorte que pour les MCG, P y = (P X)+P , cela donne, si on note x1 , x2 , . . . xT les vecteurs ligne de la matrice X : 1 2 y1 y2 y1 . . . 1 2 x1 x2 x1 . . .
P =
et :
Py = yt yt1 . . .
yT yT 1
PX = t x xt1 . . . = 1 2 1 u2 . . . ut . . . uT
xT xT 1
P = t t1 . . .
2
1 2 1 2 1 . . .
T T 1
aprs calculs
60
Economtrie applique Le modle des MCG scrit alors : pour t = 1, 1 2 y1 = 1 2 1 + pour t = 1, yt yt1 = (1 )1 +
k
k=2
1 2 xk +
1 2 1
k=2
k (xtk xt1,k ) + t t1
ce qui est, sauf pour lobservation t = 1, ce quon obtient en faisant les diffrences du premier ordre : K yt = 1 + k xtk + t
k=2
En soustrayant :
yt1 = 1 +
k xt1,k + t1
k=2
yt yt1 = (1 )1 +
k=2
k (xtk xt1,k ) + t t1
=ut
Le problme est que est inconnu. On peut lestimer cependant de diffrentes faons (cf. PraisWinsten) : par ex. : cfcient dautocorrlation du premier ordre : = rt,t1 avec le d de DurbinWatson : d = 2(1 r) puis = 1 d 2 On utilise ensuite pour les MCG praticables : on peut faire soit : Les MCG complets : en conservant la premire observation, estimateurs de PraisWinsten M CG Les MCG sur les T 1 obs ; en liminant la premire observation, estimateur de CochraneOrcutt En rgle gnrale, les MCG sont itratifs, ce qui veut dire : 1. Les MCO sur y = X + donnent e rsidus et estims puis MCG() M CG donne 2. On obtient alors de nouveaux rsidus e = y X M CG , ce qui donne alors estim. Puis MCG( ) donne M CG 3. Nouveaux rsidus e = y X MCG( ) etc. . .
M CG M CG 2 i ei ).
On sarrte lorsque le rsultat est stationnaire (min Cette dmarche est critiquable puisque de toutes faons, les estimateurs sont efcaces chaque tape 61

et cela ne converge pas ncessairement vers le maximum de vraisemblance. On aura un minimum local. Voir listing exemple 8 : Icecream. chap4. pour applications de ces MCG : Les rsultats sont variables ( !) en fonction de la procdure choisie.
4.4 Complments mathmatiques

Reprsentation de la notion dhomoscdasticit Lhomoscdasticit dsigne la situaiton o la variable stochastique garde la mme distribution quelque soit les valeurs des variables explicatives. Dans le cas dune rgression simple, on peut reprsenter cette hypothse en dessinant au dessus de la droite de rgression thorique y = x + les distribution identiques des pour chaque x : Figure 4.1.
Densit
2 est constant
E(y) = 0 + 1 x
x F IG . 4.1 Rgression, hypothse dhomoscdasticit Inversement, dans le cas de lhtroscdasticit, cette distribution nest pas forcment la mme pour tout x. Un cas frquent est celui dune augmentation de la variabilit de y pour des plus grandes valeurs de x, la distribution des i est donc plus tale pour des xi plus grands : Figure 4.2.
62
Economtrie applique
Densit
2 nest pas constant
E(y) = 0 + 1 x
x F IG . 4.2 Cas dhtroscdasticit
63
64
Chapitre 5 Endognit et variables instrumentales

5.1 Endognit des rgresseurs
Parmi les hypothses poses par les MCO, lune est quil ny a pas de corrlation entre les observations x et les termes derreur : cov(xk , k ) = 0 k
Dans le cas contraire, si dans lquation y = 1 + K k xk + , il existe une k=2 variable xk telle que cov(xk , k ) = 0, alors cette variable est appele une variable endogne.
5.1.1 Les sources de lendognit

Les erreurs de mesure. Prenons un exemple dans le cadre de la rgression simple. Soit : (5.1) y = + W + v
2 Le terme v reprsente lerreur, avec E(v) = 0, Var(v) = v et cov(W, v) = 0. Supposons, par exemple, que W reprsente le revenu disponible, et y lpargne. Supposons prsent que ce revenu disponibles nest pas mesur de manire exacte. On mesure en ralit x tel que :
(5.2) x = W + u
2 Avec E(u) = 0, Var(u) = u et cov(u, v) = cov(u, W ) = 0.
65
CHAPITRE 5. ENDOGNIT ET VARIABLES INSTRUMENTALES

De (5.1) et (5.2), on a : (5.3) y = + x + Avec = v u. Do, videmment, cov(xk , k ) = 0 puisque xk est fonction de uk , daprs (5.2). Si, sur un chantillon dobservations, on estime avec lquation (5.3) : = Comme par ailleurs : yi y = (xi x) + (i ) Il vient : =+
1 N 1 N i (xi i (xi
x)(yi y) 2 i (xi x)
Quand N +, la covariance empirique1 et la variance empirique convergent en probabilit vers la covariance et la variance de la population. On a donc : +
p
x)(i ) 2 i (xi x)
cov(x, ) Var(x)
En consquence, lestimateur des MCO est non convergent en probabilit vers si cov(x, ) = 0. Mesure du biais : cov(x, ) = cov(W + u, v u) = E [(W + u E(W + u)) (v u)] = E [(W E(W ) + u) (v u)] = E[((W E(W ))v] E[((W E(W ))u] + E[uv] E[u2 ] 2 = u
2 2 Var(x) = Var(W + u) = Var(W ) + Var(u) + 2cov(W, u) = W + u
Do : plim = 1
2 u 2 2 W + u
1 2 2 1 + u /W
2 Il ny a donc convergence en probabilit de vers que si u = 0. Cest dire 2 2 sil ny a pas derreurs de mesure. Le rapport u /W peut tre compris comme le rapport du bruit sur le vrai signal, plus il est lev, plus le biais est important.
1
Cest dire calcule sur lchantillon.
66
Economtrie applique Le problme de la simultanit (modle quations simultanes) Soit le modle keynsien : (5.4) (5.5) c = + y + y =c+z c : consommation par tte y : revenu par tte z : autres dpenses (exogne)
On suppose que lon a : E() = 0, Var() = 2 et cov(z, ) = 0. Ici, y est endogne : elle est simultanment dtermine avec c, elle est donc fonction de dans lquation de consommation macro. De la forme structurelle : 1 1 1 c y = 0 0 1 1 z + 0
On va tirer la forme rduite qui exprime les variables endognes c et y en fonction des variables exognes z et des constantes : 1 (5.6) c = + z+ 1 1 1 1 1 (5.7) y = + z+ 1 1 1 On voit bien que c et y endognes (car fonction de ) do de par MCO sur (5.4) on a : (ct c)(yt y) Scy = t = 2 Syy t (yt y) avec ct c = (yt y) + (t ) il vient : =+ Et donc : plim = +
1 N 1 N t (yt
y)(t ) 2 t (yt y) cov(y, ) Var(y)
donc par les MCO sur (5.4) ne converge pas en probabilit vers . Mesure du biais 67
cov(y, ) =
1 1 2 cov(z, ) + Var() = 1 1 1 1 1 1 z+ ) = Var(z + ) Var(y) = Var( 1 1 (1 )2 1 = [Var(z) + 2 ] 2 (1 ) plim = + (1 ) 2 V (z) + 2
Do :
et comme 0 < < 1, il y a une surestimation de .
5.2 Correction des biais : la mthode des variables instrumentales

Reprenons le modle keynsien (quation 5.4) : c = + y + On a vu que cov(y, ) = 0 do lexistence dun biais de simultanit : plim = + cov(y, ) Var(y)
Variable instrumentale : on appelle variable instrumentale une variable non corrle avec et cependant corrle avec la variable explicative endogne. Ici cest le cas de z, car cov(z, ) = 0, et dans lquation (5.5), y = c + z, on a cov(y, z) = 0. Par ailleurs, on a : ct = + yt + t (ct c) = (yt y) + (t )
t
(ct c)(zt z) =
t (t
(yt y)(zt z) +
(t )(zt z)
(5.8)
Scz =+ Syz
)(zt z) Syz
p
Lorsque le nombre dobservation T tend vers linni on a : (t )(zt z) cov(z, ) = 0 68
Economtrie applique Do plim

Scz Syz
= . On pose ds lors : Scz = IV Syz
On appelle IV lestimateur de par la mthode des variables instrumentales, z tant ici "linstrument". On remarque que : Scy Scz = IV = M CO = Syz Syy Gnralisation de la mthode des IV : Soit : yi = 1 + 2 x2i + 3 x3i + i Aprs centrage, on obtient :
c yi = 2 xc + 3 xc + ei 2i 3i
Donc, quand on calcule ces 2 et 3 , on pose le systme dquation linaires suivant, appel systme des quations normales2 : (5.9) (5.10) (5.11) (5.12) Do :
c (yi 2 xc + 3 xc )xc = 0 2i 3i 2i c (yi 2 xc + 3 xc )xc = 0 2i 3i 3i
ei xc = 0 2i
i
ei xc = 0 3i
i
Sy2 2 S22 3 S23 = 0 Sy3 2 S32 3 S33 = 0
Soit encore :
Xc yc (Xc Xc )c = 0 c = (Xc Xc )1 Xc yc
2
Voir p. 7
69

Ce rsultat nest justi que si (5.10) et (5.10) sont vries, ce qui renvoit aux hypothses cov(x2 , ) = 0 et cov(x3 , ) = 0. Supposons x3 endogne : cov(x3 , ) = 0, et ainsi lutilisation de (5.10) est non justie. Il faut trouver un instrument z3 tel que cov(x3 , z3 ) = 0, et c cov(z3 , ) = 0. Il est alors justi de remplacer (5.10) par i ei z3i = 0. Do :
c i (yi c i (yi
2,IV xc + 3,IV xc )xc = 0 2i 3i 2i c c c 2,IV x2i + 3,IV x3i )z3i = 0
Soit encore : (5.13) (5.14) Sy2 2,IV S22 3,IV S23 = 0
Syz3 2,IV Sz3 2 3,IV S3z3 = 0
c Do, sous forme matricielle, en posant Zc = [xc , z3 ], Zc matrice des variables 2 instrumentales (avec x2 exogne, linstrument pour x2 est x2 elle mme). Do (5.14) et (5.14) peuvent alors scrire : Zc yc (Zc Xc )c,IV = 0
au lieu de :
Xc yc (Xc Xc )c,M CO = 0
Lestimateur par variables instrumentales est donc :
c,IV = (Zc Xc )1 Zc yc
Avec yc = Xc c + ( ), il vient :
c,IV = (Zc Xc )1 Zc (Xc c + ( )) = c + (Zc Xc )1 Zc En consquence, quant la taille de lchantillon augmente, Zc , vecteur des c composantes i xc i et i z3i i tend vers cov(x2 , ) et cov(z3 , ) donc vers le 2i vecteur nul et ainsi plim c,IV = c .
70
Economtrie applique
Modle Termes derreur dt , ot Variables exognes rt , mt Structure du modle paramtres j , et j Variables endognes qt , et pt
F IG . 5.1 Identication du modle
5.3 Lidentication
Quest-ce quun modle ? Exemple : quilibre partiel sur un march : qd = 1 + 2 p + 3 r + d (demande) qo = 1 + 2 p + 3 m + o (offre) qd = qo (quilibre) La forme structurelle du modle scrit : q = 1 + 2 p + 3 r + d (demande) q = 1 + 2 p + 3 m + o (offre) Ici : r reprsente le revenu national (exogne), m les conditions mtorologiques (exogne). On a donc : cov(r, d ) = cov(r, 0 ) = 0 et cov(m, d ) = cov(m, 0 ) = 0. Il y a donc deux variables endognes, q et p, et deux variables exognes r et m. Toute variable endogne est fonction de tous les termes derreur : ceci apparat de manire vidente avec la forme rduite du modle : elle consiste crire les variables endognes comme fonction des seules variables exognes et des termes derreur de la forme structurelle. 1 d 1 b3 0 q 1 2 r + = o 1 0 3 p 1 2 m Solution de : q = 2 1 + 1 2 + 3 2 r 2 3 m + 2 d 2 o 2 2 2 2 2 2 2 2 q = 1 1 + 3 r 3 m + d o 2 2 2 2 2 2 2 2 71

Cette forme rduite scrit sous la forme : q = 1 + 2 r 3 m + uq q = 1 + 2 r 3 m + up On peut dnir certaines caractristiques dun modle. On dit quil est complet sil a autant dquations que de variables endognes. On dit quune quation est identie si on dispose de sufsament de variables instrumentales pour lever les biais dendognit, c-a-d : Le nombre de variables exognes exclues de lquation est au moins gal au nombre de variables endognes explicatives de cette quation (condition dordre). On dit quun modle est identi si chaque quation du modle est identie. Prenons la fonction de demande : qd = 1 + 2 p + 3 r + d Les instruments disponibles sont les variables exognes du modle, soit r et m. Il y a un problme avec 2 car p est une variable endogne. Il faut donc une variable exogne (diffrente de r) pour lever le biais. On peut ici utiliser m. La mthode des variables instrumentales consiste poser : Zc = [mc , r c ], Xc = [pc , r c ] et
(Zc xc )c,IV = zc q c
Ce qui donne : Sqm = Smp 2,IV + Sm2 3,IV Sqr = Spr 2,IV + S22 3,IV Car mc rc . . . . . . c p mc . . . . . . 2,IV 3,IV mc rc . . . c q . . .
De mme pour la fonction doffre : qo = 1 + 2 p + 3 r + o La variable p est l encore endogne, mais r est exclue de lquation, elle constitue donc un instrument possible : Zc = [r c , mc ], Xc = [pc , mc ] Ici le modle est identi car chaque quation est identie. 72
Economtrie applique Cela nest pas le cas du modle de march prcdemment examin : qd = + p + d qd = + p + o q = + p + d q = + p + o
Il ny a pas ici dinstruments pour lever le biais dendognit de p, dans aucune des quations. La constante 1 est quivalente une variable endogne, mais elle est utilise pour estimer la constante dans la rgression. Il est possible dappliquer les MCO sur donnes non centres par rapport aux valeurs moyennes pour calculer et . Par exemple partir des deux quations normales : i ei 1 = 0 i ei pi = 0 avec ei = qi pi . Do :
i qi
N ( i pi ) = 0 2 i qi pi ( i pi ) ( i pi ) = 0
N + ( i pi ) = i qi ( i pi ) + ( i p2 ) = i
i qi pi
Soit encore :
Mais p est endogne et ne peut donc pas tre utilis dans lquation Ceci est visible sur la forme rduite du modle : q = d + o p = 1 + 1 d o q = + uq p = + up
i ei pi
= 0.
Les quations de la forme rduite sont ici identies (il ny a pas de variables explicatives endognes). Les MCO sont donc justis : MCO et MCO sont des estimations de (= q ) et (= p ), les valeurs dquilibre du march : MCO = q et MCO = p. Mais il nest pas possible de remonter de et au calcul des paramtres de la forme structurelle (MCI). Car : = =
Ce sont l deux quations quatre inconnues. 73

Cela aurait t possible dans un modle identi : la mthode des IV revient estimer les paramtres de la forme rduite et remonter de ces estimations aux paramtres de la forme structurelle. Cest le cas du modle de march avec p, m, r comme variables. Cest galement le cas du modle keynsien : c= + z+ 1 Forme c = + y + Forme 1 1 1 1 1 structurelle y =c+z rduite y= + z+ 1 1 1 On peut estimer ici les paramtres de la forme rduite par les MCO : c = 1 + 2 z + uc y = 1 + 2 z + u y Ceci donne en particulier : 2M CO = Scz Szz 2M CO = Syz Szz
Or = 2 /2 , do M CI = Scz /Syz , cest dire le mme rsultat que celui donn par les IV. Le calcul de lestimation de ne peut se faire partir de : c c c i ei yi = 0 avec ei = ci yi . On utilise donc z comme variable instrumentale :
c ei zi = 0 = i i c c (cc IV yi )zi = 0 i
donne : Scz IV Syz = 0 IV =
Scz Syz
5.4 Suridentication et doubles moindres carrs

Soit le modle, sous forme structurelle : (offre) qo = 1 + 2 p + o qd = 1 + 2 p + 3 y + 4 w + d (demande) qd = qo = q (quilibre)
Les variables y et w sont ici exognes. La courbe de demande est sous-identie : il ny a pas de variable exogne exclue de lquation pour lever le biais dendognit de p. La courbe doffre est par contre sur-identie puisquil existe deux variables exognes pour lever le biais dendognit de p. On peut utiliser : 74
Economtrie applique Soit y comme variable instrumentale : 2,IV = Soit w comme variable instrumentale :
2,IV = c i ei yi c = 0, ei = qi 2 pc . Avec : i
Sqy Spy
c i ei wi c = 0, ei = qi 2 pc . Avec : i
Sqw Spw
On dispose donc potentiellement de deux estimateurs, chacun tendant en probabilit vers 2 . Les valeurs estimes obtenues avec chacun de ces estimateurs sont cependant diffrentes. Ceci se retrouve avec les MCI : il y a deux manires diffrentes de calculer 2 partir des paramtres de la forme rduite. La forme structurelle du modle sans les constantes scrit : q c = 2 pc + o pc = 2 pc + 3 y c + 4 w c + d La forme rduite est : q c = 2 3 y c + 2 4 w c + uq 2 3 2 2 3 4 qc = w c + up yc + 2 3 2 2 do : q c = y y c + w w c + uq q c = y y c + w w c + u p Et : 2 = y /y = w /w . On a donc, partir de lestimateur de la forme rduite deux estimateurs de 2 : 2,IV = y y et
2,IV =
w w
La mthode des doubles moindres carrs (two stages least squares, 2SLS) consiste ne pas renoncer linformation disponible la fois sur y et w. Lide est de dnir une variable z qui utilise toute linformation disponible sur y et w, avec cov(z, p) = 0 et comme y et w sont des variables exognes : cov(y, d,o) = cov(w, d,o) = 0, alors on peut trouver p, fonction linaire de y et w tel que cov(p, d,o ) = 0. La mthode des doubles moindres carrs consiste utiliser p comme "instrument" : on rgresse q sur p pour estimer 2 . 75

On remarquera que lorsquune quation est exactement identie, on a : MCI=IV=2SLS. Par exemple : (offre) qo = 1 + 2 p + o qd = 1 + 2 p + 3 y + d (demande) qd = qo = q (quilibre) q c = 2 pc + o pc = 2 pc + 3 y c + +d Ce qui donne, sous forme rduite : q c = 2 3 y c + uq 2 2 pc = 3 y c + u p 2 2 q c = y y c + uq pc = y y c + u p
c i ei yi c = 0, ei = qi 2 pc et : i
ou encore (forme structurelle) :
Mthode des IV : y comme instrument : 2,IV = Mthode des MCI : comme y y Sqy Spy
2 =
2,IV
Sqy Sqy y Syy = = = Spy Spy y Syy
Mthode des 2SLS : 1. Premire tape : pc = y y c 2. Deuxime tape : rgression de q sur p, do : 2,2SLS = 2,2SLS y Sqy Sqy Sq p = = Sp p y Syy (y )2 Syy Sqy Sqy = Spy = Spy Syy Syy 76
Economtrie applique
5.5 Complments Mathmatiques

Si la projection orthogonale sur L(X) est considre comme la meilleure mthode destimation des k , cest parce que lon suppose que cov(x2 , 2 ) = 0 et que cov(x3 , 3 ) = 0. En dautre terme, on suppose que le vecteur des erreurs est asymptotiquement orthogonal L(X), cest pourquoi on peut estimer les en trouvant les coefcients tels que les rsidus soient orthogonaux L(X). Si ce nest pas le cas, et si est corrl aux vecteurs xk , lestimation sera biaise systmatiquement. Par exemple, en cas de covariance positive cov(xk , k ) > 0, les k estims seront surestims.
5.5.1 En rgression simple

La Figure 5.2 reprsente cette situation.
L(X)
F IG . 5.2 Projection de Y sur L(X) lorsque cov(xk , k ) > 0 Dans ce cas, trouver une variable instrumentale revient trouver une variable z orthogonale , mais non orthogonale L(X). Autrement dit : cov(z, xk ) = 0 cov(z, ) = 0 On va ds lors pouvoir estimer les coefcients k en projettant orthogonalement nos vecteurs y et xk sur L(Z). En faisant ainsi, on ne retient de nos variable explicative xk que ce qui est (asymptotiquement) orthogonal aux perturbations : Figure 5.3. On remplace la rgression : y = X + 77
L(Z)
X PZ X IV
L(X)
F IG . 5.3 Projection des variables sur L(Z) par : PZ y = PZ X + PZ La matrice PZ est la matrice de projection orthogonale sur L(Z). Lestimateur du vecteur des coefcients est :
2SLS = (X Pz X)1 X PZ y
Remplaons PZ X, parX : 2SLS = (X X)1 X y On peut donc considrer que 2SLS est obtenu en rgressant y sur X, projection orthogonale des variables X sur L(Z). Cest la raison pour laquelle on appelle cette mthode "rgression deux tapes". On peut en effet considrer que lon fait tout dabord la rgression de X sur Z puis que lon rgresse y sur les valeurs estimes obtenues X. On peut dailleurs faire en pratique ces deux tapes pour obtenir 2SLS , plutt que de rgresser y sur X. Cependant, si les coefcients sont les mmes, la matrice des variances covariances nest pas bonne lorsque lon procde de la sorte, et cela pose problme pour estimer la signicativit des coefcients. On a en effet : V(2SLS ) = E[(2SLS )] = E[((X PZ X)1 X PZ )((X PZ X)1 X PZ ) ] 78
Economtrie applique
V(2SLS ) = E[(X PZ X)1 X PZ PZ X(X PZ X)1 ] = 2 (X PZ X)1
Or : 2 =
Lorsque lon opre la rgression en deux tapes, pour rgresser y sur X, on a : y = PZ X 2SLS Avec : 2SLS = (X PZ X)1 X PZ y. En consquence on a : RSS2SLS = (y PZ X2SLS ) (y PZ X2SLS ) Le RSS2SLS reprsente la somme des rsidu lorsque y est explique par PZ X. Or en ralit, une fois lestimation 2SLS obtenu, ces coefcients estims sont utilis pour prdire y partir de X et non de PZ X. Le RSS du modle est donc : RSS = (y X2SLS ) (y X2SLS ) Les logiciels calculent cette valeur de la RSS automatiquement lorsquon utilise une commande pour raliser des variables instrumentales (ivreg pour stata par exemple). Il faut faire attention au fait que la matrice de variance covariance ne sera par contre pas bonne si lon fait les deux tapes la main.
RSS N K
5.5.2 En rgression multiple

Bien dnir les variables exognes Soit lquation : y = 1 + 2 x2 + . . . + K xK + Supposons que la variable xi , i < K soit endogne et quil soit possible de trouver une liste de variables instrumentales adquates : z1 , . . . , zn . Il faut bien faire attention la dnition des variables exognes : elles ne se rsumment pas aux simples variables instrumentales zk , k < n, mais elles incluent aussi les variables xk , k = i. La mthode des doubles moindre carr implique de projetter les variables de la rgression sur toutes les variables exognes. La liste des variables instrumentales au sens large est donc : 1, x1 , . . . , xi1 , xi+1 , . . . , xK , z1 , . . . , zn . Lorsque lon opre la mthode des 2SLS avec un logiciel de statistique, il va automatiquement inclure toutes les variables exognes dans lespace de projection L(Z). Par contre, si lon effectue la mthode des 2SLS la main en ralisant les deux tapes, il ne faut pas estimer xi par une rgression sur les seules variables zk , lestimateur obtenu serait alors inconsistent (non asymptotiquement sans biais) (Wooldridge 2002, p. 91).
79

La rgression interdite Lorsque lon souhaite estimer une inuence non strictement linaire dune variable x sur y, il est usuel dintgrer une transformation de cette variable dans la rgression : log(x) ou x2 le plus souvent. Si x est une variable endogne, on pourrait tre tent de raliser une estimation x de x sur les variables exognes dans une premire tape, puis dintgrer cette estimation et la transformation non linaire de celle-ci, log(x) ou x2 , dans la rgression expliquant y. Cela pourrait sembler une extension normale de la dmarche des 2SLS. Or cette pratique est errone et est mme appele la "rgression interdire" (Wooldridge 2002, "forbidden regression" p. 236-237). Il faut considrer log(x) ou x2 comme une variable endogne diffrente de x et qui doit tre instrumente comme cette dernire.
80
Annexes
81
Annexe A Rappels dalgbre linaire
83
ANNEXE A. RAPPELS DALGBRE LINAIRE

Dnitions A(n,m) est une matrice n lignes et m colonnes compose dlments aij (i pour le numro de la ligne, et j pour le numro de la colonne. a11 a12 a1m a21 a22 a2m A = . . .. . . . . (n,m) . an1 an2 anm
On appelle transpose dune matrice A, note A en conomtrie, et souvent A en mathmatiques, la matrice dont les lignes sont formes avec les lments des colonnes de A. Il y a comme une symtrie par rapport la diagonale de la matrice. En particulier, le vecteur transpos dun vecteur ligne est un vecteur colonne et vice et versa : v1 v2 = . V = v1 v2 vn V (1,n) . (n,1) . vn
t
Un vecteur est une matrice une ligne ou une colonne. Le vecteur peut tre en colonne, ou en ligne. v11 v21 V = . U = u11 u12 u1m . (1,m) . (n,1) vn1
Soit une matrice A, linverse de A, note A1 est telle que : A.A1 = A1 A =
I. Oprations On peut multiplier deux matrices en avec une formule un peu complique crire formellement, mais trs simple raliser en pratique. Pour plus de simplicit, on peut poser le produit matriciel ainsi :
b11 b21 . . . bm1

m i=1 m i=1 m i=1
b12 b22 bm2 a1i bi1 a2i bi1 . . . ani bi1

m i=1 m i=1 m i=1
.. . a1i bi2 a2i bi2 ani bi2 .. .
b1k b2k . . . bmk

m i=1 m i=1 m i=1
A . B = (n,m) (m,k)
a11 a21 . . . an1
a12 a22 an2
.. .
a1m a2m . . . anm
a1i bim a2i bim . . . ani bim
84
Economtrie applique On aura remarqu que pour que ce produit ait un sens, il faut que le nombre de colonnes de A gale le nombre de lignes de B. Le produit de deux vecteurs dcoule de ce principe. Il suft de remplacer A et B par des vecteurs pourvu que le nombre de colonne de lun soit gal au nombre de ligne de lautre. Nous utiliserons souvent en conomtrie le produit dun vecteur V avec le vecteur transpos de V . Deux types de multiplications de ce type existent. La premire donne un scalaire (un nombre rel) qui est la somme des carrs des lments de V , la seconde donne une matrice compose des carrs des lments de V . Tout dpend de la place respective du vecteur V et de son vecteur transpos V dans la multiplication.
v1 v2 . . . vn
n
(1,n) (n,1)
V . V =
v1 v2 vn
2 vi i=1
V . V = (n,1) (1,n)
v1 v2 . . . vn
v1 v2 vn 2 v1 v1 v2 v1 vn 2 v1 v2 v2 v2 vn . . .. . . . . . 2 v1 vn vn
Une matrice A( n, n) est de rang n si son dterminant est non nul. Pour calculer le dterminant |A| de A : A = (n,n) a11 a12 a1n a21 a22 a2n . . .. . . . . . an1 an2 ann
Petite opration prliminaire, on marque chaque lment de la matrice dun plus ou dun moins selon la rgle simple : plus si i + j est pair, et moins si i + j est 85

impair.
A = (n,n)
a+ a a.1n 11 12 a a+ a.2n 21 22 . . .. . . . . . . . + an1 an2 ann
On "dveloppe" selon une ligne ou une colonne, par exemple la premire colonne : a+ a.2n a a.1n 22 12 . a32 a3n a a.3n 32 +a21 (1) . . . + . .. .. . . . . . . . . . . . + . + an2 ann an2 ann
11 21
|A| =a11
+ an1 (1)(n+1)
a 12 a+ 22 . . .
.. .
a.1n a.2n . . .
a.n1,2 a+ n1,n
n1
ij est le cofacteur de llment aij , ij = (1)(i+j) fois le dterminant dune matrice extraite de A lorsque lon retire de A la ligne i et la colonne j 1 . On rapplique cette formule du calcul du dterminant chaque cofacteur jusqu obtenir des cofacteurs correspondant une matrice (1,1). Le cofacteur est alors gal au scalaire correspondant. L encore la pratique est plus aise que la comprhension de la description thorique. En particulier, il faut essayer de dvelopper selon les lignes ou les colonnes les plus simples (comprenant le plus de zros et de 1) pour simplier les calculs. Pour les matrices (2,2) qui seront sans doute lhorizon indpass de votre exprience en cours de matrise dconomtrie applique, les calculs sont simplicismes :
(2,2)
A =
a+ a 11 12 a a+ 21 22
, |A| = a11 a22 a21 a12
Les signes insrs initialement dans la matrice A permettent de retrouver facilement le signe du cofacteur.
86
Economtrie applique Tout ceci nous permet darriver la formule de linverse dune matrice A : 11 12 1n 1 21 22 2n A1 = . . .. . |A| . . . . n1 n2 nn
En franais, A1 est gale la matrice transpose des cofacteurs de A divise par le dterminant de A. Il est vident que A1 nexiste que si le dterminant de A nest pas nul. Pour une matrice (2,2), le calcul est l encore simplicisme : A = a11 a12 a21 a22 , A1 = 1 a11 a22 a21 a12 a22 a12 a21 a11
(2,2)
Formules A savoir : (AB) = B A Si A est inversible : (A )1 = (A1 ) (AB)1 = B 1 A1
87
88
Annexe B Tables statistiques
89
ANNEXE B. TABLES STATISTIQUES

La loi du chi-deux
0.001 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0.000 0.002 0.024 0.091 0.210 0.381 0.598 0.857 1.152 1.479 1.834 2.214 2.617 3.041 3.483 3.942 4.416 4.905 5.407 5.921 6.447 6.983 7.529 8.085 8.649 9.222 9.803 10.391 10.986 11.588 12.196 12.811 13.431 14.057 14.688 15.324 15.965 16.611 17.262 17.916 18.575 19.239 19.906 20.576 21.251 21.929 22.610 23.295 23.983 24.674 0.005 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 14.458 15.134 15.815 16.501 17.192 17.887 18.586 19.289 19.996 20.707 21.421 22.138 22.859 23.584 24.311 25.041 25.775 26.511 27.249 27.991 0.010 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 15.655 16.362 17.074 17.789 18.509 19.233 19.960 20.691 21.426 22.164 22.906 23.650 24.398 25.148 25.901 26.657 27.416 28.177 28.941 29.707 0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 17.539 18.291 19.047 19.806 20.569 21.336 22.106 22.878 23.654 24.433 25.215 25.999 26.785 27.575 28.366 29.160 29.956 30.755 31.555 32.357 0.05 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 19.281 20.072 20.867 21.664 22.465 23.269 24.075 24.884 25.695 26.509 27.326 28.144 28.965 29.787 30.612 31.439 32.268 33.098 33.930 34.764 0.1000 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 21.434 22.271 23.110 23.952 24.797 25.643 26.492 27.343 28.196 29.051 29.907 30.765 31.625 32.487 33.350 34.215 35.081 35.949 36.818 37.689 0.5000 0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 30.336 31.336 32.336 33.336 34.336 35.336 36.336 37.335 38.335 39.335 40.335 41.335 42.335 43.335 44.335 45.335 46.335 47.335 48.335 49.335 0.9000 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 41.422 42.585 43.745 44.903 46.059 47.212 48.363 49.513 50.660 51.805 52.949 54.090 55.230 56.369 57.505 58.641 59.774 60.907 62.038 63.167 0.9500 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 44.985 46.194 47.400 48.602 49.802 50.998 52.192 53.384 54.572 55.758 56.942 58.124 59.304 60.481 61.656 62.830 64.001 65.171 66.339 67.505 0.9750 5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 48.232 49.480 50.725 51.966 53.203 54.437 55.668 56.896 58.120 59.342 60.561 61.777 62.990 64.201 65.410 66.617 67.821 69.023 70.222 71.420 0.9900 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 52.191 53.486 54.776 56.061 57.342 58.619 59.893 61.162 62.428 63.691 64.950 66.206 67.459 68.710 69.957 71.201 72.443 73.683 74.919 76.154 0.9950 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672 55.003 56.328 57.648 58.964 60.275 61.581 62.883 64.181 65.476 66.766 68.053 69.336 70.616 71.893 73.166 74.437 75.704 76.969 78.231 79.490 0.9990 10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.124 27.877 29.588 31.264 32.909 34.528 36.123 37.697 39.252 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 52.620 54.052 55.476 56.892 58.301 59.703 61.098 62.487 63.870 65.247 66.619 67.985 69.346 70.703 72.055 73.402 74.745 76.084 77.419 78.750 80.077 81.400 82.720 84.037 85.351 86.661
90
Economtrie applique
La loi normale
0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
0.000 0.0000 0.0251 0.0502 0.0753 0.1004 0.1257 0.1510 0.1764 0.2019 0.2275 0.2533 0.2793 0.3055 0.3319 0.3585 0.3853 0.4125 0.4399 0.4677 0.4959 0.5244 0.5534 0.5828 0.6128 0.6433 0.6745 0.7063 0.7388 0.7722 0.8064 0.8416 0.8779 0.9154 0.9542 0.9945 1.0364 1.0803 1.1264 1.1750 1.2265 1.2816 1.3408 1.4051 1.4758 1.5548 1.6449 1.7507 1.8808 2.0537 2.3263
0.001 0.0025 0.0276 0.0527 0.0778 0.1030 0.1282 0.1535 0.1789 0.2045 0.2301 0.2559 0.2819 0.3081 0.3345 0.3611 0.3880 0.4152 0.4427 0.4705 0.4987 0.5273 0.5563 0.5858 0.6158 0.6464 0.6776 0.7095 0.7421 0.7756 0.8099 0.8452 0.8816 0.9192 0.9581 0.9986 1.0407 1.0848 1.1311 1.1800 1.2319 1.2873 1.3469 1.4118 1.4833 1.5632 1.6546 1.7624 1.8957 2.0749 2.3656
0.002 0.0050 0.0301 0.0552 0.0803 0.1055 0.1307 0.1560 0.1815 0.2070 0.2327 0.2585 0.2845 0.3107 0.3372 0.3638 0.3907 0.4179 0.4454 0.4733 0.5015 0.5302 0.5592 0.5888 0.6189 0.6495 0.6808 0.7128 0.7454 0.7790 0.8134 0.8488 0.8853 0.9230 0.9621 1.0027 1.0450 1.0893 1.1359 1.1850 1.2372 1.2930 1.3532 1.4187 1.4909 1.5718 1.6646 1.7744 1.9110 2.0969 2.4089
0.003 0.0075 0.0326 0.0577 0.0828 0.1080 0.1332 0.1586 0.1840 0.2096 0.2353 0.2611 0.2871 0.3134 0.3398 0.3665 0.3934 0.4207 0.4482 0.4761 0.5044 0.5330 0.5622 0.5918 0.6219 0.6526 0.6840 0.7160 0.7488 0.7824 0.8169 0.8524 0.8890 0.9269 0.9661 1.0069 1.0494 1.0939 1.1407 1.1901 1.2426 1.2988 1.3595 1.4255 1.4985 1.5805 1.6747 1.7866 1.9268 2.1201 2.4573
0.004 0.0100 0.0351 0.0602 0.0853 0.1105 0.1358 0.1611 0.1866 0.2121 0.2378 0.2637 0.2898 0.3160 0.3425 0.3692 0.3961 0.4234 0.4510 0.4789 0.5072 0.5359 0.5651 0.5948 0.6250 0.6557 0.6871 0.7192 0.7521 0.7858 0.8204 0.8560 0.8927 0.9307 0.9701 1.0110 1.0537 1.0985 1.1455 1.1952 1.2481 1.3047 1.3658 1.4325 1.5063 1.5893 1.6849 1.7991 1.9431 2.1444 2.5121
0.005 0.0125 0.0376 0.0627 0.0878 0.1130 0.1383 0.1637 0.1891 0.2147 0.2404 0.2663 0.2924 0.3186 0.3451 0.3719 0.3989 0.4261 0.4538 0.4817 0.5101 0.5388 0.5681 0.5978 0.6280 0.6588 0.6903 0.7225 0.7554 0.7892 0.8239 0.8596 0.8965 0.9346 0.9741 1.0152 1.0581 1.1031 1.1503 1.2004 1.2536 1.3106 1.3722 1.4395 1.5141 1.5982 1.6954 1.8119 1.9600 2.1701 2.5758
0.006 0.0150 0.0401 0.0652 0.0904 0.1156 0.1408 0.1662 0.1917 0.2173 0.2430 0.2689 0.2950 0.3213 0.3478 0.3745 0.4016 0.4289 0.4565 0.4845 0.5129 0.5417 0.5710 0.6008 0.6311 0.6620 0.6935 0.7257 0.7588 0.7926 0.8274 0.8633 0.9002 0.9385 0.9782 1.0194 1.0625 1.1077 1.1552 1.2055 1.2591 1.3165 1.3787 1.4466 1.5220 1.6072 1.7060 1.8250 1.9774 2.1973 2.6521
0.007 0.0175 0.0426 0.0677 0.0929 0.1181 0.1434 0.1687 0.1942 0.2198 0.2456 0.2715 0.2976 0.3239 0.3505 0.3772 0.4043 0.4316 0.4593 0.4874 0.5158 0.5446 0.5740 0.6038 0.6341 0.6651 0.6967 0.7290 0.7621 0.7961 0.8310 0.8669 0.9040 0.9424 0.9822 1.0237 1.0669 1.1123 1.1601 1.2107 1.2646 1.3225 1.3852 1.4538 1.5301 1.6164 1.7169 1.8384 1.9954 2.2262 2.7478
0.008 0.0201 0.0451 0.0702 0.0954 0.1206 0.1459 0.1713 0.1968 0.2224 0.2482 0.2741 0.3002 0.3266 0.3531 0.3799 0.4070 0.4344 0.4621 0.4902 0.5187 0.5476 0.5769 0.6068 0.6372 0.6682 0.6999 0.7323 0.7655 0.7995 0.8345 0.8705 0.9078 0.9463 0.9863 1.0279 1.0714 1.1170 1.1650 1.2160 1.2702 1.3285 1.3917 1.4611 1.5382 1.6258 1.7279 1.8522 2.0141 2.2571 2.8782
0.009 0.0226 0.0476 0.0728 0.0979 0.1231 0.1484 0.1738 0.1993 0.2250 0.2508 0.2767 0.3029 0.3292 0.3558 0.3826 0.4097 0.4372 0.4649 0.4930 0.5215 0.5505 0.5799 0.6098 0.6403 0.6713 0.7031 0.7356 0.7688 0.8030 0.8381 0.8742 0.9116 0.9502 0.9904 1.0322 1.0758 1.1217 1.1700 1.2212 1.2759 1.3346 1.3984 1.4684 1.5464 1.6352 1.7392 1.8663 2.0335 2.2904 3.0902
91

la loi de Student
1 m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0.60 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255 0.255
0.70 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.530 0.530 0.530 0.529 0.529 0.529 0.529 0.529 0.529 0.529 0.529 0.528 0.528 0.528 0.528 0.528 0.528 0.528 0.528 0.528
0.80 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.853 0.853 0.853 0.852 0.852 0.852 0.851 0.851 0.851 0.851 0.850 0.850 0.850 0.850 0.850 0.850 0.849 0.849 0.849 0.849
0.90 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.309 1.309 1.308 1.307 1.306 1.306 1.305 1.304 1.304 1.303 1.303 1.302 1.302 1.301 1.301 1.300 1.300 1.299 1.299 1.299
0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.696 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685 1.684 1.683 1.682 1.681 1.680 1.679 1.679 1.678 1.677 1.677 1.676
0.9750 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023 2.021 2.020 2.018 2.017 2.015 2.014 2.013 2.012 2.011 2.010 2.009
0.9900 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426 2.423 2.421 2.418 2.416 2.414 2.412 2.410 2.408 2.407 2.405 2.403
0.9950 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.744 2.738 2.733 2.728 2.724 2.719 2.715 2.712 2.708 2.704 2.701 2.698 2.695 2.692 2.690 2.687 2.685 2.682 2.680 2.678
0.9990 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.375 3.365 3.356 3.348 3.340 3.333 3.326 3.319 3.313 3.307 3.301 3.296 3.291 3.286 3.281 3.277 3.273 3.269 3.265 3.261
0.9995 636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.633 3.622 3.611 3.601 3.591 3.582 3.574 3.566 3.558 3.551 3.544 3.538 3.532 3.526 3.520 3.515 3.510 3.505 3.500 3.496
92
Economtrie applique
Limites des valeurs critiques de la statistique de DURBIN-WATSON signicativit de 5%, points QL et QU N 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 =2 QL QU 1.077 1.361 1.106 1.371 1.133 1.381 1.158 1.392 1.180 1.401 1.201 1.411 1.221 1.420 1.240 1.429 1.257 1.437 1.273 1.446 1.288 1.454 1.302 1.461 1.316 1.468 1.328 1.476 1.341 1.483 1.352 1.489 1.363 1.496 1.373 1.502 1.383 1.508 1.393 1.514 1.402 1.519 1.411 1.524 1.419 1.530 1.427 1.535 1.435 1.540 1.442 1.544 1.475 1.566 1.503 1.585 1.527 1.601 1.549 1.616 1.567 1.629 1.583 1.641 1.598 1.652 1.611 1.662 1.624 1.671 1.635 1.679 1.645 1.687 1.654 1.694 =3 QL QU 0.945 1.543 0.982 1.539 1.015 1.536 1.046 1.535 1.075 1.535 1.100 1.537 1.125 1.538 1.147 1.541 1.168 1.543 1.188 1.546 1.206 1.550 1.224 1.553 1.240 1.556 1.255 1.560 1.270 1.563 1.284 1.567 1.297 1.570 1.309 1.573 1.321 1.577 1.332 1.580 1.343 1.584 1.354 1.587 1.364 1.590 1.373 1.594 1.382 1.597 1.391 1.600 1.430 1.615 1.462 1.628 1.490 1.640 1.514 1.652 1.536 1.662 1.554 1.671 1.571 1.680 1.586 1.688 1.600 1.696 1.612 1.703 1.623 1.709 1.634 1.715 =4 QL QU 0.814 1.750 0.857 1.728 0.897 1.710 0.933 1.696 0.967 1.685 0.998 1.676 1.026 1.669 1.053 1.664 1.078 1.660 1.101 1.657 1.123 1.654 1.143 1.652 1.162 1.651 1.181 1.650 1.198 1.650 1.214 1.650 1.229 1.650 1.244 1.650 1.258 1.651 1.271 1.652 1.283 1.653 1.295 1.654 1.307 1.655 1.317 1.656 1.328 1.658 1.338 1.659 1.383 1.666 1.421 1.674 1.452 1.681 1.480 1.689 1.503 1.696 1.524 1.703 1.543 1.709 1.560 1.715 1.575 1.721 1.589 1.726 1.602 1.732 1.613 1.736 =5 QL QU 0.685 1.977 0.734 1.935 0.779 1.900 0.820 1.872 0.859 1.848 0.894 1.828 0.927 1.812 0.958 1.797 0.986 1.786 1.013 1.775 1.038 1.767 1.062 1.759 1.083 1.753 1.104 1.747 1.124 1.743 1.143 1.739 1.160 1.735 1.177 1.732 1.193 1.730 1.208 1.728 1.222 1.726 1.236 1.725 1.249 1.723 1.261 1.723 1.273 1.722 1.285 1.721 1.336 1.720 1.378 1.721 1.414 1.724 1.444 1.727 1.471 1.731 1.494 1.735 1.515 1.739 1.534 1.743 1.551 1.747 1.566 1.751 1.579 1.755 1.592 1.758 =6 QL QU 0.562 2.220 0.615 2.157 0.664 2.104 0.710 2.060 0.752 2.022 0.792 1.991 0.828 1.964 0.863 1.940 0.895 1.919 0.925 1.902 0.953 1.886 0.979 1.873 1.004 1.861 1.028 1.850 1.050 1.841 1.070 1.833 1.090 1.825 1.109 1.819 1.127 1.813 1.144 1.807 1.160 1.803 1.175 1.799 1.190 1.795 1.204 1.792 1.218 1.789 1.231 1.786 1.287 1.776 1.334 1.771 1.374 1.768 1.408 1.767 1.438 1.767 1.464 1.768 1.486 1.770 1.507 1.772 1.525 1.774 1.542 1.776 1.557 1.778 1.571 1.780
93
94
Annexe C Introduction la thorie des probabilits
95
ANNEXE C. INTRODUCTION LA THORIE DES PROBABILITS

Cette partie vise introduire la thorie des probabilits. La probabilit dun vnement A est une mesure de la vraisemblance dun vnement : Si lvnement A est impossible, Pr(A) = 0 Si lvnement A est certain, Pr(A) = 1 Si lvnement A est incertain, 0 < Pr(A) < 1 La thorie moderne des probabilit consiste tendre la notion de "mesure" la notion de probabilit pour mesurer cette vraisemblance1 . La base de la thorie des probabilit est la thorie de la mesure. Une mesure en mathmatique est une application qui associe une grandeur un lment. Par exemple, on peut mesurer la longueur dun mur, la surface dun parquet, le volume dune chambre. Les trois mesures prcdentes sont des exemples particuliers de mesure. Ce sont des mesures de Lebesgue, elles associent tout "pav" de Rp la grandeur :
p i=1
(bi ai )
Ainsi, sur R la longueur dun segment [a, b] est b a, et sur R2 la mesure dun rectangle est (b1 a1 )(b2 a2 ). Plus gnralement, on dnit une mesure (positive) sur un espace X comme une application satisfaisant ces deux principes : i () = 0 ii Pour toute suite (An )n1 de parties de X,
n=1
An
n=1
(An )
La premire condition implique que la mesure dune partie vide de X est nulle, et que la mesure de lunion de deux parties distinctes est la somme des mesure des parties (la mesure de la surface de deux carrs distincts est la somme des surfaces des deux carrs). Les mesures de Lebesgues sont des mesures particulires. De mme une mesure de probabilit est un type de mesure particulier. Une mesure de probabilit possde une proprit additionnelle : iii (X) = 1 La mesure sur lensemble de lespace est gale 1. On note usuellement P les mesures de probabilit. Soit P une mesure de probabilit, et A une partie de X, P (A) est la probabilit de A mesure par P .
La thorie actuelle des probabilit mobilise laxiomatique de Kolmogorov, qui fut le premier dans les annes 30 formaliser rigoureusement mathmatiquement la thorie des probabilits.
1
96
Economtrie applique Lois et densit de probabilit Supposons une plage stendant dun point A un point B. Sur cette plage se trouvent des plagistes. Ces derniers ne sont pas rpartis de manire homogne. En particulier la prsence dune vendeur de glace au milieu (C) en attire un plus grand nombre. On se propose grce un histogramme de reprsenter la rpartition de la population des plagistes sur AB. On dcoupe la plage en segments gaux de longueur AB/20. Ce faisant, on a dj utilis une mesure, la mesure de comptage qui associe chaque partie, le nombre dlments contenu dans cette partie. Ici on a mesur le nombre de plagistes sur chaque parcelle de plage. Supposons maintenant que lon divise les valeurs reprsentes dans notre histogramme par le nombre total de plagistes sur AB, an de reprsenter les proportions de plagistes de AB prsents sur chaque parcelle. Si vous avez suivi ce qui prcde vous aurez devin que ce faisant on a remplac la mesure de comptage sur AB par une mesure de probabilit P . La proportion de plagistes de la plage AB prsents sur la plage AB est en effet gale un... Notre histogramme reprsente prsent une mesure de probabilit sur AB. Supposons que Marc ait rendez-vous avec Julie sur la plage. Sil na aucune indication sur sa place a priori, les valeurs de lhistogramme lui donnent la probabilit de trouver Julie sur telle ou telle parcelle. Numrotons les parcelles de 1 20 de A vers B. Soit x le numro de la parcelle o se trouve Julie, x est appel la ralisation dune variable alatoire X. On appelle loi de probabilit, une mesure de probabilit associe une variable alatoire : elle donne pour toute pav dun espace Rp , la probabilit que X se trouve dans ce pav. Notre histogramme reprsente la loi de probabilit de X : pour chaque parcelle de AB, il nous donne la probabilit que x soit cette parcelle, et pour tout ensemble de parcelle, la somme des probabilit nous donne la probabilit que x appartienne cet ensemble de parcelles. Cette loi est discrte : elle nous donne donne des valeurs positives pour la probabilit des vnements : Pr(x = 2) par exemple. Supposons prsent que notre plage est trs grande et trs fortement peuple, on peut alors dcouper cette plage en parcelles de plus en plus petites. De telle sorte que la probabilit de trouver Julie sur une parcelle donne devient trs petite, et tend vers 0. Notre histogramme devient prsent une courbe lisse. Il ne permet plus de mesurer la probabilit de trouver Julie en un point (une petite parcelle), mais la surface sous la courbe entre deux points reprsente la probabilit de trouver Julie sur ce segment. La loi de probabilit de X est prsent continue, et notre courbe reprsente les valeurs de la densit de probabilit de X. Soit f cette densit, on a : d Pr f (x) = dx La densit de probabilit reprsente donc la vitesse de laugmentation de proba97
ANNEXE C. INTRODUCTION LA THORIE DES PROBABILITS

bilit en un point, lorsque lon ajoute ce point une partie mesure. On peut aussi rcrire ce qui prcde : f (x)dx = d Pr(x) = Pr(X x + dx) Pr(X x) = Pr(x X x + dx) f (x)dx nous donne donc la probabilit que X appartienne [x, x + dx]. Dans la nature, les lois de probabilit ne sont pas donnes, on essaye donc dassigner aux processus alatoires observes des lois de probabilits adquates. Pour cela, on peut poser comme hypothse que le processus suis un type de loi alatoire (une loi normale par exemple), on essaiera alors destimer les paramtres qui dnissent prcisment la loi (moyenne et cart type pour la loi normale par exemple), partir des donnes notre disposition. On pourra aussi tester lhypothse que ces paramtres ont telle ou telle valeur en regardant la probabilit que cette loi (dote de ces paramtres) produisent les donnes observes On rejettera les valeurs testes, si cette probabilit est trs faible. Enn, on peut remettre en cause lhypothse initiale portant sur le choix du type de loi, en mettant en oeuvre des tests. On pourra par exemple rejetter lhypothse de normalit de la loi dune variable alatoire si les observations sont trop asymtriques par rapport la moyenne.
98
Bibliographie
G REENE , W. (2000) : Econometric analysis. Prentice Hall International, London. P INDICK , R., ET D. RUBINFELD (1999) : Econometric Models and Economic Forecasts. Mc GrawHill. WOOLDRIDGE , J. (2002) : Econometric analysis of cross section and panel data. MIT Press, Cambridge Massachussets.
99
Index
quations normales, 7, 17 quations simultanes, 67 2SLS, voir variables instrumentales autocorrlation, 27 autocorrlation, 5562 biais des variables manquantes, 18 bruit blanc, 27 efcacit de lestimateur, 26 endognit, 20, 65 quations normales, 17, 69 erreurs de mesure, 65 Fisher loi de -, 32 forme rduite, 71 htroscdasticit, 51 htroscdsticit, 55 homoscdasticit, 27 identication, 71 multicolinarit, 19 Newey-West correction de -, 59 rgion dacceptation, 33 risque de deuxime espce, 33 risque de premire espce, 33, 34 Spurious correlation, 16 Student loi de -, 32 100 t-test, 35 test, 33 de BreuschPagan, 53 de Chow, 46 de CookWeisberg, 53 de DurbinWatson, 5759 de GoldfeldQuandt, 52 de Wald, 4143 de White, 52 du 2 , 57 en terme de RSS, 4041 test asymtrique, 37 test symtrique, 37 two stages least squares, voir variables instrumentales variable explicative, 33, 34 variables endognes, 21 variables instrumentales, 68, 78 variables manquantes, voir biais des variables manquantes biais des -, 15 Variables muettes, 46

Cours Econometrie

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Econometrie

Transféré par

Droits d'auteur :

Formats disponibles

Economtrie applique

Matrise sciences conomiques

Cours de Claude Meidinger

Whenever you can, count. Galton (1822-1911)

Table des matires

TABLE DES MATIRES

Chapitre 1 La rgression linaire

CHAPITRE 1. LA RGRESSION LINAIRE

e2 = (yX)(yX) = (y X )(yX) = y y X yy X+ X X i = X y y X + 2X X = 2X y + 2X X = 0 en minimisant cela

donne : X X = X y et la solution = (X X)1 X y

x2 F IG . 1.1 Droite de rgression

Donc (X X) = X y donne un systme de deux quations normales : (1.2) N1 + ( (1.3) (

CHAPITRE 1. LA RGRESSION LINAIRE

i (xi2 x2 )(yi y) 2 i (xi2 x2 )

x2 F IG . 1.2 Sens des covariations

1.2.2 Regression linaire multiple

xi3 matrice symtrique i xi2 xi3 2 i xi3

Economtrie applique yi do les trois quations normales suivantes : i xi2 yi i xi3 yi

(xi2 x2 )(xi3 x3 ) = (xi3 x3 )2 =

(xi2 x2 )(yi y) (xi3 x3 )(yi y)

1.3 Mesure (descriptive) de la qualit de lajustement linaire

CHAPITRE 1. LA RGRESSION LINAIRE

= y [I X(X X)1 X ]y = y y y X(X X)1 X y

= y X(X X)1 (X X) = y X = y y Do TSS = ESS + RSS

1.3.2 Mesure de la qualit de lajustement linaire

1.4 Une illustration

CHAPITRE 1. LA RGRESSION LINAIRE

s22 s23 s32 s33 sy2 sy3

s22 s23 s32 s33

T SS = syy , ESS = c X yc = 2 sy2 + 3 sy3 c 2 ESS R = T SS

yx2 ... ... ... ... ... ... ...

et 1 = 30 (0.25) 5 5.5 10 = 23.75 R2 = 1 272 0.25 5.5 62 52 = 0.998 ESS(x2 , x3 ) = 271.5

(Sy2 )2 = 240.25 R2 = 0.883 S22

(Sy3 )2 = 270.4 R2 = 0.994 S33

CHAPITRE 1. LA RGRESSION LINAIRE

RSS(x2 , . . . , xr ) = min sous la contraite r+1 = . . . = k = 0.

Economtrie applique do : 1 S22 c = (Xc Xc )1 Xc yc = 0 0 1 S33 Sy2 Sy3 2 = 3 =

(Sy2 )2 (Sy3 )2 + S22 S33

S23 Sy2 = S22 S22

CHAPITRE 1. LA RGRESSION LINAIRE

1.6 Complments mathmatiques

On peut rcrire ce qui prcde :

X u = X (y y) = X y X X = 0 Ce qui correspond bien aux quations normales (voir p. 7).

1.6.2 Projection et qualit de lestimation

CHAPITRE 1. LA RGRESSION LINAIRE

F IG . 1.4 Frish Waugh

CHAPITRE 1. LA RGRESSION LINAIRE

x2 x3 )2 0 cov(x2 , x3 ) V (x2 )V (x3 )

CHAPITRE 1. LA RGRESSION LINAIRE

Chapitre 2 Estimation des paramtres et tests dhypothses. Principes gnraux

CHAPITRE 2. ESTIMATION DES PARAMTRES ET TESTS DHYPOTHSES. PRINCIPES GNRAUX

F IG . 2.1 Les tapes de ltude conomtrique selon Maddala

Relation empirique : (2.2) yi = 1 +

On sait que = (X X)1 X y. Mais de (2.1), y = X + avec 1 2 = . . . N do = + (X X)1 X 25

CHAPITRE 2. ESTIMATION DES PARAMTRES ET TESTS DHYPOTHSES. PRINCIPES GNRAUX

et V(z), la matrice des variances et covariances de z : V(z) = E [(z E(z)) (z E(z)) ] : 26

V est une matrice symtrique (M, M). Considrons b = + (X x)1 X et posons

CHAPITRE 2. ESTIMATION DES PARAMTRES ET TESTS DHYPOTHSES. PRINCIPES GNRAUX

F IG . 2.2 Autocorrlation positive

789 10(9.6x8) = 0.75 668 10(64) 2 = 0.036 2 28

CHAPITRE 2. ESTIMATION DES PARAMTRES ET TESTS DHYPOTHSES. PRINCIPES GNRAUX

30.4 15.75 = 1.83 8

On sait que XX=