Vous êtes sur la page 1sur 33

Lh et erosc edasticit e.

La m ethode des moindres carr es ordinaires suppose que les er-


reurs sont ind ependantes et distribu ees de mani` ere identique
(- i.i.d.).
Cette hypoth` ese est viol ee lorsque :
la variance des erreurs, conditionnelle aux variables explica-
tives (ou r egresseurs) varie avec les observations. A ce moment
l` a, lhypoth` ese de distribution identique est viol ee. Ce probl` eme
est connu sous le terme dh et erosc edasticit e des erreurs par op-
position ` a lhomosc edasticit e ou variance commune.
Lorsque les erreurs sont i.i.d., on suppose quelles sont condi-
tionnellement homosc edastiques : les r egresseurs napportent
pas dinformation concernant la variance des erreurs.
Lorsque les erreurs sont corr el ees les unes aux autres, elles ne
sont plus distribu ees de mani` ere ind ependante; on parle alors
dautocorr elation des erreurs - chapitre suivant.
1 Quest-ce que lh et erosc edasticit e
Dans les s eries en coupe transversale repr esentant des indi-
vidus, des m enages ou des entreprises, la variance des erreurs
est souvent d ependante dune certaine taille ou echelle de grandeur;
Il peut y avoir homosc edasticit e au sein de groupes dindividus
similaires mais h et erosc edasticit e entre les groupes (ex: tra-
vailleurs ` a la commission et travailleurs salari es).
La m ethode des moindres carr es quasi g en eralis es qui tient compte
de cette particularit e attribuera des valeur diff erentes pour
2

;
elles seront similaires pour les individus du m eme groupe mais
diff erentes entre les groupes.
Lh et erosc edasticit e se rencontre lorsque les donn ees sont agr eg ees,
cest-` a-dire lorsque chaque observation est la moyenne de donn ees
micro economiques telles que pour une r egion ou un Etat.
1.1 Lh et erosc edasticit e li ee ` a une echelle de grandeur.
La variance des erreurs d epend dune certaine echelle de grandeur
(ex: dispersion dans la consommation des m enages ou des in-
vestissements pour les entreprises) :

2
i
z

i
z

i
est une variable repr esentant l echelle de grandeur de la i` eme
unit e
il ne faut estimer que

en fonction dun facteur de proportion-


nalit e z.
Quelle est nature de la proportionnalit e?
1. si = 2, on sait que l ecart-type de lerreur sera proportionnelle
` a z
i
(par exemple, le revenu du m enage ou les actifs ou lemploi
de lentreprise)
2. si = 1, on sait que la variance de lerreur est proportionnelle
` a z
i
, de sorte que l ecart-type est proportionnelle ` a

z
i
le choix de z
i
et permettra de d enir lestimateur des moin-
dres carr es quasi g en eralis es ` a utiliser.
1.1.1 Test de lh et erosc edasticit e li ee ` a l echelle de grandeur
Apr` es avoir fait la r egression des moindres carr es ordinaires, on
peut faire un test dh et erosc edasticit e en prenant les r esidus de
la r egression.
H
0
: V ar[|X] =
2

(1)
Sous lhypoth` ese nulle, la variance conditionnelle des erreurs ne
d epend pas des variables explicatives.
Etant donn e que
E[] = 0
cette hypoth` ese nulle est equivalente ` a
E[
2
|X] =
2

Lesp erance des r esidus au carr e conditionnelle ` a nimporte quelle


source dinformation z
i
ne devrait pas avoir dimpact sur son pou-
voir explicatif ( z
i
doit etre une fonction du r egresseur).
Le test le plus courant qui d ecoule de ce type de raisonnement
est celui de Breusch-Pagan (BP). Le test de BP est un test
du multiplicateur de Lagrange qui implique que lon fasse une
r egression du carr e des r esidus sur un ensemble de variables :

2
= d
0
+ d
1
z
i1
+ d
2
z
i2
+ . . . + d
l
z
il
+ v
i
(2)
` a partir de la r egression de l equation auxiliaire ci-dessus, sous
lhypoth` ese nulle,
LM = n R
2

2
2
l
l repr esente le nombre de r egresseur de la r egression auxiliaire.
Dans Stata, on peut obtenir le test de BP ` a laide de la com-
mande estat hettest apr` es la commande regress. Si aucune
liste de r egresseur (z) nest fournie, le test hettest sappuie sur
les valeurs de la r egression pr ec edente (les y
i
).
test de White : Le test de BP avec z = x est un cas particulier
du test de White : il repose sur une r egression auxiliaire de

2
i
sur les variables explicatives, leurs carr es et leurs produits
crois es.
Si on ne parvient pas ` a rejeter lhypoth` ese nulle dhomosc edasticit e,
ca ne signie pas une absence dh et erosc edasticit e mais plut ot
que lh et erosc edasticit e (si elle existe) nest pas de la forme
sp eci ee..
1.1.2 Application
Consid erons un exemple dh et erosc edasticit e li ee ` a l echelle de
mesure dans le cas des prix m edians du logement. La taille peut
etre comprise ici comme la taille du logement dans chaque quartier,
mesur ee par le nombre de pi` eces.
. use http://www.stata-press.com/data/imeus/hprice2a, clear
(Housing price data for Boston-area communities)
. regress lprice rooms crime ldist
Source | SS df MS Number of obs = 506
-----------+------------------------------ F( 3, 502) = 219.03
Model | 47.9496883 3 15.9832294 Prob > F = 0.0000
Residual | 36.6325827 502 .072973272 R-squared = 0.5669
-----------+------------------------------ Adj R-squared = 0.5643
Total | 84.5822709 505 .167489645 Root MSE = .27014
----------------------------------------------------------------------------
lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+----------------------------------------------------------------
rooms | .3072343 .0178231 17.24 0.000 .2722172 .3422514
crime | -.0174486 .001591 -10.97 0.000 -.0205744 -.0143228
ldist | .074858 .0255746 2.93 0.004 .0246115 .1251045
_cons | 7.984449 .1128067 70.78 0.000 7.762817 8.20608
----------------------------------------------------------------------------
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of lprice
chi2(1) = 140.84
Prob > chi2 = 0.0000
. estat hettest rooms crime ldist
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: rooms crime ldist
chi2(3) = 252.60
Prob > chi2 = 0.0000
. whitetst
Whites general test statistic : 144.0052 Chi-sq( 9) P-value = 1.5e-26
Chacun de ces tests indique quil y a de lh et erosc edasticit e et de
mani` ere signicative puisque par exemple, Prob > chi2 = 0.0000.
1.2 Lh et erosc edasticit e entre des groupes dobservations
Lh et erosc edasticit e entre des groupes dobservations est souvent
associ ee au fait de regrouper des donn ees qui peuvent etre des en-
sembles dobservations distribu ees de mani` ere non identique (Ex.
Expliquer la d epense de consommation ` a laide dune etude men ee
dans diff erentes r egions).
Le mod` ele est-il structurellement stable : les deux populations
peuvent avoir les m emes coefcients mais des variances diff erentes.
Cette situation peut se retrouver dans diff erents cas, tels que celui
du revenu dun salari e par rapport ` a celui dun travailleur ind ependant
ou ` a la commission. Cest egalement le cas pour les prots des
entreprises (ou chiffres daffaires ou linvestissement en capital)
qui sont plus variables dans certaines industries que dautres; les
march es qui vendent des produits nanciers sont, par exemple,
plus soumis ` a une demande cyclique que les producteurs/vendeurs
d electricit e.
1.2.1 le test de lh eterosc edasticit e entre groupes
Pour deux groupes, on peut construire un test du Fisher qui est
le rapport des variances des r esidus, avec la variance la plus
grande au d enominateur; les degr es de libert e sont constitu es
par les degr es de libert e des r esidus de chaque groupe. Ce test
peut se r ealiser ` a laide de la commande sdtest en sp eciant
une option by groupvar, loption indiquant les groupes (lEtat
ou lindustrie, etc).
Sil y a plus de deux groupes, par exemple, un ensemble de
10 industries, cette proc edure nest pas possible. On peut alors
utiliser la commande robvar. Loption by groupvar est ici aussi
sp eci ee
1
.
1
Dapr` es laide dans Stata : robvar reports Levenes statistic (W 0)
and two statistics proposed by Brown and Forsythe that replace the
mean in Levenes formula with alternative location estimators. The
rst alternative (W 50) replaces the mean with the median. The
second alternative replaces the mean with the 10 percent trimmed
mean (W 10).
1.2.2 Application
Prenons comme exemple, les donn ees portant sur six Etats am ericains
de la Nouvelle Angleterre entre 1981 et 1990. Les statistiques de-
scriptives sont obtenues ` a laide de la commande summarize pour
la variable dpipc - state disposable personal income per capita, ` a
savoir le revenu disponible par habitant.
. use http://www.stata-press.com/data/imeus/NEdata, clear
. summarize dpipc
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
dpipc | 120 18.15802 5.662848 8.153382 33.38758
La regression de dpipc sur lannee (\textsf{year}) nous donne une tendance du
revenu au cours du temps.
. regress dpipc year
Source | SS df MS Number of obs = 120
----------+------------------------------ F( 1, 118) = 440.17
Model | 3009.33617 1 3009.33617 Prob > F = 0.0000
Residual | 806.737449 118 6.83675804 R-squared = 0.7886
----------+------------------------------ Adj R-squared = 0.7868
Total | 3816.07362 119 32.0678456 Root MSE = 2.6147
---------------------------------------------------------------------------
dpipc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
year | .8684582 .0413941 20.98 0.000 .7864865 .9504298
_cons | -1710.508 82.39534 -20.76 0.000 -1873.673 -1547.343
---------------------------------------------------------------------------
. predict double eps, residual
. robvar eps, by(state)
| Summary of Residuals
state | Mean Std. Dev. Freq.
------------+------------------------------------
CT | 4.167853 1.3596266 20
MA | 1.618796 .86550138 20
ME | -2.9841056 .93797625 20
NH | .51033312 .61139299 20
RI | -.8927223 .63408722 20
VT | -2.4201543 .71470977 20
------------+------------------------------------
Total | -6.063e-14 2.6037101 120
W0 = 4.3882072 df(5, 114) Pr > F = .00108562
W50 = 3.2989849 df(5, 114) Pr > F = .00806752
W10 = 4.2536245 df(5, 114) Pr > F = .00139064
Dans cet exemple, on voit que lhypoth` ese nulle d egalit e des
variances est rejet ee par les trois statistiques (W0, W50, W10) du
test robvar. On peut voir que les r esidus pour le Connecticut (CT)
ont un ecart-type plus elev e (Std. Dev. = 1,359) que pour les autres
Etats.
1.3 Lh et erosc edasticit e au sein des groupes dobservations
Le troisi` eme cas dh et erosc edasticit e se produit pour les donn ees
en coupe, lorsque les observations sont regroup ees ou agr eg ees.
Cette situation se produit lorsque les variables de la base de donn ees
sont des moyennes ou des ecart-types de groupes dobservations,
comme par exemple, un ensemble dobservations pour les 50 Etats
des Etats-Unis. Nous savons que les observations pour la Cali-
fornie seront plus pr ecises (fond ees sur 30 millions dindividus)
que celles du Vermont (quelques millions dhabitants).
2 Le mod` ele lin eaire g en eralis e
Si lhypoth` ese desp erance conditionnelle egale ` a z ero est vraie,
la m ethode des MCO produira des estimations des coefcients ` a
variance minimale (consistent estimates en anglais).
y = X +
E[|X] = 0
E[

|X] =

avec

=
2
I
N
En revanche, la m ethode des moindres carr es g en eralis es (MCG
ou GLRM - generalized linear regression model) permet de pren-
dre en compte les cons equences des erreurs non i.i.d sur lestimation
de la matrice de covariance des coefcients

.
Lorsque

=
2
I
N
, lestimateur des MCO de est sans biais,
de variance minimale et distribu e selon une loi normale lorsque les
echantillons sont grands, mais ils ne sont plus efcaces :

= (X

X)
1
X

y
= (X

X)
1
X

(X + )
= + (X

X)
1
X

E[

] = 0
etant donn e lhypoth` ese desp erance conditionnelle nulle des er-
reurs, la variance de lestimateur (conditionnel ` a X) s ecrit :
V ar[

|X] = E[(X

X)
1
X

X(X

X)
1
] (3)
= (X

X)
1
(X

X)(X

X)
1
(4)
La matrice des variances-covariances des estimateurs dans le cas
des MCO est egale ` a
2

(X

X)
1
avec
2

remplac e par son estima-


tion s
2
.
Lorsque

=
2
I
N
, cet estimateur de la matrice des variances-
covariances des estimateurs nest pas de variance minimale et
la proc edure destimation habituelle nest plus appropri ee. On ne
peut plus utiliser les tests dhypoth` eses et les intervals de conance
donn es par les MCO avec la commande regress dans Stata.
2.1 Les types de violation de lhypoth` ese i.i.d.
La m ethode des moindres carr es g en eralis es - MCG - permet de
consid erer des mod` eles pour lesquels

=
2
I
N
. Trois cas partic-
uliers peuvent etre consid er es comme pr ec edemment :
1. Pure h et erosc edasticit e
Lorsquil y a h et erosc edasticit e pure,

est une matrice diago-


nale et cela viole lhypoth` ese de distribution identique. Lorsque
les el ements de la diagonale diff` erent, la variance de , condi-
tionnelle ` a X, varie selon les observations.

= E(
N
) =
_

2
1
0 . . . 0
0
2
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
N
_

_
Exemple : lorsque lon utilise des donn ees sur les m enages, la
variance des erreurs pour les individus ` a revenu elev e est plus
grande que la variance des erreurs pour les bas revenus.
2. Le regroupement dobservations
Les observations peuvent etre regroup ees en plusieurs groupes
s epar es, aussi appel es clusters au sein desquels les erreurs sont
corr el ees. Le regroupement a pour cons equence de rendre la
matrice

bloc-diagonale parce que les erreurs des diff erents


groupes sont ind ependantes. Ce cas viole lhypoth` ese de distri-
bution ind ependante dune mani` ere particuli` ere puisque chaque
groupe peut avoir sa propre variance des erreurs.
Exemple : dans le cas des d epenses des m enages, il peut y
avoir une corr elation des erreurs pour les m enages habitants
dans le m eme voisinage. En effet, habituellement le voisinage
regroupera des m enages ayant des caract eristiques socioprofes-
sionnelles et de revenu similaires.

=
_

1
0 . . . 0
0
m
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
M
_

m
repr esente une matrice de covariance intra-cluster. Pour
chaque groupe (ou cluster) m constitu e de
m
observations,
m
sera de taille
m

m
. La covariance nulle entre les observa-
tions des M diff erents clusters donne ` a la matrice de covariance

une forme bloc-diagonale.


3. Lautocorr elation Les erreurs dans les s eries temporelles (voir
chapitre suivant) peuvent se caract eriser par de lautocorr elation,
cest-` a-dire une corr elation entre les erreurs ` a travers le temps.
La matrice de covariance des erreurs peut s ecrire alors :

=
2

_
1
1
. . .
2N1

1
1 . . .
2N3
.
.
.
.
.
.
.
.
.
.
.
.

N1

2N3
. . . 1
_

1
,
2
, . . . ,
[N(N1)]/2
repr esentent les corr elations entre les el ements
successifs des erreurs. Ce cas viole egalement lhypoth` ese de
distribution ind ependante des erreurs .
2.2 Un estimateur robust de la matrice des variance-covariances
des estimateurs
Lestimateur de Huber-White-sandwich de la variance permet
dappliquer une approche robuste aux erreurs qui sont condition-
nellement h et erosc edastiques.
Il nous faut estimer le terme (X

E[

|X]X) de la variance qui


est pris en sandwich entre les termes (X

X)
1
.
V ar[

|X] = (X

X)
1
(X

X)(X

X)
1
] (5)
= (X

X)
1
(X

E[

|X]X)(X

X)
1
(6)
Hubert (1967) et White (1980) ont montr e que

S
0
=
1
N
N

i=1

2
i
x

i
x
i
(7)
permet destimer (X

E[

|X]X) lorsque
i
est conditionnellement
h et erosc edastique.
Si lon substitue lestimateur (7) ` a son equivalent pour la popu-
lation ` a partir de (5), on obtient un estimateur de la matrice de
variance covariance des erreurs robuste.
V ar[

|X] =
N
N k
(X

X)
1
_
_
_
N

i=1

2
i
X

i
X
i
_
_
_
(X

X)
1
(8)
Loption robust dans stata applique lestimateur sandwich. Lorsque
lon calcule des ecart-types robustes cela affecte les ecart-types
des coefcients mais pas leur estimation

.
Le F de la table de lANOVA sera supprim ee de m eme que le
R
2
ajust e parce quaucun des deux nest plus valide apr` es cette
proc edure. Si lhypoth` ese dhomosc edasticit e est valide, le simple
estimateur de la matrice de variance et covariance est plus efcace
que celui de la version robuste.
1. Pour un echantillon de taille modeste avec homosc edasticit e,
on a plut ot int er et ` a utiliser la proc edure simple et voir dans
quelle mesure les estimations sont fragiles ou non.
2. Pour de grands echantillons, il est devenu courant dutiliser
syst ematiquement des estimateurs robustes pour la matrice de
variance-covariance.
2.2.1 Application
Soit des observations dune base de donn ees (fertil2) qui contient
des donn ees pour 4.361 femmes vivant dans des pays en voie de
d eveloppement. Nous souhaitons mod eliser le nombre denfants
quelles ont mis au monde ceb pour chaque femme en fonction de
leur age age, leur age lors de la premi` ere naissance (agefbrth),
dun indicateur dusage dun moyen contraceptif (usemeth)
2
.
2
Dans la mesure o` u la variable d ependante est un entier, il faudrait appliquer une proc edure de Poisson, mais dans ce cas, nous utiliseront une r egression lin eaire
. use http://www.stata-press.com/data/imeus/fertil2, clear
. regress ceb age agefbrth usemeth
Source | SS df MS Number of obs = 3213
----------+------------------------------ F( 3, 3209) = 1433.16
Model | 9202.53439 3 3067.51146 Prob > F = 0.0000
Residual | 6868.49331 3209 2.14038433 R-squared = 0.5726
----------+------------------------------ Adj R-squared = 0.5722
Total | 16071.0277 3212 5.00343328 Root MSE = 1.463
---------------------------------------------------------------------------
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .003448 64.89 0.000 .2169763 .2304974
agefbrth | -.2606634 .0087954 -29.64 0.000 -.2779085 -.2434184
usemeth | .1873702 .0554298 3.38 0.001 .0786888 .2960516
_cons | 1.358134 .1737828 7.82 0.000 1.017397 1.69887
---------------------------------------------------------------------------
. estimates store nonRobust
. summarize ceb age agefbrth usemeth children if e(sample)
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
ceb | 3213 3.230003 2.236836 1 13
age | 3213 29.93931 7.920432 15 49
agefbrth | 3213 19.00498 3.098121 10 38
usemeth | 3213 .6791161 .4668889 0 1
children | 3213 2.999378 2.055579 0 13
On apprend que les femmes ont en moyenne 30 ans, quelles ont
eu leur premier enfant ` a 19 ans et quelles ont donn e naissance ` a
3,2 enfants en moyenne et quun peu moins de 3 enfants vivent
dans le m enage.
Lusage de la contraception est suppos e r eduire le nombre denfants
mis au monde par une femme.
On proc` ede ` a lestimation du mod` ele par la m ethode robuste et
on sauvegarde les r esultats X

E[

|X]X.
. regress ceb age agefbrth usemeth, robust
Linear regression Number of obs = 3213
F( 3, 3209) = 874.06
Prob > F = 0.0000
R-squared = 0.5726
Root MSE = 1.463
----------------------------------------------------------------------------
| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .0046619 47.99 0.000 .2145962 .2328775
agefbrth | -.2606634 .0095616 -27.26 0.000 -.2794109 -.2419159
usemeth | .1873702 .0606446 3.09 0.002 .0684642 .3062762
_cons | 1.358134 .1675624 8.11 0.000 1.029593 1.686674
----------------------------------------------------------------------------
. estimates store Robust
. estimates table nonRobust Robust, se t style(oneline) title(Estimates
of CEB with OLS and Robust standard errors)
Estimates of CEB with OLS and Robust standard errors
----------------------------------------
Variable | nonRobust Robust
-------------+--------------------------
age | .22373685 .22373685
| .00344802 .00466191
| 64.89 47.99
agefbrth | -.26066343 -.26066343
| .00879535 .00956162
| -29.64 -27.26
usemeth | .18737022 .18737022
| .0554298 .06064456
| 3.38 3.09
_cons | 1.3581336 1.3581336
| .17378284 .16756239
| 7.82 8.11
----------------------------------------
legend: b/se/t
Contrairement ` a nos attentes, lusage dun contraceptif ne sem-
ble pas avoir deffet n egatif sur le nombre denfants n es alors m eme
que la variable apparat signicative. Par ailleurs, il ne semble pas
y avoir de diff erence notable entre la r egression robuste et la simple
r egression indiquant quil ny a pas dh et erosc edasticit e condition-
nelle.
3 Lestimateur des matrices de variances-covariances pour les
regroupements
Stata propose un estimateur robuste de la matrice des variances-
covariances des coefcients lorsque les erreurs sont corr el ees au
sein des groupes et non distribu ees de mani` ere ind ependante.
Cet estimateur est quali e de cluster-robust-VCE estimator.
La corr elation au sein des groupes produit une matrice

qui
est diagonale par blocs avec des el ements diff erents de z ero au
sein de chaque bloc sur la diagonale. Cette construction permet
lautocorr elation au sein des groupes mais les erreurs des diff erents
groupes ne sont pas corr el ees.
Lorsque lon ignore les corr elations au sein des groupes, les es-
timations produisent des estimateurs des variance-covariances non
convergents. Dans la mesure o` u lestimation robust de la matrice
des variance-covariances suppose que les erreurs sont distribu ees
de mani` ere ind ependante, son estimation (X

E[

|X]X) nest par


cons equent pas convergente.
Lapplication de la commande cluster naffecte pas lestimation
du coefcient
3
mais simplement lestimation de la matrice des vari-
ances et covariances du coefcient. Loption cluster() suppose que
lon sp ecie une variable dappartenance ` a un groupe qui indique
comment les observations sont regroup ees.
3
` a linstar de la commande robust
Lestimateur robuste s ecrit :
V ar[

|X] =
N 1
N k
M
M 1
(X

X)
1
_
_
_
M

j=1

j

j
_
_
_
(X

X)
1
(9)
o` u M repr esente le nombre de clusters,
j
=
N
k
i=1

i
x
i
, N
j
repr esente
le nombre dobservations du j` eme cluster,
i
est alors le i` eme r esidu
du j` eme cluster, et x
i
un vecteur de regresseurs de taille 1 k de la
i` eme observation du j` eme cluster.
3.0.2 Application
La variable de cluster children, indique le nombre denfants qui
vivent dans le m enage. On suppose que les erreurs des m enages
de taille similaire seront corr el ees entre elles, mais quelles seront
ind ependantes pour des m enages de taille diff erente.
. regress ceb age agefbrth usemeth, cluster(children)
Linear regression Number of obs = 3213
F( 3, 13) = 20.91
Prob > F = 0.0000
R-squared = 0.5726
Number of clusters (children) = 14 Root MSE = 1.463
---------------------------------------------------------------------------
| Robust
ceb | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
age | .2237368 .0315086 7.10 0.000 .1556665 .2918071
agefbrth | -.2606634 .0354296 -7.36 0.000 -.3372045 -.1841224
usemeth | .1873702 .0943553 1.99 0.069 -.016472 .3912125
_cons | 1.358134 .4248589 3.20 0.007 .4402818 2.275985
Lestimateur qui permet la corr elation des erreurs au sein des
clusters conduit ` a des ecart-types plus larges (et des t plus petits)
que dans le cas pr ec edent.
3.1 Lestimateur Newey-West de la matrice de variance-convariance
En pr esence dh et erosc edasticit e et dautocorr elation, il est pos-
sible dutiliser lestimateur Newey-West (1987). Cet estimateur a
la m eme forme que lestimateur robuste pour les clusters, mais il
utilise un estimateur diff erent pour (X

E[

|X]X). Plut ot que de


sp ecier une variable de cluster, lestimateur Newey-West requiert
que lon sp ecie lordre maximal dautocorr elation des erreurs -
connu comme le d ecalage maximal, not e L.
En plus du terme qui ajuste lestimateur pour lh et erosc edasticit e,
lestimateur utilise des produits crois es pond er es des r esidus pour
tenir compte de lautocorr elation :

Q =

S
0
+
1
T
l

l=1
T

t=l+1

l

t

t1
(x

t
x
tl
+ x

t+x
t
)
o` u

S
0
est lestimateur robust de la matrice de variances-covariances,

t
est le t` eme r esidu et x
t
est la t` eme ligne de la matrice des re-
gresseurs. La forme de Newey-West prend un nombre sp ecique
L pour engendrer les poids :

l
= 1
l
L + 1
La r` egle est de choisir L =
4

N.
Cet estimateur HAC (-heteroskedastic and autocorrelation con-
sistent) est disponible dans Stata ` a laide de la commande newey.
3.1.1 Application
Prenon lexemple dune base de donn ees mensuelle portant sur les
taux dint er et ` a court et long terme, allant de 1952, 3` eme mois ` a
1995, 12` eme mois.
. use http://www.stata-press.com/data/imeus/ukrates, clear
. summarize rs r20
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
rs | 526 7.651513 3.553109 1.561667 16.18
r20 | 526 8.863726 3.224372 3.35 17.18
Le mod` ele exprime la variation du taux dint er et ` a court terme
rs, qui est ici linstrument de politique mon etaire de la Banque
dAngleterre, comme une fonction de la variation mensuelle du
taux dint er et de long terme r20. Les variables sont obtenues ` a
laide des op erateurs D. et L.
Le tableau ci-dessous donne un exemple pour la variable r20.
. list r20 l20 d20 ld20
+---------------------------------------+
| r20 lr20 dr20 ldr20 |
|---------------------------------------|
1. | 4.33 . . . |
2. | 4.23 4.33 -.0999999 . |
3. | 4.36 4.23 .1300001 -.0999999 |
4. | 4.57 4.36 .21 .1300001 |
5. | 4.36 4.57 -.21 .21 |
|---------------------------------------|
6. | 4.11 4.36 -.25 -.21 |
7. | 4.2 4.11 .0899997 -.25 |
8. | 4.19 4.2 -.0099998 .0899997 |
9. | 4.15 4.19 -.04 -.0099998 |
10. | 4.22 4.15 .0699997 -.04 |
|---------------------------------------|
11. | 4.13 4.22 -.0899997 .0699997 |
12. | 4.1 4.13 -.0300002 -.0899997 |
On estime le mod` ele avec la m ethode des MCOet avec la m ethode
Newey-West. Comme il y a 524 observations, la r` egle pour d eterminer
les d ecalages recommande de prendre 5 ( L =
4

524) d ecalages.
. regress D.rs LD.r20
Source | SS df MS Number of obs = 524
----------+------------------------------ F( 1, 522) = 52.88
Model | 13.8769739 1 13.8769739 Prob > F = 0.0000
Residual | 136.988471 522 .262430021 R-squared = 0.0920
----------+------------------------------ Adj R-squared = 0.0902
Total | 150.865445 523 .288461654 Root MSE = .51228
---------------------------------------------------------------------------
D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
r20 |
LD. | .4882883 .0671484 7.27 0.000 .356374 .6202027
_cons | .0040183 .022384 0.18 0.858 -.0399555 .0479921
---------------------------------------------------------------------------
. estimates store nonHAC
. newey D.rs LD.r20, lag(5)
Regression with Newey-West standard errors Number of obs = 524
maximum lag: 5 F( 1, 522) = 36.00
Prob > F = 0.0000
---------------------------------------------------------------------------
| Newey-West
D.rs | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
r20 |
LD. | .4882883 .0813867 6.00 0.000 .3284026 .648174
_cons | .0040183 .0254102 0.16 0.874 -.0459004 .0539371
---------------------------------------------------------------------------
. estimates store NeweyWest
. estimates table nonHAC NeweyWest, b(%9.4f) se(%5.3f) t(%5.2f) title(
Estimation de D.rs avec les ecart-types MCO et Newey-West)
Estimation de D.rs avec les ecart-types MCO et Newey-West
--------------------------------------
Variable | nonHAC NeweyWest
-------------+------------------------
LD.r20 | 0.4883 0.4883
| 0.067 0.081
| 7.27 6.00
_cons | 0.0040 0.0040
| 0.022 0.025
| 0.18 0.16
--------------------------------------
legend: b/se/t
Les ecart-types sont plus grands dans le cas Newey-West que pour la methode
des MCO, les coefficients restent neanmoins significatifs.
4 Lestimateur des moindres carr es g en eralis es
Alors que lestimateur robuste utilise le coefcient des MCO et
calcule un estimateur pour la matrice des variance-covariances,
lestimateur des moindres carr es quasi g en eralis es permet en plus
de d eterminer une estimation du coefcient plus efcace.
y = X +
E[

|X] =

est d eni sym etrique et positif, ce qui implique que son inverse

= P

P o` u P est une matrice triangulaire. Lorsque lon pr e-


multiplie le mod` ele par P

on obtient,
P

y = P

X + P

(10)
y

= X

(11)
avec
V ar[

] = E[

] = P

P = I
N
A partir dune matrice

connue, la r egression de y

sur X

est
asymptotiquement efcace suivant le th eor` eme de Gauss-Markov.
Cet estimateur est simplement une r egression lin eaire stan-
dard sur les donn ees transform ees :

GLS
= (X

)
1
(X

)
La matrice de variances-covariances de lestimateur des moindres
carr es g en eralis es

GLS
s ecrit :
V ar[

GLS
|X] = (X

X)
1
4.1 Lestimation dans le cas de lh et erosc edasticit e li ee ` a l echelle
de grandeur
Il faut estimer la matrice

en fonction dun facteur de proportion-


nalit e.
On applique la m ethode des moindres carr es quasi g en eralis es en
transformant les variables et en estimant ` a nouveau l equation
sur les variables transform ees. Les transformations doivent etre
telles quelle purge les r esidus de lh et erosc edasticit e et rendent
les erreurs i.i.d.
Supposons que la variance de lerreur pour la i` eme entreprise
est proportionnelle ` a z
2
i
sachant que z est une mesure de l echelle
de grandeur en relation avec les variables. On suppose que z
i
est
strictement positif ou quil a et e transform e pour etre positif.
La transformation appropri ee pour rendre les erreurs homosc edastiques
serait de diviser chaque variable de y, X (y compris la constante ,
la premi` ere colonne de X) par z
i
. L equation aura un r esidu
i
/z
i
et comme z
i
est une constante :
V ar[
i
/z
i
] = (1/z
2
i
)V ar[
i
]
y
i
=
0
+
1
x
i1
+ . . . +
k
x
ik
+
i
(12)
en sp eciant l equation transform ee
y
i
z
i
=

0
z
i
+

1
x
i1
z
i
+ . . . +

k
x
ik
z
i
+

i
z
i
(13)
y

i
=
0

+
1
x

i1
+ . . . +
k
x

ik
+

i
(14)
o` u

= 1/z
i
.
La signication economique des coefcients dans l equation
transform ee na pas chang e;
2
et son estimation

2
repr esentent
toujours y/x
2
.
Dans la mesure o` u la variable d ependante a et e transform ee,
les mesures telles que le R
2
ne sont plus comparables ` a ceux
dorigine. En particulier, l equation transform ee na pas de con-
stante.
Dans ce context, les moindres carr es quasi g en eralis es peuvent
etre estim es ` a laide des moindres carr es pond er es. La trans-
formation consiste ` a pond erer chaque observation (dans ce cas, il
sagit duns pond eration analytique -analytical weights (aw) 1/z
2
i
).
4.1.1 Application
On reprend lexemple de lestimation de la valeur m ediane dun
logement dans lagglom eration de Boston.
. generate rooms2 = rooms2
. regress lprice rooms crime ldist [aweight = 1/ rooms2]
(sum of wgt is 1.3317e+01)
Source | SS df MS Number of obs = 506
----------+------------------------------ F( 3, 502) = 159.98
Model | 39.6051883 3 13.2017294 Prob > F = 0.0000
Residual | 41.426616 502 .082523139 R-squared = 0.4888
----------+------------------------------ Adj R-squared = 0.4857
Total | 81.0318042 505 .160459018 Root MSE = .28727
---------------------------------------------------------------------------
lprice | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
rooms | .2345368 .0194432 12.06 0.000 .1963367 .272737
crime | -.0175759 .0016248 -10.82 0.000 -.0207682 -.0143837
ldist | .0650916 .027514 2.37 0.018 .0110349 .1191483
_cons | 8.450081 .1172977 72.04 0.000 8.219626 8.680536
------------------------------------------------------------------------------
On pr ecise dans cette r egression la pond eration ` a adopter, ici il
sagit dune pond eration 1/rooms2. Ces estimations sont qualita-
tivement similaires ` a celles qui utilisent loption robust, avec des
mesures de signication globale l eg` erement plus faibles.
Les s eries que lon sp ecie comme pond eration analytique (aw)
doivent etre linverse de la variance de lobservation, et non son
ecart-type, et les donn ees originales sont multipli ees par la pond eration
analytique et non divis ees.
Dans les travaux econom etriques, il est courant destimer les
equations sous la forme de ratios. Ainsi, pour les donn ees de pays
ou de r egion, on utilise les variables d ependantes et ind ependantes
par t ete (par habitants ou travailleurs), de m eme que lon utilise
des ratios nanciers pour les entreprises ou les industries. Il nen
reste pas moins que m eme pour ces mod` eles il faudrait consid erer
lexistence dh et erosc edasticit e.
4.2 Lestimation dans le cas de lh et erosc edasticit e entre groupes
dobservations
Si diff erents groupes dobservations ont des erreurs avec des vari-
ances diff erentes, il est possible dappliquer la m ethode des moin-
dres carr es g en eralis es avec une pond eration analytique.
Dans le cadre des groupes, on d enit la pond eration analytique
comme une valeur constante pour chaque observation dans un groupe.
Cette valeur est calcul ee comme la variance estim ee des r esidus
MCO de ce groupe. A laide de la s erie des r esidus ainsi obtenus,
on peut construire une estimation de la variance pour chaque groupe,
chaque Etat ou r egion par exemple, avec la commande egen et en-
gendrer ainsi une s erie de poids analytique.
4.2.1 Application
On reprend lexemple ci-dessus et les residus \textsf{eps} dej`a calcules pour l
de la Nouvelle Angleterre.
. by state, sort : egen sd_eps = sd(eps)
. generate double gw_wt = 1/sd_eps2
. tabstat sd_eps gw_wt, by(state)
Summary statistics: mean
by categories of: state
state | sd_eps gw_wt
------+--------------------
CT | 1.359627 .5409545
MA | .8655014 1.334948
ME | .9379762 1.136623
NH | .611393 2.675218
RI | .6340872 2.48715
VT | .7147098 1.957675
------+--------------------
Total | .8538824 1.688761
---------------------------
La commande tabstat rev` ele que les ecart-types des r esidus pour
le New Hampshire (NH) et Rhode Island (RI) sont beaucoup plus
petits que pour les autres quatre Etats.
On r eestime cette fois l equation avec la m ethode des moindres
carr es quasi g en eralis es en utilisant des s eries de poids analytiques.
. regress dpipc year [aw=gw_wt]
(sum of wgt is 2.0265e+02)
Source | SS df MS Number of obs = 120
----------+------------------------------ F( 1, 118) = 698.19
Model | 2845.55409 1 2845.55409 Prob > F = 0.0000
Residual | 480.921278 118 4.07560405 R-squared = 0.8554
----------+------------------------------ Adj R-squared = 0.8542
Total | 3326.47537 119 27.9535745 Root MSE = 2.0188
---------------------------------------------------------------------------
dpipc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
year | .8444948 .0319602 26.42 0.000 .7812049 .9077847
_cons | -1663.26 63.61705 -26.14 0.000 -1789.239 -1537.281
---------------------------------------------------------------------------
Si on compare ces r esultats avec ceux obtenus plus haut sur une
simple r egression sans pond eration en utilisant la commande regress,
Root MSE est bien plus petite que dans le cas pr ec edent.
4.3 Lestimation dans le cas des donn ees group ees
On peut consid erer dans ce cas que la pr ecision de la moyenne
(cest-` a-dire l ecart-type) pour chaque groupe d epend de la taille
du groupe ` a partir duquel la moyenne est calcul ee.
La pond eration analytique, proportionnelle ` a linverse de la vari-
ance de lobservation doit prendre en compte la taille du groupe.
Par exemple, si on a des donn ees par t ete ( epargne ou revenu par
t ete) pour une r egion, on pourra estimer :
regress saving income [aw=pop]
pour laquelle on sp ecie la pond eration analytique pop. Les
grandes r egions auront des pond erations plus importantes, re etant
ainsi la plus grande pr ecision de la moyenne du groupe.
4.3.1 Application
On peut illustrer ce dernier cas ` a laide de donn ees portant sur les
caract eristiques de 420 quartiers comportant des ecoles publiques.
La moyenne du score pour le test de lecture par el` eve (read scr)
est mod elis ee comme une fonction des d epenses par el` eve (expn stu),
le nombre dordinateurs par el` eve (comp stu), et le pourcentage
d el` eves recevant des repas gratuits (meal pct, il sagit dun in-
dicateur de pauvret e du quartier). Nous connaissons egalement le
nombre dinscriptions ` a l ecole par quartier (enrl tot).
. use http://www.stata-press.com/data/imeus/pubschl, clear
. summarize read_scr expn_stu comp_stu meal_pct enrl_tot
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
read_scr | 420 654.9705 20.10798 604.5 704
expn_stu | 420 5312.408 633.9371 3926.07 7711.507
comp_stu | 420 .1359266 .0649558 0 .4208333
meal_pct | 420 44.70524 27.12338 0 100
enrl_tot | 420 2628.793 3913.105 81 27176
Nous commencons par estimer le mod` ele sans tenir compte du
nombre dinscrits qui varie consid erablement dun quartier ` a lautre.
On sattend ` a ce que les scores des tests de lecture soient plus
elev es (relation positive) lorsque les d epenses par el` eve et le nom-
bre dordinateurs par el` eve sont plus importants et on sattent ` a une
relation n egative avec la pauvret e (scores moins bons).
. regress read_scr expn_stu comp_stu meal_pct
Source | SS df MS Number of obs = 420
----------+------------------------------ F( 3, 416) = 565.36
Model | 136046.267 3 45348.7558 Prob > F = 0.0000
Residual | 33368.3632 416 80.2124115 R-squared = 0.8030
----------+------------------------------ Adj R-squared = 0.8016
Total | 169414.631 419 404.330861 Root MSE = 8.9561
---------------------------------------------------------------------------
read_scr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
expn_stu | .0046699 .0007204 6.48 0.000 .0032538 .006086
comp_stu | 19.88584 7.168347 2.77 0.006 5.795143 33.97654
meal_pct | -.635131 .0164777 -38.54 0.000 -.667521 -.602741
_cons | 655.8528 3.812206 172.04 0.000 648.3592 663.3464
---------------------------------------------------------------------------
Nos hypoth` eses concernant les relations entre la variable read scr
et les facteurs explicatifs sont conrm ees par les r esultats. On va
n eanmoins r eestimer le mod` ele en utilisant le nombre dinscrits
comme pond eration analytique
. regress read_scr expn_stu comp_stu meal_pct [aw=enrl_tot]
(sum of wgt is 1.1041e+06)
Source | SS df MS Number of obs = 420
----------+------------------------------ F( 3, 416) = 906.75
Model | 123692.671 3 41230.8903 Prob > F = 0.0000
Residual | 18915.9815 416 45.4711093 R-squared = 0.8674
----------+------------------------------ Adj R-squared = 0.8664
Total | 142608.652 419 340.354779 Root MSE = 6.7432
---------------------------------------------------------------------------
read_scr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+----------------------------------------------------------------
expn_stu | .0055534 .0008322 6.67 0.000 .0039176 .0071892
comp_stu | 27.26378 8.197228 3.33 0.001 11.15063 43.37693
meal_pct | -.6352229 .013149 -48.31 0.000 -.6610696 -.6093762
_cons | 648.988 4.163875 155.86 0.000 640.8031 657.1728
---------------------------------------------------------------------------
Lorsque lon introduit les pond erations, les coefcients sont mod-
i es et le Root MSE est sensiblement r eduit.
En effet, si on donne le m eme poids aux grands et aux petits
etablissements, on donne en fait trop dimportance aux petits etablissements
et pas assez aux grands.
Ainsi, limpact du nombre dordinateurs par etudiant est presque
50% sup erieur dans le cas o` u lon tient compte de la pond eration,
et limpact des d epenses par el` eve est plus faible dans le mod` ele
MCO. La pond eration apporte egalement une meilleure pr ecision
dans les estimations.