Vous êtes sur la page 1sur 171

Table des matires

1 Introduction
1.1 Quest-ce quun panel . . . . . . . . . . .
1.2 Organisation des donnes de panel sous R
1.3 Mesure de la variabilit dans un panel . .
1.4 Des transformations utiles . . . . . . . . .
1.5 Les diffrentes formes dhtrognit . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

1
2
3
5
10
12

2 Modle erreurs composes


15
2.1 Notations et hypothses . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Hypothses sur les termes derreur . . . . . . . . . . . . . . 17
2.2 Estimateurs des moindres carrs ordinaires . . . . . . . . . . . . . 18
2.2.1 Estimateur des moindres carrs ordinaires sur les variables
non transformes . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Lestimateur between . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Lestimateur within . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Lestimateur des moindres carrs gnraliss . . . . . . . . . . . . . 23
2.3.1 Prsentation de lestimateur des mcg . . . . . . . . . . . . 23
2.3.2 Estimation des variances des composantes du terme derreur 25
2.4 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Relations entre les estimateurs . . . . . . . . . . . . . . . . 27
2.4.2 Comparaison des variances . . . . . . . . . . . . . . . . . . 28
2.5 Exemples dapplication . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.1 Un exemple complet destimation avec plm . . . . . . . . . 28
2.5.2 Exemples de modles linaires simples . . . . . . . . . . . . 32
2.6 Simulation des proprits des estimateurs . . . . . . . . . . . . . . 37
3 Le modle erreurs composes : extensions
3.1 Le modle double erreurs composes . . . . . . . . . . . .
3.1.1 Dcomposition de la variance dans le modle doubles
3.1.2 Modles effets fixes et effets alatoires . . . . . .
3.1.3 Application . . . . . . . . . . . . . . . . . . . . . . .

. . . .
effets
. . . .
. . . .

41
41
41
42
42

viii

Economtrie des donnes de panel avec R


3.2
3.3
3.4
3.5

Dautres estimateurs des variances des composantes du terme derreur


Panel non cylindre . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lestimateur du maximum de vraisemblance . . . . . . . . . . . . .
Systme dquations corrles . . . . . . . . . . . . . . . . . . . . .
3.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Les moindres carrs contraints . . . . . . . . . . . . . . . .
3.5.3 La prise en compte des corrlations inter-quations . . . . .
3.5.4 Donnes de panel . . . . . . . . . . . . . . . . . . . . . . . .
3.5.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Tests sur le modele a erreurs composees


4.1 Tests deffets individuels et/ou deffets temporels . .
4.1.1 Tests de F . . . . . . . . . . . . . . . . . . . .
4.1.2 Tests de Breush-Pagan . . . . . . . . . . . . .
4.1.3 Application . . . . . . . . . . . . . . . . . . .
4.2 Modele a erreurs composees vs modeles a coefficients
4.2.1 Modeles a coefficients variables . . . . . . . .
4.3 Modele a effet fixe vs modele a effets aleatoires . . .
5 Autocorrlation et htroscdasticit

. . . . . .
. . . . . .
. . . . . .
. . . . . .
variables
. . . . . .
. . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

43
45
48
49
53
53
53
54
55
57
61
61
61
62
63
65
67
70
73

6 Endogneite
75
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 Estimation dune quation isole . . . . . . . . . . . . . . . . . . . 76
6.2.1 Les modles within et between . . . . . . . . . . . . . . . . 80
6.2.2 Estimateurs combinant les variations intra et inter-individuelles 83
6.3 Estimation dun systme dquation . . . . . . . . . . . . . . . . . 88
6.3.1 Lestimateur des triples moindres carrs ordinaires . . . . . 88
6.3.2 Lestimateur des triples moindres carrs ordinaires erreurs
composes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4 Estimateur dHausman-Taylor . . . . . . . . . . . . . . . . . . . . . 92
7 Estimation dun modle dynamique
97
7.1 Modle dynamique et endognit . . . . . . . . . . . . . . . . . . 99
7.1.1 Le biais de lestimateur des mco . . . . . . . . . . . . . . . 99
7.1.2 Lestimateur within . . . . . . . . . . . . . . . . . . . . . . 101
7.1.3 Mthodes destimation convergentes pour les modles dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2 Estimateur des moments gnraliss du modle en diffrences . . . 105
7.2.1 Variables instrumentales et mthode des moments gnraliss 105
7.2.2 Estimateur en une tape . . . . . . . . . . . . . . . . . . . . 107
7.2.3 Estimateur en deux tapes . . . . . . . . . . . . . . . . . . 109

Table des matires


7.2.4
7.3

7.4

7.5

La prolifration du nombre dinstruments dans le modle des


moments gnraliss en diffrences . . . . . . . . . . . . . .
Estimateur gmm systme . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Des instruments faibles . . . . . . . . . . . . . . . . . . . .
7.3.2 Conditions de moments sur le modle en niveau . . . . . . .
7.3.3 Lestimateur gmm en systme . . . . . . . . . . . . . . . . .
Infrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Estimation robuste de la matrice de variance des coefficients
7.4.2 Tests de validit des moments . . . . . . . . . . . . . . . . .
7.4.3 Test dabsence dautocorrlation des innovations . . . . . .
Exemples dapplication . . . . . . . . . . . . . . . . . . . . . . . . .

ix

110
113
113
114
116
118
118
121
122
124

8 Modles linaires gnraliss et assimils


8.1 Le modele binomial . . . . . . . . . . . . .
8.1.1 Introduction . . . . . . . . . . . .
8.1.2 Panel . . . . . . . . . . . . . . . .
8.1.3 Application . . . . . . . . . . . . .
8.2 Modele ordonne . . . . . . . . . . . . . . .
8.2.1 Introduction . . . . . . . . . . . .
8.2.2 Panel . . . . . . . . . . . . . . . .
8.2.3 Application . . . . . . . . . . . . .
8.3 Modele tobit . . . . . . . . . . . . . . . .
8.3.1 Introduction . . . . . . . . . . . .
8.3.2 Panel . . . . . . . . . . . . . . . .
8.3.3 Application . . . . . . . . . . . . .
8.4 Poisson . . . . . . . . . . . . . . . . . . .
8.4.1 Introduction . . . . . . . . . . . .
8.4.2 Panel . . . . . . . . . . . . . . . .
8.4.3 Application . . . . . . . . . . . . .
8.5 Negbin . . . . . . . . . . . . . . . . . . . .
8.5.1 Introduction . . . . . . . . . . . .
8.5.2 Panel . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

127
127
127
129
131
132
132
133
134
135
135
137
138
139
139
140
142
143
143
144

9 Racines unitaires et cointgration


9.1 Introduction . . . . . . . . . . . . .
9.2 Tests de racine unitaire en panel .
9.2.1 Test de Levin-lin-Chu . . .
9.2.2 Test de Im, Pesaran et Shin
9.2.3 Le test de Madalla et Wu .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

147
147
151
152
153
153

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

10 Panels spacials

155

Bibliographie

161

Chapitre 1

Introduction
mco = (Z > Z)1 Z > y = (Z > Z)1 Z > (Z + )
b = (Z > BZ)1 Z > By = (Z > BZ)1 Z > B(Z + )
w = (X > W X)1 X > W y = (X > W X)1 X > W (j + X + )
mco = (Z > Z)1 Z > 
b = (Z > BZ)1 Z > B)
w = (X > W X)1 X > W 
Mmco = I Z(Z > Z)1 Z >
Mb = I Z(Z > BZ)1 Z > B
X(X > W X)1 X > W )
Mw = (I J)(I
= 2 I + 2 U

qw
qb

=
=

e = M
e> W e = > M > W M  = tr(M > W M > )
e> Be = > M > BM  = tr(M > BM > )

E(
qw ) = tr(M > W M ) = 2 tr(M > W M ) + 2 tr(M > W M U )
E(
qb ) = tr(M > BM ) = 2 tr(M > BM ) + 2 tr(M > BM U )

Economtrie des donnes de panel avec R




1.1

tr(M > W M ) tr(M > W M U )


tr(M > BM ) tr(M > BM U )

2
2


=

E(
qw )
E(
qb )

Quest-ce quun panel

On appelle panel une base de donnes dans laquelle deux dimensions sont prsentes :
une dimension individuelle (au sens large) : il peut sagir de personnes physiques,
de mnages, dentreprises, de pays, etc. On note ces individus n = 1 . . . N .
une dimension temporelle : il existe plusieurs observations au cours du temps de
ces individus. On note les priodes dobservations t = 1 . . . T .
Les panels sont donc une combinaison de srie temporelle et de coupe transversale ;
ils permettent de combler en partie les limites de ces deux types dchantillon :
le fait quil y ait deux dimensions dans ces donnes permet daugmenter le
nombre dobservations et la variabilit de lchantillon, ce qui permet dobtenir
des estimations plus prcises,
lhtrognit individuelle peut tre prise en compte de manire beaucoup plus
satisfaisante dans le cadre de donnes de panel car on dispose de plusieurs observations des mmes individus.
Un panel est caractris par ses deux dimensions, transversale (N ) et temporelle
(T ). En fonction de ces dimensions, on peut distinguer grossirement deux types
de panel :
les panels micros N >> T : le nombre dindividus observs est trs important (typiquement plusieurs milliers) et le nombre dobservations temporelles
est faible (4-5 par exemple). Pour ce type de panel, il nest pas possible de
raliser des estimations pour chaque individu et laccent est mis sur des problmatiques de micro-conomtrie : htrognit individuelle, corrlation entre
lerreur et les variables explicatives,
les panels macros : le nombre dindividus est faible et le nombre de sries temporelles est lev, typiquement N et T sont du mme ordre de grandeur, la
ou quelques dizaines. il sagit par exemple de donnes de lOCDE, deurostat
ou dautres organismes internationaux concernant des groupes de pays ou de
rgions. Dans ce cas, lestimation sur donnes de panel est une alternative
une estimation sur une srie chronologique pour un seul individu. On retrouve
dans ce cas les proccupations prsentes dans lanalyse contemporaine des sries
temporelles, en particulier la dtection de racines unitaires et de relations de
cointgration.
Un panel est dit cylindr lorsque chaque individu est observ pour le mme ensemble de priodes. Dans ce cas, la taille totale de lchantillon est simplement
N T , alors que, P
dans le cas gnral, en notant Tn le nombre dobservations pour
N
lindividu n, on a n=1 Tn . Trs souvent, les modles dconomtrie de panel sont
prsents dans le cas ou le panel est cylindr et il est indiqu que lextension au
cas des panels non cylindrs est vidente. Ce point de vue nous semble abusif,

Chapitre 1. Introduction

lestimation sur des donnes cylindres tant trs souvent beaucoup plus simple
que sur des donnes non cylindres.
La littrature thorique et empirique concernant lconomtrie des donnes de
panel est trs abondante. Tous les manuels dconomtrie consacrent au moins un
chapitre ce sujet, dautres y sont spcifiquement consacrs, en particulier Baltagi
(2001), Sevestre (2002), Pirotte (2011) et Hsiao (2003)
R ne permet pas danalyser simplement les donnes de panel. La librairie plm
(Croissant & Millo, 2008) fournit un ensemble de fonctions qui permettent de
grer correctement les donnes de panel et qui proposent les principales mthodes
destimation et de test.

1.2

Organisation des donnes de panel sous R

La librairie plm est charge simplement en entrant la commande suivante :


> library("plm")

Avec R, il est dusage de stocker les donnes dans un data.frame , qui est une
liste contenant un ensemble de vecteurs qui peuvent tre de modes diffrents, mais
qui sont de mme longueur, ce qui permet une reprsentation tabulaire. Cette
structure est adapte aux coupes transversales mais elle est insuffisante car elle est
incapable de rendre compte de la double dimension (individuelle et temporelle) des
donnes de panel. A cet effet, plm fournit une fonction appele pdata.frame qui
prend pour argument principal un data.frame et qui renvoie un objet de classe
pdata.frame . Il sagit dun tableau de donnes auquel est ajout une information
sur les deux dimensions du panel. Les deux arguments obligatoires de cette fonction
sont data (un tableau de donnes) et index . Ce dernier renseigne la structure des
donnes. Il peut sagir :
dune chane de caractre : dans ce cas, il sagit du nom de la variable qui contient
lindex individuel,
dun vecteur de deux chanes de caractres, les deux variables qui contiennent
les index individuels et temporels,
dun entier, le nombre dindividus ; le panel doit dans ce cas tre cylindr et les
observations classes dabord par individu.
drop.index est un dernier argument optionnel logique ; sil est gal TRUE, les
index sont retirs du tableau de donnes.
A titre dexemple, nous allons analyser les donnes Grunfeld qui figurent dans la
librairie AER. Ces donnes indiquent linvestissement (invest), la valeur (value)
et le stock de capital (capital) de 10 entreprises amricaines pour 20 ans (de 1935
1954). Nous en prendrons pour linstant un petit sous-ensemble, constitu de
deux firmes pour trois ans.
>
>
>
>

data("Grunfeld", package = "AER")


Gr <- pdata.frame(Grunfeld, index = c("firm", "year"), drop.index = TRUE)
smallGr <- subset(Grunfeld, (firm %in% c("General Motors", "US Steel")) & year <= 1938)
smallGr

Economtrie des donnes de panel avec R

1
2
3
4
21
22
23
24

invest
317.6
391.8
410.6
257.7
209.9
355.3
469.9
262.3

value capital
firm year
3078.5
2.8 General Motors 1935
4661.7
52.6 General Motors 1936
5387.1
156.9 General Motors 1937
2792.2
209.2 General Motors 1938
1362.4
53.8
US Steel 1935
1807.1
50.5
US Steel 1936
2676.3
118.1
US Steel 1937
1801.9
260.2
US Steel 1938

> smallGr <- pdata.frame(smallGr, index=c("firm", "year"), drop.index = TRUE)


> smallGr

General Motors-1935
General Motors-1936
General Motors-1937
General Motors-1938
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938

invest
317.6
391.8
410.6
257.7
209.9
355.3
469.9
262.3

value capital
3078.5
2.8
4661.7
52.6
5387.1
156.9
2792.2
209.2
1362.4
53.8
1807.1
50.5
2676.3
118.1
1801.9
260.2

Les informations concernant la dimension de ces donnes de panel peuvent tre


extraites en utilisant la fonction pdim :
> pdim(smallGr)

Balanced Panel: n=2, T=4, N=8

Les index peuvent tre extraits en utilisant la fonction index . Par dfaut, les deux
index sont renvoys, mais on peut indiquer avec un second argument which le
ou les index que lon souhaite extraire en indiquant soit un nom, soit un index
numrique (1 pour lindex individuel, 2 pour lindex temporel)
> index(smallGr)

1
2
3
4
21
22
23
24

firm
General Motors
General Motors
General Motors
General Motors
US Steel
US Steel
US Steel
US Steel

year
1935
1936
1937
1938
1935
1936
1937
1938

> index(smallGr, "firm")

Chapitre 1. Introduction
[1] General Motors General Motors General Motors General Motors US Steel
[6] US Steel
US Steel
US Steel
Levels: General Motors US Steel

> index(smallGr, 2)

[1] 1935 1936 1937 1938 1935 1936 1937 1938


Levels: 1935 1936 1937 1938

Notons que les index peuvent galement tre extraits des sries contenues dans un
pdata.frame :
> z <- smallGr$invest
> index(z)

1
2
3
4
21
22
23
24

firm
General Motors
General Motors
General Motors
General Motors
US Steel
US Steel
US Steel
US Steel

year
1935
1936
1937
1938
1935
1936
1937
1938

On peut galement reprsenter ces sries sous forme matricielle en appliquant la


mthode as.matrix une srie :
> as.matrix(z)

1935 1936 1937 1938


General Motors 317.6 391.8 410.6 257.7
US Steel
209.9 355.3 469.9 262.3

1.3

Mesure de la variabilit dans un panel

Pour une coupe transversale ou une srie chronologique, une variable de lchantillon peut tre note xi avec i = 1 . . . I lindice de lobservation. La moyenne
arithmtique de la variable est :
I

x
=

1X
xi
I i=1

La variabilit de la variable est la somme des carts quadratiques par rapport la


moyenne empirique :

Economtrie des donnes de panel avec R

Sxx =

I
I
X
X
(xi x
)2 =
x2i I x

i=1

i=1

La variance empirique est obtenue en divisant cette expression par I (ou par I 1
pour corriger du nombre de degrs de libert).
Dans un panel, la variable doit tre doublement indice, par convention dabord
par lindice individuel (n = 1 . . . N ), puis par lindice temporel (t = 1 . . . T ) : xnt .
Trois types de moyenne empiriques peuvent tre calcules :
, qui est la moyenne arithmtique de toutes
la moyenne globale, que lon notera x
les observations (pour tous les individus et pour lensemble des priodes) :
PN
=
x

PT

n=1

t=1

xnt

NT

les N moyennes individuelles, notes x


n. que lon obtient en faisant la moyenne
pour chaque individu des observations pour les diffrentes priodes :
PT

t=1

x
n. =

xnt

les T moyennes temporelles, notes x


.t que lon obtient en faisant la moyenne
pour chaque priode des observations pour les diffrents individus :
PN
x
.t =

n=1

xnt

Ces diffrentes moyennes permettent dobtenir diffrentes mesures (et diffrentes


dcompositions) de la variabilit dans un panel. La variabilit totale est la somme
quadratique des carts par rapport la moyenne globale :
Sxx =

N X
T
X
)2
(xnt x
n=1 t=1

On parle de variabilit intra (within en anglais) lorsque lon mesure la variabilit


au sein dune mme dimension (par dfaut la dimension individuelle). Ainsi, la
variabilit intra-individuelle est obtenue en sommant les carts quadratiques par
rapport la moyenne individuelle :
wn
Sxx
=

N X
T
X
(xnt x
n. )2
n=1 t=1

La variabilit inter (between en anglais) mesure la variabilit entre lments


dune dimension (par dfaut la dimension individuelle). On doit donc ici sommer
les carts quadratiques entre les moyennes individuelles et la moyenne globale :

Chapitre 1. Introduction

bn
Sxx

N X
T
N
X
X
2

)2
=
(
xn. x) = T
(
xn. x
n=1 t=1

n=1

On peut montrer aisment que la variabilit totale est la somme des variabilits
intra et inter individuelles. En effet :
Sxx

PN PT
2
=
n=1 Pt=1 (xnt x)
PN
T
)]2
=
[(xnt x
n. ) + (
xn. x
n=1

PN
PTt=1 
)2 + 2(xnt x
) 2
=
n. )2 + (
xn. x
n. )(
xn. x
nt x
n=1
t=1 (xP
P
N
T
bn
wn
)
+ 2 n=1 t=1 (xnt x
+ Sxx
n. )(
xn. x
= Sxx

PN
P
) Tt=1 (xnt x
Or, ce dernier terme est nul, car on peut lcrire n=1 (
xn. x
n. )
et la somme pour un individu des carts par rapport la moyenne individuelle
est ncessairement nulle. De la mme manire, on peut dcomposer la variabilit
totale en une variabilit within et between temporelle :
wt
=
Sxx

T
N X
X
(xnt x
.t )2
n=1 t=1

bt
Sxx
=

T
N X
X

)2 = N
(
x.t x

n=1 t=1

T
X

)2
(
x.t x

t=1

et
bt
wt
+ Sxx
Sxx = Sxx

Enfin, la variabilit double within scrit de la manire suivante :


wnt
Sxx
=

N X
T
X

)2
(xnt x
n. xt + x

n=1 t=1

Soit encore :
wnt
Sxx

PN PT

) (xt x
)]2
xn. x
=
n=1
t=1 [(xnt x) (
bn
bt
= Sxx Sxx
Sxx

car on montre aisment que les doubles sommes des termes croiss sont nulles
laide du mme argument que prcdemment. On obtient donc une troisime
dcomposition de la variabilit :
wnt
bn
bt
Sxx = Sxx
+ Sxx
+ Sxx

plm fournit des fonctions qui permettent de calculer simplement les transformations prcdemment dcrites : Within calcule la transformation within alors que

Economtrie des donnes de panel avec R


Between et between calculent la transformation between ; la diffrence entre

ces deux dernires fonctions est que la premire renvoie un vecteur de longueur
N T , chaque moyenne individuelle tant rpte T fois alors que la seconde
renvoie un vecteur de longueur N .
Avec la variable invest pour le petit sous-ensemble des donnes Grunfeld , on
obtient :
> z <- smallGr$invest
> between(z)

General Motors
344.425

US Steel
324.350

> Between(z)

General Motors General Motors General Motors General Motors


344.425
344.425
344.425
344.425
US Steel
US Steel
US Steel
324.350
324.350
324.350

US Steel
324.350

> Within(z)

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938


-26.825
47.375
66.175
-86.725
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938
-114.450
30.950
145.550
-62.050

Ces transformations sont par dfaut ralises sur la dimension individuelle. Les
mmes oprations peuvent tre effectues sur la dimension temporelle en fixant le
second argument effect "time" :
> z <- smallGr$invest
> between(z, effect = "time")

1935
1936
1937
1938
263.75 373.55 440.25 260.00

> Within(z, effect = "time")

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938


53.85
18.25
-29.65
-2.30
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938
-53.85
-18.25
29.65
2.30

Chapitre 1. Introduction

Les diffrentes mesures de la variabilit sont alors aisment obtenues en utilisant


ces fonctions et en appliquant les formules prcdement dcrites (pour plus de
lisibilit, on divise la variable par 1E+03, linvestissement tant alors mesur en
milliards de dollars)
>
>
>
>
>
>
>

z <- Gr$invest / 1E+03


Stot <- sum( (z - mean(z)) ^ 2)
SWn <- sum( Within(z) ^ 2)
SBn <- sum( (Between(z) - mean(Between(z))) ^ 2)
SWt <- sum( Within(z, effect = "time") ^ 2)
SBt <- sum( (Between(z, effect = "time") - mean(Between(z, effect = "time")))^ 2)
round(c(Stot, SWn, SBn, SWt, SBt), 2)

[1] 9.71 2.24 7.47 9.14 0.57

On vrifie ensuite les deux formules de dcomposition de la variabilit.


> SWn + SBn
[1] 9.711985
> SWt + SBt
[1] 9.711985

Enfin, on peut analyser plus prcisment limportance des diffrentes sources de


variabilit en calculant la part de la variance inter dans la variance totale :
> SBn / Stot
[1] 0.768889
> SBt / Stot
[1] 0.05893524

ce qui peut tre automatiquement ralis en appliquant la mthode summary


une srie :
> summary(z)
total sum of squares : 9.711985
id
time
0.76888896 0.05893524

On constate, et cest le cas la plupart du temps, que la variabilit dans lchantillon est trs largement imputable aux diffrences entre individus. Ce rsultat est
galement illustr par la figure 1.1.

Economtrie des donnes de panel avec R

1.5

10

0.5

1.0

0.0

General Motors

Chrysler

IBM

Goodyear

Fig. 1.1 Variation intra et inter individuelle pour les donnes Grunfeld

1.4

Des transformations utiles

Les mesures de variabilit que nous avons mises en vidence utilisent diffrentes
moyennes et des donnes transformes en cart par rapport ces diffrentes moyennes.
Une expression compacte de ces transformations peut tre obtenue en utilisant diffrents oprateurs matriciels, et en particulier le produit de Kronecker.
Le produit de Kronecker de deux matrices, not A B, correspond la matrice
obtenue en multipliant
chaque

lment de A par B. Si, par exemple, on a B =




1 0
2 4
et A = 0 0.5 , alors :
6 8
2 1

1
AB = 0
2


0
2
0.5
6
1


1




4
=
0

2
6
2
6
2
6



4
2
0
8 
6
4
2
0.5
8 
 6
4
2
1
8
6


4
8 
4
8
4
8

2
6
0
0
4
12

Afin de mettre en vidence ces transformations, on notera Ik la matrice identit


de dimension k, jl un vecteur de 1 de longueur l et Jl = jl jl> une matrice de 1
de dimensions l l. Dans ce qui suit, on supposera dune part que les observations
sont classes dabord par individu, puis par priode et dautre part que le panel
est cylindr. On a dans ce cas une variable x qui est reprsente par le vecteur de
longueur N T suivant :

4
8
0
0
8
16

0
0
1
3
2
6

Chapitre 1. Introduction

11

x> = (x11 , x12 , . . . , x1T , x21 , x22 , . . . , x2T , . . . , xN 1 , xN 2 , . . . , xN T )


Pour obtenir la transformation inter-individuelle (between), on utilisera une matrice de transformation note Bn dfinie par :
Bn = In JT /T
Par exemple, pour N = 2 et T = 3, on a :

1
0

0
1

1
0

0
1

1/3
1/3

1/3

0
0

1

1 1 1 1 /3

1

1/3 1/3 1/3
1/3 1/3 1/3
1/3 1/3 1/3

1/3 1/3
0
0
0
1/3 1/3
0
0
0

1/3 1/3
0
0
0

0
0
1/3 1/3 1/3

0
0
1/3 1/3 1/3
0
0
1/3 1/3 1/3


On a alors :
(Bn x)> = (
x1 , x
1 , . . . , x
1 , x
2 , x
2 , . . . , x
2 , . . . , x
N. , x
N. , . . . , x
N. )
Pour obtenir la transformation inter-individuelle (within), on utilisera une matrice
de transformation note Wn dfinie par :
Wn = IN T In JT /T = IN T Bn
Ces deux matrices ont des proprits trs importantes :
elles sont symtriques, on a donc B > = B et W > = W ,
elles sont idempotentes, cest--dire que W W = W et B B = B. Considrons
par exemple loprateur between. Si on lapplique deux fois successivement x,
on obtient : (B B) x = B (B x). Cela revient calculer des moyennes
individuelles sur un vecteur contenant dj des moyennes individuelles, ce qui
laisse le vecteur inchang ; on a donc bien (B B) x = B x (le mme
raisonnement sapplique W ),
elles ralisent une dcomposition dun vecteur, cest--dire que Bx+W x = x.
En effet, W = I B. On a alors B x + W x = (B + W ) x = I x = x,
elles sont orthogonales, cest--dire que W > B = 0. En effet, en utilisant la
proprit de symtrie et par dfinition de W , on a : W > B = W B = (I B)
B = B B B = B B = 0.

12

Economtrie des donnes de panel avec R

Ces proprits indiquent que W et B ralisent une dcomposition orthogonale dun


vecteur x ; cela signifie quen multipliant x par chacune de ces matrices, on obtient
deux vecteurs qui se somment x (notion de dcomposition) et dont le produit
intrieur est nul (notion dorthogonalit).

1.5

Les diffrentes formes dhtrognit

On parle dhtrognit lorsque les individus (et/ou les priodes) prsentent des
diffrences systmatiques. Pour simplifier, nous ignorons pour linstant lhtrognit temporelle et nous raisonnons dans le cadre habituel du modle linaire
simple. On a donc le modle suivant :
y = + x + 

Lhtrognit individuelle peut prendre diffrentes formes :


la moyenne de la variable explicative peut tre diffrente dun individu un
autre,
lordonne lorigine de la droite peut tre diffrente dun individu un autre,
la pente de la droite peut tre diffrente dun individu un autre.
Ces trois cas sont dune nature trs diffrente et ncessitent lutilisation de modles
spcifiques. Pour linstant, nous allons illustrer graphiquement ces trois formes
dhtrognit.

Fig. 1.2 Absence dhtrognit

Sur la figure 1.2, on constate que la seule forme dhtrognit entre les individus
correspond des niveaux moyens diffrents de la variable explicative, et donc de

Chapitre 1. Introduction

13

la variable explique. En revanche, lensemble des points semblent correctement


aligns sur une mme droite. Le modle que lon devra estimer peut donc scrire :
ynt = + xnt + nt

Autrement dit, on se ramne un modle linaire standard, et la mthode destimation des moindres carrs ordinaires est approprie.

Fig. 1.3 Htrognit de niveau

Sur la figure 1.3, on constate que les points correspondant chaque individu
semblent aligns sur des droites parallles, cest--dire des droites dont les pentes
sont identiques, mais dont les ordonnes lorigine sont propres lindividu.
Dans ce cas, le modle estimer peut scrire sous la forme :
ynt = + xnt + nt avec nt = n + nt
et lordonne lorigine propre lindividu n scrit : + n . On est alors dans le
cadre du modle erreurs composes qui fera lobjet dun traitement dtaill dans
les deux section suivantes.
Sur la figure 1.4, on constate que les points correspondants chaque individu sont
aligns sur des droites diffrentes et non parallles. Dans ce cas, le modle estimer
scrit :
ynt = + n xnt + nt avec nt = n + nt
Les points correspondant lindividu n sont alors aligns sur une droite dordonne
lorigine +n et de pente n . Le modle appropri ce cas est le modle coefficients variables et une estimation correcte de ce modle ncessite une dimension
temporelle suffisamment longue.

Economtrie des donnes de panel avec R

14

Fig. 1.4 Htrognit de pentes

Chapitre 2

Le modle erreurs composes


Le modle erreurs composes est pertinent lorsque les pentes, cest--dire leffet
marginal des variables explicatives sur les variables expliques sont les mmes pour
lensemble des individus, les ordonnes lorigine tant a priori diffrentes. Il sagit
du modle de rfrence de lconomtrie des donnes de panel et ce chapitre en
prsente les principaux rsultats.

2.1
2.1.1

Notations et hypothses
Notations

Pour lobservation concernant lindividu n la priode t, le modle estimer scrit,


en notant ynt la variable explique xnt le vecteur des K variables explicatives,
nt lerreur du modle, la constante et le vecteur de paramtres associ aux
variables explicatives :
ynt = + x>
nt + nt

(2.1)

Dans certains cas, il sera plus clair de rassembler la constante et les pentes dans
le mme vecteur de coefficients. En notant > = (, > ) le vecteur complet de
>
paramtres estimer et znt
= (1, xnt ) le vecteur de variables explicatives associs,
le modle estimer se rcrit alors :
>
ynt = znt
+ nt

(2.2)

Pour le modle erreurs composes, lerreur est la somme de deux effets :


le premier, n est un effet spcifique lindividu n,
le second, nt est leffet rsiduel appel galement leffet idiosyncratique.
nt = n + nt

(2.3)

Pour lensemble de lchantillon, on notera y le vecteur contenant les valeurs de la


variable explique et X la matrice contenant les variables explicatives, en rangeant

16

Economtrie des donnes de panel avec R

les observations dabord par individu, puis par priode. Nous supposerons pour
linstant que le panel est cylindr, cest--dire que chaque individu est observ le
mme nombre de fois. Dans ce cas, y est un vecteur de longueur N T et X une
matrice de dimension N T K.

x11
x211 . . . xK
y11
11
y12

x112
x212 . . . xK
12

..
..
..
..
..
.
.
.
.
.

y1T

x1T x21T . . . xK
1T

2
K
y21
x21
x21 . . . x21

y22

x22
x222 . . . xK
22

..
..
..
.
..
..

.
.
y=
. et X = 1.

K
2
y2T
x
.
.
.
x
x
2T
2T

2T

.
.
..
..
..
..
..
.
.
.

K
2
yN 1

x1

N 1 xN 1 . . . xN 1

2
K
yN 2
x1

N 2 xN 2 . . . xN 2

.
.
..
..
..
..
..
.
.
.
yN T

x1N T

x2N T

...

xK
NT

En notant j un vecteur de 1 de longueur N T , on obtient :


y = j + X + 

(2.4)

Dans le cas o on souhaite rassembler lensemble des coefficients, on note > =


(, > ) et Z = (j, X) et le modle estimer scrit :
y = Z + 

(2.5)

 est la somme dun vecteur de longueur N T contenant la composante idiosyncratique du terme derreur et de leffet individuel de longueur N dont chaque
lment est rpt T fois. On peut lexprimer sous la forme matricielle suivante :
 = (IN jT ) +

(2.6)

Un modle estim sera caractris par des paramtre estims > = (


, > ) et par
un vecteur de rsidus .
y=
j + X + 

(2.7)

y = Z + 

(2.8)

La soustraction membre membre de (2.5) et (2.8) permet dcrire les rsidus


dun modle en fonction des erreurs :
 =  Z(
)

(2.9)

Chapitre 2. Modle erreurs composes

17

Pour obtenir une expression similaire en fonction de X et de , on utilise (2.4) et


(2.7) :
 =  (
)j X( )
La moyenne de cette expression est, en notant j = j/O :
j >  = j> (
)j j > X( )
Dans un modle linaire avec constante, j > , qui est la moyenne des rsidus est
nul. En combinant les deux expressions prcdentes, on obtient :


 X( )
 = (I J)
(2.10)
avec J = jj > /O. Les expressions (2.9 et 2.10) seront utilises tout au long de ce
chaptre pour analyser les proprits des estimateurs.

2.1.2

Hypothses sur les termes derreur

On fait les hypothses suivantes concernant les termes derreurs :


Les esprances mathmatiques des deux termes derreurs sont supposes tre
nulles ; elles ne peuvent de toute faon pas tre identifies sil y a une constante
dans le modle,
les effets individuels n sont homoscdastiques et non corrls entre eux,
la composante idiosyncratique du terme derreur nt est galement homoscdastique et non auto-corrle,
il ny a pas de corrlation entre les deux composantes du terme derreur.
Dans ce cas, la matrice de covariance des erreurs est caractrise uniquement par
les variances des deux composantes du terme derreur, cest--dire par les deux
paramtres 2 et 2 . On peut alors calculer les variances et les covariances des
termes derreur :
la variance dun terme derreur scrit : E(2nt ) = 2 + 2 ,
la covariance entre deux termes derreur pour le mme individu (mais pour des
priodes diffrentes) scrit : E(nt ns ) = 2 ,
la covariance entre deux termes derreur pour deux individus diffrents est nulle,
mmes sils sont contemporains : E(nt mt ) = E(nt ms ) = 0.
Pour un individu donn n, la matrice de covariance du vecteur derreurs de lindividu n >
n = (n1 , n2 , . . . , nt ) scrit :
2
2
nn = E(n >
n ) = IT + J T

(2.11)

o JT = jT jT> est une matrice carr de 1. Concernant le vecteur derreurs pour


>
>
lensemble de lchantillon > = (>
1 , 2 , . . . , N ), la covariance est une matrice
carr de dimension N T constitue de sous-matrices de type E(n m ). Pour n = m,
lexpression de cette sous-matrice est donne par (2.11), pour n 6= m, compte tenu

18

Economtrie des donnes de panel avec R

des hypothses de non-corrlation des deux composantes du terme derreur, elle


est constitue uniquement de 0. La matrice de variance-covariance des erreurs
est donc une matrice bloc-diagonale, constitue de N blocs identiques donns par
(2.11) qui peut tre exprime sous la forme dun produit de Kronecker.

= IN 2 IT + 2 JT = 2 IN T + 2 (IN JT )
This matrix can also usefully expressed in terms of the two transformation matrices
within and between described in the chapter 1. In fact, B = T1 IN JT and W =
I B ; and introducing these two matrices in the expression of , we get :
= 2 (B + W ) + T 2 B
Soit finalement :
= 2 W + (T 2 + 2 )B = 2 W + 2 B

(2.12)

Enfin, nous supposerons tout au long de ce chaptre que les deux composantes du
terme derreur sont non-corrles avec les diffrentes variables explicatives :E( |
x) = E( | x) = 0.

2.2

Estimateurs des moindres carrs ordinaires

Dans le chapitre 1, nous avons montr que la variabilit dans un panel peut tre
dcompose en deux :
la variabilit between ou inter-individuelle qui correspond la variabilit des
variables du panel mesures en moyenne individuelle, soit zn ou sous forme
matricielle Bz.
la variabilit within ou intra-individuelle qui correspond la variabilit des variables du panel mesures en cart par rapport la moyenne individuelle, soit
znt zn ou sous forme matricielle W z = z Bz,
Trois estimations par les moindres carrs ordinaires sont donc envisageables : la
premire sur les donnes non-transformes, la seconde sur les donnes transformes en moyennes individuelles (modle between) et la troisime sur les donnes
transformes en carts par rapport la moyenne individuelle (modle within).

2.2.1

Estimateur des moindres carrs ordinaires sur les variables non transformes

Le modle estimer scrit y = j + X = Z + . En utilisant la seconde


formulation, la somme des carrs des rsidus scrit :
(y > > Z > )(y Z)
et les conditions de premier ordre pour un minimum sont :

Chapitre 2. Modle erreurs composes

Z >  = 0

19

(2.13)

On rappelle que la premire colonne de Z est un vecteur de 1, associ , le


premier lment
P de
P . La premire de ces conditions de premier ordre implique
donc que 
= n t nt /(N T ) = 0 ou encore que :
y =
+x
>

(2.14)

On retrouve ici le rsultat bien connu que la droite de rgression des moindres
carrs ordinaires passe ncessairement par le centre du nuage de points, cest-dire par le pointPde P
coordonnes (
x, y). Les K autres conditions de premier ordre
impliquent que n t nt xknt = 0, soit encore, le rsidu moyen  tant nul :
XX
(
nt 
)(xknt x
k )/(N T ) = 0
(2.15)
n

ce qui signifie que les covariances empiriques entre les rsidus et les diffrentes
variables explicatives sont nulles sur lchantillon. En rsolvant (2.13), on obtient
lestimateur des moindres carrs ordinaires du vecteur tendu des coefficients :
mco = (Z > Z)1 Z > y

(2.16)

En remplaant y par Z +  dans (2.16), on obtient :


mco = (Z > Z)1 Z > 

(2.17)

Pour obtenir lestimateur restreint aux coefficients associs aux variables explicatives, on dcompose Z en (j, X) et > en (
, > ) :



=

O
X >j

j>X
X >X

1 

j>y
X >y

En appliquant la formule de linversion dune matrice partitionne, on obtient :




1
1/O + j > XF X > j/O2 j > XF/0
>
Z Z
=
F X > j/O
F
1

avec F = X > (I J)X


. J = jj > /O est une matrice carr de dimension O
renvoie un vecteur de longueur O
dont tous les lments sont gaux 1/O. Jz
dont tous les lments contiennent la moyenne z. On vrifie aisment que cette
matrice est idempotente. On obtient alors :
>
= X > (I J)X

1

X > (I J)y

(2.18)

cest--dire une formule similaire (2.16), mais avec des variables prmultiplies
cette transformation ayant pour effet denlever chaque variable sa
par I J,
moyenne. Concernant la constante estime
, on retrouve lexpression (2.14). Afin

20

Economtrie des donnes de panel avec R

danalyser les caractristiques de lestimateur des mco, on remplace dans (2.18) y


par j + X +  :
>
= + X > (I J)X

1

X > (I J)


= ) si E X > (I J)

Lestimateur est donc sans biais (E()


= 0 cest--dire
si les covariances thoriques entre chaque variable explicative xk et  sont toutes
nulles. Ce rsultat est rapprocher de lexpression (2.18) qui indique que lestimateur des mco est dtermin de telle manire que les covariances empiriques entre
les rsidus  et les variables explicatives sont nulles. Lestimateur est convergent si
plim = . Cette expression scrit :
plim = + plim

T X > (I J)X
N

1
plim

T X > (I J)
N

Lestimateur est donc convergent si la matrice de covariance des variable explicative est dfinie et si la covariance entre les variances explicatives et les erreurs du
modle sont nulle. La variance de lestimateur des mco est donne par :

V (
mco ) = E (
mco )(
mco )> = (Z > Z)1 Z > Z(Z > Z)1

(2.19)

Notons que pour le modle erreur composes, la matrice de variance des erreurs
du modle ne se rduit pas un multiple de la matrice identit du fait de
la corrlation gnre par les effets individuels. Par consquent, la variance de
lestimateur des mco ne se rduit pas V (
mco ) = 2 (Z > Z)1 et lutilisation de
cette expression pour construire des statistiques de test conduirait une infrence
biaise.
En conclusion, lestimateur des mco, mme sil est non-biais et convergent prsente deux limites :
la premire est que lestimation de la variance utilise habituellement dans le
cadre de lestimation des mco nest pas adapte et doit tre remplace par une
expression plus complexe,
la seconde est que, dans ce contexte, le modle des mco nest pas le meilleur
estimateur linaire non-biais, ce qui signifie quil existe dautres estimateurs
linaires non-biaiss plus efficaces.

2.2.2

Lestimateur between

Lestimateur between est lestimateur des mco appliqu au modle pr-multipli


par B, cest--dire transform en moyennes individuelles.
By = BZ + B = j + BX + B
Notons que les lments du modle qui ne prsentent pas de variation intraindividuelle ne sont pas affects par cette transformation : il sagit de la colonne
de 1 associe la constante, de la matrice (IN jT ) associe aux effets individuels

Chapitre 2. Modle erreurs composes

21

et galement aux ventuelles variables explicatives ne prsentant aucune variation


intra-inviduelle (le genre dans un chantillon dindividus par exemple). Notons
galement que les N T observations de ce modle sont en fait constitues de N
observations de moyennes individuelles rptes T fois. En utilisant, comme dans
le cas de lestimateur des mco, la formule de linverse dune matrice partitione,
lestimateur between scrit :
>
b = X > (B J)X

1

X > (B J)y

(2.20)

La variance de est obtenue en remplaant y par j + X +  :


>
b = X > (B J)X

1

X > (B J)

 


> 1 X > (B J)(B

> 1
V b = X > (B J)X
J)X
X > (B J)X
= 2 (B J).
Par
Or, lexpression d donne par (2.12) implique que (B J)

consquent, lexpression de la variance du modle between se ramne :


 

> 1
V b = 2 X > (B J)X
(2.21)
Pour le vecteur de coefficients tendu la constante , lestimateur between et sa
variance scrivent :
b = Z > BZ >
V (
b ) = 2

1

Z > By
1
Z > BZ >

(2.22)
(2.23)

Pour estimer 2 , on part de la somme des carrs des rsidus du modle between
estim : qb = > B
.

B
 = B BZ(Z > BZ)1 Z > B B = M B
La matrice M est idempotente et sa trace est tr(M ) = tr(B)tr(IK+1 ) = N K
1. On a donc qb = > BM M B et E(
qb ) = E(tr(> BM B)) = E(tr(BM B> )) =
2
tr(BM B)) = tr(M ) Lestimateur sans biais de 2 est donc
2 = qb /(N K
1). Celle renvoye par le logiciel est : qb /(O K 1) et la matrice de covariance
des coefficients renvoye doit donc tre multiplie par (O K 1)/(N K 1).

2.2.3

Lestimateur within

Lestimateur within est obtenu en appliquant lestimateur des mco au modle


prmultipli par la matrice W .
W y = W (j + X + ) = W X + W
La transformation within se traduit par une limination du vecteur de 1 associ
la constante ainsi qu la matrice associe au vecteur deffets individuels. Elle se
traduit galement par llimination des variables sans variation intra-individuelle.

22

Economtrie des donnes de panel avec R

Lapplication de lestimateur des mco sur le modle transform abouti lestimateur within :
w = X > W X >

1

X >W y

(2.24)

La variance de w scrit :
 
1 >
1
X W W X X > W X >
V w = X > W X >
Or, W = W ( W + B) = W . La transformation within introduit donc une
corrlation entre les erreurs du modle. Lexpression de la variance du modle
within se ramne :
 
1
V w = 2 X > W X >
(2.25)
et on retrouve donc, malgr cette corrlation, lexpression classique de la variance.
Pour estimer 2 , on utilise la somme des carrs des rsidus du modle within
estim : qw > W 

W  = W W X(X > W X)1 X > W W  = M W 
La matrice M est idempotente et sa trace est tr(M ) = tr(W )tr(IK ) = ON K.
On a donc qw = > W M M W  et E(
qw ) = E(tr(> W M W )) = E(tr(W M W > )) =
2
2 = qw /(O
tr(W M W )) = tr(M ). Lestimateur sans biais de 2 est donc
N K), alors que celle renvoye par le logiciel est : qw /(O K 1). La matrice de
covariance des coefficients renvoye doit donc tre multiplie par (O K 1)/(O
N K).
Le modle within est galement appel modle effets fixes, car il est quivalent
un modle linaire dans lequel les effets individuels sont estims et donc considrs
comme des paramtres fixes. Ce dernier modle scrit :
y = X + (IN jT ) +
o est dsormais un vecteur de paramtres estimer, il y a donc au total N + K
paramtres estimer. Lestimation du modle sous cette forme est possible si N
nest pas trop grand. En revanche, sur un panel micro de grande taille, elle devient
rapidement impossible.
Lquivalence entre les deux modles peut tre tablie en utilisant le thorme de
Frish-Waugh ou en utilisant la formule de linverse dune matrice partitionne.
Le thorme de Frish-Waugh indique quil est quivalent destimer y en fonction
dun ensemble de variables explicatives X1 , X2 ou destimer les rsidus destimation
de y en fonction de X2 en fonction des rsidus destimation de X1 en fonction de
X2 . Lapplication du thorme de Frish-Waugh dans notre contexte consiste
rgresser chaque variable par rapport X2 = IN jT et rcuprer les rsidus.
Ici, pour chaque observation, le rsidu scrit znt n . Or, la condition de premier
ordre de la minimisation de la somme des carrs des rsidus est X2>  = 0. Or,

Chapitre 2. Modle erreurs composes

23

X2 tant ici une matrice qui slectionne les individus, on obtient pour chaque
individu :
T
X
t=1

(znt n ) =

T
X

znt T n = 0

t=1

Par consquent, on a n = zn. et les rsidus destimation sont donc les carts
de la variable par rapport sa moyenne individuelle. Par consquent, daprs le
thorme de Frish-Waugh, le modle effets fixe peut tre estim en appliquant
lestimateur des moindres carrs ordinaires aux variables transformes en cart par
rapport la moyenne individuelle, cest--dire en estimant par les moindres carrs
ordinaires W y en fonction de W X.
La diffrence entre les deux estimations est que, dans le second cas, les effets
individuels ne sont pas directement estims. On peut malgr tout les rcuprer

aisment car yn. =


n + x
>
n. . On a donc :

n = yn. x
>
n.
Dans le cas o on souhaite dfinir les effets individuels comme tant de moyenne
nulle dans lchantillon, on dfinit la constante gnrale
= y x
> et on obtient
)>
pour chaque individu de lchantillon n =
n
= (
yn. y) (
xn. x

2.3

Lestimateur des moindres carrs gnraliss

2.3.1

Prsentation de lestimateur des mcg

Dans le cas o les erreurs sont non corrles avec les variables explicatives mais
sont caractrises par une matrice de covariance qui nest pas un multiple de la
matrice identit, lestimateur adapt est celui des moindres carrs gnraliss. Cet
estimateur scrit :
gls = Z > 1 Z

1

Z > 1 y

(2.26)

Afin de calculer la variance de mcg , on remplace comme prcdemment y par


Z + . On obtient alors :
mcg = Z > 1 Z

1

Z > 1 

En utilisant un raisonnement similaire (2.19), on obtient la variance de lestimateur :


V (
gls )

=
=

1 > 1

1
X > 1 X
X E > 1 X X > 1 X
1
X > 1 X

(2.27)

Les hypothses faites dans ce chaptre concernant les termes derreur induisent que
la matrice de covariance des erreurs est donne par (2.12), (2 W + (T 2 +2 )B)

24

Economtrie des donnes de panel avec R

qui ne dpend que de deux paramtres, les variances des deux composantes du
terme derreur (2 et 2 ). Nous avons montr dans le chaptre 1 que ces deux
matrices sont idempotentes (BB = 0 et W W = 0) et orthogonales (BW = 0).
Lexpression des puissances de est alors particulirement simple :
r = T 2 + 2

r

B + 2 W

(2.28)

que lon peut aisment vrifier par exemple pour r = 2. Ce rsultat est galement
valable pour r < 0 et r rationnel, on a ainsi :
1 =

1
1
B + 2W
T 2 +

et lestimateur des moindres carrs gnraliss du modle erreurs composes et


sa variance sont donc :

gls =

1 

1 >
1 >
1 >
1 >
Z
W
Z
+
Z
BZ
Z
W
y
+
Z
By
2
2
2
2
1

1 >
1 >
Z W Z + 2 Z BZ
V (
gls ) =
2

(2.29)

(2.30)

Pour le vecteur de coefficients sans la constante, on obtient :

gls =

gls

1 


1 >
1 >

X W y + 2 X (B J)y
2

(2.31)

1
1 >
1

=
X W X + 2 X > (B J)X
(2.32)
2

1 >
1

X W X + 2 X > (B J)X
2

La dimension de la matrice est donne par la taille de lchantillon. La formule


matricielle (2.26) nest donc pas praticable pour calculer lestimateur lorsque la
taille de lchantillon est importante. En pratique, on dtermine lexpression de la
matrice C qui vrifie C > C = 1 et on lutilise pour transformer les diffrentes
variables du modle. En notant y = Cy et Z = CZ les variables transformes,
lestimation par les moindres carrs du modle sur donnes transformes scrit :
= (Z > Z )1 Z > y = (Z > C > CZ)1 Z > C > Cy = (Z > 1 Z)1 Z > 1 y
qui correspond bien lestimateur des mcg donn par (??). On obtient aisment
lexpression de la matrice C en utilisant lquation (2.28) :
1
1
C = 0.5 = q
B+
W

T +

Chapitre 2. Modle erreurs composes

25

Lestimateur des moindres carrs gnraliss peut alors tre obtenu en estimant
par la mthode des moindres carrs ordinaires un modle pour lequel toutes les
variables (explicatives et explique) ont t transformes en les pr-multipliant par
0.5 , ou plus simplement 0.5 . En notant 2 = T 2 + 2 et = , cette
transformation consiste en une combinaison linaire des transformations between
et within de la variable, les pondrations tant respectivement de et de 1. Par
consquent, la variable transforme scrit :
xnt =
xn. + (xnt x
n. ) = xnt (1 )
xn.
Pour estimer ce modle, il faut connatre le paramtre de la transformation =
2 2 , qui dpend des variances des deux composantes du terme derreur, ou
T +

plus prcisment de leur rapport. En effet, on a :


= r

1+T

2.3.2

(2.33)

2

Estimation des variances des composantes du terme


derreur

Ces paramtres tant en pratique inconnus, on utilise des estimations de ceux-ci


bass sur les rsidus dun modle convergent ; on parle alors de mthode destimation des moindres carrs gnraliss ralisables (fgls pour feasible generalized
least squares par la suite).
Considrons les erreurs du modle (nt ), leurs moyennes individuelles (
n. ) et leurs
carts par rapport la moyenne individuelle (nt n. ). On a, par dfinition,
V (nt ) = 2 + 2 . Concernant la moyenne individuelle, on obtient :
n. =

T
T
1X
1X
nt = n +
nt
T t=1
T t=1

1 2
= 12 /T
T
La variance de lcart par rapport la moyenne individuelle sobtient plus facilement en isolant les termes en nt :
V (
n. ) = 2 +



T
1X
1
1X
nt n. = nt
nt = 1
nt
st
T t=1
T
T
s6=t

la somme contenant alors T 1 termes. La variance scrit alors :



V (nt n. ) =
Soit finalement :

1
1
T

2

2 +

1
(T 1)2
T2

26

Economtrie des donnes de panel avec R

V (nt n. ) =

T 1 2

Si les  taient observs, les estimateurs naturels des deux variances 2 et 2


seraient alors :

12 = T

PN

2n.
n=1 
N

PN
=T

n=1

PT

2n.
t= 1 

T =T

PT

> B
> B
T =
N
N

and

T
=
T 1

n=1

PT

(nt n. )
T =
N

t=1

n=1

(nt n. )
> W 
=
N (T 1)
N (T 1)
t=1

cest--dire des estimateurs bass sur les normes des erreurs transformes avec les
oprateurs between et within.
Les erreurs ne sont bien entendu pas observes, mais une estimation convergente
des variances estimes peut tre obtenue en remplaant les erreurs par les rsidus
obtenus dans le cadre dune estimation convergente du modle. Parmi les nombreux
estimateurs de ce type envisageables, le plus courament utilis est celui de Swamy
& Arora (1972). Il consiste utiliser les rsidus du modle between pour estimer
2 :

2 =

> B

N K 1

et ceux du modle within pour estimer 2 :

2 =

> W 
N (T 1) K

On peut ensuite obtenir lestimation de la variance des effets individuels :

2 =

2.4

2
2
T

Comparaison des estimateurs

Pour linstant, on dispose de 4 estimateurs possibles du mme modle : le modle


between et le modle within nexploitent quune seule dimension de la variabilit
de lchantillon, alors que les moindres carrs ordinaires et les moindres carrs
gnraliss utilisent les deux.
Notons tout dabord que, si lhypothse dabsence de corrlation entre les erreurs
et les variables explicatives est vrifie, tous ces modles sont non biaiss et convergents ; autrement dit, on peut sattendre ce quils aboutissent des estimations
relativement similaires, en tous cas si lchantillon est grand.

Chapitre 2. Modle erreurs composes

27

Nous commencerons par analyser les relations existant entre ces diffrents estimateurs, puis nous comparerons leurs variances.

2.4.1

Relations entre les estimateurs

On peut sattendre ce que les estimateurs des mco et des mcg donnent des
rsultats intermdiaires entre les estimateurs within et between dans la mesure o
ils intgrent les deux sources de variabilit. A partir de lquation (2.31), on peut
crire lestimateur des moindres carrs gnraliss sous la forme suivante :

mcg = X > W X + 2 X > (B J)X

1

X > W y + 2 X > (B J)y

En utilisant (2.20) et (2.24), on peut alors exprimer mcg comme une moyenne
pondre des estimateurs within et between.

mcg = X > W X + 2 X > (B J)X

1 

b
X > W X w + 2 X > (B J)X

Il en est de mme pour lestimateur des moindres carrs ordinaires mco qui correspond au prcdent dans le cas particulier o = 1.

 
X 1 X > W X w + X > (B J)X
b
mco = X > W X + X > (B J)
Dans le cas de lestimateur des mco, les pondrations sont trs intuitives puisquil
sagit des parts de la variance observe intra et inter-individuelle. Dans le cas du
modle des mcg, les pondrations intgrent non seulement la part des variances
des variables explicatives, mais galement celle des variances des erreurs, via le
paramtres . De manire gnrale ( 1), ce modle accorde moins de poids
la dimension between que le prcdent et admet deux cas particuliers :
0 ; cela signifie que est petit par rapport . Dans ce cas, lestimateur
des mcg converge vers lestimateur within,
1 ; cela signifie que est grand par rapport . Dans ce cas, lestimateur
des mcg converge vers lestimateur des mco.
La relation entre les diffrents estimateurs peut galement tre illustre par le fait
que lestimateur des mcg peut tre obtenu en empilant les deux transformations
within et between du modle :

 



Wy
WZ
W
=
+
(2.34)
By
BZ
B
La matrice de covariance des erreurs de ce modle empil est :
 2

W
0
0
2 B

(2.35)

En appliquant les moindres carrs gnraliss 2.34, on retrouve lexpression de


lestimateur des mcg (equation 2.29).

28

Economtrie des donnes de panel avec R

2.4.2

Comparaison des variances

A partir de lquation (2.32), on peut crire la variance de lestimateur des mcg


sous la forme :



1
V gls = 2 X > W X + 2 X > BX
(2.36)
La variance de lestimateur within tant 2 (X > W X)1 , V(w ) V(mcg ) est
ncessairement une matrice dfinie positive et lestimateur des mcg est donc plus
efficace que lestimateur within. De mme, lquation (2.21) indique que la variance
1 et donc V(b ) V(mcg ) est
de lestimateur between peut scrire 2 (2 X > BX)
galement une matrice dfinie positive.

2.5

Exemples dapplication

La librairie plm fournit la fonction plm qui permet destimer les estimateurs dcrits
dans ce chaptre.

2.5.1

Un exemple complet destimation avec

plm

Pour illustrer lestimation des estimateurs prcdemment prsents, nous utilisons


les donnes LargeBanks de la librairie pder. Ces donnes concernent les cots de
production de 128 grandes banques amricaines pour la priode 1989-2000. cost
est le cot total de production en logarithmes et assets le niveau de production en
logarithmes. Nous souhaitons estimer une fonction de cot log-linaire en utilisant
le niveau de production comme unique variable.
> data("LargeBanks", package = "pder")
> LB <- pdata.frame(LargeBanks)

La fonction permettant de raliser lestimation du modle sappelle plm . Ces


arguments principaux sont :
formula , la description symbolique du modle,
data , le tableau de donnes qui peut tre soit un tableau de donnes ordinaire,
soit un pdata.frame ; dans le premier cas, largument index peut tre ajout
de manire indiquer les variables contenant les index individuel et temporel,
model , le modle estimer : "within", "between", "pooling" (cest--dire le
modle des moindres carrs ordinaires) et "random" (le modle des moindres
carrs gnraliss).
random.method , pour le modle des mcg, plusieurs estimateurs sont disponibles, on utilisera ici celui de Swamy & Arora (1972) ; comme il sagit du choix
par dfaut, il nest pas indispensable de renseigner cet argument en le fixant
"swar".
On estime ensuite les diffrents modles :
>
>
>
>
>

costbanks <- cost ~ assets


banks.pooling <- plm(costbanks, LB, model = "pooling")
banks.within <- plm(costbanks, LB, model = "within")
banks.between <- plm(costbanks, LB, model = "between")
banks.random <- plm(costbanks, LB, model = "random")

Chapitre 2. Modle erreurs composes

29

Limpression simple ou dtaille de lestimation est obtenue comme cest lusage


avec R en appliquant les mthodes print et summary lobjet contenant le modle
estim. Par exemple, pour le modle des mcg, on obtient :
> banks.random

Model Formula: cost ~ assets


Coefficients:
(Intercept)
-0.2952

assets
1.0286

> summary(banks.random)

Oneway (individual) effect Random Effect Model


(Swamy-Aroras transformation)
Call:
plm(formula = costbanks, data = LB, model = "random")
Balanced Panel: n=128, T=12, N=1536
Effects:
var std.dev share
idiosyncratic 0.03715 0.19274 0.738
individual
0.01316 0.11473 0.262
theta: 0.5636
Residuals :
Min. 1st Qu. Median 3rd Qu.
-0.6200 -0.0836 -0.0169 0.0598

Max.
4.1800

Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.295205
0.100583 -2.9349 0.003386 **
assets
1.028565
0.007185 143.1548 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares:
823.87
Residual Sum of Squares: 57.375
R-Squared
: 0.93036
Adj. R-Squared : 0.92915
F-statistic: 20493.3 on 1 and 1534 DF, p-value: < 2.22e-16

La partie du rsultat qui concerne lestimation des deux composantes du terme


derreur peut galement tre obtenue en appliquant la fonction ercomp soit au
modle des mcg estim, soit en utilisant une interface formula - data .
> ercomp(cost ~ assets, LB)
> ercomp(banks.random)

30

Economtrie des donnes de panel avec R

Les rsultats indiquent que la part de la variance due la prsence de leffet


individuel est denviron un quart. Le paramtre appel correspond la part de
la moyenne individuelle qui est retire de chaque variable pour lestimation du
modle mcg. Elle correspond ici 56%. Lestimateur mcg est donc ici peu prs
mi-chemin entre lestimateur mco ( = 0) et lestimateur within ( = 1).
Pour le modle within, la mthode fixef permet dextraire les effets individuels.
Trois versions des effets individuels peuvent tre obtenus selon largument type
pass la fonction :
level, la valeur par dfaut, renvoie les ordonnes lorigine, cest--dire
+ n ,
dfirst renvoie les effets individuels en carts par rapport au premier individu ;
on a alors
qui correspond lordonne lorigine pour le premier individu,
dmean renvoie les effets indiviudels en carts par rapport la moyenne des effets
individuels ; dans ce cas,
est la moyenne des effets individuels.
> head(fixef(banks.within))

1
2
3
4
5
6
-0.4088325 -0.4814600 -0.4840704 -0.4333303 -0.4761411 -0.4434490

> head(fixef(banks.within, type = "dfirst"))

2
3
4
5
6
7
-0.07262754 -0.07523796 -0.02449779 -0.06730860 -0.03461650 -0.19118140

> head(fixef(banks.within, type = "dmean"))

1
2
3
0.061133962 -0.011493577 -0.014104000

4
5
0.036636176 -0.006174642

6
0.026517461

On montre ci-dessous lquivalence entre le modle within et lestimation par les


mco avec des variables indicatrices des banques. A cet effet, on introduit la variable
id dans lestimation car il sagit de lindex individuel. Le comportement de lm
est alors destimer une constante et denlever la premire modalit de la variable
explicative id. Les effets individuels estims sont alors similaires ceux obtenus
en utilisant fixef avec largument type ix "dfirst".
> banks.within

Model Formula: cost ~ assets


Coefficients:
assets
1.0411

Chapitre 2. Modle erreurs composes

31

> head(coef(lm(cost ~ assets + factor(id), LB)))

(Intercept)
-0.40883248

assets factor(id)2 factor(id)3 factor(id)4 factor(id)5


1.04112845 -0.07262754 -0.07523796 -0.02449779 -0.06730860

La commande ci-dessous permet dextraire le coefficient associ la production


pour les quatre modles :
> sapply(list(pooling = banks.pooling, within = banks.within,
+
between = banks.between, random = banks.random),
+
function(x) coef(x)[["assets"]])

pooling
within
between
random
1.0063604 1.0411285 0.9816273 1.0285650

Les quatre modles concluent un coefficient trs proche de 1, ce qui correspond


lhypothse de rendements constants. On constate galement que les estimateurs
mco et mcg sont bien intermdiaires entre les estimateurs within et between et
que lestimateur mcg est plus proche de lestimateur within que lestimateur mco.
Pour retrouver formellement le rsultat obtenu prcdemment, on calcule tout
dabord les parts des variances intra et inter-individuelles de la varianble explicative assets.
>
>
>
>
>

SxxW <- sum(Within(LB$assets) ^ 2)


SxxB <- sum((Between(LB$assets)-mean(LB$assets))^2)
SxxTot <- sum( (LB$assets- mean(LB$assets)) ^ 2)
pondW <- SxxW / SxxTot
pondW

[1] 0.415674

> pondW * coef(banks.within)[["assets"]] +


+
(1 - pondW) * coef(banks.between)[["assets"]]

[1] 1.00636

La part de la variance intra-individuelle est de 42%, lestimateur mco est un peu


plus proche de lestimateur between que de lestimateur within. Pour retrouver le
rsultat concernant le modle des mcg, on commence par estimer le paramtre
laide des rsidus de lestimation des modles within et between :
>
>
>
>
>

T <- 12
N <- 128
siota2 <- deviance(banks.between) * T / (N - 2)
snu2 <- deviance(banks.within) / (N * (T - 1) - 1)
phi <- sqrt(snu2 / siota2)

32

Economtrie des donnes de panel avec R

On peut alors calculer les pondrations et lestimation pour le modle des moindres
carrs gnraliss :
> pondW <- SxxW / (SxxW + phi^2 * SxxB)
> pondW * coef(banks.within)[["assets"]] +
+
(1 - pondW) * coef(banks.between)[["assets"]]

[1] 1.028565

Enfin, les rsultats semblent indiquer que nous sommes dans le cas o lhypothse
dabsence de corrlation entre les effets individuels et la variable explicative est
vrifie. Dans ce cas, les quatre modles sont convergents et il doivent donner des
rsultats relativement proche, ce qui est le cas ici.

2.5.2

Exemples de modles linaires simples

Mme sils ont peut dintrt pratique, les modles conomtriques pertinents
contenant en gnral plusieurs variables explicatives, les modles linaires simples
ont un intrt pdagogique vident car ils permettent la reprsentation graphique
des chantillons et des modles sous la forme de nuages de points et de droite de
rgression. Ils permettent en particulier de bien comprendre les relations entre les
diffrents estimateurs. Nous analyserons successivement 4 jeux de donnes.
Le premier, appel ForeignTrade a t utilis par Kinal & Lahiri (1993) pour
construire un modle complet du commerce extrieur pour les pays en dveloppement qui sera prsent dans le chaptre 6. Pour linstant, nous analyserons simplement la relation entre les importations (imports) et le produit intrieur (gnp).
Les deux variables sont en logarithmes et sont exprimes par habitant.
Les instructions suivantes crent un pdata.frame , en extrait la variable explicative et y applique la mthode summary qui calcule la dcomposition de sa variance.
Pour estimer tous les modles, on cre tout dabord un vecteur contenant les noms
de ces modles, puis on utilise la fonction sapply de manire extraire de ces
diffrents modles estims le coefficient associ la variable explicative.
> data("ForeignTrade", package = "pder")
> FT <- pdata.frame(ForeignTrade)
> summary(FT$gnp)

total sum of squares : 4110.659


id
time
0.98248044 0.00763845

> ercomp(imports ~ gnp, FT)

var std.dev share


idiosyncratic 0.08634 0.29383 0.074
individual
1.07785 1.03820 0.926
theta: 0.9423

Chapitre 2. Modle erreurs composes

33

> models <- c("within", "pooling", "random", "between")


> sapply(models, function(x) coef(plm(imports ~ gnp, FT, model = x))["gnp"])
within.gnp pooling.gnp
0.90236420 0.06366400

random.gnp between.gnp
0.76815599 0.04870833

On constate que, pour ce modle la variance de la variable explicative et de lerreur


est quasi exclusivement due la variation inter-individuelle (respectivement 98 et
93%). Dans ce cas, le modle des mcg consiste enlever 94% de la moyenne individuelle et est donc quasiment identique au modle within. Quand au modle des
mco qui prend en compte toute la variation inter-individuelle, il est trs proche
du modle between. Enfin, les deux premiers modles donnent des rsultats trs
diffrents des deux suivants et sont caractriss par une lasticit beaucoup plus
importante. On constate sur le graphique 2.1 quil y a une corrlation ngative
trs forte entre les effets individuels et la variable explicative. Dans ce cas, les estimateurs qui intgrent leffet individuel souffrent dun biais vers le bas. Cest le cas
pour les mco et pour le modle between, beaucoup moins pour lestimateur des
mcg qui, on la vu, nintgre quune part infime de la variation inter-individuelle.

Fig. 2.1 Importations en fonction du produit intrieur pour les donnes ForeignTrade

Les donnes TurkishBanks ont t utilises par El-Gamal & Inanoglu (2005) afin
danalyser les cots de production des banques. On estime le cot en fonction de
la production, les deux variables tant en logarithmes. En appliquant les mmes
calculs que pour lexemple prcdent, on obtient :
> data("TurkishBanks", package = "pder")
> TurkishBanks <- na.omit(TurkishBanks)
> TB <- pdata.frame(TurkishBanks)

34

Economtrie des donnes de panel avec R


series type is constant and has been removed

> summary(log(TB$output))

total sum of squares : 2691.819


id
time
0.84730373 0.01255259

> ercomp(log(cost) ~ log(output), TB)

bon
var std.dev share
idiosyncratic 0.3291 0.5737 0.604
individual
0.2156 0.4643 0.396
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.6192 0.6509 0.6509 0.6474 0.6509

Max.
0.6509

> sapply(models, function(x)


+
coef(plm(log(cost) ~ log(output), TB, model = x))["log(output)"])

bon
within.log(output) pooling.log(output)
0.5063813
0.8006578

random.log(output) between.log(output)
0.6470472
0.8531416

La variation de la variable explicative est principalemet inter-individuelle (85%),


en revanche, pour lerreur, le partage de la variance est assez quivalent entre
la part de leffet individuel (40%) et celle de leffet idiosyncratique (60%). On
a par consquent de nouveaux deux estimateurs mco et between trs proches.
Lestimateur des mcg est au centre de lintervalle constitu par les estimateurs
mco et between car la transformation ralise consiste enlever environ 65% de
la moyenne. La figure 2.2 semble indiquer que les effets individuels sont corrls
ngativement avec la variable explicative et que par consquent les estimateurs
between, des mco et dans une moindre mesure celui des mcg sont biaiss vers le
bas.
Les donnes TexasElectr , utilises par Kumbhakar (1996) et Horrace & Schmidt
(1996), permettent danalyser le cot de production dentreprises de production
dlectricit au Texas. On commence par dfinir le cot comme la somme des
dpenses en travail (explab), en capital (expcap) et en carburant (expfuel).
On ralise ensuite les mmes calculs que prcdemment.
>
>
>
>

data("TexasElectr", package = "pder")


TexasElectr$cost <- with(TexasElectr, explab + expfuel + expcap)
TE <- pdata.frame(TexasElectr)
summary(log(TE$output))

Chapitre 2. Modle erreurs composes

35

21

20

19

18

17

16

15
14
16

17

18

19

20

21

22

Fig. 2.2 Cot en fonction de loutput pour les donnes TurkishBanks

total sum of squares : 113.4866


id
time
0.8233617 0.1684892

> ercomp(log(cost) ~ log(output), TE)

var std.dev share


idiosyncratic 0.106806 0.326811 0.99
individual
0.001088 0.032990 0.01
theta: 0.08076

> sapply(models, function(x)


+
coef(plm(log(cost) ~ log(output), TE, model = x))["log(output)"])

within.log(output) pooling.log(output)
2.6325286
1.1804164

random.log(output) between.log(output)
1.2259868
0.8688903

La variation de la variable explicative est principalement inter-individuelle (82%),


en revanche, concernant les erreurs, la variance de la composante idiosyncratique
est trs largement dominante, ce qui implique quune part infime (8%) de la
moyenne individuelle est enleve dans le cadre de lestimation par les mcg. On
a donc deux estimateurs des mcg et des mco quasiment gaux. Lestimateur within est de nouveau trs suprieur du fait de la corrlation ngative apparente
entre les effets individuels et la variable explicative.

36

Economtrie des donnes de panel avec R

14

13

12

11

10

7.5

8.0

8.5

9.0

9.5

10.0

Fig. 2.3 Cot en fonction de loutput pour les donnes TexasElectr

Le dernier jeu de donne est DemocracyIncome25 utilis par Acemoglu, Johnson, Robinson & Yared (2008). Les donnes concernent 25 pays et 7 observations
de 25 ans pour la priode 1850 2000. Les auteurs analysent la relation causale
dynamique entre le niveau de richesse dun pays et le degr de dmocratie. Leur
analyse sera reproduite en dtail dans le chaptre 7. Dans limmdiat, nous analyserons simplement la relation entre le niveau de dmocratie et le revenu retard
dune priode.
> data("DemocracyIncome25", package = "pder")
> DI <- pdata.frame(DemocracyIncome25)
> summary(lag(DI$income))

total sum of squares : 135.0166


id
time
0.4297745 0.4890893

> ercomp(democracy ~ lag(income), DI)

var std.dev share


idiosyncratic 0.05585 0.23632 0.789
individual
0.01494 0.12222 0.211
theta: 0.4099

> sapply(models, function(x)


+
coef(plm(democracy ~ lag(income), DI, model = x))["lag(income)"])

Chapitre 2. Modle erreurs composes


within.lag(income) pooling.lag(income)
0.1869989
0.2309095

37

random.lag(income) between.lag(income)
0.2100902
0.2891701

Pour ce jeu de donnes, la part inter-individuelle de la variation de la variable


explicative et de lerreur est plutt faible (43 et 21%). La part de la moyenne
retire dans le cas de lestimateur des mcg est de 41%. Enfin, la figure ?? montre
quil ny a pas de corrlation vidente entre les effets individuels et la variable
explicative, ce qui a pour consquence que les 4 estimateurs sont proches les uns
des autres.

1.0

0.8

0.6

0.4

0.2

1.9

2.0

2.1

2.2

Fig. 2.4 Dmocratie en fonction du revenu retard pour les donnes DemocracyIncome25

2.6

Simulation des proprits des estimateurs

Les proprits des estimateurs sont souvent difficiles, voir impossible tablir
analytiquement. Dans ce cas, il est intressant davoir une approche par simulation
(approche dite de Monte-Carlo). Cette approche comporte plusieurs tapes :
on commence par dfinir parfaitement la manire dont les chantillons sont
gnrs,
on cr ensuite un grand nombre dchantillons laide dun gnrateur de
nombres alatoires,
on calcule pour chaque chantillon une statistique,
on sintresse la distribution de cette statistique (sa moyenne par exemple).
La fonction ci-dessous permet de gnrer un chantillon avec N individus et T
priodes, pour des carts-types des deux composantes du terme derreur donns,

38

Economtrie des donnes de panel avec R

pour des paramtres de la droite donns et pour un vecteur de variable explicative


donn.
> simpanel <- function(N, T, s.nu, s.eta, alpha, beta, x){
+
eta <- rnorm(N, sd = s.eta)
+
nu <- rnorm(N * T, sd = s.nu)
+
y <- alpha + beta * x + rep(eta, each = T) + nu
+
data.frame(id = rep(1:N, each = T), y = y, x = x)
+ }

La fonction peut alors tre utilise comme suit :


> simpanel(N = 2, T = 3, s.nu = 0.5, s.eta = 0.5, alpha = 1, beta = 1, x = 7:12)

1
2
3
4
5
6

id
y x
1 8.053460 7
1 8.420634 8
1 9.509192 9
2 10.725954 10
2 11.025958 11
2 11.940134 12

Pour mener bien nos simulations, on commence par dfinir la dimension de notre
panel, ici T = 4 et N = 100, ainsi que les carts-types des deux composantes du
terme derreur.
>
>
>
>
>

set.seed(4)
T <- 4
N <- 100
s.nu <- 0.6
s.eta <- 0.4

On a donc une variance totale pour les erreurs de 2 + 2 = 0.62 + 0.42 = 0.52 et
0.6
= 0.6.
le paramtre est ici gal : = 2 2 = 40.4
2 +0.6
T +

Pour la variable explicative, nous choisissons galement de fixer sa variance totale


1, la moiti correspondant une variation within et lautre moiti une variation
between.
> x <- rep(rnorm(N, sd = sqrt(0.5)), each = T) +
+
rnorm(N * T, sd = sqrt(0.5)) + 2

On peut dsormais procder aux simulations. On tire au hasard 100 chantillons


et, pour chacun dentre eux, on estime les 4 modles. On stocke les 4 coefficients
obtenus pour chaque chantillon dans une matrice.
> result <- c()
> for (i in 1:100){
+
z <- simpanel(N = N, T = T, s.nu = s.nu, s.eta = s.eta,
+
alpha = 1, beta = 1, x = x)
+
z$Bx <- tapply(z$x, z$id, mean)[as.character(z$id)]

Chapitre 2. Modle erreurs composes

39

+
z$By <- tapply(z$y, z$id, mean)[as.character(z$id)]
+
O <- lm(y ~ x, z)
+
W <- lm(I(y - By) ~ I(x - Bx), z)
+
B <- lm(By ~ Bx, z)
+
s2.nu <- deviance(W) / (N * T - N - 1)
+
s2.lambda <- deviance(B) / (N - 2)
+
theta <- sqrt(s2.nu / s2.lambda)
+
G <- lm(I(y - (1 - theta) * By) ~ I(x - (1 - theta) * Bx), z)
+
result <- rbind(result,
+
c( coef(O)[2],
+
coef(B)[2],
+
coef(W)[2],
+
coef(G)[2]
+
)
+
)
+ }
> colnames(result) <- c("ols", "between", "within", "gls")

Pour vrifier que les estimateurs sont non-biaiss, on calcule la moyenne des valeurs
obtenues pour chaque estimateur.
> apply(result, 2, mean)

ols
between
within
gls
0.9968929 0.9966218 0.9972462 0.9969072

On constate queffectivement, on obtient pour chaque estimateur des valeurs moyennes


trs proches de 1.
La prcision des estimateurs peut tre apprhende par le calcul de lcart-type
obtenu pour chaque estimateur.
> apply(result, 2, sd)

ols
between
within
gls
0.04940275 0.07565773 0.05477897 0.04486814

Lestimateur between est le moins prcis, ce qui nest pas surprenant car il est
estim sur seulement les N moyennes individuelles. Lestimateur des mcg est nettement plus prcis que celui des mco. Enfin, la prcision de lestimateur within est
moins bonne que celle de lestimateur mcg.
Enfin, on peut vrifier graphiquement (figure 2.5) pour un estimateur (par exemple
celui des mcg) que la distribution de lestimateur est proche de la normale.
> hist(result[, "gls"], probability = TRUE, ann = FALSE)
> curve(dnorm(x, mean = mean(result[, "gls"]),
+
sd = sd(result[, "gls"])), add = TRUE)

10

Economtrie des donnes de panel avec R

40

0.90

0.95

1.00

1.05

1.10

Fig. 2.5 Distribution de lestimateur des mcg

Chapitre 3

Le modle erreurs
composes : extensions
3.1

Le modle double erreurs composes

Lorsque lon souhaite intgrer des effets spcifiques chaque priode, on doit
considrer le modle suivant :
ynt = + xnt + n + t + nt

3.1.1

Dcomposition de la variance dans le modle doubles


effets

Les hypothses faites sur leffet temporel sont en tous points similaires celles que
lon a faites sur leffet individuel :
est desprance nulle et homoscdastique, on note 2 sa variance,
les effets temporels ne sont pas corrls entre eux E(t s ) = 0 t 6= s,
les effets temporels ne sont corrls ni avec les effets individuels, ni avec lerreur
idiosyncratique.
Avec ces hypothses, la matrice de covariance des erreurs scrit dsormais :
= 2 IN T + 2 IN JT + 2 JN IT
Comme dans le cas du modle erreurs composes avec effet individuel, on cherche
lexpression de la dcomposition spectrale de cette matrice qui est une combinaison
linaire de matrices idempotentes et orthogonales. A cet effet, on note :
1
JN T
Bn = IN JT /T , Bt = JT IN /N et J =
NT
Bn x renvoie comme prcdemment la moyenne individuelle x
n. , Bt x la
la moyenne globale de x
. Enfin, la matrice within
moyenne x
.t temporelle et Jx

42

Economtrie des donnes de panel avec R

doit ici raliser une double diffrence par rapport aux moyennes individuelles et
:
temporelles : xnt x
n. x
.t + x
W = I Bn Bt + J
Avec ces notations, on obtient :
= 2 W + (T 2 + 2 )Bn + (N 2 + 2 )Bt 2 J
On vrifie aisment que les diffrentes matrices sont idempotentes. En revanche,
on a Bn Bt = J 6= 0. En effet, le produit de ces deux matrices conduit calculer la moyenne temporelle des moyennes individuelles, ce qui renvoie la moyenne
n = Bn J et B
t = Bt J qui renvoient
globale. Pour cette raison, on utilise B
respectivement les moyennes individuelles et temporelles en cart par rapport la
moyenne globale. En regroupant les termes, on obtient finalement :
n + (N 2 + 2 )B
t + (T 2 + N 2 + 2 )J
= 2 W + (T 2 + 2 )B
Soit encore, en notant n = (T 2 + 2 )0.5 , t = (N 2 + 2 )0.5 et j = (T 2 +
N 2 + 2 )0.5 :
1
n /2n + B
t /2 + J/
2
=W +B
t
j
2

3.1.2

Modles effets fixes et effets alatoires

Comme dans le cas du modle effets individuels, le modle effets fixes peut
tre obtenu de deux manires diffrentes :
en estimant le modle par les moindres carrs ordinaires en introduisant dans
lestimation des variables indicatrices des individus et des priodes,
en estimant le modle par les moindres carrs ordinaires en introduisant dans
lestimation les variables transformes en cart par rapport aux moyennes individuelles et temporelles : znt zn. z.t + z.
Pour le modle des moindres carrs gnraliss, on transforme les variables du
modle en les prmultipliant par 0.5 ou plus simplement par 0.5 :
n + t B
t + j J
0.5 = W + n B
En regroupant les termes, on obtient la transformation ralise par la pr-multiplication
des variables du modle par cette matrice :

znt
= znt (1 n )
xn. (1 t )
x.t + (1 n t + j )x

3.1.3

Application

Pour le modle concernant la production de riz prcdemment estim, on peut


obtenir une estimation double erreurs composes en fixant largument effect de
la fonction plm twoways. Les rsultats des deux modles effets fixes et effets
alatoires sont prsents ci-dessous :

Chapitre 3. Le modle erreurs composes : extensions


>
>
>
>

43

riceprod <- log(goutput)~log(seed)+log(totlabor)+log(size)


rice.wd <- plm(riceprod, Rice, effect = "twoways")
rice.rd <- plm(riceprod, Rice, effect = "twoways", model = "random")
ercomp(rice.rd)

var std.dev share


idiosyncratic 0.09431 0.30710 0.631
individual
0.02102 0.14497 0.141
time
0.03415 0.18479 0.228
theta : 0.3459 (id) 0.8739 (time) 0.3446 (total)

Les parts des trois composantes du terme derreur sont dsormais de 14% pour la
composante individuelle et 23% pour la composante temporelle.
Les effets individuels sont extraits du modle effets fixes laide de la fonction fixef laquelle on peut ajouter un second argument effect qui est gal
"individual" par dfaut et que lon peut fixer "time" pour extraire les effets
fixes temporels :
> fixef(rice.wd, effect = "time")

1
2
3
4
5
6
5.914708 5.842072 5.716913 5.544581 6.076116 6.038450

3.2

Dautres estimateurs des variances des composantes du terme derreur

On rappelle que lestimateur de Wallace & Hussain (1969) est bas sur lestimation
du modle par la mthode des moindres carrs ordinaires. On a alors :

12 = T

N
X

e2n. /N

n=1

2 =

N X
T
X
(ent en. )2 /(N (T 1))
n=1 t=1

Dautres estimateurs ont t proposs.


Lestimateur de Amemiya (1971) est bas sur lestimation du modle within. On
obtient :

= y w x
ent = ynt
w xnt

44

Economtrie des donnes de panel avec R

12 = T

N
X

e2n. /N

n=1

2 =

N X
T
X
(ent en. )2 /(N (T 1)))
n=1 t=1

Pour lestimateur de Swamy & Arora (1972), on utilise deux estimations, celles du
modle within et du modle between.

2 =

T
N X
X

2
ew
nt /(N (T 1) K)

n=1 t=1

12 = T

N
X

ebnt /(N K 1)

n=1

Enfin, pour lestimateur de Nerlove (1971), on calcule lestimateur de 2 en calculant les effets individuels partir du modle within :
n = yn. w x
n.

2 =

N
X

(
n
)2 /(N 1)

n=1

2 =

N X
T
X

e2nt /(N T )

n=1 t=1

Pour utiliser ces mthodes destimation, il suffit de fixer largument random.method


swar pour Swamy & Arora (1972), walhus pour Wallace & Hussain (1969),
amemiya pour Amemiya (1971) et nerlove pour Nerlove (1971).
>
+
>
>
>
>
+

rice.wh <- plm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice,


model="random", random.method = "walhus")
rice.sa <- update(rice.wh, random.method = "swar")
rice.am <- update(rice.wh, random.method = "amemiya")
rice.ne <- update(rice.wh, random.method = "nerlove")
rbind(walhus = coef(rice.wh), swar = coef(rice.sa),
amemyia = coef(rice.am), nerlove = coef(rice.ne))

walhus
swar
amemyia
nerlove

(Intercept)
5.312634
5.312310
5.311825
5.302849

log(seed) log(totlabor) log(size)


0.2199918
0.2854699 0.5280732
0.2199071
0.2855146 0.5278612
0.2197788
0.2855815 0.5275402
0.2171339
0.2867853 0.5209678

Chapitre 3. Le modle erreurs composes : extensions

45

On constate que les diffrences entre les modles sont trs faibles, lestimateur de
Nerlove (1971) tant malgr tout un peu diffrent des autres. Cela est confirm en
analysant la transformation ralise avec cet estimateur :
> ercomp(rice.ne)

var std.dev share


idiosyncratic 0.10992 0.33155 0.743
individual
0.03802 0.19498 0.257
theta: 0.4298

La part estime de leffet individuel dans lerreur est bien plus leve avec cet
estimateur quavec les autres (26% contre 10%) et par consquent les donnes sont
transformes en soustrayant une part plus importante de la moyenne individuelle
des variables.

3.3

Panel non cylindr

Dans le cas du panel non cylindr, on a dsormais Tn observations par individu.


Le modle effets fixes peut tre obtenu de la mme manire que dans le cas dun
panel cylindr, cest--dire en transformant les variables en cart par rapport la
moyenne individuelle. En revanche, pour le modle effets alatoires, la mthode
destimation des variances des composantes du terme derreur doit tre modifie 1 .
Dans le cas o le modle est non cylindr, on ne peut plus exprimer la matrice
de variance covariance des erreurs comme une combinaison linaire des matrices
within et between, les pondrations tant 2 et 12 . En revanche, mmes si les
rsultats sont plus complexes, on peut de nouveau calculer les deux formes quadratiques qw = e> W e et qb = e> Be et galiser les valeurs pour lchantillon leur
esprance afin destimer 2 et 2 . Pour les diffrents estimateurs, la dmarche sera
toujours la mme :
Dterminer la matrice qui permet de transformer le vecteur derreurs en vecteur
de rsidus e = A,
Calculer les deux formes quadratiques : qw = e> W e et qb = e> Be, 
Dterminer leur esprance : E(
qw ) = E e> W e et E(
qb ) = E e> Be
Egaliser les deux et rsoudre le systme de deux quations en fonction de 2 et
2 .
Wallace et Hussain
Les deux formes quadratiques sont calcules partir des rsidus des moindres
carrs ordinaires, pour lesquels on a :
eo = I X(X > X)1 X > 
1. voir Baltagi & Chang (1994).

46

Economtrie des donnes de panel avec R

Pour la premire forme quadratique, qui utilise la matrice within, on obtient, en


esprance :
E(
qw ) = tr



I X(X > X)1 X > W I X(X > X)1 X >

Soit :
E(
qw )



=
n N tr (X > W X)(X > X)1 2

+ tr (X > U X)(X > X)1 (X > W X)(X > X)1 2

Que lon peut galement rcrire, en remplaant W par I B :




>
= n N K 1 + tr (X
BX)(X > X)1 2


+
tr (X > U X)(X > X)1 tr (X > U X)(X > X)1 (X > BX)(X > X)1 2

E(
qw )

Pour la seconde forme quadratique, qui utilise la matrice between, lesprance est :
E(
qb ) = tr



I X(X > X)1 X > B I X(X > X)1 X >

Soit encore :
E(
qb )



= N tr (X > X)1 (X > BX) 2


+
n + tr (X > U X)(X > X)1 (X > BX)(X > X)1 2tr (X > U X)(X > X)1

Swamy et Arrora
Ici, qw est calcul partir des rsidus within et qb partir des rsidus between.
Les deux matrices de trnansformation sont :

ew = W W X > (X > W X)1 X > W  = Aw 

eb = B BX > (X > BX)1 X > B  = Ab 
qw est calcul partir des rsidus within. On a alors :

>
qw = > A>
W W X(X > W X)1 X > W 
w W Aw  = 
et donc :
E(
qw ) = (n N K)2
qb est calcul partir des rsidus between. On a alors :

>
qb = > A>
B BX(X > BX)1 X > B 
B BAB  = 
et

Chapitre 3. Le modle erreurs composes : extensions

E(
qb ) = (N K 1)2 + n tr (X > BX)1 (X > U X)



47

Le calcul des estimateur des variances est donc ici particulirement simple puisque

2 peut tre obtenu partir de la premire condition et introduit dans la seconde


afin de calculer
2 .
Amemyia
Pour cet estimateur, on calcule les rsidus destimation non transforms en utilisant
lestimateur within :
ea = y X w

w .
avec
= y X
On a donc :
w
ea = (y y) (X X)

(3.1)

De plus, la relation entre w et  est donn par :


w = (X > W X)1 X > 

(3.2)

Pour le vrai modle, on a :


 = y X
La moyenne pour lchantillon donne :

 = y X
Soit finalement, pour le vrai modle en cart par rapport la moyenne :

  = (y y) (X X)

(3.3)

En soustrayant membre membre (3.1) et (3.3), on obtient :


w )
ew  +  = (X X)(
Soit encore en utilisant 3.2 :
>

ew =  +  (X X)(X
W X)1 X > 

En notant Jn la matrice dont tous les termes sont gaux 1/n, on obtient finalement lexpression de la matrice Aa qui transforme les erreurs du modles en les
rsidus dAmemyia :
Aa = (I Jn ) I X(X > W X)1 X > W

48

Economtrie des donnes de panel avec R

>
>
On a qw = e>
b = e>
a W ea = Aa W Aa  et q
a Bea = Aa BAa .
>
1
Comme W U = 0, tr(W ) = n N , tr(W X(X W X) W > W ) = K lesprance de
la premire forme quadratique scrit simplement :

E(
qw ) = (n N K)2
Pour E(
qb ), notons que les matrices ayant aux extrmits B ou Jn dun ct et W
de lautre ont une trace nulle. On a donc :



E(
qb ) = tr(B Jn ) + tr W X(X > W X)1 (B Jn )X(X > W X)1 X > W 2 + (B Jn )U
Soit finalement :

X


E(
qb ) = (N 1+tr (X > W X)1 (X > BX) tr (X > W X)1 (X > Jn X) 2 + n
T n2 /N
n

3.3.1

Application

Pour illustrer lestimation dun panel non cylindr, nous utilisons les donnes Tileries qui concernent la production de carreaux en Egypte ; 25 entreprises sont
observes, le nombre dobservations variant entre 12 et 22.
> data("Tileries", package = "pder")
> head(Tileries, 3)

1
2
3

id week
area
output
labor machine
2
1 fayoum 5.650487 4.532599 4.663439
2
2 fayoum 6.522328 5.347108 4.234107
2
3 fayoum 6.302619 4.969813 4.234107

> pdim(Tileries)

Unbalanced Panel: n=25, T=12-22, N=483

On estime une fonction de production Cobb-Douglass en spcifiant une quation


log-linaire reliant la production (output) au travail (labor) et aux machines
(machine).
> tile.r <- plm(log(output)~log(labor)+log(machine), Tileries, model = "random")

bon

> summary(tile.r)

Chapitre 3. Le modle erreurs composes : extensions

49

Oneway (individual) effect Random Effect Model


(Swamy-Aroras transformation)
Call:
plm(formula = log(output) ~ log(labor) + log(machine), data = Tileries,
model = "random")
Unbalanced Panel: n=25, T=12-22, N=483
Effects:
var
std.dev share
idiosyncratic 0.0026396 0.0513772 0.808
individual
0.0006269 0.0250375 0.192
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.4903 0.5741 0.5830 0.5785 0.5913

Max.
0.5992

Residuals :
Min.
1st Qu.
-0.187000 -0.027300

3rd Qu.
0.033400

Median
0.003070

Mean
0.000007

Max.
0.227000

Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.278203
0.060791 4.5764 6.032e-06 ***
log(labor)
0.908630
0.030048 30.2390 < 2.2e-16 ***
log(machine) 0.023965
0.027062 0.8856
0.3763
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares:
4.8402
Residual Sum of Squares: 1.2969
R-Squared
: 0.73206
Adj. R-Squared : 0.72751
F-statistic: 655.722 on 2 and 480 DF, p-value: < 2.22e-16

Le paramtre de transformation est donc dsormais spcifique lindividu, ou


plus exactement au nombre dobservations disponibles pour chaque individu. On
constate ici que est compris entre 0.49 et 0.60.

3.4

Lestimateur du maximum de vraisemblance

Une alternative lestimateur des moindres carrs gnraliss est lestimateur du


maximum de vraisemblance. Contrairement au prcdent, les paramtres ne sont
pas estims de manire squentielle (dabord , puis ), mais simultanment. Afin
dcrire la vraisemblance du modle, la distribution des erreurs doit tre parfaitement dfinie ; par rapport au modle prcdent, on ajoutera donc lhypothse
de distribution normale pour les deux composantes du terme derreur, leffet individuel et leffet idiosyncratique . La vraisemblance est la densit jointe pour
lensemble de lchantillon, qui correspond au produit des densit individuelle dans
le cas o les diffrentes observations ne sont pas corrles. Ce nest pas le cas ici,

50

Economtrie des donnes de panel avec R

plus prcisment, les Tn observations correspondant lindividu n sont corrles


du fait de la prsence de leffet individuel. Le modle estimer scrit :
ynt = > xn + n + nt
avec n N (0, ) and nt N (0, ). Pour une valeur donne de leffet indiviudel
n , la densit pour ynt scrit :


2

>

ynt xnt n
21
1

e
f (ynt | n ) =
2
Pour une valeur donne de , la distribution de yn = yn1 , . . . , ynT est celle dun
vecteur de variables alatoires indpendantes, la distribution jointe est donc simplement le produit des densits individuelles :


f (yn | n ) =

1
22

 T2n
e

212

PTn

t=1

(ynt > xnt n )

La distribution non conditionnelle est obtenue en intgrant lexpression prcdente


par rapport ; cela revient calculer une moyenne de la densit pour lensemble
des valeurs possibles de :
1

f (yn ) = q
22

f (yn | n )e

12

2

d = q
22

1
22

 T2n Z

e 2 A d

avec, en notant nt = ynt > xnt and n = yn > xn :


T
X
(nt )2

2
1
+ 2 = 2

2
X
1n
2
A=

2T


+
nt 2
n
n.
2
2

t
t=1
!
2

2
1 1n

1 X 2
2 2
A= 2
T n.
+ 2
nt Tn n. 2

1n

1n
t

En notant z 2 le premier terme, on a dz =

:
notant n = 1n

f (yn ) =

1
22

 T2n
n e

1n
d

212


P

et la densit jointe devient, en

2nt Tn2 2n.

2
1n

Or :
X
t

2nt Tn2 e2n.

X
X
2
2
=
2nt Tn (1 2n )
2n. =
(nt (1 n )
n. )
2
1n
t
t

et la densit jointe pour un individu scrit donc finalement :

Chapitre 3. Le modle erreurs composes : extensions


f (yn ) =

1
22

 T2n
n e

212

51

n. )2
t (nt (1n )

La contribution de lindividu n la fonction de log de vraisemblance est simplement


le logarithme de cette densit jointe :
ln Ln =

Tn
1
1 X
Tn
2
ln 2
ln 2 + ln 2n 2
(nt (1 n )
n. )
2
2
2
2 t

Pour obtenir la fonction de log de vraisemblance, il ne reste qu sommer pour


tous les individus :
P
ln L =

Tn

ln 2

Tn

ln 2 +

1X
1 XX
2
(nt (1 n )
n. )
ln 2n 2
2 n
2 n t

ou, plus simplement, si le panel est cylindr :

ln L =

NT
NT
N
1 XX
2
ln 2
ln 2 +
ln 2 2
(nt (1 )
n. )
2
2
2
2 n t

Notons galement que :


XX
n

(nt (1 )
n. ) =

XX

(nt n. ) + 2

Tn 2n. = > W  + 2 > B

Les drives premires de la vraissemblance scrivent :


 

2 
ln L
= 2 X > y X > X

(3.4)


ln L
NT
1
= 2 + 4 > W  + 2 > B
2
2
2

(3.5)

N > B
ln L
= 2
2

2 22

(3.6)


1
= X > X
X > y

(3.7)

En rsolvant 3.4, on obtient :

Lestimateur de 2 est simplement obtenue en utilisant 3.5 comme la variance


rsiduelle du modle estim sur donnes transformes :

2 =

> W  + 2 > B

NT

(3.8)

52

Economtrie des donnes de panel avec R

Enfin, le paramtre de transformation scrit, en utilisant (3.6) et (3.8) :


2 =

> W 
(T 1)
> B


(3.9)

Lestimation peut tre ralise de manire itrative. Partant dun estimateur de


(par exemple celui du modle within), on calcule 2 en utilisant la formule
donne par 3.9. On transforme alors les donnes laide de cet estimateur de 2
et on dtermine une nouvelle estimation de en utilisant (3.7). On rpte alors
les oprations prcdentes jusqu ce que les estimateurs de et de 2 convergent.
On estime alors 2 en utilisant (3.8).
Lestimateur du maximum de vraisemblance est disponible dans la librairie pglm.
La fonction pglm permet destimer un grand nombre de modles de panel par la
mthode du maximum de vraisemblance. On doit spcifier la distribution suppose
des erreurs des modles, ici normale en fixant largument family "gaussian".

> library(pglm)
> rice.ml <- pglm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice, family = gaussian)

> summary(rice.ml)

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -460.4513
6 free parameters
Estimates:
Estimate Std. error t value
Pr(> t)
(Intercept)
5.312540
0.203771 26.0712 < 2.2e-16 ***
log(seed)
0.219967
0.028330 7.7643 8.207e-15 ***
log(totlabor) 0.285483
0.031047 9.1953 < 2.2e-16 ***
log(size)
0.528012
0.032649 16.1725 < 2.2e-16 ***
sd.mu
0.119040
0.017129 6.9496 3.663e-12 ***
sd.eps
0.363663
0.008601 42.2816 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------

On constate que les rsultats sont trs similaires ceux obtenus avec les moindres
carrs gnraliss. Les deux paramtres appels "sd.eps" et "sd.mu" sont les
carts-type estims de la composante idiosyncratique de lerreur et de leffet individuel. L aussi, les valeurs obtenues sont quasiment identiques celles du modle
des moindres carrs gnraliss.

Chapitre 3. Le modle erreurs composes : extensions

3.5
3.5.1

53

Systme dquations corrles


Introduction

Trs souvent en conomie, le phnomne tudier nest pas dcrit par une quation,
mais par un systme dquations. Cest en particulier le cas en micro-conomie de la
consommation ou de la production. Par exemple, le comportement dun producteur
sera caractris par une quation de cot, une quation de demande de travail et
une quation de demande de capital. Il est dans ce cas prfrable de considrer le
systme dquations dans son intgralit pour deux raisons :
tout dabord, les termes derreur des diffrentes quations peuvent tre corrls
entre eux. Dans ce cas, mme si lestimation dune quation isole est convergente, elle est inefficace car elle ne prend pas en compte la corrlation des erreurs ;
ensuite, la thorie conomique impose parfois des restrictions sur diffrents coefficients du systme, par exemple lgalit de deux coefficients appartenant
deux quations diffrentes du systme. Dans ce cas, ces restrictions doivent tre
prises en compte en utilisant la mthode des moindres carrs contraints.

3.5.2

Les moindres carrs contraints

Les restrictions linaires sur le vecteur de coefficients estimer sont modliss


laide dune matrice de restrictions R et dun vecteur numrique q :
R = q
Par exemple, si la somme des deux premiers coefficients doit tre gale 1 et que
le premier et le troisime doivent tre gaux, les restrictions scrivent :





1
1
1 1 0
2 =
1 0 1
0
3
Pour calculer lestimateur des mco contraints, on forme le lagrangien :
L = e> e + 2> (R q)
avec e = y X et le vecteur des multiplicateurs de Lagrange associes aux
diffrentes contraintes 2 . En dveloppant, on obtient :
L = y > y 2 > X > y + > X > X + 2(R q)
Les conditions de premier ordre scrivent :
 L
= 2X > y 2X > X + 2R> = 0

L
= 2(R q) = 0

2. Ces multiplicateurs de Lagrange sont multiplis par deux pour simplifier les conditions de
premier ordre.

54

Economtrie des donnes de panel avec R

Soit encore, sous forme matricielle :


 >

  > 

X X R>
X y
=

R
0
q
Lestimateur des moindres carrs contraints sobtient en utilisant la formule de
linversion dune matrice partitionne.


A11
A21

A12
A22

1


=

B11
B21

B12
B22


=

1
1
A1
11 (I + A12 F2 A21 A11 ) A11 A12 F2
1
F2 A21 A11
F2

1
et F1 = A11 A12 A1
.
22 A21

>
1 > 1
On a ici F2 = R(X X) R
. Lestimateur contraint scrit alors : c =
>
>
B11 X y + B12 q, avec B11 = (X X)1 I R> (R(X > X)1 R> )1 R(X > X)1
1
et B12 = (X > X)1 R> R(X > X)1 R>
1 >
Lestimateur non-contraint tant nc = X > X
X y, on obtient finalement :
avec F2 = A22 A21 A1
11 A12

1

c = nc (X > X)1 R> (R(X > X)1 R> )1 (Rnc q)


Lcart entre les estimateurs contraints et non-contraints est donc une combinaison linaire du solde des contraintes linaire du modle values pour le modle
contraint.

3.5.3

La prise en compte des corrlations inter-quations

On considre un systme de L quations notes yl


Sous forme matricielle, le systme scrit :

y1
X1 0 . . . 0
y2 0 X2 . . . 0

.. = ..
..
..
..
. .
.
.
.
yL

...

XL

= Xl l + l , avec l = 1 . . . L.
1
2
..
.

1
2
..
.

L

La matrice de covariance des erreurs du systme scrit :

= E(> ) = E

1 >
1
2 >
1
..
.

1 >
2
2 >
2
..
.

...
...
..
.

 1 >
L
 2 >
L
..
.

L >
1

L >
2

...

 L >
L

On supposera que les erreurs dun mme individu pour deux quations l et m sont
corrles et que la covariance, note lm , est constante. Dans ce cas, la matrice de

Chapitre 3. Le modle erreurs composes : extensions

55

covariance scrit :

11 I
12 I
..
.

12 I
22 I
..
.

...
...
..
.

1L I
2L I
..
.

1L I

2L I

...

LL I

Soit encore, en notant la matrice de covariance inter-quations :

11
12
..
.

12
22
..
.

...
...
..
.

1L
2L
..
.

1L

2L

...

LL

=I
Du fait de la corrlation inter-quations, lestimateur efficace est celui des moindres
1 > 1
carrs gnraliss, qui scrit : = X1 X
X y. Cet estimateur, dvelopp par Zellner (1962) est connu par lacronyme sur pour seemingly unrelated
regression.
Il peut tre obtenu en appliquant lestimateur des moindres carrs ordinaires sur
les donnes transformes en pr-multipliant chaque variable par la matrice 0.5 .
Du fait de la structure d, cette matrice scrit simplement : 0.5 = 0.5 I. En
notant rlm les lments de 0.5 , la variable explique et les variables explicatives
transformes sont :

y =

r11 y1 + r12 y2 + . . . + r1L yL


r21 y1 + r22 y2 + . . . + r2L yL
..
.
rL1 y1 + rL2 y2 + . . . + rLL yL

et X =

r11 X1
r21 X1
..
.

r12 X2
r22 X2
..
.

...
...
..
.

r1L XL
r2L XL
..
.

rL1 X1

rL2 X2

...

rLL XL

Dans les faits, est une matrice de paramtres inconnus. Ceux-ci peuvent tre estims en utilisant les rsidus dune estimation convergente, mais inefficace, comme
celle des moindres carrs ordinaires. On obtient alors lestimateur en suivant les
tapes suivantes :
tout dabord, on estime chaque quation sparment par les mco et on note
E = (e1 , e2 , . . . , eL ) la matrice de dimension N N dont chaque colonne est le
vecteur de rsidus dune des quations du systme,
= E > E/N ,
ensuite, on estime la matrice de covariance des erreurs :
0.5

on calcule la matrice
et on lutilise pour transformer les variables du
modle y et X ,
enfin, on estime le modle par les moindres carrs sur les variables transformes.

56

3.5.4

Economtrie des donnes de panel avec R

Donnes de panel

Lapplication du modle sur aux donnes de panel ne pose pas de difficults particulires dans le cas o seule la variation between ou within des donnes est prise
en compte. Dans ce cas, il suffit simplement dappliquer les formules prcdentes
en utilisant les variables en moyennes individuelles (between-sur) ou en cart par
rapport aux moyennes individuelles (within-sur). La prise en compte des deux dimensions de la variabilit des donnes demande davantage dattention et conduit
au modle sur erreurs composes propos par Avery (1977) et Baltagi (1980).
Les erreurs du modles prsentent alors deux sources de corrlation :
la corrlation prise en compte dans le modle sur, cest--dire les corrlations
inter-quations,
la corrlation prise en compte dans le modle erreurs composes, cest--dire
les corrlations intra-individuelles.
Chaque observation est maintenant caractrise par trois indices : zlnt reprsente
lobservation de z pour la lime quation, le nime individu la time priode.
Les observations sont ranges dabord par quation, puis par individu. En notant
>
>
>
ime quation et le nime
>
ln = (ln1 , ln2 , . . . , lnT ) le vecteur derreurs pour la l
individu, on obtient :
E(ln >
mn ) = lm IT + lm JT
Labsence de corrlation entre erreurs associes des individus diffrents implique
la matrice suivante de corrlation pour deux quations et pour lensemble des
individus :
E(l >
m ) = IN (lm IT + lm JT )
= lm IN T + lm IN JT
= lm (W + B) + T lm B
= lm W + (lm + T lm )B
= lm W + 1lm B
Finalement, pour lensemble du systme dquations, on obtient, en notant et
1 les deux matrices de dimensions L L contenant les paramtres lm et 1lm ,
la matrice de covariance des erreurs suivantes :
= W + 1 B
Le modle sur erreurs composes peut tre obtenu en appliquant les moindres
carrs ordinaires sur les donnes transformes en pr-multipliant chaque variable
par 0.5 . Cette matrice scrit :
0.5 = 0.5
W + 10.5 B

(3.10)

1
et peut tre estime en utilisant les dcompositions de Cholesky de 1
et de 1
(voir Kinal & Lahiri, 1990).
Les deux matrices de covariance des erreurs tant inconnues, lestimateur sur
erreurs composes est obtenu en suivant les tapes suivantes :

Chapitre 3. Le modle erreurs composes : extensions

57

tout dabord, on estime chaque quation sparment en utilisant une mthode


destimation convergente (les moindres carrs ordinaires par exemple) et on note
W E la matrice des rsidus en cart par rapport la moyenne individuelle et
BE la matrice des moyennes individuelles des rsidus,
ensuite, on estime les matrices de covariance des erreurs. A cet effet, on peut
tendre aux systmes dquations les mthodes destimations des variances utilises dans le cas de lestimation dquations isoles. Par exemple, Baltagi (1980)
a utilis la mthode propos par Amemiya (1971) alors quAvery (1977) a choisi
celle de Swamy & Arora (1972). En notant E la matrice de rsidus des moindres
= (W E)> (W E)/(N (T 1)) et
1 = (BE)> (BE)/(N
carrs ordinaires, on obtient :
1),
0.5 et on obtient ainsi une estimation de ??
0.5
et
on calcule les matrices

1
qui est utilise pour obtenir les variables transformes y et X ,
enfin, on estime le modle par les moindres carrs sur les variables transformes.

3.5.5

Application

Une application classique du modle sur est lanalyse des cots de production.
La fonction de cot indique le cot minimum de production C compte tenu du
vecteur de prix des K facteurs de production p> = (p1 , p2 , . . . , pK ) et du niveau
de production q. La fonction de cot minimum scrit C(p, q). Elle vrifie plusieurs
proprits :
elle est homogne de degr 1 par rapport aux prix des facteurs : C(p, q) =
C(p, q),
les fonctions de demande de facteurs de production sont obtenues par drivation
du cot minimum par rapport aux prix des facteurs 3 , il sagit donc du gradient
de la fonction de cot : C
p (p, q) = x(p, q)
la matrice hessienne de la fonction de cot est symtrique :

2C
pi p>
j

2C
.
pi p>
j

La forme fonctionelle la plus souvent retenue pour la fonction de cot minimum


est la fonction translog, dfinie par :
ln C(p, q)

PK
= 0 + q ln q + i=1 i ln pi
PK PK
+ 0.5qq ln2 q + 0.5 i=1 j=1 ij ln pi ln pj

Imposer lhomognit de degr 1 par rapport au prix revient considrer le cot


total et les prix de facteur en les divisant par un des prix (le premier par exemple) :
ln pC1 (p, q)

PK
= 0 + q ln q + i=2 i ln pp1i
PK PK
p
+ 0.5qq ln2 q + 0.5 i=2 j=2 ij ln pp1i ln p1j

pi x i
ln C
C pi
Le lemme de shepard implique que : ln
pi = pi C = C = si , cest--dire que la
drive logarithmique du cot par rapport un prix est gale la part du facteur

3. Ce rsultat est connu sous le nom de lemme de Shephard.

58

Economtrie des donnes de panel avec R

dans le cot. La part du facteur j est donc :


sj =

ln C
pj
= j + jj ln
+
ln pj
p1

K
X
i=2&i6=j

ij ln

pi
p1

Il est dusage de rapporter chaque prix et la production la moyenne de lchantillon ; dans ce cas ln q et ln pi sont nuls la moyenne de lchantillon, ce qui donne
un sens intuitif aux coefficients de premier ordre. q est en effet llasticit du cot
par rapport la production la moyenne de lchantillon et i la part du facteur
i dans le cot de production la moyenne de lchantillon.
Les donnes utilises concernent le cot de production de 10 producteurs dlectricit du Texas pour 18 ans (de 1966 1983). Elles ont t utilises par Kumbhakar
(1996), Horrace & Schmidt (1996) et Horrace & Schmidt (2000). Trois facteurs de
production sont utiliss, le carburant, le travail et le capital. Pour chaque facteur,
on dispose des prix unitaires (pfuel, plab et pcap) et des dpenses (expfuel,
explab et expcap).
On commence par caluler les prix en logarithmes, en les divisant par la moyenne
de lchantillon et en les divisant galement par un des prix, par exemple le prix
du carburant :
>
>
>
>

data("TexasElectr", package = "pder")


TexasElectr$pf <- with(TexasElectr, log(pfuel / mean(pfuel)))
TexasElectr$pl <- with(TexasElectr, log(plab / mean(plab)) - pf)
TexasElectr$pk <- with(TexasElectr, log(pcap / mean(pcap)) - pf)

sa moyenne pour lchantillon :


> TexasElectr$q <- with(TexasElectr, log(output / mean(output)))

On calcule ensuite le cot total de production en sommant les dpenses pour les
trois facteurs, puis les parts de facteurs et enfin on mesure le cot en logarithme
en le divisant par sa moyenne de lchantillon et par le prix de rfrence.
>
>
>
>

TexasElectr$C <- with(TexasElectr, expfuel


TexasElectr$sl <- with(TexasElectr, explab
TexasElectr$sk <- with(TexasElectr, expcap
TexasElectr$C <- with(TexasElectr, log(C /

+ explab + expcap)
/ C)
/ C)
mean(C)) - pf)

On calcule enfin les carrs et les effets intractifs des diffrentes variables.
>
>
>
>

TexasElectr$pll <- with(TexasElectr, 1/2 * pl ^ 2)


TexasElectr$plk <- with(TexasElectr, pl * pk)
TexasElectr$pkk <- with(TexasElectr, 1/2 * pk ^ 2)
TexasElectr$qq <- with(TexasElectr, 1/2 * q ^ 2)

On dfinit les trois quations du systme, une pour le cot total et les deux autres
pour les parts de facteur 4 .
4. La part du facteur carburant est omise car, les trois parts se sommant 1, lintroduire dans
le systme gnrerait une colinarit parfaite.

Chapitre 3. Le modle erreurs composes : extensions

59

> cost <- C ~ pl + pk + q + pll + plk + pkk + qq


> shlab <- sl ~ pl + pk
> shcap <- sk ~ pl + pk

Les parts de facteur tant drives de la fonction de cot, les restrictions suivantes
doivent tre imposes :
le coefficient de pl dans lquation de cot doit tre gal la constante de
lquation de part de travail,
le coefficient de pk dans lquation de cot doit tre gal la constante de
lquation de part de capital,
le coefficient de pll dans lquation de cot doit tre gal au coefficient associ
pl dans lquation de part de travail,
le coefficient de pkk dans lquation de cot doit tre gal au coefficient associ
pk dans lquation de part de capital,
le coefficient de plk dans lquation de cot doit tre gal au coefficient associ
pk dans lquation de part de travail et celui associ pl dans celle de part
de capital,
Ces restrictions (au nombre de 7) sont dfinie laide de la matrice R ci-dessous :
> R <- matrix(0, nrow = 6, ncol = 14)
> R[1, 2] <- R[2, 3] <- R[3, 5] <- R[4, 6] <- R[5, 6] <- R[6, 7] <- 1
> R[1, 9] <- R[2, 12] <- R[3, 10] <- R[4, 11] <- R[5, 13] <- R[6, 14] <- -1

La premire ligne de la matrice indique par exemple que le deuxime coefficient


(celui associ pl dans lquation de cot doit tre gal au neuvime (la constante
dans lquation de part de travail).
Le modle sur est estim en indiquant en premier argument de plm une liste de
formules qui dcrivent le systme dquations estimer. Les diffrentes formules de
cette liste peuvent tre nommes, ce qui permet de clarifier laffichage des rsultats.
Largument model est fix "random" de manire estimer le mod le sur
erreurs composes. Enfin, les arguments restrict.matrix et restrict.rhs permettent
dindiquer la matrice R et le vecteur q qui dfinit les contraintes linaires du
modle. Dans le cas o tous les lments du vecteur q sont nuls, ce qui est le cas
ici, largument restrict.rhs peut tre omis.
> z <- plm(list(cost = C ~ pl +
+
shlab = sl ~ pl
+
shcap = sk ~ pl
+
TexasElectr, model =
+
restrict.matrix = R)
> summary(z)

pk + q + pll + plk + pkk + qq,


+ pk,
+ pk),
"random",

Oneway (individual) effect Random Effect Model


(Swamy-Aroras transformation)
Call:
plm.list(formula = list(cost = C ~ pl + pk + q + pll + plk +
pkk + qq, shlab = sl ~ pl + pk, shcap = sk ~ pl + pk), data = TexasElectr,
model = "random", restrict.matrix = R)

60

Economtrie des donnes de panel avec R


Balanced Panel: n=10, T=18, N=180
Effects:
Estimated standard deviations of the error
cost
shlab
shcap
id
0.23813 0.024350 0.078911
idios 0.17413 0.056133 0.078592
Estimated correlation matrix of the individual effects
cost
shlab shcap
cost
1.00000
.
.
shlab -0.27381 1.00000
.
shcap -0.53206 0.71985
1
Estimated correlation matrix of the idiosyncratic effects
cost
shlab shcap
cost
1.00000
.
.
shlab -0.47376 1.00000
.
shcap -0.69301 0.91543
1
- cost
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.4889327 0.0726261 -6.7322 4.385e-11
pl
0.2238329 0.0074131 30.1943 < 2.2e-16
pk
0.5935533 0.0201037 29.5246 < 2.2e-16
q
1.2524625 0.0288140 43.4672 < 2.2e-16
pll
0.0845448 0.0075629 11.1789 < 2.2e-16
plk
-0.0877305 0.0076570 -11.4576 < 2.2e-16
pkk
0.0869210 0.0090932
9.5589 < 2.2e-16
qq
0.0690853 0.0314857
2.1942
0.02866
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 .

***
***
***
***
***
***
***
*
0.1 1

- shlab
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.2238329 0.0074131 30.194 < 2.2e-16 ***
pl
0.0845448 0.0075629 11.179 < 2.2e-16 ***
pk
-0.0877305 0.0076570 -11.458 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
- shcap
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.5935533 0.0201037 29.5246 < 2.2e-16
pl
-0.0877305 0.0076570 -11.4576 < 2.2e-16
pk
0.0869210 0.0090932
9.5589 < 2.2e-16
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 .

***
***
***
0.1 1

Chapitre 4

Tests sur le modle erreurs


composes
4.1

Tests deffets individuels et/ou deffets temporels

Afin de tester la prsence deffets individuels et/ou temporels, deux approches sont
possibles :
la premire est de partir du modle qui estime ces effets (modle within) et de
raliser un test dhypothse jointe que lensemble de ces coefficients estims sont
nuls,
le second est de partir du modle des moindres carrs ordinaires et dinfrer sur
lexistence des effets partir des caractristiques des rsidus de cette estimation.

4.1.1

Tests de F

w
Le modle
P
P w 2within est caractris par une somme des carrs des rsidus : SCR =
n
t ent et le nombre de degrs de libert est de N (T 1) K, o K est
le nombre de variables explicatives. On pose comme hypothse nulle labsence
deffets individuels. Le modle contraint est donc le modle des moindres carrs
ordinairess, dont la somme des carrs des rsidus et le nombre de degrs de libert
P P
2
scrivent respectivement : SCRp = n t eP
nt et N T K 1. Si H0 est vraie,
on a alors la statistique :

SCRP SCRW N T K 1
SCRw
N 1
qui suit un F de Fisher Snedecor avec N 1 et N T K 1 degrs de libert.

62

Economtrie des donnes de panel avec R

4.1.2

Tests de Breush-Pagan

Le test de Breusch & Pagan (1980) est un test de multiplicateur de Lagrange, bas
sur les rsidus des moindres carrs ordinaires.
ln L
,
Le test de multiplicateur de Lagrange est bas sur le vecteur de scores g() =
cest--dire de drives de la fonction de log de vraisemblance, valu pour un
modle contraint. La variance du vecteur de score est donn par :


ln L
H() = E
()
>
On estime un modle contraint caractris par un vecteur de paramtres ; on a
alors, si les hypothses sous jacentes sont vraies :
N (0, H())

g()
le score et sa variance valus pour le modle
Soit encore, en notant g et H
contraint :
1 g
g> H
qui suit un 2 dont le nombre de degrs de libert est gal au nombre dhypothses
imposes dans le cadre du modle contraint.
Dans le cas du modle effets individuels, on rappelle que la vraisemblance scrit,
2
en notant 2 = T 2 +
2 :

ln L =

NT
N (T 1)
N
1 XX
2
ln 2
ln 2 + ln(T 2 +2 ) 2
(ent (1 )
en. )
2
2
2
2 n t

Le gradient est donc :


ln L
2
ln L
2

g() =

!
=

w
N
+ SSR
24
212
b
T
+ T SSR
N
212
214

1)

N (T
2 2

SSRb
214

Pour calculer la variance, on commence par calculer la matrice de drives secondes :


!
w
b
1)
NT
T SSRb
N (T
+ N4 SSR
SSR
6
4
6
6
ln L
24

1
1
1
1
=
b
2
b
2
NT
NT 2
>
T SSR
T SSR
N2T4
2 4
6
2 4
6
1

En prenant loppos de lesprance de cette matrice, on obtient lexpression de la


variance. Pour cela, on note que E(SSRw ) = N (T 1)2 et E(SSRb ) = N 12 :
!
1)
N
T
N (T
2
N
4
4
24
2
1
1
H() =
2
T
N
N2T4
2 4
1

Chapitre 4. Tests sur le modele a erreurs composees

63

Pour calculer la statistique, on pose lhypohse : H0 : 2 = 0 (absence deffets individuels). Dans ce cas, lestimateur est lestimateur des moindres carrs ordinaires
et lestimateur de
2 = SSRp /N T . Le score et sa variance scrivent alors :
!
0


=
g()
NT
T SSRb
2
2 1
2


NT
1 1

H() =
1 T
2
4
Dont linverse est :
1 =
H()

2
4
N T (T 1)

T
1

1
1

La statistique calcule scrit donc finalement :



BP =

NT
2
2


1

T SSRb
2

2

2
4
N T (T 1)


=

NT
2(T 1)


1

T SSRb
SSRp

2

qui suit asymptotiquement un 2 1 degr de libret.


Le problme de cette statistique est que lhypothse alternative stipule que la
variance des effets individuels est non-nulle, cest--dire quelle peut tre positive ou
ngative ; or une variance est ncessairement non ngative. Une solution propose
par Honda (1985) consiste considrer la racine carre de la statistique prcdente

et de raliser un test unilatral en utilisant une loi normale. On a donc H = BP


et la valeur critique au seuil de 5% considrer est alors de 1.64.

4.1.3

Application

Le test de F est disponible avec la fonction pFtest . Il prend comme argument deux
modles embot et ralise un test dhypothses jointes pour les effets individuels
estims dans un seul des modles. Par exemple, le test dabsence deffets individuels
peut tre ralis en utilisant le modle pooling et le modle within avec effets
individuels.
> pFtest(rice.w, rice.p)
F test for individual effects
data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
F = 1.6623, df1 = 170, df2 = 852, p-value = 2.786e-06
alternative hypothesis: significant effects

On constate sans surprise que lhypothse dabsence deffets individuels est trs
fortement rejete.
Pour tester lhypothse dabsence deffets individuels et temporels, on utilisera :

64

Economtrie des donnes de panel avec R


> pFtest(rice.wd, rice.p)

F test for twoways effects


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
F = 4.2604, df1 = 175, df2 = 847, p-value < 2.2e-16
alternative hypothesis: significant effects

Pour tester lhypothse dabsence deffets temporels, mais en supposant quil y a


des effets individuels, on compare le modle within individuel et le modle double
within :
> pFtest(rice.wd, rice.w)

F test for twoways effects


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
F = 69.7794, df1 = 5, df2 = 847, p-value < 2.2e-16
alternative hypothesis: significant effects

L encore, lhypothse est trs fortement rejete.


Le test de Breusch & Pagan (1980) est obtenu en utilisant la fonction plmtest .
Largument de cette fonction est un modle estim par les moindres carrs ordinaires, mais on peut galement fournir une formule et un tableau de donnes. Par
dfaut, la version de Honda (1985) est calcule. Le type deffets que lon souhaite
tester est comme dhabitude renseign par largument effect :
> plmtest(rice.p)

Lagrange Multiplier Test - (Honda)


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
normal = 4.8396, p-value = 1.301e-06
alternative hypothesis: significant effects

> plmtest(log(goutput)~log(seed)+log(totlabor)+log(size), Rice)

Lagrange Multiplier Test - (Honda)


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
normal = 4.8396, p-value = 1.301e-06
alternative hypothesis: significant effects

> plmtest(rice.p, effect = "time")

Chapitre 4. Tests sur le modele a erreurs composees

65

Lagrange Multiplier Test - time effects (Honda)


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
normal = 58.6822, p-value < 2.2e-16
alternative hypothesis: significant effects

> plmtest(rice.p, effect = "twoways")

Lagrange Multiplier Test - two-ways effects (Honda)


data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
normal = 44.9166, p-value < 2.2e-16
alternative hypothesis: significant effects

4.2

Modle erreurs composes vs modles coefficients variables

Le modle erreurs composes impose que tous les paramtres du modle (


lexception de lordonne lorigine) sont les mmes dun individu un autre.
Dans ce cas, on peut estimer un seul modle pour lensemble de lchantillon, avec
ventuellement des constantes spcifiques. Lalternative est de considrer que le
modle appliquer chaque individu est spcifique, cest--dire que des paramtres
spcifiques chaque individu doivent tre estims. On parle alors de modles
coefficients variables.
Dans ce cadre, le modle non-contraint consiste estimer un modle diffrent pour
chaque individu par les moindres carrs ordinaires. On obtient alors SCRnp =
>
>
e>
1 e1 + e2 e2 + . . . en en . Pour ce modle, le nombre de degrs de libert est :
N (T K 1). Le modle contraint est soit le modle des moindres carrs ordinaires
(SCRP avec N T K 1 degrs de libert), soit le modle within (SCRw avec
N (T 1) K degrs de libert), suivant que lon suppose ou non labsence deffets
indiviuels. La statistique de test scrit alors (en utilisant le modle within comme
modle non-contraint) :
SCRP SCRw N (T K 1)
SCRw
(N 1)K
Il sagit dun test de stabilit (appel souvent test de Chow) dont la distribution
est un F (N 1)K et N (T K 1) degrs de libert sous H0 .
La fonction permettant de raliser ce test est appele pooltest . La premire manire dutiliser cette fonction est de lui fournir deux modles : un modle o lestimation est ralise individu par individu et un modle soit de moindres carrs
ordinaires, soit un modle within. Dans le premier cas, sous H0 , tous les paramtres
sont supposes tre identiques, y compris les constantes. Le modle non contraint
est estim laide de la fonction pvcm (pour variable coefficients model). Cette

66

Economtrie des donnes de panel avec R

fonction permet destimer deux modles suivant la valeur du paramtre mode ;


la valeur approprie ici est "within", lautre modle ferra lobjet de la section
suivante. Pour le tableau de donnes USAirlines , on obtient :
> air.np <- pvcm(log(cost)~log(output), Air, model="within")

La fonction pvcm dispose de mthodes print et summary permettant danalyser


la dispersion des coefficients estims pour chaque individu :
> air.np
Model Formula: log(cost) ~ log(output)
<environment: 0x29a8530>
Coefficients:
(Intercept) log(output)
1
14.021
2.0498
2
14.437
1.9510
3
15.175
1.9765
4
15.788
1.6218
5
15.617
1.4235
6
15.521
1.2994
> summary(air.np)
Oneway (individual) effect No-pooling model
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "within")
Balanced Panel: n=6, T=15, N=90
Residuals:
Min.
1st Qu.
-0.384100 -0.106600
Coefficients:
(Intercept)
Min.
:14.02
1st Qu.:14.62
Median :15.35
Mean
:15.09
3rd Qu.:15.59
Max.
:15.79

Median
0.003459

Mean
0.000000

3rd Qu.
0.088070

Max.
0.334500

log(output)
Min.
:1.299
1st Qu.:1.473
Median :1.786
Mean
:1.720
3rd Qu.:1.970
Max.
:2.050

Total Sum of Squares: 9745.3


Residual Sum of Squares: 1.9738
Multiple R-Squared: 0.9998

Le test de stabilit peut alors tre ralis en passant la fonction de test air.np
et air.pooling ou air.within selon que lon souhaite ou non poser sous H0
lhypothse dabsence deffets individuels.

Chapitre 4. Tests sur le modele a erreurs composees

67

> pooltest(air.pooling, air.np)

F statistic
data: log(cost) ~ log(output)
F = 33.139, df1 = 10, df2 = 78, p-value < 2.2e-16
alternative hypothesis: unstability

> pooltest(air.within, air.np)

F statistic
data: log(cost) ~ log(output)
F = 8.3319, df1 = 5, df2 = 78, p-value = 2.388e-06
alternative hypothesis: unstability

Lhypothse de stabilit est trs fortement rejete, mme dans sa version la plus
faible (constantes spcifiques). Les mmes tests peuvent tre raliss avec une interface formula-data, en prcisant grce largument model quel modle contraint
doit tre utilis.
> pooltest(log(cost)~log(output), Air, model = "within")
> pooltest(log(cost)~log(output), Air, model = "within")

4.2.1

Modles coefficients variables

Swamy (1970) a propos un modle dans lequel tous les coefficients du modle
sont propres lindividu. On a alors :
ynt = n> xnt + nt
On ferra lhypothse que nt N (0, 2 ), autrement dit nous ne faisons pas lhypothse dhomoscdasticit dans ce modle. On supposera galement que n
N (, ), soit encore n = n N (0, ). Le modle se rcrit alors :
ynt = > xnt + nt
avec nt = nt + n> xnt . Les erreurs du modles sont donc htroscdastiques
(en particulier parce que nous navons pas impos lhomoscdasticit de ) et les
erreurs dun mme individu sont corrles car elles contiennent le mme vecteur
de paramtres n . Pour un individu n, la matrice de variance des erreurs scrit
donc :
>
> >
n = E(n >
n ) = E (n + Xn n ) n + n Xn

et tant par hypothse non corrls, on obtient :

68

Economtrie des donnes de panel avec R

2
>
n = E(n >
n ) = n IT + Xn Xn

Pour lensemble de lchantillon, = E(> ) est une matrice bloc-diagonale,


chaque bloc ayant comme expression n .
Lestimation de ce modle par les moindres carrs ordinaires est inefficace car
elle ne prend pas en compte lhtroscdasticit et la corrlation des erreurs. La
mthode des moindres carrs gnraliss consiste calculer 0.5 et estimer
le modle par la mthode des moindres carrs ordinaires en prmultipliant les
variables par 0.5 . Cette matrice tant bloc-diagonale, on peut galement calculer
n0.5 et pr-multiplier les variables pour lindividu n par n0.5 . Bien videmment
n tant inconnu, le modle des moindres carrs gnraliss nest pas oprationnel.
En revanche, on peut utiliser la mthodes des moindres carrs quasi-gnraliss
en remplaant 0.5 par une estimation base sur les rsultat dune estimation
convergente du modle. Cela revient ici estimer les N n2 et les lments de la
matrice , soit au total N + K(K + 1)/2 paramtres.
A cet effet, on commence par estimer par les moindres carrs ordinaires le modle
pour chaque individu. On obtient alors :
n = (Xn> Xn )1 Xn> yn = n + (Xn> Xn )1 Xn n
Un estimateur naturel de n2 est alors :

n2 =

T
X

e2nt /(T K 1)

Une fois ces estimations obtenues, on peut galement calculer leur moyenne :
N
1 X

n
=
N n=1

Lestimation de est base sur lexpression :

zn = n
qui scrit, en dveloppant et en regroupant les termes :

zn


PN
>
= n + (Xn> Xn )1 Xn> n N1 n=1 nP+ (Xn> Xn )1 X
n n
P
>
>
= NN1 n + NN1 (Xn> Xn )1 Xn> n N1 m6=n m N1 m6=n (Xm
Xm )1 Xm
m

Lintrt de cette dernire expression est dcrire zn comme une combinaison linaire de diffrentes variables alatoires non corrles. Le calcul de la variance de
z en est largement simplifi car les covariances sont toutes nulles. On a alors :

Chapitre 4. Tests sur le modele a erreurs composees

E(zn2 ) =

N 1
N

2


+

N 1
N

2

n2 (Xn> Xn )1 +

69

1 X 2
N 1
>
+ 2
m (Xm
Xm )1
2
N
N
m6=n

Soit finalement, en regroupant les termes :


E(zn2 ) =

N 1
N 2 2 >
1 X 2 >
+
n (Xn Xn )1 + 2
(X Xn )1
N
N
N n n n

On a alors :
E

2
n zn

=
=
E

(N 1) +
(N 1) +

N 2
N
N 1
N

1 X 2
z
N 1 n n

P 2 >
1
Pn n2 (Xn> Xn )1 +
n n (Xn Xn )

!
=+

1
N

n2 (Xn> Xn )1

1 X 2 >
(X Xn )1
N n n n

Ce qui permet dobtenir lestimateur de :


=

1 X 2
1 X 2 >
zn
(X Xn )1
N 1 n
N n n n

Le modle de Swamy (1970) est estim avec la fonction pvcm et largument model
gal "random".
> summary(pvcm(log(cost)~log(output), Air, model="random"))

Oneway (individual) effect Random coefficients model


Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "random")
Balanced Panel: n=6, T=15, N=90
Residuals:
total sum of squares : 70.46241
id
time
0.95300854 0.01073151
Estimated mean of the coefficients:
Estimate Std. Error z-value Pr(>|z|)
(Intercept) 15.03427
0.28734 52.322 < 2.2e-16 ***
log(output) 1.65227
0.12350 13.379 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Estimated variance of the coefficients:
(Intercept) log(output)

70

Economtrie des donnes de panel avec R


(Intercept)
log(output)

0.48610
-0.18913

-0.189126
0.080597

Total Sum of Squares: 9745.3


Residual Sum of Squares: 77.102
Multiple R-Squared: 0.99209

On constate que la dispersion du coefficient associ la production est trs importante. Elle correspond un cart-type de de 0.28, la valeur moyenne du coefficient
tant de 1.65.

4.3

Modle effet fixe vs modle effets alatoires

On a vu que, si les erreurs du modles ne sont pas corrles aux variables explicatives, les deux modles sont convergents. Pour comparer les deux modles,
on continuera de supposer que la composante idiosyncratique du terme derreur
(E(X > ) = 0) est non corrle avec les variables explicatives. Deux situations
peuvent alors tre distingues :
E(X > ) = 0 : les effets individuels ne sont pas non plus corrls avec les variables
explicatives ; dans ce cas, les deux modles sont convergents, mais le modle
effets alatoires est plus efficace que le modle effets fixes.
E(X > ) 6= 0 : les effets individuels sont corrls avec les variables explicatives ;
dans ce cas, le modle effet fixe est convergent car les effets individuels sont
des paramtres estims. En revanche, le modle effets alatoires nest pas
convergent car une composante des erreurs de ce modle sont les effets individuels qui sont corrls avec la variable explicative.
Afin de clarifier la relation entre les deux modles, Mundlak (1978) a considr le
modle suivant :
ynt = x>
nt + n + nt
avec
n = x
n. n + n
Autrement dit, les effets individuels sont corrls avec les variables explicatives,
plus prcisment, ils sont gaux la somme dune combinaison linaire des moyennes
individuelles de ces variables explicatives et dun terme derreur n . Le modle
estimer scrit alors, sous forme matricielle :
y = X + BX + (IN JT ) +
Le terme derreur  = (IN JT ) + a les caractristiques habituelles du modle
erreurs composes, cest--dire une esprance nulle et une variance donne par :
= 2 IN T + 2 ((IN JT ) = 2 W + 12 B

Chapitre 4. Tests sur le modele a erreurs composees

71

Le modle des moindres carrs gnraliss consiste estimer le modle sur les
donnes transformes en pr-multipliant chaque variable par 0.5 = W + 1 B
On a alors y = W y + By, X = W X + BX et (BX) = BX. Lestimateur
des moindres carrs gnraliss scrit alors :


X > W + X > B
X > B


=


=


W X + BX

X > W X + 2 X > BX
2 X > BX

2 X > BX
2 X > BX

1 

X > W + X > B
X > B

BX

1 

X > W y + 2 X > By
2 X > By

(W y+B

on utilise le rsultat suivant concernant linverse


Afin dobtenir lexpression de ,
dune matrice partitionne :


A11
A21

A12
A22

1


=

1
(A11 A12 A1
22 A21 )
1
1
(A22 A21 A11 A12 ) A21 A1
11

1
1
A1
11 A12 (A22 A21 A11 A12 )
1
1
(A22 A21 A11 A12 )

On obtient finalement :



=

(X > W X)1
(X > W X)1


=

(X > W X)1
>
(X W X)1 + 12 (X > BX)1

(X > W X)1 X > W y


>
1 >
(X BX) X By (X > W X)1 X > W y



X > W y + 2 X > By
2 X > By


=

w
b

et

V

= 2

(X > W X)1
(X > W X)1

(X > W X)1
>
(X W X)1 + 12 (X > BX)1

Le rsultat fondamental de Mundlak (1978) est donc que si on prend correctement


en compte la corrlation entre les termes derreurs et les variables explicatives,
le modle des moindres carrs gnraliss est le modle effets fixes. Il donne
galement une piste pour tester la prsence de corrlation ; en effet, labsence de
corrlation revient tester : H0 : = 0. Sous H0 , on a :

> V (
)1

qui suit un 2 K degrs de libert. Or, on a


= b w et V(
) = V(w )+V(b
Cette statistique de test est une des version du test propos par Hausman (1978).
Le principe gnral de ce test consiste comparer deux modles A et B avec,

72

Economtrie des donnes de panel avec R

sous H0 : A et B sont convergents, mais B est plus efficace que A,


sous H1 : seul A est convergent.
Lide du test est que, si H0 est vraie, les coefficients estims dans les deux modles
seront proches. Dans le cas inverse, on sattend des diffrences importantes. Le
test est donc bas sur A b et Hausman a montr que, sous H0 , la variance de
cette diffrence est simplement gale : V(A b ) = V(A ) V(b ).
La version la plus commune de ce test est bas sur la comparaison des modles
within et du modle de moindres carrs gnraliss. La diffrence entre les deux
scrit : q = w g . Sous lhypothse dabsence de corrlation entre les variables
explicatives et le terme derreur, on a plim q = 0. La variance de q scrit :
V(
q ) = V(w ) + V(g ) 2cov(w , g )
Pour dterminer ces variances et ces covariances, on crit les deux estimateurs
en fonction des erreurs : g = (X > 1 X)1 X1  et w = (X > W X)1 XW .
On a alors V(g ) = (X > 1 X)1 , V(w ) = 2 (X > W X)1 et cov(w , g ) =
(X > 1 X)1 . La variance de q scrit donc simplement :
V(
q ) = 2 (X > W X)1 (X > 1 X)1
et la statistique de test est simplement :
q> V(
q )
q
qui, sous H0 , suit un 2 K degrs de libert.
Le test dhausman est ralis avec la fonction phtest , qui prend pour argument
deux modles.
> phtest(air.within, air.random)
Hausman Test
data: log(cost) ~ log(output)
chisq = 596.4829, df = 1, p-value < 2.2e-16
alternative hypothesis: one model is inconsistent
> phtest(rice.w, rice.r)
Hausman Test
data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
chisq = 3.775, df = 3, p-value = 0.2868
alternative hypothesis: one model is inconsistent

On constate que lhypothse de non corrlation des variables explicatives avec leffet individuel est trs fortement rejete dans le cas des donnes sur les compagnies
ariennes, alors quelle ne lest pas avec les donnes sur les fermes de riz. Ce rsultat tait prsivible puisque les rsultats des modles effets fixes et effets
alatoires taient trs diffrents dans le premier cas et trs proches dans le second.

Chapitre 5

Autocorrlation et
htroscdasticit

74

Economtrie des donnes de panel avec R

Chapitre 6

Endognit
6.1

Introduction

On parle dendognit lorsque lerreur du modle est corrle avec (au moins) une
variable explicative. Ce phnomne est particulirement courant en conomtrie,
dans la mesure o, contrairement aux chercheurs en sciences exprimentales, lconomtre na pas la possibilit de contrler le processus gnrateur de donnes. Les
causes possibles dendognit sont multiples, on citera simplement pour mmoire
les trois principales :
la simultanit . Lquation dintrt comporte une variable explicative qui est
dtermine simultanment avec la variable explique : cest le cas par exemple
de lestimation dune quation de demande pour un bien, qui contient le prix
de ce bien. La quantit demande et le prix sont simultanment dtermins
par lgalisation de loffre et de la demande et, par consquent, une variation
du terme derreur de lquation de demande se traduira par un dplacement
de la courbe de demande et donc par une variation de la quantit et du prix
dquilibre.
lerreur de mesure sur une variable explicative . Si le vrai modle est y =
+ x + et que lon observe x = x + , le modle estim scrit alors :
y = + (x ) + , soit encore y = + x +  avec  = et  est
corrl avec x.
les variables explicatives omises . Si le vrai modle est y = + x x + z z +
et que la variable z nest pas observe, le modle estim est y = 0 + x x + ,
avec  = z z + . Lerreur du modle estim contient alors linfluence de la
variable omise et cette erreur est alors corrle x si x et z sont corrls.
Lestimateur du modle linaire simple y = X +  scrit :
= X > X

1

X >y

76

Economtrie des donnes de panel avec R

En remplaant y par son expression, on obtient en fonction des erreurs du


modle :
1 >
= + X > X
X 
On a alors, en notant n la taille de lchantillon :
= +

1 >
X X
n

1

X >
n
>

On a alors un estimateur convergent plim = si limn+ Xn  = 0, cette


expression tant le vecteur de covariances pour la population entre les variables
explicatives et lerreur. La convergence du modle linaire simple ncessite donc
labsence de corrlation entre les variables explicatives et lerreur. Dans le cas o
cette condition nest pas vrifie, on recours la mthode des variables instrumentales qui sera dveloppe en dtail dans ce chaptre.
Le cas de la simultanit pose un problme supplmentaire car le modle est dfini
non pas par une quation, mais par un systme dquation. Dans ce cas, deux
stratgies sont possibles :
estimer uniquement lquation dintrt (on parle de modle information limite),
estimer simultanment lensemble des quations du modle (on parle alors de
modle information complte).
Cette dernire situation prsente lavantage dtre a priori plus efficace, car elle
permet de prendre en compte la corrlation entre les erreurs des diffrentes quations. En revanche, si une quation est mal spcifie, ce problme de mauvaise
spcification peut se diffuser au niveau de lestimation des paramtres des autres
quations du modle.

6.2

Estimation dune quation isole

Nous considrons dans un premier temps lestimation dune seule quation du


systme. Comme dans le cas du modle erreur compose classique, on peut distinguer les variations intra et inter-individuelles et estimer alors respectivement
un modle within et un modle between. On peut galement combiner au mieux
ces deux sources de variation en utilisant un estimateur des moindres carrs gnraliss.
Gnralits sur lestimateur des variables instrumentales
Variables instrumentales et doubles moindres carrs On considre le modle suivant : y = X +  avec V () = 2 I. Si au moins une des variables explicatives est corrle avec les erreurs, lestimateur ols nest pas convergent. Afin
dobtenir un estimateur convergent, on utilise la mthode des variables instrumentales. Les variables instrumentales sont notes Z. On notera K le nombre de

Chapitre 6. Endogneite

77

variables explicatives et L K le nombre dinstruments. Les variables instru>


mentales doivent vrifier : limn+ Zn  = 0, autrement dit, elles ne doivent pas
prsenter de corrlation avec les erreurs 1 . Dans le cas le plus simple o le nombre
de colonnes de X et de Z est le mme, lestimateur des variables instrumentales
est simplement obtenu en rsolvant le systme dquations : Z > e = 0 qui est juste
identifi. En dveloppant, on obtient Z > (y X) = 0, soit encore :
= Z > X

1

Z >y

(6.1)

Sil y a plus dinstruments que de variables explicatives (L > K), Z > e ne peut pas
tre un vecteur de 0. Dans ce cas-l, deux approches permettent de dterminer
lestimateur optimal. La premire consiste pr-multiplier le modle par Z > .
Z > y = Z > X + Z > 

(6.2)

Il sagit dun modle contenant L lignes et K paramtres estimer . Si on le


considre
 comme un modle de rgression classique, la variance de lerreur tant
V Z >  = 2 Z > Z, le meilleur estimateur linaire est celui des moindres carrs
gnraliss (gls) et on obtient alors lestimateur des variables instrumentales :
iv

=
=

1 > 1  >
1 > 
X >Z Z >Z
Z X
X Z Z >Z
Z y
1

>
>
X PZ X
X PZ y

(6.3)

1 >
avec PZ = Z Z > Z
Z .
La seconde approche est celledes moments gnraliss.
On considre en effet un

vecteur de L moments E Z >  = E Z > (y X) , dont la variance est V(Z > ) =
2 Z > Z. Dans le cadre de la mthode des moments gnraliss, on minimise la
forme quadratique du vecteur de moments en utilisant linverse de la matrice de
variance de ces moments :
1
1
1 >
(y > X > )Z Z > Z
Z(y X) = 2 (y > > X > )PZ (y X)
2

Les conditions de premier ordre pour un minimum scrivent : 2X > PZ (yX) =


0 et en rsolvant ce sytme dquations linaires, on obtient le mme estimateur
que prcdemment.
Cet estimateur est galement appel lestimateur des doubles moindres carrs (twostage least squares ou 2sls) car il peut tre obtenu en appliquant deux fois la
mthode des moindres carrs. Lorsque lon considre la rgression dune variable
1 >
v en fonction de Z, on obtient un estimateur = Z > Z
Z v et des valeurs
1 >
>

Z v = PZ v. La matrice PZ est donc la maprdites vZ = Z = Z Z Z


trice de projection dans le sous-espace dfini par les colonnes de Z. Cette matrice
1. En gnral, certaines variables explicatives ne sont pas corrles avec les erreurs du modle
et seront donc galement utilises comme instrument.

78

Economtrie des donnes de panel avec R

est symtrique et idempotente, cest--dire que PZ PZ = PZ . Lestimateur des va Z = PZ X


riables instrumentales (6.3) peut donc galement scrire, en notant X
les valeurs prdites des diffrentes variables explicatives en fonction des diffrentes
variables instrumentales :

1

1
z> X
Z
Z> y = X
Z> X
Z
Z> yZ
2sls = X
X
X

(6.4)

et peut donc tre obtenu en appliquant les moindres carrs ordinaires deux fois :
la premire fois en rgressant chaque variable explicative par rapport aux instruments,
la seconde fois en rgressant la variable explique par rapport aux valeurs prdites de la premire estimation.
La variance de lestimateur des variables instrumentales est :
 

1
>X
z
V = 2 X
z
On voit alors que lestimateur sera dautant plus efficace que la corrlation entre
X et Z est importante.
Estimateur des variables instumentales gnralis Dans le cas o les erreurs ne sont pas indpendament et identiquement distribues, la variance de 
est note de manire gnrale et celle des erreurs du modle (6.2) est gale
Z > Z. Lestimateur des variables instrumentales gnralise est alors obtenu, soit
en appliquant les gls au modle (6.2), soit en utilisant la mthode des moments
gnraliss en minimisant :
1
1 >
(y > X > )Z Z > Z
Z(y X)
2
Dans les deux cas, lestimateur scrit :

1 > 1  >
1 > 
g2sls = X > Z Z > Z
Z X
X Z Z > Z
Z y

(6.5)

La formule prcdente fait apparatre des matrices carrs de dimensions gales la


taille de lchantillon. Elle peut donc savrer inapplicable pour de gros chantillons
et en tout cas elle est numriquement inefficace. Cet estimateur sera de prfrence
calcul en utilisant la dcomposition de Cholesky de , cest--dire en calculant
la matrice diagonale suprieure L qui vrifie LL> = I soit encore L> LL> L =
L> L et donc L> L = 1
Lestimateur des variables instrumentales gnralises peut tre obtenu en appliquant lestimateur des variables instrumentales sur le modle Ly = LX + L en
1
utilisant comme instruments Z = L>
Z. La matrice de projection dfinie par
ces instruments est alors :

1


1 >
1
1 > > 1
Z Z > L>
L
Z
Z > L>
PZ = L>

Chapitre 6. Endogneite
Or :


L>

1 >

L>

1

On a donc :
PZ = L>

1

Z Z > Z

1

79

Z>

L>

1 >

En utilisant cette matrice de projection dans la formule de lestimateur des variables instrumentales (6.3), on obtient :

1
1
1 >  > 1 >
=
X > L> L>
Z Z > Z
Z
L
LX


(6.6)
1
1 >  > 1 >

X > L> L>


Z Z > Z
Z
L
Ly
soit finalement :

1 > 1  >
1 > 
= X > Z Z > Z
Z X
X Z Z > Z
Z y
qui correspond bien la formule (6.5) de lestimateur des variables instrumentales
gnralises. En pratique, comme dans le cas du modle des moindres carrs gnraliss, est inconnu et donc tre estim, en utilisant les rsultats dune estimation
prliminaire convergente.
Estimateur des variables instrumentales efficace Un estimateur plus gnral est obtenu en pr-multipliant le modle par (U Z)> , U tant une matrice de
transformation de dimension n n :
Z > U > y = Z > U > X + Z > U > 

(6.7)

La variance des erreurs de ce modle est alors : Z > U > U Z et lestimateur obtenu :

1 > > 1 >
1 > >
= X > U Z Z > U > U Z
Z U X
X U Z Z > U > U Z
Z U y
En choisissant U = 1 , on obtient lestimateur des variables instrumentales efficace :

1 > 1 1 > 1
1 > 1
e2sls = X > 1 Z Z > 1 Z
Z X
X Z Z > 1 Z
Z y
(6.8)
Lestimateur des variables instrumentales gnralises peut tre obtenu en appliquant lestimateur des variables instrumentales sur le modle Ly = LX + L en
utilisant comme instruments LZ, autrement dit en appliquant la mme transformation aux diffrents lments du modle (variable explique, variables explicatives
et instruments) 2 .
2. Cet estimateur est prsent en dtail par White (1986).

80

Economtrie des donnes de panel avec R

6.2.1

Les modles within et between

La variation au sein de lchantillon pouvant se dcomposer en une variation inter


et intra-individuelle, il est naturel de commencer par prsenter les estimateurs qui
ne prennent en compte quune seule de ces deux sources de variation, cest--dire
les estimateurs des variables instrumentales between et within. Pour lestimateur
within, chaque variable du modle est mesure en cart par rapport la moyenne,
cest dire prmultiplie par W . On a donc W y = W X +W  avec W Z la matrice
dinstruments. En prmultipliant le modle par (W Z)> , on obtient :
Z > W y = Z > W X + Z > W 

(6.9)

Lestimateur des variables instrumentales within est obtenu en appliquant les


moindres carrs gnraliss cette quation, la variance des erreurs de ce modle tant 2 Z > W Z :

1 

1 >
1 >
w2sls = X > W Z Z > W Z
Z WX
X >W Z Z >W Z
Z Wy
Soit encore :
w2sls = X > W PZW W X

1


1

X > W PZW W y = X > PZW X
X > PZW y (6.10)

1 >
Z W . La dernire galit est obtenue en notant que
avec PZW = W Z Z > W Z
W est idempotente.
Un raisonnement similaire peut tre men pour le modle between. On considre la
transformation between du modle By = BX + B, avec la mme transformation
applique aux instruments (BZ). Lestimateur des variables instrumentales est
obtenue en pr-multipliant le modle par BZ :
Z > By = Z > BX + Z > B

(6.11)

et en appliquant ce modle lestimateur des moindres carrs gnraliss :



1 
1 >
1 > 
b2sls = X > BZ Z > BZ
Z BX
X > BZ Z > BZ
Z By
Soit encore :
b2sls = X > PZB X

1

X > PZB y

(6.12)

Le modle w2sls est convergent, mme si les effets individuels sont corrls avec
les variables explicatives. En revanche, le modle b2sls ne lest quen labsence de
corrlation. Si cette dernire hypothse est vrifie, aucun des deux nest efficace
car chacun ne prend en compte quune source de la variabilit.
Exemple 6.1
Cohen & Einav (2003) se sont intresss linfluence du port de la ceinture de
scurit sur le nombre de morts sur les routes aux Etats-Unis, en distinguant les

Chapitre 6. Endogneite

81

occupants des vhicules concerns par les accidents (environ 35000 morts par an) et
les non-occupants (environ 5000 morts par an). Ils utilisent des donnes de panel
pour les 50 Etats amricains pour la priode 1983-1997. La principale variable
explative est le taux dutilisation de la ceinture de scurit. Deux questions font
principalement lobjet de leur attention :
la premire concerne le test de la thorie de la compensation du comportement
dveloppe par Peltzman (1975). Daprs cette thorie, le port de la ceinture
met le conducteur plus en confiance et lamne adoter une conduite moins
prudente. Si leffet du port de la ceinture sur la mortalit des conducteurs en
cas daccident est naturellement ngatif, leffet global sur la mortalit peut tre
insignifiant, voir positif. En particulier, il est possible que le dveloppement du
port de la ceinture de scurit augmente la mortalit des non-occupants.
la seconde concerne la question de lendognit : si les conditions de conduite se
dgradent, par exemple pour des raisons mtorologiques, toutes choses gales
par ailleurs, la mortalit sur les routes va augmenter, mais lusage de la ceinture
de scurit va galement augmenter car les automobilistes peroivent laggravation du risque daccident. On a donc une corrlation entre le terme derreur de
lquation de mortalit et la variable explicative qui mesure le taux dusage de
la ceinture de scurit. Dans ce cas, la non prise en compte de lendognit se
traduira par un biais vers le bas de lestimation du coefficient associ lusage
de la ceinture de scurit.
Cohen & Einav (2003) proposent trois types destimation. La premire est une
estimation par les moindres carrs ordinaires qui ne prend donc nullement en
compte le problme dendognit. La seconde est une estimation du modle effets fixes ; dans le cadre de celle-ci, le problme dendognit entre la composante
individuelle du terme derreur et la variable explicative est pris en compte car la
transformation within limine leffet individuel. En revanche, subsiste le problme
de la corrlation entre la composante idiosyncratique du terme derreur et la variable explicative. Ce dernier problme est rsolu en estimant un modle w2sls.
Les instruments utiliss sont des variables de lois concernant la ceinture, qui sont
corrles avec lusage de la ceinture de scurit, mais pas avec le terme derreur. De
nombreuses variables de contrle sont galement introduites (voir la page daide
des donnes pour plus de prcision).
Lestimation dun modle avec variables instrumentales est ralise laide de la
fonction plm . Les variables instrumentales sont spcifies laide dune formule en
deux parties, disponible grce la librairie Formula (Zeileis & Croissant, 2010)).
La premire partie indique la liste des variables explicatives du modle alors que
la seconde indique la liste des variables instrumentales. Trs souvent, une partie
importante des variables explicatives sont utilises comme instrument. Afin dviter de rpter quasimment deux fois la mme liste de variables, il est possible
dutiliser une syntaxe diffrentielle en utilisant le signe .. Par exemple, si les variables explicatives sont x1, x2 et x3, que seule x2 est endogne et quil existe un
seul instrument extrieur z, la description du modle peut tre ralise de manire
quivalente laide des deux formules ci-dessous :

82

Economtrie des donnes de panel avec R


> y ~ x1 + x2 + x3 | x1 + x3 + z
> y ~ x1 + x2 + x3 | . - x2 + z

Cohen & Einav (2003) estiment successivement trois modles. Le premier est un
modle avec des effets fixes temporels (qualifi par les auteurs de modle mco
car il ny a pas de prise en compte des effets individuels), le second est un modle doubles effets fixes individuels et temporels et le dernier est un modle
doubles effets fixes avec des variables instrumentales afin de prendre en compte
lendognit du port de la ceinture de scurit.
>
>
>
+
+
+
+
+
>
>
>
+
+

data("SeatBelt", package = "pder")


SeatBelt$occfat <- with(SeatBelt, log(farsocc / (vmtrural + vmturban)))
ols <- plm(occfat ~ log(usage) + log(percapin) + log(unemp) + log(meanage) +
log(precentb) + log(precenth)+ log(densrur) +
log(densurb) + log(viopcap) + log(proppcap)+
log(vmtrural) + log(vmturban) + log(fueltax) +
lim65 + lim70p + mlda21 + bac08, SeatBelt,
effect = "time")
fe <- update(ols, effect = "twoways")
ivfe <- update(fe, . ~ . | . - log(usage) + ds + dp +dsp)
rbind(ols = coef(summary(ols))[1,],
fe = coef(summary(fe))[1, ],
w2sls = coef(summary(ivfe))[1, ])

Estimate Std. Error


t-value
Pr(>|t|)
ols
0.11404316 0.02546722 4.478037 9.252148e-06
fe
-0.05349783 0.02251563 -2.376031 1.789646e-02
w2sls -0.13335261 0.04482326 -2.975076 3.078717e-03

Les rsultats attestent que le problme dendognit est trs important. Pour le
premier modle estim, on a un coefficient associ lutilisation de la ceinture de
scurit qui est positif et significatif. Il devient ngatif et significatif pour le modle
effets fixes, ce qui indique que la variable usage prsente une corrlation positive
importante avec les effets individuels. Enfin, ce coefficient augmente de manire
importante (en valeur absolue) si on utilise des variables instrumentales, ce qui
indique que la composante idiosincratique des erreurs est galement corrle avec
usage.
Pour tester lhypothse de la thorie de la compensation du comportement, les
auteurs estiment les mmes modles avec cette fois la mortalit des non-occupants
comme variable explicative. Si cette thorie est vraie, le dveloppement du port
de la ceinture devrait accrotre les comportements de conduite risque et donc
contribuer accrotre la mortalit des non-occupants.
> SeatBelt$noccfat <- with(SeatBelt, log(farsnocc / (vmtrural + vmturban)))
> nivfe <- update(ivfe, noccfat ~ . | .)
> coef(summary(nivfe))[1, ]
Estimate
-0.04237248

Std. Error
t-value
0.10311901 -0.41090855

Pr(>|t|)
0.68132529

Les rsultats indiquent que le port de la ceinture na pas dinfluence sur la mortalit
des non-occupant, en contradiction avec la thorie de Peltzman (1975).

Chapitre 6. Endogneite

6.2.2

83

Estimateurs combinant les variations intra et interindividuelles

Si les effets individuels sont non-corrls avec les variables explicatives, les estimateurs within et between sont convergents mais inefficaces. Pour obtenir un
estimateur efficace, il faut combiner les deux sources de variations, ce qui peut
tre ralis en empilant les deux modles et en appliquant les moindres carrs gnraliss (estimateur error component two stage least squares ec2sls de Baltagi
(1981)) ou en appliquant les moindres carrs gnraliss sur le modle transform
en quasi-diffrences (estimateur generalized two stage least squares g2sls de
Balestra & Varadharajan-Krishnakumar (1987)).
Lestimateur des doubles moindres carrs erreur compose
Baltagi (1981) part des quations (6.9) et (6.11) qui permettent dobtenir respectivement les estimateurs within et between. Il empile ces deux quations,
 >
  >

 >

Z Wy
Z WX
Z W
=

+
Z > By
Z > BX
Z > B
ce qui a un sens, car le vecteur de paramtres estimer est le mme dans les
deux quations. Afin dappliquer les gls, on calcule la variance des erreurs du
modle empil :

V

Z >W 
Z > B


=E

Z > W > W Z
Z > B> W Z

Z > W > BZ
Z > B> BZ


=

Z >W Z
0

0
1
>
2 Z BZ

avec 2 = T 2 +
2 . On applique ensuite la formule de lestimateur des moindres

carrs gnraliss :

"
=

>

>

X WZ
X >W Z

X BZ
X > BZ

Z >W Z
0

Z >W Z
0

1 

Z >W X
1
>
Z
BZ
Z > BX
2

1  >
0
Z Wy
1
>
Z > By
2 Z BZ
0

#1

i1
1 >
Z > W X + 2 X > BZ Z > BZ
Z BX
h
1 >
1 > i
X >W Z Z >W Z
Z W y + 2 X > BZ Z > BZ
Z By
h

X >W Z Z >W Z

1

On obtient finalement :

1  > W

X PZ y + 2 X > PZB y
ec2sls = X > PZW X + 2 X > PZB X

(6.13)

84

Economtrie des donnes de panel avec R

On vrifie aisment, comme dans le modle erreur compose simple, que lestimateur ec2sls est une moyenne pondre des estimateurs within et between :
e2sls = DW w2sls + DB b2sls , avec :

1 > W
DW = X > PZW X + 2 X > PZB X
X PZ X

1 > B
DB = 2 X > PZW X + 2 X > PZB X
X PZ X
Lestimateur des doubles moindres carrs gnraliss
Cet estimateur, appel g2sls (pour generalised two stages least squares) a t
propos par Balestra & Varadharajan-Krishnakumar (1987). On part du modle
erreurs composes classique : y = X + , avec :

V() = = T 2 + 2 B + 2 W
Lestimateur propos est un estimateur des variables instrumentales efficaces obtenu en pr-multipiant toutes les variables du modle et les instruments par 0.5
ou plus simplement par 0.5
0.5 = W + q

B = W + B

T 2 +

xnt = (xnt x
n. ) +
xn. = xnt (1 )xn.
On considre alors le modle pr-multipli par 0.5 :
y = X + 
pour lequel les erreurs sont identiquement distribues. On applique ce modle la
mthode des variables instrumentales, on note A la matrice dinstruments et PA
le sous-espace de projection des colonnes de A. Lestimateur obtenu scrit :
= X > PA X

1

X > PA y

(6.14)

White (1986) a montr que dans ce contexte, il est efficace dappliquer aux instruments la mme transformation quaux autres lments du modle. On a alors
A = 0.5 Z = W Z + BZ = Z
Lestimateur propos par (Baltagi, 1981) est galement un estimateur de la mme
famille, mais avec un choix dinstruments diffrents : A = (BX, W X) (Cornwell
et al., 1992). En effet, en introduisant PA = PZB + PZW dans (6.14), on obtient 3 :
3. Voir aussi Baltagi & Li (1992) et Baltagi & Liu (2009).

Chapitre 6. Endogneite

85

h
i1

>
(W X + BX) PZW + PZB (W X + BX)

>
(W X + BX) PZW + PZB (W y + By)

= X > PZW X + 2 X > PZB X

>

X > PZW y + 2 X > PZB y

Lavantage de la formulation de Baltagi (1981) est que la liste des instruments within et celle des instruments between peut tre diffrente. On peut alors considrer
trois types de variables (Cornwell et al., 1992) :
les variables endognes sont corrles avec les deux composantes du terme derreur,
les variables simplement exognes sont corrles avec les effets individuels, mais
pas avec la composante idiosyncratique du terme derreur,
les variables doublement exognes ne sont corrles ni avec les effets individuels,
ni avec la composante idiosyncratique du terme derreur.
Dans le cadre dune estimation avec variables instrumentales, les variables doublement exognes peuvent tre utilises deux fois, une fois en utilisant leur transformation between et une fois en utilisant leur transformation within, comme le
suggre Baltagi (1981). Les variables simplement exognes en revanche ne peuvent
tre introduites comme instrument quavec leur transformation within.
Exemple 6.2
Kinal & Lahiri (1993) se sont intresss aux dterminants du commerce international pour les pays en dveloppement et en particulier la mesure des lasticits
prix et revenu du commerce international pour les pays en dveloppement. Ce sujet est particulirement important car il conditionne en grande partie la croissance
et lvolution de lendettement de ces pays. Le panel utilis contient 31 pays en
dveloppement, pour la priode 1964-1986. Ces donnes sont disponibles dans la
librairie pder sous le nom ForeignTrade.
Plus prcisment, ils estiment trois quations : la premire dfinit la demande
dimportations, la deuxime la demande dexportations et la troisime loffre dexportations. Plus prcisment, les auteurs supposent que :
la demande dimportations imports augmente avec le revenu domestique gnp,
diminue avec le prix des importations en devises locales rapporte au prix domestiques pmcpi et augmente avec le ratio des rserves sur les importations
resimp retard dune priode,
la demande pour les exportations exports augmente avec le revenu du reste du
monde gnpw et diminue avec le prix relatif des exportations et de leurs substituts
trangers pxpw,
loffre dexportations exports augmente avec le prix mondial exprim en devise
domestique rapport lindice des prix la consommation pwpci, avec le revenu
domestique potentiel pgnp (utilis comme proxy du stock de capital) et dpend
galement positivement dune variable qui reprsente le rle des importations

86

Economtrie des donnes de panel avec R

dans loffre dexportation importspmpx (mesure par les importations en devises


du pays divis par le prix des exportations) 4 .
Toutes les variables sont exprimes en logarithmes et, les pays prsents dans le
panel tant de tailles trs diverses, par tte, de manire limiter les problmes
dhtroscdasticit.
Afin de prendre en compte la dynamique de lajustement, un retard de la variable
explique est introduit comme variable explicative dans chaque quation.
Les variables gnp, exports, imports et leur retard (et donc resimp et importspmpx)
sont considres comme endognes, ainsi que le prix des exportations qui rend endogne pxpw et lindice des prix la consomation domestique qui rend endogne
pmcpi et pwcpi. Parmi lensemble des variables explicatives, seules gnpw et pgnp
sont considres comme exognes et peuvent donc tre utilises comme instruments. De nombreuses autres variables sont utilises comme instruments : le trend
linaire trend, la population pop, le taux de change exrate, la consommation
consump, le revenu disponible income, les rserves reserves, loffre de monaie
money, lindice des prix la consommation cpi, le prix des importations pm, le
prix des exportations px, le prix mondial pw, la plupart du temps avec un dcalage
dune priode.
Kinal & Lahiri (1993) sinscrivent dans le prolongement dun article de Khan &
Knight (1988) qui ont estim un systme dquation expliquant les dterminants
du commerce international pour les pays en dveloppement en utilisant la transformation within. Ils indiquent leur prfrence pour un estimateur plus efficace qui
prend en compte la variation inter-individuelle et retiennent lestimateur ec2sls.
Cependant, la convergence de cet estimateur nest assure que si les instruments
ne sont pas corrls avec les effets individuels. La stratgie quils adoptent consiste
dans un premier temps estimer la mme quation en utilisant lestimateur within
et lestimateur erreurs composes et raliser un test dHausman afin de pouvoir
tester lhypothse dexognit des instruments.
Nous prsentons ci-dessous les rsultats obtenus concernant la demande dimportations. Le modle within et des mcg sont successivement estims. Concernant le
modle des mcg, largument inst.method est fix "baltagi", de manire introduire les instruments en moyennes individuelles et en cart par rapport cette
moyenne. Lautre possibilit (qui constitue la valeur par dfaut) est "bvk" pour
Balestra & Varadharajan-Krishnakumar (1987). Largument random.method st
fix "kinla" pour pouvoir reproduire les rsultats de Kinal & Lahiri (1993).
Ceux-ci utilisent en effet une technique destimation des variances des composantes du terme derreur non standard ; similaires celle de Nerlove (1971), mais
avec une correction du nombre de degrs de libert.
> data("ForeignTrade", package = "pder")
> w1 <- plm(imports~pmcpi + gnp + lag(imports) + lag(resimp)

4. Les auteurs justifient lintroduction de cette variable par le fait que, pour la plupart des
pays en dveloppement, limportation de biens intermdiaires et de biens dquipement sont trs
importants pour produire des biens lexportation.

Chapitre 6. Endogneite

87

+
lag(consump) + lag(cpi) + lag(income) + lag(gnp) + pm +
+
lag(invest) + lag(money) + gnpw + pw + lag(reserves) +
+
lag(exports) + trend + pgnp + lag(px),
+
ForeignTrade, model = "within")
> r1 <- update(w1, model = "random", random.method = "kinla",
+
inst.method = "baltagi")

Lhypothse de non-corrlation entre les instruments et les effets individuels implique que les deux modles within et mcg sont convergent, le dernier tant plus
efficace. En revanche, si cette hypothse est rejete, seul le modle within est
convergent. Afin de tester cette hypothse, les auteurs utilisent un test dHausman
(1978).
> phtest(r1, w1)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) +
chisq = 11.0059, df = 4, p-value = 0.0265
alternative hypothesis: one model is inconsistent

...

Lhypothse de non-corrlation entre les instruments et les variables effets individuels est rejete 5 . Plutt que de rejeter lestimateur mcg et de se contenter de
lestimateur within, Kinal & Lahiri (1993), suivant en cela Cornwell et al. (1992),
choisissent de diffrencier deux types dinstruments :
ceux qui ne sont pas corrls avec les effets individuels, dans ce cas, ils peuvent
tre introduits doublement avec leur transformation between et within,
ceux qui sont corrls avec les effets individuels ; pour ceux-l, seule la transformation within est utilise comme instrument.
Un tel modle est dfini laide dune formule en trois parties :
la deuxime partie indique quelles sont les instruments introduits en utilisant
les deux transformations within et between,
la troisime partie indiquant les instruments introduits seulement en utilisant la
transformation within.
Ils aboutissent finalement la spcification prsente ci-dessous :
> r1b <- plm(imports ~ pmcpi + gnp + lag(imports) + lag(resimp) |
+
lag(consump) + lag(cpi) + lag(income) + lag(px) +
+
lag(reserves) + lag(exports) | lag(gnp) + pm +
+
lag(invest) + lag(money) + gnpw + pw + trend + pgnp,
+
ForeignTrade, model="random",
+
inst.method="baltagi", random.method="kinla")
> phtest(w1, r1b)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) +
chisq = 7.372, df = 4, p-value = 0.1175
alternative hypothesis: one model is inconsistent

...

5. Cest galement le cas pour les deux autres quations doffre dexportation et de demande
dexportation.

88

Economtrie des donnes de panel avec R

On constate que dsormais, sur la base du test dHausman (1978), lhypothse de


convergence de lestimateur des mcg nest pas rejete.
Comme on le constate avec les rsultats prsents ci-dessous, les estimateurs within
et des mcg sont dsormais trs similaires :
> rbind(within = coef(w1), e2sls = coef(r1b)[-1])
pmcpi
gnp lag(imports) lag(resimp)
within -0.05873374 0.02890065
0.9512149 0.05215182
e2sls -0.05419095 0.01352559
0.9481222 0.04170158

Llasticit de court-terme de la demande dimportations est directement donne


par le coefficient associ au prix. Llasticit de long-terme est obtenue en divisant ce coefficients par le complment lunit du coefficient associ lendogne
retarde. On obtient ainsi :
> matrix(c(coef(w1)["pmcpi"],
+
coef(w1)["pmcpi"] / (1 - coef(w1)["lag(imports)"]),
+
coef(r1)["pmcpi"],
+
coef(r1)["pmcpi"] / (1 - coef(r1)["lag(imports)"]),
+
coef(r1b)["pmcpi"],
+
coef(r1b)["pmcpi"] / (1 - coef(r1b)["lag(imports)"])),
+
byrow = TRUE, nrow = 3,
+
dimnames = list(c("w1", "r1", "r1b"), c("CT", "LT")))
CT
LT
w1 -0.05873374 -1.203928
r1 -0.05521142 -1.197191
r1b -0.05419095 -1.044588

La prise en compte dune partie de la variation inter-individuelle a permis de


rduire considrablement la variance des estimateurs, comme latteste la comparaison des carts-types des coefficients :
> rbind(within = coef(summary(w1))[, 2],
+
ec2sls = coef(summary(r1b))[-1, 2])
pmcpi
gnp lag(imports) lag(resimp)
within 0.02915262 0.041235082
0.03066695 0.008257449
ec2sls 0.02179875 0.006871687
0.01281239 0.006683680

6.3
6.3.1

Estimation dun systme dquation


Lestimateur des triples moindres carrs ordinaires

Dans le cas de systmes dquations, on prend souvent en considration la corrlation entre les erreurs dquations diffrentes pour la mme observation. Dans ce
cas, le modle estimer, qui contient L quations scrit :

Chapitre 6. Endogneite

y1
y2
..
.

yL

X1
0
..
.

0
X2
..
.

...
...
..
.

0
0
..
.

...

XL

1
2
..
.

1
2
..
.

89

L

La matrice dinstruments pour le systme scrit quant elle :

Z1 0 . . . 0
0 Z2 . . . 0

..
.. . .
..
.
.
.
.
0

...

ZL

La matrice de variance des erreurs scrit :

= V() = E >

1 >
1
2 >
1
..
.

...
...
..
.

 1 >
L
 2 >
L
..
.

L >
L >
. . .  L >
1
2
L
11 I 12 I . . . 1L I
21 I 22 I . . . 2L I

..
..
.. = I
..
.
.
.
.

L1 I
avec :

1 >
2
2 >
2
..
.

L2 I

...

11
21
..
.

12
22
..
.

...
...
..
.

1L
2L
..
.

L1

L2

...

LL

(6.15)

LL I

la matrice de covariances des erreurs des diffrentes quations du systme.


Lestimateur des triples moindres carrs (3sls) est obtenu en appliquant lestimateur des variables instrumentales gnralises au systme dquation. En remplaant dans la formule de cet estimateur (6.5) la variance des erreurs donne par
(6.15), on obtient :
3sls

 1 > 1
X > Z Z > 1 I Z
Z X




1
Z >y
X > Z Z > 1 I Z

(6.16)

Dans le cas particulier o la matrice dinstruments est la mme pour toute les
quations, la formule se simplifie :
3sls = X > 1 PZ X

1

X > 1 PZ y

Le calcul pratique des triples moindres carrs est le suivant :

(6.17)

90

Economtrie des donnes de panel avec R

on estime les quations indpendemment les unes des autres en utilisant lestimateur des variables instrumentales, ce qui permet dobtenir une matrice de
rsidus e = (e1 , e2 , . . . , eL ) qui constitue une estimation convergente des erreurs
des diffrentes quations,
on estime la matrice de covariance des erreurs du systme : s = e> e/N
on calcule la dcomposition de Cholesky de cette matrice : l | lsl> = I,
on transforme les diffrents lments du modle : y = (l I)y, X = (l I)X
et Z = (l1 I)Z.
on applique la mthode des variables instrumentales sur le modle transform.
La transformation est particulirement simple ici :

y1
l11 y1 + l12 y2 + . . . l1L yL
y2 l21 y1 + l22 y2 + . . . l2L yL

y = (l I) . =

..
..

.
yL

X1
0
..
.

0
X2
..
.

...
...
..
.

0
0
..
.

...

XL

Z1
0
..
.

0
Z2
..
.

...
...
..
.

0
0
..
.

...

ZL

X = (l I)

Z = (l I)

lL1 y1 + lL2 y2 + . . . lLL yL

l11 X1
l21 X1
..
.

l12 X2
l22 X2
..
.

...
...
..
.

l1L XL
l2L XL
..
.

lL1 X1

lL2 X2

...

lLL XL

(l1 )11 Z1
(l1 )21 Z1
..
.

(l1 )12 Z2
(l1 )22 Z2
..
.

...
...
..
.

(l1 )1L ZL
(l1 )2L ZL
..
.

(l1 )L1 Z1

(l1 )L2 Z2

...

(l1 )LL ZL

Lestimateur des triples moindres carrs within et between nappelle aucun dveloppement complmentaire. Il suffit simplement dappliquer lestimateur prcdemment dcrit aux donnes transformes en cart par rapport la moyenne
individuelle (within) ou en moyenne individuelle (between).

6.3.2

Lestimateur des triples moindres carrs ordinaires


erreurs composes

Balestra & Varadharajan-Krishnakumar (1987) et Baltagi (1981) ont, en plus


de lestimateur des doubles moindres carrs, propos des estimateurs des triples
moindres carrs utilisant au mieux la variation inter et intra-individuelles des donnes de panel.
On doit dsormais considrer trois indices, lindice de lquation l = 1 . . . L sajoutant aux indices n = 1 . . . N et t = 1 . . . T habituels. Lerreur du modle erreur
compose scrit alors :
lnt = ln + lnt

Chapitre 6. Endogneite

91

En notant >
ln = (ln1 , . . . , lnT ), le vecteur derreurs pour lindividu n et lquation
l, le vecteur derreurs pour le systme dquation scrit :

>
>
>
>
>
>
>
>
> = (>
11 , 12 , . . . , 1N ), (21 , 22 , . . . , 2N ), . . . , (L1 , L2 , . . . , LN )
La variance des erreurs du modle est alors :
= V() = (IN JT ) + (IN IT )
Seule la prsence des effets individuels rend le modle spcifique par rapport
lestimateur classique des triples moindres carrs. Par rapport au modle erreurs
composes standard, les scalaires 2 et 2 sont remplacs par les deux matrices de
covariances et .

= (T + ) (IN JT ) + (IN (IT JT ))


= (T + ) B + Z
= 1 B + Z

Exemple 6.3
Kinal & Lahiri (1993) estiment le systme constitu de lquation de demande
dimportations et de celle de demande dexportations par la mthode des triples
moindres carrs. Pour raliser cette estimation avec plm , il faut indiquer comme
premier argument une liste contenant la description des diffrentes quations du
modle.
>
+
+
+
>
+
+
+
>
+
+
+
>

eqimp <- imports ~ pmcpi + gnp + lag(imports) +


lag(resimp) | lag(consump) + lag(cpi) + lag(income) +
lag(px) + lag(reserves) + lag(exports) | lag(gnp) + pm +
lag(invest) + lag(money) + gnpw + pw + trend + pgnp
eqexp <- exports ~ pxpw + gnpw + lag(exports) |
lag(gnp) + pw + lag(consump) + pm + lag(px) + lag(cpi) |
lag(money) + gnpw + pgnp + pop + lag(invest) +
lag(income) + lag(reserves) + exrate
r12 <- plm(list(import.demand = eqimp,
export.demand = eqexp),
data = ForeignTrade, index = 31, model = "random",
inst.method = "baltagi", random.method = "kinla")
summary(r12)

Oneway (individual) effect Random Effect Model


(NAs transformation)
Call:
plm.list(formula = list(import.demand = eqimp, export.demand = eqexp),
data = ForeignTrade, model = "random", random.method = "kinla",
inst.method = "baltagi", index = 31)
Balanced Panel: n=31, T=24, N=744
Effects:

92

Economtrie des donnes de panel avec R


Estimated standard deviations of the error
import.demand export.demand
id
0.061593
0.077971
idios
0.143954
0.120020
Estimated correlation matrix of the individual effects
import.demand export.demand
import.demand
1.00000
.
export.demand
0.14522
1
Estimated correlation matrix of the idiosyncratic effects
import.demand export.demand
import.demand
1.000000
.
export.demand
0.097391
1
- import.demand
Estimate Std. Error
(Intercept)
0.3994010 0.1189694
pmcpi
-0.0539358 0.0217000
gnp
0.0109534 0.0052860
lag(imports) 0.9506440 0.0118683
lag(resimp)
0.0395085 0.0063413
--Signif. codes: 0 *** 0.001 **

t-value
3.3572
-2.4855
2.0721
80.0995
6.2304

Pr(>|t|)
0.0008083
0.0130505
0.0384327
< 2.2e-16
6.123e-10

***
*
*
***
***

0.01 * 0.05 . 0.1 1

- export.demand
Estimate Std. Error t-value Pr(>|t|)
(Intercept)
0.143130
0.139472 1.0262 0.30496
pxpw
-0.061362
0.019462 -3.1530 0.00165 **
gnpw
0.114368
0.053353 2.1436 0.03224 *
lag(exports) 0.946532
0.013298 71.1772 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

demande dimportations sont proches de ceux obtenus avec le modle des doubles
moindres carrs. Le gain en termes defficacit se traduit par une lgre rduction
des carts-types, comme illustr ci-dessous.
> rbind(ec2sls = coef(summary(r1b))[-1, 2],
+
ec3sls = coef(summary(r12), "import.demand")[-1, 2])
pmcpi
gnp lag(imports) lag(resimp) (Intercept)
pxpw
ec2sls 0.02179875 0.006871687
0.01281239 0.006683680 0.02179875 0.006871687
ec3sls 0.02169995 0.005286002
0.01186829 0.006341284 0.13947240 0.019461702
gnpw lag(exports)
ec2sls 0.01281239
0.00668368
ec3sls 0.05335346
0.01329825

6.4

Estimateur dHausman-Taylor

Le modle erreurs composes amne choisir entre le modle within et le modle mcg. Lavantage du modle within est quil est convergent mme si les effets

Chapitre 6. Endogneite

93

individuels sont corrls avec les variables explicatives. Le dsavantage est que, si
certaines variables explicatives ne prsentent aucune variation intra-individuelle,
elles disparaissent de lestimation. Or, ces variables sont souvent des variables essentielles. Par exemple, dans le cadre dune estimation dune fonction de salaire,
des variables telles que le genre, le niveau dducation et lorigine ethnique sont
souvent au centre de lattention, mais le chercheur na alors que le choix entre :
un estimateur mcg qui renvoit des coefficients associs ces variables, mais qui
nest pas un estimateur convergent compte tenu de la corrlation entre les effets
individuels et les variables explicatives,
un estimateur within qui est convergent mais qui ne donne aucune information
sur linfluence de ces variables.
Si on reprend la typologie de Cornwell et al. (1992), Hausman & Taylor (1981)
considre un modle qui ne contient pas de variables endognes, cest--dire que
des variables non corrles avec la composante idiosyncratique du terme derreur.
Certaines de ces variables sont simplement exognes (donc corrles avec les effets individuels), dautre sont doublement exognes (non corrles avec les effets
individuels).
De plus, on prendra explicitement en compte le fait quun sous-ensemble de variables ne prsentent pas de variations intra-individuelles.
En croisant ces deux lments de typologie, on obtient quatre catgories de variables (Cx , Ce , Vx et Ve ) en notant C et V les variables sans / avec variation
intra-individuelle et x et e les variables doublement / simplement exognes.
Lide est de construire un estimateur de variables instrumentales sans avoir recours des instruments extrieurs au modle, souvent difficiles trouver. Pour
chaque type de variable, on dcompte le nombre dinstruments :
les variables Vx , au nombre de Kvx , fournissent chacune deux instruments (within et between),
les variables Ve , au nombre de Kve fournissent chacune un instrument (within),
les variables Cx au nombre deKcx fournissent chacune un instrument,
les variables Ce au nombre de Kce ne fournissent aucun instrument.
On a donc L = 2Kvx + Kve + Kcx instruments et K = Kvx + Kve + Kcx + Kce
variables explicatives. Par consquent, le modle est identifi (L K) si Kvx
Kce .
Si cette condition est vrifie, lestimateur propos par Hausman & Taylor (1981)
est un estimateur des mcg qui utilise (W Vx , BVx , W Ve , Cx ) comme instruments.
Pour raliser cette estimation, il faut au pralable estimer les variances des composantes du terme derreur. A cet effet, il faut disposer dune estimation convergente
des rsidus et le choix naturel est celui de lestimateur within. Cet estimateur (w )
est obtenu en rgressant W y en fonction de (W Vx , W Ve ). Cette estimation est
convergente car toutes les variables sont supposes non corrles avec les effets
individuels. De cette estimation within, on rcupre les rsidus w qui permet de
calculer lestimateur de 2 utilis par Amemiya (1971) et Swamy & Arora (1972),
cest--dire :

2 = >
w /(O N K)
wW 

94

Economtrie des donnes de panel avec R

On extrait galement de cette estimation les effets indivuels n . On doit purger de


ces effets individuels linfluence des variables sans variation intra-individuelle. A
cet effet, on rgresse n en fonction des variables sans variation intra-individuelle
(Cx , Ce ). Les variables Ce tant corrles avec les effets individuels, on doit trouver
au moins Kce instruments, et ceux-l sont fournis par les variables Vx , au nombre
de Kvx . On obtient alors le vecteur des coefficients estims associs (Cx , Ce ).
On obtient alors des rsidus :
 = y (Vx , Ve )w (Cx , Ce )

(6.18)

partir desquel on obtient lestimateur de 2 :

2 = > B
/N

(6.19)

Voir aussi Breusch et al. (1989) et Amemiya & MaCurdy (1986).


Exemple 6.4
Egger & Pfaffermayr (2004) se sont intress aux dterminants au commerce bilatral de deux pays, lAllemagne et les Etats-Unis avec leurs partenaires commerciaux.
Les exportations sont ici observes au niveau dune combinaison pays-secteur qui
constitue ici l individu. La variable explique est lrex, le log des exportations
bilatrales relles. Les variables explicatives sont : ldist, le log de la distance entre
les deux pays, les dotations relatives des deux pays en travail (lrl), en capital (lrk)
et en capital humain (lrh), une variable mesurant la similitude entre les deux pays
(lsimi) et deux variables dinteraction : lkldist est linteraction entre ldist et lrk-lrl
et lkgdt celle entre lrk en valeurs absolues et lgdt.
Comme les auteurs, nous commenons par estimer le modle within pour les donnes concernnt les Etats-Unis. Ce modle est valable mme sil existe des corrlations entre les variables explicatives et la composante individuelle du terme
derreur, le problme est quil ne permet pas destimer de coefficients associs
aux variables propres lindividu, ici la distance. Les rsultats sont prsents cidessous :
> data("TradeFDI", package="pder")

> TradeUS <- subset(TradeFDI, country == "us")


> wm <- plm(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+
lrh + lrl + factor(year), TradeUS, model = "within")

series country is constant and has been removed

> coef(summary(wm))[1:7, ]

Chapitre 6. Endogneite

95

Estimate Std. Error


t-value
Pr(>|t|)
lkldist -0.101909178 0.357257542 -0.2852541 7.754740e-01
lgdt
3.401276395 0.446679551 7.6145783 3.773733e-14
lkgdt
-0.002224905 0.006289922 -0.3537253 7.235757e-01
lsimi
1.185650961 0.283767050 4.1782545 3.042234e-05
lrk
1.169721273 3.112589518 0.3758033 7.070963e-01
lrh
0.173182814 0.082666204 2.0949651 3.627828e-02
lrl
-0.465181905 3.083511888 -0.1508611 8.800979e-01

Pour les auteurs, leffet individuel, indiquant une propension commercer avec un
pays donn pour des raisons de proximits gographique et culturelle est vraisemblablement corrl avec la distance. Cette variable, la seule sans variation temporelle, est donc corrle avec leffet individuel. Au niveau des variables qui varient au
cours du temps, les trois variables qui mesurent les dotations relatives en facteur
et lindice de similitude sont considres comme doublement exognes, alors que
les autres sont supposes tre corrles avec la composante individuelle du terme
derreur.
> ht <- pht(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+
lrh + lrl + factor(year) | lsimi + lrk + lrh +lrl +
+
factor(year), TradeUS, model= "ht")

series country is constant and has been removed


series country is constant and has been removed

> print(summary(ht), subset = 1:9)

Oneway (individual) effect Hausman-Taylor Model


Call:
pht(formula = lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi +
lrk + lrh + lrl + factor(year) | lsimi + lrk + lrh + lrl +
factor(year), data = TradeUS, model = "ht")
T.V.
T.V.
T.I.
T.I.

exo
endo
exo
endo

: lsimi, lrk, lrh, lrl, factor(year)


: lkldist, lgdt, lkgdt
:
: ldist

Unbalanced Panel: n=341, T=3-11, N=2767


Effects:
var std.dev share
idiosyncratic 0.1790 0.4231 0.049
individual
3.5074 1.8728 0.951
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.8707 0.9204 0.9287 0.9223 0.9320
Residuals :
Min. 1st Qu.

Median

Mean

Max.
0.9320

3rd Qu.

Max.

96

Economtrie des donnes de panel avec R


-2.34000 -0.24500

0.03040

0.00016

0.26400

1.48000

Coefficients :
Estimate Std. Error t-value
(Intercept) -60.1815522 13.6941742 -4.3947
ldist
-1.6473986
0.7996188 -2.0602
lkldist
-0.3500265
0.3183469 -1.0995
lgdt
3.0224557
0.4016546 7.5250
lkgdt
-0.0045699
0.0060232 -0.7587
lsimi
1.2692939
0.2026840 6.2624
lrk
3.4976621
2.7600926 1.2672
lrh
0.1232587
0.0784673 1.5708
lrl
-2.8425857
2.7783193 -1.0231
--Signif. codes: 0 *** 0.001 ** 0.01 *

Pr(>|t|)
1.109e-05
0.03938
0.27154
5.272e-14
0.44802
3.790e-10
0.20507
0.11622
0.30625

***
*
***
***

0.05 . 0.1 1

Total Sum of Squares:


13701
Residual Sum of Squares: 478.97
F-statistic: 4214.31 on 18 and 2748 DF, p-value: < 2.22e-16

Limpression des rsultats rappelle la typologie des variable. Le modle est ici
identifi parce que le nombre de variables constantes endognes est bien infrieur
au nombre de variables exognes variables (1 contre 4 + 10 variables indicatrices
de lanne).

Chapitre 7

Estimation dun modle


dynamique
Un modle est dit dynamique lorsquune de ses variables explicatives est la variable explique retarde. Lintrt des donnes de panel pour estimer un modle
dynamique est vident. Il est naturellement impossible destimer une relation dynamique sur des donnes en coupe transversale et, sagissant des sries chronologiques, une telle relation ne peut tre estime prcisment que si la srie est
suffisamment longue. En revanche, pour des donnes de panel, le modle peut tre
estim pour un ensemble dindividus observs un petit nombre de fois. Les modles
prsents dans ce chapitre sont adapts pour des donnes de panel micro, cest-dire des donnes pour lesquelles N >> T . Pour des panels macro, caractriss par
une dimension temporelle quivalente ou suprieure la dimension individuelle, les
modles pertinents sont bass sur une adaptation des problmatiques de dtection
de racines unitaires et de relations de cointgration aux spcificits des donnes de
panel.
Parmi les nombreux exemples dapplication rencontrs dans la littrature, on peut
citer :
lestimation de la convergence de la richesse par tte, obtenue en rgressant
le taux de croissance en fonction du niveau de richesse initiale ou, ce qui est
quivalent, en rgressant le niveau de richesse par tte en fonction du niveau de
richesse retard ;
lanalyse de la vitesse dajustement de la main doeuvre, obtenue en rgressant
le nombre demploys en fonction de diffrente variables, dont lemploi retard ;
lanalyse de la dynamique de la consommation, base sur une fonction de consommation qui dpend de la consommation retarde.
Larticle fondateur concernant lestimation dun modle dynamique en panel est
celui de Balestra & Nerlove (1966). La littrature sur le sujet est devenu considrable partir des annes 90 et des articles de Holtz-Eakin, Newey & Rosen (1988)

98

Economtrie des donnes de panel avec R

et Arellano & Bond (1991) qui ont introduit lutilisation de la mthode destimation des moments gnraliss pour les panels dynamiques 1 . Celle-ci est devenue
la mthode destimation privilgie et la plus grande partie de ce chapitre sera
consacre sa prsentation. Il faut cependant noter que le champ dapplication de
cette mthode pour les panels nest pas limite aux modles dynamiques et quelle
peut galement tre utilise avec profit pour des modles statiques.
Exemple 7.1
Tout au long de ce chapitre, nous utiliserons larticle de Acemoglu, Johnson, Robinson & Yared (2008) afin dillustrer les rsultats. Cette tude traite de la relation
causale entre le niveau de richesse et le niveau de dmocratie des pays. Les auteurs
utilisent diffrentes donnes de panel. Parmi celles-ci, nous en avons retenu deux :
les premires correspondent une frquence dobservation de 5 ans, avec 11
observations sur la priode 1950 2000 pour 211 pays ;
les secondes correspondent une frquence dobservation de 25 ans, avec 7 observations sur la priode 1850 2000 pour 25 pays.
Ces donnes sont disponibles dans la librairie pder sous le nom de DemocracyIncome pour les premires et de DemocracyIncome25 pour les secondes.
> data("DemocracyIncome", package = "pder")
> data("DemocracyIncome25", package = "pder")

En coupe transversale, la relation positive entre le degr de dmocratie et le revenu


par tte est vidente. Ceci est illustr sur la figure 7.1 qui utilise les donnes de
Acemoglu et al. (2008) pour lanne 2000. Cependant, cette corrlation instantane nimplique pas ncessairement quil existe une relation de causalit entre les
deux variables. Les donnes de panel utilises permettent de spcifier une relation
dynamique entre le revenu et la dmocratie et donc danalyser cette ventuelle
causalit.
> library("plm")
> pdim(DemocracyIncome)

Balanced Panel: n=211, T=11, N=2321

> head(DemocracyIncome, 4)

1
2
3
4

country
Andorra
Andorra
Andorra
Andorra

year democracy income sample


1950
NA
NA
0
1955
NA
NA
0
1960
NA
NA
1
1965
NA
NA
1

1. Il existe de nombreuses revues de cette littrature, en particulier, Harris et al. (2008), Bond
(2002), Roodman (2009a).

99

1.0

1.2

Chapitre 7. Estimation dun modle dynamique

Bolivia

Croatia
Chile
El
Salvador
St. Vincent
and the Grenadines
Korea, Rep.
Dominican
Jamaica

Republic
Thailand
Trinidad

and
Tobago

Mexico
Moldova
RomaniaBulgaria
India Philippines

0.6

Senegal
Malawi
Nepal
Bangladesh
Mozambique

Nicaragua

Honduras

0.4

Burkina Faso
Nigeria
GuineaBissau

Niger

Tanzania

Guatemala

Venezuela,
Brazil
RBSeychelles

Indonesia
SriEcuador
Lanka Peru

Macedonia, FYR
Colombia
Albania
Jordan
Paraguay

Turkey

Ukraine
Georgia
Armenia

Lesotho

Ethiopia 1993
Togo
Yemen

Zambia

0.2

democracy

0.8

Benin

Madagascar
Ghana
Mali

Burundi

0.0

Iceland
St. Kitts and
Nevis
Hungary
Sweden
New
Zealand
Germany
Norway
Netherlands
Estonia
Barbados
Slovakia
Italy
Canada
Belgium
United
Kingdom
St.Belize
Lucia
Switzerland
Ireland
Czech
Republic
Denmark
Greece
Slovenia
Australia
Japan
Lithuania
Spain
Uruguay
Israel
Dominica
United
Costa

Latvia

Africa
Argentina

Mauritius

France

States

Finland
Luxembourg
Poland
Portugal
Rica
Grenada
South
Austria
Cape Verde Panama

Morocco

Antigua

Gabon
Russia
Malaysia

Uganda Kenya
Congo,
Rep.
Pakistanpost1972
Azerbaijan
Kyrgyz
Republic
Cote
d'Ivoire
Tajikistan
Comoros

Zimbabwe
Guinea

Swaziland

Tunisia

Iran
Egypt, Arab
Rep.
Chad
Lebanon
Algeria
Kazakhstan
Belarus

Gambia, The

Rwanda

Syrian Arab
Republic
Equatorial
Guinea
China

Cameroon

10

income

Fig. 7.1 Relation entre revenu et dmocratie

Les donnes pour lesquelles la frquence dobservation est de 5 ans constituent un


panel cylindr de 211 pays pour 11 priodes. Cependant, le caractre cylindr est
artificiel car il y a normment dobservations manquantes, en particulier pour le
degr de dmocratie. En plus des deux index individuels et temporels (country et
year), les donnes contiennent lindice de dmocratie (democracy), le logarithme
du produit intrieur brut par habitant (income) et enfin une variable indicatrice
permettant de slectionner le sous-chantillon retenu par les auteurs (sample).

7.1

Modle dynamique et endognit

Le modle dynamique le plus simple est le modle autorgressif dordre 1 :


ynt = yn(t1) + n + nt
lerreur du modle tant suppose tre la somme dun effet individuel n invariant
au cours du temps et dune composante idiosyncratique nt que lon appellera par
la suite linnovation.
Tout au long de ce chapitre, nous supposerons que les innovations ne sont pas
auto-corrles E(nt ns ) = 0 s 6= t, ne sont pas corrles avec leffet individuel
E(n nt ) = 0 et que le processus considr nest pas un processus de racine unitaire
(| |< 1).
Pour la priode prcdente, le modle scrit : yn(t1) = yn(t2) + n + n(t1) .
Lerreur et la variable explicative yn(t1) sont donc corrles puisque yn(t1) est
corrl avec leffet individuel n .

100

7.1.1

Economtrie des donnes de panel avec R

Le biais de lestimateur des mco

Du fait de cette corrlation, lestimateur des moindres carrs ordinaires (ainsi que
celui des moindres carrs gnraliss) nest pas convergent. Cet estimateur scrit :
=

PT
t=2 ynt yn(t1)
n=1
PN PT
2
n=1
t=2 yn(t1)

PN

PN
=+

n=1

PT

t=2 (n

+ nt )yn(t1)
PT 1 2
n=1
t=1 ynt

PN

et le numrateur du second terme ne converge pas vers 0 car n est positivement


corrl avec yn(t1) . La corrlation tant positive, le biais des mco est un biais
vers le haut. Afin danalyser lampleur de ce biais, on rcrit ynt par substitutions
successives, en notant S la date de dbut du processus et 1 la date de la premire
observation :
ynt

t+S

t+S yn(S) + 1
1 n

nt + n(t1) + 2 n(t2) + . . . t+S1 n(S+1)

=
+

(7.1)

En supposant que les valeurs initiales de y sont fixes, on obtient alors, pour le
dnominateur de lestimateur des mco les limites suivantes, dabord par rapport
N , puis par rapport T :

2
N
1 t+S
1 2(t+S) 2
1 X 2
ynt =
2 +

lim
N + N
1
1 2
n=1
N
T
2
1 XX 2
2
ynt =
+
T + N + N T
(1 )2
1 2
n=1 t=1

lim

lim

(7.2)

Pour le numrateur, avec lhypothse dabsence de corrlation entre leffet individuel et les innovations, on obtient :
1 X
1 t+S1 2
(n + nt )yn(t1) =

N + N
1
n
lim

2
1 XX
(n + nt )yn(t1) =
N + T + N T
1
n
t
lim

lim

(7.3)

Lestimateur des mco converge donc vers :


plim = +

2
1
2
(1)2

2
1 2

=+

(1 2 )2
(1 + )2 + (1 )2

Au vue de cette expression, lestimateur des mco est biais vers le haut. Le biais
tend vers 0 lorsque 2 tend vers 0.

Chapitre 7. Estimation dun modle dynamique

101

Exemple 7.2
Dans le modle estim par Acemoglu et al. (2008), la variable explique est lindice
de dmocratie et les variables expliques lindice de dmocratie et le revenu par
tte retards dune priode. Des variables indicatrices des annes sont galement
introduites et lestimation est ralise sur le sous-ensemble dobservations dfini
par la variable sample. Lestimation du modle des mco laide de la fonction
lm de R est ici malaise du fait de la prsence de retards. En effet, la mthode
lag utilise sera alors celle qui est approprie pour les sries temporelles et non
pour les donnes de panel 2 . Pour cette raison, on utilisera la fonction plm de
la librairie plm en fixant largument model "pooling", de manire utiliser
les donnes non transformes. Le -1 dans la formule indique que lon ne veut pas
estimer de constante gnrale, mais un coefficient pour toutes les modalits de la
variable year, ce qui est sans consquence sur lestimation.
> mco <- plm(democracy ~ lag(democracy) + lag(income) + year - 1,
+
DemocracyIncome, index = c("country", "year"),
+
model = "pooling", subset = sample == 1)

Ce mme modle peut galement tre estim en fixant largument model "within"
et en indiquant que lon souhaite introduire des effets fixes temporels :
> mco <- plm(democracy ~ lag(democracy) + lag(income),
+
DemocracyIncome, index = c("country", "year"),
+
model = "within", effect = "time",
+
subset = sample == 1)
> coef(summary(mco))

Estimate Std. Error t-value


Pr(>|t|)
lag(democracy) 0.70636982 0.024293078 29.07700 6.978578e-133
lag(income)
0.07231846 0.008342943 8.66822 1.915051e-17

Deux rsultats ressortent de ce premier modle. Dune part, la variable democracy semble assez persistante puisquon obtient un coefficient estim gal 0.71.
Cependant, nous savons que lestimateur des mco souffre dun biais vers le haut.
Dautre part, le revenu retard semble avoir une influence significativement positive sur lindice de dmocratie.

7.1.2

Lestimateur within

Le biais des mco tant d la corrlation entre le terme derreur et la variable


endogne retarde cause par la prsence dun effet individuel, on peut penser
rsoudre le problme en utilisant une transformation qui permet dliminer leffet
individuel. Le choix
le plus vident est la transformation
within. On a alors, en
PT 1
PT
notant yn(1) = t=1 ynt /(T 1) et yn = t=2 ynt /(T 1) :
2. Cela signifie en particulier que le retard de la variable pour la premire observation du
deuxime pays sera tort indique comme tant gale la dernire observation du premier pays.

102

Economtrie des donnes de panel avec R

PN

PT
yn )(yn(t1)
yn(1) )
nt
n=1 P t=2 (y
PT
N
(y
yn(1) )2
PNn=1PTt=2 nt

yn(1) )(nt
n )
n=1 P t=2 (y
Pn(t1)
N
T
yn(1) )2
n=1
t=2 (ynt

Les effets individuels (et donc le problme de biais) prsents dans lestimateur des
mco ont bien disparu. En revanche, une seconde source de biais a t ajoute. En
1
1
(yn1 + . . . + yn(T 1) ) et t T 1
(n2 + . . . + nT ) sont corrls.
effet, yn(t1) T 1
1
1
Pour t > 2, on a un terme en T 1 ynt nt , un terme en yn(t1) T 1
n(t1)
1
et T 2 termes en (T 1)2 ynt nt . Chaque terme en nt ynt ayant une esprance de
2 , on obtient finalement :


1
1
T 2
T
2

+
= 2
2
T 1 T 1 (T 1)
(T 1)2
et le biais est donc ngatif 3 . Plus prcisment, on peut montrer que 4 :
1+
plim =
T 11

T
1 1
T 1

2
(1)(T 1)

1 T
T (1)

Ce biais prsente deux caractristiques qui le diffrencie de celui des mco. Tout
dabord, il est ngatif et ensuite il tend vers 0 lorsque T tend vers linfini. Ce biais
ne peut cependant pas tre ignor dans le cas de panels micros o la dimension
temporelle est rduite. Par exemple, pour T = 10 (soit une dure assez longue) et
= 0.5, le biais est de 0.167.
Exemple 7.3
Le modle within est obtenu avec plm en fixant les arguments model et effect
"within" et "twoways", puisque lon souhaite introduire des effets temporels et
individuels. Le modle peut tre estim simplement en actualisant le modle des
mco prcdemment estim :
> within <- update(mco, effect = "twoways")
> coef(summary(within))
Estimate Std. Error
t-value
Pr(>|t|)
lag(democracy) 0.37862837 0.03344426 11.3211770 1.251513e-27
lag(income)
0.01041497 0.02640112 0.3944898 6.933266e-01

Par rapport au modle des mco, le coefficient autorgressif est plus petit (0.38
contre 0.71), ce qui tait attendu dans la mesure o lestimateur within est biais
vers le bas alors que celui des mco est biais vers le haut. On constate galement
quavec lintroduction des effets individuels, le coefficient du revenu devient trs
proche de 0 et est non significatif.
3. Nickel (1981).
4. Voir par exemple Hsiao (2003) p.72.

Chapitre 7. Estimation dun modle dynamique

7.1.3

103

Mthodes destimation convergentes pour les modles


dynamiques

Les mthodes destimation les plus courantes utilises dans le cas de modles statiques tant inadaptes, plusieurs stratgies destimation peuvent tre envisages
afin dobtenir un estimateur convergent.
la premire est dutiliser la mthode du maximum de vraisemblance. Elle prsente cependant linconvnient majeur dtre extrmement sensible aux hypothses faites sur les valeurs initiales de la variable explique. Suivant que ces
valeurs sont considres comme fixes ou alatoires et corrles ou non avec les
effets individuels, on obtient des modles sensiblement diffrents et les biais destimation peuvent tre svres dans le cas o la spcification retenue nest pas
la bonne. Pour cette raison, cette mthode destimation nest plus beaucoup
utilise et ne sera pas prsente ici 5 ;
la seconde consiste partir dun estimateur biais et de corriger ce biais. Cest la
dmarche suivie par Kiviet (1995) qui propose un estimateur within corrig du
biais analys prcdemment. Cependant, lintrt de cette approche est limit
par le fait quelle nest applicable quaux panels cylindrs et quelle ne prend
pas en considration lventuelle endognit des autres variables explicatives 6 ;
la troisime est dutiliser la mthode des variables instrumentales, les instruments utiliss tant des retards en niveau ou en diffrences de la variable explique. La mthode des moments gnraliss, qui est une extension de la mthode
des variables instrumentales est de plus en plus utilise.
La mthode des variables instrumentales est utilise sur un modle qui a t pralablement transform de manire liminer les effets individuels. La transformation within apparat de prime abord comme un choix naturel, elle est cependant
peu adapte. En effet, en labsence dinstruments extrieurs pertinents, les seules
variables instrumentales disponibles sont souvent la variable explicative retarde,
cest--dire ici la variable explique
PT retarde au moins deux fois. Or, avec le modle
1
within, lerreur est : nt T 1
t=2 nt . Elle contient donc lensemble des ralisations de nt et est donc corrle avec lensemble des valeurs retardes de ynt .
Deux transformations alternatives peuvent tre utilises avec profit, la diffrence
premire et la dviation orthogonale.

5. Pour une prsentation dtaille de lestimation dun panel dynamique par le maximum de
vraisemblance, voir Hsiao (2003), chapitre 4.
6. Voir Roodman (2009a), p. 103.

104

Economtrie des donnes de panel avec R

Pour la diffrence premire, on a simplement znt = znt zn(t1) , soit encore,


sous forme vectorielle, zn = Dzn avec :

1 1 0 . . . 0
0
0 1 1 . . . 0
0

0 0
1 ... 0
0

D= .
..
..
..
..
..
..

.
.
.
.
.

0 0
0 . . . 1 0
0 0
0 . . . 1 1
Lavantage de cette transformation est quelle est simple et intuitive. Elle prsente
cependant trois inconvnients :
le premier est quune observation, la premire, est ncessairement perdue ;
le second est que si les erreurs initiales sont non corrles, celles du modle
transform le sont. En effet, on a t t1 = (t t1 )(t1 t2 ) et donc,
si les sont homoscdastiques
et non corrles, les erreurs transformes sont

homoscdastiques E t2 = 22 , mais corrles pour deux erreurs successives
E (t t1 ) = 2 ;
le dernier est que, pour chaque priode t o une observation est manquante,
deux observations t et t + 1 sont perdues en diffrence.
La transformation en dviations orthogonales ne souffre pas des deux derniers
problmes, elle est par contre moins intuitive car elle consiste calculer la diffrence entre une observation et la moyenne des observations postrieures celle-ci.
Formellement, on a :
!
T
1 X
znt = cnt znt
zns
Tnt s>t
o Tnt est le nombre dobservations
postrieures t pour lindividu n et cnt un
q
Tnt
facteur dchelle gal Tnt +1 .
Comme pour la transformation en diffrences premires, une observation est perdue, mais il sagit dsormais de la dernire. Sous forme matricielle, pour un panel
cylindr, la transformation scrit zt = Oz, avec z = (z1 , z2 , . . . zt ) et :
q
T 1
1
1
...
1
1
T
T (T 1)
T (T 1)
T (T 1)
T (T 1)

T 2
1
1
1

0
...

T 1

(T 1)(T 2)
(T 1)(T 2)
(T 1)(T 2)
q

T 3
1
1
O=
0
0
. . .

T 2
(T 2)(T 3)
(T 2)(T 3)

..
..
..
..
..
..

.
.
.
.
.

q
q.
1
0
0
0
...
12
2
En supposant que les erreurs initiales sont homoscdastiques et non corrles, on
a alors, pour les erreurs transformes :

Chapitre 7. Estimation dun modle dynamique

105

V(
) = E(
> ) = E(O > O> ) = 2 OO> = 2 I
Le dernier rsultat est d au fait que les lignes de O sont mutuellement orthogonales.
De plus, en cas dobservations manquantes pour une priode, seule cette observation sera perdue pour lestimation, contre deux pour le modle estim en diffrences
premires.
Lestimateur propos par Anderson & Hsiao (1982) utilise le modle crit en diffrences premires de manire liminer les effets individuels. La variable explicative yn(t1) = yn(t1) yn(t2) est alors corrle avec lerreur en diffrences
nt = nt n(t1) . Si les innovations ne sont pas auto-corrles, yn(t1) peut
tre instrument soit par yn(t2) = yn(t2) yn(t3) , soit par yn(t2) . Dans les
faits, il savre que yn(t2) est un bien meilleur instrument que yn(t2) .
Exemple 7.4
Afin de calculer lestimateur de Anderson & Hsiao (1982), on doit spcifier que les
variables explicatives et explique sont en diffrences et que lendogne retarde
en diffrence est intrumente par lendogne en niveau retarde de deux priodes.
Acemoglu et al. (2008) ont choisi galement dinstrumenter le revenu par tte en
utilisant un deuxime retard. Le modle est dcrit simplement en utilisant une
formule deux parties 7 , la premire partie indiquant les variables explicatives et
la seconde les instruments, les deux parties tant spares par le signe |.
> ahsiao <- plm(diff(democracy) ~ lag(diff(democracy)) +
+
lag(diff(income)) + year - 1 |
+
lag(democracy, 2) + lag(income, 2) + year - 1,
+
DemocracyIncome, index = c("country", "year"),
+
model = "pooling", subset = sample == 1)
> coef(summary(ahsiao))[1:2, ]

Estimate Std. Error


t-value
Pr(>|t|)
lag(diff(democracy)) 0.4686593 0.1181956 3.9651163 7.970953e-05
lag(diff(income))
-0.1035793 0.3048546 -0.3397662 7.341189e-01

Le modle dAnderson & Hsiao (1982) tant convergent, on sattend ce que le


coefficient autorgressif estim soit compris entre celui du modle within (biais
vers le bas) et celui du modle mco (biais vers le haut). Cest effectivement le cas
ici, la valeur obtenue de 0.47 tant bien comprise entre 0.38 et 0.71. On remarque
galement que le coefficient associ au revenu est dsormais la limite du seuil de
significativit de 10%.
7. On utilise ici les formules tendues fournies par la librairie Formula (Zeileis & Croissant,
2010).

106

7.2

Economtrie des donnes de panel avec R

Estimateur des moments gnraliss du modle en diffrences

Lestimateur des variables instrumentales prsent dans la section prcdente est


inefficace pour deux raisons :
la premire est quil ne prend pas en compte la corrlation des erreurs provoque
par la diffrenciation ;
la seconde est quil existe dautres instruments valables qui peuvent tre utilises.
Ces deux limites de lestimateur de variables instrumentales peuvent tre surmontes en utilisant lestimateur des moments gnraliss propos par Holtz-Eakin
et al. (1988) et Arellano & Bond (1991).

7.2.1

Variables instrumentales et mthode des moments gnraliss

Cet estimateur prend en compte le fait que le nombre dinstruments valides augmente avec t. Le caractre dynamique du modle rend la premire observation
inutilisable. Le fait que le modle soit estim en diffrences premires fait perdre
la seconde observation. Par consquent, la premire observation utilisable est la
troisime, pour laquelle le modle scrit :
yn3 yn2 = (yn2 yn1 ) + (n3 n2 )
Pour cette observation, yn1 est le seul instrument valable. Pour la quatrime observation, lerreur est n4 n3 , yn2 et yn1 sont des instruments valables. Ainsi,
un instrument supplmentaire est ajout ds que t augmente de 1. Pour lindividu
n, la matrice dinstruments scrit :

Zn =

yn1
0
0
..
.

0
yn1
0
..
.

0
yn2
0
..
.

0
0
yn1
..
.

0
0
yn2
..
.

0
0
yn3
..
.

...
...
...
..
.

0
0
0
..
.

0
0
0
..
.

0
0
0
..
.

0
0
0
..
.

...

...

...

yn1

yn2

...

yn(T 2)

(7.4)

Les conditions de moment correspondent au vecteur = Z > . Les instruments


tant par hypothse non corrls avec les erreurs en diffrence, ce vecteur doit tre
desprance nulle : E() = 0. La mthode des moments gnraliss consiste crire
lquivalent pour lchantillon de ce vecteur de moments thoriques, cest--dire la
moyenne arithmtique de lexpression prcdente pour lensemble des individus de
lchantillon :
m
=

N
N
1 X >
1 X
mn =
Z (yn Xn )
N n=1
N n=1 n

(7.5)

Chapitre 7. Estimation dun modle dynamique

107

o, dans le cas simple dun modle purement autorgressif, Xn est un vecteur


colonne qui contient lendogne retarde dune priode en diffrence. La manire
dobtenir lestimateur dpend alors de la comparaison entre le nombre de moments
J et le nombre de coefficients estimer K. Si J = K, lestimateur des moments
est obtenu simplement en fixant (7.5) 0 et en rsolvant pour . On obtient alors :
=

N
X

!1
Zn> Xn

n=1

N
X

!
Zn> yn

n=1

Si J < K, le systme dquations linaires dfini par (7.5) est sous-identifi, il y a


une infinit de combinaisons de valeurs des paramtres qui permettent dgaliser
(7.5) 0. Dans le cas o J > K, le systme est sur-identifi et, sauf cas trs particulier, il nexiste pas de combinaisons de valeurs des paramtres qui permettent
dgaliser (7.5) 0. Dans ce cas, on cherchera la combinaison de paramtres qui
minimise la taille de ce vecteur, cette taille tant dfinie par une forme quadratique
du vecteur de moments empiriques :
!
!
N
N
1 X >
1 X
>
>
>
(yn Xn )Zn A
Z (yn Xn )
(7.6)
N n=1
N n=1 n
o A est la matrice de pondrations des moments. En annulant les drivs de
(7.6) par rapport et en rsolvant par rapport , on obtient lestimateur des
moments gnraliss :
 P

1
P
=  Pn Xn> Zn  A Pn Zn> Xn
>
>

n Xn Zn A
n Zn yn

7.2.2

(7.7)

Estimateur en une tape

Pour que cet estimateur puisse tre calcul, il faut choisir une matrice de pondrations. Le choix le plus simple pour A est la matrice identit. Dans ce cas, la
fonction minimiser est simplement la somme des carrs des diffrents lments
du vecteur. Cette solution nest pas efficace dans le cas o les variances de ces
diffrents lments sont diffrentes. Dans ce cas, intuitivement, il est plus efficace
daccorder un poids dautant plus lev un lment du vecteur que sa variance est
faible. La matrice de pondration est alors une diagonale contenant linverse de la
variance de chaque lment. De plus, si des lments du vecteur sont corrls, leurs
poids conjoints doivent tre rduits car ces lments vhiculent une information
similaire. De manire gnrale, la matrice optimale de pondrations est linverse
de la matrice de variance-covariance du vecteur de moments 8 . On a donc :
!
N
N
1 X
1 X
1
mn = 2
V(mn )
A = V(m)
=V
N n=1
N n=1
8. Voir Hansen (1982).

108

Economtrie des donnes de panel avec R

Si les erreurs en niveau sont homoscdastiques et non-autocorrles, V(mn ) a une


expression trs simple. En effet, on a :


V(mn ) = E Zn> n n> Zn = Zn> E Dn n> D> Zn = 2 Zn> hZn
avec

h = DD =

>

2
1
0
..
.

1
2
1
..
.

0
1
2
..
.

...
...
...
..
.

0
0
0
..
.

(7.8)

En effet, les erreurs du modle sont les innovations en diffrence nt n(t1) . En


supposant que ces erreurs son homoscdastiques et non corrles, on a :
2
E(nt
) = 22 ;
E(nt n(t1) ) = 2 ;
E(nt ns ) = 0 si | t s |> 1.
Linverse de la matrice de pondration scrit alors :
A(1)1 = V(m)
=

N
N
2 X >
1 X
V(m
)
=
Z hZn
n
N 2 n=1
N 2 n=1 n

(7.9)

2 est un scalaire inconnu qui ne joue aucun rle dans lestimation et qui peut donc
tre ignor. Lestimateur qui utilise cette matrice de pondrations est qualifi desP
1
N
>
timateur en une tape. Il sobtient simplement en substituant
n=1 Zn hZn
A dans lquation (7.7). Afin de calculer sa variance, on commence par remplacer
yn dans (7.7) par Xn + n . On obtient alors :
(1)

h P
 P >
1 P >
i1
>
n Xn Zn
n Zn hZn
n Zn Xn
h P
 P >
1 P >
i
>

X
Z
Z
hZ
Z

n
n
n
n
n
n
n
n
n

qui permet dobtenir lexpression de la variance de (1) , note V(1) :




V(1) = E ( )( )>
h P
 P >
1 P >
i1
>
=
X
Z
Z
hZ
Z
X
n
n
n
n
n n
n n
h Pn
 P >
1
>

X
Z
Z
hZ
n
n n
n
 P
 Pn n > 
>
Z
E

Z
n
n i
n
1 P n > n

P n>

Z
hZ
Z
X
n
n
n n
n n
h P
 P >
1 P >
i1
>

X
Z
Z
Z
hZ
X
n
n
n
n
n
n n
n n

(7.10)

(7.11)

Chapitre 7. Estimation dun modle dynamique

109

Si les hypothses faites sur les erreurs sont vrifies, on a :


"
!
!#
X
X
X
E
Zn> n
n> Zn
= 2
Zn> hZn
n

et lexpression de la variance se simplifie alors :

(1)

= 2

Xn> Zn

!1

!1

!
X

Zn> hZn

Zn> Xn

(7.12)

Lestimateur des moments gnraliss et sa variance peuvent tre exprims de


manire plus compacte en utilisant les notations matricielles
: X > =
 > suivantes
>
>
>
>
>
>
>
>
>
>
X1 , X2 , . . . , XN , y = y1 , y2 , . . . , yN , Z = Z1 , Z2 , . . . , ZN
et H une matrice bloc-diagonale obtenue en rptant h N fois. On a alors :

1 

(1) = (X > Z)(Z > HZ)1 (Z > X)
(X > Z)(Z > HZ)1 (Z > y) (7.13)


(1) = 2 (X > Z)(Z > HZ)1 (Z > X) 1
V

(7.14)

Si, contrairement aux hypothse faites, les erreurs sont htroscdastiques et/ou
autocorrles, lestimateur en une tape demeure convergent, mais deux problmes
classiques se posent :
dune part, la matrice de pondrations utilise nest pas une estimation convergente de la bonne matrice de pondration, ce qui se traduit par une perte
defficacit ;
dautre part, lestimation de la variance donne par lquation (7.14) nest pas
convergente. Par consquent, tous les tests bass sur cette variance estime seront biaiss.

7.2.3

Estimateur en deux tapes

Afin de rsoudre en partie le premier problme, on peut utiliser un estimateur en


deux tapes, qui consiste rcuprer les rsidus destimation du modle en une
 P >
 P

P
(1)
(1)
(1)>
>
tape
n et destimer E
par n Zn>
n
n Zn ,
n Zn n
n n Zn
cet estimateur tant robuste la prsence dhtroscdasticit et/ou dautocorrlation. Linverse de la matrice de pondration des moments utilise scrit dans ce
cas :
P
m)
A(2)1 = V(
= N12 n V(m
n)
P
(7.15)
(1)
(1)>
(1) Z
= N12 n Zn>
n
n Zn = N12 Z >

(1)
(1)>
(1) une matrice bloc diagonale constitue des blocs :
avec
n
n
pour

n = 1 . . . N . Lestimateur gmm en deux tapes est alors obtenu en substituant

110

Economtrie des donnes de panel avec R

(7.15) A dans lquation (7.7) :


(2)


=


X > Z



(1) Z
Z >

1

X > Z



(1) Z
Z >

1

Z > X
Z > y

1

(7.16)

Concernant la variance de lestimateur, par un raisonnement similaire celui dcrit


par les quations (7.11 et 7.12), on obtient :
h
i1
(2) = (X > Z)(Z >
(1) Z)1 (Z > X)
V

(7.17)

(1) qui dpend


Le problme de cet estimateur de la variance est quil intgre

des rsidus destimation du modle en une tape et donc de (1) et de y. Cet


estimateur est par consquent biais et la drivation dun estimateur robuste de
la variance sera prsente dans la section 7.4.
Exemple 7.5
Lestimation dun modle de panel par la mthode des moments gnraliss est
ralise en utilisant la fonction pgmm de la librairie plm. Les arguments de cette
fonction sont les mmes que ceux de la fonction plm et il y a quelques arguments
spcifiques :
formula : la formule est particulire car elle comporte trois parties : la premire partie contient comme dhabitude les variables explicatives, la deuxime
les instruments gmm et la troisime les instruments normaux ;
model : le modle estimer est soit le modle en une tape : "onestep", soit
le modle en deux tapes "twosteps" ;
effect : les effets sont soit individuels "individuals" (ils sont alors limins par
la diffrentiation), soit double "twoways", dans ce cas des variables indicatrices
pour chaque priode sont ajoutes ;
On estime ci-dessous le modle en une tape. Dans la deuxime partie de la formule,
on indique ici que lon ne souhaite utiliser que la variable democracy comme
instrument gmm et que lon souhaite utiliser tous les retards disponibles en partant
du deuxime. Comme dans le cas prcdent, on instrumente galement le revenu
retard dune priode par cette mme variable retarde de deux priodes.
> diff1 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)| lag(income, 2),
+
DemocracyIncome, index=c("country", "year"),
+
model="onestep", effect="twoways", subset = sample == 1)
> coef(summary(diff1))

Estimate Std. Error


z-value
Pr(>|z|)
lag(democracy) 0.50499446 0.09049045 5.580638 2.396373e-08
lag(income)
-0.09010807 0.08029127 -1.122265 2.617498e-01

Chapitre 7. Estimation dun modle dynamique

111

Le modle deux tapes est obtenu en fixant largument model "twosteps" :


> diff2 <- update(diff1, model = "twosteps")
> coef(summary(diff2))

Estimate Std. Error


z-value
Pr(>|z|)
lag(democracy) 0.554007280 0.10783032 5.13776889 2.780195e-07
lag(income)
0.001843585 0.06053787 0.03045341 9.757054e-01

Tous les retards disponibles tant utiliss, le nombre dinstruments est trs important. On a en effet : 0.5 (11 1) (11 2) = 45 instruments gmm plus les
9 variables indicatrices de la priode et le revenu retard de deux priodes, soit
J = 55.
Notons que ces rsultats sont proches de ceux du modle dAnderson & Hsiao
(1982) ( coefficient autorgressif proche de 0.5 et coefficient du revenu non significatif).

7.2.4

La prolifration du nombre dinstruments dans le modle des moments gnraliss en diffrences

Pour lestimateur des moments gnraliss, le nombre dinstruments augmente avec


la dimension chronologique de lchantillon. Pour le modle gmm en diffrences, en
considrant uniquement les niveaux de y qui instrumentent y, on a 1 instrument
y1 pour la troisime observation (la premire utilisable), deux instruments y1 , y2
pour la quatrime et T 2 instruments pour la dernire observation y1 , y2 , . . . , yT 2
soit au total J = 1+2+. . .+(T 2) = 0.5(T 1)(T 2) instruments. Par exemple,
pour T = 10, on obtient 36 instruments. Le nombre dinstruments augmente donc
de manire quadratique avec T . Les matrices de pondration des moments (7.9)
et (7.15) sont de dimension J J. Du fait de leur symtrie, elles contiennent
J (J + 1)/2 lments uniques. Le nombre dlments estimer de cette matrice
est donc un polynme en T dont le terme dominant est T 4 /8. Chaque lment de
cette matrice tant estim par une moyenne empirique calcule sur les N individus
de lchantillon, il est vident que la prcision de lestimation des lments de cette
matrice nest assure que si N est grand par rapport J. Si ce nest pas le cas, il
arrive frquemment que les matrices (7.9 et 7.15) soient singulires. Lestimateur
des moments gnraliss ne peut alors plus tre calcul en utilisant la formule
donne par (7.7) car celle-ci utilise linverse de cette matrice. On peut alors avoir
recours une mthode dinverse gnralise pour calculer lestimateur, mais cest
clairement le symptme dun nombre dinstruments trop lev par rapport au
nombre dindividus.
Pour comprendre les consquences nfastes dun nombre dinstruments trs lev,
le plus simple est de considrer le cas de lestimateur des variables instrumentales.
Cet estimateur peut tre obtenu en appliquant deux fois les moindres carrs : une
premire fois en rgressant chaque colonne de la matrice de variables explicatives
X par rapport aux variables instrumentales W , une seconde fois en rgressant la

112

Economtrie des donnes de panel avec R

variable explique y par rapport aux valeurs prdites des estimations prcdentes
Plus le nombre dinstruments J sera important, meilleurs seront les rsultats
X.
sera dautant plus proche de X que
des premires estimations, cest--dire que X
J sera lev. Si J devient suprieur ou gal au nombre dobservations, on aura
= X et lestimateur des variables instrumentales sera identique celui des
X
moindres carrs ordinaires. On parle de problme d over-fitting 9 .
Afin de limiter le nombre dinstruments, plusieurs solutions sont envisageables. La
premire consiste limiter le nombre de retard pour les instruments. Par exemple,
pour T = 10, si on limite le nombre de retards 3, on obtient 1 instrument pour
t = 3, 2 pour t = 4, 3 pour t = 5 . . . 10, soit au total 21 instruments contre 36 si
tous les retards sont utiliss.
La seconde consiste agglomrer les conditions de moments 10 . Dans ce cas, la
matrice dinstruments (7.4) est remplace par la matrice suivante :

yn1
yn2
yn3
..
.

Zn =

yn(T 3)
yn(T 2)

0
yn1
yn2
..
.

0
0
yn1
..
.

0
0
0
..
.

yn(T 4)
yn(T 3)

yn(T 5)
yn(T 4)

yn(T 6)
yn(T 5)

...
...
...
..
.

0
0
0
..
.

. . . yn2
. . . yn3

0
0
0
..
.
yn1
yn2
P
1

0
0
0
..
.

0
yn1

(7.18)

Le vecteur des (T 2) moments empiriques est alors : m


= N n Zn> n avec :
P
>
PT
PT
T
=
Zn> n
t=3 yn(t2) nt ,
t=4 yn(t3) nt ,
t=5 yn(t4) nt , . . . ,

PT
t=T 1 yn(tT +2) nt , yn1 nT
Exemple 7.6
Afin dillustre le problme de prolifration des instruments, nous utilisons le second
jeu de donnes pour lequel la frquence dobservation est de 25 ans.
> data("DemocracyIncome25", package = "pder")
> pdim(DemocracyIncome25)
Balanced Panel: n=25, T=7, N=175

Nous estimons le modle gmm en diffrences avec les deux variables democracy
et income utilises comme instruments gmm en utilisant lensemble des retards
disponibles.
> diff25 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99) + lag(income, 2:99),
+
DemocracyIncome25, model = "twosteps")
9. Voir Roodman (2009a), pp.98-99.
10. Voir Roodman (2009b), p.148.

Chapitre 7. Estimation dun modle dynamique

113

Pour chaque instrument gmm, il y a 0.5 6 5 = 15 conditions de moments et il


y a donc au total 30 instruments gmm plus les 5 variables indicatrices des annes,
soit J = 35, alors que le nombre dindividu N = 25. Comme lindique le message
davertissement, la matrice de pondration est singulire et une mthode dinverse
gnralise est utilise.
Afin de limiter le nombre dinstruments, nous estimons le mme modle en utilisant au maximum 3 retards pour chaque instrument, puis en agglomrant les
instruments.
> diff25lim <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:4)+ lag(income, 2:4),
+
DemocracyIncome, index=c("country", "year"),
+
model="twosteps", effect="twoways", subset = sample == 1)
> diff25coll <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)+ lag(income, 2:99),
+
DemocracyIncome, index=c("country", "year"),
+
model="twosteps", effect="twoways", subset = sample == 1,
+
collapse = TRUE)
> sapply(list(diff25, diff25lim, diff25coll), function(x) coef(x)[1:2])

[,1]
[,2]
[,3]
lag(democracy) 0.4066085 0.4678152 0.50272735
lag(income)
-0.1713431 -0.1257871 -0.04221125

On constate que les rsultats des trois modles sont relativement similaires.

7.3

Estimateur des moments gnraliss en diffrences et en niveau

Le problme principal de lestimateur des moments gnraliss en diffrences est


que les retards en niveau de la variable explique sont souvent trs faiblement
corrls avec la variable explique retarde en diffrence. Pour rsoudre ce problme
dinstruments faibles, des conditions de moments sur le modle en niveau peuvent
tre ajoutes.

7.3.1

Des instruments faibles

La faiblesse de la corrlation entre les instruments du modle estim en diffrences


et la variable explicative yt1 peut tre mise en vidence dans le cas dun modle
autorgressif simple avec T = 3 11 . Dans ce cas, le modle en diffrences scrit pour
la troisime observation (la seule utilisable) :
yn3 = yn2 + n3
11. Voir Blundell & Bond (1998) p.120.

114

Economtrie des donnes de panel avec R

Le seul instrument disponible pour cette observation est yn1 . Lestimateur des
moments gnraliss se ramne donc lestimateur des variables instrumentales,
yn2 tant instrument par yn1 . En appliquant la dmarche des doubles moindres
carrs, on estime dans un premier temps yn2 en fonction de yn1 , puis dans un
second temps yn3 en fonction de
yn2 . La premire estimation correspond au
modle linaire suivant :
yn2 = yn1 + n
Le modle structurel tant ynt = yn(t1) + n + nt , lquation estimer peut
galement scrire :
yn2 = ( 1)yn1 + n + n2
Lestimateur des mco est alors :

= ( 1) +

1/N

yn1 (n + n2 )
P 2
1/N n yn1
n

En supposant que le processus a commenc il y a un grand nombre de priodes,


on peut calculer la limite de
en notant que le numrateur tend vers 2 /(1 )
(voir 7.3) et le dnominateur vers 2 /(1 )2 + 2 /(1 2 ) (voir 7.2). On a alors,
en notant k = (1 )2 /(1 2 ) :
plim
= ( 1)

k
2 /2 + k

(7.19)

En notant que lim=1 k = 0, on voit clairement que si le processus est proche


dun processus de racine unitaire,
sera proche de 0. La figure 7.2, qui reprsente
plim
et 1 en fonction de illustre le fait que, mme pour des valeurs de
sensiblement infrieures 1, plim
est trs proche de 0. Les instruments sont alors
faibles et la seconde estimation du modle des doubles moindres carr ordinaires
sera mdiocre (valeur du coefficient erratique, ecart-type lev). Les instruments
seront galement faibles si la variance de leffet individuel est trs leve par rapport
celle de linnovation.

7.3.2

Conditions de moments sur le modle en niveau

Arellano & Bover (1995) et Blundell & Bond (1998) ont montr quavec des hypothses faibles sur la manire dont les donnes sont gnres, une condition de
moment supplmentaire existe pour lquation en niveau qui scrit :
ynt = yn(t1) + n + nt
Les conditions de moment supplmentaires scrivent :

E yn(ts) (n + nt ) = 0 s = 1 . . . t 1
Elles indiquent donc que yn(ts) sont des instruments valides pour yn(t1) dans
lquation en niveau. Si les conditions de moments pour le modle en diffrences

Chapitre 7. Estimation dun modle dynamique

115

0.0

0.2

0.4

0.6

0.8

1.0
0.0

0.2

0.4

0.6

0.8

1.0

Fig. 7.2 Coefficient de la premire tape et 1 en fonction de la valeur du


coefficient autorgressif

sont galement prises en compte, seule la condition correspondant s = 1 est


pertinente, les autres tant redondantes. Par exemple, pour T = 4, il y 3 conditions
de moment pour lquation en niveau 12 :
( + 3 )y2

(7.20)

( + 4 )y3

(7.21)

( + 4 )y2

(7.22)

et 3 conditions pour le modle en diffrences :


(3 2 )y1

(7.23)

(4 3 )y2

(7.24)

(4 3 )y1

(7.25)

En soustrayant (7.20) de (7.22) ou en soustrayant (7.25) de (7.24), on obtient


dans les deux cas : (4 3 )y2 . Par consquent, une condition de moment est
redondante. On peut omettre la condition (7.22) et plus gnralement ne prendre
en considration que les
 conditions de moment pour le modle en niveau du type :
E yn(t1) (n + nt ) = 0.
En remplaant yn(t1) par yn(t2) + n + n(t1) , on obtient :


E (n + nt )(( 1)yn(t2) + n + n(t1) ) = 0
12. Lindice individuel est temporairement omis.

116

Economtrie des donnes de panel avec R

Les tant non corrls, on obtient :




E n ( 1)yn(t2) + n = 0
Soit encore, pour la priode t :
E [n (( 1)ynt + n )] = 0
Pour | |< 1 (hypothse dabsence de racine unitaire), cette condition peut se
rcrire, en la divisant par 1 :

 
n
=0
mnt = E n ynt
1
n
est ltat stationnaire de ynt dans le cadre du modle autorgressif simple.
Or, 1
La condition de moment indique donc que, la priode t, lcart entre la valeur
de la variable et ltat stationnaire ne doit pas tre corrl avec leffet individuel.
En remplaant ynt par yn(t1) + n + nt , on obtient :
 

n
mnt = E n yn(t1) + n + nt
=
1
 

n
E n yn(t1)
= mn(t1)
1

On a donc : mn(t1) = 0 mnt = 0. Cette quation indique donc que la condition de moment est soit vrifie pour toutes les priodes, soit pour aucune. Cette
situation est illustre sur la figure 7.3 13 . Une interprtation plus pragmatique de
cette quation est que mn dcrot au cours du temps un taux donn par . Si
le processus a dbut il y a longtemps, y est proche de sa valeur stationnaire et
la condition de moment est acceptable, mme si elle nest pas exactement vrifie.
Cette situation est illustre sur la figure 7.4.

7.3.3

Lestimateur gmm en systme

Lestimateur qui ajoute au modle estim en diffrences des conditions de moments sur le modle en niveau est appel estimateur des moments gnraliss en
systme ou sys-gmm. Cet estimateur est obtenu en utilisant le vecteur derreurs
en diffrence et en niveau :
+
n = (n , n ) = (n , n )
et la matrice de moments augmente suivante :

Zn
0
0
...
0 yn2
0
.
..
+
Zn =
0
0
yn3 . . .
0
0
0
...

0
0
0

yn(T 1)

13. Cette figure et la suivante sont inspires de Roodman (2009b) p.145 et 147.

Chapitre 7. Estimation dun modle dynamique

117

12

10

0
0

10

15

20

25

30

Fig. 7.3 Le cas o la condition est vrifie chaque priode

10

10

15

20

25

30

Fig. 7.4 Le cas o la condition est quasiment vrifie pour les dernires priodes

118

Economtrie des donnes de panel avec R

Les conditions de moments sont alors :


X

Zn+>

n ()
n ()

!>
=

yn1 n3 ,

yn1 n4 ,

yn1 nT ,

yn2 n4 , . . . ,

yn2 nT , . . . ,

yn(T 2) nT ,
!>

n3 yn2 ,

n4 yn3 , . . . ,

nT yn(T 1)

Le choix dune matrice de pondration initiale est moins vident que dans le cas
du modle en diffrence. En effet, dans celui-ci, seul le vecteur des erreurs en diffrences est utilis et par consquent la variance de ce vecteur est, avec les hypothses
dabsence dautocorrlation et dhomoscdasticit des innovations, proportionnelle
une matrice connue, le coefficient de proportionnalit tant 2 dont lestimation
nest pas ncessaire (voir 7.8). En revanche, ici, le vecteur derreurs augment inclue les erreurs en niveaux, et donc les effets individuels. Dans ce cas, la matrice
de variance dpend de 2 et de 2 . Pour rsoudre ce problme et disposer dune
matrice initiale connue, on peut supposer 2 = 0. Dans ce cas :
V(+
n)


=E

n
n

n> , n>


=E

Dn n> D>
n n> D>

Dn n>
n n>


=

h
D>

D
I

Exemple 7.7
Le modle gmm en systme est obtenu dune manire similaire au modle en diffrence, la seule diffrence tant que largument transformation doit tre fix "ld"
(pour level et difference), sa valeur par dfaut tant "d" pour difference.
> sys2 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)| lag(income, 2),
+
DemocracyIncome, index = c("country", "year"),
+
model = "twosteps", effect = "twoways",
+
transformation = "ld")
> coef(summary(sys2))

Estimate Std. Error


z-value
Pr(>|z|)
lag(democracy) 0.6175939 0.05713917 10.808591 3.134483e-27
lag(income)
0.1199633 0.01791565 6.696003 2.141970e-11

On constate que le coefficient autorgressif obtenu dans le modle en systme est


proche de celui obtenu prcdemment dans le modle en diffrence. On remarque
galement que le coefficient associ au revenu est significativement positif et beaucoup plus lev que prcdemment.

Chapitre 7. Estimation dun modle dynamique

7.4

119

Infrence

Lestimation dun modle par la mthode des moments gnraliss pose deux types
de problmes en termes dinfrence :
le premier est que, mme si lestimation du modle est convergente, il nen est pas
ncessairement de mme pour la matrice de variance-covariance des coefficients
si la formule classique de cette matrice est applique. On peut alors mettre en
oeuvre des estimateurs robustes de cette matrice ;
le second est que lestimation nest convergente que si certaines hypothses sont
vrifies : en particulier lhypothse dabsence de corrlation des innovations et
celle de validit des conditions de moments.

7.4.1

Estimation robuste de la matrice de variance des coefficients

La formule de la variance de lestimateur en une tape est donne par lquation


>
(7.11). Si les innovations sont htroscdastiques
et/ou corrles,
 P >
 P
 Z HZ nest pas
>
un estimateur convergent de E
et lestimateur de
n Zn n
n n n Z n
(1) Z est un
la variance donn par (7.14) nest pas robuste. En revanche, Z >

estimateur convergent de la variance des moments, ce qui permet, en introduisant cette expression dans (7.11), dobtenir lestimateur robuste de la variance des
coefficients du modle en une tape :



(1) = X > Z(Z > HZ)1 Z > X 1


V
(1) Z)(Z > HZ)1 Z > X
(7.26)
X > Z(Z > HZ)1 (Z >


1
>
>
1 >
X Z(Z HZ) Z X
Lexpression de lestimateur en deux tapes est donne par (7.16). La difficult est
(1) , qui dpend lui-mme de (1) et donc de y. Par
que lestimateur dpend de

consquent, (2) nest pas une fonction linaire de y et la formule habituelle de


la variance nest pas adapte.
(1) est typiquement trs
Lestimation de la variance du vecteur des J moments

imprcise pour deux raisons. La premire est que le nombre de paramtres est
trs important (J (J + 1)/2). La seconde est que ces paramtres sont des moments dordre 2 de moments dordre 2, donc des moments dordre 4 des donnes
originales 14 . La dmarche propose par Windmeijer (2005) permet dobtenir une
estimation convergente de la variance de lestimateur en deux tapes. Pour commencer, on remplace dans (7.16) y par X + . On obtient alors :


1

 1
>
(1) Z
(2) =
X > Z Z >
Z
X



(7.27)

1


>
(1) Z

X > Z Z >
Z

14. Voir Roodman (2009b) p.140.

120

Economtrie des donnes de panel avec R

De manire gnrale, on dfinit :




1

 1

=
g(y, )
X > Z Z > Z
Z > X


1



Z >

X > Z Z > Z

(7.28)

(1) ). La variance de (2) est donc celle de


ce qui implique que (2) = g(y,

(1) ). On ralise ensuite un dveloppement limit dordre 1 de g autour de


g(y,

la vraie valeur des paramtres . On note D le gradient de g valu pour la vraie


valeur des paramtres :

) |
D=
g(y,
=

Le dveloppement limit scrit alors :
(1) ) g(y,
) + D((1) )
g(y,

Or, ((1) ) = g(y, H). Par consquent, le dveloppement limit devient :


(1) ) g(y,
) + Dg(y, H)
g(y,

La variance de (2) est alors approxime par :


h
ih
i>

(2) g(y,
) + Dg(y, H) g(y,
) + Dg(y, H)
V
Soit encore :

(2)
V

)g(y, H)> D>


g(y,
)>
+ Dg(y, H)g(y,
)g(y,
)>
+ g(y,
+ Dg(y, H)g(y, H)> D>

(7.29)

par
(1) , g(y,
)g(y,
)> et g(y,
)g(y, H)>
En remplaant par
(1) et

h
i
1
(2) = X > Z(Z >
(1) Z)1 Z > X
sont tous les deux approxims par V
. De



(1)
1
. On obtient
= V
plus, g(y, H)g(y, H)> = X > Z(Z > HZ)1 Z > X
donc finalement lexpression de la matrice de variance robuste de lestimateur en
deux tapes :
(2)
(2) D> + DV
(1) D> + V
(2) + DV
(2)
V
=V
Lexpression de D est donne par Windmeijer (2005).
Exemple 7.8
La fonction vcov permet dobtenir lexpression classique et non convergente de
la variance et vcovHC permet dobtenir la version robuste (quations 7.26 pour le
modle en une tape et 7.29 pour le modle en deux tapes). Nous extrayions cidessous les carts-types des deux premiers coefficients pour le modle en diffrences
en deux tapes.

Chapitre 7. Estimation dun modle dynamique

121

> sqrt(diag(vcov(diff2)))[1:2]

lag(democracy)
0.04794953

lag(income)
0.04645903

> sqrt(diag(vcovHC(diff2)))[1:2]

lag(democracy)
0.10783032

lag(income)
0.06053787

On constate effectivement sur cet exemple que lexpression classique de la variance


de lestimateur semble biaise vers le bas. En effet, lcart-type robuste est nettement suprieur lcart-type classique.

7.4.2

Tests de validit des moments

Si P
les conditions de moments sont valides, le vecteur de moments empiriques m
=
1
>

est
desprance
nulle.
Si
cette
hypothse
est
vrifie,
la
statistique
Z
n
n n
N
de Wald :
m
> V(m)
1 m

suit un 2 J K degrs de libert. Ce test a t propos par Sargan (1958) et


appliqu aux modles des moments gnraliss par Hansen (1982).
Plusieurs versions de ce test peuvent tre obtenues selon :
que les rsidus du modle en une tape ou en deux tapes sont utiliss pour
approximer m
;
2
(1) Z) de la matrice de
que lestimation simple ( N2 Z > HZ)ou robuste ( N12 Z >

variance des moments est utilise.


Par exemple, le test portant sur le modle deux tapes utilisant lestimation
robuste de la matrice des moments est bas sur la statistique :
1
(2)> Z
N



(2)> Z

1
>
N 2 Z (1) Z



(1) Z
Z >

1

1

1 >
(2)
N Z

Z >


(2)

qui est la valeur de la fonction objectif du modle de moments gnraliss en deux


tapes value pour (2) .
Il est recommand, dans le cas du modle sys-gmm, de raliser un test de SarganHansen sur le sous-ensemble de conditions de moments qui concerne le modle
en niveau, afin de tester sparment la validit des hypothses supplmentaires
imposes pour que ce modle soit valide.
Exemple 7.9
Le test de Sargan-Hansen est ralis laide de la fonction sargan . Par exemple,
pour le modle en diffrences en une tape, on obtient :

122

Economtrie des donnes de panel avec R


> sargan(diff2)
Sargan Test
data:
chisq = 49.8814, df = 44, p-value = 0.251
> sargan(sys2)
Sargan Test
data:
chisq = 55.6784, df = 54, p-value = 0.4114

On a pour le modle en diffrences J = 55 (les 45 instruments gmm, la variable


de revenu et les 9 variables indicatrices de la priode) et K = 11 (lendogne
retarde, le revenu et les 9 variables indicatrices de la priode). Le nombre de
degrs de libert de ce test est donc de J K = 44. Lhypothse de validit des
moments pour ce modle est ici non-rejete.
Pour le modle en systme, le nombre dobservations utilises est de 10 (une de plus
que dans le modle en diffrence). Il y a donc un coefficient et un instrument en
plus (le coefficient associ la variable indicatrice de la priode supplmentaire),
et 10 instrument supplmentaires qui correspondent aux conditions de moments
pour les 10 observations du modle en niveau. On a donc J = 55 + 1 + 10 = 66 et
K = 11 + 1 = 12. Le nombre de degrs de libert est donc de J K = 66 12 = 44
et l aussi, lhypothse de validit des conditions de moment pour le modle gmm
en systme nest pas rejete.
Le test de Hansen-Sargan est particulirement sensible au problme de prolifration des instruments. Roodman (2009b) montre, en utilisant les tudes de Levine
et al. (2000) et de Forbes (2000), que la probabilit critique de ce test a tendance
tre trs leve, ce qui conduit ne pas rejeter lhypothse de validit des conditions de moments, alors que le mme test ralis sur des modles plus parcimonieux
en termes de nombre dinstruments peut conduire au rsultat oppos. Afin dillustrer ce rsultat, on calcule le test de Sargan sur les modles estims prcdemment
sur les donnes pour lesquelles il y a 7 observations de 25 pays.
> sapply(list(diff25, diff25lim, diff25coll),
+
function(x) sargan(x)[["p.value"]])
chisq
chisq
chisq
0.91890072 0.07104934 0.21531390

La probabilit critique pour le modle qui utilise toutes les conditions de moment
est proche de 1, alors que celles des deux autres modles sont bien infrieure ; en
particulier, pour le modle qui limite le nombre de retards 3, lhypothse de
validit des conditions de moment est rejete au seuil de 5%.

Chapitre 7. Estimation dun modle dynamique

7.4.3

123

Test dabsence dautocorrlation des innovations

La mthode des moments gnraliss nest convergente que si les conditions de


moments sont vrifies, ce qui implique en particulier que les innovations ne sont
pas auto-corrls. Arellano & Bond (1991) ont propos un test adapt cette
situation. Ce test est bas sur la statistique suivante :
1
>
l
al =
N
o l est le retard dordre l de . En utilisant lexpression du modle thorique
et du modle estim : y = X + = X +
, on obtient :

= X( )
En insrant cette expression dans la statistique de test, on obtient :



al = 1N > ( )> X > l X l ( )
= 1N > l

1
>
l

N ( )
N X
> 1

N ( ) N X > l

N ( )> 1 1 X > X l N ( )
+
N N

Cette expression se simplifie siN + en notant que :


tant convergent dordre N , N ( ) nest ni divergent, ni ne converge
vers 0 ;
si les variable explicatives ne sont pas post-dtermines, elles ne sont pas corrles avec les valeurs postrieures de . On a alors : N1 > X l 0 ;
N1 X > X l ne diverge pas.
ce qui implique que les deuxime et quatrime termes convergent vers 0. Le calcul
dun estimateur convergent de la variance de al peut donc tre bas sur celle de :

1  > l
bl =
( )> X > l
N
Un estimateur convergent de bl (et donc de al ) est :
1  l>
> l

)X

V(
)
l +
l> X V(

N

)
2
l> X(X > ZAZ > X)1 XZAZ > V(
l
La statistique de test est alors obtenue en divisant al par la racine carr de lexpression prcdente et elle suit une distribution normale si lhypothse dabsence
dautocorrlation est vrifie. Le modle tant exprim en diffrence, le test dautocorrlation dordre 1 nest pas pertinent car nt = nt n(t1) est corrl

124

Economtrie des donnes de panel avec R

avec n(t1) = n(t1) n(t2) du fait de la prsence de n(t1) dans les deux
diffrences successives. En revanche, le test dautocorrlation dordre 2 est pertinent, puisquil consiste analyser la corrlation entre nt = nt n(t1) et
n(t2) = n(t2) n(t3) , qui existe si n(t1) est corrl n(t2) , cest--dire
si les innovations en niveau prsentent une autocorrlation dordre 1.
Exemple 7.10
Le test dautocorrlation des innovations de Arellano & Bond (1991) est obtenu
laide de la fonction mtest . Largument order est ici fix 2 conformment la
remarque prcdente.
> mtest(diff2, order = 2)
Autocorrelation test of degree 2
data:
normal = 0.8809, p-value = 0.1892

Les rsultats dtaills du modle sont disponibles en utilisant la mthode summary


. Les tests prcdemment dcrits sont imprims et linfrence est ralise laide
de lestimateur robuste de la variance des coefficients si largument robust est vrai,
ce qui est la valeur par dfaut.
> summary(diff2)
Twoways effects Two steps model
Call:
pgmm(formula = democracy ~ lag(democracy) + lag(income) | lag(democracy,
2:99) | lag(income, 2), data = DemocracyIncome, subset = sample ==
1, effect = "twoways", model = "twosteps", index = c("country",
"year"))
Balanced Panel: n=211, T=11, N=2321
Number of Observations Used:
Residuals
Min.
1st Qu.
-1.301000 -0.003145

Median
0.000000

838

Mean
0.001891

3rd Qu.
0.000000

Max.
1.079000

Coefficients
Estimate Std. Error z-value Pr(>|z|)
lag(democracy) 0.5540073 0.1078303 5.1378 2.78e-07 ***
lag(income)
0.0018436 0.0605379 0.0305
0.9757
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Sargan Test: chisq(44) = 49.8814 (p.value=0.25098)
Autocorrelation test (1): normal = -4.457875 (p.value=4.1388e-06)
Autocorrelation test (2): normal = 0.8592423 (p.value=0.1951)
Wald test for coefficients: chisq(2) = 28.13308 (p.value=7.78e-07)
Wald test for time dummies: chisq(9) = 33.6682 (p.value=0.00010211)

Chapitre 7. Estimation dun modle dynamique

7.5

125

Exemples dapplication

Les articles utilisant la mthode des moments gnraliss en panel sont trs nombreux. Nous nous contenterons ici de dcrire ceux pour lesquels les donnes sont
disponibles dans les librairies plm et pder.
Ltude de Levine et al. (2000) vise analyser sil existe une relation de causalit
entre la qualit du systme financier (qui permet de limiter les asymtries dinformation et de faciliter les transactions) et la croissance conomique. A cet effet, ils
estiment un modle dans lequel la croissance conomique est estime en fonction
dun ensemble de variables de contrle et des caractristiques exognes du systme financier. Ils utilisent un panel de 74 pays pour lequel ils ont 7 observations
de priodes de 5 ans allant de 1960 1995. Le taux de croissance en logarithme
est rgress en fonction du niveau de richesse initiale en logarithme, et de trois
indicateurs de la qualit du systme financier : le degr de liquidit du systme
financier, le rapport entre les dpts des banques commerciales et la somme des
dpts des banques commerciales et de la banque centrale et le rapport entre les
crdits accords lconomie et le PIB. Les deux modles gmm en diffrences et
en systme sont estims et les trois indicateurs de la qualit du systme financier
ont une influence significativement positive sur la croissance, en particulier dans
le cadre de lestimation en systme. Roodman (2009b) revient sur cette tude en
sintressant au problme de prolifration des instruments, susceptible daboutir
une validation fallacieuse de lhypothse de validit des conditions de moments. En
particulier, dans ltude originale, la probabilit critique du test de Hansen pour
les conditions de moments du modle en niveau est de 0.97. Des spcifications diffrentes, plus conomes en termes de nombre dinstruments, utilises par Roodman
(2009b) donnent des rsultats bien diffrents. En effet, la probabilit critique est
de 0.001 et lhypothse de validit des conditions de moments supplmentaires du
modle en systme est rejete. Les donnes permettant de reproduire ces rsultats
sont disponibles sous le nom de FinGrowth dans la librairie pder.
Forbes (2000) sintresse linfluence de lingalit de la distribution des revenus
sur la croissance conomique. A cet effet, un panel de 45 pays pour 6 priodes
quinquennales allant de 1960 1995 est utilis. La croissance est estime en fonction du revenu par tte en logarithme retard dune priode, du coefficient de Gini
retard dune priode, du niveau dducation des hommes et des femmes et du niveau de prix de linvestissement. Plusieurs mthodes destimation sont utilises, en
particulier lestimateur gmm en diffrences de Arellano & Bond (1991). Le rsultat
principal de ltude est que le coefficient associ lindice de Gini est positif et
significatif au seuil de 5%. Ce rsultat est en contradiction avec beaucoup dtudes
ralises en coupe transversale qui concluent une relation ngative entre ingalit et croissance. Cette tude a t reprise par Roodman (2009b) afin dillustrer le
risque dutiliser des instruments faibles et nombreux. En effet, le coefficient autorgressif est proche de 1 et le nombre dinstruments est trs lev (80, alors quil ny
a que 138 observations). Roodman (2009b) utilise plusieurs autres spcifications
qui limitent le nombre dinstruments et, dans ce cas, lindice de Gini nest plus

126

Economtrie des donnes de panel avec R

significatif.
Caselli et al. (1996) sintressent lanalyse de la croissance conomique des pays
et en particulier au phnomne de convergence. Il partent des rsultats obtenus
dans de nombreuses tudes ralises en coupe transversale qui aboutissent pour
la plupart la conclusion que les pays convergent vers leur tat stationnaire un
taux trs faible, gal environ 2-3%. Leur argument est que ces tudes souffrent
de deux problmes de spcification : le premier est la non prise en compte de
la nature dynamique du modle et le second est la non prise en compte de la
possible endognit des variables explicatives. Les auteurs appliquent lestimateur
de Arellano & Bond (1991) sur un panel de 93 pays et 6 priodes quinquennales
de 1965 1985. Ils aboutissent un taux de convergence beaucoup plus lev, de
lordre de 10%. Bond et al. (2001) indiquent que les rsultats obtenus doivent tre
pris avec circonspection dans la mesure o la variable explique tant quasiment
une variable racine unitaire, les instruments utiliss dans le modle sont faibles.
Ils restiment le mme modle en utilisant lestimateur de Blundell & Bond (1998)
et ils obtiennent alors un taux de convergence beaucoup plus faible, de lordre de
2-4%.
Dans leur article fondateur, Arellano & Bond (1991) ont utilis des donnes de 140
entreprises britanniques de 1976 1984 afin destimer une quation de demande de
travail. Celle-ci est dynamique du fait de linclusion de deux retards de la variable
explique. Les autres variables explicatives utilises, elles aussi avec deux retards,
sont le taux de salaire, le stock de capital et le niveau de production. Ces donnes
ont t utilises dans de nombreux autres articles, en particulier Blundell & Bond
(1998), Windmeijer (2005) et Roodman (2009a). Elles sont disponibles sous le nom
de EmplUK dans la librairie plm.
Alonso-Borrego & Arellano (1999) mnent une tude sur des donnes similaires
concernant 738 entreprises espagnoles sur la priode 1983-1990. Un modle var
est utilis pour lemploi et le taux de salaire. Ces donnes sont disponibles sous le
nom de Snmesp dans la librairie plm.
Mairesse & Hall (1996), Blundell & Bond (2000) et Bond (2002) ont estim une
fonction de production Cobb-Douglas sur un panel de 509 entreprises amricaines
sur la priode 1982-1989. Les variables explicatives sont, en logarithme, lendogne
retarde et les deux facteurs de production (travail et capital) contemporains et
avec un retard. Les rsultats de Mairesse & Hall (1996), obtenus en utilisant lestimateur de Arellano & Bond (1991) sont surprenants : lhypothse de rendements
constants est rejete et le coefficient associ au capital est faible et non-significatif.
Blundell & Bond (2000) montrent que ces mauvais rsultats sont ds au fait que
les variables utilises sont proches dtre des processus de racine unitaire. Dans
ce cas, on sait que lestimateur gmm en diffrences donne de mauvais rsultat car
les instruments sont faibles. En revanche, les rsultats quils obtiennent en utilisant lestimateur en systme donne des rsultats plus plausibles (hypothse de
rendements constants non rejete et coefficient associ au capital significatif). Ces
donnes sont disponibles sous le nom de RDPerfCompanies dans la librairie pder.
Bond (2002) prsente un exemple destimation de modle autorgressif simple en

Chapitre 7. Estimation dun modle dynamique

127

utilisant une srie de taux dinvestissement pour 703 entreprises amricaines sur
la priode 1987-2000. Ces donnes sont disponibles sous le nom de InvRate dans
la librairie pder.
Kessler et al. (2011) sintressent linfluence des transferts inter-rgionaux dans
un Etat fdral sur les ingalits entre les rgions. Leur modle thorique prdit
que, contrairement lintuition, ces transferts peuvent aggraver les ingalits interrgionales. Ils utilisent des donnes pour 17 pays de lOCDE sur la priode 19821999, en utilisant en particulier la mthode destimation de Arellano & Bond
(1991). Les rsultats indiquent effectivement quun accroissement des transferts
aggrave les ingalits inter-rgionales. Ces donnes sont disponibles sous le nom
de RegIneq dans la librairie pder.

128

Economtrie des donnes de panel avec R

Chapitre 8

Modles linaires gnraliss et


assimils
Les modles linaires gnraliss constituent une famille de modles utiliss en
statistique. Ces modles sont caractriss par une fonction de distribution pour la
variable explique et inclue, comme cas particulier :
le modle gaussien, quivalent au modle linaire,
le modle binomial, pour lequel la variable explicative ne prend que deux valeurs ;
deux cas particuliers trs utiliss des modles binomiaux sont les modles logit
et probit,
le modle de Poisson, adapt au cas o la variable explique est une variable de
comptage.
En plus de ces modles, trs couramment utiliss en conomtrie, nous dcrivons
dans cette section dautres modles qui ne sont pas des modles linaires gnraliss
mais qui constituent des extensions naturelles de ceux-ci ; il sagit :
du modle tobit qui est un mlange du modle gaussien et du modle probit,
du modle ordonn, qui est une extension naturelle du modle binomial,
du modle negbin, qui est une extension du modle de Poisson.

8.1
8.1.1

Le modle binomial
Introduction

On considre une modle pour lequel la variable explique est binomiale, les deux
valeurs possibles tant notes 0 et 1. On dfinit une variable latente y , qui est
une variable continue inobservable. Cette variable latente est relie la variable
binomiale observe y par la rgle dobservation suivante :

130

Economtrie des donnes de panel avec R

y > y = 1
y y = 0
Sans perte de gnrait, on peut supposer que = 0. La valeur de la variable
latente est la somme dune combinaison linaire de variables explicatives et dun
terme derreur.
y = > x + 
Les probabilits associes aux deux valeurs possibles de la variable explique sont
alors :
P (y = 0) = P ( > x)
P (y = 1) = P ( > > x)
En notant F la fonction de densit cummule de , nous avons :
P (y = 0) = F ( > x)
P (y = 1) = 1 F ( > x) = F ( > x)
la dernire expression tant valable si la densit de  est symtrique. En notant
q = 2y 1, qui est gal 1, +1, la probabilit peut tre exprime en utilisant
lexpression compacte suivante :
P (y) = F (q > x)
La moyenne et la variance de la variable latente ne sont pas identifies. Deux
fonctions de distribution sont couramment utilises. La distribution normale :
Z
2
1
e
F () = () =
2

qui conduit au modle probit et la distribution logistique :


F () = () =

e
1 + e

qui conduit au modle logit.


La fonction de log de vraisemblance scrit :
X
ln L =
ln Fi
i

avec :

Chapitre 8. Modles linaires gnraliss et assimils

131

Fi = F (zi ) and zi = qi > xi


Le gradient est :
ln L X fi
=
q i xi

Fi
i
et la hessienne :
X
2 ln L
=
>

fi0

Fi

fi
Fi

2 !

qi2 xi x>
i

Pour le modle logit, ces deux expressions deviennent :


ln L X
1
=
qi xi

1
+
ez i
i
X ezi
2 ln L
=
q 2 x x>
>
zi i i i

1
+
e
i
alors que pour le modle probit, on obtient :
ln L X i
=
qi xi

i
i

X i 
i
2 ln L
=
zi +
qi2 xi x>
i
>

i
i
i

8.1.2

Panel

Dans le cas de donnes de panel, nous disposons dobservations rptes de y pour


les mmes individus. La variable latente est alors dfinie par :

ynt
= > xnt + n + nt

Le terme derreur est classiquement la somme de deux composantes, un effet individuel n et un terme isiosyncratique nt . Deux observations du mme individu
sont alors corrles du fait de la prsence de n . Si le vecteur contient une
constante, on peut suposer sans perte de gnralit que E() = 0.

ynt
= > xnt + n + nt

Pour une valeur donne de n , la probabilit est dfinie comme prcdemment


pour une observation :
P (ynt | n ) = F qnt ( > xnt + n )

132

Economtrie des donnes de panel avec R

La probabilit jointe des diffrentes ralisations de y pour les diffrentes priodes


pour lindividu n scrit :

P (yn1 , yn2 , . . . , ynT | n ) =

T
Y


F qnt ( > xnt + n )

t=1

La probabilit non conditionelle est obtenue en intgrant cette expression. En


supposant que la distribution de est normale, on obtient :
Z
Ln =

T
+ Y

 1
2
e0.5( ) d
F qnt ( > xnt + )
2
t=1

d
v=
dv =
2
2

1
Ln =

T
+ Y




2
F qnt ( > xnt + 2v) ev dv

t=1

Il ny a pas dexpression analytique pour cette intgrale, mais elle peut tre approxime numriquement de manire efficace en utilisant les quadrature dHermite.
On a alors :
R
T
R


Y

1 X
1 X
wr
F qnt ( > xnt + 2vr ) =
wr Fir
Ln =
r=1

t=1
r=1

avec : Fir =

QT

t=1

F qnt ( > xnt +


2vr )

r
gnt
=

hrnt =

r
ln Fnt
r
znt

r
2 ln Fnt
2
r
znt

Le gradient et la hessienne sont, en notant = (, ) lensemble des paramtres


estimer :
" ( T

)#
R
X
ln Ln
1 X r
x
nt
r
=
F wr
qnt gnt
2vr

Ln r=1 n
t=1

Chapitre 8. Modles linaires gnraliss et assimils

2 ln Ln
>

8.1.3

133

" T


R
X 2

1 X r
xnt
r
r

=
x>
,
2vr
Fn w r
qnt hnt
nt
2vr
Ln r=1
t=1
!#
! X

T
T


X

x
nt
r
r

x>
ant gnt
+
ant gnt
nt , 2vr
2vr
t=1
t=1

>

ln Ln
ln Ln

Application

Brender & Drazen (2008) se sont intress linfluence de la politique budgtaire


sur la rlection des hommes politiques. Plus prcisment, il est souvent suggr
que lorsquune chance lectorale approche, les hommes politiques en place ont
tendance mener une politique budgtaire plus gnreuse, cest--dire rduire
les impts et/ou augmenter les dpenses. Dans cet article, un panel de 75 pays
est utilis, avec un nombre dobservations compris entre 1 et 16. Au sein de cet
chantillon, un sous-ensemble dobservations est isol lorsque lhomme politique
au pouvoir se reprsente (pour les autres observations, on analyse si le parti au
pouvoir est rlu ou non). Ce sous-chantillon peut tre slectionn laide de la
variable logique narrow. La variable explique est reelect qui vaut 1 en cas de
rlection et 0 autrement. Les deux variables explicatives cruciales sont ddefterm
et ddefey qui mesure le ratio dexcdent budgtaire, dans le premier cas pour
les deux annes prcdent llection par rapport aux deux annes prcdentes et
dans le second cas pour lanne de llection par rapport lanne prcdente. Les
variables de contrle sont le taux de croissance du pib durant le mandat gdppc,
le fait que le pays soit en dveloppement ou non dev, le fait quil soit nouvellement
une dmocratie nd et le fait que le systme lectoral soit majoritaire ou non maj.
> library("pglm")
> data("Reelection", package="pder")

Les rsultats du modle logit effets alatoires est donn ci-dessous :


> summary(elect.ea <- pglm(reelect~ddefterm+ddefey+gdppc+dev+nd+maj, Reelection,
+
family=binomial(link=logit), subset = narrow))

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 8 iterations
Return code 1: gradient close to zero
Log-Likelihood: -163.4349
8 free parameters
Estimates:
Estimate Std. error t value Pr(> t)

134

Economtrie des donnes de panel avec R


(Intercept) -1.53702
0.48947 -3.1402 0.001689
ddefterm
14.08614
8.21124 1.7155 0.086259
ddefey
13.79305
6.99844 1.9709 0.048738
gdppc
19.37953
7.61767 2.5440 0.010958
dev
0.89268
0.42963 2.0778 0.037728
nd
0.80960
0.43940 1.8425 0.065402
maj
0.84695
0.38076 2.2243 0.026126
sigma
0.84054
0.34604 2.4290 0.015140
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
--------------------------------------------

**
.
*
*
*
.
*
*
. 0.1 1

On constate que la probabilit de rlection est plus forte dans les pays en dveloppement, dans les pays nouvellement dmocratique et pour les systmes lectoraux
majoritaires. Le taux de croissance du pib a galement leffet positif attendu sur la
probabilit de rlection. Concernant la politique budgtaire, les coefficients associs aux deux variables indiquant la variation du surplus budgtaire lapproche de
llection sont positifs ; cela signifie quune politique budgtaire lectoraliste na
pas deffet positif systmatique sur la rlection. A linverse, les rsultats indiquent
que les lecteurs auraient plutt tendance pnaliser ce type de politique.

8.2
8.2.1

Modle ordonn
Introduction

Un modle ordonn est un modle pour lequel la variable explique peut prendre
J valeurs (avec J > 2). La modlisation est similaire au modle binomial. On
considre une variable latente, gale comme prcdemment la somme dune combinaison linaire de variables
explicatives et dun terme derreur :
y = > x + 
Notons = (1 , 1 , . . . , J , J+1 ) un vecteur de paramtres, avec 1 = et
J+1 = +. La rgle dobservation pour les diffrentes valeurs de y scrit alors :
y
y

= 1
= 2
..
.

..
.

y
y

= J 1
= J

J1

1
2

..
.

>x + 
>x + 
..
.

2
3

>x + 
J
> x +  J+1

En notant F la fonction de densit cummulative de , la probabilit associe une


valeur de y scrit :
P(y = j) = F (j > x) F (j1 > x)

Chapitre 8. Modles linaires gnraliss et assimils

135

The probability of the outcome yn for the individual n can be writen :


Pyn = P(y = yn ) = F (yn +1 > xn ) F (yn > xn )
The gradient and the hessian are, denoting = (, ) the complete set of the
parameters, wh a vector of J + 1 elements which are all zero except at the h
0
position and f the derivative of the density function f :




ln Ln
fyn +1
fyn
xn
xn
=

wyn +1
wyn

Pyn
Pyn
2 ln Ln
>

xn
wyn +1

ln Ln



8.2.2

>
x>
n , wyn +1

ln Ln

 fyn +1

Py n

xn
wyn

>
x>
n , wyn

 fyn
Py n

>

Panel

Le raisonnement est similaire celui adopt pour le modle binomial. La probabilit jointe pour un individu n pour une valeur donne de leffet individuel est :

P (yn1 , yn2 , . . . , ynt | n ) =

T
Y



F ynt +1 > xnt n F ynt > xnt n
t=1

En supposant que la distribution des effets individuels est normale, la probabilit


non conditionelle scrit :

Z
Ln =

T
+ Y


t=1


 1
2
F ynt +1 > xnt n F ynt > xnt n
e0.5( ) d
2

En utilisant le mme changement de variable que prcdemment, on obtient :

1
Ln =

T h
+ Y




i

2
F ynt +1 > xnt 2v F ynt > xnt 2v ev dv

t=1

que lon peut approximer en utilisant les quadrature de Gauss-Hermite :


R
T h 


i
Y

1 X
Ln =
wr
F ynt +1 > xnt 2vr F ynt > xnt 2vr
r=1
t=1

136

Economtrie des donnes de panel avec R

En notant :
r

znt = ynt > xnt 2vr

mrnt = m(z

nt )
xn

= wynt
Mnt

2vr

+r
znt
= ynt +1 > xnt 2vr
+r
m+r
nt = m(z

nt )
xn
r+
Mnt = wynt +1
2vr

R
T
Y
 +r

1 X
r
Ln =
wr
Fnt Fnt
r=1
t=1


QT  +r
r
Fnt
avec > = ( > , > , ) le vecteur complet de paramtres estimer, Fnr = t=1 Fnt
+r
+r
r
r
ln[Fnt
Fnt
2 ln[Fnt
Fnt
] r
]
r
=
gnt
, hnt =
le gradient et la hessienne scrivent :
z r
z r 2
nt

nt

R
X

1
ln Ln
=

Ln

ln Ln
>

Ln

R
X

r=1

wr Pnr

e+r
ynt

t=1

r
Fy+r
nt Fynt

8.2.3

ln Ln

r
fyrnt Mnt

Fy+r
nt


ln Ln

r
r
gnt
Mnt

T
X

!>
+r
+r
gnt
Mnt

r
r
gnt
Mnt

t=1
>

r
r
gnt
Mnt

!
+r
+r
gnt
Mnt

+r
+r
Mnt
Mnt

+r
Mnt
fy+r
nt

)
+r
+r
gnt
Mnt

t=1

t=1

T
X
t=1

T
X

r=1

T
X

T
X

(
wr Fnr

T
X

erynt

t=1

r
Fy+r
nt Fynt

r
r >
Mnt
Mnt

+r
r
Mnt
fyrnt Mnt
fy+r
nt
2
Fyrnt

> !)

>

Application

Raux et al. (2009) ont analys lquit perue de diffrents type de rationnement
de la demande laide dune enqute dans laquelle les individus devaient indiquer
sur une chelle ordinale leur avis sur une proposition de rationnement concernant
soit lallocation de places de TGV, soit de places de parking. La variable explique
answer prend des valeurs entires de 0 (trs injuste) 3 (trs juste). La principale
variable explicative indique le type de rationnement propos : tarification de pointe
peak, rgle administative admin, tirage au hasard lottery, offre complmentaire
addsupply, file dattente queuing, rgle morale moral et rgle de compensation
compensation. Les autres variables explicatives indique que le rationnement est
rcurrent ou non reccuring, que la personne interroge a un diplme education
et quelle dispose ou non dun permis de conduire driving. Lestimation suivante

Chapitre 8. Modles linaires gnraliss et assimils

137

est un probit ordonn pour le bien parking en prenant en compte linteraction


entre le type de rgle et lducation.
> data(Fairness, package = pglm)
> op <- pglm(as.numeric(answer)~recurring+driving+education+rule,
+
data= Fairness,subset=good==parking,
+
family=ordinal(probit), R=10, index=id,
+
model="random")
> summary(op)

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 5 iterations
Return code 1: gradient close to zero
Log-Likelihood: -2705.814
13 free parameters
Estimates:
Estimate Std. error t value
Pr(> t)
(Intercept)
-0.268592
0.072483 -3.7056 0.0002109 ***
recurringyes
-0.077394
0.059175 -1.3079 0.1909119
drivingno
0.255440
0.079863 3.1985 0.0013816 **
educationno
-0.308525
0.105204 -2.9326 0.0033610 **
ruleadmin
-0.066439
0.088131 -0.7539 0.4509275
rulelottery
0.238053
0.086215 2.7612 0.0057594 **
ruleaddsupply
1.221326
0.085302 14.3177 < 2.2e-16 ***
rulequeuing
1.847690
0.088629 20.8476 < 2.2e-16 ***
rulemoral
2.836708
0.098330 28.8487 < 2.2e-16 ***
rulecompensation 2.622407
0.095999 27.3170 < 2.2e-16 ***
mu_1
1.018679
0.037790 26.9566 < 2.2e-16 ***
mu_2
2.515460
0.058926 42.6888 < 2.2e-16 ***
sigma
0.529240
0.050331 10.5152 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------

8.3
8.3.1

Modle tobit
Introduction

On considre dsormais une variable y qui est censure gauche en 0. Sa relation


avec la variable latente continue y est alors la suivante :
y 0 y = 0
y > 0 y = y
Les mmes hypothses que prcdemment sont faites sur la variable latente, cest-dire y = > x + , avec  N (0, 2 ). La contribution dune observation la

138

Economtrie des donnes de panel avec R

vraisemblance dpend alors du fait que cette observation soit nulle ou positive.
Pour une observation nulle, il sagit dune probabilit :


>x
P(y = 0) =

alors que pour une observation positive, il sagit de la densit :
1
f (y) =


y >x


En notant In0 et In+ deux variables indicatrices qui valent respectivement 1 si


lobservation est nulle et positive et 0 autrement, la contribution dune observation
la fonction devraisemblance est alors :
 
In0 

In+
> xn
yn > xn
1




ce qui conduit la fonction de log de vraisemblance :




n 
X
1 (yn > xn )2
> xn
1
2
+
0
ln(2 ) +
In
ln L =
In ln

2
2
2
i=1
Le gradient et la hessienne ont pour expression :
ln Ln
=

ln Ln
=
2

In0 n
yn en
+ 2
 n


In0 > xn n
In+

23 n
22


xn


1

e2n
2





 
1
n n
> xn
2 ln Ln
0
=

+
+
y
xn x>
I

n
n
>
2 n

n n
2 ln Ln
=
2

In0





1 n
> xn
n n > x n
+ en

I
xn
+

+
n 4
2 3 n

n n 2 4

2 ln Ln
1
=
4

24

e0n



 

n
n
0
0
+
+2
3 en +
en + In (1 2 en
n
n

Chapitre 8. Modles linaires gnraliss et assimils

8.3.2

139

Panel

En cas dobservation rptes pour les mmes individus, on dcompose comme


prcdemment lerreur en la somme dun effet individuel et dun terme isiosyncra
tique : n : ynt
= > xnt + n + nt , avec  N (0, 2 ) et N (0, 2 )
La probabilit jointe dobserver le vecteur yn = yi1 , . . . , ynt pour lindividu n pour
une valeur donne de leffet individuel est :
( 

1ynt 
ynt )
T
Y
ynt > xnt n
1
> xnt + n

P(yn | n ) =




t=1
La probabilit non conditionnelle sobtient en intgrant lexpression prcdente
par rapport leffet individuel :
P(yn ) = q

1
22

P(yn | n )e

1
P(yn ) =

+ Y

t=1

2

En utilisant le changement de variable z =

12

> xnt +

,
2

22 z

on obtient :

1ynt

1



ynt > xnt

22 z

qui peut tre approxim par la quadrature de Gauss-Hermite :

P(yn )

( 

2 1ynt 
2 
> xnt + 2
ynt > xnt 2
vr
vr
1

t=1




PR

wr

PR

r
wr Pnt

r=1
r=1

QT

avec :

r
ln Pnt


q
q

T
> xnt + 22 vr
ynt > xnt
X

2
0.5ynt
=
(1 ynt ) ln
ln(2 ) +

2

t=1

Le gradient scrit :


R
  x
X
p
ln Ln
1
(1 ynt ) rnt
ynt 
nt
r
2v

=
w
P

+
e

2
nt
r nt
 r
2vr
(, 2 )

rnt
2
2Ln r=1

140

Economtrie des donnes de panel avec R


p
2

>
ent 22 v
r
2
v
)
(1

y
)(
x
+
1
ln Ln
ynt
nt
nt
r nt
r
=
2 1
wr Pnt
3/2

2
rnt
2
2
2Ln r=1
2

R
X

8.3.3

Application

Porto & Revelli (2012) se sont intress aux dterminants du niveau dune taxe
rgionale sur les automobiles en Italie. Les donnes concernent une panel constitu des 100 rgions italiennes sur 7 ans (2000-2007). La variable explique tax
est censure car certaines rgions certaines annes ont choisi de ne pas appliquer
cette taxe. Les variables explicatives sont le fait quil y ait ou non une lection
rgionale election, le fait que le gouvernement rgional soit ou non de droite
right, le montant de subventions reu par la rgion grants en euros par tte, le
revenu rgionale par tte income et le nombre de vhicules immatriculs lanne
prcdente vehicules.
> data("VehiculeTax", package="pder")

On commence par analyser la variable explicative :


> mean(VehiculeTax$tax)
[1] 16.52429

> prop.table(table(VehiculeTax$tax == 0))

FALSE
TRUE
0.8785714 0.1214286

Le taux de taxe moyen est de 16.5% et il est nul pour 12% des observations.
Lestimation du modle tobit effets alatoires nous donne :
> summary(z <- pglm(tax~right+log(grants)+log(income)+vehicules+election,
+
VehiculeTax, family="tobit", R=30))

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 4 iterations
Return code 1: gradient close to zero
Log-Likelihood: -2055.443
8 free parameters
Estimates:
Estimate Std. error t value
Pr(> t)
(Intercept) -9.70268
6.77223 -1.4327 0.1519389
rightyes
-2.36868
0.86185 -2.7484 0.0059890 **

Chapitre 8. Modles linaires gnraliss et assimils

141

log(grants) 1.96307
0.51455 3.8151 0.0001361 ***
log(income) 6.54658
2.22255 2.9455 0.0032241 **
vehicules
-3.34148
1.26429 -2.6430 0.0082182 **
election
0.10314
0.51589 0.1999 0.8415450
sd.eps
4.96077
0.15649 31.7012 < 2.2e-16 ***
sd.mu
5.68479
0.51949 10.9431 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------

8.4
8.4.1

Poisson
Introduction

On considre dsormais un modle pour lequel la variable explique est une variable
de comptage. Nous supposons dans un premier temps que la distribution de y est
une loi de Poisson de paramtre n (qui est la fois la moyenne et la variance
de la variable). Avec cette hypothse de distribution, la probabilit associe yn
scrit :
P (yn ) =

en nyn
yn !

En utilisant le lien logarithmique, le paramtre de Poisson est une fonction loglinaire des variables explicatives :
n = e

>

xn

Ce qui conduit la probabilit suivante pour lobservation n.


P (yn | xn ) =

ee

> xn

e
yn !

>

xn yn

En prenant cette probabilit en logarithmes et en sommant pour lensemble des


individus, on obtient la fonction de log de vraisemblance suivante :
ln L =

n
X

>

xn

i=1

n
X
i=1

> xn yn

n
X
i=1

Le gradient et la hessienne scrivent :


n


>
ln L X 
=
yn e xn xn

i=1
n
X
>
ln L
=

e xn xn x>
n
>

i=1

ln yn !

142

8.4.2

Economtrie des donnes de panel avec R

Panel

En cas dobservations rptes pour les mmes individus, on crit dsormais le


paramtre de Poisson pour lindividu n la date t de la manire suivante :
nt = n nt = n e

>

xnt

ce qui signifie que lon suppose que leffet individu est multiplicatif. Pour une valeur
donne de cet effet individuel, la probabilit associe ynt scrit :
P(ynt | xnt , n , ) =

ynt
ent nt
en nt (n nt )ynt
=
ynt !
ynt !

PT
Soit Yn = t=1 ynt la somme des ralisations de la variable pour lensemble des
PT
priodes pour lindividu n et n = t=1 nt la somme des paramtres de Poisson.
La somme de variables de Poisson est une variable de Poisson dont le paramtre
est gal la somme des paramtres des variables sommes. Par consquent, nous
avons :
P(Yn | xn , n , ) =

en n (n n )Yn
Yn !

(8.1)

Soit yn = (yi1 , yi2 , . . . , ynt ) le vecteur de ralisations de y pour lindividu n. On a


alors :

P(yn | xn , n , ) =

en

PT

t=1

nt

QT

QT

t=1

t=1 (n nt )

ynt !

ynt

en i nYn
=
QT

t=1

QT

t=1

ynt !

yntnt

(8.2)

En appliquant le thorme de Bayes, on a :


P(yn | xn , n , ) = P(yn | xn , n , , Yn )P(Yn | xn , n , )
i.e. la probabilit jointe des lments de yn est le produit de la probabilit conditionnelle de yn compte tenu de la somme des ralisations Yn et de la distribution
marginae de Yn . Cette probabilit conditionnelle scrit :
P(yn | xn , n , , Yn ) =

P(yn | xn , n , )
P(Yn | xn , n , )

ce qui implique :
P(yn | xn , , Yn ) =

T
Yn ! Y yntnt
Ynn t=1 ynt !

(8.3)

Yn est une statistique suffisante, ce qui signifie quelle permet dliminer leffet individuel. En prenant le logarithme de cette expression et en sommant pour
lensemble des individus, on obtient le modle de Poisson within :

Chapitre 8. Modles linaires gnraliss et assimils

n
X

ln L(y | x, , Y ) =

ln Yn ! Yn ln

T
X

nt +

t=1

i=1

T
X

143

!
(ynt ln nt ln ynt !)

(8.4)

t=1

Pour obtenir le modle between et le modle effets alatoires, on doit intgrer


les probabilits pertinentes (8.1 et ?? respectivement), en faisant une hypothse de
distribution pour ces effets indivduels. Comme ceux-ci sont ncessairement positifs,
un choix de distribution naturel est une distribution gamma, dont la densit scrit :
f (x, a, b) =

ab ax b1
e
x
(b)

avec
Z
(z) =

tz1 et dt

la fonction . Lesprance et la variance de x sont respectivement :


b
b
and V(x) = 2
a
a
Si le modle contient une constante, lesprance nest pas identifie et on peut
donc, sans restriction, supposer quelle est gale 1, ce qui implique que a = b.
On obtient ainsi une distribution de gamma un paramtre (not ) :
E(x) =

f () =

1
e

()

En intgrant les probabilits conditionelles (8.1 et ??), on obtient les probabilits


non-conditionelles pour les modles between et pour le modles effets alatoires :
Z

P(Yn | xn , ) =

P(Yn , xn , , )f ()d =
0
+

Z
P(yn , xn , ) =

P(yn , xn , , )f ()d =
0

n Yn
(Yn + )
Yn ! () (n + )Yn +

T
Y
yntnt
(Yn + )
Y +
y
!
()
(
nt
n + ) n
t=1

ce qui conduit aux fonctions de log de vraisemblance pour les deux modles :
ln L(Y | x, )

ln L(y | x, )

Pn

nt ln Yn ! + ln 
i
PT
ln () + ln (Yn + ) (Yn + ) ln

t=1 nt

Pn

i=1

[Yn ln

(ynt ln nt ln ynt !) + ln


i
PT
ln () + ln (Yn + ) (Yn + ) ln
t=1 nt +
i=1

(8.5)

(8.6)

144

Economtrie des donnes de panel avec R

8.4.3

Application

Drakos (2007) sest intress la mesure des actions terroristes. Plus prcisment,
lhypothse teste est quil y a un biais vers le bas dans la publicit faite par les
autorits sur les actions terroristes menes sur leur sol et que ce biais est dautant
plus important que le pays est peu dmocratique, et en particulier que la libert
de la presse nest pas respecte. A cet effet, on souhaite estimer un modle dans
lequel la variable explique est le nombre dactions terroristes (incidents) et les
deux variables explicatives polity qui est un index de rgime politique qui varie de
-10 (rgime trs autocratique) +10 (rgime trs dmocratique) et press qui est
une variable catgorielle avec trois modalits : notFree, partlyFree et Free.
> data("Terrorism", package="pder")

On commence par estimer le modle effets alatoires, qui est le modle par
dfaut :
> ea <- pglm(incidents~polity+press, data = Terrorism,
+
index = c("country", "year"), family = poisson)
> summary(ea)

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -4251.775
5 free parameters
Estimates:
Estimate Std. error t value
Pr(> t)
(Intercept)
0.5672487 0.1388095 4.0865 4.379e-05 ***
polity
0.0686051 0.0070205 9.7721 < 2.2e-16 ***
presspartlyFree 0.0221862 0.0602074 0.3685
0.7125
pressFree
0.1376516 0.0752343 1.8296
0.0673 .
sigma
0.3977339 0.0451065 8.8177 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------

Le coefficient associ la variable polity est de signe positif et est trs significative. Les coefficients associs aux trois modalits de la variable press sont classs
conformment ce qui tait attendu. Pour tester la significativit de cette variable,
on peut raliser un test de Wald :
> stpress <- as.numeric(coef(ea)[3:4]%*%solve(vcov(ea))[3:4,3:4]%*%coef(ea)[3:4])
> stpress

[1] 5.685158

qui suit, sous H0 un chi-deux 2 degrs de libert. La probabilit critique est :

Chapitre 8. Modles linaires gnraliss et assimils

145

> pchisq(stpress, df = 2, lower.tail = FALSE)

[1] 0.05827518

Lhypothse que la variable press na pas dinfluence nest pas rejete au seuil de
5%, mais elle lest au seuil de 10%.
Les autres modles (pooling, within et between) sont aisment estim en mettant
jour le modle prcdemmment estim :
>
>
>
>

po <- update(ea, model="pooling")


wi <- update(ea, model="within")
be <- update(ea, model="between")
summary(wi)

-------------------------------------------Maximum Likelihood estimation


Newton-Raphson maximisation, 3 iterations
Return code 1: gradient close to zero
Log-Likelihood: -3673.82
3 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
polity
0.068894
0.007416 9.2899 < 2e-16 ***
presspartlyFree 0.010625
0.060334 0.1761 0.86021
pressFree
0.127728
0.075556 1.6905 0.09093 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------

Les rsultats des modles within et effets alatoires sont trs proches, ce qui doit
tre le cas en labsence de problmes de corrlation entre leffet individuel et les
variables explicatives.

8.5
8.5.1

Negbin
Introduction

Les variables de comptage prsentent souvent un phnomne de dispersion excdentaire, ce qui signifie que la variance est souvent suprieure la moyenne. Dans
ce cas, le modle NegBin est une alternative intressante au modle de Poisson.
Ce modle, dans un contexte de coupe transversale, est trs similaire au modle
de Poisson erreurs composes.
Supposons que yn est une variable alatoire qui suit une distribution de Poisson
>
de paramtre n = n n avec n = e xn si le lien est logarithmique, n tant
une variable alatoire.
La probabilit conditionelle pour yn est :

146

Economtrie des donnes de panel avec R

P(yn | xn , n , ) =

en n (n n )yn
en nyn
=
yn !
yn !

On suppose que n suit une distribution gamma et, comme on la vu prcdemment, la moyenne nest pas identifie de fait quune distribution un paramtre
est choisie, qui impose une moyenne unitaire.
f () =

1
e

()

En intgrant la probabilit conditionelle en uilisant cette fonction de densit, on


obtient :
Z

P (yn | xn ) =
0


P (yn | xn ) =

n
n + n

ei (i )yi 1
e
d
yi !
()
n 

n
n + n

yn

(yn + n )
(yn + 1)(n )

Pour comprendre la signification de n , on calcule les deux premiers moments de


yn . Tout dabord, pour une valeur donne de n , on a toujours : E(yn | n ) =
V(yn | n ) = n = n n . Lesprance non-conditionelle est : E (n ) = n car
lesprance de est gale 1.
Pour calculer la variance non-conditionelle, on applique la rgle de la variance :
V(yn ) = E (n ) + V (n ) = n +

1 2

n n

Une formule gnrale pour n est :


n =

2k
n

Pour k = 1, on obtient le modle Negbin1, avec n = n / et V(yn ) = n (1 + ).


Dans ce cas, la variance est proportionelle la moyenne.
Pour k = 2, on obtient le modle Negbin2, avec n = 1/ et V(yn ) = n + 2n .
Dans ce cas, la variance est une fonction quadratique de la moyenne.

8.5.2

Panel
(nt + ynt )
(nt )(ynt + 1)
t=1

(n )(Yn + 1)
(n + Yn )

(8.7)

(n + Yn ) (a + b)(a + n )(b + Yn )
(n )(Yn + 1) (a)(b)(a + b + n + Yn )

(8.8)

P(yn | xn , , Yn ) =

P(Yn | xn , ) =

T
Y

Chapitre 8. Modles linaires gnraliss et assimils

(a + b)(a + n )(b + Yn )
P(yn , xn , ) =
(a)(b)(a + b + n + Yn )

T
Y

(nt + ynt )
(nt ) + (ynt + 1)
t=1

147

!
(8.9)

148

Economtrie des donnes de panel avec R

Chapitre 9

Racines unitaires et
cointgration
9.1

Introduction

La dtection de la prsence de racines unitaires et de relations de cointgration est


devenue un sujet phare de la macro-conomtrie. Les techniques utilises dans le
cadre de sries temporelles ont t adaptes au cas de donnes de panel. Nous commencerons par rappeler les principaux rsultats concernant les sries temporelles
avant de prsenter ces techniques.
On considre une variable yt pour laquelle on suppose un processus autorgressif
dodre 1 :
yt = yt1 + x>
t + t
Le vecteur de variables explicatives peut contenir un 1, un trend linaire et diffrentes variables explicatives. Pour simplifier, on supposera par la suite que = 0,
on sintresse donc un processus autorgressif pur. Concernant lerreur (appele
aussi dans ce contexte linnovation), nous supposerons quelle est desprance nulle
et dcart-type . Par substitutions successives, on obtient :
yt = t y0 + t1 1 + t2 + . . . + t1 + t
Si y0 est dterministe et les  ne sont pas corrls, la variance de yt scrit :
V(yt ) = (t1 + t2 + . . . + + 1) 2
Si 6= 1, on a :
V(yt ) =

1 t 2
1

2
1
1

150

Economtrie des donnes de panel avec R

En revanche, si = 1, on a V(yt ) = t 2 , la variance augmente avec t et tend vers


linfini, la srie nest pas stationnaire, on dit quelle prsente une racine unitaire.
La prsence de racine unitaire prsente plusieurs problme, le principale tant celui
des rgressions falacieuses. En prsence de racine unitaire, une srie prsente une
sorte de tendance, qui nest pas une tendance dterministe mais stochastique, et le
prsence de tendances de ce type sur deux sries prsentant des racines unitaires
peut faire apparatre une corrlation artificielle entre deux variables. Sur la figure 9.1 on prsente deux sries autorgressives avec = 0.2 et = 1. On constate
que dans le premier cas, le processus autoregressif se traduit par une corrlation
entre les valeurs successives de yt , en particulier si yt1 < 0, il y a plus de chances
que yt soit ngatif que positif. Cependant, la courbe reprsentative de y coupe
malgr tout frquemment laxe des abcisses. Dans le cas dune racine unitaire en
revanche, on voit clairement la prsence dun trend stochastique (ici la hausse),
yt ne change de signe quune seule fois et la plupart des valeurs de y sont positives.

10

20

30

40

10

20

30

40

Fig. 9.1 Courbe reprsentative pour un processus autoregressif

Pour illustrer limportance du phnomne de rgressions fallacieuses, on mne


un exercice de simulations ; on cr deux sries indpendantes autorgressives,
on rgresse lune par rapport lautre et on rcupre la statistique de student
correspondant lhypothse HO : = 0. Cette hypothse est ici vraie et, dans un
contexte normal, cela signifie que, dans 95% des cas, on doit avoir une statistique
infrieure 2 en valeur absolue. Commenons par illustrer ce rsultat pour = 0.2.
A cet effet, on utilise 2 fonctions : autoreg gnre une srie autoregressive, tstat
ralise une estimation et rcupre la statistique de Student :
> autoreg <- function(rho = 0.1, T = 100){
+
e <- rnorm(T)

Chapitre 9. Racines unitaires et cointgration


+
+
+
>
+
+
+
+
+
>
>
>
>

151

for (t in 2:(T)) e[t] <- e[t]+rho*e[t-1]


e
}
tstat <- function(rho = 0.1, T = 100){
y <- autoreg(rho, T)
x <- autoreg(rho, T)
z <- lm(y ~ x)
coef(z)[2] / sqrt(diag(vcov(z))[2])
}
result <- c()
R <- 1000
for (i in 1:R) result <- c(result, tstat(rho = 0.2, T = 40))
quantile(result, c(0.025, 0.975))

2.5%
-2.114024

97.5%
1.990031

> prop.table(table(abs(result) > 2))

FALSE TRUE
0.943 0.057

On constate que les quantiles empiriques sont trs proches des valeurs attendues et
le pourcentage de cas o une relation significative entre les deux variables apparat
est de lordre de 5%. Faisons maintenant la mme exprience avec deux sries
contenant une racine unitaire :
>
>
>
>

result <- c()


R <- 1000
for (i in 1:R) result <- c(result, tstat(rho = 1, T = 40))
quantile(result, c(0.025, 0.975))

2.5%
-9.158448

97.5%
8.227059

> prop.table(table(abs(result) > 2))

FALSE TRUE
0.379 0.621

En se fiant la statistique de Student habituelle, on retient dsormais la conclusion


quil existe une relation significative entre les deux variables dans deux tiers des
cas, alors que ces variables sont par constructions indpendantes.
Il est donc crucial de dceler la prsence de racines unitaires ; autrement, le risque
est grand dobtenir des rsultats faussement significatifs lorsque lon ralise des
estimations sur sries temporelles. Pour cela, le plus simple est dcire le modle
autorgressif en en enlevant de chaque ct yt1 . On a alors :

152

Economtrie des donnes de panel avec R

yt = ( 1)yt1 + t
Le test de prsence de racine unitaire se ramne alors un test que le coefficient
estim associ yt1 lorsque la variable explique est yt est nul. On peut alors
penser utiliser une statistique de Student classique, obtenue en divisant 1 par
son cart-type. En posant HO : = 1 vs H1 : < 1, on rejettera alors lhypothse
de racine unitaire au seuil de 5% si la statistique est infrieure 1.64. A cet effet,
on ralise de nouveau un exercice de simulations :
>
>
>
>
+
+
+
+
+
+

R <- 1000
T <- 100
result <- c()
for (i in 1:R){
y <- autoreg(rho=1, T=100)
Dy <- y[2:T] - y[1:(T-1)]
Ly <- y[1:(T-1)]
z <- lm(Dy ~ Ly)
result <- c(result, coef(z)[2] / sqrt(diag(vcov(z))[2]))
}

0.0

0.1

0.2

0.3

0.4

0.5

On reprsente sur la figure 9.2 les ralisations de la statistique de Student laide


dun histograme, en superposant la courbe de densit normale :

Fig. 9.2 Histograme de la statistique de Student en prsence de racine unitaire

On constate quon ne peut en aucun cas analyser la prsence de racine unitaire en


utilisant linfrence classique car la statistique de Student suit ici une distribution
trs loigne de la normale. En utilisant la valeur critique habituelle de 1.64, on
obtient ici :

Chapitre 9. Racines unitaires et cointgration

153

> prop.table(table(result < -1.64))


FALSE TRUE
0.542 0.458

ce qui conduirait rejeter lhypothse nulle de racine unitaire alors quelle est
vraie environ une fois sur deux. Le test que lon vient de raliser est le test de
Dickey-Fuller, il ncessite lutilisation de valeurs critiques spcifiques qui ne sont
pas celles correspondant une densit normale. On peut galement raliser ce
test en introduisant en plus une constante et/ou un trend dterministe et on peut
galement ajouter des retards de y de manire en prendre en considration une
ventuelle autocorrlation de .
La rgression de deux sries prsentant toutes les deux une racine unitaire est
pertinent si ces deux sries prsentent une relation structurelle de long terme, on
parle alors de co-intgration. Plus prcisment, on dira que deux variables x et y
sont co-intgrs si il existe tel que :
y = x + 
avec  qui ne contient pas de racine unitaire. Un test simple de cointgration peut
alors tre ralis de la manire suivante :
1. on utilise un test de Dickey-Fuller pour vrifier que x et y ont une racine
unitaire,
2. on estime alors y en fonction de x et on rcupre les rsidus destimation e,
3. on utilise un test de Dickey-Fuller sur e : si on rejette lhypothse de racine
unitaire, x et y sont cointgrs et la rgression de y en fonction de x a du
sens, sinon x et y ne sont pas cointgrs et la rgression de y en fonction de
x est falacieuse.

9.2

Tests de racine unitaire en panel

Le test classique de racine unitaire est souvent appel adf pour augmented
Dickey-Fuller. Plusieures extensions de ce test ont t proposes afin de le rendre
utilisable et efficace sur donnes de panel.
Rsultats prliminaires
Certains de ces tests sont obtenus en appliquant des tests adf pour chaque individu
de lchantillon. Pour raliser ces tests prliminaires, il faut choisir le nombre de
retards dans la rgression suivante :
ynt = ( 1)yn(t1) +

Ln
X

yn(ts)

s=1

Ce choix peut tre ralis en utilisant diffrents critres :

154

Economtrie des donnes de panel avec R

le critre dinformation de Swartz (SIC),


le critre dinformation dAkaike (AIC),
la mthode de Hall, qui consiste retirer le retard le plus lev tant quil nest
pas significatif.
La rgression est ralise sur T Ln 1 observations pour chaque individu, soit
1)
un nombre dobservations total de N T avec T = T (L

avec L le nombre moyen de retards. Notons en le vecteur de rsidus pour lindividu


n, sa variance est estime par :
PT

2n

2
t=Ln +1 ent

dfn

dfn tant le nombre de degrs de libert de lestimation.

9.2.1

Test de Levin-lin-Chu

Levin et al. (2002) sont les premiers avoir propos un test de racine unitaire en
panel. Pour raliser ce test, on ralise deux rgressions prliminaires qui consistent
regresser ynt et yit1 en fonction de yitL et dmt de manire rcuperer
deux vecteurs de rsidus nots znt et vnt .
Ces deux rsidus sont ensuite normaliss en les divisant par lcart-type estim, et
on ralise alors une rgression sur lensemble de lchantillon de znt /
n en fonction
de vnt /
n de manire obtenir , son cart-type
(
) et la statistique de Student
t = /
(
).
La variance de long-terme de yn est alors estime :

y2n

"
#

K
T
T
X
X
1
1 X
2
=
wKL
ynt
+2
ynt yntL

T 1 t=2
T 1
L=1

t=2+L

En dfinissant sn comme le rapport entre les variance de long terme et de court


terme dun individu et en notant s la moyenne pour lensemble des individus de
lchantillon, on obtient
sn =

yi

n

PN
s =

i=1 sn

N
Levin et al. (2002) montrent alors que la statistique :
t =

t nTs
2
(
)mT

m
T

suit une distribution normale sous lhypothse nulle de racine-unitaire. Les valeurs

de mT sont m
donnes dans larticle.
T

Chapitre 9. Racines unitaires et cointgration

9.2.2

155

Test de Im, Pesaran et Shin

Un des dfaut du test de Levin et al. (2002) est que lhypothse alternative suppose
que est diffrent de 1, mais prend la mme valeur pour tous les individus. Le
test propos de Im et al. (2003) dpasse cette limitation puisque lhypothse nulle
est toujours que = 1 pour tous les individus, mais lhypothse alternative est
dsormais que les valeurs de peuvent tre diffrentes dun individu un autre,
mais que n < 1 pour au moins certains individus.
La statistique de test est base sur la moyenne des statistique de Student pour
obtenues pour chaque individu :
n
1X

tn
t=
n n=1

La statistique de test est alors :

z=

n (t E(t))
p
V(t)

qui, sous lhypothse nulle de racine unitaire, suis une distribution normale centre
rduite. Les valeurs de E(t) et de V(t) sont donnes dans larticle de Im et al. (2003)

9.2.3

Le test de Madalla et Wu

Maddala & Wu (1999) ont propos un test trs similaire au prcdent, qui nimpose
pas non plus que les valeurs de soient identiques dans lhypothse alternative.
Il est bas sur les N probabilits critiques pn obtenue dans le cadre de test adf
raliss pour chaque individu. La statistique de test scrit alors simplement :
P = 2

N
X

ln pn

n=1

et, sous lhypothse nulle de racine unitaire pour les N individus, suit une distribution de chi deux N degrs de libert.

156

Economtrie des donnes de panel avec R

Chapitre 10

Panels spacials

Bibliographie
Acemoglu A.D., Johnson S., Robinson J.A. & Yared P. (2008). Income and democracy. American Economic Review, 98(3), 808842.
Alonso-Borrego C. & Arellano M. (1999). Symmetrically normalized instrumentalvariable estimation using panel data. Journal of Business and Economic Statistics, 17(1), 3649.
Amemiya T. (1971). The estimation of the variances in a variancecomponents
model. International Economic Review, 12, 113.
Amemiya T. & MaCurdy T.E. (1986). Instrumental-variable estimation of an
error-components model. Econometrica, 54(4), 86980.
Anderson T. & Hsiao C. (1982). Formulation and estimation of dynamic models
using panel data. Journal of Econometrics, 18, 4782.
Arellano M. & Bond S. (1991). Some tests of specification for panel data : Monte
carlo evidence and an application to employment equations. Review of Economic
Studies, 58, 277297.
Arellano M. & Bover O. (1995). Another look at the at the instrumental variables
estimation of error components. Journal of Econometrics, 68, 2951.
Avery R. (1977). Error components and seemingly unrelated regressions. Econometrica, 45, 199209.
Balestra P. & Nerlove M. (1966). Pooling cross-section and time-series data in the
estimation of dynamic models : The demand for natural gas. Econometrica, 34,
585612.
Balestra P. & Varadharajan-Krishnakumar J. (1987). Full information estimations
of a system of simultaneous equations with error components. Econometric
Theory, 3, 223246.
Baltagi B. (1980). On seemingly unrelated regressions with error components.
Econometrica, 48, 15471551.

160

Economtrie des donnes de panel avec R

Baltagi B. (1981). Simultaneous equations with error components. Journal of


Econometrics, 17, 2149.
Baltagi B. (2001). Econometric Analysis of Panel Data. John Wiley and Sons ltd,
3rd ed.
Baltagi B. & Chang Y. (1994). Incomplete panels : a comparative study of alternative estimators for the unbalanced one-way error component regression model.
Journal of econometrics, 62, 6789.
Baltagi B.H. & Li Q. (1992). A note on the estimation of simultaneous equations
with error components. Econometric Theory, 8(01), 113119.
Baltagi B.H. & Liu L. (2009). A note on the application of ec2sls and ec3sls
estimators in panel data models. Statistics & Probability Letters, 79(20), 2189
2192.
Blundell R. & Bond S. (1998). Initital conditions and moment restrictions in
dynamic panel data models. Journal of Econometrics, 87, 115143.
Blundell R. & Bond S. (2000). Gmm estimation with persistent panel data : an
application to production functions. Econometric Reviews, 19(3), 321340.
Bond S.R. (2002). Dynamic panel data models : a guide to micro data methods
and practise. Portugese Economic Journal, 1, 141162.
Bond S.R., Hoeffler A. & Temple J. (2001). Gmm estimation of empirical growth
model. CEPR Discussion Paper, 3048.
Brender A. & Drazen A. (2008). Budget deficits and economic growth affect reelection prospects ? evidence froma large panel of countries. American Economic
Review, 98(5), 22032220.
Breusch T. & Pagan A. (1980). The lagrange multiplier test and its applications to
model specification in econometrics. Review of Economic Studies, 47, 239253.
Breusch T.S., Mizon G.E. & Schmidt P. (1989). Efficient estimation using panel
data. Econometrica, 57(3), 695700.
Caselli F., Esquivel G. & Lefort F. (1996). Reopening the convergence debate :
a new look at cross-country growth empirics. Journal of Economic Growth, 1,
363389.
Cohen A. & Einav L. (2003). The effects of mandatory seat belt laws on driving
behavior and traffic fatalities. The Review of Economics and Statistics, 85(4),
828843.
Cornwell C., Schmidt P. & Wyhowski D. (1992). Simultaneous equations and panel
data. Journal of Econometrics, 51(1-2), 151181.

Bibliographie

161

Croissant Y. & Millo G. (2008). Panel data econometrics in R : The plm package.
Journal of Statistical Software, 27(2). http://www.jstatsoft.org/v27/i02/.
Drakos K. (2007). The size of under-reporting bias in recorded transational terrorist activity. Journal of the Royal Statistical Society, Series A (Statistics in
Society), 170(4), 909921.
Egger P. & Pfaffermayr M. (2004). Distance, trade, and fdi : A hausman-taylor
sur approach. Journal of Applied Econometrics, 19(2), 22746.
El-Gamal M. & Inanoglu H. (2005). Inefficiency and heterogeneity in turkish
banking : 1990-2000. Journal of Applied Econometrics, 20(5), 641664.
Forbes K.J. (2000). A reassessment of the relation between inequality and growth.
American Economic Review, 90(4), 869887.
Hansen L. (1982). Large sample properties of generalized method moments estimators. Econometrica, 50, 10291054.
Harris M.N., Matyas L. & Sevestre P. (2008). Dynamic models for short panels.
Dans The Econometrics of Panel Data, rd. L. Matyas & P. Sevestre, pp. 249
278. Springer.
Hausman J. (1978). Specification tests in econometrics. Econometrica, 46, 1251
1271.
Hausman J. & Taylor W. (1981). Panel data and unobservable individual effects.
Econometrica, 49, 13771398.
Holtz-Eakin D., Newey W. & Rosen H. (1988). Estimating vector autoregressions
with panel data. Econometrica, 56, 13711395.
Honda Y. (1985). Testing the error components model with nonnormal disturbances. Review of Economic Studies, 52, 681690.
Horrace W. & Schmidt P. (1996). Confidence statements for efficiency estimates
from stochastic frontier models. Journal of productivity analysis, 7, 257282.
Horrace W. & Schmidt P. (2000). Multiple comparisons with the best, with economic applications. Journal of applied econometrics, 15(1), 126.
Hsiao C. (2003). Analysis of Panel Data. Cambridge University Press, Cambridge.
Im K., Pesaran M. & Shin Y. (2003). Testing for unit roots in heterogenous panels.
Journal of econometrics, 115(1), 5374.
Kessler A.S., Hansen N.A. & Lessman C. (2011). Interregional redistribution and
mobility in federations : a positive approach. The Review of Economic Studies,
78, 134578.

162

Economtrie des donnes de panel avec R

Khan M.S. & Knight M.D. (1988). Import compression and export performance
in developing countries. Review of economics and statistics, 70(2), 315321.
Kinal T. & Lahiri K. (1990). A computational algorithm for multiple equation
models with panel data. Economic letters, 34, 143146.
Kinal T. & Lahiri K. (1993). On the estimation of simultaneous-equations errorcomponents models with an application to a model of developing country foreign
trade. Journal of applied econometrics, 8, 8192.
Kiviet J.F. (1995). On bias, inconsistency, and efficiency of various estimators in
dynamic panel data models. Journal of Econometrics, 68, 5378.
Kumbhakar S. (1996). Estimation of cost efficiency with heteroscedasticity : an
application to electric utilities. Journal of the royal statistical society, series D,
45, 319335.
Levin A., Lin C. & Chu C. (2002). Unit root test in panel data : asymptotic and
finite sample properties. Journal of Econometrics, 108, 124.
Levine R., Loayza N. & Beck T. (2000). Financial intermediation and growth :
causalty and causes. Journal of Monetary Economics, 46, 3177.
Maddala G. & Wu S. (1999). A comparative study of unit root tests with panel
data and a new simple test. Oxford bulletin of economics and statistics, 61,
63152.
Mairesse J. & Hall B. (1996). Estimating the productivity of research and development in french and us manufacturing firms : an exploration of simultaneity
issues with gmm methods. Dans International productivity differences and their
explanations, rd. K. Wagner & B. Van-Ark, pp. 285315. Elsevier Science.
Mundlak Y. (1978). On the pooling of time series and cross section data. Econometrica, 46(1), 6985.
Nerlove M. (1971). Further evidence on the estimation of dynamic economic relations from a timeseries of crosssections. Econometrica, 39, 359382.
Nickel S. (1981). Biaises in dynamic models with fixed effects. Econometrica, 49,
14171426.
Peltzman S. (1975). The effects of automobile safety regulation. Journal of Political
Economy, 83(4), 677725.
Pirotte A. (2011). Economtrie des donnes de panel. Economica.
Porto E.D. & Revelli F. (2012). Tax limited reaction functions. Journal of applied
econometrics.

Bibliographie

163

Raux C., Souche S. & Croissant Y. (2009). How fair is pricing perceived to be ?
an empirical study. Public Choice, 139(1), 227240.
Roodman D. (2009a). How to do xtabond2 : an introduction to difference and
system gmm in stata. The Stata Journal, 9, 86136.
Roodman D. (2009b). A note on the theme of too many instruments. Oxford
Bulletin of Economics and Statistics, 71, 135158.
Sargan J. (1958). The estimation of economic relationships using instrumental
variables. Econometrica, 26, 393415.
Sevestre P. (2002). Economtrie des donnes de panel. Dunod.
Swamy P. (1970). Efficient inference in a random coefficient regression model.
Econometrica, 38, 311323.
Swamy P. & Arora S. (1972). The exact finite sample properties of the estimators
of coefficients in the error components regression models. Econometrica, 40,
261275.
Wallace T. & Hussain A. (1969). The use of error components models in combining
cross section with time series data. Econometrica, 37(1), 5572.
White H. (1986). Advances in statistical analysis and statistical computing, vol.
1, chap. Instrumental variables analogs of generalized least squares estimators.
Mariano, R.S.
Windmeijer F. (2005). A finite sample correction for the variance of linear efficient
twosteps gmm estimators. Journal of Econometrics, 126, 2551.
Zeileis A. & Croissant Y. (2010). Extended model formulas in R : Multiple parts
and multiple responses. Journal of Statistical Software, 34(XYZ), 112. http:
//www.jstatsoft.org/v34/iXYZ/.
Zellner A. (1962). An efficient method of estimating seemingly unrelated regressions and tests of aggregation bias. Journal of the american statistical association, 57, 500509.

Index
objets
data.frame, 3
pdata.frame, 3, 5, 28, 32
fonctions
as.matrix, 5
Between, 8
between, 8
ercomp, 29
fixef, 30, 43
index, 4
lag, 100
lm, 30, 100
mtest, 123
pdata.frame, 3
pdim, 4
pFtest, 63
pglm, 52
pgmm, 109
phtest, 72
plm, 28, 42, 59, 81, 91, 101, 102,
110
plmtest, 64
pooltest, 65
print, 29, 66
pvcm, 65, 66, 69
sapply, 32
sargan, 121
summary, 9, 29, 32, 66, 124
vcov, 120
vcovHC, 120
Within, 7
donnes

DemocracyIncome, 98
DemocracyIncome25, 36, 37, 98
EmplUK, 126
FinGrowth, 125
ForeignTrade, 32, 33
Grunfeld, 8
InvRate, 126
LargeBanks, 28
RDPerfCompanies, 126
RegIneq, 126
Snmesp, 126
TexasElectr, 34, 36
Tileries, 48
TurkishBanks, 33, 35
USAirlines, 66
arguments
data, 3, 28, 29
drop.index, 3
effect, 8, 42, 43, 64, 102, 110
family, 52
formula, 28, 29, 110
index, 3, 28
inst.method, 86
mode, 66
model, 28, 59, 67, 69, 101, 102,
110
order, 123
random.method, 28, 44, 86
restrict.matrix, 59
restrict.rhs, 59
robust, 124
transformation, 118
type, 30

Index
which, 4

165

166

Economtrie des donnes de panel avec R

Table des figures


1.1
1.2
1.3
1.4

Variation intra et inter individuelle


Absence dhtrognit . . . . . .
Htrognit de niveau . . . . . .
Htrognit de pentes . . . . . .

2.1

Importations en fonction du produit intrieur pour les donnes ForeignTrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Cot en fonction de loutput pour les donnes TurkishBanks . . . .
Cot en fonction de loutput pour les donnes TexasElectr . . . . .
Dmocratie en fonction du revenu retard pour les donnes DemocracyIncome25 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution de lestimateur des mcg . . . . . . . . . . . . . . . . .

2.2
2.3
2.4
2.5
7.1
7.2
7.3
7.4

9.1
9.2

pour
. . .
. . .
. . .

les donnes Grunfeld


. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

10
12
13
14

33
35
36
37
40

Relation entre revenu et dmocratie . . . . . . . . . . . . . . . . . 99


Coefficient de la premire tape et 1 en fonction de la valeur du
coefficient autorgressif . . . . . . . . . . . . . . . . . . . . . . . . . 114
Le cas o la condition est vrifie chaque priode . . . . . . . . . 116
Le cas o la condition est quasiment vrifie pour les dernires priodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Courbe reprsentative pour un processus autoregressif . . . . . . . 148
Histograme de la statistique de Student en prsence de racine unitaire150