Académique Documents
Professionnel Documents
Culture Documents
1 Introduction 1
1.1 Qu’est-ce qu’un panel . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organisation des données de panel sous R . . . . . . . . . . . . . . 3
1.3 Mesure de la variabilité dans un panel . . . . . . . . . . . . . . . . 5
1.4 Des transformations utiles . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Les différentes formes d’hétérogénéité . . . . . . . . . . . . . . . . . 12
5 Autocorrélation et hétéroscédasticité 73
6 Endogéneite 75
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 Estimation d’une équation isolée . . . . . . . . . . . . . . . . . . . 76
6.2.1 Les modèles within et between . . . . . . . . . . . . . . . . 80
6.2.2 Estimateurs combinant les variations intra et inter-individuelles 83
6.3 Estimation d’un système d’équation . . . . . . . . . . . . . . . . . 88
6.3.1 L’estimateur des triples moindres carrés ordinaires . . . . . 88
6.3.2 L’estimateur des triples moindres carrés ordinaires à erreurs
composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4 Estimateur d’Hausman-Taylor . . . . . . . . . . . . . . . . . . . . . 92
Bibliographie 161
Chapitre 1
Introduction
ˆmco = (Z > Z) 1
Z > y = (Z > Z) 1
Z > (Z + ✏)
ˆb = (Z > BZ) 1
Z > By = (Z > BZ) 1
Z > B(Z + ✏)
ˆw = (X > W X) 1
X > W y = (X > W X) 1
X > W (↵j + X + ✏)
ˆmco = (Z > Z) 1
Z >✏
ˆb = (Z > BZ) 1
Z > B✏)
ˆw = (X > W X) 1
X >W ✏
2 2
⌦= ⌫I + ⌘U
e = M✏
q̂w = e> W e = ✏> M > W M ✏ = tr(M > W M ✏✏> )
q̂b = e> Be = ✏> M > BM ✏ = tr(M > BM ✏✏> )
✓ ◆ ✓ ◆ ✓ ◆
tr(M > W M ) tr(M > W M U ) 2
⌫ E(q̂w )
⇥ =
tr(M > BM ) tr(M > BM U ) 2
⌘ E(q̂b )
l’estimation sur des données cylindrées étant très souvent beaucoup plus simple
que sur des données non cylindrées.
La littérature théorique et empirique concernant l’économétrie des données de
panel est très abondante. Tous les manuels d’économétrie consacrent au moins un
chapitre à ce sujet, d’autres y sont spécifiquement consacrés, en particulier Baltagi
(2001), Sevestre (2002), Pirotte (2011) et Hsiao (2003)
R ne permet pas d’analyser simplement les données de panel. La librairie plm
(Croissant & Millo, 2008) fournit un ensemble de fonctions qui permettent de
gérer correctement les données de panel et qui proposent les principales méthodes
d’estimation et de test.
Avec R, il est d’usage de stocker les données dans un data.frame , qui est une
liste contenant un ensemble de vecteurs qui peuvent être de modes différents, mais
qui sont de même longueur, ce qui permet une représentation tabulaire. Cette
structure est adaptée aux coupes transversales mais elle est insuffisante car elle est
incapable de rendre compte de la double dimension (individuelle et temporelle) des
données de panel. A cet effet, plm fournit une fonction appelée pdata.frame qui
prend pour argument principal un data.frame et qui renvoie un objet de classe
pdata.frame . Il s’agit d’un tableau de données auquel est ajouté une information
sur les deux dimensions du panel. Les deux arguments obligatoires de cette fonction
sont data (un tableau de données) et index . Ce dernier renseigne la structure des
données. Il peut s’agir :
– d’une chaîne de caractère : dans ce cas, il s’agit du nom de la variable qui contient
l’index individuel,
– d’un vecteur de deux chaînes de caractères, les deux variables qui contiennent
les index individuels et temporels,
– d’un entier, le nombre d’individus ; le panel doit dans ce cas être cylindré et les
observations classées d’abord par individu.
drop.index est un dernier argument optionnel logique ; s’il est égal à TRUE, les
index sont retirés du tableau de données.
A titre d’exemple, nous allons analyser les données Grunfeld qui figurent dans la
librairie AER. Ces données indiquent l’investissement (invest), la valeur (value)
et le stock de capital (capital) de 10 entreprises américaines pour 20 ans (de 1935
à 1954). Nous en prendrons pour l’instant un petit sous-ensemble, constitué de
deux firmes pour trois ans.
> data("Grunfeld", package = "AER")
> Gr <- pdata.frame(Grunfeld, index = c("firm", "year"), drop.index = TRUE)
> smallGr <- subset(Grunfeld, (firm %in% c("General Motors", "US Steel")) & year <= 1938)
> smallGr
4 Econométrie des données de panel avec R
Les index peuvent être extraits en utilisant la fonction index . Par défaut, les deux
index sont renvoyés, mais on peut indiquer avec un second argument which le
ou les index que l’on souhaite extraire en indiquant soit un nom, soit un index
numérique (1 pour l’index individuel, 2 pour l’index temporel)
> index(smallGr)
firm year
1 General Motors 1935
2 General Motors 1936
3 General Motors 1937
4 General Motors 1938
21 US Steel 1935
22 US Steel 1936
23 US Steel 1937
24 US Steel 1938
[1] General Motors General Motors General Motors General Motors US Steel
[6] US Steel US Steel US Steel
Levels: General Motors US Steel
> index(smallGr, 2)
Notons que les index peuvent également être extraits des séries contenues dans un
pdata.frame :
> z <- smallGr$invest
> index(z)
firm year
1 General Motors 1935
2 General Motors 1936
3 General Motors 1937
4 General Motors 1938
21 US Steel 1935
22 US Steel 1936
23 US Steel 1937
24 US Steel 1938
I
X I
X
Sxx = (xi x̄)2 = x2i I x̄
i=1 i=1
La variance empirique est obtenue en divisant cette expression par I (ou par I 1
pour corriger du nombre de degrés de liberté).
Dans un panel, la variable doit être doublement indicée, par convention d’abord
par l’indice individuel (n = 1 . . . N ), puis par l’indice temporel (t = 1 . . . T ) : xnt .
Trois types de moyenne empiriques peuvent être calculées :
– la moyenne globale, que l’on notera x̄ ¯, qui est la moyenne arithmétique de toutes
les observations (pour tous les individus et pour l’ensemble des périodes) :
PN PT
n=1 t=1 xnt
¯=
x̄
NT
– les N moyennes individuelles, notées x̄n. que l’on obtient en faisant la moyenne
pour chaque individu des observations pour les différentes périodes :
PT
t=1 xnt
x̄n. =
T
– les T moyennes temporelles, notées x̄.t que l’on obtient en faisant la moyenne
pour chaque période des observations pour les différents individus :
PN
n=1 xnt
x̄.t =
N
Ces différentes moyennes permettent d’obtenir différentes mesures (et différentes
décompositions) de la variabilité dans un panel. La variabilité totale est la somme
quadratique des écarts par rapport à la moyenne globale :
N X
X T
Sxx = (xnt ¯ )2
x̄
n=1 t=1
N X
X T
wn
Sxx = (xnt x̄n. )2
n=1 t=1
N X
X T N
X
bn ¯ )2 = T ¯ )2
Sxx = (x̄n. x̄ (x̄n. x̄
n=1 t=1 n=1
On peut montrer aisément que la variabilité totale est la somme des variabilités
intra et inter individuelles. En effet :
PN PT
Sxx = (xnt x̄ ¯ )2
Pn=1
N Pt=1
T
= t=1 [(x nt x̄n. ) + (x̄n. x̄¯)]2
Pn=1
N P T ⇥ ⇤2
= n=1 t=1 (xP nt x̄n. )2 + (x̄n. x̄
¯)2 + 2(xnt x̄n. )(x̄n. ¯)
x̄
wn bn N PT
= Sxx + Sxx + 2 n=1 t=1 (xnt x̄n. )(x̄n. x̄ ¯)
PN P
¯) Tt=1 (xnt x̄n. )
Or, ce dernier terme est nul, car on peut l’écrire n=1 (x̄n. x̄
et la somme pour un individu des écarts par rapport à la moyenne individuelle
est nécessairement nulle. De la même manière, on peut décomposer la variabilité
totale en une variabilité “within” et “between” temporelle :
N X
X T
wt
Sxx = (xnt x̄.t )2
n=1 t=1
N X
X T T
X
bt ¯ )2 = N ¯ )2
Sxx = (x̄.t x̄ (x̄.t x̄
n=1 t=1 t=1
et
wt bt
Sxx = Sxx + Sxx
Enfin, la variabilité “double within” s’écrit de la manière suivante :
N X
X T
wnt ¯ )2
Sxx = (xnt x̄n. x¯t + x̄
n=1 t=1
Soit encore :
PN PT
wnt
Sxx = n=1 t=1 [(xnt ¯)
x̄ (x̄n. ¯)
x̄ (x¯t ¯)]2
x̄
bn bt
= Sxx Sxx Sxx
car on montre aisément que les doubles sommes des termes croisés sont nulles
à l’aide du même argument que précédemment. On obtient donc une troisième
décomposition de la variabilité :
wnt bn bt
Sxx = Sxx + Sxx + Sxx
plm fournit des fonctions qui permettent de calculer simplement les transforma-
tions précédemment décrites : Within calcule la transformation “within” alors que
8 Econométrie des données de panel avec R
> Between(z)
> Within(z)
Ces transformations sont par défaut réalisées sur la dimension individuelle. Les
mêmes opérations peuvent être effectuées sur la dimension temporelle en fixant le
second argument effect à "time" :
[1] 9.711985
[1] 9.711985
[1] 0.768889
[1] 0.05893524
1.5
●
1.0
0.5
●
●
●
0.0
Fig. 1.1 – Variation intra et inter individuelle pour les données Grunfeld
Bn = In ⌦ JT /T
(Bn x)> = (x̄1 , x̄1 , . . . , x̄1 , x̄2 , x̄2 , . . . , x̄2 , . . . , x̄N. , x̄N. , . . . , x̄N. )
Wn = IN T In ⌦ JT /T = IN T Bn
y =↵+ x+✏
L’hétérogénéité individuelle peut prendre différentes formes :
– la moyenne de la variable explicative peut être différente d’un individu à un
autre,
– l’ordonnée à l’origine de la droite peut être différente d’un individu à un autre,
– la pente de la droite peut être différente d’un individu à un autre.
Ces trois cas sont d’une nature très différente et nécessitent l’utilisation de modèles
spécifiques. Pour l’instant, nous allons illustrer graphiquement ces trois formes
d’hétérogénéité.
7
6
5
4
y
●
● ●
●
● ●●
●
●
●●●●
2
●●
●●●
●
1
0
0 1 2 3 4 5
Sur la figure 1.2, on constate que la seule forme d’hétérogénéité entre les individus
correspond à des niveaux moyens différents de la variable explicative, et donc de
Chapitre 1. Introduction 13
● ●
●
●●●●● ●
●
●
●● ●
2
●●
●●
●
1
0
0 1 2 3 4 5
Sur la figure 1.3, on constate que les points correspondant à chaque individu
semblent alignés sur des droites parallèles, c’est-à-dire des droites dont les pentes
sont identiques, mais dont les ordonnées à l’origine sont propres à l’individu.
Dans ce cas, le modèle à estimer peut s’écrire sous la forme :
7
6
5
4
Y
●
● ●
●
● ●●
●●
●●●●
2
●
●
●●
●
●
1
0
0 1 2 3 4 5
Le modèle à erreurs composées est pertinent lorsque les pentes, c’est-à-dire l’effet
marginal des variables explicatives sur les variables expliquées sont les mêmes pour
l’ensemble des individus, les ordonnées à l’origine étant a priori différentes. Il s’agit
du modèle de référence de l’économétrie des données de panel et ce chapitre en
présente les principaux résultats.
2.1 Notations et hypothèses
2.1.1 Notations
Pour l’observation concernant l’individu n à la période t, le modèle à estimer s’écrit,
en notant ynt la variable expliquée xnt le vecteur des K variables explicatives,
✏nt l’erreur du modèle, ↵ la constante et le vecteur de paramètres associé aux
variables explicatives :
ynt = ↵ + x>
nt + ✏nt (2.1)
Dans certains cas, il sera plus clair de rassembler la constante et les pentes dans
le même vecteur de coefficients. En notant > = (↵, > ) le vecteur complet de
paramètres à estimer et znt
>
= (1, xnt ) le vecteur de variables explicatives associés,
le modèle à estimer se réécrit alors :
>
ynt = znt + ✏nt (2.2)
Pour le modèle à erreurs composées, l’erreur est la somme de deux effets :
– le premier, ⌘n est un effet spécifique à l’individu n,
– le second, ⌫nt est l’effet résiduel appelé également l’effet idiosyncratique.
les observations d’abord par individu, puis par période. Nous supposerons pour
l’instant que le panel est cylindré, c’est-à-dire que chaque individu est observé le
même nombre de fois. Dans ce cas, y est un vecteur de longueur N T et X une
matrice de dimension N T ⇥ K.
0 1 0 1 1
y11 x11 x211 . . . xK 11
B y12 C B x112 x212 . . . xK C
B C B 12 C
B .. C B .. .. .. .. C
B . C B . . . . C
B C B 1 C
B y1T C B x1T x21T . . . xK C
B C B 1 1T C
B y21 C B x21 2
x21 . . . x21 C K C
B C B 1
B y22 C B x22 x222 . . . xK C
B C B 22 C
B .. C B .. .. .. .
.. C
y=B C
B . C et X = B 1.
B . . C
C
B y2T C B x x 2
. . . x K C
B C B 2T 2T 2T C
B . C B . .. .. .. C
B .. C B .. . . . C
B C B C
B yN 1 C B x1 2 K C
B C B N 1 xN 1 . . . xN 1 C
B yN 2 C B x1 2 K C
B C B N 2 xN 2 . . . xN 2 C
B . C B . .. .. .. C
@ .. A @ .. . . . A
yN T x1N T x2N T ... xK
NT
y = ↵j + X + ✏ (2.4)
Dans le cas où on souhaite rassembler l’ensemble des coefficients, on note >
=
(↵, > ) et Z = (j, X) et le modèle à estimer s’écrit :
y =Z +✏ (2.5)
✏ est la somme d’un vecteur ⌫ de longueur N T contenant la composante idio-
syncratique du terme d’erreur et de l’effet individuel de longueur N dont chaque
élément est répété T fois. On peut l’exprimer sous la forme matricielle suivante :
✏ = (IN ⌦ jT )⌘ + ⌫ (2.6)
↵, ˆ> ) et par
Un modèle estimé sera caractérisé par des paramètre estimés ˆ > = (ˆ
un vecteur de résidus ✏ˆ.
ˆ j + X ˆ + ✏ˆ
y=↵ (2.7)
y = Z ˆ + ✏ˆ (2.8)
La soustraction membre à membre de (2.5) et (2.8) permet d’écrire les résidus
d’un modèle en fonction des erreurs :
✏ˆ = ✏ Z(ˆ ) (2.9)
Chapitre 2. Modèle à erreurs composées 17
✏ˆ = ✏ (ˆ
↵ ↵)j X( ˆ )
La moyenne de cette expression est, en notant j̄ = j/O :
j̄ > ✏ˆ = j̄>✏ (ˆ
↵ ↵)j j̄ > X( ˆ )
Dans un modèle linéaire avec constante, j̄ ✏ˆ, qui est la moyenne des résidus est
>
avec J¯ = jj > /O. Les expressions (2.9 et 2.10) seront utilisées tout au long de ce
chapître pour analyser les propriétés des estimateurs.
2 2 2 2
⌦ = IN ⌦ ⌫ IT + ⌘ JT = ⌫ IN T + ⌘ (IN ⌦ JT )
This matrix can also usefully expressed in terms of the two transformation matrices
within and between described in the chapter 1. In fact, B = T1 IN ⌦ JT and W =
I B ; and introducing these two matrices in the expression of ⌦, we get :
2 2
⌦= ⌫ (B + W) + T ⌘B
Soit finalement :
2 2 2 2 2
⌦= ⌫W + (T ⌘ + ⌫ )B = ⌫W + ◆B (2.12)
Enfin, nous supposerons tout au long de ce chapître que les deux composantes du
terme d’erreur sont non-corrélées avec les différentes variables explicatives :E(⌘ |
x) = E(⌫ | x) = 0.
(y > >
Z > )(y Z )
et les conditions de premier ordre pour un minimum sont :
Chapitre 2. Modèle à erreurs composées 19
Z > ✏ˆ = 0 (2.13)
On rappelle que la première colonne de Z est un vecteur de 1, associé à ↵, le
premier élément
P de
P . La première de ces conditions de premier ordre implique
donc que ✏¯
ˆ = n t ✏ˆnt /(N ⇥ T ) = 0 ou encore que :
ˆ + x̄> ˆ
ȳ = ↵ (2.14)
On retrouve ici le résultat bien connu que la droite de régression des moindres
carrés ordinaires passe nécessairement par le centre du nuage de points, c’est-à-
dire par le pointPde P
coordonnées (x̄, ȳ). Les K autres conditions de premier ordre
impliquent que n t ✏ˆnt xknt = 0, soit encore, le résidu moyen ✏¯ˆ étant nul :
XX
✏nt ✏¯
(ˆ ˆ)(xknt x̄k )/(N ⇥ T ) = 0 (2.15)
n t
ce qui signifie que les covariances empiriques entre les résidus et les différentes
variables explicatives sont nulles sur l’échantillon. En résolvant (2.13), on obtient
l’estimateur des moindres carrés ordinaires du vecteur étendu des coefficients :
ˆmco = (Z > Z) 1
Z >y (2.16)
En remplaçant y par Z + ✏ dans (2.16), on obtient :
ˆmco = (Z > Z) 1
Z >✏ (2.17)
Pour obtenir l’estimateur restreint aux coefficients associés aux variables explica-
ˆ , ˆ> ) :
tives, on décompose Z en (j, X) et ˆ > en (↵
✓ ◆ ✓ ◆ 1 ✓ ◆
↵
ˆ O j>X j>y
ˆ =
X >j X >X X >y
En appliquant la formule de l’inversion d’une matrice partitionnée, on obtient :
✓ ◆
> 1 1/O + j > XF X > j/O2 j > XF/0
Z Z =
F X > j/O F
1
avec F = X > (I J)X ¯ . J¯ = jj > /O est une matrice carré de dimension O
dont tous les éléments sont égaux à 1/O. Jz ¯ renvoie un vecteur de longueur O
dont tous les éléments contiennent la moyenne z̄. On vérifie aisément que cette
matrice est idempotente. On obtient alors :
1
ˆ = X > (I ¯ >
J)X X > (I ¯
J)y (2.18)
c’est-à-dire une formule similaire à (2.16), mais avec des variables prémultipliées
par I J, ¯ cette transformation ayant pour effet d’enlever à chaque variable sa
moyenne. Concernant la constante estimée ↵ ˆ , on retrouve l’expression (2.14). Afin
20 Econométrie des données de panel avec R
By = BZ + B✏ = ↵j + BX + B✏
Notons que les éléments du modèle qui ne présentent pas de variation intra-
individuelle ne sont pas affectés par cette transformation : il s’agit de la colonne
de 1 associée à la constante, de la matrice (IN ⌦ jT ) associée aux effets individuels
Chapitre 2. Modèle à erreurs composées 21
Or, l’expression d’⌦ donnée par (2.12) implique que (B J)⌦ ¯ = 2 (B J). ¯ Par
◆
conséquent, l’expression de la variance du modèle between se ramène à :
⇣ ⌘
V ˆb = ◆2 X > (B J)X ¯ > 1 (2.21)
Bˆ
✏= B BZ(Z > BZ) 1
Z > B B✏ = M B✏
La matrice M est idempotente et sa trace est tr(M ) = tr(B) tr(IK+1 ) = N K
1. On a donc q̂b = ✏> BM M B✏ et E(q̂b ) = E(tr(✏> BM B✏)) = E(tr(BM B✏✏> )) =
tr(BM B⌦)) = ◆2 tr(M ) L’estimateur sans biais de 2 est donc ˆ 2 = q̂b /(N K
1). Celle renvoyée par le logiciel est : q̂b /(O K 1) et la matrice de covariance
des coefficients renvoyée doit donc être multipliée par (O K 1)/(N K 1).
2.2.3 L’estimateur within
L’estimateur within est obtenu en appliquant l’estimateur des mco au modèle
prémultiplié par la matrice W .
W y = W (↵j + X + ✏) = W X + W ⌫
La transformation within se traduit par une élimination du vecteur de 1 associé à
la constante ainsi qu’à la matrice associée au vecteur d’effets individuels. Elle se
traduit également par l’élimination des variables sans variation intra-individuelle.
22 Econométrie des données de panel avec R
W ✏ˆ = W W X(X > W X) 1
X >W W ✏ = M W ✏
La matrice M est idempotente et sa trace est tr(M ) = tr(W ) tr(IK ) = O N K.
On a donc q̂w = ✏> W M M W ✏ et E(q̂w ) = E(tr(✏> W M W ✏)) = E(tr(W M W ✏✏> )) =
tr(W M W ⌦)) = ⌫2 tr(M ). L’estimateur sans biais de ⌫2 est donc ˆ⌫2 = q̂w /(O
N K), alors que celle renvoyée par le logiciel est : q̂w /(O K 1). La matrice de
covariance des coefficients renvoyée doit donc être multipliée par (O K 1)/(O
N K).
Le modèle within est également appelé modèle à “effets fixes”, car il est équivalent à
un modèle linéaire dans lequel les effets individuels sont estimés et donc considérés
comme des paramètres fixes. Ce dernier modèle s’écrit :
y = X + (IN ⌦ jT )⌘ + ⌫
où ⌘ est désormais un vecteur de paramètres à estimer, il y a donc au total N + K
paramètres à estimer. L’estimation du modèle sous cette forme est possible si N
n’est pas trop grand. En revanche, sur un panel micro de grande taille, elle devient
rapidement impossible.
L’équivalence entre les deux modèles peut être établie en utilisant le théorème de
Frish-Waugh ou en utilisant la formule de l’inverse d’une matrice partitionnée.
Le théorème de Frish-Waugh indique qu’il est équivalent d’estimer y en fonction
d’un ensemble de variables explicatives X1 , X2 ou d’estimer les résidus d’estimation
de y en fonction de X2 en fonction des résidus d’estimation de X1 en fonction de
X2 . L’application du théorème de Frish-Waugh dans notre contexte consiste à
régresser chaque variable par rapport à X2 = IN ⌦ jT et à récupèrer les résidus.
Ici, pour chaque observation, le résidu s’écrit znt ⌘ˆn . Or, la condition de premier
ordre de la minimisation de la somme des carrés des résidus est X2> ✏ˆ = 0. Or,
Chapitre 2. Modèle à erreurs composées 23
X2 étant ici une matrice qui sélectionne les individus, on obtient pour chaque
individu :
T
X T
X
(znt ⌘ˆn ) = znt T ⌘ˆn = 0
t=1 t=1
Par conséquent, on a ⌘ˆn = z̄n. et les résidus d’estimation sont donc les écarts
de la variable par rapport à sa moyenne individuelle. Par conséquent, d’après le
théorème de Frish-Waugh, le modèle à effets fixe peut être estimé en appliquant
l’estimateur des moindres carrés ordinaires aux variables transformées en écart par
rapport à la moyenne individuelle, c’est-à-dire en estimant par les moindres carrés
ordinaires W y en fonction de W X.
La différence entre les deux estimations est que, dans le second cas, les effets
individuels ne sont pas directement estimés. On peut malgré tout les récupérer
aisément car ȳn. = ↵ ˆ
n. . On a donc :
ˆ n + x̄>
↵
ˆ n = ȳn. x̄> ˆ
n.
Dans le cas où on souhaite définir les effets individuels comme étant de moyenne
ˆ = ȳ x̄> ˆ et on obtient
nulle dans l’échantillon, on définit la constante générale ↵
pour chaque individu de l’échantillon ⌘ˆn = ↵ ˆn ↵ ˆ = (ȳn. ȳ¯) (x̄n. x̄¯ )> ˆ
2.3 L’estimateur des moindres carrés généralisés
2.3.1 Présentation de l’estimateur des mcg
Dans le cas où les erreurs sont non corrélées avec les variables explicatives mais
sont caractérisées par une matrice de covariance qui n’est pas un multiple de la
matrice identité, l’estimateur adapté est celui des moindres carrés généralisés. Cet
estimateur s’écrit :
1
ˆgls = Z > ⌦ 1
Z Z >⌦ 1
y (2.26)
Afin de calculer la variance de ˆmcg , on remplace comme précédemment y par
Z + ✏. On obtient alors :
1
ˆmcg = Z >⌦ 1
Z Z >⌦ 1
✏
En utilisant un raisonnement similaire à (2.19), on obtient la variance de l’estima-
teur :
1 1
V (ˆgls ) = X >⌦ 1
X X >⌦ 1
E ✏✏> ⌦ 1
X X >⌦ 1
X
1 (2.27)
= X >⌦ 1
X
Les hypothèses faites dans ce chapître concernant les termes d’erreur induisent que
la matrice de covariance des erreurs ⌦ est donnée par (2.12), ( ⌫2 W + (T ⌘2 + ⌫2 )B)
24 Econométrie des données de panel avec R
qui ne dépend que de deux paramètres, les variances des deux composantes du
terme d’erreur ( ⌫2 et ⌘2 ). Nous avons montré dans le chapître 1 que ces deux
matrices sont idempotentes (B⇥B = 0 et W ⇥W = 0) et orthogonales (B⇥W = 0).
L’expression des puissances de ⌦ est alors particulièrement simple :
2 r 2r
⌦r = T 2
⌘ + ⌫ B+ ⌫ W (2.28)
que l’on peut aisément vérifier par exemple pour r = 2. Ce résultat est également
valable pour r < 0 et r rationnel, on a ainsi :
1 1 1
⌦ = 2
B+ 2
W
T ⌘ + ⌫ ⌫
✓ ◆ 1 ✓ ◆
ˆgls = 1 > 1 > ¯ 1 > 1 > ¯
2
X WX + 2
X (B J)X 2
X Wy + 2
X (B J)y
⌫ ◆ ⌫ ◆
(2.31)
✓ ◆ 1
ˆgls = 1 1 ¯
2
X >W X + 2
X > (B J)X (2.32)
⌫ ◆
ˆ = (Z ⇤> Z ⇤ ) 1
Z ⇤> y ⇤ = (Z > C > CZ) 1
Z > C > Cy = (Z > ⌦ 1
Z) 1
Z >⌦ 1
y
qui correspond bien à l’estimateur des mcg donné par (??). On obtient aisément
l’expression de la matrice C en utilisant l’équation (2.28) :
0.5 1 1
C=⌦ =q B+ W
T 2 + ⌫
⌘ ⌫
Chapitre 2. Modèle à erreurs composées 25
L’estimateur des moindres carrés généralisés peut alors être obtenu en estimant
par la méthode des moindres carrés ordinaires un modèle pour lequel toutes les
variables (explicatives et expliquée) ont été transformées en les pré-multipliant par
⌦ 0.5 , ou plus simplement ⌫ ⌦ 0.5 . En notant ◆2 = T ⌘2 + ⌫2 et = ⌫◆ , cette
transformation consiste en une combinaison linéaire des transformations between
et within de la variable, les pondérations étant respectivement de et de 1. Par
conséquent, la variable transformée s’écrit :
T 1
V (✏nt ✏¯n. ) = 2
⌫
T
Si les ✏ étaient observés, les estimateurs naturels des deux variances 2
◆ et 2
⌫
seraient alors :
PN PN PT
¯2n.
n=1 ✏ ¯2n.
t= 1 ✏ ✏> B✏ ✏> B✏
ˆ12 = T =T n=1
T =T T =
N N N N
and
P PT 2 P PT 2
T (✏nt ✏¯n. ) (✏nt ✏¯n. ) ✏> W ✏
ˆ⌫2 = n=1 t=1
T = n=1 t=1
=
T 1 N N (T 1) N (T 1)
c’est-à-dire des estimateurs basés sur les normes des erreurs transformées avec les
opérateurs between et within.
Les erreurs ne sont bien entendu pas observées, mais une estimation convergente
des variances estimées peut être obtenue en remplaçant les erreurs par les résidus
obtenus dans le cadre d’une estimation convergente du modèle. Parmi les nombreux
estimateurs de ce type envisageables, le plus courament utilisé est celui de Swamy
& Arora (1972). Il consiste à utiliser les résidus du modèle between pour estimer
◆ :
2
✏ˆ> Bˆ
✏
ˆ◆2 =
N K 1
et ceux du modèle within pour estimer 2
⌫ :
✏ˆ> W ✏ˆ
ˆ⌫2 =
N (T 1) K
On peut ensuite obtenir l’estimation de la variance des effets individuels :
ˆ◆2 ˆ⌫2
ˆ⌘2 =
T
2.4 Comparaison des estimateurs
Pour l’instant, on dispose de 4 estimateurs possibles du même modèle : le modèle
between et le modèle within n’exploitent qu’une seule dimension de la variabilité
de l’échantillon, alors que les moindres carrés ordinaires et les moindres carrés
généralisés utilisent les deux.
Notons tout d’abord que, si l’hypothèse d’absence de corrélation entre les erreurs
et les variables explicatives est vérifiée, tous ces modèles sont non biaisés et conver-
gents ; autrement dit, on peut s’attendre à ce qu’ils aboutissent à des estimations
relativement similaires, en tous cas si l’échantillon est grand.
Chapitre 2. Modèle à erreurs composées 27
Nous commencerons par analyser les relations existant entre ces différents estima-
teurs, puis nous comparerons leurs variances.
2.4.1 Relations entre les estimateurs
On peut s’attendre à ce que les estimateurs des mco et des mcg donnent des
résultats intermédiaires entre les estimateurs within et between dans la mesure où
ils intègrent les deux sources de variabilité. A partir de l’équation (2.31), on peut
écrire l’estimateur des moindres carrés généralisés sous la forme suivante :
1
ˆmcg = X > W X + 2
X > (B ¯
J)X X >W y + 2
X > (B ¯
J)y
En utilisant (2.20) et (2.24), on peut alors exprimer ˆmcg comme une moyenne
pondérée des estimateurs within et between.
1
⇣ ⌘
ˆmcg = X > W X + 2
X > (B ¯
J)X X > W X ˆw + 2
X > (B ¯ ˆb
J)X
Il en est de même pour l’estimateur des moindres carrés ordinaires ˆmco qui cor-
respond au précédent dans le cas particulier où = 1.
⇣ ⌘
ˆmco = X > W X + X > (B J) ¯ X 1 X > W X ˆw + X > (B J)X ¯ ˆb
Dans le cas de l’estimateur des mco, les pondérations sont très intuitives puisqu’il
s’agit des parts de la variance observée intra et inter-individuelle. Dans le cas du
modèle des mcg, les pondérations intègrent non seulement la part des variances
des variables explicatives, mais également celle des variances des erreurs, via le
paramètres . De manière générale ( 1), ce modèle accorde moins de poids à
la dimension between que le précédent et admet deux cas particuliers :
– ! 0 ; cela signifie que ⌫ est “petit” par rapport à ⌘ . Dans ce cas, l’estimateur
des mcg converge vers l’estimateur within,
– ! 1 ; cela signifie que ⌫ est “grand” par rapport à ⌘ . Dans ce cas, l’estimateur
des mcg converge vers l’estimateur des mco.
La relation entre les différents estimateurs peut également être illustrée par le fait
que l’estimateur des mcg peut être obtenu en empilant les deux transformations
within et between du modèle :
✓ ◆ ✓ ◆ ✓ ◆
Wy WZ W✏
= + (2.34)
By BZ B✏
La matrice de covariance des erreurs de ce modèle empilé est :
✓ 2 ◆
⌫W 0
2 (2.35)
0 ◆B
Coefficients:
(Intercept) assets
-0.2952 1.0286
> summary(banks.random)
Call:
plm(formula = costbanks, data = LB, model = "random")
Effects:
var std.dev share
idiosyncratic 0.03715 0.19274 0.738
individual 0.01316 0.11473 0.262
theta: 0.5636
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-0.6200 -0.0836 -0.0169 0.0598 4.1800
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.295205 0.100583 -2.9349 0.003386 **
assets 1.028565 0.007185 143.1548 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1 2 3 4 5 6
-0.4088325 -0.4814600 -0.4840704 -0.4333303 -0.4761411 -0.4434490
2 3 4 5 6 7
-0.07262754 -0.07523796 -0.02449779 -0.06730860 -0.03461650 -0.19118140
1 2 3 4 5 6
0.061133962 -0.011493577 -0.014104000 0.036636176 -0.006174642 0.026517461
Coefficients:
assets
1.0411
Chapitre 2. Modèle à erreurs composées 31
[1] 0.415674
[1] 1.00636
On peut alors calculer les pondérations et l’estimation pour le modèle des moindres
carrés généralisés :
> pondW <- SxxW / (SxxW + phi^2 * SxxB)
> pondW * coef(banks.within)[["assets"]] +
+ (1 - pondW) * coef(banks.between)[["assets"]]
[1] 1.028565
Enfin, les résultats semblent indiquer que nous sommes dans le cas où l’hypothèse
d’absence de corrélation entre les effets individuels et la variable explicative est
vérifiée. Dans ce cas, les quatre modèles sont convergents et il doivent donner des
résultats relativement proche, ce qui est le cas ici.
●
−5
●
●● ●
●●
●●● ●
●●● ● ●
●●
● ●
−6 ●●●
● ●
●
●
●
−7
−8
●
●
●
−9
−6 −4 −2 0
Fig. 2.1 – Importations en fonction du produit intérieur pour les données Forei-
gnTrade
Les données TurkishBanks ont été utilisées par El-Gamal & Inanoglu (2005) afin
d’analyser les coûts de production des banques. On estime le coût en fonction de
la production, les deux variables étant en logarithmes. En appliquant les mêmes
calculs que pour l’exemple précédent, on obtient :
> data("TurkishBanks", package = "pder")
> TurkishBanks <- na.omit(TurkishBanks)
> TB <- pdata.frame(TurkishBanks)
34 Econométrie des données de panel avec R
> summary(log(TB$output))
bon
var std.dev share
idiosyncratic 0.3291 0.5737 0.604
individual 0.2156 0.4643 0.396
theta :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6192 0.6509 0.6509 0.6474 0.6509 0.6509
bon
within.log(output) pooling.log(output) random.log(output) between.log(output)
0.5063813 0.8006578 0.6470472 0.8531416
21
●●●●
●
20 ●
●
●
●●
●
●
● ●
19
18
● ●
●
●
●
●●●
●
17
●●
●
● ●●
●
●●
●
●
16 ●● ● ●
● ●
15
14
16 17 18 19 20 21 22
14
13
●
●
● ●
12
●●
●
11
●
10
1.0 ●
●
● ●
●
0.8 ●
0.6
●
0.4
●
● ●
● ●
0.2
●●
Fig. 2.4 – Démocratie en fonction du revenu retardé pour les données Democra-
cyIncome25
id y x
1 1 8.053460 7
2 1 8.420634 8
3 1 9.509192 9
4 2 10.725954 10
5 2 11.025958 11
6 2 11.940134 12
Pour mener à bien nos simulations, on commence par définir la dimension de notre
panel, ici T = 4 et N = 100, ainsi que les écarts-types des deux composantes du
terme d’erreur.
> set.seed(4)
> T <- 4
> N <- 100
> s.nu <- 0.6
> s.eta <- 0.4
On a donc une variance totale pour les erreurs de ⌫2 + ⌘2 = 0.62 + 0.42 = 0.52 et
le paramètre est ici égal à : = p 2⌫ 2 = p4⇥0.4 0.6
2 +0.6
= 0.6.
T ⌘+ ⌫
Pour la variable explicative, nous choisissons également de fixer sa variance totale
à 1, la moitié correspondant à une variation within et l’autre moitié à une variation
between.
> x <- rep(rnorm(N, sd = sqrt(0.5)), each = T) +
+ rnorm(N * T, sd = sqrt(0.5)) + 2
Pour vérifier que les estimateurs sont non-biaisés, on calcule la moyenne des valeurs
obtenues pour chaque estimateur.
> apply(result, 2, mean)
L’estimateur between est le moins précis, ce qui n’est pas surprenant car il est
estimé sur seulement les N moyennes individuelles. L’estimateur des mcg est net-
tement plus précis que celui des mco. Enfin, la précision de l’estimateur within est
moins bonne que celle de l’estimateur mcg.
Enfin, on peut vérifier graphiquement (figure 2.5) pour un estimateur (par exemple
celui des mcg) que la distribution de l’estimateur est proche de la normale.
> hist(result[, "gls"], probability = TRUE, ann = FALSE)
> curve(dnorm(x, mean = mean(result[, "gls"]),
+ sd = sd(result[, "gls"])), add = TRUE)
40 Econométrie des données de panel avec R
10
8
6
4
2
0
Le modèle à erreurs
composées : extensions
doit ici réaliser une double différence par rapport aux moyennes individuelles et
temporelles : xnt x̄n. x̄.t + x̄¯:
W =I Bn Bt + J¯
Avec ces notations, on obtient :
2 2 2 2 2 2 ¯
⌦= ⌫W + (T ⌘ + ⌫ )Bn + (N µ + ⌫ )Bt ⌫J
⌫⌦
0.5
=W+ n B̄n + t B̄t + jJ
¯
3.1.3 Application
Pour le modèle concernant la production de riz précédemment estimé, on peut
obtenir une estimation à double erreurs composées en fixant l’argument effect de
la fonction plm à twoways. Les résultats des deux modèles à effets fixes et à effets
aléatoires sont présentés ci-dessous :
Chapitre 3. Le modèle à erreurs composées : extensions 43
Les parts des trois composantes du terme d’erreur sont désormais de 14% pour la
composante individuelle et 23% pour la composante temporelle.
Les effets individuels sont extraits du modèle à effets fixes à l’aide de la fonc-
tion fixef à laquelle on peut ajouter un second argument effect qui est égal à
"individual" par défaut et que l’on peut fixer à "time" pour extraire les effets
fixes temporels :
1 2 3 4 5 6
5.914708 5.842072 5.716913 5.544581 6.076116 6.038450
N X
X T
ˆ⌫2 = (ent ēn. )2 /(N ⇥ (T 1))
n=1 t=1
ˆ = ȳ¯
↵ ˆw x̄
¯
ent = ynt ↵
ˆ ˆw xnt
44 Econométrie des données de panel avec R
N
X
ˆ12 = T ē2n. /N
n=1
N X
X T
ˆ⌫2 = (ent ēn. )2 /(N ⇥ (T 1)))
n=1 t=1
Pour l’estimateur de Swamy & Arora (1972), on utilise deux estimations, celles du
modèle within et du modèle between.
N X
X T
2
ˆ⌫2 = ew
nt /(N ⇥ (T 1) K)
n=1 t=1
N
X 2
ˆ12 = T ebnt /(N K 1)
n=1
N
X
ˆ⌘2 = (ˆ
⌘n ⌘¯
ˆ)2 /(N 1)
n=1
N X
X T
ˆ⌫2 = e2nt /(N ⇥ T )
n=1 t=1
On constate que les différences entre les modèles sont très faibles, l’estimateur de
Nerlove (1971) étant malgré tout un peu différent des autres. Cela est confirmé en
analysant la transformation réalisée avec cet estimateur :
> ercomp(rice.ne)
La part estimée de l’effet individuel dans l’erreur est bien plus élevée avec cet
estimateur qu’avec les autres (26% contre 10%) et par conséquent les données sont
transformées en soustrayant une part plus importante de la moyenne individuelle
des variables.
Wallace et Hussain
Les deux formes quadratiques sont calculées à partir des résidus des moindres
carrés ordinaires, pour lesquels on a :
eo = I X(X > X) 1
X >✏
1. voir Baltagi & Chang (1994).
46 Econométrie des données de panel avec R
Pour la seconde forme quadratique, qui utilise la matrice between, l’espérance est :
Swamy et Arrora
Ici, q̂w est calculé à partir des résidus within et q̂b à partir des résidus between.
Les deux matrices de trnansformation sont :
ew = W W X > (X > W X) 1
X > W ✏ = Aw ✏
E(q̂w ) = (n N K) 2
⌫
E(q̂b ) = (N K 1) 2
⌫ + n tr (X > BX) 1
(X > U X) 2
⌘
Le calcul des estimateur des variances est donc ici particulièrement simple puisque
ˆ⌫2 peut être obtenu à partir de la première condition et introduit dans la seconde
afin de calculer ˆ⌘2 .
Amemyia
Pour cet estimateur, on calcule les résidus d’estimation non transformés en utilisant
l’estimateur within :
ea = y X ˆw ↵
ˆ
avec ↵
ˆ = ȳ¯ ¯ ˆw .
X̄
On a donc :
ea = (y ȳ¯) (X ¯ ) ˆw
X̄ (3.1)
De plus, la relation entre ˆw et ✏ est donné par :
ˆw = (X > W X) 1
X >✏ (3.2)
Pour le “vrai” modèle, on a :
✏=y X ↵
La moyenne pour l’échantillon donne :
✏¯ = ȳ¯ ¯
X̄ ↵
Soit finalement, pour le “vrai” modèle en écart par rapport à la moyenne :
✏ ✏¯ = (y ȳ¯) (X ¯)
X̄ (3.3)
En soustrayant membre à membre (3.1) et (3.3), on obtient :
ew ✏ + ✏¯ = (X ¯ )( ˆw
X̄ )
Soit encore en utilisant 3.2 :
ew = ✏ + ✏¯ (X ¯ )(X > W X)
X̄ 1
X >✏
En notant J¯n la matrice dont tous les termes sont égaux à 1/n, on obtient fina-
lement l’expression de la matrice Aa qui transforme les erreurs du modèles en les
résidus d’Amemyia :
E(q̂w ) = (n N K) 2
⌫
Pour E(q̂b ), notons que les matrices ayant aux extrémités B ou J¯n d’un côté et W
de l’autre ont une trace nulle. On a donc :
Soit finalement :
X
E(q̂b ) = (N 1+tr (X > W X) 1
(X > BX) tr (X > W X) 1
(X > J¯n X) 2
⌫+ n T n2 /N
n
3.3.1 Application
Pour illustrer l’estimation d’un panel non cylindré, nous utilisons les données Ti-
leries qui concernent la production de carreaux en Egypte ; 25 entreprises sont
observées, le nombre d’observations variant entre 12 et 22.
> data("Tileries", package = "pder")
> head(Tileries, 3)
> pdim(Tileries)
bon
> summary(tile.r)
Chapitre 3. Le modèle à erreurs composées : extensions 49
Call:
plm(formula = log(output) ~ log(labor) + log(machine), data = Tileries,
model = "random")
Effects:
var std.dev share
idiosyncratic 0.0026396 0.0513772 0.808
individual 0.0006269 0.0250375 0.192
theta :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.4903 0.5741 0.5830 0.5785 0.5913 0.5992
Residuals :
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.187000 -0.027300 0.003070 0.000007 0.033400 0.227000
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.278203 0.060791 4.5764 6.032e-06 ***
log(labor) 0.908630 0.030048 30.2390 < 2.2e-16 ***
log(machine) 0.023965 0.027062 0.8856 0.3763
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Z +1 ⇣ ⌘2 ✓ ◆ T2n Z +1
1 1 ⌘ 1 1 1
f (yn ) = q f (yn | ⌘n )e 2 ⌘ d⌘ = q e 2A d⌘
2⇡ 2
2⇡ 2 1 2⇡ 2 ⌫ 1
⌘ ⌘
✓ ◆ T2n P
1 1
2 t (✏nt (1 n )¯
✏n. ) 2
f (yn ) = 2 ne
2 ⌫
2⇡ ⌫
La contribution de l’individu n à la fonction de log de vraisemblance est simplement
le logarithme de cette densité jointe :
Tn Tn 2 1 2 1 X 2
ln Ln = ln 2⇡ ln ⌫ + ln n 2
(✏nt (1 n )¯
✏n. )
2 2 2 2 ⌫ t
P P X
n Tn n Tn 2 1 2 1 XX 2
ln L = ln 2⇡ ln ⌫+ ln n 2
(✏nt (1 n )¯
✏n. )
2 2 2 n
2 ⌫ n t
NT NT 2 N 2 1 XX 2
ln L = ln 2⇡ ln ⌫ + ln 2
(✏nt (1 )¯
✏n. )
2 2 2 2 ⌫ n t
XX 2
XX 2
X
(✏nt (1 )¯
✏n. ) = (✏nt ✏¯n. ) + 2
Tn ✏¯2n. = ✏> W ✏ + 2 >
✏ B✏
n t n t n
@ ln L NT 1
= + 4 ✏> W ✏ + 2 >
✏ B✏ (3.5)
@ ⌫2 2 ⌫2 2 ⌫
@ ln L N ✏> B✏
2
= 2 (3.6)
@ 2 2 ⌫2
En résolvant 3.4, on obtient :
⇣ ⌘ 1
ˆ = X ⇤>X ⇤ X ⇤ > y⇤ (3.7)
✏ˆ> W ✏ˆ + ˆ2 ✏ˆ> Bˆ
✏
ˆ⌫2 = (3.8)
NT
52 Econométrie des données de panel avec R
ˆ2 = ✏ˆ> W ✏ˆ
(3.9)
(T 1)ˆ ✏> Bˆ
✏
> library(pglm)
> rice.ml <- pglm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice, family = gaussian)
> summary(rice.ml)
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -460.4513
6 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
(Intercept) 5.312540 0.203771 26.0712 < 2.2e-16 ***
log(seed) 0.219967 0.028330 7.7643 8.207e-15 ***
log(totlabor) 0.285483 0.031047 9.1953 < 2.2e-16 ***
log(size) 0.528012 0.032649 16.1725 < 2.2e-16 ***
sd.mu 0.119040 0.017129 6.9496 3.663e-12 ***
sd.eps 0.363663 0.008601 42.2816 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
On constate que les résultats sont très similaires à ceux obtenus avec les moindres
carrés généralisés. Les deux paramètres appelés "sd.eps" et "sd.mu" sont les
écarts-type estimés de la composante idiosyncratique de l’erreur et de l’effet indi-
viduel. Là aussi, les valeurs obtenues sont quasiment identiques à celles du modèle
des moindres carrés généralisés.
Chapitre 3. Le modèle à erreurs composées : extensions 53
R =q
Par exemple, si la somme des deux premiers coefficients doit être égale à 1 et que
le premier et le troisième doivent être égaux, les restrictions s’écrivent :
0 1
✓ ◆ 1
✓ ◆
1 1 0 @ 2 A= 1
1 0 1 0
3
L = e> e + 2 >
(R q)
L = y> y 2 >
X >y + >
X > X + 2 (R q)
✓ ◆ 1 ✓ ◆ ✓ ◆
A11 A12 B11 B12 A111 (I + A12 F2 A21 A111 ) A111 A12 F2
= =
A21 A22 B21 B22 F2 A21 A111 F2
1 1
avec F2 = A22 A21 A111 A12 et F1 = A11 A12 A221 A21 .
1
On a ici F2 = R(X X) R . L’estimateur contraint s’écrit alors : ˆc =
> 1 >
B11 X y + B12 q, avec B11 = (X X) 1 I R> (R(X > X) 1 R> ) 1 R(X > X) 1
> >
1
et B12 = (X > X) 1
R> R(X > X) 1
R>
1
L’estimateur non-contraint étant ˆnc = X > X X > y, on obtient finalement :
ˆc = ˆnc (X > X) 1
R> (R(X > X) 1
R> ) 1
(R ˆnc q)
L’écart entre les estimateurs contraints et non-contraints est donc une combinai-
son linéaire du solde des contraintes linéaire du modèle évaluées pour le modèle
contraint.
On supposera que les erreurs d’un même individu pour deux équations l et m sont
corrélées et que la covariance, notée lm , est constante. Dans ce cas, la matrice de
Chapitre 3. Le modèle à erreurs composées : extensions 55
covariance s’écrit :
0 1
11 I 12 I ... 1L I
B 12 I 22 I ... 2L I
C
B C
⌦=B .. .. .. .. C
@ . . . . A
1L I 2L I ... LL I
⌦=⌃⌦I
0 1 0 1
r11 y1 + r12 y2 + . . . + r1L yL r11 X1 r12 X2 ... r1L XL
B r21 y1 + r22 y2 + . . . + r2L yL C B r21 X1 r22 X2 ... r2L XL C
B C B C
y⇤ = B .. C et X ⇤ = B .. .. .. .. C
@ . A @ . . . . A
rL1 y1 + rL2 y2 + . . . + rLL yL rL1 X1 rL2 X2 ... rLL XL
Dans les faits, ⌃ est une matrice de paramètres inconnus. Ceux-ci peuvent être es-
timés en utilisant les résidus d’une estimation convergente, mais inefficace, comme
celle des moindres carrés ordinaires. On obtient alors l’estimateur en suivant les
étapes suivantes :
– tout d’abord, on estime chaque équation séparément par les mco et on note
E = (e1 , e2 , . . . , eL ) la matrice de dimension N ⇥ N dont chaque colonne est le
vecteur de résidus d’une des équations du système,
– ensuite, on estime la matrice de covariance des erreurs : ⌃ ˆ = E > E/N ,
– on calcule la matrice ⌃ ˆ 0.5
et on l’utilise pour transformer les variables du
modèle y ⇤ et X ⇤ ,
– enfin, on estime le modèle par les moindres carrés sur les variables transformées.
56 Econométrie des données de panel avec R
individu, on obtient :
E(✏ln ✏>
mn ) = ⌫lm IT + ⌘lm JT
⌦ = ⌃⌫ ⌦ W + ⌃1 ⌦ B
Le modèle sur à erreurs composées peut être obtenu en appliquant les moindres
carrés ordinaires sur les données transformées en pré-multipliant chaque variable
par ⌦ 0.5 . Cette matrice s’écrit :
⌦ 0.5
= ⌃⌫ 0.5 ⌦ W + ⌃1 0.5 ⌦ B (3.10)
3.5.5 Application
Une application classique du modèle sur est l’analyse des coûts de production.
La fonction de coût indique le coût minimum de production C compte tenu du
vecteur de prix des K facteurs de production p> = (p1 , p2 , . . . , pK ) et du niveau
de production q. La fonction de coût minimum s’écrit C(p, q). Elle vérifie plusieurs
propriétés :
– elle est homogène de degré 1 par rapport aux prix des facteurs : C( p, q) =
C(p, q),
– les fonctions de demande de facteurs de production sont obtenues par dérivation
du coût minimum par rapport aux prix des facteurs 3 , il s’agit donc du gradient
de la fonction de coût : @C
@p (p, q) = x(p, q)
@2C @2C
– la matrice hessienne de la fonction de coût est symétrique : @pi @p>
= @pi @p>
.
j j
La forme fonctionelle la plus souvent retenue pour la fonction de coût minimum
est la fonction translog, définie par :
PK
ln C(p, q) = 0 + q ln q + i=1 i ln pi
PK PK
+ 0.5 qq ln2 q + 0.5 i=1 j=1 ij ln pi ln pj
@C pi pi xi
Le lemme de shepard implique que : @@ ln pi = @pi C = C = si , c’est-à-dire que la
ln C
dérivée logarithmique du coût par rapport à un prix est égale à la part du facteur
3. Ce résultat est connu sous le nom de lemme de Shephard.
58 Econométrie des données de panel avec R
On calcule ensuite le coût total de production en sommant les dépenses pour les
trois facteurs, puis les parts de facteurs et enfin on mesure le coût en logarithme
en le divisant par sa moyenne de l’échantillon et par le prix de référence.
> TexasElectr$C <- with(TexasElectr, expfuel + explab + expcap)
> TexasElectr$sl <- with(TexasElectr, explab / C)
> TexasElectr$sk <- with(TexasElectr, expcap / C)
> TexasElectr$C <- with(TexasElectr, log(C / mean(C)) - pf)
On calcule enfin les carrés et les effets intéractifs des différentes variables.
> TexasElectr$pll <- with(TexasElectr, 1/2 * pl ^ 2)
> TexasElectr$plk <- with(TexasElectr, pl * pk)
> TexasElectr$pkk <- with(TexasElectr, 1/2 * pk ^ 2)
> TexasElectr$qq <- with(TexasElectr, 1/2 * q ^ 2)
On définit les trois équations du système, une pour le coût total et les deux autres
pour les parts de facteur 4 .
4. La part du facteur carburant est omise car, les trois parts se sommant à 1, l’introduire dans
le système génèrerait une colinéarité parfaite.
Chapitre 3. Le modèle à erreurs composées : extensions 59
Les parts de facteur étant dérivées de la fonction de coût, les restrictions suivantes
doivent être imposées :
– le coefficient de pl dans l’équation de coût doit être égal à la constante de
l’équation de part de travail,
– le coefficient de pk dans l’équation de coût doit être égal à la constante de
l’équation de part de capital,
– le coefficient de pll dans l’équation de coût doit être égal au coefficient associé
à pl dans l’équation de part de travail,
– le coefficient de pkk dans l’équation de coût doit être égal au coefficient associé
à pk dans l’équation de part de capital,
– le coefficient de plk dans l’équation de coût doit être égal au coefficient associé
à pk dans l’équation de part de travail et à celui associé à pl dans celle de part
de capital,
Ces restrictions (au nombre de 7) sont définie à l’aide de la matrice R ci-dessous :
> R <- matrix(0, nrow = 6, ncol = 14)
> R[1, 2] <- R[2, 3] <- R[3, 5] <- R[4, 6] <- R[5, 6] <- R[6, 7] <- 1
> R[1, 9] <- R[2, 12] <- R[3, 10] <- R[4, 11] <- R[5, 13] <- R[6, 14] <- -1
Effects:
- cost
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.4889327 0.0726261 -6.7322 4.385e-11 ***
pl 0.2238329 0.0074131 30.1943 < 2.2e-16 ***
pk 0.5935533 0.0201037 29.5246 < 2.2e-16 ***
q 1.2524625 0.0288140 43.4672 < 2.2e-16 ***
pll 0.0845448 0.0075629 11.1789 < 2.2e-16 ***
plk -0.0877305 0.0076570 -11.4576 < 2.2e-16 ***
pkk 0.0869210 0.0090932 9.5589 < 2.2e-16 ***
qq 0.0690853 0.0314857 2.1942 0.02866 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- shlab
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.2238329 0.0074131 30.194 < 2.2e-16 ***
pl 0.0845448 0.0075629 11.179 < 2.2e-16 ***
pk -0.0877305 0.0076570 -11.458 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- shcap
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.5935533 0.0201037 29.5246 < 2.2e-16 ***
pl -0.0877305 0.0076570 -11.4576 < 2.2e-16 ***
pk 0.0869210 0.0090932 9.5589 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Chapitre 4
4.1.1 Tests de F
Le
P modèle
P w 2within est caractérisé par une somme des carrés des résidus : SCR =
w
SCRP SCRW N T K 1
SCRw N 1
qui suit un F de Fisher Snedecor avec N 1 et N T K 1 degrés de liberté.
62 Econométrie des données de panel avec R
ˆ ⇠ N (0, H(✓))
g(✓) ˆ
ĝ > Ĥ 1
ĝ
qui suit un 2 dont le nombre de degrés de liberté est égal au nombre d’hypothèses
imposées dans le cadre du modèle contraint.
Dans le cas du modèle à effets individuels, on rappelle que la vraisemblance s’écrit,
2
en notant 2 = T 2 +⌫
2 :
µ ⌫
NT N (T 1) 2 N 2 2 1 XX 2
ln L = ln 2⇡ ln ⌫+ ln(T µ+ ⌫ ) 2
(ent (1 )ēn. )
2 2 2 2 ⌫ n t
✓ ✓ ◆◆2 ✓ ◆ ✓ ◆2
NT T SSRb 2ˆ⌫4 NT T SSRb
BP = 1 ⇥ = 1
2ˆ⌫2 2
⌫ N T (T 1) 2(T 1) SSRp
qui suit asymptotiquement un 2 à 1 degré de libreté.
Le problème de cette statistique est que l’hypothèse alternative stipule que la
variance des effets individuels est non-nulle, c’est-à-dire qu’elle peut être positive ou
négative ; or une variance est nécessairement non négative. Une solution proposée
par Honda (1985) consiste à considérer la racine carrée de la statistique précédente
p
et de réaliser un test unilatéral en utilisant une loi normale. On a donc H = BP
et la valeur critique au seuil de 5% à considérer est alors de 1.64.
4.1.3 Application
Le test de F est disponible avec la fonction pFtest . Il prend comme argument deux
modèles emboîté et réalise un test d’hypothèses jointes pour les effets individuels
estimés dans un seul des modèles. Par exemple, le test d’absence d’effets individuels
peut être réalisé en utilisant le modèle pooling et le modèle within avec effets
individuels.
> pFtest(rice.w, rice.p)
On constate sans surprise que l’hypothèse d’absence d’effets individuels est très
fortement rejetée.
Pour tester l’hypothèse d’absence d’effets individuels et temporels, on utilisera :
64 Econométrie des données de panel avec R
N (T K 1). Le modèle contraint est soit le modèle des moindres carrés ordinaires
(SCRP avec N T K 1 degrés de liberté), soit le modèle within (SCRw avec
N (T 1) K degrés de liberté), suivant que l’on suppose ou non l’absence d’effets
indiviuels. La statistique de test s’écrit alors (en utilisant le modèle within comme
modèle non-contraint) :
SCRP SCRw N (T K 1)
SCRw (N 1)K
Il s’agit d’un test de stabilité (appelé souvent test de Chow) dont la distribution
est un F à (N 1)K et N (T K 1) degrés de liberté sous H0 .
La fonction permettant de réaliser ce test est appelée pooltest . La première ma-
nière d’utiliser cette fonction est de lui fournir deux modèles : un modèle où l’es-
timation est réalisée individu par individu et un modèle soit de moindres carrés
ordinaires, soit un modèle within. Dans le premier cas, sous H0 , tous les paramètres
sont supposées être identiques, y compris les constantes. Le modèle non contraint
est estimé à l’aide de la fonction pvcm (pour variable coefficients model). Cette
66 Econométrie des données de panel avec R
Coefficients:
(Intercept) log(output)
1 14.021 2.0498
2 14.437 1.9510
3 15.175 1.9765
4 15.788 1.6218
5 15.617 1.4235
6 15.521 1.2994
> summary(air.np)
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "within")
Residuals:
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.384100 -0.106600 0.003459 0.000000 0.088070 0.334500
Coefficients:
(Intercept) log(output)
Min. :14.02 Min. :1.299
1st Qu.:14.62 1st Qu.:1.473
Median :15.35 Median :1.786
Mean :15.09 Mean :1.720
3rd Qu.:15.59 3rd Qu.:1.970
Max. :15.79 Max. :2.050
Le test de stabilité peut alors être réalisé en passant à la fonction de test air.np
et air.pooling ou air.within selon que l’on souhaite ou non poser sous H0
l’hypothèse d’absence d’effets individuels.
Chapitre 4. Tests sur le modele a erreurs composees 67
F statistic
F statistic
L’hypothèse de stabilité est très fortement rejetée, même dans sa version la plus
faible (constantes spécifiques). Les mêmes tests peuvent être réalisés avec une in-
terface formula-data, en précisant grâce à l’argument model quel modèle contraint
doit être utilisé.
> pooltest(log(cost)~log(output), Air, model = "within")
> pooltest(log(cost)~log(output), Air, model = "within")
⌦n = E(✏n ✏>
n ) = E (⌫n + Xn n) ⌫n> + > >
n Xn
⌦n = E(✏n ✏>
n) =
2
n IT + Xn Xn>
ˆn = (X > Xn ) 1
Xn> yn = n + (Xn> Xn ) 1
Xn ⌫ n
n
Un estimateur naturel de 2
n est alors :
T
X
ˆn2 = e2nt /(T K 1)
t
Une fois ces estimations obtenues, on peut également calculer leur moyenne :
XN
ˆ= 1
¯ ˆn
N n=1
¯
zn = ˆn ˆ
PN
zn = >
n + (Xn Xn ) Xn ⌫n N1 n=1 nP+ (Xn> Xn ) 1 X
1 >
P
>
n ⌫n
N 1 N 1 > 1 > 1 1 > >
= N n + N (Xn Xn ) Xn ⌫n N m6=n m N m6=n (Xm Xm ) 1 Xm ⌫m
L’intérêt de cette dernière expression est d’écrire zn comme une combinaison li-
néaire de différentes variables aléatoires non corrélées. Le calcul de la variance de
z en est largement simplifié car les covariances sont toutes nulles. On a alors :
Chapitre 4. Tests sur le modele a erreurs composees 69
✓ ◆2 ✓ ◆2
N 1 N 1 > 1 N 1 1 X >
E(zn2 ) = + 2
n (Xn Xn ) + + 2
m (Xm Xm )
1
N N N2 N2
m6=n
P P P
E 2
n zn = (N 1) + N 2
N Pn
2 >
n (Xn Xn )
1
+ 1
N n
2 >
n (Xn Xn )
1
N 1 2 > 1
= (N 1) + N n n (Xn Xn )
!
1 X 1 X >
E zn2 = + 2
n (Xn Xn )
1
N 1 n
N n
Ce qui permet d’obtenir l’estimateur de :
1 X 1 X
ˆ = zn2 2 >
n (Xn Xn )
1
N 1 n
N n
Le modèle de Swamy (1970) est estimé avec la fonction pvcm et l’argument model
égal à "random".
> summary(pvcm(log(cost)~log(output), Air, model="random"))
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "random")
Residuals:
total sum of squares : 70.46241
id time
0.95300854 0.01073151
ynt = x>
nt + µn + ⌫nt
avec
µn = x̂n. ⇡n + ⌘n
Autrement dit, les effets individuels sont corrélés avec les variables explicatives,
plus précisément, ils sont égaux à la somme d’une combinaison linéaire des moyennes
individuelles de ces variables explicatives et d’un terme d’erreur ⌘n . Le modèle à
estimer s’écrit alors, sous forme matricielle :
y = X + BX⇡ + (IN ⌦ JT )⌘ + ⌫
Le terme d’erreur ✏ = (IN ⌦ JT )⌘ + ⌫ a les caractéristiques habituelles du modèle
à erreurs composées, c’est-à-dire une espérance nulle et une variance donnée par :
2 2 2 2
⌫⌦ = ⌫ IN T + ⌘ ((IN ⌦ JT ) = ⌫W + 1B
Chapitre 4. Tests sur le modele a erreurs composees 71
Le modèle des moindres carrés généralisés consiste à estimer le modèle sur les
données transformées en pré-multipliant chaque variable par ⌦ 0.5 = W + ⌫1 B
On a alors y ⇤ = W y + ✓By, X ⇤ = W X + ✓BX et (BX)⇤ = ✓BX. L’estimateur
des moindres carrés généralisés s’écrit alors :
✓ ◆ ✓ ◆ 1 ✓ ◆
ˆ X > W + ✓X > B X > W + ✓X > B
= W X + ✓BX ✓BX (W y+✓B
⇡
ˆ ✓X > B ✓X > B
✓ ◆ 1 ✓ ◆
ˆ X > W X + ✓2 X > BX ✓2 X > BX X > W y + ✓2 X > By
=
⇡
ˆ ✓2 X > BX ✓2 X > BX ✓2 X > By
1
A11 A12 (A11 A12 A221 A21 ) 1 A111 A12 (A22 A21 A111 A12 ) 1
=
A21 A22 (A22 A21 A111 A12 ) 1 A21 A111 (A22 A21 A111 A12 ) 1
On obtient finalement :
✓ ◆ ✓ ◆
ˆ (X > W X) 1 (X > W X) 1 X > W y + ✓2 X > By
=
⇡
ˆ (X > W X) 1 (X W X) 1 + ✓12 (X > BX)
> 1
✓2 X > By
✓ ◆ ✓ ◆ ✓ ◆
ˆ (X > W X) 1 X > W y ˆw
= =
⇡
ˆ (X BX) 1 X > By (X > W X)
> 1
X >W y ˆb ˆw
et
✓ ◆ ✓ ◆
ˆ (X > W X) 1 (X > W X) 1
V = 2
⇡
ˆ ⌫
(X > W X) 1 (X W X) 1 + ✓12 (X > BX)
> 1
ˆ > V̂ (ˆ
⇡ ⇡) 1
⇡
ˆ
V(q̂) = V( ˆw ) + V( ˆg ) 2cov( ˆw , ˆg )
Pour déterminer ces variances et ces covariances, on écrit les deux estimateurs
en fonction des erreurs : ˆg = (X > ⌦ 1 X) 1 X⌦ 1 ✏ et ˆw = (X > W X) 1 XW ✏.
On a alors V( ˆg ) = (X > ⌦ 1 X) 1 , V( ˆw ) = ⌫2 (X > W X) 1 et cov( ˆw , ˆg ) =
(X > ⌦ 1 X) 1 . La variance de q̂ s’écrit donc simplement :
>
V(q̂) = 2
⌫ (X W X)
1
(X > ⌦ 1
X) 1
q̂ > V(q̂)q̂
qui, sous H0 , suit un 2 à K degrés de liberté.
Le test d’hausman est réalisé avec la fonction phtest , qui prend pour argument
deux modèles.
> phtest(air.within, air.random)
Hausman Test
Hausman Test
On constate que l’hypothèse de non corrélation des variables explicatives avec l’ef-
fet individuel est très fortement rejetée dans le cas des données sur les compagnies
aériennes, alors qu’elle ne l’est pas avec les données sur les fermes de riz. Ce ré-
sultat était présivible puisque les résultats des modèles à effets fixes et à effets
aléatoires étaient très différents dans le premier cas et très proches dans le second.
Chapitre 5
Autocorrélation et
hétéroscédasticité
74 Econométrie des données de panel avec R
Chapitre 6
Endogénéité
6.1 Introduction
On parle d’endogénéité lorsque l’erreur du modèle est corrélée avec (au moins) une
variable explicative. Ce phénomène est particulièrement courant en économétrie,
dans la mesure où, contrairement aux chercheurs en sciences expérimentales, l’éco-
nomètre n’a pas la possibilité de contrôler le processus générateur de données. Les
causes possibles d’endogénéité sont multiples, on citera simplement pour mémoire
les trois principales :
la simultanéité . L’équation d’intérêt comporte une variable explicative qui est
déterminée simultanément avec la variable expliquée : c’est le cas par exemple
de l’estimation d’une équation de demande pour un bien, qui contient le prix
de ce bien. La quantité demandée et le prix sont simultanément déterminés
par l’égalisation de l’offre et de la demande et, par conséquent, une variation
du terme d’erreur de l’équation de demande se traduira par un déplacement
de la courbe de demande et donc par une variation de la quantité et du prix
d’équilibre.
l’erreur de mesure sur une variable explicative . Si le vrai modèle est y =
↵ + x + ⌫ et que l’on observe x⇤ = x + ⌘, le modèle estimé s’écrit alors :
y = ↵ + (x⇤ ⌘) + ⌫, soit encore y = ↵ + x⇤ + ✏ avec ✏ = ⌫ ⌘ et ✏ est
corrélé avec x.
les variables explicatives omises . Si le vrai modèle est y = ↵ + x x + z z + ⌫
et que la variable z n’est pas observée, le modèle estimé est y = 0 + x x + ✏,
avec ✏ = z z + ⌫. L’erreur du modèle estimé contient alors l’influence de la
variable omise et cette erreur est alors corrélée à x si x et z sont corrélés.
L’estimateur du modèle linéaire simple y = X + ✏ s’écrit :
1
ˆ = X >X X >y
76 Econométrie des données de panel avec R
S’il y a plus d’instruments que de variables explicatives (L > K), Z > e ne peut pas
être un vecteur de 0. Dans ce cas-là, deux approches permettent de déterminer
l’estimateur optimal. La première consiste à pré-multiplier le modèle par Z > .
et peut donc être obtenu en appliquant les moindres carrés ordinaires deux fois :
– la première fois en régressant chaque variable explicative par rapport aux ins-
truments,
– la seconde fois en régressant la variable expliquée par rapport aux valeurs pré-
dites de la première estimation.
La variance de l’estimateur des variables instrumentales est :
⇣ ⌘ ⇣ ⌘ 1
V ˆ = 2
X̂z> X̂z
On voit alors que l’estimateur sera d’autant plus efficace que la corrélation entre
X et Z est importante.
Or : ⇣ ⌘
1 > 1
L> L> =⌦
On a donc : ⇣ ⌘
1 1 1 >
PZ̃ = L> Z Z > ⌦Z Z> L>
En utilisant cette matrice de projection dans la formule de l’estimateur des va-
riables instrumentales (6.3), on obtient :
✓ ⇣ ⌘ ◆ 1
ˆ = 1 1 > 1 >
X > L> L> Z Z > ⌦Z Z L> LX
✓ ⇣ ⌘ ◆ (6.6)
1 1 > 1 >
⇥ X > L> L> Z Z > ⌦Z Z L> Ly
soit finalement :
⇣ 1
⌘ 1 ⇣ 1
⌘
ˆ = X > Z Z > ⌦Z Z >X X > Z Z > ⌦Z Z >y
⇣ 1
⌘ 1 1
ˆ = X > U Z Z > U > ⌦U Z Z >U >X X > U Z Z > U > ⌦U Z Z >U >y
En choisissant U = ⌦ 1
, on obtient l’estimateur des variables instrumentales effi-
cace :
⇣ 1
⌘ 1 1
ˆe2sls = X > ⌦ 1
Z Z >⌦ 1
Z Z >⌦ 1
X Z >⌦ 1y X >⌦ 1
Z Z >⌦ 1
Z
(6.8)
L’estimateur des variables instrumentales généralisées peut être obtenu en appli-
quant l’estimateur des variables instrumentales sur le modèle Ly = LX + L✏ en
utilisant comme instruments LZ, autrement dit en appliquant la même transforma-
tion aux différents éléments du modèle (variable expliquée, variables explicatives
et instruments) 2 .
2. Cet estimateur est présenté en détail par White (1986).
80 Econométrie des données de panel avec R
Soit encore :
1 1
ˆw2sls = X > W P W W X X > W PZW W y = X > PZW X X > PZW y (6.10)
Z
1
avec PZW = W Z Z > W Z Z > W . La dernière égalité est obtenue en notant que
W est idempotente.
Un raisonnement similaire peut être mené pour le modèle between. On considère la
transformation between du modèle By = BX + B✏, avec la même transformation
appliquée aux instruments (BZ). L’estimateur des variables instrumentales est
obtenue en pré-multipliant le modèle par BZ :
Soit encore :
1
ˆb2sls = X > P B X X > PZB y (6.12)
Z
Le modèle w2sls est convergent, même si les effets individuels sont corrélés avec
les variables explicatives. En revanche, le modèle b2sls ne l’est qu’en l’absence de
corrélation. Si cette dernière hypothèse est vérifiée, aucun des deux n’est efficace
car chacun ne prend en compte qu’une source de la variabilité.
Exemple 6.1
Cohen & Einav (2003) se sont intéressés à l’influence du port de la ceinture de
sécurité sur le nombre de morts sur les routes aux Etats-Unis, en distinguant les
Chapitre 6. Endogéneite 81
occupants des véhicules concernés par les accidents (environ 35000 morts par an) et
les non-occupants (environ 5000 morts par an). Ils utilisent des données de panel
pour les 50 Etats américains pour la période 1983-1997. La principale variable
explative est le taux d’utilisation de la ceinture de sécurité. Deux questions font
principalement l’objet de leur attention :
– la première concerne le test de la théorie de la compensation du comportement
développée par Peltzman (1975). D’après cette théorie, le port de la ceinture
met le conducteur plus en confiance et l’amène à adoter une conduite moins
prudente. Si l’effet du port de la ceinture sur la mortalité des conducteurs en
cas d’accident est naturellement négatif, l’effet global sur la mortalité peut être
insignifiant, voir positif. En particulier, il est possible que le développement du
port de la ceinture de sécurité augmente la mortalité des non-occupants.
– la seconde concerne la question de l’endogénéité : si les conditions de conduite se
dégradent, par exemple pour des raisons météorologiques, toutes choses égales
par ailleurs, la mortalité sur les routes va augmenter, mais l’usage de la ceinture
de sécurité va également augmenter car les automobilistes perçoivent l’aggrava-
tion du risque d’accident. On a donc une corrélation entre le terme d’erreur de
l’équation de mortalité et la variable explicative qui mesure le taux d’usage de
la ceinture de sécurité. Dans ce cas, la non prise en compte de l’endogénéité se
traduira par un biais vers le bas de l’estimation du coefficient associé à l’usage
de la ceinture de sécurité.
Cohen & Einav (2003) proposent trois types d’estimation. La première est une
estimation par les moindres carrés ordinaires qui ne prend donc nullement en
compte le problème d’endogénéité. La seconde est une estimation du modèle à ef-
fets fixes ; dans le cadre de celle-ci, le problème d’endogénéité entre la composante
individuelle du terme d’erreur et la variable explicative est pris en compte car la
transformation within élimine l’effet individuel. En revanche, subsiste le problème
de la corrélation entre la composante idiosyncratique du terme d’erreur et la va-
riable explicative. Ce dernier problème est résolu en estimant un modèle w2sls.
Les instruments utilisés sont des variables de lois concernant la ceinture, qui sont
corrélées avec l’usage de la ceinture de sécurité, mais pas avec le terme d’erreur. De
nombreuses variables de contrôle sont également introduites (voir la page d’aide
des données pour plus de précision).
L’estimation d’un modèle avec variables instrumentales est réalisée à l’aide de la
fonction plm . Les variables instrumentales sont spécifiées à l’aide d’une formule en
deux parties, disponible grâce à la librairie Formula (Zeileis & Croissant, 2010)).
La première partie indique la liste des variables explicatives du modèle alors que
la seconde indique la liste des variables instrumentales. Très souvent, une partie
importante des variables explicatives sont utilisées comme instrument. Afin d’évi-
ter de répéter quasimment deux fois la même liste de variables, il est possible
d’utiliser une syntaxe différentielle en utilisant le signe .. Par exemple, si les va-
riables explicatives sont x1, x2 et x3, que seule x2 est endogène et qu’il existe un
seul instrument extérieur z, la description du modèle peut être réalisée de manière
équivalente à l’aide des deux formules ci-dessous :
82 Econométrie des données de panel avec R
> y ~ x1 + x2 + x3 | x1 + x3 + z
> y ~ x1 + x2 + x3 | . - x2 + z
Cohen & Einav (2003) estiment successivement trois modèles. Le premier est un
modèle avec des effets fixes temporels (qualifié par les auteurs de modèle mco
car il n’y a pas de prise en compte des effets individuels), le second est un mo-
dèle à doubles effets fixes individuels et temporels et le dernier est un modèle à
doubles effets fixes avec des variables instrumentales afin de prendre en compte
l’endogénéité du port de la ceinture de sécurité.
> data("SeatBelt", package = "pder")
> SeatBelt$occfat <- with(SeatBelt, log(farsocc / (vmtrural + vmturban)))
> ols <- plm(occfat ~ log(usage) + log(percapin) + log(unemp) + log(meanage) +
+ log(precentb) + log(precenth)+ log(densrur) +
+ log(densurb) + log(viopcap) + log(proppcap)+
+ log(vmtrural) + log(vmturban) + log(fueltax) +
+ lim65 + lim70p + mlda21 + bac08, SeatBelt,
+ effect = "time")
> fe <- update(ols, effect = "twoways")
> ivfe <- update(fe, . ~ . | . - log(usage) + ds + dp +dsp)
> rbind(ols = coef(summary(ols))[1,],
+ fe = coef(summary(fe))[1, ],
+ w2sls = coef(summary(ivfe))[1, ])
Les résultats attestent que le problème d’endogénéité est très important. Pour le
premier modèle estimé, on a un coefficient associé à l’utilisation de la ceinture de
sécurité qui est positif et significatif. Il devient négatif et significatif pour le modèle
à effets fixes, ce qui indique que la variable usage présente une corrélation positive
importante avec les effets individuels. Enfin, ce coefficient augmente de manière
importante (en valeur absolue) si on utilise des variables instrumentales, ce qui
indique que la composante idiosincratique des erreurs est également corrélée avec
usage.
Pour tester l’hypothèse de la théorie de la compensation du comportement, les
auteurs estiment les mêmes modèles avec cette fois la mortalité des non-occupants
comme variable explicative. Si cette théorie est vraie, le développement du port
de la ceinture devrait accroître les comportements de conduite à risque et donc
contribuer à accroître la mortalité des non-occupants.
> SeatBelt$noccfat <- with(SeatBelt, log(farsnocc / (vmtrural + vmturban)))
> nivfe <- update(ivfe, noccfat ~ . | .)
> coef(summary(nivfe))[1, ]
Les résultats indiquent que le port de la ceinture n’a pas d’influence sur la mortalité
des non-occupant, en contradiction avec la théorie de Peltzman (1975).
Chapitre 6. Endogéneite 83
ce qui a un sens, car le vecteur de paramètres à estimer est le même dans les
deux équations. Afin d’appliquer les gls, on calcule la variance des erreurs du
modèle empilé :
✓ ◆ ✓ ◆ ✓ ◆
Z >W ✏ Z > W ✏✏> W Z Z > W ✏✏> BZ Z >W Z 0
V =E = 2
1
Z > B✏ Z > B✏✏> W Z Z > B✏✏> BZ ⌫ 0 2 Z > BZ
2
avec 2 = T 2 + ⌫
2 . On applique ensuite la formule de l’estimateur des moindres
⌘ ⌫
carrés généralisés :
" ✓ ◆ 1 ✓ ◆# 1
ˆ = > > Z >W Z 0 Z >W X
X WZ X BZ 1 >
0 2 Z BZ Z > BX
✓ ◆ 1✓ > ◆
Z >W Z 0 Z Wy
⇥ X >W Z X > BZ 1 >
0 2 Z BZ Z > By
h i 1
ˆ = 1 1
X >W Z Z >W Z Z >W X + 2
X > BZ Z > BZ Z > BX
h i
1 1 >
⇥ X >W Z Z >W Z Z >W y + 2
X > BZ Z > BZ Z By
On obtient finalement :
⇥ ⇤ 1 ⇥ ⇤
ˆec2sls = X > P W X + 2
X > PZB X X > PZW y + 2
X > PZB y (6.13)
Z
84 Econométrie des données de panel avec R
On vérifie aisément, comme dans le modèle à erreur composée simple, que l’es-
timateur ec2sls est une moyenne pondérée des estimateurs within et between :
ˆe2sls = DW ˆw2sls + DB ˆb2sls , avec :
⇥ ⇤ 1
DW = X > PZW X + 2
X > PZB X X > PZW X
⇥ ⇤ 1
DB = 2
X > PZW X + 2
X > PZB X X > PZB X
V(✏) = ⌦ = T 2
⌘ + 2
⌫ B+ 2
⌫W
0.5 ⌫
⌫⌦ =W+q B=W+ B
T 2 +
⌘ ⌫
y ⇤ = X ⇤ + ✏⇤
pour lequel les erreurs sont identiquement distribuées. On applique à ce modèle la
méthode des variables instrumentales, on note A la matrice d’instruments et PA
le sous-espace de projection des colonnes de A. L’estimateur obtenu s’écrit :
1
ˆ = X ⇤> PA X ⇤ X ⇤> PA y ⇤ (6.14)
White (1986) a montré que dans ce contexte, il est efficace d’appliquer aux instru-
ments la même transformation qu’aux autres éléments du modèle. On a alors
A= ⌫⌦
0.5
Z = W Z + BZ = Z ⇤
L’estimateur proposé par (Baltagi, 1981) est également un estimateur de la même
famille, mais avec un choix d’instruments différents : A = (BX, W X) (Cornwell
et al., 1992). En effet, en introduisant PA = PZB + PZW dans (6.14), on obtient 3 :
3. Voir aussi Baltagi & Li (1992) et Baltagi & Liu (2009).
Chapitre 6. Endogéneite 85
h i 1
ˆ = >
(W X + BX) PZW + PZB (W X + BX)
>
⇥ (W X + BX) PZW + PZB (W y + By)
>
ˆ = X >P W X + 2
X > PZB X X > PZW y + 2
X > PZB y
Z
L’avantage de la formulation de Baltagi (1981) est que la liste des instruments wi-
thin et celle des instruments between peut être différente. On peut alors considérer
trois types de variables (Cornwell et al., 1992) :
– les variables endogènes sont corrélées avec les deux composantes du terme d’er-
reur,
– les variables simplement exogènes sont corrélées avec les effets individuels, mais
pas avec la composante idiosyncratique du terme d’erreur,
– les variables doublement exogènes ne sont corrélées ni avec les effets individuels,
ni avec la composante idiosyncratique du terme d’erreur.
Dans le cadre d’une estimation avec variables instrumentales, les variables dou-
blement exogènes peuvent être utilisées deux fois, une fois en utilisant leur trans-
formation between et une fois en utilisant leur transformation within, comme le
suggère Baltagi (1981). Les variables simplement exogènes en revanche ne peuvent
être introduites comme instrument qu’avec leur transformation within.
Exemple 6.2
Kinal & Lahiri (1993) se sont intéressés aux déterminants du commerce interna-
tional pour les pays en développement et en particulier à la mesure des élasticités
prix et revenu du commerce international pour les pays en développement. Ce su-
jet est particulièrement important car il conditionne en grande partie la croissance
et l’évolution de l’endettement de ces pays. Le panel utilisé contient 31 pays en
développement, pour la période 1964-1986. Ces données sont disponibles dans la
librairie pder sous le nom ForeignTrade.
Plus précisément, ils estiment trois équations : la première définit la demande
d’importations, la deuxième la demande d’exportations et la troisième l’offre d’ex-
portations. Plus précisément, les auteurs supposent que :
– la demande d’importations imports augmente avec le revenu domestique gnp,
diminue avec le prix des importations en devises locales rapportée au prix do-
mestiques pmcpi et augmente avec le ratio des réserves sur les importations
resimp retardé d’une période,
– la demande pour les exportations exports augmente avec le revenu du reste du
monde gnpw et diminue avec le prix relatif des exportations et de leurs substituts
étrangers pxpw,
– l’offre d’exportations exports augmente avec le prix mondial exprimé en devise
domestique rapporté à l’indice des prix à la consommation pwpci, avec le revenu
domestique potentiel pgnp (utilisé comme proxy du stock de capital) et dépend
également positivement d’une variable qui représente le rôle des importations
86 Econométrie des données de panel avec R
4. Les auteurs justifient l’introduction de cette variable par le fait que, pour la plupart des
pays en développement, l’importation de biens intermédiaires et de biens d’équipement sont très
importants pour produire des biens à l’exportation.
Chapitre 6. Endogéneite 87
Hausman Test
Hausman Test
5. C’est également le cas pour les deux autres équations d’offre d’exportation et de demande
d’exportation.
88 Econométrie des données de panel avec R
CT LT
w1 -0.05873374 -1.203928
r1 -0.05521142 -1.197191
r1b -0.05419095 -1.044588
0 1 0 10 1 0 1
y1 X1 0 ... 0 1 ✏1
B y2 C B 0 X2 ... 0 CB 2 C B ✏2 C
B C B CB C B C
B .. C=B .. .. .. .. C B .. C + B .. C
@ . A @ . . . . A@ . A @ . A
yL 0 0 ... XL L ✏L
La matrice d’instruments pour le système s’écrit quant à elle :
0 1
Z1 0 . . . 0
B 0 Z2 . . . 0 C
B C
B .. .. . . .. C
@ . . . . A
0 0 ... ZL
La matrice de variance des erreurs s’écrit :
0 1
✏1 ✏>1 ✏1 ✏>2 ... ✏ 1 ✏>L
B ✏2 ✏> ✏2 ✏> ... ✏ 2 ✏> C
B 1 2 L C
⌦ = V(✏) = E ✏✏> = EB .. .. .. .. C
@ . . . . A
✏L ✏> ✏L ✏> ... ✏ L ✏>
0 1 2 L1 (6.15)
11 I 12 I ... 1L I
B 21 I 22 I ... 2L I C
C
B
= B .. .. .. .. C = ⌃ ⌦ I
@ . . . . A
L1 I L2 I ... LL I
avec : 0 1
11 12 ... 1L
B ... C
B 21 22 2L C
⌃=B .. .. .. .. C
@ . . . . A
L1 L2 ... LL
la matrice de covariances des erreurs des différentes équations du système.
L’estimateur des triples moindres carrés (3sls) est obtenu en appliquant l’estima-
teur des variables instrumentales généralisées au système d’équation. En rempla-
çant dans la formule de cet estimateur (6.5) la variance des erreurs donnée par
(6.15), on obtient :
⇣ ⌘ 1
ˆ3sls 1
= X >Z Z > ⌃ 1
⌦I Z Z >X
⇣
1 >
⌘ (6.16)
⇥ X >Z Z > ⌃ 1
⌦I Z Z y
Dans le cas particulier où la matrice d’instruments est la même pour toute les
équations, la formule se simplifie à :
1
ˆ3sls = X > ⌃ 1
⌦ PZ X X >⌃ 1
⌦ PZ y (6.17)
Le calcul pratique des triples moindres carrés est le suivant :
90 Econométrie des données de panel avec R
– on estime les équations indépendemment les unes des autres en utilisant l’es-
timateur des variables instrumentales, ce qui permet d’obtenir une matrice de
résidus e = (e1 , e2 , . . . , eL ) qui constitue une estimation convergente des erreurs
des différentes équations,
– on estime la matrice de covariance des erreurs du système : s = e> e/N
– on calcule la décomposition de Cholesky de cette matrice : l | lsl> = I,
– on transforme les différents éléments du modèle : y ⇤ = (l ⌦ I)y, X ⇤ = (l ⌦ I)X
et Z ⇤ = (l 1 ⌦ I)Z.
– on applique la méthode des variables instrumentales sur le modèle transformé.
La transformation est particulièrement simple ici :
0 1 0 1
y1 l11 y1 + l12 y2 + . . . l1L yL
B y2 C B l21 y1 + l22 y2 + . . . l2L yL C
B C B C
y ⇤ = (l ⌦ I) B . C = B .. C
@ .. A @ . A
yL lL1 y1 + lL2 y2 + . . . lLL yL
0 1 0 1
X1 0 ... 0 l11 X1 l12 X2 ... l1L XL
B 0 X2 ... 0 C B l21 X1 l22 X2 ... l2L XL C
B C B C
X ⇤ = (l ⌦ I) B .. .. .. .. C=B .. .. .. .. C
@ . . . . A @ . . . . A
0 0 ... XL lL1 X1 lL2 X2 ... lLL XL
0 1 0 1 1 1
1
Z1 0 ... 0 (l )11 Z1 (l )12 Z2 ... (l )1L ZL
B 0 Z2 ... 0 C B (l 1
)21 Z1 (l 1
)22 Z2 ... (l 1
)2L ZL C
B C B C
Z ⇤ = (l ⌦ I) B .. .. .. .. C=B .. .. .. .. C
@ . . . . A @ . . . . A
1 1 1
0 0 ... ZL (l )L1 Z1 (l )L2 Z2 ... (l )LL ZL
L’estimateur des triples moindres carrés within et between n’appelle aucun dé-
veloppement complémentaire. Il suffit simplement d’appliquer l’estimateur pré-
cédemment décrit aux données transformées en écart par rapport à la moyenne
individuelle (within) ou en moyenne individuelle (between).
✏> = (✏> > > > > > > > >
11 , ✏12 , . . . , ✏1N ), (✏21 , ✏22 , . . . , ✏2N ), . . . , (✏L1 , ✏L2 , . . . , ✏LN )
Seule la présence des effets individuels rend le modèle spécifique par rapport à
l’estimateur classique des triples moindres carrés. Par rapport au modèle à erreurs
composées standard, les scalaires ⌘2 et ⌫2 sont remplacés par les deux matrices de
covariances ⌃⌘ et ⌃⌫ .
Effects:
92 Econométrie des données de panel avec R
- import.demand
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.3994010 0.1189694 3.3572 0.0008083 ***
pmcpi -0.0539358 0.0217000 -2.4855 0.0130505 *
gnp 0.0109534 0.0052860 2.0721 0.0384327 *
lag(imports) 0.9506440 0.0118683 80.0995 < 2.2e-16 ***
lag(resimp) 0.0395085 0.0063413 6.2304 6.123e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- export.demand
Estimate Std. Error t-value Pr(>|t|)
(Intercept) 0.143130 0.139472 1.0262 0.30496
pxpw -0.061362 0.019462 -3.1530 0.00165 **
gnpw 0.114368 0.053353 2.1436 0.03224 *
lag(exports) 0.946532 0.013298 71.1772 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
demande d’importations sont proches de ceux obtenus avec le modèle des doubles
moindres carrés. Le gain en termes d’efficacité se traduit par une légère réduction
des écarts-types, comme illustré ci-dessous.
> rbind(ec2sls = coef(summary(r1b))[-1, 2],
+ ec3sls = coef(summary(r12), "import.demand")[-1, 2])
individuels sont corrélés avec les variables explicatives. Le désavantage est que, si
certaines variables explicatives ne présentent aucune variation intra-individuelle,
elles disparaissent de l’estimation. Or, ces variables sont souvent des variables es-
sentielles. Par exemple, dans le cadre d’une estimation d’une fonction de salaire,
des variables telles que le genre, le niveau d’éducation et l’origine ethnique sont
souvent au centre de l’attention, mais le chercheur n’a alors que le choix entre :
– un estimateur mcg qui renvoit des coefficients associés à ces variables, mais qui
n’est pas un estimateur convergent compte tenu de la corrélation entre les effets
individuels et les variables explicatives,
– un estimateur within qui est convergent mais qui ne donne aucune information
sur l’influence de ces variables.
Si on reprend la typologie de Cornwell et al. (1992), Hausman & Taylor (1981)
considère un modèle qui ne contient pas de variables endogènes, c’est-à-dire que
des variables non corrélées avec la composante idiosyncratique du terme d’erreur.
Certaines de ces variables sont simplement exogènes (donc corrélées avec les ef-
fets individuels), d’autre sont doublement exogènes (non corrélées avec les effets
individuels).
De plus, on prendra explicitement en compte le fait qu’un sous-ensemble de va-
riables ne présentent pas de variations intra-individuelles.
En croisant ces deux éléments de typologie, on obtient quatre catégories de va-
riables (Cx , Ce , Vx et Ve ) en notant C et V les variables sans / avec variation
intra-individuelle et x et e les variables doublement / simplement exogènes.
L’idée est de construire un estimateur de variables instrumentales sans avoir re-
cours à des instruments extérieurs au modèle, souvent difficiles à trouver. Pour
chaque type de variable, on décompte le nombre d’instruments :
– les variables Vx , au nombre de Kvx , fournissent chacune deux instruments (wi-
thin et between),
– les variables Ve , au nombre de Kve fournissent chacune un instrument (within),
– les variables Cx au nombre deKcx fournissent chacune un instrument,
– les variables Ce au nombre de Kce ne fournissent aucun instrument.
On a donc L = 2Kvx + Kve + Kcx instruments et K = Kvx + Kve + Kcx + Kce
variables explicatives. Par conséquent, le modèle est identifié (L K) si Kvx
Kce .
Si cette condition est vérifiée, l’estimateur proposé par Hausman & Taylor (1981)
est un estimateur des mcg qui utilise (W Vx , BVx , W Ve , Cx ) comme instruments.
Pour réaliser cette estimation, il faut au préalable estimer les variances des compo-
santes du terme d’erreur. A cet effet, il faut disposer d’une estimation convergente
des résidus et le choix naturel est celui de l’estimateur within. Cet estimateur ( ˆw )
est obtenu en régressant W y en fonction de (W Vx , W Ve ). Cette estimation est
convergente car toutes les variables sont supposées non corrélées avec les effets
individuels. De cette estimation within, on récupère les résidus ✏ˆw qui permet de
calculer l’estimateur de ⌫2 utilisé par Amemiya (1971) et Swamy & Arora (1972),
c’est-à-dire :
ˆ⌫2 = ✏ˆ>
wW ✏
ˆw /(O N K)
94 Econométrie des données de panel avec R
On extrait également de cette estimation les effets indivuels ⌘ˆn . On doit purger de
ces effets individuels l’influence des variables sans variation intra-individuelle. A
cet effet, on régresse ⌘ˆn en fonction des variables sans variation intra-individuelle
(Cx , Ce ). Les variables Ce étant corrélées avec les effets individuels, on doit trouver
au moins Kce instruments, et ceux-là sont fournis par les variables Vx , au nombre
de Kvx . On obtient alors le vecteur des coefficients estimés ˆ associés à (Cx , Ce ).
On obtient alors des résidus :
ˆ◆2 = ✏ˆ> Bˆ
✏/N (6.19)
Exemple 6.4
Egger & Pfaffermayr (2004) se sont intéressé aux déterminants au commerce bilaté-
ral de deux pays, l’Allemagne et les Etats-Unis avec leurs partenaires commerciaux.
Les exportations sont ici observées au niveau d’une combinaison pays-secteur qui
constitue ici l’ “individu”. La variable expliquée est lrex, le log des exportations
bilatérales réelles. Les variables explicatives sont : ldist, le log de la distance entre
les deux pays, les dotations relatives des deux pays en travail (lrl), en capital (lrk)
et en capital humain (lrh), une variable mesurant la similitude entre les deux pays
(lsimi) et deux variables d’interaction : lkldist est l’interaction entre ldist et lrk-lrl
et lkgdt celle entre lrk en valeurs absolues et lgdt.
Comme les auteurs, nous commençons par estimer le modèle within pour les don-
nées concernnt les Etats-Unis. Ce modèle est valable même s’il existe des cor-
rélations entre les variables explicatives et la composante individuelle du terme
d’erreur, le problème est qu’il ne permet pas d’estimer de coefficients associés
aux variables propres à l’individu, ici la distance. Les résultats sont présentés ci-
dessous :
> data("TradeFDI", package="pder")
> coef(summary(wm))[1:7, ]
Chapitre 6. Endogéneite 95
Pour les auteurs, l’effet individuel, indiquant une propension à commercer avec un
pays donné pour des raisons de proximités géographique et culturelle est vraisem-
blablement corrélé avec la distance. Cette variable, la seule sans variation tempo-
relle, est donc corrélée avec l’effet individuel. Au niveau des variables qui varient au
cours du temps, les trois variables qui mesurent les dotations relatives en facteur
et l’indice de similitude sont considérées comme doublement exogènes, alors que
les autres sont supposées être corrélées avec la composante individuelle du terme
d’erreur.
> ht <- pht(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+ lrh + lrl + factor(year) | lsimi + lrk + lrh +lrl +
+ factor(year), TradeUS, model= "ht")
Effects:
var std.dev share
idiosyncratic 0.1790 0.4231 0.049
individual 3.5074 1.8728 0.951
theta :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.8707 0.9204 0.9287 0.9223 0.9320 0.9320
Residuals :
Min. 1st Qu. Median Mean 3rd Qu. Max.
96 Econométrie des données de panel avec R
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -60.1815522 13.6941742 -4.3947 1.109e-05 ***
ldist -1.6473986 0.7996188 -2.0602 0.03938 *
lkldist -0.3500265 0.3183469 -1.0995 0.27154
lgdt 3.0224557 0.4016546 7.5250 5.272e-14 ***
lkgdt -0.0045699 0.0060232 -0.7587 0.44802
lsimi 1.2692939 0.2026840 6.2624 3.790e-10 ***
lrk 3.4976621 2.7600926 1.2672 0.20507
lrh 0.1232587 0.0784673 1.5708 0.11622
lrl -2.8425857 2.7783193 -1.0231 0.30625
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
L’impression des résultats rappelle la typologie des variable. Le modèle est ici
identifié parce que le nombre de variables constantes endogènes est bien inférieur
au nombre de variables exogènes variables (1 contre 4 + 10 variables indicatrices
de l’année).
Chapitre 7
Un modèle est dit dynamique lorsqu’une de ses variables explicatives est la va-
riable expliquée retardée. L’intérêt des données de panel pour estimer un modèle
dynamique est évident. Il est naturellement impossible d’estimer une relation dy-
namique sur des données en coupe transversale et, s’agissant des séries chrono-
logiques, une telle relation ne peut être estimée précisément que si la série est
suffisamment longue. En revanche, pour des données de panel, le modèle peut être
estimé pour un ensemble d’individus observés un petit nombre de fois. Les modèles
présentés dans ce chapitre sont adaptés pour des données de panel “micro”, c’est-à-
dire des données pour lesquelles N >> T . Pour des panels “macro”, caractérisés par
une dimension temporelle équivalente ou supérieure à la dimension individuelle, les
modèles pertinents sont basés sur une adaptation des problématiques de détection
de racines unitaires et de relations de cointégration aux spécificités des données de
panel.
Parmi les nombreux exemples d’application rencontrés dans la littérature, on peut
citer :
– l’estimation de la convergence de la richesse par tête, obtenue en régressant
le taux de croissance en fonction du niveau de richesse initiale ou, ce qui est
équivalent, en régressant le niveau de richesse par tête en fonction du niveau de
richesse retardé ;
– l’analyse de la vitesse d’ajustement de la main d’oeuvre, obtenue en régressant
le nombre d’employés en fonction de différente variables, dont l’emploi retardé ;
– l’analyse de la dynamique de la consommation, basée sur une fonction de consom-
mation qui dépend de la consommation retardée.
L’article fondateur concernant l’estimation d’un modèle dynamique en panel est
celui de Balestra & Nerlove (1966). La littérature sur le sujet est devenu considé-
rable à partir des années 90 et des articles de Holtz-Eakin, Newey & Rosen (1988)
98 Econométrie des données de panel avec R
et Arellano & Bond (1991) qui ont introduit l’utilisation de la méthode d’estima-
tion des moments généralisés pour les panels dynamiques 1 . Celle-ci est devenue
la méthode d’estimation privilégiée et la plus grande partie de ce chapitre sera
consacrée à sa présentation. Il faut cependant noter que le champ d’application de
cette méthode pour les panels n’est pas limitée aux modèles dynamiques et qu’elle
peut également être utilisée avec profit pour des modèles statiques.
Exemple 7.1
Tout au long de ce chapitre, nous utiliserons l’article de Acemoglu, Johnson, Ro-
binson & Yared (2008) afin d’illustrer les résultats. Cette étude traite de la relation
causale entre le niveau de richesse et le niveau de démocratie des pays. Les auteurs
utilisent différentes données de panel. Parmi celles-ci, nous en avons retenu deux :
– les premières correspondent à une fréquence d’observation de 5 ans, avec 11
observations sur la période 1950 à 2000 pour 211 pays ;
– les secondes correspondent à une fréquence d’observation de 25 ans, avec 7 ob-
servations sur la période 1850 à 2000 pour 25 pays.
Ces données sont disponibles dans la librairie pder sous le nom de DemocracyIn-
come pour les premières et de DemocracyIncome25 pour les secondes.
> library("plm")
> pdim(DemocracyIncome)
> head(DemocracyIncome, 4)
1. Il existe de nombreuses revues de cette littérature, en particulier, Harris et al. (2008), Bond
(2002), Roodman (2009a).
Chapitre 7. Estimation d’un modèle dynamique 99
1.2
St. Kitts and
Hungary Nevis Iceland
New Sweden
Zealand
Germany
1.0
St.Belize
Lucia Estonia
Slovakia Barbados
UnitedItaly Norway
Netherlands
Canada
Belgium
Kingdom
●
Bolivia ● Costa ●●●Lithuania
●●Latvia
●
●●
●Africa
Dominica ●● Czech
Uruguay ●Republic
Greece
●●Mauritius
●Argentina Slovenia
● ●●●●● Switzerland
●●France
Spain
Israel ●
●●●Ireland
Denmark
Australia
Japan
●●●●
● ●States
United ●
Rica
Grenada
South Poland Portugal Finland
Austria Luxembourg
Cape Verde Panama
Croatia
Chile
El Salvador
St. Vincent and the GrenadinesKorea, Rep.
● ● Benin
● ● ● ● ●● ●● ● Republic
Dominican
Jamaica ●Thailand
●● Trinidad
●● ● and
Mexico ● Tobago
●
0.8
Madagascar Ghana Moldova RomaniaBulgaria
India Philippines
Mali
Senegal
Malawi Nepal
●Mozambique Bangladesh
democracy
● ●Nicaragua
●●● ● ●Guatemala
●●● ● Venezuela,
Indonesia ●Brazil
● RBSeychelles
●
0.6 Honduras SriEcuador
Lanka Peru
Uganda Kenya
Burundi Congo, Rep.
Pakistan−post−1972
Azerbaijan
● ●● Tajikistan
Chad ●●Comoros
● ●●
Cote d'Ivoire ●Guinea
Kyrgyz
●Zimbabwe●●●Republic●Swaziland
Egypt, Arab● ●●
Rep. ●Tunisia
Iran
Lebanon ●● ●
Algeria Kazakhstan
Belarus
6 7 8 9 10
income
l’erreur du modèle étant supposée être la somme d’un effet individuel ⌘n invariant
au cours du temps et d’une composante idiosyncratique ⌫nt que l’on appellera par
la suite l’innovation.
Tout au long de ce chapitre, nous supposerons que les innovations ne sont pas
auto-corrélées E(⌫nt ⌫ns ) = 0 8s 6= t, ne sont pas corrélées avec l’effet individuel
E(⌘n ⌫nt ) = 0 et que le processus considéré n’est pas un processus de racine unitaire
(| |< 1).
Pour la période précédente, le modèle s’écrit : yn(t 1) = yn(t 2) + ⌘n + ⌫n(t 1) .
L’erreur et la variable explicative yn(t 1) sont donc corrélées puisque yn(t 1) est
corrélé avec l’effet individuel ⌘n .
100 Econométrie des données de panel avec R
En supposant que les valeurs initiales de y sont fixes, on obtient alors, pour le
dénominateur de l’estimateur des mco les limites suivantes, d’abord par rapport
à N , puis par rapport à T :
N ✓ ◆2
1 X 2 1 t+S
2 1 2(t+S)
2
lim ynt = ⌘ + 2 ⌫
N !+1 N 1 1
n=1
N T
1 XX 2 2
⌘
2
⌫
lim lim ynt = + (7.2)
T !+1 N !+1 N T
n=1 t=1
(1 )2 1 2
1 X 1 t+S 1
2
lim (⌘n + ⌫nt )yn(t 1) = ⌘
N !+1 N 1
n
1 XX 2
⌘
lim lim (⌘n + ⌫nt )yn(t 1) = (7.3)
N !+1 T !+1 N T 1
n t
Au vue de cette expression, l’estimateur des mco est biaisé vers le haut. Le biais
tend vers 0 lorsque ⌘2 tend vers 0.
Chapitre 7. Estimation d’un modèle dynamique 101
Exemple 7.2
Dans le modèle estimé par Acemoglu et al. (2008), la variable expliquée est l’indice
de démocratie et les variables expliquées l’indice de démocratie et le revenu par
tête retardés d’une période. Des variables indicatrices des années sont également
introduites et l’estimation est réalisée sur le sous-ensemble d’observations défini
par la variable sample. L’estimation du modèle des mco à l’aide de la fonction
lm de R est ici malaisée du fait de la présence de retards. En effet, la méthode
lag utilisée sera alors celle qui est appropriée pour les séries temporelles et non
pour les données de panel 2 . Pour cette raison, on utilisera la fonction plm de
la librairie plm en fixant l’argument model à "pooling", de manière à utiliser
les données non transformées. Le -1 dans la formule indique que l’on ne veut pas
estimer de constante générale, mais un coefficient pour toutes les modalités de la
variable year, ce qui est sans conséquence sur l’estimation.
> mco <- plm(democracy ~ lag(democracy) + lag(income) + year - 1,
+ DemocracyIncome, index = c("country", "year"),
+ model = "pooling", subset = sample == 1)
Ce même modèle peut également être estimé en fixant l’argument model à "within"
et en indiquant que l’on souhaite introduire des effets fixes temporels :
> mco <- plm(democracy ~ lag(democracy) + lag(income),
+ DemocracyIncome, index = c("country", "year"),
+ model = "within", effect = "time",
+ subset = sample == 1)
> coef(summary(mco))
PN PT
ˆ = n=1 P t=2 (y
PT
nt ȳn )(yn(t 1) ȳn( 1) )
N
(y ȳn( 1) )2
PNn=1PTt=2 nt
n=1 P t=2 (y n(t 1) ȳn( 1) )(⌫nt ⌫
¯n )
= + N P T 2
n=1 t=2 (ynt ȳn( 1) )
Les effets individuels (et donc le problème de biais) présents dans l’estimateur des
mco ont bien disparu. En revanche, une seconde source de biais a été ajoutée. En
effet, yn(t 1) T 1 1 (yn1 + . . . + yn(T 1) ) et ⌫t T 1 1 (⌫n2 + . . . + ⌫nT ) sont corrélés.
Pour t > 2, on a un terme en T 1 1 ynt ⇥ ⌫nt , un terme en yn(t 1) ⇥ T 1 1 ⌫n(t 1)
et T 2 termes en (T 11)2 ynt ⌫nt . Chaque terme en ⌫nt ynt ayant une espérance de
⌫ , on obtient finalement :
2
✓ ◆
2 1 1 T 2 T
⌫ + 2
= ⌫2 ⇥
T 1 T 1 (T 1) (T 1)2
Ce biais présente deux caractéristiques qui le différencie de celui des mco. Tout
d’abord, il est négatif et ensuite il tend vers 0 lorsque T tend vers l’infini. Ce biais
ne peut cependant pas être ignoré dans le cas de panels micros où la dimension
temporelle est réduite. Par exemple, pour T = 10 (soit une durée assez longue) et
= 0.5, le biais est de 0.167.
Exemple 7.3
Le modèle within est obtenu avec plm en fixant les arguments model et effect
à "within" et "twoways", puisque l’on souhaite introduire des effets temporels et
individuels. Le modèle peut être estimé simplement en actualisant le modèle des
mco précédemment estimé :
> within <- update(mco, effect = "twoways")
> coef(summary(within))
Par rapport au modèle des mco, le coefficient autorégressif est plus petit (0.38
contre 0.71), ce qui était attendu dans la mesure où l’estimateur within est biaisé
vers le bas alors que celui des mco est biaisé vers le haut. On constate également
qu’avec l’introduction des effets individuels, le coefficient du revenu devient très
proche de 0 et est non significatif.
3. Nickel (1981).
4. Voir par exemple Hsiao (2003) p.72.
Chapitre 7. Estimation d’un modèle dynamique 103
Les méthodes d’estimation les plus courantes utilisées dans le cas de modèles sta-
tiques étant inadaptées, plusieurs stratégies d’estimation peuvent être envisagées
afin d’obtenir un estimateur convergent.
La méthode des variables instrumentales est utilisée sur un modèle qui a été préa-
lablement transformé de manière à éliminer les effets individuels. La transforma-
tion within apparaît de prime abord comme un choix naturel, elle est cependant
peu adaptée. En effet, en l’absence d’instruments extérieurs pertinents, les seules
variables instrumentales disponibles sont souvent la variable explicative retardée,
c’est-à-dire ici la variable expliquée
PT retardée au moins deux fois. Or, avec le modèle
within, l’erreur est : ⌫nt T 1 1 t=2 ⌫nt . Elle contient donc l’ensemble des réali-
sations de ⌫nt et est donc corrélée avec l’ensemble des valeurs retardées de ynt .
Deux transformations alternatives peuvent être utilisées avec profit, la différence
première et la déviation orthogonale.
5. Pour une présentation détaillée de l’estimation d’un panel dynamique par le maximum de
vraisemblance, voir Hsiao (2003), chapitre 4.
6. Voir Roodman (2009a), p. 103.
104 Econométrie des données de panel avec R
L’avantage de cette transformation est qu’elle est simple et intuitive. Elle présente
cependant trois inconvénients :
– le premier est qu’une observation, la première, est nécessairement perdue ;
– le second est que si les erreurs initiales sont non corrélées, celles du modèle
transformé le sont. En effet, on a ⌫t ⌫t 1 = (⌫t ⌫t 1 )(⌫t 1 ⌫t 2 ) et donc,
si les ⌫ sont homoscédastiques et non corrélées, les erreurs transformées sont
homoscédastiques E ⌫t2 = 2 ⌫2 , mais corrélées pour deux erreurs successives
E ( ⌫t ⌫t 1 ) = ⌫;
2
– le dernier est que, pour chaque période t où une observation est manquante,
deux observations t et t + 1 sont perdues en différence.
La transformation en déviations orthogonales ne souffre pas des deux derniers
problèmes, elle est par contre moins intuitive car elle consiste à calculer la diffé-
rence entre une observation et la moyenne des observations postérieures à celle-ci.
Formellement, on a : !
T
1 X
z̃nt = cnt znt zns
Tnt s>t
où Tnt est le nombre d’observations
q postérieures à t pour l’individu n et cnt un
facteur d’échelle égal à Tnt +1 .
Tnt
Le dernier résultat est dû au fait que les lignes de O sont mutuellement orthogo-
nales.
De plus, en cas d’observations manquantes pour une période, seule cette observa-
tion sera perdue pour l’estimation, contre deux pour le modèle estimé en différences
premières.
L’estimateur proposé par Anderson & Hsiao (1982) utilise le modèle écrit en dif-
férences premières de manière à éliminer les effets individuels. La variable expli-
cative yn(t 1) = yn(t 1) yn(t 2) est alors corrélée avec l’erreur en différences
⌫nt = ⌫nt ⌫n(t 1) . Si les innovations ne sont pas auto-corrélées, yn(t 1) peut
être instrumenté soit par yn(t 2) = yn(t 2) yn(t 3) , soit par yn(t 2) . Dans les
faits, il s’avère que yn(t 2) est un bien meilleur instrument que yn(t 2) .
Exemple 7.4
Afin de calculer l’estimateur de Anderson & Hsiao (1982), on doit spécifier que les
variables explicatives et expliquée sont en différences et que l’endogène retardée
en différence est intrumentée par l’endogène en niveau retardée de deux périodes.
Acemoglu et al. (2008) ont choisi également d’instrumenter le revenu par tête en
utilisant un deuxième retard. Le modèle est décrit simplement en utilisant une
formule à deux parties 7 , la première partie indiquant les variables explicatives et
la seconde les instruments, les deux parties étant séparées par le signe |.
7. On utilise ici les formules étendues fournies par la librairie Formula (Zeileis & Croissant,
2010).
106 Econométrie des données de panel avec R
0 1
yn1 0 0 0 0 0 ... 0 0 0 0
B 0 yn1 yn2 0 0 0 ... 0 0 0 0 C
B C
B 0 0 0 yn1 yn2 yn3 ... 0 0 0 0 C
Zn = B C (7.4)
B .. .. .. .. .. .. .. .. .. .. .. C
@ . . . . . . . . . . . A
0 0 0 0 ... ... ... yn1 yn2 ... yn(T 2)
où, dans le cas simple d’un modèle purement autorégressif, Xn est un vecteur
colonne qui contient l’endogène retardée d’une période en différence. La manière
d’obtenir l’estimateur dépend alors de la comparaison entre le nombre de moments
J et le nombre de coefficients à estimer K. Si J = K, l’estimateur des moments
est obtenu simplement en fixant (7.5) à 0 et en résolvant pour . On obtient alors :
N
! 1 N
!
X X
ˆ= Zn> Xn Zn> yn
n=1 n=1
avec 0 1
2 1 0 ... 0
B 1 2 1 ... 0 C
B C
B
> 0 1 2 ... 0 C
h = DD = B C (7.8)
B .. .. .. .. .. C
@ . . . . . A
0 0 0 1 2
En effet, les erreurs du modèle sont les innovations en différence ⌫nt ⌫n(t 1) . En
supposant que ces erreurs son homoscédastiques et non corrélées, on a :
– E( ⌫nt2
) = 2 ⌫2 ;
– E( ⌫nt ⌫n(t 1) ) = ⌫;
2
2
⌫ est un scalaire inconnu qui ne joue aucun rôle dans l’estimation et qui peut donc
être ignoré. L’estimateur qui utilise cette matrice de pondérations est qualifié d’es-
⇣P ⌘ 1
N
timateur en une étape. Il s’obtient simplement en substituant >
n=1 Zn hZn
à A dans l’équation (7.7). Afin de calculer sa variance, on commence par remplacer
yn dans (7.7) par Xn + ⌫n . On obtient alors :
h P P P i 1
ˆ(1) 1
= Xn> Zn Zn> hZn Zn> Xn
h Pn P
n
P
n
i (7.10)
1
⇥ n Xn> Zn >
n Zn hZn
>
n Zn ⌫n
(1) ⇥ ⇤ 1
V̂ = 2
⌫ ( X > Z)(Z > HZ) 1
(Z > X) (7.14)
Si, contrairement aux hypothèse faites, les erreurs sont hétéroscédastiques et/ou
autocorrélées, l’estimateur en une étape demeure convergent, mais deux problèmes
classiques se posent :
– d’une part, la matrice de pondérations utilisée n’est pas une estimation conver-
gente de la “bonne” matrice de pondération, ce qui se traduit par une perte
d’efficacité ;
– d’autre part, l’estimation de la variance donnée par l’équation (7.14) n’est pas
convergente. Par conséquent, tous les tests basés sur cette variance estimée se-
ront biaisés.
ˆ ˆ(1) une matrice bloc diagonale constituée des blocs : ⌫ˆn(1) ⌫ˆn(1)> pour
avec ⌦
n = 1 . . . N . L’estimateur gmm en deux étapes est alors obtenu en substituant
110 Econométrie des données de panel avec R
(2)
h i 1
V̂ ˆ ˆ(1) Z)
= ( X > Z)(Z > ⌦ 1
(Z > X) (7.17)
Le problème de cet estimateur de la variance est qu’il intègre ⌦ˆ ˆ(1) qui dépend
des résidus d’estimation du modèle en une étape et donc de ˆ(1) et de y. Cet
estimateur est par conséquent biaisé et la dérivation d’un estimateur robuste de
la variance sera présentée dans la section 7.4.
Exemple 7.5
L’estimation d’un modèle de panel par la méthode des moments généralisés est
réalisée en utilisant la fonction pgmm de la librairie plm. Les arguments de cette
fonction sont les mêmes que ceux de la fonction plm et il y a quelques arguments
spécifiques :
– formula : la formule est particulière car elle comporte trois parties : la pre-
mière partie contient comme d’habitude les variables explicatives, la deuxième
les instruments “gmm” et la troisième les instruments “normaux” ;
– model : le modèle à estimer est soit le modèle en une étape : "onestep", soit
le modèle en deux étapes "twosteps" ;
– effect : les effets sont soit individuels "individuals" (ils sont alors éliminés par
la différentiation), soit double "twoways", dans ce cas des variables indicatrices
pour chaque période sont ajoutées ;
On estime ci-dessous le modèle en une étape. Dans la deuxième partie de la formule,
on indique ici que l’on ne souhaite utiliser que la variable democracy comme
instrument gmm et que l’on souhaite utiliser tous les retards disponibles en partant
du deuxième. Comme dans le cas précédent, on instrumente également le revenu
retardé d’une période par cette même variable retardée de deux périodes.
> diff1 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+ lag(democracy, 2:99)| lag(income, 2),
+ DemocracyIncome, index=c("country", "year"),
+ model="onestep", effect="twoways", subset = sample == 1)
> coef(summary(diff1))
Tous les retards disponibles étant utilisés, le nombre d’instruments est très im-
portant. On a en effet : 0.5 ⇥ (11 1) ⇥ (11 2) = 45 instruments gmm plus les
9 variables indicatrices de la période et le revenu retardé de deux périodes, soit
J = 55.
Notons que ces résultats sont proches de ceux du modèle d’Anderson & Hsiao
(1982) ( coefficient autorégressif proche de 0.5 et coefficient du revenu non signi-
ficatif).
variable expliquée y par rapport aux valeurs prédites des estimations précédentes
X̂. Plus le nombre d’instruments J sera important, meilleurs seront les résultats
des premières estimations, c’est-à-dire que X̂ sera d’autant plus proche de X que
J sera élevé. Si J devient supérieur ou égal au nombre d’observations, on aura
X̂ = X et l’estimateur des variables instrumentales sera identique à celui des
moindres carrés ordinaires. On parle de problème d’ “over-fitting” 9 .
Afin de limiter le nombre d’instruments, plusieurs solutions sont envisageables. La
première consiste à limiter le nombre de retard pour les instruments. Par exemple,
pour T = 10, si on limite le nombre de retards à 3, on obtient 1 instrument pour
t = 3, 2 pour t = 4, 3 pour t = 5 . . . 10, soit au total 21 instruments contre 36 si
tous les retards sont utilisés.
La seconde consiste à “agglomérer” les conditions de moments 10 . Dans ce cas, la
matrice d’instruments (7.4) est remplacée par la matrice suivante :
0 1
yn1 0 0 0 ... 0 0 0
B yn2 yn1 0 0 ... 0 0 0 C
B C
B yn3 yn2 yn1 0 ... 0 0 0 C
B C
Zn = B .. .. .. .. .. .. .. ..C (7.18)
B . . . . . . . .C
B C
@ yn(T 3) yn(T 4) yn(T 5) yn(T 6) ... yn2 yn1 0 A
yn(T 2) yn(T 3) yn(T 4) yn(T 5) ... yn3 yn2 yn1
P
Le vecteur des (T 2) moments empiriques est alors : m̄ = 1
N n Zn> ⌫n avec :
⇣P PT PT
> T
Zn> ⌫n = t=3 yn(t 2) ⌫nt , t=4 yn(t 3) ⌫nt , t=5 yn(t 4) ⌫nt , . . . ,
PT ⌘
t=T 1 yn(t T +2) ⌫nt , yn1 ⌫nT
Exemple 7.6
Afin d’illustre le problème de prolifération des instruments, nous utilisons le second
jeu de données pour lequel la fréquence d’observation est de 25 ans.
> data("DemocracyIncome25", package = "pder")
> pdim(DemocracyIncome25)
Nous estimons le modèle gmm en différences avec les deux variables democracy
et income utilisées comme instruments gmm en utilisant l’ensemble des retards
disponibles.
> diff25 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+ lag(democracy, 2:99) + lag(income, 2:99),
+ DemocracyIncome25, model = "twosteps")
On constate que les résultats des trois modèles sont relativement similaires.
Le seul instrument disponible pour cette observation est yn1 . L’estimateur des
moments généralisés se ramène donc à l’estimateur des variables instrumentales,
yn2 étant instrumenté par yn1 . En appliquant la démarche des doubles moindres
carrés, on estime dans un premier temps yn2 en fonction de yn1 , puis dans un
second temps yn3 en fonction de ŷn2 . La première estimation correspond au
modèle linéaire suivant :
yn2 = ⇡yn1 + ⌘n
Le modèle structurel étant ynt = yn(t 1) + ⌘n + ⌫nt , l’équation à estimer peut
également s’écrire :
yn2 = ( 1)yn1 + ⌘n + ⌫n2
L’estimateur des mco est alors :
P
1/N yn1 (⌘n + ⌫n2 )
n
⇡
ˆ=( 1) + P 2
1/N n yn1
En supposant que le processus a commencé il y a un grand nombre de périodes,
on peut calculer la limite de ⇡
ˆ en notant que le numérateur tend vers ⌘2 /(1 )
(voir 7.3) et le dénominateur vers ⌘2 /(1 )2 + ⌫2 /(1 2
) (voir 7.2). On a alors,
en notant k = (1 )2 /(1 2
):
k
plim ⇡
ˆ=( 1) 2 2
(7.19)
⌘/ ⌫ +k
En notant que lim =1 k = 0, on voit clairement que si le processus est proche
d’un processus de racine unitaire, ⇡ ˆ sera proche de 0. La figure 7.2, qui représente
plim ⇡ˆ et 1 en fonction de illustre le fait que, même pour des valeurs de
sensiblement inférieures à 1, plim ⇡ˆ est très proche de 0. Les instruments sont alors
faibles et la seconde estimation du modèle des doubles moindres carré ordinaires
sera médiocre (valeur du coefficient erratique, ecart-type élevé). Les instruments
seront également faibles si la variance de l’effet individuel est très élevée par rapport
à celle de l’innovation.
Elles indiquent donc que yn(t s) sont des instruments valides pour yn(t 1) dans
l’équation en niveau. Si les conditions de moments pour le modèle en différences
Chapitre 7. Estimation d’un modèle dynamique 115
0.0
−0.2
−0.4
−0.6
−0.8
−1.0
0.0 0.2 0.4 0.6 0.8 1.0
(⌘ + ⌫3 ) y2 (7.20)
(⌘ + ⌫4 ) y3 (7.21)
(⌘ + ⌫4 ) y2 (7.22)
13. Cette figure et la suivante sont inspirées de Roodman (2009b) p.145 et 147.
Chapitre 7. Estimation d’un modèle dynamique 117
12
●
● ● ● ● ● ● ● ●
10 ●
●
● ● ●
● ● ●
● ● ● ●
●
● ● ●
●
●
8 ●
6 ●
● ●
● ●
● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ●
4 ●
●
●
●
2 ●
0 5 10 15 20 25 30
●
● ● ● ● ●
10 ● ● ● ● ●
● ● ● ●
●
●
● ● ●
●
8 ●
●
●
●
6 ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ● ●
4 ● ●
●
●
●
●
2 ● ●
0 ●
0 5 10 15 20 25 30
Fig. 7.4 – Le cas où la condition est quasiment vérifiée pour les dernières périodes
118 Econométrie des données de panel avec R
X ✓ ◆! > X X X
⌫n ( )
Zn+> = yn1 ⌫n3 , yn1 ⌫n4 , yn2 ⌫n4 , . . . ,
✏n ( )
n n n n
X X X
yn1 ⌫nT , yn2 ⌫nT , . . . , yn(T 2) ⌫nT ,
n n n
!>
X X X
✏n3 yn2 , ✏n4 yn3 , . . . , ✏nT yn(T 1)
n n n
Le choix d’une matrice de pondération initiale est moins évident que dans le cas
du modèle en différence. En effet, dans celui-ci, seul le vecteur des erreurs en diffé-
rences est utilisé et par conséquent la variance de ce vecteur est, avec les hypothèses
d’absence d’autocorrélation et d’homoscédasticité des innovations, proportionnelle
à une matrice connue, le coefficient de proportionnalité étant ⌫2 dont l’estimation
n’est pas nécessaire (voir 7.8). En revanche, ici, le vecteur d’erreurs augmenté in-
clue les erreurs en niveaux, et donc les effets individuels. Dans ce cas, la matrice
de variance dépend de ⌫2 et de ⌘2 . Pour résoudre ce problème et disposer d’une
matrice initiale connue, on peut supposer ⌘2 = 0. Dans ce cas :
✓✓ ◆ ◆ ✓ ◆ ✓ ◆
⌫n D⌫n ⌫n> D> D⌫n ⌫n> h D
V(✏+
n) =E ⌫n> , ⌫n> =E = 2
⌫n ⌫n ⌫n> D> ⌫n ⌫n> ⌫ D> I
Exemple 7.7
Le modèle gmm en système est obtenu d’une manière similaire au modèle en diffé-
rence, la seule différence étant que l’argument transformation doit être fixé à "ld"
(pour level et difference), sa valeur par défaut étant "d" pour difference.
7.4 Inférence
L’estimation d’un modèle par la méthode des moments généralisés pose deux types
de problèmes en termes d’inférence :
– le premier est que, même si l’estimation du modèle est convergente, il n’en est pas
nécessairement de même pour la matrice de variance-covariance des coefficients
si la formule classique de cette matrice est appliquée. On peut alors mettre en
oeuvre des estimateurs robustes de cette matrice ;
– le second est que l’estimation n’est convergente que si certaines hypothèses sont
vérifiées : en particulier l’hypothèse d’absence de corrélation des innovations et
celle de validité des conditions de moments.
un estimateur convergent de E n Zn ⌫n n
>
n ⌫ n Zn et l’estimateur de
la variance donné par (7.14) n’est pas robuste. En revanche, Z > ⌦ ˆ ˆ(1) Z est un
estimateur convergent de la variance des moments, ce qui permet, en introdui-
sant cette expression dans (7.11), d’obtenir l’estimateur robuste de la variance des
coefficients du modèle en une étape :
ˆ ⇥ ⇤ 1
V̂(1) = X > Z(Z > HZ) 1 Z > X
⇥ ˆ ˆ(1) Z)(Z > HZ) 1 Z > X
X > Z(Z > HZ) 1 (Z > ⌦ (7.26)
⇥ > > 1 >
⇤ 1
⇥ X Z(Z HZ) Z X
L’expression de l’estimateur en deux étapes est donnée par (7.16). La difficulté est
que l’estimateur dépend de ⌦ ˆ ˆ(1) , qui dépend lui-même de ˆ(1) et donc de y. Par
conséquent, ˆ(2) n’est pas une fonction linéaire de y et la formule habituelle de
la variance n’est pas adaptée.
L’estimation de la variance du vecteur des J moments ⌦ ˆ ˆ(1) est typiquement très
imprécise pour deux raisons. La première est que le nombre de paramètres est
très important (J ⇥ (J + 1)/2). La seconde est que ces paramètres sont des mo-
ments d’ordre 2 de moments d’ordre 2, donc des moments d’ordre 4 des données
originales 14 . La démarche proposée par Windmeijer (2005) permet d’obtenir une
estimation convergente de la variance de l’estimateur en deux étapes. Pour com-
mencer, on remplace dans (7.16) y par X + ⌫. On obtient alors :
⇣ ⌘ 1 1
ˆ(2) = X >Z Z >⌦ ˆ ˆ(1) Z Z> X
⇣ ⌘ 1 (7.27)
⇥ X >Z Z >⌦ ˆ ˆ(1) Z Z> ⌫
ce qui implique que ˆ(2) ˆ ˆ(1) ). La variance de ˆ(2) est donc celle de
= g( y, ⌦
g( y, ⌦ˆ ˆ(1) ). On réalise ensuite un développement limité d’ordre 1 de g autour de
la vraie valeur des paramètres . On note D le gradient de g évalué pour la vraie
valeur des paramètres :
@ ˆ ˆ) | ˆ
D= g( y, ⌦ =
@ˆ
Le développement limité s’écrit alors :
g( y, ⌦ ˆ ) + D( ˆ(1)
ˆ ˆ(1) ) ⇡ g( y, ⌦ )
Soit encore :
ˆ ˆ )g(
V̂(2) ⇡ g( y, ⌦ y, H)> D>
+ Dg( y, H)g( ˆ )>
y, ⌦ (7.29)
+ ˆ )g(
g( y, ⌦ ˆ )>
y, ⌦
+ Dg( y, H)g( y, H)> D>
En remplaçant ⌫ par ˆ par ⌦
⌫ˆ(1) et ⌦ ˆ ˆ(1) , g( y, ⌦
ˆ )g( y, ⌦ ˆ )> et g( y, ⌦
ˆ )g( y, H)>
(2)
h i 1
sont tous les deux approximés par V̂ = ˆ ˆ(1) Z) 1 Z > X
X > Z(Z > ⌦ . De
⇥ ⇤ 1 (1)
plus, g( y, H)g( y, H)> = X > Z(Z > HZ) 1 Z > X = V̂ . On obtient
donc finalement l’expression de la matrice de variance robuste de l’estimateur en
deux étapes :
ˆ (2) (1) (2) (2)
V̂(2) = V̂ D> + DV̂ D> + V̂ + DV̂
L’expression de D est donnée par Windmeijer (2005).
Exemple 7.8
La fonction vcov permet d’obtenir l’expression “classique” et non convergente de
la variance et vcovHC permet d’obtenir la version robuste (équations 7.26 pour le
modèle en une étape et 7.29 pour le modèle en deux étapes). Nous extrayions ci-
dessous les écarts-types des deux premiers coefficients pour le modèle en différences
en deux étapes.
Chapitre 7. Estimation d’un modèle dynamique 121
> sqrt(diag(vcov(diff2)))[1:2]
lag(democracy) lag(income)
0.04794953 0.04645903
> sqrt(diag(vcovHC(diff2)))[1:2]
lag(democracy) lag(income)
0.10783032 0.06053787
> sargan(diff2)
Sargan Test
data:
chisq = 49.8814, df = 44, p-value = 0.251
> sargan(sys2)
Sargan Test
data:
chisq = 55.6784, df = 54, p-value = 0.4114
La probabilité critique pour le modèle qui utilise toutes les conditions de moment
est proche de 1, alors que celles des deux autres modèles sont bien inférieure ; en
particulier, pour le modèle qui limite le nombre de retards à 3, l’hypothèse de
validité des conditions de moment est rejetée au seuil de 5%.
Chapitre 7. Estimation d’un modèle dynamique 123
⌫ˆ = ⌫ X( ˆ )
La statistique de test est alors obtenue en divisant al par la racine carré de l’ex-
pression précédente et elle suit une distribution normale si l’hypothèse d’absence
d’autocorrélation est vérifiée. Le modèle étant exprimé en différence, le test d’au-
tocorrélation d’ordre 1 n’est pas pertinent car ⌫nt = ⌫nt ⌫n(t 1) est corrélé
124 Econométrie des données de panel avec R
avec ⌫n(t 1) = ⌫n(t 1) ⌫n(t 2) du fait de la présence de ⌫n(t 1) dans les deux
différences successives. En revanche, le test d’autocorrélation d’ordre 2 est per-
tinent, puisqu’il consiste à analyser la corrélation entre ⌫nt = ⌫nt ⌫n(t 1) et
⌫n(t 2) = ⌫n(t 2) ⌫n(t 3) , qui existe si ⌫n(t 1) est corrélé à ⌫n(t 2) , c’est-à-dire
si les innovations en niveau présentent une autocorrélation d’ordre 1.
Exemple 7.10
Le test d’autocorrélation des innovations de Arellano & Bond (1991) est obtenu à
l’aide de la fonction mtest . L’argument order est ici fixé à 2 conformément à la
remarque précédente.
> mtest(diff2, order = 2)
data:
normal = 0.8809, p-value = 0.1892
Call:
pgmm(formula = democracy ~ lag(democracy) + lag(income) | lag(democracy,
2:99) | lag(income, 2), data = DemocracyIncome, subset = sample ==
1, effect = "twoways", model = "twosteps", index = c("country",
"year"))
Residuals
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.301000 -0.003145 0.000000 0.001891 0.000000 1.079000
Coefficients
Estimate Std. Error z-value Pr(>|z|)
lag(democracy) 0.5540073 0.1078303 5.1378 2.78e-07 ***
lag(income) 0.0018436 0.0605379 0.0305 0.9757
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
significatif.
Caselli et al. (1996) s’intéressent à l’analyse de la croissance économique des pays
et en particulier au phénomène de convergence. Il partent des résultats obtenus
dans de nombreuses études réalisées en coupe transversale qui aboutissent pour
la plupart à la conclusion que les pays convergent vers leur état stationnaire à un
taux très faible, égal environ à 2-3%. Leur argument est que ces études souffrent
de deux problèmes de spécification : le premier est la non prise en compte de
la nature dynamique du modèle et le second est la non prise en compte de la
possible endogénéité des variables explicatives. Les auteurs appliquent l’estimateur
de Arellano & Bond (1991) sur un panel de 93 pays et 6 périodes quinquennales
de 1965 à 1985. Ils aboutissent à un taux de convergence beaucoup plus élevé, de
l’ordre de 10%. Bond et al. (2001) indiquent que les résultats obtenus doivent être
pris avec circonspection dans la mesure où la variable expliquée étant quasiment
une variable à racine unitaire, les instruments utilisés dans le modèle sont faibles.
Ils réestiment le même modèle en utilisant l’estimateur de Blundell & Bond (1998)
et ils obtiennent alors un taux de convergence beaucoup plus faible, de l’ordre de
2-4%.
Dans leur article fondateur, Arellano & Bond (1991) ont utilisé des données de 140
entreprises britanniques de 1976 à 1984 afin d’estimer une équation de demande de
travail. Celle-ci est dynamique du fait de l’inclusion de deux retards de la variable
expliquée. Les autres variables explicatives utilisées, elles aussi avec deux retards,
sont le taux de salaire, le stock de capital et le niveau de production. Ces données
ont été utilisées dans de nombreux autres articles, en particulier Blundell & Bond
(1998), Windmeijer (2005) et Roodman (2009a). Elles sont disponibles sous le nom
de EmplUK dans la librairie plm.
Alonso-Borrego & Arellano (1999) mènent une étude sur des données similaires
concernant 738 entreprises espagnoles sur la période 1983-1990. Un modèle var
est utilisé pour l’emploi et le taux de salaire. Ces données sont disponibles sous le
nom de Snmesp dans la librairie plm.
Mairesse & Hall (1996), Blundell & Bond (2000) et Bond (2002) ont estimé une
fonction de production Cobb-Douglas sur un panel de 509 entreprises américaines
sur la période 1982-1989. Les variables explicatives sont, en logarithme, l’endogène
retardée et les deux facteurs de production (travail et capital) contemporains et
avec un retard. Les résultats de Mairesse & Hall (1996), obtenus en utilisant l’esti-
mateur de Arellano & Bond (1991) sont surprenants : l’hypothèse de rendements
constants est rejetée et le coefficient associé au capital est faible et non-significatif.
Blundell & Bond (2000) montrent que ces mauvais résultats sont dûs au fait que
les variables utilisées sont proches d’être des processus de racine unitaire. Dans
ce cas, on sait que l’estimateur gmm en différences donne de mauvais résultat car
les instruments sont faibles. En revanche, les résultats qu’ils obtiennent en uti-
lisant l’estimateur en système donne des résultats plus plausibles (hypothèse de
rendements constants non rejetée et coefficient associé au capital significatif). Ces
données sont disponibles sous le nom de RDPerfCompanies dans la librairie pder.
Bond (2002) présente un exemple d’estimation de modèle autorégressif simple en
Chapitre 7. Estimation d’un modèle dynamique 127
utilisant une série de taux d’investissement pour 703 entreprises américaines sur
la période 1987-2000. Ces données sont disponibles sous le nom de InvRate dans
la librairie pder.
Kessler et al. (2011) s’intéressent à l’influence des transferts inter-régionaux dans
un Etat fédéral sur les inégalités entre les régions. Leur modèle théorique prédit
que, contrairement à l’intuition, ces transferts peuvent aggraver les inégalités inter-
régionales. Ils utilisent des données pour 17 pays de l’OCDE sur la période 1982-
1999, en utilisant en particulier la méthode d’estimation de Arellano & Bond
(1991). Les résultats indiquent effectivement qu’un accroissement des transferts
aggrave les inégalités inter-régionales. Ces données sont disponibles sous le nom
de RegIneq dans la librairie pder.
128 Econométrie des données de panel avec R
Chapitre 8
y⇤ > µ ) y = 1
y⇤ µ ) y = 0
y⇤ = >
x+✏
Les probabilités associées aux deux valeurs possibles de la variable expliquée sont
alors :
>
P (y = 0) = P (✏ x)
>
P (y = 1) = P (✏ > x)
>
P (y = 0) = F ( x)
> >
P (y = 1) = 1 F( x) = F ( x)
>
Fi = F (zi ) and zi = qi ⇥ xi
Le gradient est :
@ ln L X fi
= qi xi
@ i
Fi
et la hessienne :
X ✓ ◆2 !
@ 2 ln L fi0 fi
>
= qi2 xi x>
i
@ @ i
Fi Fi
Pour le modèle logit, ces deux expressions deviennent :
@ ln L X 1
= qi xi
@ i
1 + ezi
@ 2 ln L X ezi
= q 2 xi x>
@ @ > i
1 + ezi i i
@ ln L X i
= qi x i
@ i i
@ 2 ln L X i ✓ i
◆
= zi + qi2 xi x>
i
@ @ > i i i
8.1.2 Panel
Dans le cas de données de panel, nous disposons d’observations répétées de y pour
les mêmes individus. La variable latente est alors définie par :
⇤ >
ynt = xnt + µn + ⌫nt
Le terme d’erreur est classiquement la somme de deux composantes, un effet in-
dividuel µn et un terme isiosyncratique ⌫nt . Deux observations du même individu
sont alors corrélées du fait de la présence de µn . Si le vecteur contient une
constante, on peut suposer sans perte de généralité que E(µ) = 0.
⇤ >
ynt = xnt + µn + ⌫nt
Pour une valeur donnée de µn , la probabilité est définie comme précédemment
pour une observation :
>
P (ynt | µn ) = F qnt ( xnt + µn )
132 Econométrie des données de panel avec R
T
Y
>
P (yn1 , yn2 , . . . , ynT | µn ) = F qnt ( xnt + µn )
t=1
Z T
+1 Y
> 1 0.5( µ )
2
Ln = F qnt ( xnt + µ) p e dµ
1 t=1 2⇡
µ dµ
v=p ) dv = p
2 2
Z T
+1 Y ⇣ p ⌘
1 > v2
Ln = p F qnt ( xnt + 2 v) e dv
⇡ 1 t=1
Il n’y a pas d’expression analytique pour cette intégrale, mais elle peut être ap-
proximée numériquement de manière efficace en utilisant les quadrature d’Hermite.
On a alors :
1 X
R YT ⇣ p ⌘ 1 X
R
>
Ln = p wr F qnt ( xnt + 2 vr ) = p wr Fir
⇡ r=1 t=1
⇡ r=1
QT p
avec : Fir = t=1 F qnt ( >
xnt + 2 vr )
r
r @ ln Fnt
gnt = r
@znt
@ 2 ln Fntr
hrnt = r 2
@znt
R
" ( T ✓ ◆)#
@ ln Ln 1 X r X x nt
=p F wr qnt gnt p
r
@✓ ⇡Ln r=1 n t=1
2vr
Chapitre 8. Modèles linéaires généralisés et assimilés 133
" T ✓ ◆⇣
@ 2 ln Ln 1 X r
R X 2 xnt p ⌘
= p Fn w r r r
qnt hnt p x>nt , 2vr
@✓@✓> ⇡Ln r=1 t=1
2vr
XT ✓ ◆! X T ⇣ ⌘
!#
x nt
p
+ r
ant gnt p r
ant gnt x>
nt , 2vr
2vr
t=1 t=1
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.1.3 Application
Brender & Drazen (2008) se sont intéressé à l’influence de la politique budgétaire
sur la réélection des hommes politiques. Plus précisément, il est souvent suggéré
que lorsqu’une échéance électorale approche, les hommes politiques en place ont
tendance à mener une politique budgétaire plus généreuse, c’est-à-dire à réduire
les impôts et/ou à augmenter les dépenses. Dans cet article, un panel de 75 pays
est utilisé, avec un nombre d’observations compris entre 1 et 16. Au sein de cet
échantillon, un sous-ensemble d’observations est isolé lorsque l’homme politique
au pouvoir se représente (pour les autres observations, on analyse si le parti au
pouvoir est réélu ou non). Ce sous-échantillon peut être sélectionné à l’aide de la
variable logique narrow. La variable expliquée est reelect qui vaut 1 en cas de
réélection et 0 autrement. Les deux variables explicatives cruciales sont ddefterm
et ddefey qui mesure le ratio d’excédent budgétaire, dans le premier cas pour
les deux années précédent l’élection par rapport aux deux années précédentes et
dans le second cas pour l’année de l’élection par rapport à l’année précédente. Les
variables de contrôle sont le taux de croissance du pib durant le mandat gdppc,
le fait que le pays soit en développement ou non dev, le fait qu’il soit nouvellement
une démocratie nd et le fait que le système électoral soit majoritaire ou non maj.
> library("pglm")
> data("Reelection", package="pder")
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 8 iterations
Return code 1: gradient close to zero
Log-Likelihood: -163.4349
8 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
134 Econométrie des données de panel avec R
On constate que la probabilité de réélection est plus forte dans les pays en dévelop-
pement, dans les pays nouvellement démocratique et pour les systèmes électoraux
majoritaires. Le taux de croissance du pib a également l’effet positif attendu sur la
probabilité de réélection. Concernant la politique budgétaire, les coefficients asso-
ciés aux deux variables indiquant la variation du surplus budgétaire à l’approche de
l’élection sont positifs ; cela signifie qu’une politique budgétaire “électoraliste” n’a
pas d’effet positif systématique sur la réélection. A l’inverse, les résultats indiquent
que les électeurs auraient plutôt tendance à pénaliser ce type de politique.
y⇤ = >
x+✏
> >
P(y = j) = F (!j x) F (!j 1 x)
Chapitre 8. Modèles linéaires généralisés et assimilés 135
The gradient and the hessian are, denoting ✓ = ( , !) the complete set of the
parameters, wh a vector of J + 1 elements which are all zero except at the h
0
position and f the derivative of the density function f :
✓ ◆ ✓ ◆
@ ln Ln xn fyn +1 xn f yn
=
@✓ wyn +1 Py n w yn Py n
✓ ◆ 0 ✓ ◆ 0
@ 2 ln Ln xn fyn +1 xn f yn
= x> >
n , wyn +1 x> >
n , w yn
@✓@✓> wyn +1 Py n w yn Py n
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.2.2 Panel
Le raisonnement est similaire à celui adopté pour le modèle binomial. La proba-
bilité jointe pour un individu n pour une valeur donnée de l’effet individuel est :
T
Y ⇥ > >
⇤
P (yn1 , yn2 , . . . , ynt | µn ) = F !ynt +1 xnt µn F !ynt xnt µn
t=1
Z T
+1 Y ⇥ > >
⇤ 1 0.5( µ )
2
Ln = F !ynt +1 xnt µn F !ynt xnt µn p e dµ
1 t=1 2⇡
Z T h
+1 Y ⇣ p ⌘ ⇣ p ⌘i
1 > > v2
Ln = p F !ynt +1 xnt 2 v F !ynt xnt 2 v e dv
⇡ 1 t=1
R T h ⇣ ⌘ ⇣ ⌘i
1 X Y
>
p >
p
Ln = p wr F !ynt +1 xnt 2 vr F !ynt xnt 2 vr
⇡ r=1 t=1
136 Econométrie des données de panel avec R
En notant :
8 r >
p +r >
p
>
> znt = !ynt xnt 2vr znt = !ynt +1 xnt 2vr
>
> m r
< nt 0 nt= m(z r
) 1 m+r
nt = m(z
0 nt
+r
) 1
xn xn
>
>
> Mnt
>
r
= @ wpynt A Mnt = @ wypnt +1 A
r+
:
2vr 2vr
R T
1 X Y ⇥ +r r
⇤
Ln = p wr Fnt Fnt
⇡ r=1 t=1
QT ⇥ +r ⇤
avec ✓> = ( > , ! > , ) le vecteur complet de paramètres à estimer, Fnr = t=1 Fnt r
Fnt
+r r +r
@ ln[Fnt Fnt ] r @ 2 ln[Fnt r
Fnt ]
r
gnt = @z r , hnt = @z r 2 le gradient et la hessienne s’écrivent :
nt nt
R
( T
)
@ ln Ln 1 X X
+r +r
=p wr Fnr gnt Mnt r
gnt r
Mnt
@✓ ⇡Ln r=1 t=1
8 ! !>
2
@ ln Ln 1
R
X < X
T T
X
+r +r +r +r
= p wr Pnr gnt Mnt r
gnt r
Mnt ⇥ gnt Mnt r
gnt r
Mnt
@✓@✓> ⇡Ln r=1
:
t=1 t=1
T
X T
X
e+r
ynt +r +r > erynt r r >
+ Mnt Mnt Mnt Mnt
t=1
Fy+r
nt Fyrnt t=1
Fy+r
nt Fyrnt
T +r +r > !)
X fy+r Mnt fyrnt Mnt
r
fy+r Mnt fyrnt Mnt
r
nt nt
2
t=1 Fy+r
nt Fyrnt
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.2.3 Application
Raux et al. (2009) ont analysé l’équité perçue de différents type de rationnement
de la demande à l’aide d’une enquête dans laquelle les individus devaient indiquer
sur une échelle ordinale leur avis sur une proposition de rationnement concernant
soit l’allocation de places de TGV, soit de places de parking. La variable expliquée
answer prend des valeurs entières de 0 (très injuste) à 3 (très juste). La principale
variable explicative indique le type de rationnement proposé : tarification de pointe
peak, règle administative admin, tirage au hasard lottery, offre complémentaire
addsupply, file d’attente queuing, règle morale moral et règle de compensation
compensation. Les autres variables explicatives indique que le rationnement est
récurrent ou non reccuring, que la personne interrogée a un diplôme education
et qu’elle dispose ou non d’un permis de conduire driving. L’estimation suivante
Chapitre 8. Modèles linéaires généralisés et assimilés 137
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 5 iterations
Return code 1: gradient close to zero
Log-Likelihood: -2705.814
13 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
(Intercept) -0.268592 0.072483 -3.7056 0.0002109 ***
recurringyes -0.077394 0.059175 -1.3079 0.1909119
drivingno 0.255440 0.079863 3.1985 0.0013816 **
educationno -0.308525 0.105204 -2.9326 0.0033610 **
ruleadmin -0.066439 0.088131 -0.7539 0.4509275
rulelottery 0.238053 0.086215 2.7612 0.0057594 **
ruleaddsupply 1.221326 0.085302 14.3177 < 2.2e-16 ***
rulequeuing 1.847690 0.088629 20.8476 < 2.2e-16 ***
rulemoral 2.836708 0.098330 28.8487 < 2.2e-16 ***
rulecompensation 2.622407 0.095999 27.3170 < 2.2e-16 ***
mu_1 1.018679 0.037790 26.9566 < 2.2e-16 ***
mu_2 2.515460 0.058926 42.6888 < 2.2e-16 ***
sigma 0.529240 0.050331 10.5152 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
y⇤ 0 ) y = 0
y⇤ > 0 ) y = y⇤
Les mêmes hypothèses que précédemment sont faites sur la variable latente, c’est-
à-dire y ⇤ = > x + ✏, avec ✏ ⇠ N (0, ✏2 ). La contribution d’une observation à la
138 Econométrie des données de panel avec R
vraisemblance dépend alors du fait que cette observation soit nulle ou positive.
Pour une observation nulle, il s’agit d’une probabilité :
✓ >
◆
x
P(y = 0) =
✏
✓ >
◆ 0
In ✓ >
◆ +
In
xn 1 yn xn
⇥
✏ ✏ ✏
n
X ✓ >
◆ ✓ >
◆
xn 1 1 (yn xn ) 2
ln L = In0 ln In+ ln(2⇡ 2
✏) + 2
i=1 ✏ 2 2 ✏
⇢ ✓ ◆
@ ln Ln In0 > xn n In+ e2n
= 1
@ ✏2 2 ✏3 n 2 ✏2 2
✏
✓ >
◆
@ 2 ln Ln 1 xn n n
= In0 + + yn x n x >
n
@ @ > 2
✏ ✏ n n
⇢ ✓ >
◆ >
@ 2 ln Ln 1 n xn n n xn en
= In0 + + In+ xn
@ @ ✏2 2 3
n ✏ n n 2 4 4
⇢ ✓ ◆
@ 2 ln Ln 1 n n 2
4
= ẽ0n 3 ẽ0n + ẽ0n + In+ (1 2 ẽ+
n
@ ✏ 2 ✏4 n n
Chapitre 8. Modèles linéaires généralisés et assimilés 139
8.3.2 Panel
En cas d’observation répétées pour les mêmes individus, on décompose comme
précédemment l’erreur en la somme d’un effet individuel et d’un terme isiosyncra-
tique : µn : ynt
⇤
= > xnt + µn + ✏nt , avec ✏ ⇠ N (0, ✏2 ) et µ ⇠ N (0, µ2 )
La probabilité jointe d’observer le vecteur yn = yi1 , . . . , ynt pour l’individu n pour
une valeur donnée de l’effet individuel est :
T
( ✓ ◆ 1 ynt ✓ ◆ ynt
)
Y >
xnt + µn 1 ynt >
xnt µn
P(yn | µn ) = ⇥
t=1 ✏ ✏ ✏
82 0 q 131 ynt 2 0 q 1
Z T >
< >
xnt + 2 2 > 2
1 +1 Y µz 1 ynt xnt 2 µz
P(yn ) = p 4 @ A5 ⇥4 @ A
⇡ 1 t=1 >
: ✏ ✏ ✏
( ✓ p ◆ ✓ p ◆
1 ynt
PR QT >
xnt + 2 2
µ vr ynt >
xnt 2 2
µ vr
P(yn ) = p1
⇡ r=1 wr t=1 ✏
⇥ 1
✏ ✏
PR
= p1 r
wr Pnt
⇡ r=1
avec :
2 0 q 1 0 ⇣ q
> 2 >
T
X xnt + 2 µ vr ynt xnt
r 6 @ A B 2
ln Pnt = 4(1 ynt ) ln 0.5ynt @ln(2⇡ ✏) + 2
t=1 ✏ ✏
Le gradient s’écrit :
⇢ ⌘ ✓ x ◆
ynt ⇣
XR r p
@ ln Ln 1 r (1 ynt ) nt 2 p nt
= p w P
r nt ⇥ r + ent 2 ✏ vr
@( , µ2 ) 2⇡Ln r=1 ✏ nt
2
✏ 2vr
140 Econométrie des données de panel avec R
8 0 ⇣ p
>
< (1 p 2
R
X ynt )( >
xnt + 2 2 r ent 2 ✏v
@ ln Ln 1 r µ vr ) nt ynt B
=p wr Pnt ⇥ r @1
@ ✏2 2⇡Ln r=1
>
: 2
3/2
✏ nt 2 ✏2 2
✏
8.3.3 Application
Porto & Revelli (2012) se sont intéressé aux déterminants du niveau d’une taxe
régionale sur les automobiles en Italie. Les données concernent une panel consti-
tué des 100 régions italiennes sur 7 ans (2000-2007). La variable expliquée tax
est censurée car certaines régions certaines années ont choisi de ne pas appliquer
cette taxe. Les variables explicatives sont le fait qu’il y ait ou non une élection
régionale election, le fait que le gouvernement régional soit ou non de droite
right, le montant de subventions reçu par la région grants en euros par tête, le
revenu régionale par tête income et le nombre de véhicules immatriculés l’année
précédente vehicules.
> data("VehiculeTax", package="pder")
[1] 16.52429
FALSE TRUE
0.8785714 0.1214286
Le taux de taxe moyen est de 16.5% et il est nul pour 12% des observations.
L’estimation du modèle tobit à effets aléatoires nous donne :
> summary(z <- pglm(tax~right+log(grants)+log(income)+vehicules+election,
+ VehiculeTax, family="tobit", R=30))
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 4 iterations
Return code 1: gradient close to zero
Log-Likelihood: -2055.443
8 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
(Intercept) -9.70268 6.77223 -1.4327 0.1519389
rightyes -2.36868 0.86185 -2.7484 0.0059890 **
Chapitre 8. Modèles linéaires généralisés et assimilés 141
8.4 Poisson
8.4.1 Introduction
On considère désormais un modèle pour lequel la variable expliquée est une variable
de comptage. Nous supposons dans un premier temps que la distribution de y est
une loi de Poisson de paramètre ✓n (qui est à la fois la moyenne et la variance
de la variable). Avec cette hypothèse de distribution, la probabilité associée à yn
s’écrit :
✓n y n
e ✓n
P (yn ) =
yn !
En utilisant le lien logarithmique, le paramètre de Poisson est une fonction log-
linéaire des variables explicatives :
>
xn
✓n = e
Ce qui conduit à la probabilité suivante pour l’observation n.
>x >
e n x n yn
e e
P (yn | xn ) =
yn !
En prenant cette probabilité en logarithmes et en sommant pour l’ensemble des
individus, on obtient la fonction de log de vraisemblance suivante :
n
X n
X n
X
>
xn >
ln L = e + x n yn ln yn !
i=1 i=1 i=1
@ ln L X ⇣ ⌘
n
>
xn
= yn e xn
@ i=1
n
X
@ ln L >
= e xn
xn x>
n
@ @ > i=1
142 Econométrie des données de panel avec R
8.4.2 Panel
En cas d’observations répétées pour les mêmes individus, on écrit désormais le
paramètre de Poisson pour l’individu n à la date t de la manière suivante :
>
xnt
✓nt = ↵n nt = ↵n e
ce qui signifie que l’on suppose que l’effet individu est multiplicatif. Pour une valeur
donnée de cet effet individuel, la probabilité associée à ynt s’écrit :
✓nt ynt ↵n ynt
e ✓nt e nt
(↵n nt )
P(ynt | xnt , ↵n , ) = =
ynt ! ynt !
PT
Soit Yn = t=1 ynt la somme des réalisations de la variable pour l’ensemble des
PT
périodes pour l’individu n et ⇤n = t=1 nt la somme des paramètres de Poisson.
La somme de variables de Poisson est une variable de Poisson dont le paramètre
est égal à la somme des paramètres des variables sommées. Par conséquent, nous
avons :
↵n ⇤n
e (↵n ⇤n )Yn
P(Yn | xn , ↵n , ) = (8.1)
Yn !
Soit yn = (yi1 , yi2 , . . . , ynt ) le vecteur de réalisations de y pour l’individu n. On a
alors :
↵n
PT QT ynt ↵n ⇤i
QT ynt
e t=1 nt
t=1 (↵n nt ) e ↵nYn nt
P(yn | xn , ↵n , ) = QT = QT
t=1
(8.2)
t=1 ynt ! t=1 ynt !
P(yn | xn , ↵n , )
P(yn | xn , ↵n , , Yn ) =
P(Yn | xn , ↵n , )
ce qui implique :
T
Yn ! Y yntnt
P(yn | xn , , Yn ) = (8.3)
⇤Ynn t=1 ynt !
Yn est une “statistique suffisante”, ce qui signifie qu’elle permet d’éliminer l’ef-
fet individuel. En prenant le logarithme de cette expression et en sommant pour
l’ensemble des individus, on obtient le modèle de Poisson “within” :
Chapitre 8. Modèles linéaires généralisés et assimilés 143
n T T
!
X X X
ln L(y | x, , Y ) = ln Yn ! Yn ln nt + (ynt ln nt ln ynt !) (8.4)
i=1 t=1 t=1
ab ax b 1
f (x, a, b) = e x
(b)
avec
Z +1
(z) = tz 1
e t dt
0
la fonction . L’espérance et la variance de x sont respectivement :
b b
E(x) =
and V(x) = 2
a a
Si le modèle contient une constante, l’espérance n’est pas identifiée et on peut
donc, sans restriction, supposer qu’elle est égale à 1, ce qui implique que a = b.
On obtient ainsi une distribution de gamma à un paramètre (noté ) :
↵ 1
f (↵) = e ↵
( )
En intégrant les probabilités conditionelles (8.1 et ??), on obtient les probabilités
non-conditionelles pour les modèles “between” et pour le modèles à effets aléa-
toires :
Z +1
⇤ n Yn (Yn + )
P(Yn | xn , ) = P(Yn , xn , ↵, )f (↵)d↵ =
0 Yn ! ( ) (⇤n + )Yn +
Z +1 T
Y ynt
nt (Yn + )
P(yn , xn , ) = P(yn , xn , ↵, )f (↵)d↵ =
0 t=1
ynt ! ( ) (⇤n + )Yn +
ce qui conduit aux fonctions de log de vraisemblance pour les deux modèles :
Pn P
ln L(Y | x, ) = i=1 [Yn ln ln Yn ! + ln ⇣
t nt ⌘i
PT (8.5)
ln ( ) + ln (Yn + ) (Yn + ) ln t=1 nt +
Pn P
ln L(y | x, ) = i=1 [ t (ynt ln
ln ynt !) + ln⇣ nt ⌘i
PT (8.6)
ln ( ) + ln (Yn + ) (Yn + ) ln t=1 nt +
144 Econométrie des données de panel avec R
8.4.3 Application
Drakos (2007) s’est intéressé à la mesure des actions terroristes. Plus précisément,
l’hypothèse testée est qu’il y a un biais vers le bas dans la publicité faite par les
autorités sur les actions terroristes menées sur leur sol et que ce biais est d’autant
plus important que le pays est peu démocratique, et en particulier que la liberté
de la presse n’est pas respectée. A cet effet, on souhaite estimer un modèle dans
lequel la variable expliquée est le nombre d’actions terroristes (incidents) et les
deux variables explicatives polity qui est un index de régime politique qui varie de
-10 (régime très autocratique) à +10 (régime très démocratique) et press qui est
une variable catégorielle avec trois modalités : notFree, partlyFree et Free.
> data("Terrorism", package="pder")
On commence par estimer le modèle à effets aléatoires, qui est le modèle par
défaut :
> ea <- pglm(incidents~polity+press, data = Terrorism,
+ index = c("country", "year"), family = poisson)
> summary(ea)
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -4251.775
5 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
(Intercept) 0.5672487 0.1388095 4.0865 4.379e-05 ***
polity 0.0686051 0.0070205 9.7721 < 2.2e-16 ***
presspartlyFree 0.0221862 0.0602074 0.3685 0.7125
pressFree 0.1376516 0.0752343 1.8296 0.0673 .
sigma 0.3977339 0.0451065 8.8177 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
Le coefficient associé à la variable polity est de signe positif et est très significa-
tive. Les coefficients associés aux trois modalités de la variable press sont classés
conformément à ce qui était attendu. Pour tester la significativité de cette variable,
on peut réaliser un test de Wald :
> stpress <- as.numeric(coef(ea)[3:4]%*%solve(vcov(ea))[3:4,3:4]%*%coef(ea)[3:4])
> stpress
[1] 5.685158
[1] 0.05827518
L’hypothèse que la variable press n’a pas d’influence n’est pas rejetée au seuil de
5%, mais elle l’est au seuil de 10%.
Les autres modèles (pooling, within et between) sont aisément estimé en mettant
à jour le modèle précédemmment estimé :
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 3 iterations
Return code 1: gradient close to zero
Log-Likelihood: -3673.82
3 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
polity 0.068894 0.007416 9.2899 < 2e-16 ***
presspartlyFree 0.010625 0.060334 0.1761 0.86021
pressFree 0.127728 0.075556 1.6905 0.09093 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
Les résultats des modèles within et à effets aléatoires sont très proches, ce qui doit
être le cas en l’absence de problèmes de corrélation entre l’effet individuel et les
variables explicatives.
8.5 Negbin
8.5.1 Introduction
Les variables de comptage présentent souvent un phénomène de dispersion excé-
dentaire, ce qui signifie que la variance est souvent supérieure à la moyenne. Dans
ce cas, le modèle NegBin est une alternative intéressante au modèle de Poisson.
Ce modèle, dans un contexte de coupe transversale, est très similaire au modèle
de Poisson à erreurs composées.
Supposons que yn est une variable aléatoire qui suit une distribution de Poisson
>
de paramètre ✓n = ↵n n avec n = e xn si le lien est logarithmique, ↵n étant
une variable aléatoire.
La probabilité conditionelle pour yn est :
146 Econométrie des données de panel avec R
✓n y n ↵n yn
e ✓n e n
(↵n n)
P(yn | xn , ↵n , ) = =
yn ! yn !
On suppose que ↵n suit une distribution gamma et, comme on l’a vu précédem-
ment, la moyenne n’est pas identifiée de fait qu’une distribution à un paramètre
est choisie, qui impose une moyenne unitaire.
↵ 1
f (↵) = e ↵
( )
En intégrant la probabilité conditionelle en uilisant cette fonction de densité, on
obtient :
Z +1 ↵
e (↵ i )yi
i
↵ 1
P (yn | xn ) = e ↵ d↵
0 yi ! ( )
✓ ◆ n
✓ ◆y n
n n (yn + n )
P (yn | xn ) =
n+ n n+ n (yn + 1) ( n )
Pour comprendre la signification de n , on calcule les deux premiers moments de
yn . Tout d’abord, pour une valeur donnée de ↵n , on a toujours : E(yn | ↵n ) =
V(yn | ↵n ) = ✓n = ↵n n . L’espérance non-conditionelle est : E↵ (↵ n ) = n car
l’espérance de ↵ est égale à 1.
Pour calculer la variance non-conditionelle, on applique la règle de la variance :
1
V(yn ) = E↵ (↵ n) + V↵ (↵ n) = n + 2
n
n
8.5.2 Panel
T
!
Y ( + ynt )
nt (⇤n ) (Yn + 1)
P(yn | xn , , Yn ) = (8.7)
t=1
( nt ) (ynt + 1) (⇤n + Yn )
(⇤n + Yn ) (a + b) (a + ⇤n ) (b + Yn )
P(Yn | xn , ) = (8.8)
(⇤n ) (Yn + 1) (a) (b) (a + b + ⇤n + Yn )
Chapitre 8. Modèles linéaires généralisés et assimilés 147
T
!
(a + b) (a + ⇤n ) (b + Yn ) Y ( nt + ynt )
P(yn , xn , ) = (8.9)
(a) (b) (a + b + ⇤n + Yn ) t=1
( nt ) + (ynt + 1)
148 Econométrie des données de panel avec R
Chapitre 9
Racines unitaires et
cointégration
9.1 Introduction
La détection de la présence de racines unitaires et de relations de cointégration est
devenue un sujet phare de la macro-économétrie. Les techniques utilisées dans le
cadre de séries temporelles ont été adaptées au cas de données de panel. Nous com-
mencerons par rappeler les principaux résultats concernant les séries temporelles
avant de présenter ces techniques.
On considère une variable yt pour laquelle on suppose un processus autorégressif
d’odre 1 :
yt = ⇢yt 1 + x>
t + ✏t
Le vecteur de variables explicatives peut contenir un 1, un trend linéaire et diffé-
rentes variables explicatives. Pour simplifier, on supposera par la suite que = 0,
on s’intéresse donc à un processus autorégressif “pur”. Concernant l’erreur (appelée
aussi dans ce contexte l’innovation), nous supposerons qu’elle est d’espérance nulle
et d’écart-type . Par substitutions successives, on obtient :
y t = ⇢t y 0 + ⇢t 1
✏ 1 + ⇢t 2
+ . . . + ⇢✏t 1 + ✏t
Si y0 est déterministe et les ✏ ne sont pas corrélés, la variance de yt s’écrit :
V(yt ) = (⇢t 1
+ ⇢t 2
+ . . . + ⇢ + 1) 2
Si ⇢ 6= 1, on a :
1 ⇢t 1
V(yt ) = 2
! 2
1 ⇢ 1 ⇢
150 Econométrie des données de panel avec R
● ●
●
●
●●
4
●●● ●
● ● ●
● ● ●
1
● ●● ● ●
● ●
●
●
3
●
●
● ● ● ●
● ● ●
● ●
● ●● ●
2
0
●● ●●
●● ● ●●
● ●
● ●
●●
1
● ●●
●● ●
●
●
−1
● ●
● ●
0
● ● ●
●
●
●
−1
●
−2
●
●
● ●
−2
● ● ●●
0 10 20 30 40 0 10 20 30 40
2.5% 97.5%
-2.114024 1.990031
FALSE TRUE
0.943 0.057
On constate que les quantiles empiriques sont très proches des valeurs attendues et
le pourcentage de cas où une relation significative entre les deux variables apparaît
est de l’ordre de 5%. Faisons maintenant la même expérience avec deux séries
contenant une racine unitaire :
> result <- c()
> R <- 1000
> for (i in 1:R) result <- c(result, tstat(rho = 1, T = 40))
> quantile(result, c(0.025, 0.975))
2.5% 97.5%
-9.158448 8.227059
FALSE TRUE
0.379 0.621
yt = (⇢ 1)yt 1 + ✏t
Le test de présence de racine unitaire se ramène alors à un test que le coefficient
estimé associé à yt 1 lorsque la variable expliquée est yt est nul. On peut alors
penser à utiliser une statistique de Student classique, obtenue en divisant ⇢ˆ 1 par
son écart-type. En posant HO : ⇢ = 1 vs H1 : ⇢ < 1, on rejettera alors l’hypothèse
de racine unitaire au seuil de 5% si la statistique est inférieure à 1.64. A cet effet,
on réalise de nouveau un exercice de simulations :
−4 −3 −2 −1 0 1
FALSE TRUE
0.542 0.458
ce qui conduirait à rejeter l’hypothèse nulle de racine unitaire alors qu’elle est
vraie environ une fois sur deux. Le test que l’on vient de réaliser est le test de
Dickey-Fuller, il nécessite l’utilisation de valeurs critiques spécifiques qui ne sont
pas celles correspondant à une densité normale. On peut également réaliser ce
test en introduisant en plus une constante et/ou un trend déterministe et on peut
également ajouter des retards de y de manière en prendre en considération une
éventuelle autocorrélation de ✏.
La régression de deux séries présentant toutes les deux une racine unitaire est
pertinent si ces deux séries présentent une relation structurelle de long terme, on
parle alors de co-intégration. Plus précisément, on dira que deux variables x et y
sont co-intégrés si il existe tel que :
y = x+✏
avec ✏ qui ne contient pas de racine unitaire. Un test simple de cointégration peut
alors être réalisé de la manière suivante :
1. on utilise un test de Dickey-Fuller pour vérifier que x et y ont une racine
unitaire,
2. on estime alors y en fonction de x et on récupère les résidus d’estimation e,
3. on utilise un test de Dickey-Fuller sur e : si on rejette l’hypothèse de racine
unitaire, x et y sont cointégrés et la régression de y en fonction de x a du
sens, sinon x et y ne sont pas cointégrés et la régression de y en fonction de
x est falacieuse.
Résultats préliminaires
Certains de ces tests sont obtenus en appliquant des tests adf pour chaque individu
de l’échantillon. Pour réaliser ces tests préliminaires, il faut choisir le nombre de
retards dans la régression suivante :
Ln
X
ynt = (⇢ 1)yn(t 1) + yn(t s)
s=1
Ce choix peut être réalisé en utilisant différents critères :
154 Econométrie des données de panel avec R
En définissant s̄n comme le rapport entre les variance de long terme et de court
terme d’un individu et en notant s̄ la moyenne pour l’ensemble des individus de
l’échantillon, on obtient
ˆyi
sn =
ˆ ✏n
PN
i=1 sn
s̄ =
N
Levin et al. (2002) montrent alors que la statistique :
t⇢ nT̄ s̄ˆ✏˜ 2 ˆ (ˆ
⇢)µ⇤mT̃
t⇤⇢ = ⇤
mT̃
suit une distribution normale sous l’hypothèse nulle de racine-unitaire. Les valeurs
de µ⇤mT̃ sont m ⇤
T̃
données dans l’article.
Chapitre 9. Racines unitaires et cointégration 155
et, sous l’hypothèse nulle de racine unitaire pour les N individus, suit une distri-
bution de chi deux à N degrés de liberté.
156 Econométrie des données de panel avec R
Chapitre 10
Panels spacials
Bibliographie
Acemoglu A.D., Johnson S., Robinson J.A. & Yared P. (2008). Income and demo-
cracy. American Economic Review, 98(3), 808–842.
Arellano M. & Bond S. (1991). Some tests of specification for panel data : Monte
carlo evidence and an application to employment equations. Review of Economic
Studies, 58, 277–297.
Arellano M. & Bover O. (1995). Another look at the at the instrumental variables
estimation of error components. Journal of Econometrics, 68, 29–51.
Balestra P. & Nerlove M. (1966). Pooling cross-section and time-series data in the
estimation of dynamic models : The demand for natural gas. Econometrica, 34,
585–612.
Croissant Y. & Millo G. (2008). Panel data econometrics in R : The plm package.
Journal of Statistical Software, 27(2). http://www.jstatsoft.org/v27/i02/.
Forbes K.J. (2000). A reassessment of the relation between inequality and growth.
American Economic Review, 90(4), 869–887.
Harris M.N., Matyas L. & Sevestre P. (2008). Dynamic models for short panels.
Dans The Econometrics of Panel Data, réd. L. Matyas & P. Sevestre, pp. 249–
278. Springer.
Hausman J. & Taylor W. (1981). Panel data and unobservable individual effects.
Econometrica, 49, 1377–1398.
Honda Y. (1985). Testing the error components model with non–normal distur-
bances. Review of Economic Studies, 52, 681–690.
Horrace W. & Schmidt P. (2000). Multiple comparisons with the best, with eco-
nomic applications. Journal of applied econometrics, 15(1), 1–26.
Im K., Pesaran M. & Shin Y. (2003). Testing for unit roots in heterogenous panels.
Journal of econometrics, 115(1), 53–74.
Kessler A.S., Hansen N.A. & Lessman C. (2011). Interregional redistribution and
mobility in federations : a positive approach. The Review of Economic Studies,
78, 1345–78.
162 Econométrie des données de panel avec R
Khan M.S. & Knight M.D. (1988). Import compression and export performance
in developing countries. Review of economics and statistics, 70(2), 315–321.
Levin A., Lin C. & Chu C. (2002). Unit root test in panel data : asymptotic and
finite sample properties. Journal of Econometrics, 108, 1–24.
Levine R., Loayza N. & Beck T. (2000). Financial intermediation and growth :
causalty and causes. Journal of Monetary Economics, 46, 31–77.
Maddala G. & Wu S. (1999). A comparative study of unit root tests with panel
data and a new simple test. Oxford bulletin of economics and statistics, 61,
631–52.
Mairesse J. & Hall B. (1996). Estimating the productivity of research and deve-
lopment in french and us manufacturing firms : an exploration of simultaneity
issues with gmm methods. Dans International productivity differences and their
explanations, réd. K. Wagner & B. Van-Ark, pp. 285–315. Elsevier Science.
Mundlak Y. (1978). On the pooling of time series and cross section data. Econo-
metrica, 46(1), 69–85.
Nickel S. (1981). Biaises in dynamic models with fixed effects. Econometrica, 49,
1417–1426.
Porto E.D. & Revelli F. (2012). Tax limited reaction functions. Journal of applied
econometrics.
Bibliographie 163
Raux C., Souche S. & Croissant Y. (2009). How fair is pricing perceived to be ?
an empirical study. Public Choice, 139(1), 227–240.
Roodman D. (2009a). How to do xtabond2 : an introduction to difference and
system gmm in stata. The Stata Journal, 9, 86–136.
Roodman D. (2009b). A note on the theme of too many instruments. Oxford
Bulletin of Economics and Statistics, 71, 135–158.
Sargan J. (1958). The estimation of economic relationships using instrumental
variables. Econometrica, 26, 393–415.
Sevestre P. (2002). Econométrie des données de panel. Dunod.
Swamy P. (1970). Efficient inference in a random coefficient regression model.
Econometrica, 38, 311–323.
Swamy P. & Arora S. (1972). The exact finite sample properties of the estimators
of coefficients in the error components regression models. Econometrica, 40,
261–275.
Wallace T. & Hussain A. (1969). The use of error components models in combining
cross section with time series data. Econometrica, 37(1), 55–72.
objets DemocracyIncome, 98
data.frame, 3 DemocracyIncome25, 36, 37, 98
pdata.frame, 3, 5, 28, 32 EmplUK, 126
FinGrowth, 125
fonctions ForeignTrade, 32, 33
as.matrix, 5 Grunfeld, 8
Between, 8 InvRate, 126
between, 8 LargeBanks, 28
ercomp, 29 RDPerfCompanies, 126
fixef, 30, 43 RegIneq, 126
index, 4 Snmesp, 126
lag, 100 TexasElectr, 34, 36
lm, 30, 100 Tileries, 48
mtest, 123 TurkishBanks, 33, 35
pdata.frame, 3 USAirlines, 66
pdim, 4
pFtest, 63 arguments
pglm, 52 data, 3, 28, 29
pgmm, 109 drop.index, 3
phtest, 72 effect, 8, 42, 43, 64, 102, 110
plm, 28, 42, 59, 81, 91, 101, 102, family, 52
110 formula, 28, 29, 110
plmtest, 64 index, 3, 28
pooltest, 65 inst.method, 86
print, 29, 66 mode, 66
pvcm, 65, 66, 69 model, 28, 59, 67, 69, 101, 102,
sapply, 32 110
sargan, 121 order, 123
summary, 9, 29, 32, 66, 124 random.method, 28, 44, 86
vcov, 120 restrict.matrix, 59
vcovHC, 120 restrict.rhs, 59
Within, 7 robust, 124
transformation, 118
données type, 30
Index 165
which, 4
166 Econométrie des données de panel avec R
Table des figures