Econométrie Des Données de Panel Avec R PDF

Table des matières
1 Introduction 1
1.1 Qu’est-ce qu’un panel . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Organisation des données de panel sous R . . . . . . . . . . . . . . 3
1.3 Mesure de la variabilité dans un panel . . . . . . . . . . . . . . . . 5
1.4 Des transformations utiles . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Les différentes formes d’hétérogénéité . . . . . . . . . . . . . . . . . 12
2 Modèle à erreurs composées 15

2.1 Notations et hypothèses . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Hypothèses sur les termes d’erreur . . . . . . . . . . . . . . 17
2.2 Estimateurs des moindres carrés ordinaires . . . . . . . . . . . . . 18
2.2.1 Estimateur des moindres carrés ordinaires sur les variables
non transformées . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 L’estimateur between . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 L’estimateur within . . . . . . . . . . . . . . . . . . . . . . 21
2.3 L’estimateur des moindres carrés généralisés . . . . . . . . . . . . . 23
2.3.1 Présentation de l’estimateur des mcg . . . . . . . . . . . . 23
2.3.2 Estimation des variances des composantes du terme d’erreur 25
2.4 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Relations entre les estimateurs . . . . . . . . . . . . . . . . 27
2.4.2 Comparaison des variances . . . . . . . . . . . . . . . . . . 28
2.5 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.1 Un exemple complet d’estimation avec plm . . . . . . . . . 28
2.5.2 Exemples de modèles linéaires simples . . . . . . . . . . . . 32
2.6 Simulation des propriétés des estimateurs . . . . . . . . . . . . . . 37
3 Le modèle à erreurs composées : extensions 41

3.1 Le modèle à double erreurs composées . . . . . . . . . . . . . . . . 41
3.1.1 Décomposition de la variance dans le modèle doubles effets 41
3.1.2 Modèles à effets fixes et à effets aléatoires . . . . . . . . . . 42
3.1.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
viii Econométrie des données de panel avec R
3.2 D’autres estimateurs des variances des composantes du terme d’erreur 43

3.3 Panel non cylindre . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 L’estimateur du maximum de vraisemblance . . . . . . . . . . . . . 49
3.5 Système d’équations corrélées . . . . . . . . . . . . . . . . . . . . . 53
3.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5.2 Les moindres carrés contraints . . . . . . . . . . . . . . . . 53
3.5.3 La prise en compte des corrélations inter-équations . . . . . 54
3.5.4 Données de panel . . . . . . . . . . . . . . . . . . . . . . . . 55
3.5.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4 Tests sur le modele a erreurs composees 61

4.1 Tests d’effets individuels et/ou d’effets temporels . . . . . . . . . . 61
4.1.1 Tests de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.2 Tests de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . 62
4.1.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Modele a erreurs composees vs modeles a coefficients variables . . 65
4.2.1 Modeles a coefficients variables . . . . . . . . . . . . . . . . 67
4.3 Modele a effet fixe vs modele a effets aleatoires . . . . . . . . . . . 70
5 Autocorrélation et hétéroscédasticité 73
6 Endogéneite 75
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 Estimation d’une équation isolée . . . . . . . . . . . . . . . . . . . 76
6.2.1 Les modèles within et between . . . . . . . . . . . . . . . . 80
6.2.2 Estimateurs combinant les variations intra et inter-individuelles 83
6.3 Estimation d’un système d’équation . . . . . . . . . . . . . . . . . 88
6.3.1 L’estimateur des triples moindres carrés ordinaires . . . . . 88
6.3.2 L’estimateur des triples moindres carrés ordinaires à erreurs
composées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4 Estimateur d’Hausman-Taylor . . . . . . . . . . . . . . . . . . . . . 92
7 Estimation d’un modèle dynamique 97

7.1 Modèle dynamique et endogénéité . . . . . . . . . . . . . . . . . . 99
7.1.1 Le biais de l’estimateur des mco . . . . . . . . . . . . . . . 99
7.1.2 L’estimateur within . . . . . . . . . . . . . . . . . . . . . . 101
7.1.3 Méthodes d’estimation convergentes pour les modèles dyna-
miques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2 Estimateur des moments généralisés du modèle en différences . . . 105
7.2.1 Variables instrumentales et méthode des moments généralisés 105
7.2.2 Estimateur en une étape . . . . . . . . . . . . . . . . . . . . 107
7.2.3 Estimateur en deux étapes . . . . . . . . . . . . . . . . . . 109
Table des matières ix
7.2.4 La prolifération du nombre d’instruments dans le modèle des

moments généralisés en différences . . . . . . . . . . . . . . 110
7.3 Estimateur gmm système . . . . . . . . . . . . . . . . . . . . . . . 113
7.3.1 Des instruments faibles . . . . . . . . . . . . . . . . . . . . 113
7.3.2 Conditions de moments sur le modèle en niveau . . . . . . . 114
7.3.3 L’estimateur gmm en système . . . . . . . . . . . . . . . . . 116
7.4 Inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.4.1 Estimation robuste de la matrice de variance des coefficients 118
7.4.2 Tests de validité des moments . . . . . . . . . . . . . . . . . 121
7.4.3 Test d’absence d’autocorrélation des innovations . . . . . . 122
7.5 Exemples d’application . . . . . . . . . . . . . . . . . . . . . . . . . 124
8 Modèles linéaires généralisés et assimilés 127

8.1 Le modele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8.1.2 Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.1.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
8.2 Modele ordonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8.2.2 Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.2.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.3 Modele tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.3.2 Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
8.3.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.4 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.4.2 Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.4.3 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8.5 Negbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.5.2 Panel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
9 Racines unitaires et cointégration 147

9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2 Tests de racine unitaire en panel . . . . . . . . . . . . . . . . . . . 151
9.2.1 Test de Levin-lin-Chu . . . . . . . . . . . . . . . . . . . . . 152
9.2.2 Test de Im, Pesaran et Shin . . . . . . . . . . . . . . . . . . 153
9.2.3 Le test de Madalla et Wu . . . . . . . . . . . . . . . . . . . 153
10 Panels spacials 155
Bibliographie 161
Chapitre 1
Introduction
ˆmco = (Z > Z) 1
Z > y = (Z > Z) 1
Z > (Z + ✏)
ˆb = (Z > BZ) 1
Z > By = (Z > BZ) 1
Z > B(Z + ✏)
ˆw = (X > W X) 1
X > W y = (X > W X) 1
X > W (↵j + X + ✏)
ˆmco = (Z > Z) 1
Z >✏
ˆb = (Z > BZ) 1
Z > B✏)
ˆw = (X > W X) 1
X >W ✏
Mmco = I Z(Z > Z) 1

Z>
Mb = I Z(Z > BZ) 1 Z > B
¯
Mw = (I J)(I X(X > W X) 1 X > W )
2 2
⌦= ⌫I + ⌘U
e = M✏
q̂w = e> W e = ✏> M > W M ✏ = tr(M > W M ✏✏> )
q̂b = e> Be = ✏> M > BM ✏ = tr(M > BM ✏✏> )
E(q̂w ) = tr(M > W M ⌦) = ⌫ tr(M W M ) + ⌘ tr(M W M U )

2 > 2 >
E(q̂b ) = tr(M > BM ⌦) = ⌫ tr(M BM ) + ⌘ tr(M BM U )

2 > 2 >
2 Econométrie des données de panel avec R
✓ ◆ ✓ ◆ ✓ ◆
tr(M > W M ) tr(M > W M U ) 2
⌫ E(q̂w )
⇥ =
tr(M > BM ) tr(M > BM U ) 2
⌘ E(q̂b )
1.1 Qu’est-ce qu’un panel

On appelle panel une base de données dans laquelle deux dimensions sont pré-
sentes :
– une dimension individuelle (au sens large) : il peut s’agir de personnes physiques,
de ménages, d’entreprises, de pays, etc. On note ces individus n = 1 . . . N .
– une dimension temporelle : il existe plusieurs observations au cours du temps de
ces individus. On note les périodes d’observations t = 1 . . . T .
Les panels sont donc une combinaison de série temporelle et de coupe transversale ;
ils permettent de combler en partie les limites de ces deux types d’échantillon :
– le fait qu’il y ait deux dimensions dans ces données permet d’augmenter le
nombre d’observations et la variabilité de l’échantillon, ce qui permet d’obtenir
des estimations plus précises,
– l’hétérogénéité individuelle peut être prise en compte de manière beaucoup plus
satisfaisante dans le cadre de données de panel car on dispose de plusieurs ob-
servations des mêmes individus.
Un panel est caractérisé par ses deux dimensions, transversale (N ) et temporelle
(T ). En fonction de ces dimensions, on peut distinguer grossièrement deux types
de panel :
– les panels micros N >> T : le nombre d’individus observés est très impor-
tant (typiquement plusieurs milliers) et le nombre d’observations temporelles
est faible (4-5 par exemple). Pour ce type de panel, il n’est pas possible de
réaliser des estimations pour chaque individu et l’accent est mis sur des pro-
blématiques de micro-économétrie : hétérogénéité individuelle, corrélation entre
l’erreur et les variables explicatives,
– les panels macros : le nombre d’individus est faible et le nombre de séries tem-
porelles est élevé, typiquement N et T sont du même ordre de grandeur, la
ou quelques dizaines. il s’agit par exemple de données de l’OCDE, d’eurostat
ou d’autres organismes internationaux concernant des groupes de pays ou de
régions. Dans ce cas, l’estimation sur données de panel est une alternative à
une estimation sur une série chronologique pour un seul individu. On retrouve
dans ce cas les préoccupations présentes dans l’analyse contemporaine des séries
temporelles, en particulier la détection de racines unitaires et de relations de
cointégration.
Un panel est dit cylindré lorsque chaque individu est observé pour le même en-
semble de périodes. Dans ce cas, la taille totale de l’échantillon est simplement
N ⇥ T , alors que, Pdans le cas général, en notant Tn le nombre d’observations pour
N
l’individu n, on a n=1 Tn . Très souvent, les modèles d’économétrie de panel sont
présentés dans le cas ou le panel est cylindré et il est indiqué que l’extension au
cas des panels non cylindrés est évidente. Ce point de vue nous semble abusif,
Chapitre 1. Introduction 3
l’estimation sur des données cylindrées étant très souvent beaucoup plus simple
que sur des données non cylindrées.
La littérature théorique et empirique concernant l’économétrie des données de
panel est très abondante. Tous les manuels d’économétrie consacrent au moins un
chapitre à ce sujet, d’autres y sont spécifiquement consacrés, en particulier Baltagi
(2001), Sevestre (2002), Pirotte (2011) et Hsiao (2003)
R ne permet pas d’analyser simplement les données de panel. La librairie plm
(Croissant & Millo, 2008) fournit un ensemble de fonctions qui permettent de
gérer correctement les données de panel et qui proposent les principales méthodes
d’estimation et de test.
1.2 Organisation des données de panel sous R

La librairie plm est chargée simplement en entrant la commande suivante :
> library("plm")
Avec R, il est d’usage de stocker les données dans un data.frame , qui est une
liste contenant un ensemble de vecteurs qui peuvent être de modes différents, mais
qui sont de même longueur, ce qui permet une représentation tabulaire. Cette
structure est adaptée aux coupes transversales mais elle est insuffisante car elle est
incapable de rendre compte de la double dimension (individuelle et temporelle) des
données de panel. A cet effet, plm fournit une fonction appelée pdata.frame qui
prend pour argument principal un data.frame et qui renvoie un objet de classe
pdata.frame . Il s’agit d’un tableau de données auquel est ajouté une information
sur les deux dimensions du panel. Les deux arguments obligatoires de cette fonction
sont data (un tableau de données) et index . Ce dernier renseigne la structure des
données. Il peut s’agir :
– d’une chaîne de caractère : dans ce cas, il s’agit du nom de la variable qui contient
l’index individuel,
– d’un vecteur de deux chaînes de caractères, les deux variables qui contiennent
les index individuels et temporels,
– d’un entier, le nombre d’individus ; le panel doit dans ce cas être cylindré et les
observations classées d’abord par individu.
drop.index est un dernier argument optionnel logique ; s’il est égal à TRUE, les
index sont retirés du tableau de données.
A titre d’exemple, nous allons analyser les données Grunfeld qui figurent dans la
librairie AER. Ces données indiquent l’investissement (invest), la valeur (value)
et le stock de capital (capital) de 10 entreprises américaines pour 20 ans (de 1935
à 1954). Nous en prendrons pour l’instant un petit sous-ensemble, constitué de
deux firmes pour trois ans.
> data("Grunfeld", package = "AER")
> Gr <- pdata.frame(Grunfeld, index = c("firm", "year"), drop.index = TRUE)
> smallGr <- subset(Grunfeld, (firm %in% c("General Motors", "US Steel")) & year <= 1938)
> smallGr
invest value capital firm year

1 317.6 3078.5 2.8 General Motors 1935
2 391.8 4661.7 52.6 General Motors 1936
3 410.6 5387.1 156.9 General Motors 1937
4 257.7 2792.2 209.2 General Motors 1938
21 209.9 1362.4 53.8 US Steel 1935
22 355.3 1807.1 50.5 US Steel 1936
23 469.9 2676.3 118.1 US Steel 1937
24 262.3 1801.9 260.2 US Steel 1938
> smallGr <- pdata.frame(smallGr, index=c("firm", "year"), drop.index = TRUE)

> smallGr
invest value capital

General Motors-1935 317.6 3078.5 2.8
General Motors-1936 391.8 4661.7 52.6
General Motors-1937 410.6 5387.1 156.9
General Motors-1938 257.7 2792.2 209.2
US Steel-1935 209.9 1362.4 53.8
US Steel-1936 355.3 1807.1 50.5
US Steel-1937 469.9 2676.3 118.1
US Steel-1938 262.3 1801.9 260.2
Les informations concernant la dimension de ces données de panel peuvent être

extraites en utilisant la fonction pdim :
> pdim(smallGr)
Balanced Panel: n=2, T=4, N=8
Les index peuvent être extraits en utilisant la fonction index . Par défaut, les deux
index sont renvoyés, mais on peut indiquer avec un second argument which le
ou les index que l’on souhaite extraire en indiquant soit un nom, soit un index
numérique (1 pour l’index individuel, 2 pour l’index temporel)
> index(smallGr)
firm year
1 General Motors 1935
21 US Steel 1935
22 US Steel 1936
23 US Steel 1937
24 US Steel 1938
> index(smallGr, "firm")

[1] General Motors General Motors General Motors General Motors US Steel
[6] US Steel US Steel US Steel
Levels: General Motors US Steel
> index(smallGr, 2)
[1] 1935 1936 1937 1938 1935 1936 1937 1938

Levels: 1935 1936 1937 1938
Notons que les index peuvent également être extraits des séries contenues dans un
pdata.frame :
> z <- smallGr$invest
> index(z)
firm year
21 US Steel 1935
22 US Steel 1936
23 US Steel 1937
24 US Steel 1938
On peut également représenter ces séries sous forme matricielle en appliquant la

méthode as.matrix à une série :
> as.matrix(z)
1935 1936 1937 1938

General Motors 317.6 391.8 410.6 257.7
US Steel 209.9 355.3 469.9 262.3
1.3 Mesure de la variabilité dans un panel

Pour une coupe transversale ou une série chronologique, une variable de l’échan-
tillon peut être notée xi avec i = 1 . . . I l’indice de l’observation. La moyenne
arithmétique de la variable est :
I
1X
x̄ = xi
I i=1
La variabilité de la variable est la somme des écarts quadratiques par rapport à la
moyenne empirique :
I
X I
X
Sxx = (xi x̄)2 = x2i I x̄
i=1 i=1
La variance empirique est obtenue en divisant cette expression par I (ou par I 1
pour corriger du nombre de degrés de liberté).
Dans un panel, la variable doit être doublement indicée, par convention d’abord
par l’indice individuel (n = 1 . . . N ), puis par l’indice temporel (t = 1 . . . T ) : xnt .
Trois types de moyenne empiriques peuvent être calculées :
– la moyenne globale, que l’on notera x̄ ¯, qui est la moyenne arithmétique de toutes
les observations (pour tous les individus et pour l’ensemble des périodes) :
PN PT
n=1 t=1 xnt
¯=
x̄
NT
– les N moyennes individuelles, notées x̄n. que l’on obtient en faisant la moyenne
pour chaque individu des observations pour les différentes périodes :
PT
t=1 xnt
x̄n. =
T
– les T moyennes temporelles, notées x̄.t que l’on obtient en faisant la moyenne
pour chaque période des observations pour les différents individus :
PN
n=1 xnt
x̄.t =
N
Ces différentes moyennes permettent d’obtenir différentes mesures (et différentes
décompositions) de la variabilité dans un panel. La variabilité totale est la somme
quadratique des écarts par rapport à la moyenne globale :
N X
X T
Sxx = (xnt ¯ )2
x̄
n=1 t=1
On parle de variabilité “intra” (within en anglais) lorsque l’on mesure la variabilité

au sein d’une même dimension (par défaut la dimension individuelle). Ainsi, la
variabilité intra-individuelle est obtenue en sommant les écarts quadratiques par
rapport à la moyenne individuelle :
N X
X T
wn
Sxx = (xnt x̄n. )2
n=1 t=1
La variabilité “inter” (between en anglais) mesure la variabilité entre éléments

d’une dimension (par défaut la dimension individuelle). On doit donc ici sommer
les écarts quadratiques entre les moyennes individuelles et la moyenne globale :
N X
X T N
X
bn ¯ )2 = T ¯ )2
Sxx = (x̄n. x̄ (x̄n. x̄
n=1 t=1 n=1
On peut montrer aisément que la variabilité totale est la somme des variabilités
intra et inter individuelles. En effet :
PN PT
Sxx = (xnt x̄ ¯ )2
Pn=1
N Pt=1
T
= t=1 [(x nt x̄n. ) + (x̄n. x̄¯)]2
Pn=1
N P T ⇥ ⇤2
= n=1 t=1 (xP nt x̄n. )2 + (x̄n. x̄
¯)2 + 2(xnt x̄n. )(x̄n. ¯)
x̄
wn bn N PT
= Sxx + Sxx + 2 n=1 t=1 (xnt x̄n. )(x̄n. x̄ ¯)
PN P
¯) Tt=1 (xnt x̄n. )
Or, ce dernier terme est nul, car on peut l’écrire n=1 (x̄n. x̄
et la somme pour un individu des écarts par rapport à la moyenne individuelle
est nécessairement nulle. De la même manière, on peut décomposer la variabilité
totale en une variabilité “within” et “between” temporelle :
N X
X T
wt
Sxx = (xnt x̄.t )2
n=1 t=1
N X
X T T
X
bt ¯ )2 = N ¯ )2
Sxx = (x̄.t x̄ (x̄.t x̄
n=1 t=1 t=1
et
wt bt
Sxx = Sxx + Sxx
Enfin, la variabilité “double within” s’écrit de la manière suivante :
N X
X T
wnt ¯ )2
Sxx = (xnt x̄n. x¯t + x̄
n=1 t=1
Soit encore :
PN PT
wnt
Sxx = n=1 t=1 [(xnt ¯)
x̄ (x̄n. ¯)
x̄ (x¯t ¯)]2
x̄
bn bt
= Sxx Sxx Sxx
car on montre aisément que les doubles sommes des termes croisés sont nulles
à l’aide du même argument que précédemment. On obtient donc une troisième
décomposition de la variabilité :
wnt bn bt
Sxx = Sxx + Sxx + Sxx
plm fournit des fonctions qui permettent de calculer simplement les transforma-
tions précédemment décrites : Within calcule la transformation “within” alors que
Between et between calculent la transformation “between” ; la différence entre

ces deux dernières fonctions est que la première renvoie un vecteur de longueur
N ⇥ T , chaque moyenne individuelle étant répétée T fois alors que la seconde
renvoie un vecteur de longueur N .
Avec la variable invest pour le petit sous-ensemble des données Grunfeld , on
obtient :

> between(z)
General Motors US Steel

344.425 324.350
> Between(z)
General Motors General Motors General Motors General Motors US Steel

344.425 344.425 344.425 344.425 324.350
US Steel US Steel US Steel
324.350 324.350 324.350
> Within(z)
General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

-26.825 47.375 66.175 -86.725
US Steel-1935 US Steel-1936 US Steel-1937 US Steel-1938
-114.450 30.950 145.550 -62.050
Ces transformations sont par défaut réalisées sur la dimension individuelle. Les
mêmes opérations peuvent être effectuées sur la dimension temporelle en fixant le
second argument effect à "time" :

> between(z, effect = "time")
1935 1936 1937 1938

263.75 373.55 440.25 260.00
> Within(z, effect = "time")
General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

53.85 18.25 -29.65 -2.30
US Steel-1935 US Steel-1936 US Steel-1937 US Steel-1938
-53.85 -18.25 29.65 2.30
Les différentes mesures de la variabilité sont alors aisément obtenues en utilisant

ces fonctions et en appliquant les formules précédement décrites (pour plus de
lisibilité, on divise la variable par 1E+03, l’investissement étant alors mesuré en
milliards de dollars)
> z <- Gr$invest / 1E+03
> Stot <- sum( (z - mean(z)) ^ 2)
> SWn <- sum( Within(z) ^ 2)
> SBn <- sum( (Between(z) - mean(Between(z))) ^ 2)
> SWt <- sum( Within(z, effect = "time") ^ 2)
> SBt <- sum( (Between(z, effect = "time") - mean(Between(z, effect = "time")))^ 2)
> round(c(Stot, SWn, SBn, SWt, SBt), 2)
[1] 9.71 2.24 7.47 9.14 0.57
On vérifie ensuite les deux formules de décomposition de la variabilité.

> SWn + SBn
[1] 9.711985
> SWt + SBt
[1] 9.711985
Enfin, on peut analyser plus précisément l’importance des différentes sources de

variabilité en calculant la part de la variance “inter” dans la variance totale :
> SBn / Stot
[1] 0.768889
> SBt / Stot
[1] 0.05893524
ce qui peut être automatiquement réalisé en appliquant la méthode summary à

une série :
> summary(z)
total sum of squares : 9.711985

id time
0.76888896 0.05893524
On constate, et c’est le cas la plupart du temps, que la variabilité dans l’échan-

tillon est très largement imputable aux différences entre individus. Ce résultat est
également illustré par la figure 1.1.
1.5
●
1.0
0.5
●
●
●
0.0
General Motors Chrysler IBM Goodyear
Fig. 1.1 – Variation intra et inter individuelle pour les données Grunfeld
1.4 Des transformations utiles

Les mesures de variabilité que nous avons mises en évidence utilisent différentes
moyennes et des données transformées en écart par rapport à ces différentes moyennes.
Une expression compacte de ces transformations peut être obtenue en utilisant dif-
férents opérateurs matriciels, et en particulier le produit de Kronecker.
Le produit de Kronecker de deux matrices, noté A ⌦ B, correspond à la matrice
obtenue en multipliant
0 chaque1 élément de A par B. Si, par exemple, on a B =
✓ ◆ 1 0
2 4
et A = @ 0 0.5 A, alors :
6 8
2 1
0
✓ ◆ ✓ ◆ 1 0
2 4 2 4 2 4 0
0 1 B 1 ⇥ 0⇥ C B
✓ ◆ B ✓ 6 8 ◆ ✓6 8 ◆ C B 6 8 0
1 0 B C B
2 4 2 4 2 4 0 0 1
A⌦B = @ 0 0.5 A⌦ =B
B 0 ⇥ 0.5 ⇥ C=B
C B
6 8 B ✓ 6 8 ◆ ✓ 6 8◆ C B 0 0 3
2 1 @ A @
2 4 2 4 4 8 2
2⇥ 1⇥
6 8 6 8 12 16 6
Afin de mettre en évidence ces transformations, on notera Ik la matrice identité

de dimension k, jl un vecteur de 1 de longueur l et Jl = jl ⇥ jl> une matrice de 1
de dimensions l ⇥ l. Dans ce qui suit, on supposera d’une part que les observations
sont classées d’abord par individu, puis par période et d’autre part que le panel
est cylindré. On a dans ce cas une variable x qui est représentée par le vecteur de
longueur N ⇥ T suivant :
x> = (x11 , x12 , . . . , x1T , x21 , x22 , . . . , x2T , . . . , xN 1 , xN 2 , . . . , xN T )
Pour obtenir la transformation inter-individuelle (between), on utilisera une ma-

trice de transformation notée Bn définie par :
Bn = In ⌦ JT /T
Par exemple, pour N = 2 et T = 3, on a :

201 3
✓ ◆ 1
1 0
B = ⌦ 4@ 1 A 1 1 1 /35
0 1
0 1 1
✓ ◆ 1/3 1/3 1/3
1 0
= ⌦ @ 1/3 1/3 1/3 A
0 1
0 1/3 1/3 1/3 1
1/3 1/3 1/3 0 0 0
B 1/3 1/3 1/3 0 0 0 C
B C
B 1/3 1/3 1/3 0 0 0 C
= B C
B 0 0 0 1/3 1/3 1/3 C
B C
@ 0 0 0 1/3 1/3 1/3 A
0 0 0 1/3 1/3 1/3
On a alors :
(Bn x)> = (x̄1 , x̄1 , . . . , x̄1 , x̄2 , x̄2 , . . . , x̄2 , . . . , x̄N. , x̄N. , . . . , x̄N. )
Pour obtenir la transformation inter-individuelle (within), on utilisera une matrice

de transformation notée Wn définie par :
Wn = IN T In ⌦ JT /T = IN T Bn
Ces deux matrices ont des propriétés très importantes :

– elles sont symétriques, on a donc B > = B et W > = W ,
– elles sont idempotentes, c’est-à-dire que W ⇥W = W et B ⇥B = B. Considérons
par exemple l’opérateur between. Si on l’applique deux fois successivement à x,
on obtient : (B ⇥ B) ⇥ x = B ⇥ (B ⇥ x). Cela revient à calculer des moyennes
individuelles sur un vecteur contenant déjà des moyennes individuelles, ce qui
laisse le vecteur inchangé ; on a donc bien (B ⇥ B) ⇥ x = B ⇥ x (le même
raisonnement s’applique à W ),
– elles réalisent une décomposition d’un vecteur, c’est-à-dire que B⇥x+W ⇥x = x.
En effet, W = I B. On a alors B ⇥ x + W ⇥ x = (B + W ) ⇥ x = I ⇥ x = x,
– elles sont orthogonales, c’est-à-dire que W > B = 0. En effet, en utilisant la
propriété de symétrie et par définition de W , on a : W > B = W ⇥ B = (I B) ⇥
B = B B ⇥ B = B B = 0.
Ces propriétés indiquent que W et B réalisent une décomposition orthogonale d’un

vecteur x ; cela signifie qu’en multipliant x par chacune de ces matrices, on obtient
deux vecteurs qui se somment à x (notion de décomposition) et dont le produit
intérieur est nul (notion d’orthogonalité).
1.5 Les différentes formes d’hétérogénéité

On parle d’hétérogénéité lorsque les individus (et/ou les périodes) présentent des
différences systématiques. Pour simplifier, nous ignorons pour l’instant l’hétéro-
généité temporelle et nous raisonnons dans le cadre habituel du modèle linéaire
simple. On a donc le modèle suivant :
y =↵+ x+✏
L’hétérogénéité individuelle peut prendre différentes formes :
– la moyenne de la variable explicative peut être différente d’un individu à un
autre,
– l’ordonnée à l’origine de la droite peut être différente d’un individu à un autre,
– la pente de la droite peut être différente d’un individu à un autre.
Ces trois cas sont d’une nature très différente et nécessitent l’utilisation de modèles
spécifiques. Pour l’instant, nous allons illustrer graphiquement ces trois formes
d’hétérogénéité.
7
6
5
4
y
●
● ●
●
● ●●
●
●
●●●●
2
●●
●●●
●
1
0
0 1 2 3 4 5
Fig. 1.2 – Absence d’hétérogénéité
Sur la figure 1.2, on constate que la seule forme d’hétérogénéité entre les individus
correspond à des niveaux moyens différents de la variable explicative, et donc de
la variable expliquée. En revanche, l’ensemble des points semblent correctement

alignés sur une même droite. Le modèle que l’on devra estimer peut donc s’écrire :
ynt = ↵ + xnt + ✏nt

Autrement dit, on se ramène à un modèle linéaire standard, et la méthode d’esti-
mation des moindres carrés ordinaires est appropriée.
7
6
5
4
y
● ●
●
●●●●● ●
●
●
●● ●
2
●●
●●
●
1
0
0 1 2 3 4 5
Fig. 1.3 – Hétérogénéité de niveau
Sur la figure 1.3, on constate que les points correspondant à chaque individu
semblent alignés sur des droites parallèles, c’est-à-dire des droites dont les pentes
sont identiques, mais dont les ordonnées à l’origine sont propres à l’individu.
Dans ce cas, le modèle à estimer peut s’écrire sous la forme :
ynt = ↵ + xnt + ✏nt avec ✏nt = µn + ⌫nt

et l’ordonnée à l’origine propre à l’individu n s’écrit : ↵ + µn . On est alors dans le
cadre du modèle à erreurs composées qui fera l’objet d’un traitement détaillé dans
les deux section suivantes.
Sur la figure 1.4, on constate que les points correspondants à chaque individu sont
alignés sur des droites différentes et non parallèles. Dans ce cas, le modèle à estimer
s’écrit :
ynt = ↵ + n xnt + ✏nt avec ✏nt = µn + ⌫nt

Les points correspondant à l’individu n sont alors alignés sur une droite d’ordonnée
à l’origine ↵+µn et de pente n . Le modèle approprié à ce cas est le modèle à coef-
ficients variables et une estimation correcte de ce modèle nécessite une dimension
temporelle suffisamment longue.
7
6
5
4
Y
●
● ●
●
● ●●
●●
●●●●
2
●
●
●●
●
●
1
0
0 1 2 3 4 5
Fig. 1.4 – Hétérogénéité de pentes

Chapitre 2
Le modèle à erreurs composées
Le modèle à erreurs composées est pertinent lorsque les pentes, c’est-à-dire l’effet
marginal des variables explicatives sur les variables expliquées sont les mêmes pour
l’ensemble des individus, les ordonnées à l’origine étant a priori différentes. Il s’agit
du modèle de référence de l’économétrie des données de panel et ce chapitre en
présente les principaux résultats.
2.1 Notations et hypothèses
2.1.1 Notations
Pour l’observation concernant l’individu n à la période t, le modèle à estimer s’écrit,
en notant ynt la variable expliquée xnt le vecteur des K variables explicatives,
✏nt l’erreur du modèle, ↵ la constante et le vecteur de paramètres associé aux
variables explicatives :
ynt = ↵ + x>
nt + ✏nt (2.1)
Dans certains cas, il sera plus clair de rassembler la constante et les pentes dans
le même vecteur de coefficients. En notant > = (↵, > ) le vecteur complet de
paramètres à estimer et znt
>
= (1, xnt ) le vecteur de variables explicatives associés,
le modèle à estimer se réécrit alors :
>
ynt = znt + ✏nt (2.2)
Pour le modèle à erreurs composées, l’erreur est la somme de deux effets :
– le premier, ⌘n est un effet spécifique à l’individu n,
– le second, ⌫nt est l’effet résiduel appelé également l’effet idiosyncratique.
✏nt = ⌘n + ⌫nt (2.3)

Pour l’ensemble de l’échantillon, on notera y le vecteur contenant les valeurs de la
variable expliquée et X la matrice contenant les variables explicatives, en rangeant
les observations d’abord par individu, puis par période. Nous supposerons pour
l’instant que le panel est cylindré, c’est-à-dire que chaque individu est observé le
même nombre de fois. Dans ce cas, y est un vecteur de longueur N T et X une
matrice de dimension N T ⇥ K.
0 1 0 1 1
y11 x11 x211 . . . xK 11
B y12 C B x112 x212 . . . xK C
B C B 12 C
B .. C B .. .. .. .. C
B . C B . . . . C
B C B 1 C
B y1T C B x1T x21T . . . xK C
B C B 1 1T C
B y21 C B x21 2
x21 . . . x21 C K C
B C B 1
B y22 C B x22 x222 . . . xK C
B C B 22 C
B .. C B .. .. .. .
.. C
y=B C
B . C et X = B 1.
B . . C
C
B y2T C B x x 2
. . . x K C
B C B 2T 2T 2T C
B . C B . .. .. .. C
B .. C B .. . . . C
B C B C
B yN 1 C B x1 2 K C
B C B N 1 xN 1 . . . xN 1 C
B yN 2 C B x1 2 K C
B C B N 2 xN 2 . . . xN 2 C
B . C B . .. .. .. C
@ .. A @ .. . . . A
yN T x1N T x2N T ... xK
NT
En notant j un vecteur de 1 de longueur N T , on obtient :
y = ↵j + X + ✏ (2.4)
Dans le cas où on souhaite rassembler l’ensemble des coefficients, on note >
=
(↵, > ) et Z = (j, X) et le modèle à estimer s’écrit :
y =Z +✏ (2.5)
✏ est la somme d’un vecteur ⌫ de longueur N T contenant la composante idio-
syncratique du terme d’erreur et de l’effet individuel de longueur N dont chaque
élément est répété T fois. On peut l’exprimer sous la forme matricielle suivante :
✏ = (IN ⌦ jT )⌘ + ⌫ (2.6)
↵, ˆ> ) et par
Un modèle estimé sera caractérisé par des paramètre estimés ˆ > = (ˆ
un vecteur de résidus ✏ˆ.
ˆ j + X ˆ + ✏ˆ
y=↵ (2.7)
y = Z ˆ + ✏ˆ (2.8)
La soustraction membre à membre de (2.5) et (2.8) permet d’écrire les résidus
d’un modèle en fonction des erreurs :
✏ˆ = ✏ Z(ˆ ) (2.9)
Chapitre 2. Modèle à erreurs composées 17
Pour obtenir une expression similaire en fonction de X et de , on utilise (2.4) et

(2.7) :
✏ˆ = ✏ (ˆ
↵ ↵)j X( ˆ )
La moyenne de cette expression est, en notant j̄ = j/O :
j̄ > ✏ˆ = j̄>✏ (ˆ
↵ ↵)j j̄ > X( ˆ )
Dans un modèle linéaire avec constante, j̄ ✏ˆ, qui est la moyenne des résidus est
>
nul. En combinant les deux expressions précédentes, on obtient :

⇣ ⌘
¯ ✏ X( ˆ
✏ˆ = (I J) ) (2.10)
avec J¯ = jj > /O. Les expressions (2.9 et 2.10) seront utilisées tout au long de ce
chapître pour analyser les propriétés des estimateurs.
2.1.2 Hypothèses sur les termes d’erreur

On fait les hypothèses suivantes concernant les termes d’erreurs :
– Les espérances mathématiques des deux termes d’erreurs sont supposées être
nulles ; elles ne peuvent de toute façon pas être identifiées s’il y a une constante
dans le modèle,
– les effets individuels ⌘n sont homoscédastiques et non corrélés entre eux,
– la composante idiosyncratique du terme d’erreur ⌫nt est également homoscédas-
tique et non auto-corrélée,
– il n’y a pas de corrélation entre les deux composantes du terme d’erreur.
Dans ce cas, la matrice de covariance des erreurs est caractérisée uniquement par
les variances des deux composantes du terme d’erreur, c’est-à-dire par les deux
paramètres ⌫2 et ⌘2 . On peut alors calculer les variances et les covariances des
termes d’erreur :
– la variance d’un terme d’erreur s’écrit : E(✏2nt ) = ⌘2 + ⌫2 ,
– la covariance entre deux termes d’erreur pour le même individu (mais pour des
périodes différentes) s’écrit : E(✏nt ✏ns ) = ⌘2 ,
– la covariance entre deux termes d’erreur pour deux individus différents est nulle,
mêmes s’ils sont contemporains : E(✏nt ✏mt ) = E(✏nt ✏ms ) = 0.
Pour un individu donné n, la matrice de covariance du vecteur d’erreurs de l’indi-
vidu n ✏> n = (✏n1 , ✏n2 , . . . , ✏nt ) s’écrit :
⌦nn = E(✏n ✏>

n) =
2
⌫ IT + 2
⌘ JT (2.11)
où JT = jT jT> est une matrice carré de 1. Concernant le vecteur d’erreurs pour

l’ensemble de l’échantillon ✏> = (✏> 1 , ✏2 , . . . , ✏N ), la covariance est une matrice
> >
carré de dimension N T constituée de sous-matrices de type E(✏n ✏m ). Pour n = m,

l’expression de cette sous-matrice est donnée par (2.11), pour n 6= m, compte tenu
des hypothèses de non-corrélation des deux composantes du terme d’erreur, elle

est constituée uniquement de 0. La matrice de variance-covariance des erreurs ⌦
est donc une matrice bloc-diagonale, constituée de N blocs identiques donnés par
(2.11) qui peut être exprimée sous la forme d’un produit de Kronecker.
2 2 2 2
⌦ = IN ⌦ ⌫ IT + ⌘ JT = ⌫ IN T + ⌘ (IN ⌦ JT )
This matrix can also usefully expressed in terms of the two transformation matrices
within and between described in the chapter 1. In fact, B = T1 IN ⌦ JT and W =
I B ; and introducing these two matrices in the expression of ⌦, we get :
2 2
⌦= ⌫ (B + W) + T ⌘B
Soit finalement :
2 2 2 2 2
⌦= ⌫W + (T ⌘ + ⌫ )B = ⌫W + ◆B (2.12)
Enfin, nous supposerons tout au long de ce chapître que les deux composantes du
terme d’erreur sont non-corrélées avec les différentes variables explicatives :E(⌘ |
x) = E(⌫ | x) = 0.
2.2 Estimateurs des moindres carrés ordinaires

Dans le chapitre 1, nous avons montré que la variabilité dans un panel peut être
décomposée en deux :
– la variabilité between ou inter-individuelle qui correspond à la variabilité des
variables du panel mesurées en moyenne individuelle, soit z̄n ou sous forme
matricielle Bz.
– la variabilité within ou intra-individuelle qui correspond à la variabilité des va-
riables du panel mesurées en écart par rapport à la moyenne individuelle, soit
znt z̄n ou sous forme matricielle W z = z Bz,
Trois estimations par les moindres carrés ordinaires sont donc envisageables : la
première sur les données non-transformées, la seconde sur les données transfor-
mées en moyennes individuelles (modèle between) et la troisième sur les données
transformées en écarts par rapport à la moyenne individuelle (modèle within).
2.2.1 Estimateur des moindres carrés ordinaires sur les va-

riables non transformées
Le modèle à estimer s’écrit y = ↵j + X ✏ = Z + ✏. En utilisant la seconde
formulation, la somme des carrés des résidus s’écrit :
(y > >
Z > )(y Z )
et les conditions de premier ordre pour un minimum sont :
Z > ✏ˆ = 0 (2.13)
On rappelle que la première colonne de Z est un vecteur de 1, associé à ↵, le
premier élément
P de
P . La première de ces conditions de premier ordre implique
donc que ✏¯
ˆ = n t ✏ˆnt /(N ⇥ T ) = 0 ou encore que :
ˆ + x̄> ˆ
ȳ = ↵ (2.14)
On retrouve ici le résultat bien connu que la droite de régression des moindres
carrés ordinaires passe nécessairement par le centre du nuage de points, c’est-à-
dire par le pointPde P
coordonnées (x̄, ȳ). Les K autres conditions de premier ordre
impliquent que n t ✏ˆnt xknt = 0, soit encore, le résidu moyen ✏¯ˆ étant nul :
XX
✏nt ✏¯
(ˆ ˆ)(xknt x̄k )/(N ⇥ T ) = 0 (2.15)
n t
ce qui signifie que les covariances empiriques entre les résidus et les différentes
variables explicatives sont nulles sur l’échantillon. En résolvant (2.13), on obtient
l’estimateur des moindres carrés ordinaires du vecteur étendu des coefficients :
ˆmco = (Z > Z) 1
Z >y (2.16)
En remplaçant y par Z + ✏ dans (2.16), on obtient :
ˆmco = (Z > Z) 1
Z >✏ (2.17)
Pour obtenir l’estimateur restreint aux coefficients associés aux variables explica-
ˆ , ˆ> ) :
tives, on décompose Z en (j, X) et ˆ > en (↵
✓ ◆ ✓ ◆ 1 ✓ ◆
↵
ˆ O j>X j>y
ˆ =
X >j X >X X >y
En appliquant la formule de l’inversion d’une matrice partitionnée, on obtient :
✓ ◆
> 1 1/O + j > XF X > j/O2 j > XF/0
Z Z =
F X > j/O F
1
avec F = X > (I J)X ¯ . J¯ = jj > /O est une matrice carré de dimension O
dont tous les éléments sont égaux à 1/O. Jz ¯ renvoie un vecteur de longueur O
dont tous les éléments contiennent la moyenne z̄. On vérifie aisément que cette
matrice est idempotente. On obtient alors :
1
ˆ = X > (I ¯ >
J)X X > (I ¯
J)y (2.18)
c’est-à-dire une formule similaire à (2.16), mais avec des variables prémultipliées
par I J, ¯ cette transformation ayant pour effet d’enlever à chaque variable sa
moyenne. Concernant la constante estimée ↵ ˆ , on retrouve l’expression (2.14). Afin
d’analyser les caractéristiques de l’estimateur des mco, on remplace dans (2.18) y

par ↵j + X + ✏ :
1
ˆ= + X > (I ¯ >
J)X X > (I ¯
J)✏
L’estimateur est donc sans biais (E( ˆ) = ) si E X > (I J)✏ ¯ = 0 c’est-à-dire

si les covariances théoriques entre chaque variable explicative xk et ✏ sont toutes
nulles. Ce résultat est à rapprocher de l’expression (2.18) qui indique que l’estima-
teur des mco est déterminé de telle manière que les covariances empiriques entre
les résidus ✏ˆ et les variables explicatives sont nulles. L’estimateur est convergent si
plim ˆ = . Cette expression s’écrit :
✓ ◆ 1
1 1
plim ˆ = + plim T X > (I ¯
J)X plim T X > (I ¯
J)✏
N N
L’estimateur est donc convergent si la matrice de covariance des variable explica-
tive est définie et si la covariance entre les variances explicatives et les erreurs du
modèle sont nulle. La variance de l’estimateur des mco est donnée par :
V (ˆmco ) = E (ˆmco )(ˆmco )> = (Z > Z) 1

Z > ⌦Z(Z > Z) 1
(2.19)
Notons que pour le modèle à erreur composées, la matrice de variance des erreurs
du modèle ⌦ ne se réduit pas à un multiple de la matrice identité du fait de
la corrélation générée par les effets individuels. Par conséquent, la variance de
l’estimateur des mco ne se réduit pas à V (ˆmco ) = 2 (Z > Z) 1 et l’utilisation de
cette expression pour construire des statistiques de test conduirait à une inférence
biaisée.
En conclusion, l’estimateur des mco, même s’il est non-biaisé et convergent pré-
sente deux limites :
– la première est que l’estimation de la variance utilisée habituellement dans le
cadre de l’estimation des mco n’est pas adaptée et doit être remplacée par une
expression plus complexe,
– la seconde est que, dans ce contexte, le modèle des mco n’est pas le meilleur
estimateur linéaire non-biaisé, ce qui signifie qu’il existe d’autres estimateurs
linéaires non-biaisés plus efficaces.
2.2.2 L’estimateur between

L’estimateur between est l’estimateur des mco appliqué au modèle pré-multiplié
par B, c’est-à-dire transformé en moyennes individuelles.
By = BZ + B✏ = ↵j + BX + B✏
Notons que les éléments du modèle qui ne présentent pas de variation intra-
individuelle ne sont pas affectés par cette transformation : il s’agit de la colonne
de 1 associée à la constante, de la matrice (IN ⌦ jT ) associée aux effets individuels
et également aux éventuelles variables explicatives ne présentant aucune variation

intra-inviduelle (le genre dans un échantillon d’individus par exemple). Notons
également que les N ⇥ T observations de ce modèle sont en fait constituées de N
observations de moyennes individuelles répétées T fois. En utilisant, comme dans
le cas de l’estimateur des mco, la formule de l’inverse d’une matrice partitionée,
l’estimateur between s’écrit :
1
ˆb = X > (B ¯ >
J)X X > (B ¯
J)y (2.20)
La variance de ˆ est obtenue en remplaçant y par ↵j + X + ✏ :
1
ˆb = X > (B ¯ >
J)X X > (B ¯
J)✏
⇣ ⌘ 1 1
V ˆb = X > (B ¯ >
J)X X > (B ¯
J)⌦(B ¯
J)X X > (B ¯ >
J)X
Or, l’expression d’⌦ donnée par (2.12) implique que (B J)⌦ ¯ = 2 (B J). ¯ Par
◆
conséquent, l’expression de la variance du modèle between se ramène à :
⇣ ⌘
V ˆb = ◆2 X > (B J)X ¯ > 1 (2.21)
Pour le vecteur de coefficients étendu à la constante ↵, l’estimateur between et sa

variance s’écrivent :
1
ˆb = Z > BZ > Z > By (2.22)
1
V (ˆb ) = 2
◆ Z > BZ > (2.23)
Pour estimer ◆2 , on part de la somme des carrés des résidus du modèle between
estimé : q̂b = ✏ˆ> Bˆ
✏.
Bˆ
✏= B BZ(Z > BZ) 1
Z > B B✏ = M B✏
La matrice M est idempotente et sa trace est tr(M ) = tr(B) tr(IK+1 ) = N K
1. On a donc q̂b = ✏> BM M B✏ et E(q̂b ) = E(tr(✏> BM B✏)) = E(tr(BM B✏✏> )) =
tr(BM B⌦)) = ◆2 tr(M ) L’estimateur sans biais de 2 est donc ˆ 2 = q̂b /(N K
1). Celle renvoyée par le logiciel est : q̂b /(O K 1) et la matrice de covariance
des coefficients renvoyée doit donc être multipliée par (O K 1)/(N K 1).
2.2.3 L’estimateur within
L’estimateur within est obtenu en appliquant l’estimateur des mco au modèle
prémultiplié par la matrice W .
W y = W (↵j + X + ✏) = W X + W ⌫
La transformation within se traduit par une élimination du vecteur de 1 associé à
la constante ainsi qu’à la matrice associée au vecteur d’effets individuels. Elle se
traduit également par l’élimination des variables sans variation intra-individuelle.
L’application de l’estimateur des mco sur le modèle transformé abouti à l’estima-

teur within :
1
ˆw = X > W X > X >W y (2.24)
La variance de ˆw s’écrit :
⇣ ⌘ 1 1
V ˆw = X > W X > X > W ⌦W X X > W X >
Or, W ⌦ = W ( ⌫ W + ◆ B) = ⌫ W . La transformation within introduit donc une

corrélation entre les erreurs du modèle. L’expression de la variance du modèle
within se ramène à :
⇣ ⌘ 1
V ˆw = ⌫2 X > W X > (2.25)
et on retrouve donc, malgré cette corrélation, l’expression classique de la variance.

Pour estimer ⌫2 , on utilise la somme des carrés des résidus du modèle within
estimé : q̂w ✏ˆ> W ✏ˆ
W ✏ˆ = W W X(X > W X) 1
X >W W ✏ = M W ✏
La matrice M est idempotente et sa trace est tr(M ) = tr(W ) tr(IK ) = O N K.
On a donc q̂w = ✏> W M M W ✏ et E(q̂w ) = E(tr(✏> W M W ✏)) = E(tr(W M W ✏✏> )) =
tr(W M W ⌦)) = ⌫2 tr(M ). L’estimateur sans biais de ⌫2 est donc ˆ⌫2 = q̂w /(O
N K), alors que celle renvoyée par le logiciel est : q̂w /(O K 1). La matrice de
covariance des coefficients renvoyée doit donc être multipliée par (O K 1)/(O
N K).
Le modèle within est également appelé modèle à “effets fixes”, car il est équivalent à
un modèle linéaire dans lequel les effets individuels sont estimés et donc considérés
comme des paramètres fixes. Ce dernier modèle s’écrit :
y = X + (IN ⌦ jT )⌘ + ⌫
où ⌘ est désormais un vecteur de paramètres à estimer, il y a donc au total N + K
paramètres à estimer. L’estimation du modèle sous cette forme est possible si N
n’est pas trop grand. En revanche, sur un panel micro de grande taille, elle devient
rapidement impossible.
L’équivalence entre les deux modèles peut être établie en utilisant le théorème de
Frish-Waugh ou en utilisant la formule de l’inverse d’une matrice partitionnée.
Le théorème de Frish-Waugh indique qu’il est équivalent d’estimer y en fonction
d’un ensemble de variables explicatives X1 , X2 ou d’estimer les résidus d’estimation
de y en fonction de X2 en fonction des résidus d’estimation de X1 en fonction de
X2 . L’application du théorème de Frish-Waugh dans notre contexte consiste à
régresser chaque variable par rapport à X2 = IN ⌦ jT et à récupèrer les résidus.
Ici, pour chaque observation, le résidu s’écrit znt ⌘ˆn . Or, la condition de premier
ordre de la minimisation de la somme des carrés des résidus est X2> ✏ˆ = 0. Or,
X2 étant ici une matrice qui sélectionne les individus, on obtient pour chaque
individu :
T
X T
X
(znt ⌘ˆn ) = znt T ⌘ˆn = 0
t=1 t=1
Par conséquent, on a ⌘ˆn = z̄n. et les résidus d’estimation sont donc les écarts
de la variable par rapport à sa moyenne individuelle. Par conséquent, d’après le
théorème de Frish-Waugh, le modèle à effets fixe peut être estimé en appliquant
l’estimateur des moindres carrés ordinaires aux variables transformées en écart par
rapport à la moyenne individuelle, c’est-à-dire en estimant par les moindres carrés
ordinaires W y en fonction de W X.
La différence entre les deux estimations est que, dans le second cas, les effets
individuels ne sont pas directement estimés. On peut malgré tout les récupérer
aisément car ȳn. = ↵ ˆ
n. . On a donc :
ˆ n + x̄>
↵
ˆ n = ȳn. x̄> ˆ
n.
Dans le cas où on souhaite définir les effets individuels comme étant de moyenne
ˆ = ȳ x̄> ˆ et on obtient
nulle dans l’échantillon, on définit la constante générale ↵
pour chaque individu de l’échantillon ⌘ˆn = ↵ ˆn ↵ ˆ = (ȳn. ȳ¯) (x̄n. x̄¯ )> ˆ
2.3 L’estimateur des moindres carrés généralisés
2.3.1 Présentation de l’estimateur des mcg
Dans le cas où les erreurs sont non corrélées avec les variables explicatives mais
sont caractérisées par une matrice de covariance qui n’est pas un multiple de la
matrice identité, l’estimateur adapté est celui des moindres carrés généralisés. Cet
estimateur s’écrit :
1
ˆgls = Z > ⌦ 1
Z Z >⌦ 1
y (2.26)
Afin de calculer la variance de ˆmcg , on remplace comme précédemment y par
Z + ✏. On obtient alors :
1
ˆmcg = Z >⌦ 1
Z Z >⌦ 1
✏
En utilisant un raisonnement similaire à (2.19), on obtient la variance de l’estima-
teur :
1 1
V (ˆgls ) = X >⌦ 1
X X >⌦ 1
E ✏✏> ⌦ 1
X X >⌦ 1
X
1 (2.27)
= X >⌦ 1
X
Les hypothèses faites dans ce chapître concernant les termes d’erreur induisent que
la matrice de covariance des erreurs ⌦ est donnée par (2.12), ( ⌫2 W + (T ⌘2 + ⌫2 )B)
qui ne dépend que de deux paramètres, les variances des deux composantes du
terme d’erreur ( ⌫2 et ⌘2 ). Nous avons montré dans le chapître 1 que ces deux
matrices sont idempotentes (B⇥B = 0 et W ⇥W = 0) et orthogonales (B⇥W = 0).
L’expression des puissances de ⌦ est alors particulièrement simple :
2 r 2r
⌦r = T 2
⌘ + ⌫ B+ ⌫ W (2.28)
que l’on peut aisément vérifier par exemple pour r = 2. Ce résultat est également
valable pour r < 0 et r rationnel, on a ainsi :
1 1 1
⌦ = 2
B+ 2
W
T ⌘ + ⌫ ⌫
et l’estimateur des moindres carrés généralisés du modèle à erreurs composées et

sa variance sont donc :
✓ ◆ 1 ✓ ◆
1 1 1 1
ˆgls = 2
Z >W Z + 2
Z > BZ 2
Z >W y + 2
Z > By (2.29)
⌫ ◆ ⌫ ◆
✓ ◆ 1
1 > 1 >
V (ˆgls ) = 2
Z WZ + 2
Z BZ (2.30)
⌫ ◆
Pour le vecteur de coefficients sans la constante, on obtient :
✓ ◆ 1 ✓ ◆
ˆgls = 1 > 1 > ¯ 1 > 1 > ¯
2
X WX + 2
X (B J)X 2
X Wy + 2
X (B J)y
⌫ ◆ ⌫ ◆
(2.31)
✓ ◆ 1
ˆgls = 1 1 ¯
2
X >W X + 2
X > (B J)X (2.32)
⌫ ◆
La dimension de la matrice ⌦ est donnée par la taille de l’échantillon. La formule

matricielle (2.26) n’est donc pas praticable pour calculer l’estimateur lorsque la
taille de l’échantillon est importante. En pratique, on détermine l’expression de la
matrice C qui vérifie C > C = ⌦ 1 et on l’utilise pour transformer les différentes
variables du modèle. En notant y ⇤ = Cy et Z ⇤ = CZ les variables transformées,
l’estimation par les moindres carrés du modèle sur données transformées s’écrit :
ˆ = (Z ⇤> Z ⇤ ) 1
Z ⇤> y ⇤ = (Z > C > CZ) 1
Z > C > Cy = (Z > ⌦ 1
Z) 1
Z >⌦ 1
y
qui correspond bien à l’estimateur des mcg donné par (??). On obtient aisément
l’expression de la matrice C en utilisant l’équation (2.28) :
0.5 1 1
C=⌦ =q B+ W
T 2 + ⌫
⌘ ⌫
L’estimateur des moindres carrés généralisés peut alors être obtenu en estimant
par la méthode des moindres carrés ordinaires un modèle pour lequel toutes les
variables (explicatives et expliquée) ont été transformées en les pré-multipliant par
⌦ 0.5 , ou plus simplement ⌫ ⌦ 0.5 . En notant ◆2 = T ⌘2 + ⌫2 et = ⌫◆ , cette
transformation consiste en une combinaison linéaire des transformations between
et within de la variable, les pondérations étant respectivement de et de 1. Par
conséquent, la variable transformée s’écrit :
x⇤nt = x̄n. + (xnt x̄n. ) = xnt (1 )x̄n.

Pour estimer ce modèle, il faut connaître le paramètre de la transformation =
p 2⌫ 2 , qui dépend des variances des deux composantes du terme d’erreur, ou
T ⌘+ ⌫
plus précisément de leur rapport. En effet, on a :
1
=r ⇣ ⌘2 (2.33)
⌘
1+T ⌫
2.3.2 Estimation des variances des composantes du terme

d’erreur
Ces paramètres étant en pratique inconnus, on utilise des estimations de ceux-ci
basés sur les résidus d’un modèle convergent ; on parle alors de méthode d’esti-
mation des moindres carrés généralisés réalisables (fgls pour feasible generalized
least squares par la suite).
Considérons les erreurs du modèle (✏nt ), leurs moyennes individuelles (¯
✏n. ) et leurs
écarts par rapport à la moyenne individuelle (✏nt ✏¯n. ). On a, par définition,
V (✏nt ) = ⌫2 + ⌘2 . Concernant la moyenne individuelle, on obtient :
T T
1X 1X
✏¯n. = ✏nt = ⌘n + ⌫nt
T t=1 T t=1
1 2
V (¯
✏n. ) = 2
= 12 /T
⌘ +
T ⌫
La variance de l’écart par rapport à la moyenne individuelle s’obtient plus facile-
ment en isolant les termes en ✏nt :
T ✓ ◆
1X 1 1X
✏nt ✏¯n. = ✏nt ✏nt = 1 ✏nt ✏st
T t=1 T T
s6=t
la somme contenant alors T 1 termes. La variance s’écrit alors :

✓ ◆2
1 1
V (✏nt ✏¯n. ) = 1 2
⌫ + (T 1) 2
⌫
T T2
Soit finalement :
T 1
V (✏nt ✏¯n. ) = 2
⌫
T
Si les ✏ étaient observés, les estimateurs naturels des deux variances 2
◆ et 2
⌫
seraient alors :
PN PN PT
¯2n.
n=1 ✏ ¯2n.
t= 1 ✏ ✏> B✏ ✏> B✏
ˆ12 = T =T n=1
T =T T =
N N N N
and
P PT 2 P PT 2
T (✏nt ✏¯n. ) (✏nt ✏¯n. ) ✏> W ✏
ˆ⌫2 = n=1 t=1
T = n=1 t=1
=
T 1 N N (T 1) N (T 1)
c’est-à-dire des estimateurs basés sur les normes des erreurs transformées avec les
opérateurs between et within.
Les erreurs ne sont bien entendu pas observées, mais une estimation convergente
des variances estimées peut être obtenue en remplaçant les erreurs par les résidus
obtenus dans le cadre d’une estimation convergente du modèle. Parmi les nombreux
estimateurs de ce type envisageables, le plus courament utilisé est celui de Swamy
& Arora (1972). Il consiste à utiliser les résidus du modèle between pour estimer
◆ :
2
✏ˆ> Bˆ
✏
ˆ◆2 =
N K 1
et ceux du modèle within pour estimer 2
⌫ :
✏ˆ> W ✏ˆ
ˆ⌫2 =
N (T 1) K
On peut ensuite obtenir l’estimation de la variance des effets individuels :
ˆ◆2 ˆ⌫2
ˆ⌘2 =
T
2.4 Comparaison des estimateurs
Pour l’instant, on dispose de 4 estimateurs possibles du même modèle : le modèle
between et le modèle within n’exploitent qu’une seule dimension de la variabilité
de l’échantillon, alors que les moindres carrés ordinaires et les moindres carrés
généralisés utilisent les deux.
Notons tout d’abord que, si l’hypothèse d’absence de corrélation entre les erreurs
et les variables explicatives est vérifiée, tous ces modèles sont non biaisés et conver-
gents ; autrement dit, on peut s’attendre à ce qu’ils aboutissent à des estimations
relativement similaires, en tous cas si l’échantillon est grand.
Nous commencerons par analyser les relations existant entre ces différents estima-
teurs, puis nous comparerons leurs variances.
2.4.1 Relations entre les estimateurs
On peut s’attendre à ce que les estimateurs des mco et des mcg donnent des
résultats intermédiaires entre les estimateurs within et between dans la mesure où
ils intègrent les deux sources de variabilité. A partir de l’équation (2.31), on peut
écrire l’estimateur des moindres carrés généralisés sous la forme suivante :
1
ˆmcg = X > W X + 2
X > (B ¯
J)X X >W y + 2
X > (B ¯
J)y
En utilisant (2.20) et (2.24), on peut alors exprimer ˆmcg comme une moyenne
pondérée des estimateurs within et between.
1
⇣ ⌘
ˆmcg = X > W X + 2
X > (B ¯
J)X X > W X ˆw + 2
X > (B ¯ ˆb
J)X
Il en est de même pour l’estimateur des moindres carrés ordinaires ˆmco qui cor-
respond au précédent dans le cas particulier où = 1.
⇣ ⌘
ˆmco = X > W X + X > (B J) ¯ X 1 X > W X ˆw + X > (B J)X ¯ ˆb
Dans le cas de l’estimateur des mco, les pondérations sont très intuitives puisqu’il
s’agit des parts de la variance observée intra et inter-individuelle. Dans le cas du
modèle des mcg, les pondérations intègrent non seulement la part des variances
des variables explicatives, mais également celle des variances des erreurs, via le
paramètres . De manière générale (  1), ce modèle accorde moins de poids à
la dimension between que le précédent et admet deux cas particuliers :
– ! 0 ; cela signifie que ⌫ est “petit” par rapport à ⌘ . Dans ce cas, l’estimateur
des mcg converge vers l’estimateur within,
– ! 1 ; cela signifie que ⌫ est “grand” par rapport à ⌘ . Dans ce cas, l’estimateur
des mcg converge vers l’estimateur des mco.
La relation entre les différents estimateurs peut également être illustrée par le fait
que l’estimateur des mcg peut être obtenu en empilant les deux transformations
within et between du modèle :
✓ ◆ ✓ ◆ ✓ ◆
Wy WZ W✏
= + (2.34)
By BZ B✏
La matrice de covariance des erreurs de ce modèle empilé est :
✓ 2 ◆
⌫W 0
2 (2.35)
0 ◆B
En appliquant les moindres carrés généralisés à 2.34, on retrouve l’expression de

l’estimateur des mcg (equation 2.29).
2.4.2 Comparaison des variances

A partir de l’équation (2.32), on peut écrire la variance de l’estimateur des mcg
sous la forme :
⇣ ⌘ 1
V ˆgls = ⌫2 X > W X + 2 X > B̄X (2.36)
La variance de l’estimateur within étant ⌫2 (X > W X) 1 , V( ˆw ) V( ˆmcg ) est

nécessairement une matrice définie positive et l’estimateur des mcg est donc plus
efficace que l’estimateur within. De même, l’équation (2.21) indique que la variance
de l’estimateur between peut s’écrire ⌫2 ( 2 X > B̄X) 1 et donc V( ˆb ) V( ˆmcg ) est
également une matrice définie positive.
2.5 Exemples d’application
La librairie plm fournit la fonction plm qui permet d’estimer les estimateurs décrits
dans ce chapître.
2.5.1 Un exemple complet d’estimation avec plm
Pour illustrer l’estimation des estimateurs précédemment présentés, nous utilisons

les données LargeBanks de la librairie pder. Ces données concernent les coûts de
production de 128 grandes banques américaines pour la période 1989-2000. cost
est le coût total de production en logarithmes et assets le niveau de production en
logarithmes. Nous souhaitons estimer une fonction de coût log-linéaire en utilisant
le niveau de production comme unique variable.
> data("LargeBanks", package = "pder")
> LB <- pdata.frame(LargeBanks)
La fonction permettant de réaliser l’estimation du modèle s’appelle plm . Ces

arguments principaux sont :
– formula , la description symbolique du modèle,
– data , le tableau de données qui peut être soit un tableau de données ordinaire,
soit un pdata.frame ; dans le premier cas, l’argument index peut être ajouté
de manière à indiquer les variables contenant les index individuel et temporel,
– model , le modèle à estimer : "within", "between", "pooling" (c’est-à-dire le
modèle des moindres carrés ordinaires) et "random" (le modèle des moindres
carrés généralisés).
– random.method , pour le modèle des mcg, plusieurs estimateurs sont dispo-
nibles, on utilisera ici celui de Swamy & Arora (1972) ; comme il s’agit du choix
par défaut, il n’est pas indispensable de renseigner cet argument en le fixant à
"swar".
On estime ensuite les différents modèles :
> costbanks <- cost ~ assets
> banks.pooling <- plm(costbanks, LB, model = "pooling")
> banks.within <- plm(costbanks, LB, model = "within")
> banks.between <- plm(costbanks, LB, model = "between")
> banks.random <- plm(costbanks, LB, model = "random")
L’impression simple ou détaillée de l’estimation est obtenue comme c’est l’usage

avec R en appliquant les méthodes print et summary à l’objet contenant le modèle
estimé. Par exemple, pour le modèle des mcg, on obtient :
> banks.random
Model Formula: cost ~ assets
Coefficients:
(Intercept) assets
-0.2952 1.0286
> summary(banks.random)
Oneway (individual) effect Random Effect Model

(Swamy-Arora’s transformation)
Call:
plm(formula = costbanks, data = LB, model = "random")
Effects:
var std.dev share
idiosyncratic 0.03715 0.19274 0.738
individual 0.01316 0.11473 0.262
theta: 0.5636
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-0.6200 -0.0836 -0.0169 0.0598 4.1800
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.295205 0.100583 -2.9349 0.003386 **
assets 1.028565 0.007185 143.1548 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Total Sum of Squares: 823.87

Residual Sum of Squares: 57.375
R-Squared : 0.93036
Adj. R-Squared : 0.92915
F-statistic: 20493.3 on 1 and 1534 DF, p-value: < 2.22e-16
La partie du résultat qui concerne l’estimation des deux composantes du terme

d’erreur peut également être obtenue en appliquant la fonction ercomp soit au
modèle des mcg estimé, soit en utilisant une interface formula - data .
> ercomp(cost ~ assets, LB)
> ercomp(banks.random)
Les résultats indiquent que la part de la variance due à la présence de l’effet

individuel est d’environ un quart. Le paramètre appelé ✓ correspond à la part de
la moyenne individuelle qui est retirée de chaque variable pour l’estimation du
modèle mcg. Elle correspond ici à 56%. L’estimateur mcg est donc ici à peu près
à mi-chemin entre l’estimateur mco (✓ = 0) et l’estimateur within (✓ = 1).
Pour le modèle within, la méthode fixef permet d’extraire les effets individuels.
Trois versions des effets individuels peuvent être obtenus selon l’argument type
passé à la fonction :
– level, la valeur par défaut, renvoie les ordonnées à l’origine, c’est-à-dire ↵
ˆ + ⌘ˆn ,
– dfirst renvoie les effets individuels en écarts par rapport au premier individu ;
on a alors ↵ˆ qui correspond à l’ordonnée à l’origine pour le premier individu,
– dmean renvoie les effets indiviudels en écarts par rapport à la moyenne des effets
individuels ; dans ce cas, ↵
ˆ est la moyenne des effets individuels.
> head(fixef(banks.within))
1 2 3 4 5 6
-0.4088325 -0.4814600 -0.4840704 -0.4333303 -0.4761411 -0.4434490
> head(fixef(banks.within, type = "dfirst"))
2 3 4 5 6 7
-0.07262754 -0.07523796 -0.02449779 -0.06730860 -0.03461650 -0.19118140
> head(fixef(banks.within, type = "dmean"))
1 2 3 4 5 6
0.061133962 -0.011493577 -0.014104000 0.036636176 -0.006174642 0.026517461
On montre ci-dessous l’équivalence entre le modèle within et l’estimation par les

mco avec des variables indicatrices des banques. A cet effet, on introduit la variable
id dans l’estimation car il s’agit de l’index individuel. Le comportement de lm
est alors d’estimer une constante et d’enlever la première modalité de la variable
explicative id. Les effets individuels estimés sont alors similaires à ceux obtenus
en utilisant fixef avec l’argument type ixé à "dfirst".
> banks.within
Model Formula: cost ~ assets
Coefficients:
assets
1.0411
> head(coef(lm(cost ~ assets + factor(id), LB)))
(Intercept) assets factor(id)2 factor(id)3 factor(id)4 factor(id)5

-0.40883248 1.04112845 -0.07262754 -0.07523796 -0.02449779 -0.06730860
La commande ci-dessous permet d’extraire le coefficient associé à la production

pour les quatre modèles :
> sapply(list(pooling = banks.pooling, within = banks.within,
+ between = banks.between, random = banks.random),
+ function(x) coef(x)[["assets"]])
pooling within between random

1.0063604 1.0411285 0.9816273 1.0285650
Les quatre modèles concluent à un coefficient très proche de 1, ce qui correspond

à l’hypothèse de rendements constants. On constate également que les estimateurs
mco et mcg sont bien intermédiaires entre les estimateurs within et between et
que l’estimateur mcg est plus proche de l’estimateur within que l’estimateur mco.
Pour retrouver formellement le résultat obtenu précédemment, on calcule tout
d’abord les parts des variances intra et inter-individuelles de la varianble explica-
tive assets.
> SxxW <- sum(Within(LB$assets) ^ 2)
> SxxB <- sum((Between(LB$assets)-mean(LB$assets))^2)
> SxxTot <- sum( (LB$assets- mean(LB$assets)) ^ 2)
> pondW <- SxxW / SxxTot
> pondW
[1] 0.415674
> pondW * coef(banks.within)[["assets"]] +

+ (1 - pondW) * coef(banks.between)[["assets"]]
[1] 1.00636
La part de la variance intra-individuelle est de 42%, l’estimateur mco est un peu

plus proche de l’estimateur between que de l’estimateur within. Pour retrouver le
résultat concernant le modèle des mcg, on commence par estimer le paramètre
à l’aide des résidus de l’estimation des modèles within et between :
> T <- 12
> N <- 128
> siota2 <- deviance(banks.between) * T / (N - 2)
> snu2 <- deviance(banks.within) / (N * (T - 1) - 1)
> phi <- sqrt(snu2 / siota2)
On peut alors calculer les pondérations et l’estimation pour le modèle des moindres
carrés généralisés :
> pondW <- SxxW / (SxxW + phi^2 * SxxB)
> pondW * coef(banks.within)[["assets"]] +
+ (1 - pondW) * coef(banks.between)[["assets"]]
[1] 1.028565
Enfin, les résultats semblent indiquer que nous sommes dans le cas où l’hypothèse
d’absence de corrélation entre les effets individuels et la variable explicative est
vérifiée. Dans ce cas, les quatre modèles sont convergents et il doivent donner des
résultats relativement proche, ce qui est le cas ici.
2.5.2 Exemples de modèles linéaires simples

Même s’ils ont peut d’intérêt pratique, les modèles économétriques pertinents
contenant en général plusieurs variables explicatives, les modèles linéaires simples
ont un intérêt pédagogique évident car ils permettent la représentation graphique
des échantillons et des modèles sous la forme de nuages de points et de droite de
régression. Ils permettent en particulier de bien comprendre les relations entre les
différents estimateurs. Nous analyserons successivement 4 jeux de données.
Le premier, appelé ForeignTrade a été utilisé par Kinal & Lahiri (1993) pour
construire un modèle complet du commerce extérieur pour les pays en développe-
ment qui sera présenté dans le chapître 6. Pour l’instant, nous analyserons sim-
plement la relation entre les importations (imports) et le produit intérieur (gnp).
Les deux variables sont en logarithmes et sont exprimées par habitant.
Les instructions suivantes crééent un pdata.frame , en extrait la variable explica-
tive et y applique la méthode summary qui calcule la décomposition de sa variance.
Pour estimer tous les modèles, on crée tout d’abord un vecteur contenant les noms
de ces modèles, puis on utilise la fonction sapply de manière à extraire de ces
différents modèles estimés le coefficient associé à la variable explicative.
> data("ForeignTrade", package = "pder")
> FT <- pdata.frame(ForeignTrade)
> summary(FT$gnp)

id time
0.98248044 0.00763845
> ercomp(imports ~ gnp, FT)
var std.dev share

idiosyncratic 0.08634 0.29383 0.074
individual 1.07785 1.03820 0.926
theta: 0.9423
> models <- c("within", "pooling", "random", "between")

> sapply(models, function(x) coef(plm(imports ~ gnp, FT, model = x))["gnp"])
within.gnp pooling.gnp random.gnp between.gnp

0.90236420 0.06366400 0.76815599 0.04870833
On constate que, pour ce modèle la variance de la variable explicative et de l’erreur

est quasi exclusivement due à la variation inter-individuelle (respectivement 98 et
93%). Dans ce cas, le modèle des mcg consiste à enlever 94% de la moyenne indi-
viduelle et est donc quasiment identique au modèle within. Quand au modèle des
mco qui prend en compte toute la variation inter-individuelle, il est très proche
du modèle between. Enfin, les deux premiers modèles donnent des résultats très
différents des deux suivants et sont caractérisés par une élasticité beaucoup plus
importante. On constate sur le graphique 2.1 qu’il y a une corrélation négative
très forte entre les effets individuels et la variable explicative. Dans ce cas, les esti-
mateurs qui intègrent l’effet individuel souffrent d’un biais vers le bas. C’est le cas
pour les mco et pour le modèle between, beaucoup moins pour l’estimateur des
mcg qui, on l’a vu, n’intègre qu’une part infime de la variation inter-individuelle.
●
−5
●
●● ●
●●
●●● ●
●●● ● ●
●●
● ●
−6 ●●●
● ●
●
●
●
−7
−8
●
●
●
−9
−6 −4 −2 0
Fig. 2.1 – Importations en fonction du produit intérieur pour les données Forei-
gnTrade
Les données TurkishBanks ont été utilisées par El-Gamal & Inanoglu (2005) afin
d’analyser les coûts de production des banques. On estime le coût en fonction de
la production, les deux variables étant en logarithmes. En appliquant les mêmes
calculs que pour l’exemple précédent, on obtient :
> data("TurkishBanks", package = "pder")
> TurkishBanks <- na.omit(TurkishBanks)
> TB <- pdata.frame(TurkishBanks)
series type is constant and has been removed
> summary(log(TB$output))

id time
0.84730373 0.01255259
> ercomp(log(cost) ~ log(output), TB)
bon
var std.dev share
idiosyncratic 0.3291 0.5737 0.604
individual 0.2156 0.4643 0.396
theta :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6192 0.6509 0.6509 0.6474 0.6509 0.6509
> sapply(models, function(x)

+ coef(plm(log(cost) ~ log(output), TB, model = x))["log(output)"])
bon
within.log(output) pooling.log(output) random.log(output) between.log(output)
0.5063813 0.8006578 0.6470472 0.8531416
La variation de la variable explicative est principalemet inter-individuelle (85%),

en revanche, pour l’erreur, le partage de la variance est assez équivalent entre
la part de l’effet individuel (40%) et celle de l’effet idiosyncratique (60%). On
a par conséquent de nouveaux deux estimateurs mco et between très proches.
L’estimateur des mcg est au centre de l’intervalle constitué par les estimateurs
mco et between car la transformation réalisée consiste à enlever environ 65% de
la moyenne. La figure 2.2 semble indiquer que les effets individuels sont corrélés
négativement avec la variable explicative et que par conséquent les estimateurs
between, des mco et dans une moindre mesure celui des mcg sont biaisés vers le
bas.
Les données TexasElectr , utilisées par Kumbhakar (1996) et Horrace & Schmidt
(1996), permettent d’analyser le coût de production d’entreprises de production
d’électricité au Texas. On commence par définir le coût comme la somme des
dépenses en travail (explab), en capital (expcap) et en carburant (expfuel).
On réalise ensuite les mêmes calculs que précédemment.
> data("TexasElectr", package = "pder")
> TexasElectr$cost <- with(TexasElectr, explab + expfuel + expcap)
> TE <- pdata.frame(TexasElectr)
> summary(log(TE$output))
21
●●●●
●
20 ●
●
●
●●
●
●
● ●
19
18
● ●
●
●
●
●●●
●
17
●●
●
● ●●
●
●●
●
●
16 ●● ● ●
● ●
15
14
16 17 18 19 20 21 22
Fig. 2.2 – Coût en fonction de l’output pour les données TurkishBanks

id time
0.8233617 0.1684892
> ercomp(log(cost) ~ log(output), TE)
var std.dev share

idiosyncratic 0.106806 0.326811 0.99
individual 0.001088 0.032990 0.01
theta: 0.08076

+ coef(plm(log(cost) ~ log(output), TE, model = x))["log(output)"])
within.log(output) pooling.log(output) random.log(output) between.log(output)

2.6325286 1.1804164 1.2259868 0.8688903
La variation de la variable explicative est principalement inter-individuelle (82%),

en revanche, concernant les erreurs, la variance de la composante idiosyncratique
est très largement dominante, ce qui implique qu’une part infime (8%) de la
moyenne individuelle est enlevée dans le cadre de l’estimation par les mcg. On
a donc deux estimateurs des mcg et des mco quasiment égaux. L’estimateur wi-
thin est de nouveau très supérieur du fait de la corrélation négative apparente
entre les effets individuels et la variable explicative.
14
13
●
●
● ●
12
●●
●
11
●
10
7.5 8.0 8.5 9.0 9.5 10.0
Fig. 2.3 – Coût en fonction de l’output pour les données TexasElectr
Le dernier jeu de donnée est DemocracyIncome25 utilisé par Acemoglu, John-

son, Robinson & Yared (2008). Les données concernent 25 pays et 7 observations
de 25 ans pour la période 1850 à 2000. Les auteurs analysent la relation causale
dynamique entre le niveau de richesse d’un pays et le degré de démocratie. Leur
analyse sera reproduite en détail dans le chapître 7. Dans l’immédiat, nous ana-
lyserons simplement la relation entre le niveau de démocratie et le revenu retardé
d’une période.
> data("DemocracyIncome25", package = "pder")
> DI <- pdata.frame(DemocracyIncome25)
> summary(lag(DI$income))

id time
0.4297745 0.4890893
> ercomp(democracy ~ lag(income), DI)
var std.dev share

idiosyncratic 0.05585 0.23632 0.789
individual 0.01494 0.12222 0.211
theta: 0.4099

+ coef(plm(democracy ~ lag(income), DI, model = x))["lag(income)"])
within.lag(income) pooling.lag(income) random.lag(income) between.lag(income)

0.1869989 0.2309095 0.2100902 0.2891701
Pour ce jeu de données, la part inter-individuelle de la variation de la variable

explicative et de l’erreur est plutôt faible (43 et 21%). La part de la moyenne
retirée dans le cas de l’estimateur des mcg est de 41%. Enfin, la figure ?? montre
qu’il n’y a pas de corrélation évidente entre les effets individuels et la variable
explicative, ce qui a pour conséquence que les 4 estimateurs sont proches les uns
des autres.
1.0 ●
●
● ●
●
0.8 ●
0.6
●
0.4
●
● ●
● ●
0.2
●●
1.9 2.0 2.1 2.2
Fig. 2.4 – Démocratie en fonction du revenu retardé pour les données Democra-
cyIncome25
2.6 Simulation des propriétés des estimateurs

Les propriétés des estimateurs sont souvent difficiles, voir impossible à établir
analytiquement. Dans ce cas, il est intéressant d’avoir une approche par simulation
(approche dite “de Monte-Carlo”). Cette approche comporte plusieurs étapes :
– on commence par définir parfaitement la manière dont les échantillons sont
générés,
– on créé ensuite un grand nombre d’échantillons à l’aide d’un générateur de
nombres aléatoires,
– on calcule pour chaque échantillon une statistique,
– on s’intéresse à la distribution de cette statistique (sa moyenne par exemple).
La fonction ci-dessous permet de générer un échantillon avec N individus et T
périodes, pour des écarts-types des deux composantes du terme d’erreur donnés,
pour des paramètres de la droite donnés et pour un vecteur de variable explicative

donné.
> simpanel <- function(N, T, s.nu, s.eta, alpha, beta, x){
+ eta <- rnorm(N, sd = s.eta)
+ nu <- rnorm(N * T, sd = s.nu)
+ y <- alpha + beta * x + rep(eta, each = T) + nu
+ data.frame(id = rep(1:N, each = T), y = y, x = x)
+ }
La fonction peut alors être utilisée comme suit :

> simpanel(N = 2, T = 3, s.nu = 0.5, s.eta = 0.5, alpha = 1, beta = 1, x = 7:12)
id y x
1 1 8.053460 7
2 1 8.420634 8
3 1 9.509192 9
4 2 10.725954 10
5 2 11.025958 11
6 2 11.940134 12
Pour mener à bien nos simulations, on commence par définir la dimension de notre
panel, ici T = 4 et N = 100, ainsi que les écarts-types des deux composantes du
terme d’erreur.
> set.seed(4)
> T <- 4
> N <- 100
> s.nu <- 0.6
> s.eta <- 0.4
On a donc une variance totale pour les erreurs de ⌫2 + ⌘2 = 0.62 + 0.42 = 0.52 et
le paramètre est ici égal à : = p 2⌫ 2 = p4⇥0.4 0.6
2 +0.6
= 0.6.
T ⌘+ ⌫
Pour la variable explicative, nous choisissons également de fixer sa variance totale
à 1, la moitié correspondant à une variation within et l’autre moitié à une variation
between.
> x <- rep(rnorm(N, sd = sqrt(0.5)), each = T) +
+ rnorm(N * T, sd = sqrt(0.5)) + 2
On peut désormais procéder aux simulations. On tire au hasard 100 échantillons

et, pour chacun d’entre eux, on estime les 4 modèles. On stocke les 4 coefficients
obtenus pour chaque échantillon dans une matrice.
> result <- c()
> for (i in 1:100){
+ z <- simpanel(N = N, T = T, s.nu = s.nu, s.eta = s.eta,
+ alpha = 1, beta = 1, x = x)
+ z$Bx <- tapply(z$x, z$id, mean)[as.character(z$id)]
+ z$By <- tapply(z$y, z$id, mean)[as.character(z$id)]

+ O <- lm(y ~ x, z)
+ W <- lm(I(y - By) ~ I(x - Bx), z)
+ B <- lm(By ~ Bx, z)
+ s2.nu <- deviance(W) / (N * T - N - 1)
+ s2.lambda <- deviance(B) / (N - 2)
+ theta <- sqrt(s2.nu / s2.lambda)
+ G <- lm(I(y - (1 - theta) * By) ~ I(x - (1 - theta) * Bx), z)
+ result <- rbind(result,
+ c( coef(O)[2],
+ coef(B)[2],
+ coef(W)[2],
+ coef(G)[2]
+ )
+ )
+ }
> colnames(result) <- c("ols", "between", "within", "gls")
Pour vérifier que les estimateurs sont non-biaisés, on calcule la moyenne des valeurs
obtenues pour chaque estimateur.
> apply(result, 2, mean)
ols between within gls

0.9968929 0.9966218 0.9972462 0.9969072
On constate qu’effectivement, on obtient pour chaque estimateur des valeurs moyennes

très proches de 1.
La précision des estimateurs peut être appréhendée par le calcul de l’écart-type
obtenu pour chaque estimateur.
> apply(result, 2, sd)
ols between within gls

0.04940275 0.07565773 0.05477897 0.04486814
L’estimateur between est le moins précis, ce qui n’est pas surprenant car il est
estimé sur seulement les N moyennes individuelles. L’estimateur des mcg est net-
tement plus précis que celui des mco. Enfin, la précision de l’estimateur within est
moins bonne que celle de l’estimateur mcg.
Enfin, on peut vérifier graphiquement (figure 2.5) pour un estimateur (par exemple
celui des mcg) que la distribution de l’estimateur est proche de la normale.
> hist(result[, "gls"], probability = TRUE, ann = FALSE)
> curve(dnorm(x, mean = mean(result[, "gls"]),
+ sd = sd(result[, "gls"])), add = TRUE)
10
8
6
4
2
0
0.90 0.95 1.00 1.05 1.10
Fig. 2.5 – Distribution de l’estimateur des mcg

Chapitre 3
Le modèle à erreurs
composées : extensions
3.1 Le modèle à double erreurs composées

Lorsque l’on souhaite intégrer des effets spécifiques à chaque période, on doit
considèrer le modèle suivant :
ynt = ↵ + xnt + ⌘n + µt + ⌫nt
3.1.1 Décomposition de la variance dans le modèle doubles

effets
Les hypothèses faites sur l’effet temporel sont en tous points similaires à celles que
l’on a faites sur l’effet individuel :
– µ est d’espérance nulle et homoscédastique, on note µ2 sa variance,
– les effets temporels ne sont pas corrélés entre eux E(⌘t ⌘s ) = 0 8t 6= s,
– les effets temporels ne sont corrélés ni avec les effets individuels, ni avec l’erreur
idiosyncratique.
Avec ces hypothèses, la matrice de covariance des erreurs s’écrit désormais :
2 2 2
⌦= ⌫ IN T + ⌘ IN ⌦ JT + µ JN ⌦ IT
Comme dans le cas du modèle à erreurs composées avec effet individuel, on cherche
l’expression de la décomposition spectrale de cette matrice qui est une combinaison
linéaire de matrices idempotentes et orthogonales. A cet effet, on note :
1
Bn = IN ⌦ JT /T , Bt = JT ⌦ IN /N et J¯ = JN T
NT
Bn ⇥ x renvoie comme précédemment la moyenne individuelle x̄n. , Bt ⇥ x la
¯ la moyenne globale de x̄
moyenne x̄.t temporelle et Jx ¯. Enfin, la matrice within
doit ici réaliser une double différence par rapport aux moyennes individuelles et
temporelles : xnt x̄n. x̄.t + x̄¯:
W =I Bn Bt + J¯
Avec ces notations, on obtient :
2 2 2 2 2 2 ¯
⌦= ⌫W + (T ⌘ + ⌫ )Bn + (N µ + ⌫ )Bt ⌫J
On vérifie aisément que les différentes matrices sont idempotentes. En revanche,

on a Bn ⇥ Bt = J¯ 6= 0. En effet, le produit de ces deux matrices conduit à calcu-
ler la moyenne temporelle des moyennes individuelles, ce qui renvoie la moyenne
globale. Pour cette raison, on utilise B̄n = Bn J¯ et B̄t = Bt J¯ qui renvoient
respectivement les moyennes individuelles et temporelles en écart par rapport à la
moyenne globale. En regroupant les termes, on obtient finalement :
2 2 2 2 2 2 2 2 ¯
⌦= ⌫W + (T ⌘ + ⌫ )B̄n + (N µ + ⌫ )B̄t + (T ⌘ +N µ + ⌫ )J
Soit encore, en notant n = (T 2

⌘ + 2
⌫)
0.5
, t = (N 2
µ + 2
⌫)
0.5
et j = (T 2
⌘ +
N µ2 + ⌫2 ) 0.5 :
1 2 2 ¯ 2
2
⌦ = W + B̄n / n + B̄t / t + J/ j
⌫
3.1.2 Modèles à effets fixes et à effets aléatoires

Comme dans le cas du modèle à effets individuels, le modèle à effets fixes peut
être obtenu de deux manières différentes :
– en estimant le modèle par les moindres carrés ordinaires en introduisant dans
l’estimation des variables indicatrices des individus et des périodes,
– en estimant le modèle par les moindres carrés ordinaires en introduisant dans
l’estimation les variables transformées en écart par rapport aux moyennes indi-
viduelles et temporelles : znt z̄n. z̄.t + z̄¯.
Pour le modèle des moindres carrés généralisés, on transforme les variables du
modèle en les prémultipliant par ⌦ 0.5 ou plus simplement par ⌫ ⌦ 0.5 :
⌫⌦
0.5
=W+ n B̄n + t B̄t + jJ
¯
En regroupant les termes, on obtient la transformation réalisée par la pré-multiplication

des variables du modèle par cette matrice :
⇤ ¯
znt = znt (1 n )x̄n. (1 t )x̄.t + (1 n t + j )x̄
3.1.3 Application
Pour le modèle concernant la production de riz précédemment estimé, on peut
obtenir une estimation à double erreurs composées en fixant l’argument effect de
la fonction plm à twoways. Les résultats des deux modèles à effets fixes et à effets
aléatoires sont présentés ci-dessous :
Chapitre 3. Le modèle à erreurs composées : extensions 43
> riceprod <- log(goutput)~log(seed)+log(totlabor)+log(size)

> rice.wd <- plm(riceprod, Rice, effect = "twoways")
> rice.rd <- plm(riceprod, Rice, effect = "twoways", model = "random")
> ercomp(rice.rd)
var std.dev share

idiosyncratic 0.09431 0.30710 0.631
individual 0.02102 0.14497 0.141
time 0.03415 0.18479 0.228
theta : 0.3459 (id) 0.8739 (time) 0.3446 (total)
Les parts des trois composantes du terme d’erreur sont désormais de 14% pour la
composante individuelle et 23% pour la composante temporelle.
Les effets individuels sont extraits du modèle à effets fixes à l’aide de la fonc-
tion fixef à laquelle on peut ajouter un second argument effect qui est égal à
"individual" par défaut et que l’on peut fixer à "time" pour extraire les effets
fixes temporels :
> fixef(rice.wd, effect = "time")
1 2 3 4 5 6
5.914708 5.842072 5.716913 5.544581 6.076116 6.038450
3.2 D’autres estimateurs des variances des compo-

santes du terme d’erreur
On rappelle que l’estimateur de Wallace & Hussain (1969) est basé sur l’estimation
du modèle par la méthode des moindres carrés ordinaires. On a alors :
N
X
ˆ12 = T ē2n. /N
n=1
N X
X T
ˆ⌫2 = (ent ēn. )2 /(N ⇥ (T 1))
n=1 t=1
D’autres estimateurs ont été proposés.

L’estimateur de Amemiya (1971) est basé sur l’estimation du modèle within. On
obtient :
ˆ = ȳ¯
↵ ˆw x̄
¯
ent = ynt ↵
ˆ ˆw xnt
N
X
ˆ12 = T ē2n. /N
n=1
N X
X T
ˆ⌫2 = (ent ēn. )2 /(N ⇥ (T 1)))
n=1 t=1
Pour l’estimateur de Swamy & Arora (1972), on utilise deux estimations, celles du
modèle within et du modèle between.
N X
X T
2
ˆ⌫2 = ew
nt /(N ⇥ (T 1) K)
n=1 t=1
N
X 2
ˆ12 = T ebnt /(N K 1)
n=1
Enfin, pour l’estimateur de Nerlove (1971), on calcule l’estimateur de 2

⌘ en calcu-
lant les effets individuels à partir du modèle within :
⌘ˆn = ȳn. ˆw x̄n.
N
X
ˆ⌘2 = (ˆ
⌘n ⌘¯
ˆ)2 /(N 1)
n=1
N X
X T
ˆ⌫2 = e2nt /(N ⇥ T )
n=1 t=1
Pour utiliser ces méthodes d’estimation, il suffit de fixer l’argument random.method

à swar pour Swamy & Arora (1972), à walhus pour Wallace & Hussain (1969),
amemiya pour Amemiya (1971) et nerlove pour Nerlove (1971).
> rice.wh <- plm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice,

+ model="random", random.method = "walhus")
> rice.sa <- update(rice.wh, random.method = "swar")
> rice.am <- update(rice.wh, random.method = "amemiya")
> rice.ne <- update(rice.wh, random.method = "nerlove")
> rbind(walhus = coef(rice.wh), swar = coef(rice.sa),
+ amemyia = coef(rice.am), nerlove = coef(rice.ne))
(Intercept) log(seed) log(totlabor) log(size)

walhus 5.312634 0.2199918 0.2854699 0.5280732
swar 5.312310 0.2199071 0.2855146 0.5278612
amemyia 5.311825 0.2197788 0.2855815 0.5275402
nerlove 5.302849 0.2171339 0.2867853 0.5209678
On constate que les différences entre les modèles sont très faibles, l’estimateur de
Nerlove (1971) étant malgré tout un peu différent des autres. Cela est confirmé en
analysant la transformation réalisée avec cet estimateur :
> ercomp(rice.ne)
var std.dev share

idiosyncratic 0.10992 0.33155 0.743
individual 0.03802 0.19498 0.257
theta: 0.4298
La part estimée de l’effet individuel dans l’erreur est bien plus élevée avec cet
estimateur qu’avec les autres (26% contre 10%) et par conséquent les données sont
transformées en soustrayant une part plus importante de la moyenne individuelle
des variables.
3.3 Panel non cylindré

Dans le cas du panel non cylindré, on a désormais Tn observations par individu.
Le modèle à effets fixes peut être obtenu de la même manière que dans le cas d’un
panel cylindré, c’est-à-dire en transformant les variables en écart par rapport à la
moyenne individuelle. En revanche, pour le modèle à effets aléatoires, la méthode
d’estimation des variances des composantes du terme d’erreur doit être modifiée 1 .
Dans le cas où le modèle est non cylindré, on ne peut plus exprimer la matrice
de variance covariance des erreurs comme une combinaison linéaire des matrices
within et between, les pondérations étant ⌫2 et 12 . En revanche, mêmes si les
résultats sont plus complexes, on peut de nouveau calculer les deux formes qua-
dratiques q̂w = e> W e et q̂b = e> Be et égaliser les valeurs pour l’échantillon à leur
espérance afin d’estimer ⌫2 et ⌘2 . Pour les différents estimateurs, la démarche sera
toujours la même :
– Déterminer la matrice qui permet de transformer le vecteur d’erreurs en vecteur
de résidus e = A✏,
– Calculer les deux formes quadratiques : q̂w = e> W e et q̂b = e> Be,
– Déterminer leur espérance : E(q̂w ) = E e> W e et E(q̂b ) = E e> Be
– Egaliser les deux et résoudre le système de deux équations en fonction de ⌫2 et
⌘.
2
Wallace et Hussain
Les deux formes quadratiques sont calculées à partir des résidus des moindres
carrés ordinaires, pour lesquels on a :
eo = I X(X > X) 1
X >✏
1. voir Baltagi & Chang (1994).
Pour la première forme quadratique, qui utilise la matrice within, on obtient, en

espérance :
E(q̂w ) = tr I X(X > X) 1

X> W I X(X > X) 1
X> ⌦
Soit :
E(q̂w ) = n N tr (X > W X)(X > X) 1 2

⌫
+ tr (X U X)(X X) (X W X)(X X)
> > 1 > > 1 2
⌘
Que l’on peut également réécrire, en remplaçant W par I B:
E(q̂w ) = n N K 1 + tr (X > BX)(X > X) 1 2

⌫
+ tr (X U X)(X X)
> > 1
tr (X U X)(X X)
> > 1
(X > BX)(X > X) 1 2
⌘
Pour la seconde forme quadratique, qui utilise la matrice between, l’espérance est :
E(q̂b ) = tr I X(X > X) 1

X> B I X(X > X) 1
X> ⌦
Soit encore :
E(q̂b ) = N tr (X > X) 1 (X > BX) 2

⌫
+ n + tr (X U X)(X X) (X BX)(X > X)
> > 1 > 1
2tr (X > U X)(X > X) 1
Swamy et Arrora
Ici, q̂w est calculé à partir des résidus within et q̂b à partir des résidus between.
Les deux matrices de trnansformation sont :
ew = W W X > (X > W X) 1
X > W ✏ = Aw ✏
eb = B BX > (X > BX) 1

X > B ✏ = Ab ✏
q̂w est calculé à partir des résidus within. On a alors :
q̂w = ✏> A>

w W Aw ✏ = ✏
>
W W X(X > W X) 1
X >W ✏
et donc :
E(q̂w ) = (n N K) 2
⌫
q̂b est calculé à partir des résidus between. On a alors :
q̂b = ✏> A>

B BAB ✏ = ✏
>
B BX(X > BX) 1
X >B ✏
et
E(q̂b ) = (N K 1) 2
⌫ + n tr (X > BX) 1
(X > U X) 2
⌘
Le calcul des estimateur des variances est donc ici particulièrement simple puisque
ˆ⌫2 peut être obtenu à partir de la première condition et introduit dans la seconde
afin de calculer ˆ⌘2 .
Amemyia
Pour cet estimateur, on calcule les résidus d’estimation non transformés en utilisant
l’estimateur within :
ea = y X ˆw ↵
ˆ
avec ↵
ˆ = ȳ¯ ¯ ˆw .
X̄
On a donc :
ea = (y ȳ¯) (X ¯ ) ˆw
X̄ (3.1)
De plus, la relation entre ˆw et ✏ est donné par :
ˆw = (X > W X) 1
X >✏ (3.2)
Pour le “vrai” modèle, on a :
✏=y X ↵
La moyenne pour l’échantillon donne :
✏¯ = ȳ¯ ¯
X̄ ↵
Soit finalement, pour le “vrai” modèle en écart par rapport à la moyenne :
✏ ✏¯ = (y ȳ¯) (X ¯)
X̄ (3.3)
En soustrayant membre à membre (3.1) et (3.3), on obtient :
ew ✏ + ✏¯ = (X ¯ )( ˆw
X̄ )
Soit encore en utilisant 3.2 :
ew = ✏ + ✏¯ (X ¯ )(X > W X)
X̄ 1
X >✏
En notant J¯n la matrice dont tous les termes sont égaux à 1/n, on obtient fina-
lement l’expression de la matrice Aa qui transforme les erreurs du modèles en les
résidus d’Amemyia :
Aa = (I J¯n ) I X(X > W X) 1

X >W
On a q̂w = e>a W ea = ✏Aa W Aa ✏ et q̂b = ea Bea = ✏Aa BAa ✏.

> > >
Comme W U = 0, tr(W ) = n N , tr(W X(X W X) 1 W > W ) = K l’espérance de

>
la première forme quadratique s’écrit simplement :
E(q̂w ) = (n N K) 2
⌫
Pour E(q̂b ), notons que les matrices ayant aux extrémités B ou J¯n d’un côté et W
de l’autre ont une trace nulle. On a donc :
E(q̂b ) = tr(B J¯n ) + tr W X(X > W X) 1

(B J¯n )X(X > W X) 1
X >W 2
⌫+ (B J¯n )U
Soit finalement :
X
E(q̂b ) = (N 1+tr (X > W X) 1
(X > BX) tr (X > W X) 1
(X > J¯n X) 2
⌫+ n T n2 /N
n
3.3.1 Application
Pour illustrer l’estimation d’un panel non cylindré, nous utilisons les données Ti-
leries qui concernent la production de carreaux en Egypte ; 25 entreprises sont
observées, le nombre d’observations variant entre 12 et 22.
> data("Tileries", package = "pder")
> head(Tileries, 3)
id week area output labor machine

1 2 1 fayoum 5.650487 4.532599 4.663439
2 2 2 fayoum 6.522328 5.347108 4.234107
3 2 3 fayoum 6.302619 4.969813 4.234107
> pdim(Tileries)
Unbalanced Panel: n=25, T=12-22, N=483
On estime une fonction de production Cobb-Douglass en spécifiant une équation

log-linéaire reliant la production (output) au travail (labor) et aux machines
(machine).
> tile.r <- plm(log(output)~log(labor)+log(machine), Tileries, model = "random")
bon
> summary(tile.r)

Call:
plm(formula = log(output) ~ log(labor) + log(machine), data = Tileries,
model = "random")
Effects:
var std.dev share
idiosyncratic 0.0026396 0.0513772 0.808
individual 0.0006269 0.0250375 0.192
theta :
0.4903 0.5741 0.5830 0.5785 0.5913 0.5992
Residuals :
-0.187000 -0.027300 0.003070 0.000007 0.033400 0.227000
Coefficients :
(Intercept) 0.278203 0.060791 4.5764 6.032e-06 ***
log(labor) 0.908630 0.030048 30.2390 < 2.2e-16 ***
log(machine) 0.023965 0.027062 0.8856 0.3763
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-Squared : 0.73206
Adj. R-Squared : 0.72751
Le paramètre de transformation est donc désormais spécifique à l’individu, ou

plus exactement au nombre d’observations disponibles pour chaque individu. On
constate ici que ✓ est compris entre 0.49 et 0.60.
3.4 L’estimateur du maximum de vraisemblance

Une alternative à l’estimateur des moindres carrés généralisés est l’estimateur du
maximum de vraisemblance. Contrairement au précédent, les paramètres ne sont
pas estimés de manière séquentielle (d’abord , puis ), mais simultanément. Afin
d’écrire la vraisemblance du modèle, la distribution des erreurs doit être parfai-
tement définie ; par rapport au modèle précédent, on ajoutera donc l’hypothèse
de distribution normale pour les deux composantes du terme d’erreur, l’effet in-
dividuel ⌘ et l’effet idiosyncratique ⌫. La vraisemblance est la densité jointe pour
l’ensemble de l’échantillon, qui correspond au produit des densité individuelle dans
le cas où les différentes observations ne sont pas corrélées. Ce n’est pas le cas ici,
plus précisément, les Tn observations correspondant à l’individu n sont corrélées

du fait de la présence de l’effet individuel. Le modèle à estimer s’écrit :
>
ynt = xn + ⌘n + ⌫nt
avec ⌘n ⇠ N (0, ⌘ ) and ⌫nt ⇠ N (0, ⌫ ). Pour une valeur donnée de l’effet indiviudel
⌘n , la densité pour ynt s’écrit :
✓ ◆2
ynt xnt ⌘n >
1 1
2 ⌫
f (ynt | ⌘n ) = p e
2⇡ ⌫
Pour une valeur donnée de ⌘, la distribution de yn = yn1 , . . . , ynT est celle d’un
vecteur de variables aléatoires indépendantes, la distribution jointe est donc sim-
plement le produit des densités individuelles :
✓ ◆ T2n P Tn 2
1 1
2 t=1 (ynt >
xnt ⌘n )
f (yn | ⌘n ) = 2
e 2 ⌫
2⇡ ⌫
La distribution non conditionnelle est obtenue en intégrant l’expression précédente
par rapport à ⌘ ; cela revient à calculer une moyenne de la densité pour l’ensemble
des valeurs possibles de ⌘ :
Z +1 ⇣ ⌘2 ✓ ◆ T2n Z +1
1 1 ⌘ 1 1 1
f (yn ) = q f (yn | ⌘n )e 2 ⌘ d⌘ = q e 2A d⌘
2⇡ 2
2⇡ 2 1 2⇡ 2 ⌫ 1
⌘ ⌘
avec, en notant ✏nt = ynt >

xnt and ✏¯n = ȳn >
xn :
T
!
X (✏nt ⌘)2 ⌘2 1 2 X
1n 2 2
A= 2
+ 2
= 2 2
⌘ 2Tn ✏¯n. ⌘ + ✏nt
t=1 ⌫ ⌘ ⌫ ⌘ t
✓ ◆2 !
1 1n ⌘ 1 X 2
⌘
A= 2
⌘ T ✏¯n. + 2
✏2nt Tn2 ✏¯2n. 2
⌫ ⌘ 1n ⌫ t 1n
En notant z le premier terme, on a dz =

2
⌫
1n
⌘
d⌘ et la densité jointe devient, en
notant n = 1n⌫
:
✓ ◆ T2n ✓ 2
◆
P ⌘
1 1
2 ⌫2 t ✏2nt Tn2 ✏¯2n. 2
f (yn ) = 2 ne 1n
2⇡ ⌫
Or :
X 2
⌘
X X 2
✏2nt Tn2 ē2n. 2 = ✏2nt Tn (1 2 2
n )¯
✏n. = (✏nt (1 n )¯
✏n. )
t 1n t t
et la densité jointe pour un individu s’écrit donc finalement :

✓ ◆ T2n P
1 1
2 t (✏nt (1 n )¯
✏n. ) 2
f (yn ) = 2 ne
2 ⌫
2⇡ ⌫
La contribution de l’individu n à la fonction de log de vraisemblance est simplement
le logarithme de cette densité jointe :
Tn Tn 2 1 2 1 X 2
ln Ln = ln 2⇡ ln ⌫ + ln n 2
(✏nt (1 n )¯
✏n. )
2 2 2 2 ⌫ t
Pour obtenir la fonction de log de vraisemblance, il ne reste qu’à sommer pour

tous les individus :
P P X
n Tn n Tn 2 1 2 1 XX 2
ln L = ln 2⇡ ln ⌫+ ln n 2
(✏nt (1 n )¯
✏n. )
2 2 2 n
2 ⌫ n t
ou, plus simplement, si le panel est cylindré :
NT NT 2 N 2 1 XX 2
ln L = ln 2⇡ ln ⌫ + ln 2
(✏nt (1 )¯
✏n. )
2 2 2 2 ⌫ n t
Notons également que :
XX 2
XX 2
X
(✏nt (1 )¯
✏n. ) = (✏nt ✏¯n. ) + 2
Tn ✏¯2n. = ✏> W ✏ + 2 >
✏ B✏
n t n t n
Les dérivées premières de la vraissemblance s’écrivent :

@ ln L 2 ⇣ ⇣ ⌘ ⌘
= 2
X ⇤ > y⇤ X ⇤>X ⇤ (3.4)
@ ⌫
@ ln L NT 1
= + 4 ✏> W ✏ + 2 >
✏ B✏ (3.5)
@ ⌫2 2 ⌫2 2 ⌫
@ ln L N ✏> B✏
2
= 2 (3.6)
@ 2 2 ⌫2
En résolvant 3.4, on obtient :
⇣ ⌘ 1
ˆ = X ⇤>X ⇤ X ⇤ > y⇤ (3.7)
L’estimateur de ⌫2 est simplement obtenue en utilisant 3.5 comme la variance

résiduelle du modèle estimé sur données transformées :
✏ˆ> W ✏ˆ + ˆ2 ✏ˆ> Bˆ
✏
ˆ⌫2 = (3.8)
NT
Enfin, le paramètre de transformation s’écrit, en utilisant (3.6) et (3.8) :
ˆ2 = ✏ˆ> W ✏ˆ
(3.9)
(T 1)ˆ ✏> Bˆ
✏
L’estimation peut être réalisée de manière itérative. Partant d’un estimateur de

(par exemple celui du modèle within), on calcule ˆ2 en utilisant la formule
donnée par 3.9. On transforme alors les données à l’aide de cet estimateur de 2
et on détermine une nouvelle estimation de en utilisant (3.7). On répète alors
les opérations précédentes jusqu’à ce que les estimateurs de et de 2 convergent.
On estime alors ⌫2 en utilisant (3.8).
L’estimateur du maximum de vraisemblance est disponible dans la librairie pglm.
La fonction pglm permet d’estimer un grand nombre de modèles de panel par la
méthode du maximum de vraisemblance. On doit spécifier la distribution supposée
des erreurs des modèles, ici normale en fixant l’argument family à "gaussian".
> library(pglm)
> rice.ml <- pglm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice, family = gaussian)
> summary(rice.ml)
--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -460.4513
6 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
(Intercept) 5.312540 0.203771 26.0712 < 2.2e-16 ***
log(seed) 0.219967 0.028330 7.7643 8.207e-15 ***
log(totlabor) 0.285483 0.031047 9.1953 < 2.2e-16 ***
log(size) 0.528012 0.032649 16.1725 < 2.2e-16 ***
sd.mu 0.119040 0.017129 6.9496 3.663e-12 ***
sd.eps 0.363663 0.008601 42.2816 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
On constate que les résultats sont très similaires à ceux obtenus avec les moindres
carrés généralisés. Les deux paramètres appelés "sd.eps" et "sd.mu" sont les
écarts-type estimés de la composante idiosyncratique de l’erreur et de l’effet indi-
viduel. Là aussi, les valeurs obtenues sont quasiment identiques à celles du modèle
des moindres carrés généralisés.
3.5 Système d’équations corrélées

3.5.1 Introduction
Très souvent en économie, le phénomène à étudier n’est pas décrit par une équation,
mais par un système d’équations. C’est en particulier le cas en micro-économie de la
consommation ou de la production. Par exemple, le comportement d’un producteur
sera caractérisé par une équation de coût, une équation de demande de travail et
une équation de demande de capital. Il est dans ce cas préférable de considérer le
système d’équations dans son intégralité pour deux raisons :
– tout d’abord, les termes d’erreur des différentes équations peuvent être corrélés
entre eux. Dans ce cas, même si l’estimation d’une équation isolée est conver-
gente, elle est inefficace car elle ne prend pas en compte la corrélation des erreurs ;
– ensuite, la théorie économique impose parfois des restrictions sur différents co-
efficients du système, par exemple l’égalité de deux coefficients appartenant à
deux équations différentes du système. Dans ce cas, ces restrictions doivent être
prises en compte en utilisant la méthode des moindres carrés contraints.
3.5.2 Les moindres carrés contraints

Les restrictions linéaires sur le vecteur de coefficients à estimer sont modélisés à
l’aide d’une matrice de restrictions R et d’un vecteur numérique q :
R =q
Par exemple, si la somme des deux premiers coefficients doit être égale à 1 et que
le premier et le troisième doivent être égaux, les restrictions s’écrivent :
0 1
✓ ◆ 1
✓ ◆
1 1 0 @ 2 A= 1
1 0 1 0
3
Pour calculer l’estimateur des mco contraints, on forme le lagrangien :
L = e> e + 2 >
(R q)
avec e = y X et le vecteur des multiplicateurs de Lagrange associées aux

différentes contraintes 2 . En développant, on obtient :
L = y> y 2 >
X >y + >
X > X + 2 (R q)
Les conditions de premier ordre s’écrivent :

⇢ @L
@ = 2X > y 2X > X + 2R> = 0
@L
@ = 2(R q) = 0
2. Ces multiplicateurs de Lagrange sont multipliés par deux pour simplifier les conditions de
premier ordre.
Soit encore, sous forme matricielle :

✓ > ◆✓ ◆ ✓ ◆
X X R> X >y
=
R 0 q
L’estimateur des moindres carrés contraints s’obtient en utilisant la formule de

l’inversion d’une matrice partitionnée.
✓ ◆ 1 ✓ ◆ ✓ ◆
A11 A12 B11 B12 A111 (I + A12 F2 A21 A111 ) A111 A12 F2
= =
A21 A22 B21 B22 F2 A21 A111 F2
1 1
avec F2 = A22 A21 A111 A12 et F1 = A11 A12 A221 A21 .
1
On a ici F2 = R(X X) R . L’estimateur contraint s’écrit alors : ˆc =
> 1 >
B11 X y + B12 q, avec B11 = (X X) 1 I R> (R(X > X) 1 R> ) 1 R(X > X) 1
> >
1
et B12 = (X > X) 1
R> R(X > X) 1
R>
1
L’estimateur non-contraint étant ˆnc = X > X X > y, on obtient finalement :
ˆc = ˆnc (X > X) 1
R> (R(X > X) 1
R> ) 1
(R ˆnc q)
L’écart entre les estimateurs contraints et non-contraints est donc une combinai-
son linéaire du solde des contraintes linéaire du modèle évaluées pour le modèle
contraint.
3.5.3 La prise en compte des corrélations inter-équations

On considère un système de L équations notées yl = Xl l + ✏l , avec l = 1 . . . L.
Sous forme matricielle, le système s’écrit :
0 1 0 10 1 0 1
y1 X1 0 . . . 0 1 ✏1
B y2 C B 0 X 2 . . . 0 C B C B ✏2 C
B C B CB 2 C B C
B .. C = B .. .. .. .. C B .. C + B .. C
@ . A @ . . . . A@ . A @ . A
yL 0 0 ... XL L ✏L
La matrice de covariance des erreurs du système s’écrit :

0 1
✏1 ✏>1 ✏1 ✏>2 ... ✏1 ✏>L
B ✏2 ✏> ✏2 ✏> ... ✏2 ✏> C
B 1 2 L C
⌦ = E(✏✏> ) = E B .. .. .. .. C
@ . . . . A
✏L ✏>
1 ✏L ✏>
2 ... ✏L ✏>
L
On supposera que les erreurs d’un même individu pour deux équations l et m sont
corrélées et que la covariance, notée lm , est constante. Dans ce cas, la matrice de
covariance s’écrit :
0 1
11 I 12 I ... 1L I
B 12 I 22 I ... 2L I
C
B C
⌦=B .. .. .. .. C
@ . . . . A
1L I 2L I ... LL I
Soit encore, en notant ⌃ la matrice de covariance inter-équations :

0 1
11 12 ... 1L
B 12 ... C
B 22 2L C
⌃=B . .. .. .. C
@ .. . . . A
1L 2L ... LL
⌦=⌃⌦I
Du fait de la corrélation inter-équations, l’estimateur efficace est celui des moindres

1
carrés généralisés, qui s’écrit : ˆ = X⌦ 1 X X > ⌦ 1 y. Cet estimateur, déve-
loppé par Zellner (1962) est connu par l’acronyme sur pour seemingly unrelated
regression.
Il peut être obtenu en appliquant l’estimateur des moindres carrés ordinaires sur
les données transformées en pré-multipliant chaque variable par la matrice ⌦ 0.5 .
Du fait de la structure d’⌦, cette matrice s’écrit simplement : ⌦ 0.5 = ⌃ 0.5 ⌦I. En
notant rlm les éléments de ⌃ 0.5 , la variable expliquée et les variables explicatives
transformées sont :
0 1 0 1
r11 y1 + r12 y2 + . . . + r1L yL r11 X1 r12 X2 ... r1L XL
B r21 y1 + r22 y2 + . . . + r2L yL C B r21 X1 r22 X2 ... r2L XL C
B C B C
y⇤ = B .. C et X ⇤ = B .. .. .. .. C
@ . A @ . . . . A
rL1 y1 + rL2 y2 + . . . + rLL yL rL1 X1 rL2 X2 ... rLL XL
Dans les faits, ⌃ est une matrice de paramètres inconnus. Ceux-ci peuvent être es-
timés en utilisant les résidus d’une estimation convergente, mais inefficace, comme
celle des moindres carrés ordinaires. On obtient alors l’estimateur en suivant les
étapes suivantes :
– tout d’abord, on estime chaque équation séparément par les mco et on note
E = (e1 , e2 , . . . , eL ) la matrice de dimension N ⇥ N dont chaque colonne est le
vecteur de résidus d’une des équations du système,
– ensuite, on estime la matrice de covariance des erreurs : ⌃ ˆ = E > E/N ,
– on calcule la matrice ⌃ ˆ 0.5
et on l’utilise pour transformer les variables du
modèle y ⇤ et X ⇤ ,
– enfin, on estime le modèle par les moindres carrés sur les variables transformées.
3.5.4 Données de panel

L’application du modèle sur aux données de panel ne pose pas de difficultés par-
ticulières dans le cas où seule la variation between ou within des données est prise
en compte. Dans ce cas, il suffit simplement d’appliquer les formules précédentes
en utilisant les variables en moyennes individuelles (between-sur) ou en écart par
rapport aux moyennes individuelles (within-sur). La prise en compte des deux di-
mensions de la variabilité des données demande davantage d’attention et conduit
au modèle sur à erreurs composées proposé par Avery (1977) et Baltagi (1980).
Les erreurs du modèles présentent alors deux sources de corrélation :
– la corrélation prise en compte dans le modèle sur, c’est-à-dire les corrélations
inter-équations,
– la corrélation prise en compte dans le modèle à erreurs composées, c’est-à-dire
les corrélations intra-individuelles.
Chaque observation est maintenant caractérisée par trois indices : zlnt représente
l’observation de z pour la lième équation, le nième individu à la tième période.
Les observations sont rangées d’abord par équation, puis par individu. En notant
ième équation et le nième
ln = (✏ln1 , ✏ln2 , . . . , ✏lnT ) le vecteur d’erreurs pour la l
✏> > > >
individu, on obtient :
E(✏ln ✏>
mn ) = ⌫lm IT + ⌘lm JT
L’absence de corrélation entre erreurs associées à des individus différents implique

la matrice suivante de corrélation pour deux équations et pour l’ensemble des
individus :
E(✏l ✏>
m ) = IN ⌦ ( ⌫lm IT + ⌘lm JT )
= ⌫lm IN T + ⌘lm IN ⌦ JT
= ⌫lm (W + B) + T ⌘lm B
= ⌫lm W + ( ⌫lm + T ⌘lm )B
= ⌫lm W + 1lm B
Finalement, pour l’ensemble du système d’équations, on obtient, en notant ⌃⌫ et

⌃1 les deux matrices de dimensions L ⇥ L contenant les paramètres ⌫lm et 1lm ,
la matrice de covariance des erreurs suivantes :
⌦ = ⌃⌫ ⌦ W + ⌃1 ⌦ B
Le modèle sur à erreurs composées peut être obtenu en appliquant les moindres
carrés ordinaires sur les données transformées en pré-multipliant chaque variable
par ⌦ 0.5 . Cette matrice s’écrit :
⌦ 0.5
= ⌃⌫ 0.5 ⌦ W + ⌃1 0.5 ⌦ B (3.10)
et peut être estimée en utilisant les décompositions de Cholesky de ⌃⌫ 1 et de ⌃1 1

(voir Kinal & Lahiri, 1990).
Les deux matrices de covariance des erreurs étant inconnues, l’estimateur sur à
erreurs composées est obtenu en suivant les étapes suivantes :
– tout d’abord, on estime chaque équation séparément en utilisant une méthode

d’estimation convergente (les moindres carrés ordinaires par exemple) et on note
W E la matrice des résidus en écart par rapport à la moyenne individuelle et
BE la matrice des moyennes individuelles des résidus,
– ensuite, on estime les matrices de covariance des erreurs. A cet effet, on peut
étendre aux systèmes d’équations les méthodes d’estimations des variances utili-
sées dans le cas de l’estimation d’équations isolées. Par exemple, Baltagi (1980)
a utilisé la méthode proposé par Amemiya (1971) alors qu’Avery (1977) a choisi
celle de Swamy & Arora (1972). En notant E la matrice de résidus des moindres
carrés ordinaires, on obtient : ⌃ˆ ⌫ = (W E)> (W E)/(N (T 1)) et ⌃ ˆ 1 = (BE)> (BE)/(N
1),
– on calcule les matrices ⌃ ˆ ⌫ 0.5 et ⌃
ˆ 0.5 et on obtient ainsi une estimation de ??
1
qui est utilisée pour obtenir les variables transformées y ⇤ et X ⇤ ,
– enfin, on estime le modèle par les moindres carrés sur les variables transformées.
3.5.5 Application
Une application classique du modèle sur est l’analyse des coûts de production.
La fonction de coût indique le coût minimum de production C compte tenu du
vecteur de prix des K facteurs de production p> = (p1 , p2 , . . . , pK ) et du niveau
de production q. La fonction de coût minimum s’écrit C(p, q). Elle vérifie plusieurs
propriétés :
– elle est homogène de degré 1 par rapport aux prix des facteurs : C( p, q) =
C(p, q),
– les fonctions de demande de facteurs de production sont obtenues par dérivation
du coût minimum par rapport aux prix des facteurs 3 , il s’agit donc du gradient
de la fonction de coût : @C
@p (p, q) = x(p, q)
@2C @2C
– la matrice hessienne de la fonction de coût est symétrique : @pi @p>
= @pi @p>
.
j j
La forme fonctionelle la plus souvent retenue pour la fonction de coût minimum
est la fonction translog, définie par :
PK
ln C(p, q) = 0 + q ln q + i=1 i ln pi
PK PK
+ 0.5 qq ln2 q + 0.5 i=1 j=1 ij ln pi ln pj
Imposer l’homogénéité de degré 1 par rapport au prix revient à considérer le coût

total et les prix de facteur en les divisant par un des prix (le premier par exemple) :
PK
ln pC1 (p, q) = 0 + q ln q + i=2 i ln pp1i
PK PK p
+ 0.5 qq ln2 q + 0.5 i=2 j=2 ij ln pp1i ln p1j
@C pi pi xi
Le lemme de shepard implique que : @@ ln pi = @pi C = C = si , c’est-à-dire que la
ln C
dérivée logarithmique du coût par rapport à un prix est égale à la part du facteur
3. Ce résultat est connu sous le nom de lemme de Shephard.
dans le coût. La part du facteur j est donc :

K
X
@ ln C pj pi
sj = = j + jj ln + ij ln
@ ln pj p1 p1
i=2&i6=j
Il est d’usage de rapporter chaque prix et la production à la moyenne de l’échan-

tillon ; dans ce cas ln q et ln pi sont nuls à la moyenne de l’échantillon, ce qui donne
un sens intuitif aux coefficients de premier ordre. q est en effet l’élasticité du coût
par rapport à la production à la moyenne de l’échantillon et i la part du facteur
i dans le coût de production à la moyenne de l’échantillon.
Les données utilisées concernent le coût de production de 10 producteurs d’électri-
cité du Texas pour 18 ans (de 1966 à 1983). Elles ont été utilisées par Kumbhakar
(1996), Horrace & Schmidt (1996) et Horrace & Schmidt (2000). Trois facteurs de
production sont utilisés, le carburant, le travail et le capital. Pour chaque facteur,
on dispose des prix unitaires (pfuel, plab et pcap) et des dépenses (expfuel,
explab et expcap).
On commence par caluler les prix en logarithmes, en les divisant par la moyenne
de l’échantillon et en les divisant également par un des prix, par exemple le prix
du carburant :
> data("TexasElectr", package = "pder")
> TexasElectr$pf <- with(TexasElectr, log(pfuel / mean(pfuel)))
> TexasElectr$pl <- with(TexasElectr, log(plab / mean(plab)) - pf)
> TexasElectr$pk <- with(TexasElectr, log(pcap / mean(pcap)) - pf)
à sa moyenne pour l’échantillon :

> TexasElectr$q <- with(TexasElectr, log(output / mean(output)))
On calcule ensuite le coût total de production en sommant les dépenses pour les
trois facteurs, puis les parts de facteurs et enfin on mesure le coût en logarithme
en le divisant par sa moyenne de l’échantillon et par le prix de référence.
> TexasElectr$C <- with(TexasElectr, expfuel + explab + expcap)
> TexasElectr$sl <- with(TexasElectr, explab / C)
> TexasElectr$sk <- with(TexasElectr, expcap / C)
> TexasElectr$C <- with(TexasElectr, log(C / mean(C)) - pf)
On calcule enfin les carrés et les effets intéractifs des différentes variables.
> TexasElectr$pll <- with(TexasElectr, 1/2 * pl ^ 2)
> TexasElectr$plk <- with(TexasElectr, pl * pk)
> TexasElectr$pkk <- with(TexasElectr, 1/2 * pk ^ 2)
> TexasElectr$qq <- with(TexasElectr, 1/2 * q ^ 2)
On définit les trois équations du système, une pour le coût total et les deux autres
pour les parts de facteur 4 .
4. La part du facteur carburant est omise car, les trois parts se sommant à 1, l’introduire dans
le système génèrerait une colinéarité parfaite.
> cost <- C ~ pl + pk + q + pll + plk + pkk + qq

> shlab <- sl ~ pl + pk
> shcap <- sk ~ pl + pk
Les parts de facteur étant dérivées de la fonction de coût, les restrictions suivantes
doivent être imposées :
– le coefficient de pl dans l’équation de coût doit être égal à la constante de
l’équation de part de travail,
– le coefficient de pk dans l’équation de coût doit être égal à la constante de
l’équation de part de capital,
– le coefficient de pll dans l’équation de coût doit être égal au coefficient associé
à pl dans l’équation de part de travail,
– le coefficient de pkk dans l’équation de coût doit être égal au coefficient associé
à pk dans l’équation de part de capital,
– le coefficient de plk dans l’équation de coût doit être égal au coefficient associé
à pk dans l’équation de part de travail et à celui associé à pl dans celle de part
de capital,
Ces restrictions (au nombre de 7) sont définie à l’aide de la matrice R ci-dessous :
> R <- matrix(0, nrow = 6, ncol = 14)
> R[1, 2] <- R[2, 3] <- R[3, 5] <- R[4, 6] <- R[5, 6] <- R[6, 7] <- 1
> R[1, 9] <- R[2, 12] <- R[3, 10] <- R[4, 11] <- R[5, 13] <- R[6, 14] <- -1
La première ligne de la matrice indique par exemple que le deuxième coefficient

(celui associé à pl dans l’équation de coût doit être égal au neuvième (la constante
dans l’équation de part de travail).
Le modèle sur est estimé en indiquant en premier argument de plm une liste de
formules qui décrivent le système d’équations à estimer. Les différentes formules de
cette liste peuvent être nommées, ce qui permet de clarifier l’affichage des résultats.
L’argument model est fixé à "random" de manière à estimer le modè le sur à
erreurs composées. Enfin, les arguments restrict.matrix et restrict.rhs permettent
d’indiquer la matrice R et le vecteur q qui définit les contraintes linéaires du
modèle. Dans le cas où tous les éléments du vecteur q sont nuls, ce qui est le cas
ici, l’argument restrict.rhs peut être omis.
> z <- plm(list(cost = C ~ pl + pk + q + pll + plk + pkk + qq,
+ shlab = sl ~ pl + pk,
+ shcap = sk ~ pl + pk),
+ TexasElectr, model = "random",
+ restrict.matrix = R)
> summary(z)

Call:
plm.list(formula = list(cost = C ~ pl + pk + q + pll + plk +
pkk + qq, shlab = sl ~ pl + pk, shcap = sk ~ pl + pk), data = TexasElectr,
model = "random", restrict.matrix = R)
Effects:
Estimated standard deviations of the error

cost shlab shcap
id 0.23813 0.024350 0.078911
idios 0.17413 0.056133 0.078592
Estimated correlation matrix of the individual effects

cost shlab shcap
cost 1.00000 . .
shlab -0.27381 1.00000 .
shcap -0.53206 0.71985 1
Estimated correlation matrix of the idiosyncratic effects

cost shlab shcap
cost 1.00000 . .
shlab -0.47376 1.00000 .
shcap -0.69301 0.91543 1
- cost
(Intercept) -0.4889327 0.0726261 -6.7322 4.385e-11 ***
pl 0.2238329 0.0074131 30.1943 < 2.2e-16 ***
pk 0.5935533 0.0201037 29.5246 < 2.2e-16 ***
q 1.2524625 0.0288140 43.4672 < 2.2e-16 ***
pll 0.0845448 0.0075629 11.1789 < 2.2e-16 ***
plk -0.0877305 0.0076570 -11.4576 < 2.2e-16 ***
pkk 0.0869210 0.0090932 9.5589 < 2.2e-16 ***
qq 0.0690853 0.0314857 2.1942 0.02866 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- shlab
(Intercept) 0.2238329 0.0074131 30.194 < 2.2e-16 ***
pl 0.0845448 0.0075629 11.179 < 2.2e-16 ***
pk -0.0877305 0.0076570 -11.458 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- shcap
(Intercept) 0.5935533 0.0201037 29.5246 < 2.2e-16 ***
pl -0.0877305 0.0076570 -11.4576 < 2.2e-16 ***
pk 0.0869210 0.0090932 9.5589 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Chapitre 4
Tests sur le modèle à erreurs

composées
4.1 Tests d’effets individuels et/ou d’effets tempo-

rels
Afin de tester la présence d’effets individuels et/ou temporels, deux approches sont
possibles :
– la première est de partir du modèle qui estime ces effets (modèle within) et de
réaliser un test d’hypothèse jointe que l’ensemble de ces coefficients estimés sont
nuls,
– le second est de partir du modèle des moindres carrés ordinaires et d’inférer sur
l’existence des effets à partir des caractéristiques des résidus de cette estimation.
4.1.1 Tests de F
Le
P modèle
P w 2within est caractérisé par une somme des carrés des résidus : SCR =
w
n t ent et le nombre de degrés de liberté est de N (T 1) K, où K est

le nombre de variables explicatives. On pose comme hypothèse nulle l’absence
d’effets individuels. Le modèle contraint est donc le modèle des moindres carrés
ordinairess, dont la somme des carrés des résidus et le nombre de degrés de liberté
P P 2
s’écrivent respectivement : SCRp = n t eP nt et N T K 1. Si H0 est vraie,
on a alors la statistique :
SCRP SCRW N T K 1
SCRw N 1
qui suit un F de Fisher Snedecor avec N 1 et N T K 1 degrés de liberté.
4.1.2 Tests de Breush-Pagan

Le test de Breusch & Pagan (1980) est un test de multiplicateur de Lagrange, basé
sur les résidus des moindres carrés ordinaires.
Le test de multiplicateur de Lagrange est basé sur le vecteur de scores g(✓) = @ @✓
ln L
,
c’est-à-dire de dérivées de la fonction de log de vraisemblance, évalué pour un
modèle contraint. La variance du vecteur de score est donné par :
✓ ◆
@ ln L
H(✓) = E (✓)
@✓@✓>
On estime un modèle contraint caractérisé par un vecteur de paramètres ✓ˆ ; on a
alors, si les hypothèses sous jacentes sont vraies :
ˆ ⇠ N (0, H(✓))
g(✓) ˆ
Soit encore, en notant ĝ et Ĥ le score et sa variance évalués pour le modèle

contraint :
ĝ > Ĥ 1
ĝ
qui suit un 2 dont le nombre de degrés de liberté est égal au nombre d’hypothèses
imposées dans le cadre du modèle contraint.
Dans le cas du modèle à effets individuels, on rappelle que la vraisemblance s’écrit,
2
en notant 2 = T 2 +⌫
2 :
µ ⌫
NT N (T 1) 2 N 2 2 1 XX 2
ln L = ln 2⇡ ln ⌫+ ln(T µ+ ⌫ ) 2
(ent (1 )ēn. )
2 2 2 2 ⌫ n t
Le gradient est donc :

@ ln L
! N (T 1) N w
SSRb
!
@ ⌫2 2 ⌫2 2 12
+ SSR
2 ⌫4 + 2 14
g(✓) = @ ln L = NT b
@ µ2
2 12
+ T SSR
2 14
Pour calculer la variance, on commence par calculer la matrice de dérivées se-

condes :
N (T 1) SSRw SSRb T SSRb
!
@ ln L 2 ⌫4 + N4 6 6
NT
2 4 6
= T SSRb
1 ⌫ 1 1
NT 2
1
T 2 SSRb NT 2
@✓@✓> NT
2 4 6 2 4 6 2 4
1 1 1 1 1
En prenant l’opposé de l’espérance de cette matrice, on obtient l’expression de la

variance. Pour cela, on note que E(SSRw ) = N (T 1) ⌫2 et E(SSRb ) = N 12 :
N (T 1) N NT
!
2 4 2 4 2 14
H(✓) = ⌫
NT
1
NT 2
2 14 2 14
Chapitre 4. Tests sur le modele a erreurs composees 63
Pour calculer la statistique, on pose l’hypohèse : H0 : µ2 = 0 (absence d’effets indi-

viduels). Dans ce cas, l’estimateur est l’estimateur des moindres carrés ordinaires
et l’estimateur de ˆ⌫2 = SSRp /N T . Le score et sa variance s’écrivent alors :
!
⇣ 0 ⌘
ˆ =
g(✓) NT T SSRb
2ˆ⌫2 1 2
⌫
✓ ◆
ˆ NT 1 1
H(✓) =
2ˆ⌫4 1 T
Dont l’inverse est :
✓ ◆
ˆ 1 2ˆ⌫4 T 1
H(✓) =
N T (T 1) 1 1
La statistique calculée s’écrit donc finalement :
✓ ✓ ◆◆2 ✓ ◆ ✓ ◆2
NT T SSRb 2ˆ⌫4 NT T SSRb
BP = 1 ⇥ = 1
2ˆ⌫2 2
⌫ N T (T 1) 2(T 1) SSRp
qui suit asymptotiquement un 2 à 1 degré de libreté.
Le problème de cette statistique est que l’hypothèse alternative stipule que la
variance des effets individuels est non-nulle, c’est-à-dire qu’elle peut être positive ou
négative ; or une variance est nécessairement non négative. Une solution proposée
par Honda (1985) consiste à considérer la racine carrée de la statistique précédente
p
et de réaliser un test unilatéral en utilisant une loi normale. On a donc H = BP
et la valeur critique au seuil de 5% à considérer est alors de 1.64.
4.1.3 Application
Le test de F est disponible avec la fonction pFtest . Il prend comme argument deux
modèles emboîté et réalise un test d’hypothèses jointes pour les effets individuels
estimés dans un seul des modèles. Par exemple, le test d’absence d’effets individuels
peut être réalisé en utilisant le modèle pooling et le modèle within avec effets
individuels.
> pFtest(rice.w, rice.p)
F test for individual effects
data: log(goutput) ~ log(seed) + log(totlabor) + log(size)

F = 1.6623, df1 = 170, df2 = 852, p-value = 2.786e-06
alternative hypothesis: significant effects
On constate sans surprise que l’hypothèse d’absence d’effets individuels est très
fortement rejetée.
Pour tester l’hypothèse d’absence d’effets individuels et temporels, on utilisera :
> pFtest(rice.wd, rice.p)
F test for twoways effects

F = 4.2604, df1 = 175, df2 = 847, p-value < 2.2e-16
Pour tester l’hypothèse d’absence d’effets temporels, mais en supposant qu’il y a

des effets individuels, on compare le modèle within individuel et le modèle double
within :
> pFtest(rice.wd, rice.w)
F test for twoways effects

F = 69.7794, df1 = 5, df2 = 847, p-value < 2.2e-16
Là encore, l’hypothèse est très fortement rejetée.

Le test de Breusch & Pagan (1980) est obtenu en utilisant la fonction plmtest .
L’argument de cette fonction est un modèle estimé par les moindres carrés ordi-
naires, mais on peut également fournir une formule et un tableau de données. Par
défaut, la version de Honda (1985) est calculée. Le type d’effets que l’on souhaite
tester est comme d’habitude renseigné par l’argument effect :
> plmtest(rice.p)
Lagrange Multiplier Test - (Honda)

normal = 4.8396, p-value = 1.301e-06
> plmtest(log(goutput)~log(seed)+log(totlabor)+log(size), Rice)
Lagrange Multiplier Test - (Honda)

normal = 4.8396, p-value = 1.301e-06
> plmtest(rice.p, effect = "time")

Lagrange Multiplier Test - time effects (Honda)

normal = 58.6822, p-value < 2.2e-16
> plmtest(rice.p, effect = "twoways")
Lagrange Multiplier Test - two-ways effects (Honda)

normal = 44.9166, p-value < 2.2e-16
4.2 Modèle à erreurs composées vs modèles à co-

efficients variables
Le modèle à erreurs composées impose que tous les paramètres du modèle (à
l’exception de l’ordonnée à l’origine) sont les mêmes d’un individu à un autre.
Dans ce cas, on peut estimer un seul modèle pour l’ensemble de l’échantillon, avec
éventuellement des constantes spécifiques. L’alternative est de considérer que le
modèle à appliquer à chaque individu est spécifique, c’est-à-dire que des paramètres
spécifiques à chaque individu doivent être estimés. On parle alors de modèles à
coefficients variables.
Dans ce cadre, le modèle non-contraint consiste à estimer un modèle différent pour
chaque individu par les moindres carrés ordinaires. On obtient alors SCRnp =
e>1 e1 + e2 e2 + . . . en en . Pour ce modèle, le nombre de degrés de liberté est :
> >
N (T K 1). Le modèle contraint est soit le modèle des moindres carrés ordinaires
(SCRP avec N T K 1 degrés de liberté), soit le modèle within (SCRw avec
N (T 1) K degrés de liberté), suivant que l’on suppose ou non l’absence d’effets
indiviuels. La statistique de test s’écrit alors (en utilisant le modèle within comme
modèle non-contraint) :
SCRP SCRw N (T K 1)
SCRw (N 1)K
Il s’agit d’un test de stabilité (appelé souvent test de Chow) dont la distribution
est un F à (N 1)K et N (T K 1) degrés de liberté sous H0 .
La fonction permettant de réaliser ce test est appelée pooltest . La première ma-
nière d’utiliser cette fonction est de lui fournir deux modèles : un modèle où l’es-
timation est réalisée individu par individu et un modèle soit de moindres carrés
ordinaires, soit un modèle within. Dans le premier cas, sous H0 , tous les paramètres
sont supposées être identiques, y compris les constantes. Le modèle non contraint
est estimé à l’aide de la fonction pvcm (pour variable coefficients model). Cette
fonction permet d’estimer deux modèles suivant la valeur du paramètre mode ;

la valeur appropriée ici est "within", l’autre modèle ferra l’objet de la section
suivante. Pour le tableau de données USAirlines , on obtient :
> air.np <- pvcm(log(cost)~log(output), Air, model="within")
La fonction pvcm dispose de méthodes print et summary permettant d’analyser

la dispersion des coefficients estimés pour chaque individu :
> air.np
Model Formula: log(cost) ~ log(output)

<environment: 0x29a8530>
Coefficients:
(Intercept) log(output)
1 14.021 2.0498
2 14.437 1.9510
3 15.175 1.9765
4 15.788 1.6218
5 15.617 1.4235
6 15.521 1.2994
> summary(air.np)
Oneway (individual) effect No-pooling model
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "within")
Residuals:
-0.384100 -0.106600 0.003459 0.000000 0.088070 0.334500
Coefficients:
Min. :14.02 Min. :1.299
1st Qu.:14.62 1st Qu.:1.473
Median :15.35 Median :1.786
Mean :15.09 Mean :1.720
3rd Qu.:15.59 3rd Qu.:1.970
Max. :15.79 Max. :2.050

Multiple R-Squared: 0.9998
Le test de stabilité peut alors être réalisé en passant à la fonction de test air.np
et air.pooling ou air.within selon que l’on souhaite ou non poser sous H0
l’hypothèse d’absence d’effets individuels.
> pooltest(air.pooling, air.np)
F statistic
data: log(cost) ~ log(output)

F = 33.139, df1 = 10, df2 = 78, p-value < 2.2e-16
alternative hypothesis: unstability
> pooltest(air.within, air.np)
F statistic

F = 8.3319, df1 = 5, df2 = 78, p-value = 2.388e-06
alternative hypothesis: unstability
L’hypothèse de stabilité est très fortement rejetée, même dans sa version la plus
faible (constantes spécifiques). Les mêmes tests peuvent être réalisés avec une in-
terface formula-data, en précisant grâce à l’argument model quel modèle contraint
doit être utilisé.
> pooltest(log(cost)~log(output), Air, model = "within")
> pooltest(log(cost)~log(output), Air, model = "within")
4.2.1 Modèles à coefficients variables

Swamy (1970) a proposé un modèle dans lequel tous les coefficients du modèle
sont propres à l’individu. On a alors :
>
ynt = n xnt + ⌫nt
On ferra l’hypothèse que ⌫nt ⇠ N (0, ⌫2 ), autrement dit nous ne faisons pas l’hy-
pothèse d’homoscédasticité dans ce modèle. On supposera également que n ⇠
N ( , ), soit encore n = n ⇠ N (0, ). Le modèle se réécrit alors :
>
ynt = xnt + ✏nt
avec ✏nt = ⌫nt + n> xnt . Les erreurs du modèles sont donc hétéroscédastiques
(en particulier parce que nous n’avons pas imposé l’homoscédasticité de ⌫) et les
erreurs d’un même individu sont corrélées car elles contiennent le même vecteur
de paramètres n . Pour un individu n, la matrice de variance des erreurs s’écrit
donc :
⌦n = E(✏n ✏>
n ) = E (⌫n + Xn n) ⌫n> + > >
n Xn
⌫ et étant par hypothèse non corrélés, on obtient :

⌦n = E(✏n ✏>
n) =
2
n IT + Xn Xn>
Pour l’ensemble de l’échantillon, ⌦ = E(✏✏> ) est une matrice bloc-diagonale,

chaque bloc ayant comme expression ⌦n .
L’estimation de ce modèle par les moindres carrés ordinaires est inefficace car
elle ne prend pas en compte l’hétéroscédasticité et la corrélation des erreurs. La
méthode des moindres carrés généralisés consiste à calculer ⌦ 0.5 et à estimer
le modèle par la méthode des moindres carrés ordinaires en prémultipliant les
variables par ⌦ 0.5 . Cette matrice étant bloc-diagonale, on peut également calculer
⌦n 0.5 et pré-multiplier les variables pour l’individu n par ⌦n 0.5 . Bien évidemment
⌦n étant inconnu, le modèle des moindres carrés généralisés n’est pas opérationnel.
En revanche, on peut utiliser la méthodes des moindres carrés quasi-généralisés
en remplaçant ⌦ 0.5 par une estimation basée sur les résultat d’une estimation
convergente du modèle. Cela revient ici à estimer les N n2 et les éléments de la
matrice , soit au total N + K(K + 1)/2 paramètres.
A cet effet, on commence par estimer par les moindres carrés ordinaires le modèle
pour chaque individu. On obtient alors :
ˆn = (X > Xn ) 1
Xn> yn = n + (Xn> Xn ) 1
Xn ⌫ n
n
Un estimateur naturel de 2
n est alors :
T
X
ˆn2 = e2nt /(T K 1)
t
Une fois ces estimations obtenues, on peut également calculer leur moyenne :
XN
ˆ= 1
¯ ˆn
N n=1
L’estimation de est basée sur l’expression :
¯
zn = ˆn ˆ
qui s’écrit, en développant et en regroupant les termes :
PN
zn = >
n + (Xn Xn ) Xn ⌫n N1 n=1 nP+ (Xn> Xn ) 1 X
1 >
P
>
n ⌫n
N 1 N 1 > 1 > 1 1 > >
= N n + N (Xn Xn ) Xn ⌫n N m6=n m N m6=n (Xm Xm ) 1 Xm ⌫m
L’intérêt de cette dernière expression est d’écrire zn comme une combinaison li-
néaire de différentes variables aléatoires non corrélées. Le calcul de la variance de
z en est largement simplifié car les covariances sont toutes nulles. On a alors :
✓ ◆2 ✓ ◆2
N 1 N 1 > 1 N 1 1 X >
E(zn2 ) = + 2
n (Xn Xn ) + + 2
m (Xm Xm )
1
N N N2 N2
m6=n
Soit finalement, en regroupant les termes :

N 1 N 2 > 1 X >
E(zn2 ) = + 2
n (Xn Xn )
1
+ 2
n (Xn Xn )
1
N N N2 n
On a alors :
P P P
E 2
n zn = (N 1) + N 2
N Pn
2 >
n (Xn Xn )
1
+ 1
N n
2 >
n (Xn Xn )
1
N 1 2 > 1
= (N 1) + N n n (Xn Xn )
!
1 X 1 X >
E zn2 = + 2
n (Xn Xn )
1
N 1 n
N n
Ce qui permet d’obtenir l’estimateur de :
1 X 1 X
ˆ = zn2 2 >
n (Xn Xn )
1
N 1 n
N n
Le modèle de Swamy (1970) est estimé avec la fonction pvcm et l’argument model
égal à "random".
> summary(pvcm(log(cost)~log(output), Air, model="random"))
Oneway (individual) effect Random coefficients model
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "random")
Residuals:
id time
0.95300854 0.01073151
Estimated mean of the coefficients:

Estimate Std. Error z-value Pr(>|z|)
(Intercept) 15.03427 0.28734 52.322 < 2.2e-16 ***
log(output) 1.65227 0.12350 13.379 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estimated variance of the coefficients:

(Intercept) 0.48610 -0.189126

log(output) -0.18913 0.080597

Multiple R-Squared: 0.99209
On constate que la dispersion du coefficient associé à la production est très impor-

tante. Elle correspond à un écart-type de de 0.28, la valeur moyenne du coefficient
étant de 1.65.
4.3 Modèle à effet fixe vs modèle à effets aléatoires

On a vu que, si les erreurs du modèles ne sont pas corrélées aux variables ex-
plicatives, les deux modèles sont convergents. Pour comparer les deux modèles,
on continuera de supposer que la composante idiosyncratique du terme d’erreur
(E(X > ⌫) = 0) est non corrélée avec les variables explicatives. Deux situations
peuvent alors être distinguées :
– E(X > µ) = 0 : les effets individuels ne sont pas non plus corrélés avec les variables
explicatives ; dans ce cas, les deux modèles sont convergents, mais le modèle à
effets aléatoires est plus efficace que le modèle à effets fixes.
– E(X > µ) 6= 0 : les effets individuels sont corrélés avec les variables explicatives ;
dans ce cas, le modèle à effet fixe est convergent car les effets individuels sont
des paramètres estimés. En revanche, le modèle à effets aléatoires n’est pas
convergent car une composante des erreurs de ce modèle sont les effets indivi-
duels qui sont corrélés avec la variable explicative.
Afin de clarifier la relation entre les deux modèles, Mundlak (1978) a considéré le
modèle suivant :
ynt = x>
nt + µn + ⌫nt
avec
µn = x̂n. ⇡n + ⌘n
Autrement dit, les effets individuels sont corrélés avec les variables explicatives,
plus précisément, ils sont égaux à la somme d’une combinaison linéaire des moyennes
individuelles de ces variables explicatives et d’un terme d’erreur ⌘n . Le modèle à
estimer s’écrit alors, sous forme matricielle :
y = X + BX⇡ + (IN ⌦ JT )⌘ + ⌫
Le terme d’erreur ✏ = (IN ⌦ JT )⌘ + ⌫ a les caractéristiques habituelles du modèle
à erreurs composées, c’est-à-dire une espérance nulle et une variance donnée par :
2 2 2 2
⌫⌦ = ⌫ IN T + ⌘ ((IN ⌦ JT ) = ⌫W + 1B
Le modèle des moindres carrés généralisés consiste à estimer le modèle sur les
données transformées en pré-multipliant chaque variable par ⌦ 0.5 = W + ⌫1 B
On a alors y ⇤ = W y + ✓By, X ⇤ = W X + ✓BX et (BX)⇤ = ✓BX. L’estimateur
des moindres carrés généralisés s’écrit alors :
✓ ◆ ✓ ◆ 1 ✓ ◆
ˆ X > W + ✓X > B X > W + ✓X > B
= W X + ✓BX ✓BX (W y+✓B
⇡
ˆ ✓X > B ✓X > B
✓ ◆  1 ✓ ◆
ˆ X > W X + ✓2 X > BX ✓2 X > BX X > W y + ✓2 X > By
=
⇡
ˆ ✓2 X > BX ✓2 X > BX ✓2 X > By
Afin d’obtenir l’expression de ˆ, on utilise le résultat suivant concernant l’inverse

d’une matrice partitionnée :
 1 
A11 A12 (A11 A12 A221 A21 ) 1 A111 A12 (A22 A21 A111 A12 ) 1
=
A21 A22 (A22 A21 A111 A12 ) 1 A21 A111 (A22 A21 A111 A12 ) 1
On obtient finalement :
✓ ◆  ✓ ◆
ˆ (X > W X) 1 (X > W X) 1 X > W y + ✓2 X > By
=
⇡
ˆ (X > W X) 1 (X W X) 1 + ✓12 (X > BX)
> 1
✓2 X > By
✓ ◆ ✓ ◆ ✓ ◆
ˆ (X > W X) 1 X > W y ˆw
= =
⇡
ˆ (X BX) 1 X > By (X > W X)
> 1
X >W y ˆb ˆw
et
✓ ◆ ✓ ◆
ˆ (X > W X) 1 (X > W X) 1
V = 2
⇡
ˆ ⌫
(X > W X) 1 (X W X) 1 + ✓12 (X > BX)
> 1
Le résultat fondamental de Mundlak (1978) est donc que si on prend correctement

en compte la corrélation entre les termes d’erreurs et les variables explicatives,
le modèle des moindres carrés généralisés est le modèle à effets fixes. Il donne
également une piste pour tester la présence de corrélation ; en effet, l’absence de
corrélation revient à tester : H0 : ⇡ = 0. Sous H0 , on a :
ˆ > V̂ (ˆ
⇡ ⇡) 1
⇡
ˆ
qui suit un 2 à K degrés de liberté. Or, on a ⇡ˆ = ˆb ˆw et V(ˆ ⇡ ) = V( ˆw )+V( ˆb

Cette statistique de test est une des version du test proposé par Hausman (1978).
Le principe général de ce test consiste à comparer deux modèles A et B avec,
– sous H0 : A et B sont convergents, mais B est plus efficace que A,

– sous H1 : seul A est convergent.
L’idée du test est que, si H0 est vraie, les coefficients estimés dans les deux modèles
seront proches. Dans le cas inverse, on s’attend à des différences importantes. Le
test est donc basé sur Â ˆb et Hausman a montré que, sous H0 , la variance de
cette différence est simplement égale à : V( Â ˆb ) = V( Â ) V( ˆb ).
La version la plus commune de ce test est basé sur la comparaison des modèles
within et du modèle de moindres carrés généralisés. La différence entre les deux
s’écrit : q̂ = ˆw ˆg . Sous l’hypothèse d’absence de corrélation entre les variables
explicatives et le terme d’erreur, on a plim q̂ = 0. La variance de q̂ s’écrit :
V(q̂) = V( ˆw ) + V( ˆg ) 2cov( ˆw , ˆg )
Pour déterminer ces variances et ces covariances, on écrit les deux estimateurs
en fonction des erreurs : ˆg = (X > ⌦ 1 X) 1 X⌦ 1 ✏ et ˆw = (X > W X) 1 XW ✏.
On a alors V( ˆg ) = (X > ⌦ 1 X) 1 , V( ˆw ) = ⌫2 (X > W X) 1 et cov( ˆw , ˆg ) =
(X > ⌦ 1 X) 1 . La variance de q̂ s’écrit donc simplement :
>
V(q̂) = 2
⌫ (X W X)
1
(X > ⌦ 1
X) 1
et la statistique de test est simplement :
q̂ > V(q̂)q̂
qui, sous H0 , suit un 2 à K degrés de liberté.
Le test d’hausman est réalisé avec la fonction phtest , qui prend pour argument
deux modèles.
> phtest(air.within, air.random)
Hausman Test

chisq = 596.4829, df = 1, p-value < 2.2e-16
alternative hypothesis: one model is inconsistent
> phtest(rice.w, rice.r)
Hausman Test

chisq = 3.775, df = 3, p-value = 0.2868
On constate que l’hypothèse de non corrélation des variables explicatives avec l’ef-
fet individuel est très fortement rejetée dans le cas des données sur les compagnies
aériennes, alors qu’elle ne l’est pas avec les données sur les fermes de riz. Ce ré-
sultat était présivible puisque les résultats des modèles à effets fixes et à effets
aléatoires étaient très différents dans le premier cas et très proches dans le second.
Chapitre 5
Autocorrélation et
hétéroscédasticité
Chapitre 6
Endogénéité
6.1 Introduction
On parle d’endogénéité lorsque l’erreur du modèle est corrélée avec (au moins) une
variable explicative. Ce phénomène est particulièrement courant en économétrie,
dans la mesure où, contrairement aux chercheurs en sciences expérimentales, l’éco-
nomètre n’a pas la possibilité de contrôler le processus générateur de données. Les
causes possibles d’endogénéité sont multiples, on citera simplement pour mémoire
les trois principales :
la simultanéité . L’équation d’intérêt comporte une variable explicative qui est
déterminée simultanément avec la variable expliquée : c’est le cas par exemple
de l’estimation d’une équation de demande pour un bien, qui contient le prix
de ce bien. La quantité demandée et le prix sont simultanément déterminés
par l’égalisation de l’offre et de la demande et, par conséquent, une variation
du terme d’erreur de l’équation de demande se traduira par un déplacement
de la courbe de demande et donc par une variation de la quantité et du prix
d’équilibre.
l’erreur de mesure sur une variable explicative . Si le vrai modèle est y =
↵ + x + ⌫ et que l’on observe x⇤ = x + ⌘, le modèle estimé s’écrit alors :
y = ↵ + (x⇤ ⌘) + ⌫, soit encore y = ↵ + x⇤ + ✏ avec ✏ = ⌫ ⌘ et ✏ est
corrélé avec x.
les variables explicatives omises . Si le vrai modèle est y = ↵ + x x + z z + ⌫
et que la variable z n’est pas observée, le modèle estimé est y = 0 + x x + ✏,
avec ✏ = z z + ⌫. L’erreur du modèle estimé contient alors l’influence de la
variable omise et cette erreur est alors corrélée à x si x et z sont corrélés.
L’estimateur du modèle linéaire simple y = X + ✏ s’écrit :
1
ˆ = X >X X >y
En remplaçant y par son expression, on obtient ˆ en fonction des erreurs du

modèle :
ˆ = + X >X 1 X >✏
On a alors, en notant n la taille de l’échantillon :

✓ ◆ 1
ˆ= 1 > X >✏
+ X X
n n
>
On a alors un estimateur convergent plim ˆ = si limn!+1 Xn ✏ = 0, cette
expression étant le vecteur de covariances pour la population entre les variables
explicatives et l’erreur. La convergence du modèle linéaire simple nécessite donc
l’absence de corrélation entre les variables explicatives et l’erreur. Dans le cas où
cette condition n’est pas vérifiée, on à recours à la méthode des variables instru-
mentales qui sera développée en détail dans ce chapître.
Le cas de la simultanéité pose un problème supplémentaire car le modèle est défini
non pas par une équation, mais par un système d’équation. Dans ce cas, deux
stratégies sont possibles :
– estimer uniquement l’équation d’intérêt (on parle de modèle à information limi-
tée),
– estimer simultanément l’ensemble des équations du modèle (on parle alors de
modèle à information complète).
Cette dernière situation présente l’avantage d’être a priori plus efficace, car elle
permet de prendre en compte la corrélation entre les erreurs des différentes équa-
tions. En revanche, si une équation est mal spécifiée, ce problème de mauvaise
spécification peut se diffuser au niveau de l’estimation des paramètres des autres
équations du modèle.
6.2 Estimation d’une équation isolée

Nous considérons dans un premier temps l’estimation d’une seule équation du
système. Comme dans le cas du modèle à erreur composée classique, on peut dis-
tinguer les variations intra et inter-individuelles et estimer alors respectivement
un modèle within et un modèle between. On peut également combiner au mieux
ces deux sources de variation en utilisant un estimateur des moindres carrés géné-
ralisés.
Généralités sur l’estimateur des variables instrumentales

Variables instrumentales et doubles moindres carrés On considère le mo-
dèle suivant : y = X + ✏ avec V (✏) = 2 I. Si au moins une des variables expli-
catives est corrélée avec les erreurs, l’estimateur ols n’est pas convergent. Afin
d’obtenir un estimateur convergent, on utilise la méthode des variables instru-
mentales. Les variables instrumentales sont notées Z. On notera K le nombre de
Chapitre 6. Endogéneite 77
variables explicatives et L K le nombre d’instruments. Les variables instru-

>
mentales doivent vérifier : limn!+1 Zn ✏ = 0, autrement dit, elles ne doivent pas
présenter de corrélation avec les erreurs 1 . Dans le cas le plus simple où le nombre
de colonnes de X et de Z est le même, l’estimateur des variables instrumentales
est simplement obtenu en résolvant le système d’équations : Z > e = 0 qui est juste
identifié. En développant, on obtient Z > (y X ) = 0, soit encore :
1
ˆ = Z >X Z >y (6.1)
S’il y a plus d’instruments que de variables explicatives (L > K), Z > e ne peut pas
être un vecteur de 0. Dans ce cas-là, deux approches permettent de déterminer
l’estimateur optimal. La première consiste à pré-multiplier le modèle par Z > .
Z >y = Z >X + Z >✏ (6.2)
Il s’agit d’un modèle contenant L lignes et K paramètres à estimer . Si on le

considère comme un modèle de régression classique, la variance de l’erreur étant
V Z > ✏ = 2 Z > Z, le meilleur estimateur linéaire est celui des moindres carrés
généralisés (gls) et on obtient alors l’estimateur des variables instrumentales :
⇣ ⌘ 1 ⇣ ⌘
îv 1 1
= X >Z Z >Z Z >X X >Z Z >Z Z >y
1
(6.3)
= X > PZ X X > PZ y
1
avec PZ = Z Z > Z Z >.
La seconde approche est celle des moments généralisés. On considère en effet un
vecteur de L moments E Z > ✏ = E Z > (y X ) , dont la variance est V(Z > ✏) =
Z Z. Dans le cadre de la méthode des moments généralisés, on minimise la
2 >
forme quadratique du vecteur de moments en utilisant l’inverse de la matrice de

variance de ces moments :
1 1 1
2
(y > >
X > )Z Z > Z Z(y X )= 2
(y > >
X > )PZ (y X )
Les conditions de premier ordre pour un minimum s’écrivent : 2X > PZ (y X ) =

0 et en résolvant ce sytème d’équations linéaires, on obtient le même estimateur
que précédemment.
Cet estimateur est également appelé l’estimateur des doubles moindres carrés (two-
stage least squares ou 2sls) car il peut être obtenu en appliquant deux fois la
méthode des moindres carrés. Lorsque l’on considère la régression d’une variable
1 >
v en fonction de Z, on obtient un estimateur ˆ = Z > Z Z v et des valeurs
ˆ 1 >
prédites v̂Z = Z = Z Z Z >
Z v = PZ v. La matrice PZ est donc la ma-
trice de projection dans le sous-espace défini par les colonnes de Z. Cette matrice
1. En général, certaines variables explicatives ne sont pas corrélées avec les erreurs du modèle
et seront donc également utilisées comme instrument.
est symétrique et idempotente, c’est-à-dire que PZ PZ = PZ . L’estimateur des va-

riables instrumentales (6.3) peut donc également s’écrire, en notant X̂Z = PZ X
les valeurs prédites des différentes variables explicatives en fonction des différentes
variables instrumentales :
⇣ ⌘ 1 ⇣ ⌘ 1
ˆ2sls = X̂ > X̂Z X̂Z> y = X̂Z> X̂Z X̂Z> ŷZ (6.4)
z
et peut donc être obtenu en appliquant les moindres carrés ordinaires deux fois :
– la première fois en régressant chaque variable explicative par rapport aux ins-
truments,
– la seconde fois en régressant la variable expliquée par rapport aux valeurs pré-
dites de la première estimation.
La variance de l’estimateur des variables instrumentales est :
⇣ ⌘ ⇣ ⌘ 1
V ˆ = 2
X̂z> X̂z
On voit alors que l’estimateur sera d’autant plus efficace que la corrélation entre
X et Z est importante.
Estimateur des variables instumentales généralisé Dans le cas où les er-

reurs ne sont pas indépendament et identiquement distribuées, la variance de ✏
est notée de manière générale ⌦ et celle des erreurs du modèle (6.2) est égale à
Z > ⌦Z. L’estimateur des variables instrumentales généralisée est alors obtenu, soit
en appliquant les gls au modèle (6.2), soit en utilisant la méthode des moments
généralisés en minimisant :
1 1
2
(y > >
X > )Z Z > ⌦Z Z(y X )
Dans les deux cas, l’estimateur s’écrit :

⇣ ⌘ 1 ⇣ ⌘
ˆg2sls = X > Z Z > ⌦Z 1 Z > X X > Z Z > ⌦Z
1
Z >y (6.5)
La formule précédente fait apparaître des matrices carrés de dimensions égales à la

taille de l’échantillon. Elle peut donc s’avérer inapplicable pour de gros échantillons
et en tout cas elle est numériquement inefficace. Cet estimateur sera de préférence
calculé en utilisant la décomposition de Cholesky de ⌦, c’est-à-dire en calculant
la matrice diagonale supérieure L qui vérifie L⌦L> = I soit encore L> L⌦L> L =
L> L et donc L> L = ⌦ 1
L’estimateur des variables instrumentales généralisées peut être obtenu en appli-
quant l’estimateur des variables instrumentales sur le modèle Ly = LX + L✏ en
1
utilisant comme instruments Z̃ = L> Z. La matrice de projection définie par
ces instruments est alors :
✓ ⇣ ⌘ ◆ 1 ⇣ ⌘
1 1 > 1 1 >
PZ̃ = L> Z Z > L> L> Z Z > L>
Or : ⇣ ⌘
1 > 1
L> L> =⌦
On a donc : ⇣ ⌘
1 1 1 >
PZ̃ = L> Z Z > ⌦Z Z> L>
En utilisant cette matrice de projection dans la formule de l’estimateur des va-
riables instrumentales (6.3), on obtient :
✓ ⇣ ⌘ ◆ 1
ˆ = 1 1 > 1 >
X > L> L> Z Z > ⌦Z Z L> LX
✓ ⇣ ⌘ ◆ (6.6)
1 1 > 1 >
⇥ X > L> L> Z Z > ⌦Z Z L> Ly
soit finalement :
⇣ 1
⌘ 1 ⇣ 1
⌘
ˆ = X > Z Z > ⌦Z Z >X X > Z Z > ⌦Z Z >y
qui correspond bien à la formule (6.5) de l’estimateur des variables instrumentales

généralisées. En pratique, comme dans le cas du modèle des moindres carrés géné-
ralisés, ⌦ est inconnu et donc être estimé, en utilisant les résultats d’une estimation
préliminaire convergente.
Estimateur des variables instrumentales efficace Un estimateur plus gé-

néral est obtenu en pré-multipliant le modèle par (U Z)> , U étant une matrice de
transformation de dimension n ⇥ n :
Z >U >y = Z >U >X + Z >U >✏ (6.7)
La variance des erreurs de ce modèle est alors : Z > U > ⌦U Z et l’estimateur obtenu :
⇣ 1
⌘ 1 1
ˆ = X > U Z Z > U > ⌦U Z Z >U >X X > U Z Z > U > ⌦U Z Z >U >y
En choisissant U = ⌦ 1
, on obtient l’estimateur des variables instrumentales effi-
cace :
⇣ 1
⌘ 1 1
ê2sls = X > ⌦ 1
Z Z >⌦ 1
Z Z >⌦ 1
X Z >⌦ 1y X >⌦ 1
Z Z >⌦ 1
Z
(6.8)
L’estimateur des variables instrumentales généralisées peut être obtenu en appli-
quant l’estimateur des variables instrumentales sur le modèle Ly = LX + L✏ en
utilisant comme instruments LZ, autrement dit en appliquant la même transforma-
tion aux différents éléments du modèle (variable expliquée, variables explicatives
et instruments) 2 .
2. Cet estimateur est présenté en détail par White (1986).
6.2.1 Les modèles within et between

La variation au sein de l’échantillon pouvant se décomposer en une variation inter
et intra-individuelle, il est naturel de commencer par présenter les estimateurs qui
ne prennent en compte qu’une seule de ces deux sources de variation, c’est-à-dire
les estimateurs des variables instrumentales between et within. Pour l’estimateur
within, chaque variable du modèle est mesurée en écart par rapport à la moyenne,
c’est à dire prémultipliée par W . On a donc W y = W X +W ✏ avec W Z la matrice
d’instruments. En prémultipliant le modèle par (W Z)> , on obtient :
Z >W y = Z >W X + Z >W ✏ (6.9)
L’estimateur des variables instrumentales within est obtenu en appliquant les

moindres carrés généralisés à cette équation, la variance des erreurs de ce mo-
dèle étant 2 Z > W Z :
⇣ ⌘ 1⇣ ⌘
ˆw2sls = X > W Z Z > W Z 1 Z > W X X >W Z Z >W Z
1 >
Z Wy
Soit encore :
1 1
ˆw2sls = X > W P W W X X > W PZW W y = X > PZW X X > PZW y (6.10)
Z
1
avec PZW = W Z Z > W Z Z > W . La dernière égalité est obtenue en notant que
W est idempotente.
Un raisonnement similaire peut être mené pour le modèle between. On considère la
transformation between du modèle By = BX + B✏, avec la même transformation
appliquée aux instruments (BZ). L’estimateur des variables instrumentales est
obtenue en pré-multipliant le modèle par BZ :
Z > By = Z > BX + Z > B✏ (6.11)

et en appliquant à ce modèle l’estimateur des moindres carrés généralisés :
⇣ ⌘ 1⇣ ⌘
ˆb2sls = X > BZ Z > BZ 1 Z > BX X > BZ Z > BZ
1 >
Z By
Soit encore :
1
ˆb2sls = X > P B X X > PZB y (6.12)
Z
Le modèle w2sls est convergent, même si les effets individuels sont corrélés avec
les variables explicatives. En revanche, le modèle b2sls ne l’est qu’en l’absence de
corrélation. Si cette dernière hypothèse est vérifiée, aucun des deux n’est efficace
car chacun ne prend en compte qu’une source de la variabilité.
Exemple 6.1
Cohen & Einav (2003) se sont intéressés à l’influence du port de la ceinture de
sécurité sur le nombre de morts sur les routes aux Etats-Unis, en distinguant les
occupants des véhicules concernés par les accidents (environ 35000 morts par an) et
les non-occupants (environ 5000 morts par an). Ils utilisent des données de panel
pour les 50 Etats américains pour la période 1983-1997. La principale variable
explative est le taux d’utilisation de la ceinture de sécurité. Deux questions font
principalement l’objet de leur attention :
– la première concerne le test de la théorie de la compensation du comportement
développée par Peltzman (1975). D’après cette théorie, le port de la ceinture
met le conducteur plus en confiance et l’amène à adoter une conduite moins
prudente. Si l’effet du port de la ceinture sur la mortalité des conducteurs en
cas d’accident est naturellement négatif, l’effet global sur la mortalité peut être
insignifiant, voir positif. En particulier, il est possible que le développement du
port de la ceinture de sécurité augmente la mortalité des non-occupants.
– la seconde concerne la question de l’endogénéité : si les conditions de conduite se
dégradent, par exemple pour des raisons météorologiques, toutes choses égales
par ailleurs, la mortalité sur les routes va augmenter, mais l’usage de la ceinture
de sécurité va également augmenter car les automobilistes perçoivent l’aggrava-
tion du risque d’accident. On a donc une corrélation entre le terme d’erreur de
l’équation de mortalité et la variable explicative qui mesure le taux d’usage de
la ceinture de sécurité. Dans ce cas, la non prise en compte de l’endogénéité se
traduira par un biais vers le bas de l’estimation du coefficient associé à l’usage
de la ceinture de sécurité.
Cohen & Einav (2003) proposent trois types d’estimation. La première est une
estimation par les moindres carrés ordinaires qui ne prend donc nullement en
compte le problème d’endogénéité. La seconde est une estimation du modèle à ef-
fets fixes ; dans le cadre de celle-ci, le problème d’endogénéité entre la composante
individuelle du terme d’erreur et la variable explicative est pris en compte car la
transformation within élimine l’effet individuel. En revanche, subsiste le problème
de la corrélation entre la composante idiosyncratique du terme d’erreur et la va-
riable explicative. Ce dernier problème est résolu en estimant un modèle w2sls.
Les instruments utilisés sont des variables de lois concernant la ceinture, qui sont
corrélées avec l’usage de la ceinture de sécurité, mais pas avec le terme d’erreur. De
nombreuses variables de contrôle sont également introduites (voir la page d’aide
des données pour plus de précision).
L’estimation d’un modèle avec variables instrumentales est réalisée à l’aide de la
fonction plm . Les variables instrumentales sont spécifiées à l’aide d’une formule en
deux parties, disponible grâce à la librairie Formula (Zeileis & Croissant, 2010)).
La première partie indique la liste des variables explicatives du modèle alors que
la seconde indique la liste des variables instrumentales. Très souvent, une partie
importante des variables explicatives sont utilisées comme instrument. Afin d’évi-
ter de répéter quasimment deux fois la même liste de variables, il est possible
d’utiliser une syntaxe différentielle en utilisant le signe .. Par exemple, si les va-
riables explicatives sont x1, x2 et x3, que seule x2 est endogène et qu’il existe un
seul instrument extérieur z, la description du modèle peut être réalisée de manière
équivalente à l’aide des deux formules ci-dessous :
> y ~ x1 + x2 + x3 | x1 + x3 + z
> y ~ x1 + x2 + x3 | . - x2 + z
Cohen & Einav (2003) estiment successivement trois modèles. Le premier est un
modèle avec des effets fixes temporels (qualifié par les auteurs de modèle mco
car il n’y a pas de prise en compte des effets individuels), le second est un mo-
dèle à doubles effets fixes individuels et temporels et le dernier est un modèle à
doubles effets fixes avec des variables instrumentales afin de prendre en compte
l’endogénéité du port de la ceinture de sécurité.
> data("SeatBelt", package = "pder")
> SeatBelt$occfat <- with(SeatBelt, log(farsocc / (vmtrural + vmturban)))
> ols <- plm(occfat ~ log(usage) + log(percapin) + log(unemp) + log(meanage) +
+ log(precentb) + log(precenth)+ log(densrur) +
+ log(densurb) + log(viopcap) + log(proppcap)+
+ log(vmtrural) + log(vmturban) + log(fueltax) +
+ lim65 + lim70p + mlda21 + bac08, SeatBelt,
+ effect = "time")
> fe <- update(ols, effect = "twoways")
> ivfe <- update(fe, . ~ . | . - log(usage) + ds + dp +dsp)
> rbind(ols = coef(summary(ols))[1,],
+ fe = coef(summary(fe))[1, ],
+ w2sls = coef(summary(ivfe))[1, ])

ols 0.11404316 0.02546722 4.478037 9.252148e-06
fe -0.05349783 0.02251563 -2.376031 1.789646e-02
w2sls -0.13335261 0.04482326 -2.975076 3.078717e-03
Les résultats attestent que le problème d’endogénéité est très important. Pour le
premier modèle estimé, on a un coefficient associé à l’utilisation de la ceinture de
sécurité qui est positif et significatif. Il devient négatif et significatif pour le modèle
à effets fixes, ce qui indique que la variable usage présente une corrélation positive
importante avec les effets individuels. Enfin, ce coefficient augmente de manière
importante (en valeur absolue) si on utilise des variables instrumentales, ce qui
indique que la composante idiosincratique des erreurs est également corrélée avec
usage.
Pour tester l’hypothèse de la théorie de la compensation du comportement, les
auteurs estiment les mêmes modèles avec cette fois la mortalité des non-occupants
comme variable explicative. Si cette théorie est vraie, le développement du port
de la ceinture devrait accroître les comportements de conduite à risque et donc
contribuer à accroître la mortalité des non-occupants.
> SeatBelt$noccfat <- with(SeatBelt, log(farsnocc / (vmtrural + vmturban)))
> nivfe <- update(ivfe, noccfat ~ . | .)
> coef(summary(nivfe))[1, ]

-0.04237248 0.10311901 -0.41090855 0.68132529
Les résultats indiquent que le port de la ceinture n’a pas d’influence sur la mortalité
des non-occupant, en contradiction avec la théorie de Peltzman (1975).
6.2.2 Estimateurs combinant les variations intra et inter-

individuelles
Si les effets individuels sont non-corrélés avec les variables explicatives, les es-
timateurs within et between sont convergents mais inefficaces. Pour obtenir un
estimateur efficace, il faut combiner les deux sources de variations, ce qui peut
être réalisé en empilant les deux modèles et en appliquant les moindres carrés gé-
néralisés (estimateur “error component two stage least squares” ec2sls de Baltagi
(1981)) ou en appliquant les moindres carrés généralisés sur le modèle transformé
en quasi-différences (estimateur “generalized two stage least squares” g2sls de
Balestra & Varadharajan-Krishnakumar (1987)).
L’estimateur des doubles moindres carrés à erreur composée

Baltagi (1981) part des équations (6.9) et (6.11) qui permettent d’obtenir respec-
tivement les estimateurs within et between. Il empile ces deux équations,
✓ > ◆ ✓ > ◆ ✓ > ◆
Z Wy Z WX Z W✏
= +
Z > By Z > BX Z > B✏
ce qui a un sens, car le vecteur de paramètres à estimer est le même dans les
deux équations. Afin d’appliquer les gls, on calcule la variance des erreurs du
modèle empilé :
✓ ◆ ✓ ◆ ✓ ◆
Z >W ✏ Z > W ✏✏> W Z Z > W ✏✏> BZ Z >W Z 0
V =E = 2
1
Z > B✏ Z > B✏✏> W Z Z > B✏✏> BZ ⌫ 0 2 Z > BZ
2
avec 2 = T 2 + ⌫
2 . On applique ensuite la formule de l’estimateur des moindres
⌘ ⌫
carrés généralisés :
" ✓ ◆ 1 ✓ ◆# 1
ˆ = > > Z >W Z 0 Z >W X
X WZ X BZ 1 >
0 2 Z BZ Z > BX
✓ ◆ 1✓ > ◆
Z >W Z 0 Z Wy
⇥ X >W Z X > BZ 1 >
0 2 Z BZ Z > By
h i 1
ˆ = 1 1
X >W Z Z >W Z Z >W X + 2
X > BZ Z > BZ Z > BX
h i
1 1 >
⇥ X >W Z Z >W Z Z >W y + 2
X > BZ Z > BZ Z By
On obtient finalement :
⇥ ⇤ 1 ⇥ ⇤
êc2sls = X > P W X + 2
X > PZB X X > PZW y + 2
X > PZB y (6.13)
Z
On vérifie aisément, comme dans le modèle à erreur composée simple, que l’es-
timateur ec2sls est une moyenne pondérée des estimateurs within et between :
ê2sls = DW ˆw2sls + DB ˆb2sls , avec :
⇥ ⇤ 1
DW = X > PZW X + 2
X > PZB X X > PZW X
⇥ ⇤ 1
DB = 2
X > PZW X + 2
X > PZB X X > PZB X
L’estimateur des doubles moindres carrés généralisés

Cet estimateur, appelé g2sls (pour generalised two stages least squares) a été
proposé par Balestra & Varadharajan-Krishnakumar (1987). On part du modèle
à erreurs composées classique : y = X + ✏, avec :
V(✏) = ⌦ = T 2
⌘ + 2
⌫ B+ 2
⌫W
L’estimateur proposé est un estimateur des variables instrumentales efficaces ob-

tenu en pré-multipiant toutes les variables du modèle et les instruments par ⌦ 0.5
ou plus simplement par ⌫ ⌦ 0.5
0.5 ⌫
⌫⌦ =W+q B=W+ B
T 2 +
⌘ ⌫
x⇤nt = (xnt x̄n. ) + x̄n. = xnt (1 )xn.

On considère alors le modèle pré-multiplié par ⌦ 0.5
:
y ⇤ = X ⇤ + ✏⇤
pour lequel les erreurs sont identiquement distribuées. On applique à ce modèle la
méthode des variables instrumentales, on note A la matrice d’instruments et PA
le sous-espace de projection des colonnes de A. L’estimateur obtenu s’écrit :
1
ˆ = X ⇤> PA X ⇤ X ⇤> PA y ⇤ (6.14)
White (1986) a montré que dans ce contexte, il est efficace d’appliquer aux instru-
ments la même transformation qu’aux autres éléments du modèle. On a alors
A= ⌫⌦
0.5
Z = W Z + BZ = Z ⇤
L’estimateur proposé par (Baltagi, 1981) est également un estimateur de la même
famille, mais avec un choix d’instruments différents : A = (BX, W X) (Cornwell
et al., 1992). En effet, en introduisant PA = PZB + PZW dans (6.14), on obtient 3 :
3. Voir aussi Baltagi & Li (1992) et Baltagi & Liu (2009).
h i 1
ˆ = >
(W X + BX) PZW + PZB (W X + BX)
>
⇥ (W X + BX) PZW + PZB (W y + By)
>
ˆ = X >P W X + 2
X > PZB X X > PZW y + 2
X > PZB y
Z
L’avantage de la formulation de Baltagi (1981) est que la liste des instruments wi-
thin et celle des instruments between peut être différente. On peut alors considérer
trois types de variables (Cornwell et al., 1992) :
– les variables endogènes sont corrélées avec les deux composantes du terme d’er-
reur,
– les variables simplement exogènes sont corrélées avec les effets individuels, mais
pas avec la composante idiosyncratique du terme d’erreur,
– les variables doublement exogènes ne sont corrélées ni avec les effets individuels,
ni avec la composante idiosyncratique du terme d’erreur.
Dans le cadre d’une estimation avec variables instrumentales, les variables dou-
blement exogènes peuvent être utilisées deux fois, une fois en utilisant leur trans-
formation between et une fois en utilisant leur transformation within, comme le
suggère Baltagi (1981). Les variables simplement exogènes en revanche ne peuvent
être introduites comme instrument qu’avec leur transformation within.
Exemple 6.2
Kinal & Lahiri (1993) se sont intéressés aux déterminants du commerce interna-
tional pour les pays en développement et en particulier à la mesure des élasticités
prix et revenu du commerce international pour les pays en développement. Ce su-
jet est particulièrement important car il conditionne en grande partie la croissance
et l’évolution de l’endettement de ces pays. Le panel utilisé contient 31 pays en
développement, pour la période 1964-1986. Ces données sont disponibles dans la
librairie pder sous le nom ForeignTrade.
Plus précisément, ils estiment trois équations : la première définit la demande
d’importations, la deuxième la demande d’exportations et la troisième l’offre d’ex-
portations. Plus précisément, les auteurs supposent que :
– la demande d’importations imports augmente avec le revenu domestique gnp,
diminue avec le prix des importations en devises locales rapportée au prix do-
mestiques pmcpi et augmente avec le ratio des réserves sur les importations
resimp retardé d’une période,
– la demande pour les exportations exports augmente avec le revenu du reste du
monde gnpw et diminue avec le prix relatif des exportations et de leurs substituts
étrangers pxpw,
– l’offre d’exportations exports augmente avec le prix mondial exprimé en devise
domestique rapporté à l’indice des prix à la consommation pwpci, avec le revenu
domestique potentiel pgnp (utilisé comme proxy du stock de capital) et dépend
également positivement d’une variable qui représente le rôle des importations
dans l’offre d’exportation importspmpx (mesurée par les importations en devises

du pays divisé par le prix des exportations) 4 .
Toutes les variables sont exprimées en logarithmes et, les pays présents dans le
panel étant de tailles très diverses, par tête, de manière à limiter les problèmes
d’hétéroscédasticité.
Afin de prendre en compte la dynamique de l’ajustement, un retard de la variable
expliquée est introduit comme variable explicative dans chaque équation.
Les variables gnp, exports, imports et leur retard (et donc resimp et importspmpx)
sont considérées comme endogènes, ainsi que le prix des exportations qui rend en-
dogène pxpw et l’indice des prix à la consomation domestique qui rend endogène
pmcpi et pwcpi. Parmi l’ensemble des variables explicatives, seules gnpw et pgnp
sont considérées comme exogènes et peuvent donc être utilisées comme instru-
ments. De nombreuses autres variables sont utilisées comme instruments : le trend
linéaire trend, la population pop, le taux de change exrate, la consommation
consump, le revenu disponible income, les réserves reserves, l’offre de monaie
money, l’indice des prix à la consommation cpi, le prix des importations pm, le
prix des exportations px, le prix mondial pw, la plupart du temps avec un décalage
d’une période.
Kinal & Lahiri (1993) s’inscrivent dans le prolongement d’un article de Khan &
Knight (1988) qui ont estimé un système d’équation expliquant les déterminants
du commerce international pour les pays en développement en utilisant la trans-
formation within. Ils indiquent leur préférence pour un estimateur plus efficace qui
prend en compte la variation inter-individuelle et retiennent l’estimateur ec2sls.
Cependant, la convergence de cet estimateur n’est assurée que si les instruments
ne sont pas corrélés avec les effets individuels. La stratégie qu’ils adoptent consiste
dans un premier temps à estimer la même équation en utilisant l’estimateur within
et l’estimateur à erreurs composées et à réaliser un test d’Hausman afin de pouvoir
tester l’hypothèse d’exogénéité des instruments.
Nous présentons ci-dessous les résultats obtenus concernant la demande d’impor-
tations. Le modèle within et des mcg sont successivement estimés. Concernant le
modèle des mcg, l’argument inst.method est fixé à "baltagi", de manière à in-
troduire les instruments en moyennes individuelles et en écart par rapport à cette
moyenne. L’autre possibilité (qui constitue la valeur par défaut) est "bvk" pour
Balestra & Varadharajan-Krishnakumar (1987). L’argument random.method st
fixé à "kinla" pour pouvoir reproduire les résultats de Kinal & Lahiri (1993).
Ceux-ci utilisent en effet une technique d’estimation des variances des compo-
santes du terme d’erreur non standard ; similaires à celle de Nerlove (1971), mais
avec une correction du nombre de degrés de liberté.
> data("ForeignTrade", package = "pder")

> w1 <- plm(imports~pmcpi + gnp + lag(imports) + lag(resimp) |
4. Les auteurs justifient l’introduction de cette variable par le fait que, pour la plupart des
pays en développement, l’importation de biens intermédiaires et de biens d’équipement sont très
importants pour produire des biens à l’exportation.
+ lag(consump) + lag(cpi) + lag(income) + lag(gnp) + pm +

+ lag(invest) + lag(money) + gnpw + pw + lag(reserves) +
+ lag(exports) + trend + pgnp + lag(px),
+ ForeignTrade, model = "within")
> r1 <- update(w1, model = "random", random.method = "kinla",
+ inst.method = "baltagi")
L’hypothèse de non-corrélation entre les instruments et les effets individuels im-

plique que les deux modèles within et mcg sont convergent, le dernier étant plus
efficace. En revanche, si cette hypothèse est rejetée, seul le modèle within est
convergent. Afin de tester cette hypothèse, les auteurs utilisent un test d’Hausman
(1978).
> phtest(r1, w1)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) + ...

chisq = 11.0059, df = 4, p-value = 0.0265
L’hypothèse de non-corrélation entre les instruments et les variables effets indivi-

duels est rejetée 5 . Plutôt que de rejeter l’estimateur mcg et de se contenter de
l’estimateur within, Kinal & Lahiri (1993), suivant en cela Cornwell et al. (1992),
choisissent de différencier deux types d’instruments :
– ceux qui ne sont pas corrélés avec les effets individuels, dans ce cas, ils peuvent
être introduits doublement avec leur transformation between et within,
– ceux qui sont corrélés avec les effets individuels ; pour ceux-là, seule la transfor-
mation within est utilisée comme instrument.
Un tel modèle est défini à l’aide d’une formule en trois parties :
– la deuxième partie indique quelles sont les instruments introduits en utilisant
les deux transformations within et between,
– la troisième partie indiquant les instruments introduits seulement en utilisant la
transformation within.
Ils aboutissent finalement à la spécification présentée ci-dessous :
> r1b <- plm(imports ~ pmcpi + gnp + lag(imports) + lag(resimp) |
+ lag(consump) + lag(cpi) + lag(income) + lag(px) +
+ lag(reserves) + lag(exports) | lag(gnp) + pm +
+ lag(invest) + lag(money) + gnpw + pw + trend + pgnp,
+ ForeignTrade, model="random",
+ inst.method="baltagi", random.method="kinla")
> phtest(w1, r1b)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) + ...

chisq = 7.372, df = 4, p-value = 0.1175
5. C’est également le cas pour les deux autres équations d’offre d’exportation et de demande
d’exportation.
On constate que désormais, sur la base du test d’Hausman (1978), l’hypothèse de

convergence de l’estimateur des mcg n’est pas rejetée.
Comme on le constate avec les résultats présentés ci-dessous, les estimateurs within
et des mcg sont désormais très similaires :
> rbind(within = coef(w1), e2sls = coef(r1b)[-1])
pmcpi gnp lag(imports) lag(resimp)

within -0.05873374 0.02890065 0.9512149 0.05215182
e2sls -0.05419095 0.01352559 0.9481222 0.04170158
L’élasticité de court-terme de la demande d’importations est directement donnée

par le coefficient associé au prix. L’élasticité de long-terme est obtenue en divi-
sant ce coefficients par le complément à l’unité du coefficient associé à l’endogène
retardée. On obtient ainsi :
> matrix(c(coef(w1)["pmcpi"],
+ coef(w1)["pmcpi"] / (1 - coef(w1)["lag(imports)"]),
+ coef(r1)["pmcpi"],
+ coef(r1)["pmcpi"] / (1 - coef(r1)["lag(imports)"]),
+ coef(r1b)["pmcpi"],
+ coef(r1b)["pmcpi"] / (1 - coef(r1b)["lag(imports)"])),
+ byrow = TRUE, nrow = 3,
+ dimnames = list(c("w1", "r1", "r1b"), c("CT", "LT")))
CT LT
w1 -0.05873374 -1.203928
r1 -0.05521142 -1.197191
r1b -0.05419095 -1.044588
La prise en compte d’une partie de la variation inter-individuelle a permis de

réduire considérablement la variance des estimateurs, comme l’atteste la compa-
raison des écarts-types des coefficients :
> rbind(within = coef(summary(w1))[, 2],
+ ec2sls = coef(summary(r1b))[-1, 2])
pmcpi gnp lag(imports) lag(resimp)

within 0.02915262 0.041235082 0.03066695 0.008257449
ec2sls 0.02179875 0.006871687 0.01281239 0.006683680
6.3 Estimation d’un système d’équation

6.3.1 L’estimateur des triples moindres carrés ordinaires
Dans le cas de systèmes d’équations, on prend souvent en considération la corré-
lation entre les erreurs d’équations différentes pour la même observation. Dans ce
cas, le modèle à estimer, qui contient L équations s’écrit :
0 1 0 10 1 0 1
y1 X1 0 ... 0 1 ✏1
B y2 C B 0 X2 ... 0 CB 2 C B ✏2 C
B C B CB C B C
B .. C=B .. .. .. .. C B .. C + B .. C
@ . A @ . . . . A@ . A @ . A
yL 0 0 ... XL L ✏L
La matrice d’instruments pour le système s’écrit quant à elle :
0 1
Z1 0 . . . 0
B 0 Z2 . . . 0 C
B C
B .. .. . . .. C
@ . . . . A
0 0 ... ZL
La matrice de variance des erreurs s’écrit :
0 1
✏1 ✏>1 ✏1 ✏>2 ... ✏ 1 ✏>L
B ✏2 ✏> ✏2 ✏> ... ✏ 2 ✏> C
B 1 2 L C
⌦ = V(✏) = E ✏✏> = EB .. .. .. .. C
@ . . . . A
✏L ✏> ✏L ✏> ... ✏ L ✏>
0 1 2 L1 (6.15)
11 I 12 I ... 1L I
B 21 I 22 I ... 2L I C
C
B
= B .. .. .. .. C = ⌃ ⌦ I
@ . . . . A
L1 I L2 I ... LL I
avec : 0 1
11 12 ... 1L
B ... C
B 21 22 2L C
⌃=B .. .. .. .. C
@ . . . . A
L1 L2 ... LL
la matrice de covariances des erreurs des différentes équations du système.
L’estimateur des triples moindres carrés (3sls) est obtenu en appliquant l’estima-
teur des variables instrumentales généralisées au système d’équation. En rempla-
çant dans la formule de cet estimateur (6.5) la variance des erreurs donnée par
(6.15), on obtient :
⇣ ⌘ 1
ˆ3sls 1
= X >Z Z > ⌃ 1
⌦I Z Z >X
⇣
1 >
⌘ (6.16)
⇥ X >Z Z > ⌃ 1
⌦I Z Z y
Dans le cas particulier où la matrice d’instruments est la même pour toute les
équations, la formule se simplifie à :
1
ˆ3sls = X > ⌃ 1
⌦ PZ X X >⌃ 1
⌦ PZ y (6.17)
Le calcul pratique des triples moindres carrés est le suivant :
– on estime les équations indépendemment les unes des autres en utilisant l’es-
timateur des variables instrumentales, ce qui permet d’obtenir une matrice de
résidus e = (e1 , e2 , . . . , eL ) qui constitue une estimation convergente des erreurs
des différentes équations,
– on estime la matrice de covariance des erreurs du système : s = e> e/N
– on calcule la décomposition de Cholesky de cette matrice : l | lsl> = I,
– on transforme les différents éléments du modèle : y ⇤ = (l ⌦ I)y, X ⇤ = (l ⌦ I)X
et Z ⇤ = (l 1 ⌦ I)Z.
– on applique la méthode des variables instrumentales sur le modèle transformé.
La transformation est particulièrement simple ici :
0 1 0 1
y1 l11 y1 + l12 y2 + . . . l1L yL
B y2 C B l21 y1 + l22 y2 + . . . l2L yL C
B C B C
y ⇤ = (l ⌦ I) B . C = B .. C
@ .. A @ . A
yL lL1 y1 + lL2 y2 + . . . lLL yL
0 1 0 1
X1 0 ... 0 l11 X1 l12 X2 ... l1L XL
B 0 X2 ... 0 C B l21 X1 l22 X2 ... l2L XL C
B C B C
X ⇤ = (l ⌦ I) B .. .. .. .. C=B .. .. .. .. C
@ . . . . A @ . . . . A
0 0 ... XL lL1 X1 lL2 X2 ... lLL XL
0 1 0 1 1 1
1
Z1 0 ... 0 (l )11 Z1 (l )12 Z2 ... (l )1L ZL
B 0 Z2 ... 0 C B (l 1
)21 Z1 (l 1
)22 Z2 ... (l 1
)2L ZL C
B C B C
Z ⇤ = (l ⌦ I) B .. .. .. .. C=B .. .. .. .. C
@ . . . . A @ . . . . A
1 1 1
0 0 ... ZL (l )L1 Z1 (l )L2 Z2 ... (l )LL ZL
L’estimateur des triples moindres carrés within et between n’appelle aucun dé-
veloppement complémentaire. Il suffit simplement d’appliquer l’estimateur pré-
cédemment décrit aux données transformées en écart par rapport à la moyenne
individuelle (within) ou en moyenne individuelle (between).
6.3.2 L’estimateur des triples moindres carrés ordinaires à

erreurs composées
Balestra & Varadharajan-Krishnakumar (1987) et Baltagi (1981) ont, en plus
de l’estimateur des doubles moindres carrés, proposé des estimateurs des triples
moindres carrés utilisant au mieux la variation inter et intra-individuelles des don-
nées de panel.
On doit désormais considérer trois indices, l’indice de l’équation l = 1 . . . L s’ajou-
tant aux indices n = 1 . . . N et t = 1 . . . T habituels. L’erreur du modèle à erreur
composée s’écrit alors :
✏lnt = ⌘ln + ⌫lnt
En notant ✏> ln = (✏ln1 , . . . , ✏lnT ), le vecteur d’erreurs pour l’individu n et l’équation

l, le vecteur d’erreurs pour le système d’équation s’écrit :
✏> = (✏> > > > > > > > >
11 , ✏12 , . . . , ✏1N ), (✏21 , ✏22 , . . . , ✏2N ), . . . , (✏L1 , ✏L2 , . . . , ✏LN )
La variance des erreurs du modèle est alors :
⌦ = V(✏) = ⌃⌘ ⌦ (IN ⌦ JT ) + ⌃⌫ ⌦ (IN ⌦ IT )
Seule la présence des effets individuels rend le modèle spécifique par rapport à
l’estimateur classique des triples moindres carrés. Par rapport au modèle à erreurs
composées standard, les scalaires ⌘2 et ⌫2 sont remplacés par les deux matrices de
covariances ⌃⌘ et ⌃⌫ .
⌦ = (T ⌃⌫ + ⌃⌘ ) ⌦ (IN ⌦ J¯T ) + ⌃⌫ ⌦ (IN ⌦ (IT J¯T ))

= (T ⌃⌫ + ⌃⌘ ) ⌦ B + ⌃⌫ ⌦ Z
= ⌃1 ⌦ B + ⌃ ⌫ ⌦ Z
Exemple 6.3
Kinal & Lahiri (1993) estiment le système constitué de l’équation de demande
d’importations et de celle de demande d’exportations par la méthode des triples
moindres carrés. Pour réaliser cette estimation avec plm , il faut indiquer comme
premier argument une liste contenant la description des différentes équations du
modèle.
> eqimp <- imports ~ pmcpi + gnp + lag(imports) +
+ lag(resimp) | lag(consump) + lag(cpi) + lag(income) +
+ lag(px) + lag(reserves) + lag(exports) | lag(gnp) + pm +
+ lag(invest) + lag(money) + gnpw + pw + trend + pgnp
> eqexp <- exports ~ pxpw + gnpw + lag(exports) |
+ lag(gnp) + pw + lag(consump) + pm + lag(px) + lag(cpi) |
+ lag(money) + gnpw + pgnp + pop + lag(invest) +
+ lag(income) + lag(reserves) + exrate
> r12 <- plm(list(import.demand = eqimp,
+ export.demand = eqexp),
+ data = ForeignTrade, index = 31, model = "random",
+ inst.method = "baltagi", random.method = "kinla")
> summary(r12)

(NA’s transformation)
Call:
plm.list(formula = list(import.demand = eqimp, export.demand = eqexp),
data = ForeignTrade, model = "random", random.method = "kinla",
inst.method = "baltagi", index = 31)
Effects:
Estimated standard deviations of the error

import.demand export.demand
id 0.061593 0.077971
idios 0.143954 0.120020
Estimated correlation matrix of the individual effects

import.demand 1.00000 .
export.demand 0.14522 1
Estimated correlation matrix of the idiosyncratic effects

import.demand 1.000000 .
export.demand 0.097391 1
- import.demand
(Intercept) 0.3994010 0.1189694 3.3572 0.0008083 ***
pmcpi -0.0539358 0.0217000 -2.4855 0.0130505 *
gnp 0.0109534 0.0052860 2.0721 0.0384327 *
lag(imports) 0.9506440 0.0118683 80.0995 < 2.2e-16 ***
lag(resimp) 0.0395085 0.0063413 6.2304 6.123e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
- export.demand
(Intercept) 0.143130 0.139472 1.0262 0.30496
pxpw -0.061362 0.019462 -3.1530 0.00165 **
gnpw 0.114368 0.053353 2.1436 0.03224 *
lag(exports) 0.946532 0.013298 71.1772 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
demande d’importations sont proches de ceux obtenus avec le modèle des doubles
moindres carrés. Le gain en termes d’efficacité se traduit par une légère réduction
des écarts-types, comme illustré ci-dessous.
> rbind(ec2sls = coef(summary(r1b))[-1, 2],
+ ec3sls = coef(summary(r12), "import.demand")[-1, 2])
pmcpi gnp lag(imports) lag(resimp) (Intercept) pxpw

ec2sls 0.02179875 0.006871687 0.01281239 0.006683680 0.02179875 0.006871687
ec3sls 0.02169995 0.005286002 0.01186829 0.006341284 0.13947240 0.019461702
gnpw lag(exports)
ec2sls 0.01281239 0.00668368
ec3sls 0.05335346 0.01329825
6.4 Estimateur d’Hausman-Taylor

Le modèle à erreurs composées amène à choisir entre le modèle within et le mo-
dèle mcg. L’avantage du modèle within est qu’il est convergent même si les effets
individuels sont corrélés avec les variables explicatives. Le désavantage est que, si
certaines variables explicatives ne présentent aucune variation intra-individuelle,
elles disparaissent de l’estimation. Or, ces variables sont souvent des variables es-
sentielles. Par exemple, dans le cadre d’une estimation d’une fonction de salaire,
des variables telles que le genre, le niveau d’éducation et l’origine ethnique sont
souvent au centre de l’attention, mais le chercheur n’a alors que le choix entre :
– un estimateur mcg qui renvoit des coefficients associés à ces variables, mais qui
n’est pas un estimateur convergent compte tenu de la corrélation entre les effets
individuels et les variables explicatives,
– un estimateur within qui est convergent mais qui ne donne aucune information
sur l’influence de ces variables.
Si on reprend la typologie de Cornwell et al. (1992), Hausman & Taylor (1981)
considère un modèle qui ne contient pas de variables endogènes, c’est-à-dire que
des variables non corrélées avec la composante idiosyncratique du terme d’erreur.
Certaines de ces variables sont simplement exogènes (donc corrélées avec les ef-
fets individuels), d’autre sont doublement exogènes (non corrélées avec les effets
individuels).
De plus, on prendra explicitement en compte le fait qu’un sous-ensemble de va-
riables ne présentent pas de variations intra-individuelles.
En croisant ces deux éléments de typologie, on obtient quatre catégories de va-
riables (Cx , Ce , Vx et Ve ) en notant C et V les variables sans / avec variation
intra-individuelle et x et e les variables doublement / simplement exogènes.
L’idée est de construire un estimateur de variables instrumentales sans avoir re-
cours à des instruments extérieurs au modèle, souvent difficiles à trouver. Pour
chaque type de variable, on décompte le nombre d’instruments :
– les variables Vx , au nombre de Kvx , fournissent chacune deux instruments (wi-
thin et between),
– les variables Ve , au nombre de Kve fournissent chacune un instrument (within),
– les variables Cx au nombre deKcx fournissent chacune un instrument,
– les variables Ce au nombre de Kce ne fournissent aucun instrument.
On a donc L = 2Kvx + Kve + Kcx instruments et K = Kvx + Kve + Kcx + Kce
variables explicatives. Par conséquent, le modèle est identifié (L K) si Kvx
Kce .
Si cette condition est vérifiée, l’estimateur proposé par Hausman & Taylor (1981)
est un estimateur des mcg qui utilise (W Vx , BVx , W Ve , Cx ) comme instruments.
Pour réaliser cette estimation, il faut au préalable estimer les variances des compo-
santes du terme d’erreur. A cet effet, il faut disposer d’une estimation convergente
des résidus et le choix naturel est celui de l’estimateur within. Cet estimateur ( ˆw )
est obtenu en régressant W y en fonction de (W Vx , W Ve ). Cette estimation est
convergente car toutes les variables sont supposées non corrélées avec les effets
individuels. De cette estimation within, on récupère les résidus ✏ˆw qui permet de
calculer l’estimateur de ⌫2 utilisé par Amemiya (1971) et Swamy & Arora (1972),
c’est-à-dire :
ˆ⌫2 = ✏ˆ>
wW ✏
ˆw /(O N K)
On extrait également de cette estimation les effets indivuels ⌘ˆn . On doit purger de
ces effets individuels l’influence des variables sans variation intra-individuelle. A
cet effet, on régresse ⌘ˆn en fonction des variables sans variation intra-individuelle
(Cx , Ce ). Les variables Ce étant corrélées avec les effets individuels, on doit trouver
au moins Kce instruments, et ceux-là sont fournis par les variables Vx , au nombre
de Kvx . On obtient alors le vecteur des coefficients estimés ˆ associés à (Cx , Ce ).
On obtient alors des résidus :
✏ˆ = y (Vx , Ve ) ˆw (Cx , Ce )ˆ (6.18)
à partir desquel on obtient l’estimateur de 2

◆ :
ˆ◆2 = ✏ˆ> Bˆ
✏/N (6.19)
Voir aussi Breusch et al. (1989) et Amemiya & MaCurdy (1986).
Exemple 6.4
Egger & Pfaffermayr (2004) se sont intéressé aux déterminants au commerce bilaté-
ral de deux pays, l’Allemagne et les Etats-Unis avec leurs partenaires commerciaux.
Les exportations sont ici observées au niveau d’une combinaison pays-secteur qui
constitue ici l’ “individu”. La variable expliquée est lrex, le log des exportations
bilatérales réelles. Les variables explicatives sont : ldist, le log de la distance entre
les deux pays, les dotations relatives des deux pays en travail (lrl), en capital (lrk)
et en capital humain (lrh), une variable mesurant la similitude entre les deux pays
(lsimi) et deux variables d’interaction : lkldist est l’interaction entre ldist et lrk-lrl
et lkgdt celle entre lrk en valeurs absolues et lgdt.
Comme les auteurs, nous commençons par estimer le modèle within pour les don-
nées concernnt les Etats-Unis. Ce modèle est valable même s’il existe des cor-
rélations entre les variables explicatives et la composante individuelle du terme
d’erreur, le problème est qu’il ne permet pas d’estimer de coefficients associés
aux variables propres à l’individu, ici la distance. Les résultats sont présentés ci-
dessous :
> data("TradeFDI", package="pder")
> TradeUS <- subset(TradeFDI, country == "us")

> wm <- plm(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+ lrh + lrl + factor(year), TradeUS, model = "within")
series country is constant and has been removed
> coef(summary(wm))[1:7, ]

lkldist -0.101909178 0.357257542 -0.2852541 7.754740e-01
lgdt 3.401276395 0.446679551 7.6145783 3.773733e-14
lkgdt -0.002224905 0.006289922 -0.3537253 7.235757e-01
lsimi 1.185650961 0.283767050 4.1782545 3.042234e-05
lrk 1.169721273 3.112589518 0.3758033 7.070963e-01
lrh 0.173182814 0.082666204 2.0949651 3.627828e-02
lrl -0.465181905 3.083511888 -0.1508611 8.800979e-01
Pour les auteurs, l’effet individuel, indiquant une propension à commercer avec un
pays donné pour des raisons de proximités géographique et culturelle est vraisem-
blablement corrélé avec la distance. Cette variable, la seule sans variation tempo-
relle, est donc corrélée avec l’effet individuel. Au niveau des variables qui varient au
cours du temps, les trois variables qui mesurent les dotations relatives en facteur
et l’indice de similitude sont considérées comme doublement exogènes, alors que
les autres sont supposées être corrélées avec la composante individuelle du terme
d’erreur.
> ht <- pht(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+ lrh + lrl + factor(year) | lsimi + lrk + lrh +lrl +
+ factor(year), TradeUS, model= "ht")

> print(summary(ht), subset = 1:9)
Oneway (individual) effect Hausman-Taylor Model

Call:
pht(formula = lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi +
lrk + lrh + lrl + factor(year) | lsimi + lrk + lrh + lrl +
factor(year), data = TradeUS, model = "ht")
T.V. exo : lsimi, lrk, lrh, lrl, factor(year)

T.V. endo : lkldist, lgdt, lkgdt
T.I. exo :
T.I. endo : ldist
Effects:
var std.dev share
idiosyncratic 0.1790 0.4231 0.049
individual 3.5074 1.8728 0.951
theta :
0.8707 0.9204 0.9287 0.9223 0.9320 0.9320
Residuals :
-2.34000 -0.24500 0.03040 0.00016 0.26400 1.48000
Coefficients :
(Intercept) -60.1815522 13.6941742 -4.3947 1.109e-05 ***
ldist -1.6473986 0.7996188 -2.0602 0.03938 *
lkldist -0.3500265 0.3183469 -1.0995 0.27154
lgdt 3.0224557 0.4016546 7.5250 5.272e-14 ***
lkgdt -0.0045699 0.0060232 -0.7587 0.44802
lsimi 1.2692939 0.2026840 6.2624 3.790e-10 ***
lrk 3.4976621 2.7600926 1.2672 0.20507
lrh 0.1232587 0.0784673 1.5708 0.11622
lrl -2.8425857 2.7783193 -1.0231 0.30625
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Total Sum of Squares: 13701

L’impression des résultats rappelle la typologie des variable. Le modèle est ici
identifié parce que le nombre de variables constantes endogènes est bien inférieur
au nombre de variables exogènes variables (1 contre 4 + 10 variables indicatrices
de l’année).
Chapitre 7
Estimation d’un modèle

dynamique
Un modèle est dit dynamique lorsqu’une de ses variables explicatives est la va-
riable expliquée retardée. L’intérêt des données de panel pour estimer un modèle
dynamique est évident. Il est naturellement impossible d’estimer une relation dy-
namique sur des données en coupe transversale et, s’agissant des séries chrono-
logiques, une telle relation ne peut être estimée précisément que si la série est
suffisamment longue. En revanche, pour des données de panel, le modèle peut être
estimé pour un ensemble d’individus observés un petit nombre de fois. Les modèles
présentés dans ce chapitre sont adaptés pour des données de panel “micro”, c’est-à-
dire des données pour lesquelles N >> T . Pour des panels “macro”, caractérisés par
une dimension temporelle équivalente ou supérieure à la dimension individuelle, les
modèles pertinents sont basés sur une adaptation des problématiques de détection
de racines unitaires et de relations de cointégration aux spécificités des données de
panel.
Parmi les nombreux exemples d’application rencontrés dans la littérature, on peut
citer :
– l’estimation de la convergence de la richesse par tête, obtenue en régressant
le taux de croissance en fonction du niveau de richesse initiale ou, ce qui est
équivalent, en régressant le niveau de richesse par tête en fonction du niveau de
richesse retardé ;
– l’analyse de la vitesse d’ajustement de la main d’oeuvre, obtenue en régressant
le nombre d’employés en fonction de différente variables, dont l’emploi retardé ;
– l’analyse de la dynamique de la consommation, basée sur une fonction de consom-
mation qui dépend de la consommation retardée.
L’article fondateur concernant l’estimation d’un modèle dynamique en panel est
celui de Balestra & Nerlove (1966). La littérature sur le sujet est devenu considé-
rable à partir des années 90 et des articles de Holtz-Eakin, Newey & Rosen (1988)
et Arellano & Bond (1991) qui ont introduit l’utilisation de la méthode d’estima-
tion des moments généralisés pour les panels dynamiques 1 . Celle-ci est devenue
la méthode d’estimation privilégiée et la plus grande partie de ce chapitre sera
consacrée à sa présentation. Il faut cependant noter que le champ d’application de
cette méthode pour les panels n’est pas limitée aux modèles dynamiques et qu’elle
peut également être utilisée avec profit pour des modèles statiques.
Exemple 7.1
Tout au long de ce chapitre, nous utiliserons l’article de Acemoglu, Johnson, Ro-
binson & Yared (2008) afin d’illustrer les résultats. Cette étude traite de la relation
causale entre le niveau de richesse et le niveau de démocratie des pays. Les auteurs
utilisent différentes données de panel. Parmi celles-ci, nous en avons retenu deux :
– les premières correspondent à une fréquence d’observation de 5 ans, avec 11
observations sur la période 1950 à 2000 pour 211 pays ;
– les secondes correspondent à une fréquence d’observation de 25 ans, avec 7 ob-
servations sur la période 1850 à 2000 pour 25 pays.
Ces données sont disponibles dans la librairie pder sous le nom de DemocracyIn-
come pour les premières et de DemocracyIncome25 pour les secondes.
> data("DemocracyIncome", package = "pder")

En coupe transversale, la relation positive entre le degré de démocratie et le revenu

par tête est évidente. Ceci est illustré sur la figure 7.1 qui utilise les données de
Acemoglu et al. (2008) pour l’année 2000. Cependant, cette corrélation instanta-
née n’implique pas nécessairement qu’il existe une relation de causalité entre les
deux variables. Les données de panel utilisées permettent de spécifier une relation
dynamique entre le revenu et la démocratie et donc d’analyser cette éventuelle
causalité.
> library("plm")
> pdim(DemocracyIncome)
> head(DemocracyIncome, 4)
country year democracy income sample

1 Andorra 1950 NA NA 0
1. Il existe de nombreuses revues de cette littérature, en particulier, Harris et al. (2008), Bond
(2002), Roodman (2009a).
Chapitre 7. Estimation d’un modèle dynamique 99
1.2
St. Kitts and
Hungary Nevis Iceland
New Sweden
Zealand
Germany
1.0
St.Belize
Lucia Estonia
Slovakia Barbados
UnitedItaly Norway
Netherlands
Canada
Belgium
Kingdom
●
Bolivia ● Costa ●●●Lithuania
●●Latvia
●
●●
●Africa
Dominica ●● Czech
Uruguay ●Republic
Greece
●●Mauritius
●Argentina Slovenia
● ●●●●● Switzerland
●●France
Spain
Israel ●
●●●Ireland
Denmark
Australia
Japan
●●●●
● ●States
United ●
Rica
Grenada
South Poland Portugal Finland
Austria Luxembourg
Cape Verde Panama
Croatia
Chile
El Salvador
St. Vincent and the GrenadinesKorea, Rep.
● ● Benin
● ● ● ● ●● ●● ● Republic
Dominican
Jamaica ●Thailand
●● Trinidad
●● ● and
Mexico ● Tobago
●
0.8
Madagascar Ghana Moldova RomaniaBulgaria
India Philippines
Mali
Senegal
Malawi Nepal
●Mozambique Bangladesh
democracy
● ●Nicaragua
●●● ● ●Guatemala
●●● ● Venezuela,
Indonesia ●Brazil
● RBSeychelles
●
0.6 Honduras SriEcuador
Lanka Peru
Burkina Faso Macedonia, FYR Antigua

Tanzania ● Niger
Nigeria
● Guinea−Bissau
● ●● ● ●Albania
Armenia
●Jordan
●Paraguay
●●●●● Turkey
Colombia
Ukraine
Georgia ● ●
Lesotho
0.4
Ethiopia 1993− Gabon

● Yemen
● ●●
Togo
Zambia ●
Morocco ●●Malaysia
Russia ●
0.2
Uganda Kenya
Burundi Congo, Rep.
Pakistan−post−1972
Azerbaijan
● ●● Tajikistan
Chad ●●Comoros
● ●●
Cote d'Ivoire ●Guinea
Kyrgyz
●Zimbabwe●●●Republic●Swaziland
Egypt, Arab● ●●
Rep. ●Tunisia
Iran
Lebanon ●● ●
Algeria Kazakhstan
Belarus
Syrian Arab Republic

0.0
Gambia, The Equatorial

ChinaGuinea
●
Rwanda ● ● ●● ●
Cameroon
6 7 8 9 10
income
Fig. 7.1 – Relation entre revenu et démocratie
Les données pour lesquelles la fréquence d’observation est de 5 ans constituent un

panel cylindré de 211 pays pour 11 périodes. Cependant, le caractère cylindré est
artificiel car il y a énormément d’observations manquantes, en particulier pour le
degré de démocratie. En plus des deux index individuels et temporels (country et
year), les données contiennent l’indice de démocratie (democracy), le logarithme
du produit intérieur brut par habitant (income) et enfin une variable indicatrice
permettant de sélectionner le sous-échantillon retenu par les auteurs (sample).
7.1 Modèle dynamique et endogénéité

Le modèle dynamique le plus simple est le modèle autorégressif d’ordre 1 :
ynt = yn(t 1) + ⌘n + ⌫nt
l’erreur du modèle étant supposée être la somme d’un effet individuel ⌘n invariant
au cours du temps et d’une composante idiosyncratique ⌫nt que l’on appellera par
la suite l’innovation.
Tout au long de ce chapitre, nous supposerons que les innovations ne sont pas
auto-corrélées E(⌫nt ⌫ns ) = 0 8s 6= t, ne sont pas corrélées avec l’effet individuel
E(⌘n ⌫nt ) = 0 et que le processus considéré n’est pas un processus de racine unitaire
(| |< 1).
Pour la période précédente, le modèle s’écrit : yn(t 1) = yn(t 2) + ⌘n + ⌫n(t 1) .
L’erreur et la variable explicative yn(t 1) sont donc corrélées puisque yn(t 1) est
corrélé avec l’effet individuel ⌘n .
7.1.1 Le biais de l’estimateur des mco

Du fait de cette corrélation, l’estimateur des moindres carrés ordinaires (ainsi que
celui des moindres carrés généralisés) n’est pas convergent. Cet estimateur s’écrit :
PN PT PN PT
ˆ= n=1 t=2 ynt yn(t 1) n=1 t=2 (⌘n
+ ⌫nt )yn(t 1)
PN PT = + PN PT 1 2
2
n=1 t=2 yn(t 1) n=1 t=1 ynt
et le numérateur du second terme ne converge pas vers 0 car ⌘n est positivement

corrélé avec yn(t 1) . La corrélation étant positive, le biais des mco est un biais
vers le haut. Afin d’analyser l’ampleur de ce biais, on réécrit ynt par substitutions
successives, en notant S la date de début du processus et 1 la date de la première
observation :
t+S
ynt = t+S
yn( S) + 1 1 ⌘n
2 t+S 1
(7.1)
+ ⌫nt + ⌫n(t 1) + ⌫n(t 2) + ... ⌫n( S+1)
En supposant que les valeurs initiales de y sont fixes, on obtient alors, pour le
dénominateur de l’estimateur des mco les limites suivantes, d’abord par rapport
à N , puis par rapport à T :
N ✓ ◆2
1 X 2 1 t+S
2 1 2(t+S)
2
lim ynt = ⌘ + 2 ⌫
N !+1 N 1 1
n=1
N T
1 XX 2 2
⌘
2
⌫
lim lim ynt = + (7.2)
T !+1 N !+1 N T
n=1 t=1
(1 )2 1 2
Pour le numérateur, avec l’hypothèse d’absence de corrélation entre l’effet indivi-

duel et les innovations, on obtient :
1 X 1 t+S 1
2
lim (⌘n + ⌫nt )yn(t 1) = ⌘
N !+1 N 1
n
1 XX 2
⌘
lim lim (⌘n + ⌫nt )yn(t 1) = (7.3)
N !+1 T !+1 N T 1
n t
L’estimateur des mco converge donc vers :

2
⌘ 2 2
1 (1 ) ⌘
plim ˆ = + 2 2
= + 2 + (1 2
⌘
+ ⌫ (1 + ) ⌘ ) ⌫
(1 )2 1 2
Au vue de cette expression, l’estimateur des mco est biaisé vers le haut. Le biais
tend vers 0 lorsque ⌘2 tend vers 0.
Exemple 7.2
Dans le modèle estimé par Acemoglu et al. (2008), la variable expliquée est l’indice
de démocratie et les variables expliquées l’indice de démocratie et le revenu par
tête retardés d’une période. Des variables indicatrices des années sont également
introduites et l’estimation est réalisée sur le sous-ensemble d’observations défini
par la variable sample. L’estimation du modèle des mco à l’aide de la fonction
lm de R est ici malaisée du fait de la présence de retards. En effet, la méthode
lag utilisée sera alors celle qui est appropriée pour les séries temporelles et non
pour les données de panel 2 . Pour cette raison, on utilisera la fonction plm de
la librairie plm en fixant l’argument model à "pooling", de manière à utiliser
les données non transformées. Le -1 dans la formule indique que l’on ne veut pas
estimer de constante générale, mais un coefficient pour toutes les modalités de la
variable year, ce qui est sans conséquence sur l’estimation.
> mco <- plm(democracy ~ lag(democracy) + lag(income) + year - 1,
+ DemocracyIncome, index = c("country", "year"),
+ model = "pooling", subset = sample == 1)
Ce même modèle peut également être estimé en fixant l’argument model à "within"
et en indiquant que l’on souhaite introduire des effets fixes temporels :
> mco <- plm(democracy ~ lag(democracy) + lag(income),
+ model = "within", effect = "time",
+ subset = sample == 1)
> coef(summary(mco))

lag(democracy) 0.70636982 0.024293078 29.07700 6.978578e-133
lag(income) 0.07231846 0.008342943 8.66822 1.915051e-17
Deux résultats ressortent de ce premier modèle. D’une part, la variable demo-

cracy semble assez persistante puisqu’on obtient un coefficient estimé égal à 0.71.
Cependant, nous savons que l’estimateur des mco souffre d’un biais vers le haut.
D’autre part, le revenu retardé semble avoir une influence significativement posi-
tive sur l’indice de démocratie.
7.1.2 L’estimateur within

Le biais des mco étant dû à la corrélation entre le terme d’erreur et la variable
endogène retardée causée par la présence d’un effet individuel, on peut penser
résoudre le problème en utilisant une transformation qui permet d’éliminer l’effet
individuel. Le choix
PT le1 plus évident est la transformation
PT within. On a alors, en
notant ȳn( 1) = t=1 ynt /(T 1) et ȳn = t=2 ynt /(T 1) :
2. Cela signifie en particulier que le retard de la variable pour la première observation du

deuxième pays sera à tort indiquée comme étant égale à la dernière observation du premier pays.
PN PT
ˆ = n=1 P t=2 (y
PT
nt ȳn )(yn(t 1) ȳn( 1) )
N
(y ȳn( 1) )2
PNn=1PTt=2 nt
n=1 P t=2 (y n(t 1) ȳn( 1) )(⌫nt ⌫
¯n )
= + N P T 2
n=1 t=2 (ynt ȳn( 1) )
Les effets individuels (et donc le problème de biais) présents dans l’estimateur des
mco ont bien disparu. En revanche, une seconde source de biais a été ajoutée. En
effet, yn(t 1) T 1 1 (yn1 + . . . + yn(T 1) ) et ⌫t T 1 1 (⌫n2 + . . . + ⌫nT ) sont corrélés.
Pour t > 2, on a un terme en T 1 1 ynt ⇥ ⌫nt , un terme en yn(t 1) ⇥ T 1 1 ⌫n(t 1)
et T 2 termes en (T 11)2 ynt ⌫nt . Chaque terme en ⌫nt ynt ayant une espérance de
⌫ , on obtient finalement :
2
✓ ◆
2 1 1 T 2 T
⌫ + 2
= ⌫2 ⇥
T 1 T 1 (T 1) (T 1)2
et le biais est donc négatif 3 . Plus précisément, on peut montrer que 4 :

T
1 1
1+ 1 T 1
plim ˆ = ⇣ ⌘
T 11 2
1 1 T
(1 )(T 1) T (1 )
Ce biais présente deux caractéristiques qui le différencie de celui des mco. Tout
d’abord, il est négatif et ensuite il tend vers 0 lorsque T tend vers l’infini. Ce biais
ne peut cependant pas être ignoré dans le cas de panels micros où la dimension
temporelle est réduite. Par exemple, pour T = 10 (soit une durée assez longue) et
= 0.5, le biais est de 0.167.
Exemple 7.3
Le modèle within est obtenu avec plm en fixant les arguments model et effect
à "within" et "twoways", puisque l’on souhaite introduire des effets temporels et
individuels. Le modèle peut être estimé simplement en actualisant le modèle des
mco précédemment estimé :
> within <- update(mco, effect = "twoways")
> coef(summary(within))

lag(democracy) 0.37862837 0.03344426 11.3211770 1.251513e-27
lag(income) 0.01041497 0.02640112 0.3944898 6.933266e-01
Par rapport au modèle des mco, le coefficient autorégressif est plus petit (0.38
contre 0.71), ce qui était attendu dans la mesure où l’estimateur within est biaisé
vers le bas alors que celui des mco est biaisé vers le haut. On constate également
qu’avec l’introduction des effets individuels, le coefficient du revenu devient très
proche de 0 et est non significatif.
3. Nickel (1981).
4. Voir par exemple Hsiao (2003) p.72.
7.1.3 Méthodes d’estimation convergentes pour les modèles

dynamiques
Les méthodes d’estimation les plus courantes utilisées dans le cas de modèles sta-
tiques étant inadaptées, plusieurs stratégies d’estimation peuvent être envisagées
afin d’obtenir un estimateur convergent.
– la première est d’utiliser la méthode du maximum de vraisemblance. Elle pré-

sente cependant l’inconvénient majeur d’être extrêmement sensible aux hypo-
thèses faites sur les valeurs initiales de la variable expliquée. Suivant que ces
valeurs sont considérées comme fixes ou aléatoires et corrélées ou non avec les
effets individuels, on obtient des modèles sensiblement différents et les biais d’es-
timation peuvent être sévères dans le cas où la spécification retenue n’est pas
la bonne. Pour cette raison, cette méthode d’estimation n’est plus beaucoup
utilisée et ne sera pas présentée ici 5 ;
– la seconde consiste à partir d’un estimateur biaisé et de corriger ce biais. C’est la
démarche suivie par Kiviet (1995) qui propose un estimateur within corrigé du
biais analysé précédemment. Cependant, l’intérêt de cette approche est limité
par le fait qu’elle n’est applicable qu’aux panels cylindrés et qu’elle ne prend
pas en considération l’éventuelle endogénéité des autres variables explicatives 6 ;
– la troisième est d’utiliser la méthode des variables instrumentales, les instru-
ments utilisés étant des retards en niveau ou en différences de la variable expli-
quée. La méthode des moments généralisés, qui est une extension de la méthode
des variables instrumentales est de plus en plus utilisée.
La méthode des variables instrumentales est utilisée sur un modèle qui a été préa-
lablement transformé de manière à éliminer les effets individuels. La transforma-
tion within apparaît de prime abord comme un choix naturel, elle est cependant
peu adaptée. En effet, en l’absence d’instruments extérieurs pertinents, les seules
variables instrumentales disponibles sont souvent la variable explicative retardée,
c’est-à-dire ici la variable expliquée
PT retardée au moins deux fois. Or, avec le modèle
within, l’erreur est : ⌫nt T 1 1 t=2 ⌫nt . Elle contient donc l’ensemble des réali-
sations de ⌫nt et est donc corrélée avec l’ensemble des valeurs retardées de ynt .
Deux transformations alternatives peuvent être utilisées avec profit, la différence
première et la déviation orthogonale.
5. Pour une présentation détaillée de l’estimation d’un panel dynamique par le maximum de
vraisemblance, voir Hsiao (2003), chapitre 4.
6. Voir Roodman (2009a), p. 103.
Pour la différence première, on a simplement znt = znt zn(t 1) , soit encore,

sous forme vectorielle, zn = Dzn avec :
0 1
1 1 0 ... 0 0
B 0 1 1 ... 0 0 C
B C
B 0 0 1 ... 0 0 C
B C
D=B . .. .. .. .. .. C
B .. . . . . . C
B C
@ 0 0 0 ... 1 0 A
0 0 0 ... 1 1
L’avantage de cette transformation est qu’elle est simple et intuitive. Elle présente
cependant trois inconvénients :
– le premier est qu’une observation, la première, est nécessairement perdue ;
– le second est que si les erreurs initiales sont non corrélées, celles du modèle
transformé le sont. En effet, on a ⌫t ⌫t 1 = (⌫t ⌫t 1 )(⌫t 1 ⌫t 2 ) et donc,
si les ⌫ sont homoscédastiques et non corrélées, les erreurs transformées sont
homoscédastiques E ⌫t2 = 2 ⌫2 , mais corrélées pour deux erreurs successives
E ( ⌫t ⌫t 1 ) = ⌫;
2
– le dernier est que, pour chaque période t où une observation est manquante,
deux observations t et t + 1 sont perdues en différence.
La transformation en déviations orthogonales ne souffre pas des deux derniers
problèmes, elle est par contre moins intuitive car elle consiste à calculer la diffé-
rence entre une observation et la moyenne des observations postérieures à celle-ci.
Formellement, on a : !
T
1 X
z̃nt = cnt znt zns
Tnt s>t
où Tnt est le nombre d’observations
q postérieures à t pour l’individu n et cnt un
facteur d’échelle égal à Tnt +1 .
Tnt
Comme pour la transformation en différences premières, une observation est per-

due, mais il s’agit désormais de la dernière. Sous forme matricielle, pour un panel
cylindré, la transformation s’écrit z̃t = Oz, avec z = (z1 , z2 , . . . zt ) et :
0 q 1
T 1 p 1 p 1 p 1 p 1
T ...
B q T (T 1) T (T 1) T (T 1) T (T 1) C
B C
B 0 T 2 p 1
... p 1 p 1 C
B T 1 (T 1)(T 2)
q (T 1)(T 2) (T 1)(T 2) C
B C
O=B B 0 0 T 3
T 2 ... p 1 p 1 C
C
B (T 2)(T 3) (T 2)(T 3) C
B
B .. .. .. .. .. .. C
C
. . . .
@ q. q . A
1 1
0 0 0 ... 2 2
En supposant que les erreurs initiales sont homoscédastiques et non corrélées, on

a alors, pour les erreurs transformées :
V(˜ ⌫ ⌫˜> ) = E(O⌫⌫ > O> ) =

⌫ ) = E(˜ 2
⌫ OO
>
= 2
⌫I
Le dernier résultat est dû au fait que les lignes de O sont mutuellement orthogo-
nales.
De plus, en cas d’observations manquantes pour une période, seule cette observa-
tion sera perdue pour l’estimation, contre deux pour le modèle estimé en différences
premières.
L’estimateur proposé par Anderson & Hsiao (1982) utilise le modèle écrit en dif-
férences premières de manière à éliminer les effets individuels. La variable expli-
cative yn(t 1) = yn(t 1) yn(t 2) est alors corrélée avec l’erreur en différences
⌫nt = ⌫nt ⌫n(t 1) . Si les innovations ne sont pas auto-corrélées, yn(t 1) peut
être instrumenté soit par yn(t 2) = yn(t 2) yn(t 3) , soit par yn(t 2) . Dans les
faits, il s’avère que yn(t 2) est un bien meilleur instrument que yn(t 2) .
Exemple 7.4
Afin de calculer l’estimateur de Anderson & Hsiao (1982), on doit spécifier que les
variables explicatives et expliquée sont en différences et que l’endogène retardée
en différence est intrumentée par l’endogène en niveau retardée de deux périodes.
Acemoglu et al. (2008) ont choisi également d’instrumenter le revenu par tête en
utilisant un deuxième retard. Le modèle est décrit simplement en utilisant une
formule à deux parties 7 , la première partie indiquant les variables explicatives et
la seconde les instruments, les deux parties étant séparées par le signe |.
> ahsiao <- plm(diff(democracy) ~ lag(diff(democracy)) +

+ lag(diff(income)) + year - 1 |
+ lag(democracy, 2) + lag(income, 2) + year - 1,
+ model = "pooling", subset = sample == 1)
> coef(summary(ahsiao))[1:2, ]

lag(diff(democracy)) 0.4686593 0.1181956 3.9651163 7.970953e-05
lag(diff(income)) -0.1035793 0.3048546 -0.3397662 7.341189e-01
Le modèle d’Anderson & Hsiao (1982) étant convergent, on s’attend à ce que le

coefficient autorégressif estimé soit compris entre celui du modèle within (biaisé
vers le bas) et celui du modèle mco (biaisé vers le haut). C’est effectivement le cas
ici, la valeur obtenue de 0.47 étant bien comprise entre 0.38 et 0.71. On remarque
également que le coefficient associé au revenu est désormais à la limite du seuil de
significativité de 10%.
7. On utilise ici les formules étendues fournies par la librairie Formula (Zeileis & Croissant,
2010).
7.2 Estimateur des moments généralisés du mo-

dèle en différences
L’estimateur des variables instrumentales présenté dans la section précédente est
inefficace pour deux raisons :
– la première est qu’il ne prend pas en compte la corrélation des erreurs provoquée
par la différenciation ;
– la seconde est qu’il existe d’autres instruments valables qui peuvent être utilisées.
Ces deux limites de l’estimateur de variables instrumentales peuvent être surmon-
tées en utilisant l’estimateur des moments généralisés proposé par Holtz-Eakin
et al. (1988) et Arellano & Bond (1991).
7.2.1 Variables instrumentales et méthode des moments gé-

néralisés
Cet estimateur prend en compte le fait que le nombre d’instruments valides aug-
mente avec t. Le caractère dynamique du modèle rend la première observation
inutilisable. Le fait que le modèle soit estimé en différences premières fait perdre
la seconde observation. Par conséquent, la première observation utilisable est la
troisième, pour laquelle le modèle s’écrit :
yn3 yn2 = (yn2 yn1 ) + (⌫n3 ⌫n2 )

Pour cette observation, yn1 est le seul instrument valable. Pour la quatrième ob-
servation, l’erreur est ⌫n4 ⌫n3 , yn2 et yn1 sont des instruments valables. Ainsi,
un instrument supplémentaire est ajouté dès que t augmente de 1. Pour l’individu
n, la matrice d’instruments s’écrit :
0 1
yn1 0 0 0 0 0 ... 0 0 0 0
B 0 yn1 yn2 0 0 0 ... 0 0 0 0 C
B C
B 0 0 0 yn1 yn2 yn3 ... 0 0 0 0 C
Zn = B C (7.4)
B .. .. .. .. .. .. .. .. .. .. .. C
@ . . . . . . . . . . . A
0 0 0 0 ... ... ... yn1 yn2 ... yn(T 2)
Les conditions de moment correspondent au vecteur µ = Z > ⌫. Les instruments

étant par hypothèse non corrélés avec les erreurs en différence, ce vecteur doit être
d’espérance nulle : E(µ) = 0. La méthode des moments généralisés consiste à écrire
l’équivalent pour l’échantillon de ce vecteur de moments théoriques, c’est-à-dire la
moyenne arithmétique de l’expression précédente pour l’ensemble des individus de
l’échantillon :
N N
1 X 1 X >
m̄ = mn = Z ( yn Xn ) (7.5)
N n=1 N n=1 n
où, dans le cas simple d’un modèle purement autorégressif, Xn est un vecteur
colonne qui contient l’endogène retardée d’une période en différence. La manière
d’obtenir l’estimateur dépend alors de la comparaison entre le nombre de moments
J et le nombre de coefficients à estimer K. Si J = K, l’estimateur des moments
est obtenu simplement en fixant (7.5) à 0 et en résolvant pour . On obtient alors :
N
! 1 N
!
X X
ˆ= Zn> Xn Zn> yn
n=1 n=1
Si J < K, le système d’équations linéaires défini par (7.5) est sous-identifié, il y a

une infinité de combinaisons de valeurs des paramètres qui permettent d’égaliser
(7.5) à 0. Dans le cas où J > K, le système est sur-identifié et, sauf cas très par-
ticulier, il n’existe pas de combinaisons de valeurs des paramètres qui permettent
d’égaliser (7.5) à 0. Dans ce cas, on cherchera la combinaison de paramètres qui
minimise la taille de ce vecteur, cette taille étant définie par une forme quadratique
du vecteur de moments empiriques :
N
! N
!
1 X > > > 1 X >
( yn Xn )Zn A Z ( yn Xn ) (7.6)
N n=1 N n=1 n
où A est la matrice de pondérations des moments. En annulant les dérivés de
(7.6) par rapport à et en résolvant par rapport à , on obtient l’estimateur des
moments généralisés :
⇥ P P ⇤ 1
ˆ = Xn> Zn A Pn Zn> Xn ⇤
⇥ Pn (7.7)
⇥ n Xn> Zn A >
n Zn yn
7.2.2 Estimateur en une étape

Pour que cet estimateur puisse être calculé, il faut choisir une matrice de pon-
dérations. Le choix le plus simple pour A est la matrice identité. Dans ce cas, la
fonction à minimiser est simplement la somme des carrés des différents éléments
du vecteur. Cette solution n’est pas efficace dans le cas où les variances de ces
différents éléments sont différentes. Dans ce cas, intuitivement, il est plus efficace
d’accorder un poids d’autant plus élevé à un élément du vecteur que sa variance est
faible. La matrice de pondération est alors une diagonale contenant l’inverse de la
variance de chaque élément. De plus, si des éléments du vecteur sont corrélés, leurs
poids conjoints doivent être réduits car ces éléments véhiculent une information
similaire. De manière générale, la matrice optimale de pondérations est l’inverse
de la matrice de variance-covariance du vecteur de moments 8 . On a donc :
N
! N
1 X 1 X
1
A = V(m̄) = V mn = 2 V(mn )
N n=1 N n=1
8. Voir Hansen (1982).

Si les erreurs en niveau sont homoscédastiques et non-autocorrélées, V(mn ) a une

expression très simple. En effet, on a :
V(mn ) = E Zn> ⌫n ⌫n> Zn = Zn> E D⌫n ⌫n> D> Zn = 2 >

⌫ Zn hZn
avec 0 1
2 1 0 ... 0
B 1 2 1 ... 0 C
B C
B
> 0 1 2 ... 0 C
h = DD = B C (7.8)
B .. .. .. .. .. C
@ . . . . . A
0 0 0 1 2
En effet, les erreurs du modèle sont les innovations en différence ⌫nt ⌫n(t 1) . En
supposant que ces erreurs son homoscédastiques et non corrélées, on a :
– E( ⌫nt2
) = 2 ⌫2 ;
– E( ⌫nt ⌫n(t 1) ) = ⌫;
2
– E( ⌫nt ⌫ns ) = 0 si | t s |> 1.

L’inverse de la matrice de pondération s’écrit alors :
N N
1 X 2 X
A(1) 1
= V(m̄) = V(mn ) = ⌫
Z > hZn (7.9)
N 2 n=1 N 2 n=1 n
2
⌫ est un scalaire inconnu qui ne joue aucun rôle dans l’estimation et qui peut donc
être ignoré. L’estimateur qui utilise cette matrice de pondérations est qualifié d’es-
⇣P ⌘ 1
N
timateur en une étape. Il s’obtient simplement en substituant >
n=1 Zn hZn
à A dans l’équation (7.7). Afin de calculer sa variance, on commence par remplacer
yn dans (7.7) par Xn + ⌫n . On obtient alors :
h P P P i 1
ˆ(1) 1
= Xn> Zn Zn> hZn Zn> Xn
h Pn P
n
P
n
i (7.10)
1
⇥ n Xn> Zn >
n Zn hZn
>
n Zn ⌫n
qui permet d’obtenir l’expression de la variance de ˆ(1) , notée V(1) :

⇣ ⌘
V(1) = E ( ˆ )( ˆ )>
h P P > i 1
> 1 P >
= X n Z n n nZ hZ n Z
n n X n
h Pn P >
> 1
⇥ X Z
n n Z hZ n
⇥ Pn
Pn
n
⇤ (7.11)
⇥ E Z
n n
>
⌫ n n ⌫ >
Z
n n i
P > 1 P >
⇥ n Zn hZn n Zn Xn
h P P i 1
> > 1 P >
⇥ n X n Z n n nZ hZ n Z
n n X n
Si les hypothèses faites sur les erreurs sont vérifiées, on a :

" ! !#
X X X
E Zn> ⌫n ⌫n> Zn = ⌫2 Zn> hZn
n n n
et l’expression de la variance se simplifie alors à :

2 ! ! !3 1
1
(1) X X X
V̂ = 2
⌫
4 Xn> Zn Zn> hZn Zn> Xn 5 (7.12)
n n n
L’estimateur des moments généralisés et sa variance peuvent être exprimés de

manière plus compacte en utilisant les notations matricielles suivantes : X > =
X1> , X2> , . . . , XN
>
, y> = y1> , y2> , . . . , yN
>
, Z > = Z1> , Z2> , . . . , ZN
>
et H une matrice bloc-diagonale obtenue en répétant h N fois. On a alors :

⇥ ⇤ 1 ⇥ ⇤
ˆ(1) = ( X > Z)(Z > HZ) 1
(Z > X) ( X > Z)(Z > HZ) 1
(Z > y) (7.13)
(1) ⇥ ⇤ 1
V̂ = 2
⌫ ( X > Z)(Z > HZ) 1
(Z > X) (7.14)
Si, contrairement aux hypothèse faites, les erreurs sont hétéroscédastiques et/ou
autocorrélées, l’estimateur en une étape demeure convergent, mais deux problèmes
classiques se posent :
– d’une part, la matrice de pondérations utilisée n’est pas une estimation conver-
gente de la “bonne” matrice de pondération, ce qui se traduit par une perte
d’efficacité ;
– d’autre part, l’estimation de la variance donnée par l’équation (7.14) n’est pas
convergente. Par conséquent, tous les tests basés sur cette variance estimée se-
ront biaisés.
7.2.3 Estimateur en deux étapes

Afin de résoudre en partie le premier problème, on peut utiliser un estimateur en
deux étapes, qui consiste à récupérer les résidus d’estimation du modèle en une
(1) ⇥ P > P ⇤ P (1) (1)>
étape ⌫ˆn et d’estimer E n Zn ⌫n n ⌫n> Zn par n Zn> ⌫ˆn ⌫ˆn Zn ,
cet estimateur étant robuste à la présence d’hétéroscédasticité et/ou d’autocorré-
lation. L’inverse de la matrice de pondération des moments utilisée s’écrit dans ce
cas : P
A(2) 1 = V̂(m̄) = N12 n V̂(mn )
P (1) (1)> ˆ ˆ(1) Z (7.15)
= N12 n Zn> ⌫ˆn ⌫ˆn Zn = N12 Z > ⌦
ˆ ˆ(1) une matrice bloc diagonale constituée des blocs : ⌫ˆn(1) ⌫ˆn(1)> pour
avec ⌦
n = 1 . . . N . L’estimateur gmm en deux étapes est alors obtenu en substituant
(7.15) à A dans l’équation (7.7) :

 ⇣ ⌘ 1
1
ˆ(2) = X >Z ˆ ˆ(1) Z
Z >⌦ Z> X
 ⇣ ⌘ 1
(7.16)
⇥ X >Z ˆ ˆ(1) Z
Z >⌦ Z> y
Concernant la variance de l’estimateur, par un raisonnement similaire à celui décrit

par les équations (7.11 et 7.12), on obtient :
(2)
h i 1
V̂ ˆ ˆ(1) Z)
= ( X > Z)(Z > ⌦ 1
(Z > X) (7.17)
Le problème de cet estimateur de la variance est qu’il intègre ⌦ˆ ˆ(1) qui dépend
des résidus d’estimation du modèle en une étape et donc de ˆ(1) et de y. Cet
estimateur est par conséquent biaisé et la dérivation d’un estimateur robuste de
la variance sera présentée dans la section 7.4.
Exemple 7.5
L’estimation d’un modèle de panel par la méthode des moments généralisés est
réalisée en utilisant la fonction pgmm de la librairie plm. Les arguments de cette
fonction sont les mêmes que ceux de la fonction plm et il y a quelques arguments
spécifiques :
– formula : la formule est particulière car elle comporte trois parties : la pre-
mière partie contient comme d’habitude les variables explicatives, la deuxième
les instruments “gmm” et la troisième les instruments “normaux” ;
– model : le modèle à estimer est soit le modèle en une étape : "onestep", soit
le modèle en deux étapes "twosteps" ;
– effect : les effets sont soit individuels "individuals" (ils sont alors éliminés par
la différentiation), soit double "twoways", dans ce cas des variables indicatrices
pour chaque période sont ajoutées ;
On estime ci-dessous le modèle en une étape. Dans la deuxième partie de la formule,
on indique ici que l’on ne souhaite utiliser que la variable democracy comme
instrument gmm et que l’on souhaite utiliser tous les retards disponibles en partant
du deuxième. Comme dans le cas précédent, on instrumente également le revenu
retardé d’une période par cette même variable retardée de deux périodes.
> diff1 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+ lag(democracy, 2:99)| lag(income, 2),
+ DemocracyIncome, index=c("country", "year"),
+ model="onestep", effect="twoways", subset = sample == 1)
> coef(summary(diff1))

lag(democracy) 0.50499446 0.09049045 5.580638 2.396373e-08
lag(income) -0.09010807 0.08029127 -1.122265 2.617498e-01
Le modèle à deux étapes est obtenu en fixant l’argument model à "twosteps" :

> diff2 <- update(diff1, model = "twosteps")
> coef(summary(diff2))

lag(democracy) 0.554007280 0.10783032 5.13776889 2.780195e-07
lag(income) 0.001843585 0.06053787 0.03045341 9.757054e-01
Tous les retards disponibles étant utilisés, le nombre d’instruments est très im-
portant. On a en effet : 0.5 ⇥ (11 1) ⇥ (11 2) = 45 instruments gmm plus les
9 variables indicatrices de la période et le revenu retardé de deux périodes, soit
J = 55.
Notons que ces résultats sont proches de ceux du modèle d’Anderson & Hsiao
(1982) ( coefficient autorégressif proche de 0.5 et coefficient du revenu non signi-
ficatif).
7.2.4 La prolifération du nombre d’instruments dans le mo-

dèle des moments généralisés en différences
Pour l’estimateur des moments généralisés, le nombre d’instruments augmente avec
la dimension chronologique de l’échantillon. Pour le modèle gmm en différences, en
considérant uniquement les niveaux de y qui instrumentent y, on a 1 instrument
y1 pour la troisième observation (la première utilisable), deux instruments y1 , y2
pour la quatrième et T 2 instruments pour la dernière observation y1 , y2 , . . . , yT 2
soit au total J = 1+2+. . .+(T 2) = 0.5(T 1)(T 2) instruments. Par exemple,
pour T = 10, on obtient 36 instruments. Le nombre d’instruments augmente donc
de manière quadratique avec T . Les matrices de pondération des moments (7.9)
et (7.15) sont de dimension J ⇥ J. Du fait de leur symétrie, elles contiennent
J ⇥ (J + 1)/2 éléments uniques. Le nombre d’éléments à estimer de cette matrice
est donc un polynôme en T dont le terme dominant est T 4 /8. Chaque élément de
cette matrice étant estimé par une moyenne empirique calculée sur les N individus
de l’échantillon, il est évident que la précision de l’estimation des éléments de cette
matrice n’est assurée que si N est “grand” par rapport à J. Si ce n’est pas le cas, il
arrive fréquemment que les matrices (7.9 et 7.15) soient singulières. L’estimateur
des moments généralisés ne peut alors plus être calculé en utilisant la formule
donnée par (7.7) car celle-ci utilise l’inverse de cette matrice. On peut alors avoir
recours à une méthode d’inverse généralisée pour calculer l’estimateur, mais c’est
clairement le symptôme d’un nombre d’instruments trop élevé par rapport au
nombre d’individus.
Pour comprendre les conséquences néfastes d’un nombre d’instruments très élevé,
le plus simple est de considérer le cas de l’estimateur des variables instrumentales.
Cet estimateur peut être obtenu en appliquant deux fois les moindres carrés : une
première fois en régressant chaque colonne de la matrice de variables explicatives
X par rapport aux variables instrumentales W , une seconde fois en régressant la
variable expliquée y par rapport aux valeurs prédites des estimations précédentes
X̂. Plus le nombre d’instruments J sera important, meilleurs seront les résultats
des premières estimations, c’est-à-dire que X̂ sera d’autant plus proche de X que
J sera élevé. Si J devient supérieur ou égal au nombre d’observations, on aura
X̂ = X et l’estimateur des variables instrumentales sera identique à celui des
moindres carrés ordinaires. On parle de problème d’ “over-fitting” 9 .
Afin de limiter le nombre d’instruments, plusieurs solutions sont envisageables. La
première consiste à limiter le nombre de retard pour les instruments. Par exemple,
pour T = 10, si on limite le nombre de retards à 3, on obtient 1 instrument pour
t = 3, 2 pour t = 4, 3 pour t = 5 . . . 10, soit au total 21 instruments contre 36 si
tous les retards sont utilisés.
La seconde consiste à “agglomérer” les conditions de moments 10 . Dans ce cas, la
matrice d’instruments (7.4) est remplacée par la matrice suivante :
0 1
yn1 0 0 0 ... 0 0 0
B yn2 yn1 0 0 ... 0 0 0 C
B C
B yn3 yn2 yn1 0 ... 0 0 0 C
B C
Zn = B .. .. .. .. .. .. .. ..C (7.18)
B . . . . . . . .C
B C
@ yn(T 3) yn(T 4) yn(T 5) yn(T 6) ... yn2 yn1 0 A
yn(T 2) yn(T 3) yn(T 4) yn(T 5) ... yn3 yn2 yn1
P
Le vecteur des (T 2) moments empiriques est alors : m̄ = 1
N n Zn> ⌫n avec :
⇣P PT PT
> T
Zn> ⌫n = t=3 yn(t 2) ⌫nt , t=4 yn(t 3) ⌫nt , t=5 yn(t 4) ⌫nt , . . . ,
PT ⌘
t=T 1 yn(t T +2) ⌫nt , yn1 ⌫nT
Exemple 7.6
Afin d’illustre le problème de prolifération des instruments, nous utilisons le second
jeu de données pour lequel la fréquence d’observation est de 25 ans.
> pdim(DemocracyIncome25)
Nous estimons le modèle gmm en différences avec les deux variables democracy
et income utilisées comme instruments gmm en utilisant l’ensemble des retards
disponibles.
> diff25 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+ lag(democracy, 2:99) + lag(income, 2:99),
+ DemocracyIncome25, model = "twosteps")
9. Voir Roodman (2009a), pp.98-99.

10. Voir Roodman (2009b), p.148.
Pour chaque instrument gmm, il y a 0.5 ⇥ 6 ⇥ 5 = 15 conditions de moments et il

y a donc au total 30 instruments gmm plus les 5 variables indicatrices des années,
soit J = 35, alors que le nombre d’individu N = 25. Comme l’indique le message
d’avertissement, la matrice de pondération est singulière et une méthode d’inverse
généralisée est utilisée.
Afin de limiter le nombre d’instruments, nous estimons le même modèle en uti-
lisant au maximum 3 retards pour chaque instrument, puis en agglomérant les
instruments.
> diff25lim <- pgmm(democracy ~ lag(democracy) + lag(income) |

+ lag(democracy, 2:4)+ lag(income, 2:4),
+ model="twosteps", effect="twoways", subset = sample == 1)
> diff25coll <- pgmm(democracy ~ lag(democracy) + lag(income) |
+ lag(democracy, 2:99)+ lag(income, 2:99),
+ model="twosteps", effect="twoways", subset = sample == 1,
+ collapse = TRUE)
> sapply(list(diff25, diff25lim, diff25coll), function(x) coef(x)[1:2])
[,1] [,2] [,3]

lag(democracy) 0.4066085 0.4678152 0.50272735
lag(income) -0.1713431 -0.1257871 -0.04221125
On constate que les résultats des trois modèles sont relativement similaires.
7.3 Estimateur des moments généralisés en diffé-

rences et en niveau
Le problème principal de l’estimateur des moments généralisés en différences est
que les retards en niveau de la variable expliquée sont souvent très faiblement
corrélés avec la variable expliquée retardée en différence. Pour résoudre ce problème
d’instruments faibles, des conditions de moments sur le modèle en niveau peuvent
être ajoutées.
7.3.1 Des instruments faibles

La faiblesse de la corrélation entre les instruments du modèle estimé en différences
et la variable explicative yt 1 peut être mise en évidence dans le cas d’un modèle
autorégressif simple avec T = 3 11 . Dans ce cas, le modèle en différences s’écrit pour
la troisième observation (la seule utilisable) :
yn3 = yn2 + ⌫n3

11. Voir Blundell & Bond (1998) p.120.
Le seul instrument disponible pour cette observation est yn1 . L’estimateur des
moments généralisés se ramène donc à l’estimateur des variables instrumentales,
yn2 étant instrumenté par yn1 . En appliquant la démarche des doubles moindres
carrés, on estime dans un premier temps yn2 en fonction de yn1 , puis dans un
second temps yn3 en fonction de ŷn2 . La première estimation correspond au
modèle linéaire suivant :
yn2 = ⇡yn1 + ⌘n
Le modèle structurel étant ynt = yn(t 1) + ⌘n + ⌫nt , l’équation à estimer peut
également s’écrire :
yn2 = ( 1)yn1 + ⌘n + ⌫n2
L’estimateur des mco est alors :
P
1/N yn1 (⌘n + ⌫n2 )
n
⇡
ˆ=( 1) + P 2
1/N n yn1
En supposant que le processus a commencé il y a un grand nombre de périodes,
on peut calculer la limite de ⇡
ˆ en notant que le numérateur tend vers ⌘2 /(1 )
(voir 7.3) et le dénominateur vers ⌘2 /(1 )2 + ⌫2 /(1 2
) (voir 7.2). On a alors,
en notant k = (1 )2 /(1 2
):
k
plim ⇡
ˆ=( 1) 2 2
(7.19)
⌘/ ⌫ +k
En notant que lim =1 k = 0, on voit clairement que si le processus est proche
d’un processus de racine unitaire, ⇡ ˆ sera proche de 0. La figure 7.2, qui représente
plim ⇡ˆ et 1 en fonction de illustre le fait que, même pour des valeurs de
sensiblement inférieures à 1, plim ⇡ˆ est très proche de 0. Les instruments sont alors
faibles et la seconde estimation du modèle des doubles moindres carré ordinaires
sera médiocre (valeur du coefficient erratique, ecart-type élevé). Les instruments
seront également faibles si la variance de l’effet individuel est très élevée par rapport
à celle de l’innovation.
7.3.2 Conditions de moments sur le modèle en niveau

Arellano & Bover (1995) et Blundell & Bond (1998) ont montré qu’avec des hy-
pothèses faibles sur la manière dont les données sont générées, une condition de
moment supplémentaire existe pour l’équation en niveau qui s’écrit :
ynt = yn(t 1) + ⌘n + ⌫nt
Les conditions de moment supplémentaires s’écrivent :
E yn(t s) (⌘n + ⌫nt ) = 0 s = 1 . . . t 1
Elles indiquent donc que yn(t s) sont des instruments valides pour yn(t 1) dans
l’équation en niveau. Si les conditions de moments pour le modèle en différences
0.0
−0.2
−0.4
−0.6
−0.8
−1.0
0.0 0.2 0.4 0.6 0.8 1.0
Fig. 7.2 – Coefficient de la première étape et 1 en fonction de la valeur du

coefficient autorégressif
sont également prises en compte, seule la condition correspondant à s = 1 est

pertinente, les autres étant redondantes. Par exemple, pour T = 4, il y 3 conditions
de moment pour l’équation en niveau 12 :
(⌘ + ⌫3 ) y2 (7.20)
(⌘ + ⌫4 ) y3 (7.21)
(⌘ + ⌫4 ) y2 (7.22)
et 3 conditions pour le modèle en différences :
(⌫3 ⌫2 )y1 (7.23)

(⌫4 ⌫3 )y2 (7.24)
(⌫4 ⌫3 )y1 (7.25)
En soustrayant (7.20) de (7.22) ou en soustrayant (7.25) de (7.24), on obtient

dans les deux cas : (⌫4 ⌫3 ) y2 . Par conséquent, une condition de moment est
redondante. On peut omettre la condition (7.22) et plus généralement ne prendre
en considération que les conditions de moment pour le modèle en niveau du type :
E yn(t 1) (⌘n + ⌫nt ) = 0.
En remplaçant yn(t 1) par yn(t 2) + ⌘n + ⌫n(t 1) , on obtient :
⇥ ⇤
E (⌘n + ⌫nt )(( 1)yn(t 2) + ⌘n + ⌫n(t 1) ) = 0
12. L’indice individuel est temporairement omis.
Les ⌫ étant non corrélés, on obtient :

⇥ ⇤
E ⌘n ( 1)yn(t 2) + ⌘n =0
Soit encore, pour la période t :
E [⌘n (( 1)ynt + ⌘n )] = 0
Pour | |< 1 (hypothèse d’absence de racine unitaire), cette condition peut se
réécrire, en la divisant par 1 :
 ✓ ◆
⌘n
mnt = E ⌘n ynt =0
1
Or, 1⌘n est l’état stationnaire de ynt dans le cadre du modèle autorégressif simple.
La condition de moment indique donc que, à la période t, l’écart entre la valeur
de la variable et l’état stationnaire ne doit pas être corrélé avec l’effet individuel.
En remplaçant ynt par yn(t 1) + ⌘n + ⌫nt , on obtient :
 ✓ ◆
⌘n
mnt = E ⌘n yn(t 1) + ⌘n + ⌫nt =
1
 ✓ ◆
⌘n
E ⌘n yn(t 1) = mn(t 1)
1
On a donc : mn(t 1) = 0 ) mnt = 0. Cette équation indique donc que la condi-
tion de moment est soit vérifiée pour toutes les périodes, soit pour aucune. Cette
situation est illustrée sur la figure 7.3 13 . Une interprétation plus pragmatique de
cette équation est que mn décroît au cours du temps à un taux donné par . Si
le processus a débuté il y a longtemps, y est proche de sa valeur stationnaire et
la condition de moment est acceptable, même si elle n’est pas exactement vérifiée.
Cette situation est illustrée sur la figure 7.4.
7.3.3 L’estimateur gmm en système

L’estimateur qui ajoute au modèle estimé en différences des conditions de mo-
ments sur le modèle en niveau est appelé estimateur des moments généralisés en
système ou “sys-gmm”. Cet estimateur est obtenu en utilisant le vecteur d’erreurs
en différence et en niveau :
✏+
n = ( ✏ n , ✏n ) = ( ⌫ n , ✏n )
et la matrice de moments augmentée suivante :

0 1
Zn 0 0 ... 0
B 0 y 0 ... 0 C
Zn = B
+
@ 0
n2 C
A
0 yn3 . . . 0
0 0 0 ... yn(T 1)
13. Cette figure et la suivante sont inspirées de Roodman (2009b) p.145 et 147.
12
●
● ● ● ● ● ● ● ●
10 ●
●
● ● ●
● ● ●
● ● ● ●
●
● ● ●
●
●
8 ●
6 ●
● ●
● ●
● ● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ●
● ●
4 ●
●
●
●
2 ●
0 5 10 15 20 25 30
Fig. 7.3 – Le cas où la condition est vérifiée à chaque période
●
● ● ● ● ●
10 ● ● ● ● ●
● ● ● ●
●
●
● ● ●
●
8 ●
●
●
●
6 ● ●
● ● ●
● ● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
● ● ●
4 ● ●
●
●
●
●
2 ● ●
0 ●
0 5 10 15 20 25 30
Fig. 7.4 – Le cas où la condition est quasiment vérifiée pour les dernières périodes
Les conditions de moments sont alors :
X ✓ ◆! > X X X
⌫n ( )
Zn+> = yn1 ⌫n3 , yn1 ⌫n4 , yn2 ⌫n4 , . . . ,
✏n ( )
n n n n
X X X
yn1 ⌫nT , yn2 ⌫nT , . . . , yn(T 2) ⌫nT ,
n n n
!>
X X X
✏n3 yn2 , ✏n4 yn3 , . . . , ✏nT yn(T 1)
n n n
Le choix d’une matrice de pondération initiale est moins évident que dans le cas
du modèle en différence. En effet, dans celui-ci, seul le vecteur des erreurs en diffé-
rences est utilisé et par conséquent la variance de ce vecteur est, avec les hypothèses
d’absence d’autocorrélation et d’homoscédasticité des innovations, proportionnelle
à une matrice connue, le coefficient de proportionnalité étant ⌫2 dont l’estimation
n’est pas nécessaire (voir 7.8). En revanche, ici, le vecteur d’erreurs augmenté in-
clue les erreurs en niveaux, et donc les effets individuels. Dans ce cas, la matrice
de variance dépend de ⌫2 et de ⌘2 . Pour résoudre ce problème et disposer d’une
matrice initiale connue, on peut supposer ⌘2 = 0. Dans ce cas :
✓✓ ◆ ◆ ✓ ◆ ✓ ◆
⌫n D⌫n ⌫n> D> D⌫n ⌫n> h D
V(✏+
n) =E ⌫n> , ⌫n> =E = 2
⌫n ⌫n ⌫n> D> ⌫n ⌫n> ⌫ D> I
Exemple 7.7
Le modèle gmm en système est obtenu d’une manière similaire au modèle en diffé-
rence, la seule différence étant que l’argument transformation doit être fixé à "ld"
(pour level et difference), sa valeur par défaut étant "d" pour difference.
> sys2 <- pgmm(democracy ~ lag(democracy) + lag(income) |

+ lag(democracy, 2:99)| lag(income, 2),
+ model = "twosteps", effect = "twoways",
+ transformation = "ld")
> coef(summary(sys2))

lag(democracy) 0.6175939 0.05713917 10.808591 3.134483e-27
lag(income) 0.1199633 0.01791565 6.696003 2.141970e-11
On constate que le coefficient autorégressif obtenu dans le modèle en système est

proche de celui obtenu précédemment dans le modèle en différence. On remarque
également que le coefficient associé au revenu est significativement positif et beau-
coup plus élevé que précédemment.
7.4 Inférence
L’estimation d’un modèle par la méthode des moments généralisés pose deux types
de problèmes en termes d’inférence :
– le premier est que, même si l’estimation du modèle est convergente, il n’en est pas
nécessairement de même pour la matrice de variance-covariance des coefficients
si la formule classique de cette matrice est appliquée. On peut alors mettre en
oeuvre des estimateurs robustes de cette matrice ;
– le second est que l’estimation n’est convergente que si certaines hypothèses sont
vérifiées : en particulier l’hypothèse d’absence de corrélation des innovations et
celle de validité des conditions de moments.
7.4.1 Estimation robuste de la matrice de variance des co-

efficients
La formule de la variance de l’estimateur en une étape est donnée par l’équation
(7.11). Si les innovations sont hétéroscédastiques
⇥ P > Pet/ou corrélées,
⇤ Z HZ n’est pas
>
un estimateur convergent de E n Zn ⌫n n
>
n ⌫ n Zn et l’estimateur de
la variance donné par (7.14) n’est pas robuste. En revanche, Z > ⌦ ˆ ˆ(1) Z est un
estimateur convergent de la variance des moments, ce qui permet, en introdui-
sant cette expression dans (7.11), d’obtenir l’estimateur robuste de la variance des
coefficients du modèle en une étape :
ˆ ⇥ ⇤ 1
V̂(1) = X > Z(Z > HZ) 1 Z > X
⇥ ˆ ˆ(1) Z)(Z > HZ) 1 Z > X
X > Z(Z > HZ) 1 (Z > ⌦ (7.26)
⇥ > > 1 >
⇤ 1
⇥ X Z(Z HZ) Z X
L’expression de l’estimateur en deux étapes est donnée par (7.16). La difficulté est
que l’estimateur dépend de ⌦ ˆ ˆ(1) , qui dépend lui-même de ˆ(1) et donc de y. Par
conséquent, ˆ(2) n’est pas une fonction linéaire de y et la formule habituelle de
la variance n’est pas adaptée.
L’estimation de la variance du vecteur des J moments ⌦ ˆ ˆ(1) est typiquement très
imprécise pour deux raisons. La première est que le nombre de paramètres est
très important (J ⇥ (J + 1)/2). La seconde est que ces paramètres sont des mo-
ments d’ordre 2 de moments d’ordre 2, donc des moments d’ordre 4 des données
originales 14 . La démarche proposée par Windmeijer (2005) permet d’obtenir une
estimation convergente de la variance de l’estimateur en deux étapes. Pour com-
mencer, on remplace dans (7.16) y par X + ⌫. On obtient alors :
 ⇣ ⌘ 1 1
ˆ(2) = X >Z Z >⌦ ˆ ˆ(1) Z Z> X
 ⇣ ⌘ 1 (7.27)
⇥ X >Z Z >⌦ ˆ ˆ(1) Z Z> ⌫
14. Voir Roodman (2009b) p.140.

De manière générale, on définit :

 ⇣ ⌘ 1
1
ˆ
g( y, ⌦) = ˆ
X > Z Z > ⌦Z Z> X
 ⇣ ⌘ 1
(7.28)
⇥ ˆ
X > Z Z > ⌦Z Z> ⌫
ce qui implique que ˆ(2) ˆ ˆ(1) ). La variance de ˆ(2) est donc celle de
= g( y, ⌦
g( y, ⌦ˆ ˆ(1) ). On réalise ensuite un développement limité d’ordre 1 de g autour de
la vraie valeur des paramètres . On note D le gradient de g évalué pour la vraie
valeur des paramètres :
@ ˆ ˆ) | ˆ
D= g( y, ⌦ =
@ˆ
Le développement limité s’écrit alors :
g( y, ⌦ ˆ ) + D( ˆ(1)
ˆ ˆ(1) ) ⇡ g( y, ⌦ )
Or, ( ˆ(1) ) = g( y, H). Par conséquent, le développement limité devient :

ˆ ˆ(1) ) ⇡ g( y, ⌦
g( y, ⌦ ˆ ) + Dg( y, H)
La variance de ˆ(2) est alors approximée par :

h ih i>
ˆ ˆ ) + Dg( y, H) g( y, ⌦
ˆ ) + Dg( y, H)
V̂(2) ⇡ g( y, ⌦
Soit encore :
ˆ ˆ )g(
V̂(2) ⇡ g( y, ⌦ y, H)> D>
+ Dg( y, H)g( ˆ )>
y, ⌦ (7.29)
+ ˆ )g(
g( y, ⌦ ˆ )>
y, ⌦
+ Dg( y, H)g( y, H)> D>
En remplaçant ⌫ par ˆ par ⌦
⌫ˆ(1) et ⌦ ˆ ˆ(1) , g( y, ⌦
ˆ )g( y, ⌦ ˆ )> et g( y, ⌦
ˆ )g( y, H)>
(2)
h i 1
sont tous les deux approximés par V̂ = ˆ ˆ(1) Z) 1 Z > X
X > Z(Z > ⌦ . De
⇥ ⇤ 1 (1)
plus, g( y, H)g( y, H)> = X > Z(Z > HZ) 1 Z > X = V̂ . On obtient
donc finalement l’expression de la matrice de variance robuste de l’estimateur en
deux étapes :
ˆ (2) (1) (2) (2)
V̂(2) = V̂ D> + DV̂ D> + V̂ + DV̂
L’expression de D est donnée par Windmeijer (2005).
Exemple 7.8
La fonction vcov permet d’obtenir l’expression “classique” et non convergente de
la variance et vcovHC permet d’obtenir la version robuste (équations 7.26 pour le
modèle en une étape et 7.29 pour le modèle en deux étapes). Nous extrayions ci-
dessous les écarts-types des deux premiers coefficients pour le modèle en différences
en deux étapes.
> sqrt(diag(vcov(diff2)))[1:2]
lag(democracy) lag(income)
0.04794953 0.04645903
> sqrt(diag(vcovHC(diff2)))[1:2]
lag(democracy) lag(income)
0.10783032 0.06053787
On constate effectivement sur cet exemple que l’expression classique de la variance

de l’estimateur semble biaisée vers le bas. En effet, l’écart-type “robuste” est net-
tement supérieur à l’écart-type “classique”.
7.4.2 Tests de validité des moments

Si P
les conditions de moments sont valides, le vecteur de moments empiriques m̄ =
1
N
>
n Zn ⌫n est d’espérance nulle. Si cette hypothèse est vérifiée, la statistique
de Wald :
m̄> V(m̄) 1 m̄
suit un 2 à J K degrés de liberté. Ce test a été proposé par Sargan (1958) et
appliqué aux modèles des moments généralisés par Hansen (1982).
Plusieurs versions de ce test peuvent être obtenues selon :
– que les résidus du modèle en une étape ou en deux étapes sont utilisés pour
approximer m̄ ;
2
ˆ ˆ(1) Z) de la matrice de
– que l’estimation simple ( N⌫2 Z > HZ)ou robuste ( N12 Z > ⌦
variance des moments est utilisée.
Par exemple, le test portant sur le modèle à deux étapes utilisant l’estimation
robuste de la matrice des moments est basé sur la statistique :
⇣ ⌘ 1
1 1 >ˆ 1 >
N ⌫ˆ(2)> Z N 2 Z ⌦ ˆ(1) Z NZ ⌫ˆ(2) =
⇣ ⌘ 1
⌫ˆ(2)> Z ˆ ˆ(1) Z
Z >⌦ Z > ⌫ˆ(2)
qui est la valeur de la fonction objectif du modèle de moments généralisés en deux

étapes évaluée pour ˆ(2) .
Il est recommandé, dans le cas du modèle “sys-gmm”, de réaliser un test de Sargan-
Hansen sur le sous-ensemble de conditions de moments qui concerne le modèle
en niveau, afin de tester séparément la validité des hypothèses supplémentaires
imposées pour que ce modèle soit valide.
Exemple 7.9
Le test de Sargan-Hansen est réalisé à l’aide de la fonction sargan . Par exemple,
pour le modèle en différences en une étape, on obtient :
> sargan(diff2)
Sargan Test
data:
chisq = 49.8814, df = 44, p-value = 0.251
> sargan(sys2)
Sargan Test
data:
chisq = 55.6784, df = 54, p-value = 0.4114
On a pour le modèle en différences J = 55 (les 45 instruments “gmm”, la variable

de revenu et les 9 variables indicatrices de la période) et K = 11 (l’endogène
retardée, le revenu et les 9 variables indicatrices de la période). Le nombre de
degrés de liberté de ce test est donc de J K = 44. L’hypothèse de validité des
moments pour ce modèle est ici non-rejetée.
Pour le modèle en système, le nombre d’observations utilisées est de 10 (une de plus
que dans le modèle en différence). Il y a donc un coefficient et un instrument en
plus (le coefficient associé à la variable indicatrice de la période supplémentaire),
et 10 instrument supplémentaires qui correspondent aux conditions de moments
pour les 10 observations du modèle en niveau. On a donc J = 55 + 1 + 10 = 66 et
K = 11 + 1 = 12. Le nombre de degrés de liberté est donc de J K = 66 12 = 44
et là aussi, l’hypothèse de validité des conditions de moment pour le modèle gmm
en système n’est pas rejetée.
Le test de Hansen-Sargan est particulièrement sensible au problème de proliféra-

tion des instruments. Roodman (2009b) montre, en utilisant les études de Levine
et al. (2000) et de Forbes (2000), que la probabilité critique de ce test a tendance
à être très élevée, ce qui conduit à ne pas rejeter l’hypothèse de validité des condi-
tions de moments, alors que le même test réalisé sur des modèles plus parcimonieux
en termes de nombre d’instruments peut conduire au résultat opposé. Afin d’illus-
trer ce résultat, on calcule le test de Sargan sur les modèles estimés précédemment
sur les données pour lesquelles il y a 7 observations de 25 pays.
> sapply(list(diff25, diff25lim, diff25coll),
+ function(x) sargan(x)[["p.value"]])
chisq chisq chisq

0.91890072 0.07104934 0.21531390
La probabilité critique pour le modèle qui utilise toutes les conditions de moment
est proche de 1, alors que celles des deux autres modèles sont bien inférieure ; en
particulier, pour le modèle qui limite le nombre de retards à 3, l’hypothèse de
validité des conditions de moment est rejetée au seuil de 5%.
7.4.3 Test d’absence d’autocorrélation des innovations

La méthode des moments généralisés n’est convergente que si les conditions de
moments sont vérifiées, ce qui implique en particulier que les innovations ne sont
pas auto-corrélés. Arellano & Bond (1991) ont proposé un test adapté à cette
situation. Ce test est basé sur la statistique suivante :
1
al = p ⌫ˆ> ⌫ˆ l
N
où ⌫ l est le retard d’ordre l de ⌫. En utilisant l’expression du modèle théorique

et du modèle estimé : y = X + ⌫ = X ˆ + ⌫ˆ, on obtient :
⌫ˆ = ⌫ X( ˆ )
En insérant cette expression dans la statistique de test, on obtient :

⇣ ⌘⇣ ⌘
al = p1N ⌫> ( ˆ )> X > ⌫ l X l( ˆ )
= p1N ⌫ > ⌫ l
p
p
N
1
⌫ >
X l
N( ˆ )
ˆ > 1 >
⌫ l
pN ( ) N X p
+ N( ˆ ) N N X> X l N ( ˆ
> p1 1
)
Cette expression se simplifie sipN !p+1 en notant que :

– ˆ étant convergent d’ordre N , N ( ˆ ) n’est ni divergent, ni ne converge
vers 0 ;
– si les variable explicatives ne sont pas post-déterminées, elles ne sont pas corré-
lées avec les valeurs postérieures de ⌫. On a alors : N1 ⌫ > X l ! 0 ;
– N1 X > X l ne diverge pas.
ce qui implique que les deuxième et quatrième termes convergent vers 0. Le calcul
d’un estimateur convergent de la variance de al peut donc être basé sur celle de :
1 ⇣ > ⌘
bl = p ⌫ ⌫ l (ˆ )> X > ⌫ l
N
Un estimateur convergent de bl (et donc de al ) est :
1 ⇣
⌫ˆ l>
V̂( ⌫ˆ) ⌫ˆ l
+ ⌫ˆ l>
X V̂( ˆ) X > ⌫ˆ l
N ⌘
2 ⌫ˆ l>
X( X > ZAZ > X) 1
XZAZ > V̂( ⌫ˆ) ⌫ˆ l
La statistique de test est alors obtenue en divisant al par la racine carré de l’ex-
pression précédente et elle suit une distribution normale si l’hypothèse d’absence
d’autocorrélation est vérifiée. Le modèle étant exprimé en différence, le test d’au-
tocorrélation d’ordre 1 n’est pas pertinent car ⌫nt = ⌫nt ⌫n(t 1) est corrélé
avec ⌫n(t 1) = ⌫n(t 1) ⌫n(t 2) du fait de la présence de ⌫n(t 1) dans les deux
différences successives. En revanche, le test d’autocorrélation d’ordre 2 est per-
tinent, puisqu’il consiste à analyser la corrélation entre ⌫nt = ⌫nt ⌫n(t 1) et
⌫n(t 2) = ⌫n(t 2) ⌫n(t 3) , qui existe si ⌫n(t 1) est corrélé à ⌫n(t 2) , c’est-à-dire
si les innovations en niveau présentent une autocorrélation d’ordre 1.
Exemple 7.10
Le test d’autocorrélation des innovations de Arellano & Bond (1991) est obtenu à
l’aide de la fonction mtest . L’argument order est ici fixé à 2 conformément à la
remarque précédente.
> mtest(diff2, order = 2)
Autocorrelation test of degree 2
data:
normal = 0.8809, p-value = 0.1892
Les résultats détaillés du modèle sont disponibles en utilisant la méthode summary

. Les tests précédemment décrits sont imprimés et l’inférence est réalisée à l’aide
de l’estimateur robuste de la variance des coefficients si l’argument robust est vrai,
ce qui est la valeur par défaut.
> summary(diff2)
Twoways effects Two steps model
Call:
pgmm(formula = democracy ~ lag(democracy) + lag(income) | lag(democracy,
2:99) | lag(income, 2), data = DemocracyIncome, subset = sample ==
1, effect = "twoways", model = "twosteps", index = c("country",
"year"))
Number of Observations Used: 838
Residuals
-1.301000 -0.003145 0.000000 0.001891 0.000000 1.079000
Coefficients
lag(democracy) 0.5540073 0.1078303 5.1378 2.78e-07 ***
lag(income) 0.0018436 0.0605379 0.0305 0.9757
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Sargan Test: chisq(44) = 49.8814 (p.value=0.25098)

Autocorrelation test (1): normal = -4.457875 (p.value=4.1388e-06)
Autocorrelation test (2): normal = 0.8592423 (p.value=0.1951)
Wald test for coefficients: chisq(2) = 28.13308 (p.value=7.78e-07)
Wald test for time dummies: chisq(9) = 33.6682 (p.value=0.00010211)
7.5 Exemples d’application

Les articles utilisant la méthode des moments généralisés en panel sont très nom-
breux. Nous nous contenterons ici de décrire ceux pour lesquels les données sont
disponibles dans les librairies plm et pder.
L’étude de Levine et al. (2000) vise à analyser s’il existe une relation de causalité
entre la qualité du système financier (qui permet de limiter les asymétries d’infor-
mation et de faciliter les transactions) et la croissance économique. A cet effet, ils
estiment un modèle dans lequel la croissance économique est estimée en fonction
d’un ensemble de variables de contrôle et des caractéristiques exogènes du sys-
tème financier. Ils utilisent un panel de 74 pays pour lequel ils ont 7 observations
de périodes de 5 ans allant de 1960 à 1995. Le taux de croissance en logarithme
est régressé en fonction du niveau de richesse initiale en logarithme, et de trois
indicateurs de la qualité du système financier : le degré de liquidité du système
financier, le rapport entre les dépôts des banques commerciales et la somme des
dépôts des banques commerciales et de la banque centrale et le rapport entre les
crédits accordés à l’économie et le PIB. Les deux modèles gmm en différences et
en système sont estimés et les trois indicateurs de la qualité du système financier
ont une influence significativement positive sur la croissance, en particulier dans
le cadre de l’estimation en système. Roodman (2009b) revient sur cette étude en
s’intéressant au problème de prolifération des instruments, susceptible d’aboutir à
une validation fallacieuse de l’hypothèse de validité des conditions de moments. En
particulier, dans l’étude originale, la probabilité critique du test de Hansen pour
les conditions de moments du modèle en niveau est de 0.97. Des spécifications dif-
férentes, plus économes en termes de nombre d’instruments, utilisées par Roodman
(2009b) donnent des résultats bien différents. En effet, la probabilité critique est
de 0.001 et l’hypothèse de validité des conditions de moments supplémentaires du
modèle en système est rejetée. Les données permettant de reproduire ces résultats
sont disponibles sous le nom de FinGrowth dans la librairie pder.
Forbes (2000) s’intéresse à l’influence de l’inégalité de la distribution des revenus
sur la croissance économique. A cet effet, un panel de 45 pays pour 6 périodes
quinquennales allant de 1960 à 1995 est utilisé. La croissance est estimée en fonc-
tion du revenu par tête en logarithme retardé d’une période, du coefficient de Gini
retardé d’une période, du niveau d’éducation des hommes et des femmes et du ni-
veau de prix de l’investissement. Plusieurs méthodes d’estimation sont utilisées, en
particulier l’estimateur gmm en différences de Arellano & Bond (1991). Le résultat
principal de l’étude est que le coefficient associé à l’indice de Gini est positif et
significatif au seuil de 5%. Ce résultat est en contradiction avec beaucoup d’études
réalisées en coupe transversale qui concluent à une relation négative entre inéga-
lité et croissance. Cette étude a été reprise par Roodman (2009b) afin d’illustrer le
risque d’utiliser des instruments faibles et nombreux. En effet, le coefficient autoré-
gressif est proche de 1 et le nombre d’instruments est très élevé (80, alors qu’il n’y
a que 138 observations). Roodman (2009b) utilise plusieurs autres spécifications
qui limitent le nombre d’instruments et, dans ce cas, l’indice de Gini n’est plus
significatif.
Caselli et al. (1996) s’intéressent à l’analyse de la croissance économique des pays
et en particulier au phénomène de convergence. Il partent des résultats obtenus
dans de nombreuses études réalisées en coupe transversale qui aboutissent pour
la plupart à la conclusion que les pays convergent vers leur état stationnaire à un
taux très faible, égal environ à 2-3%. Leur argument est que ces études souffrent
de deux problèmes de spécification : le premier est la non prise en compte de
la nature dynamique du modèle et le second est la non prise en compte de la
possible endogénéité des variables explicatives. Les auteurs appliquent l’estimateur
de Arellano & Bond (1991) sur un panel de 93 pays et 6 périodes quinquennales
de 1965 à 1985. Ils aboutissent à un taux de convergence beaucoup plus élevé, de
l’ordre de 10%. Bond et al. (2001) indiquent que les résultats obtenus doivent être
pris avec circonspection dans la mesure où la variable expliquée étant quasiment
une variable à racine unitaire, les instruments utilisés dans le modèle sont faibles.
Ils réestiment le même modèle en utilisant l’estimateur de Blundell & Bond (1998)
et ils obtiennent alors un taux de convergence beaucoup plus faible, de l’ordre de
2-4%.
Dans leur article fondateur, Arellano & Bond (1991) ont utilisé des données de 140
entreprises britanniques de 1976 à 1984 afin d’estimer une équation de demande de
travail. Celle-ci est dynamique du fait de l’inclusion de deux retards de la variable
expliquée. Les autres variables explicatives utilisées, elles aussi avec deux retards,
sont le taux de salaire, le stock de capital et le niveau de production. Ces données
ont été utilisées dans de nombreux autres articles, en particulier Blundell & Bond
(1998), Windmeijer (2005) et Roodman (2009a). Elles sont disponibles sous le nom
de EmplUK dans la librairie plm.
Alonso-Borrego & Arellano (1999) mènent une étude sur des données similaires
concernant 738 entreprises espagnoles sur la période 1983-1990. Un modèle var
est utilisé pour l’emploi et le taux de salaire. Ces données sont disponibles sous le
nom de Snmesp dans la librairie plm.
Mairesse & Hall (1996), Blundell & Bond (2000) et Bond (2002) ont estimé une
fonction de production Cobb-Douglas sur un panel de 509 entreprises américaines
sur la période 1982-1989. Les variables explicatives sont, en logarithme, l’endogène
retardée et les deux facteurs de production (travail et capital) contemporains et
avec un retard. Les résultats de Mairesse & Hall (1996), obtenus en utilisant l’esti-
mateur de Arellano & Bond (1991) sont surprenants : l’hypothèse de rendements
constants est rejetée et le coefficient associé au capital est faible et non-significatif.
Blundell & Bond (2000) montrent que ces mauvais résultats sont dûs au fait que
les variables utilisées sont proches d’être des processus de racine unitaire. Dans
ce cas, on sait que l’estimateur gmm en différences donne de mauvais résultat car
les instruments sont faibles. En revanche, les résultats qu’ils obtiennent en uti-
lisant l’estimateur en système donne des résultats plus plausibles (hypothèse de
rendements constants non rejetée et coefficient associé au capital significatif). Ces
données sont disponibles sous le nom de RDPerfCompanies dans la librairie pder.
Bond (2002) présente un exemple d’estimation de modèle autorégressif simple en
utilisant une série de taux d’investissement pour 703 entreprises américaines sur
la période 1987-2000. Ces données sont disponibles sous le nom de InvRate dans
la librairie pder.
Kessler et al. (2011) s’intéressent à l’influence des transferts inter-régionaux dans
un Etat fédéral sur les inégalités entre les régions. Leur modèle théorique prédit
que, contrairement à l’intuition, ces transferts peuvent aggraver les inégalités inter-
régionales. Ils utilisent des données pour 17 pays de l’OCDE sur la période 1982-
1999, en utilisant en particulier la méthode d’estimation de Arellano & Bond
(1991). Les résultats indiquent effectivement qu’un accroissement des transferts
aggrave les inégalités inter-régionales. Ces données sont disponibles sous le nom
de RegIneq dans la librairie pder.
Chapitre 8
Modèles linéaires généralisés et

assimilés
Les modèles linéaires généralisés constituent une famille de modèles utilisés en

statistique. Ces modèles sont caractérisés par une fonction de distribution pour la
variable expliquée et inclue, comme cas particulier :
– le modèle gaussien, équivalent au modèle linéaire,
– le modèle binomial, pour lequel la variable explicative ne prend que deux valeurs ;
deux cas particuliers très utilisés des modèles binomiaux sont les modèles logit
et probit,
– le modèle de Poisson, adapté au cas où la variable expliquée est une variable de
comptage.
En plus de ces modèles, très couramment utilisés en économétrie, nous décrivons
dans cette section d’autres modèles qui ne sont pas des modèles linéaires généralisés
mais qui constituent des extensions naturelles de ceux-ci ; il s’agit :
– du modèle tobit qui est un mélange du modèle gaussien et du modèle probit,
– du modèle ordonné, qui est une extension naturelle du modèle binomial,
– du modèle negbin, qui est une extension du modèle de Poisson.
8.1 Le modèle binomial

8.1.1 Introduction
On considère une modèle pour lequel la variable expliquée est binomiale, les deux
valeurs possibles étant notées 0 et 1. On définit une variable latente y ⇤ , qui est
une variable continue inobservable. Cette variable latente est reliée à la variable
binomiale observée y par la règle d’observation suivante :
y⇤ > µ ) y = 1
y⇤  µ ) y = 0
Sans perte de généraité, on peut supposer que µ = 0. La valeur de la variable

latente est la somme d’une combinaison linéaire de variables explicatives et d’un
terme d’erreur.
y⇤ = >
x+✏
Les probabilités associées aux deux valeurs possibles de la variable expliquée sont
alors :
>
P (y = 0) = P (✏  x)
>
P (y = 1) = P (✏ > x)
En notant F la fonction de densité cummulée de ✏, nous avons :
>
P (y = 0) = F ( x)
> >
P (y = 1) = 1 F( x) = F ( x)
la dernière expression étant valable si la densité de ✏ est symétrique. En notant

q = 2y 1, qui est égal à 1, +1, la probabilité peut être exprimée en utilisant
l’expression compacte suivante :
>
P (y) = F (q x)
La moyenne et la variance de la variable latente ne sont pas identifiées. Deux
fonctions de distribution sont couramment utilisées. La distribution normale :
Z 1
1 2
F (✏) = (✏) = p e ✏
1 2⇡
qui conduit au modèle probit et la distribution logistique :
e✏
F (✏) = ⇤(✏) =
1 + e✏
qui conduit au modèle logit.
La fonction de log de vraisemblance s’écrit :
X
ln L = ln Fi
i
avec :
Chapitre 8. Modèles linéaires généralisés et assimilés 131
>
Fi = F (zi ) and zi = qi ⇥ xi
Le gradient est :
@ ln L X fi
= qi xi
@ i
Fi
et la hessienne :
X ✓ ◆2 !
@ 2 ln L fi0 fi
>
= qi2 xi x>
i
@ @ i
Fi Fi
Pour le modèle logit, ces deux expressions deviennent :
@ ln L X 1
= qi xi
@ i
1 + ezi
@ 2 ln L X ezi
= q 2 xi x>
@ @ > i
1 + ezi i i
alors que pour le modèle probit, on obtient :
@ ln L X i
= qi x i
@ i i
@ 2 ln L X i ✓ i
◆
= zi + qi2 xi x>
i
@ @ > i i i
8.1.2 Panel
Dans le cas de données de panel, nous disposons d’observations répétées de y pour
les mêmes individus. La variable latente est alors définie par :
⇤ >
ynt = xnt + µn + ⌫nt
Le terme d’erreur est classiquement la somme de deux composantes, un effet in-
dividuel µn et un terme isiosyncratique ⌫nt . Deux observations du même individu
sont alors corrélées du fait de la présence de µn . Si le vecteur contient une
constante, on peut suposer sans perte de généralité que E(µ) = 0.
⇤ >
ynt = xnt + µn + ⌫nt
Pour une valeur donnée de µn , la probabilité est définie comme précédemment
pour une observation :
>
P (ynt | µn ) = F qnt ( xnt + µn )
La probabilité jointe des différentes réalisations de y pour les différentes périodes

pour l’individu n s’écrit :
T
Y
>
P (yn1 , yn2 , . . . , ynT | µn ) = F qnt ( xnt + µn )
t=1
La probabilité non conditionelle est obtenue en intégrant cette expression. En

supposant que la distribution de µ est normale, on obtient :
Z T
+1 Y
> 1 0.5( µ )
2
Ln = F qnt ( xnt + µ) p e dµ
1 t=1 2⇡
µ dµ
v=p ) dv = p
2 2
Z T
+1 Y ⇣ p ⌘
1 > v2
Ln = p F qnt ( xnt + 2 v) e dv
⇡ 1 t=1
Il n’y a pas d’expression analytique pour cette intégrale, mais elle peut être ap-
proximée numériquement de manière efficace en utilisant les quadrature d’Hermite.
On a alors :
1 X
R YT ⇣ p ⌘ 1 X
R
>
Ln = p wr F qnt ( xnt + 2 vr ) = p wr Fir
⇡ r=1 t=1
⇡ r=1
QT p
avec : Fir = t=1 F qnt ( >
xnt + 2 vr )
r
r @ ln Fnt
gnt = r
@znt
@ 2 ln Fntr
hrnt = r 2
@znt
Le gradient et la hessienne sont, en notant ✓ = ( , ) l’ensemble des paramètres à

estimer :
R
" ( T ✓ ◆)#
@ ln Ln 1 X r X x nt
=p F wr qnt gnt p
r
@✓ ⇡Ln r=1 n t=1
2vr
" T ✓ ◆⇣
@ 2 ln Ln 1 X r
R X 2 xnt p ⌘
= p Fn w r r r
qnt hnt p x>nt , 2vr
@✓@✓> ⇡Ln r=1 t=1
2vr
XT ✓ ◆! X T ⇣ ⌘
!#
x nt
p
+ r
ant gnt p r
ant gnt x>
nt , 2vr
2vr
t=1 t=1
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.1.3 Application
Brender & Drazen (2008) se sont intéressé à l’influence de la politique budgétaire
sur la réélection des hommes politiques. Plus précisément, il est souvent suggéré
que lorsqu’une échéance électorale approche, les hommes politiques en place ont
tendance à mener une politique budgétaire plus généreuse, c’est-à-dire à réduire
les impôts et/ou à augmenter les dépenses. Dans cet article, un panel de 75 pays
est utilisé, avec un nombre d’observations compris entre 1 et 16. Au sein de cet
échantillon, un sous-ensemble d’observations est isolé lorsque l’homme politique
au pouvoir se représente (pour les autres observations, on analyse si le parti au
pouvoir est réélu ou non). Ce sous-échantillon peut être sélectionné à l’aide de la
variable logique narrow. La variable expliquée est reelect qui vaut 1 en cas de
réélection et 0 autrement. Les deux variables explicatives cruciales sont ddefterm
et ddefey qui mesure le ratio d’excédent budgétaire, dans le premier cas pour
les deux années précédent l’élection par rapport aux deux années précédentes et
dans le second cas pour l’année de l’élection par rapport à l’année précédente. Les
variables de contrôle sont le taux de croissance du pib durant le mandat gdppc,
le fait que le pays soit en développement ou non dev, le fait qu’il soit nouvellement
une démocratie nd et le fait que le système électoral soit majoritaire ou non maj.
> library("pglm")
> data("Reelection", package="pder")
Les résultats du modèle logit à effets aléatoires est donné ci-dessous :

> summary(elect.ea <- pglm(reelect~ddefterm+ddefey+gdppc+dev+nd+maj, Reelection,
+ family=binomial(link=’logit’), subset = narrow))
--------------------------------------------
Return code 1: gradient close to zero
8 free parameters
Estimates:
(Intercept) -1.53702 0.48947 -3.1402 0.001689 **

ddefterm 14.08614 8.21124 1.7155 0.086259 .
ddefey 13.79305 6.99844 1.9709 0.048738 *
gdppc 19.37953 7.61767 2.5440 0.010958 *
dev 0.89268 0.42963 2.0778 0.037728 *
nd 0.80960 0.43940 1.8425 0.065402 .
maj 0.84695 0.38076 2.2243 0.026126 *
sigma 0.84054 0.34604 2.4290 0.015140 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
On constate que la probabilité de réélection est plus forte dans les pays en dévelop-
pement, dans les pays nouvellement démocratique et pour les systèmes électoraux
majoritaires. Le taux de croissance du pib a également l’effet positif attendu sur la
probabilité de réélection. Concernant la politique budgétaire, les coefficients asso-
ciés aux deux variables indiquant la variation du surplus budgétaire à l’approche de
l’élection sont positifs ; cela signifie qu’une politique budgétaire “électoraliste” n’a
pas d’effet positif systématique sur la réélection. A l’inverse, les résultats indiquent
que les électeurs auraient plutôt tendance à pénaliser ce type de politique.
8.2 Modèle ordonné

8.2.1 Introduction
Un modèle ordonné est un modèle pour lequel la variable expliquée peut prendre
J valeurs (avec J > 2). La modélisation est similaire au modèle binomial. On
considère une variable latente, égale comme précédemment à la somme d’une com-
binaison linéaire de variables
explicatives et d’un terme d’erreur :
y⇤ = >
x+✏
Notons ! = (!1 , !1 , . . . , !J , !J+1 ) un vecteur de paramètres, avec !1 = 1 et

!J+1 = +1. La règle d’observation pour les différentes valeurs de y s’écrit alors :
>
y = 1 , !1  x+✏  !2
>
y = 2 , !2  x+✏  !3
.. .. .. ..
. . . .
>
y = J 1 , !J 1  x+✏  !J
>
y = J , !J  x+✏  !J+1
En notant F la fonction de densité cummulative de ✏, la probabilité associée à une
valeur de y s’écrit :
> >
P(y = j) = F (!j x) F (!j 1 x)
The probability of the outcome yn for the individual n can be writen :

> >
Pyn = P(y = yn ) = F (!yn +1 xn ) F (!yn xn )
The gradient and the hessian are, denoting ✓ = ( , !) the complete set of the
parameters, wh a vector of J + 1 elements which are all zero except at the h
0
position and f the derivative of the density function f :
✓ ◆ ✓ ◆
@ ln Ln xn fyn +1 xn f yn
=
@✓ wyn +1 Py n w yn Py n
✓ ◆ 0 ✓ ◆ 0
@ 2 ln Ln xn fyn +1 xn f yn
= x> >
n , wyn +1 x> >
n , w yn
@✓@✓> wyn +1 Py n w yn Py n
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.2.2 Panel
Le raisonnement est similaire à celui adopté pour le modèle binomial. La proba-
bilité jointe pour un individu n pour une valeur donnée de l’effet individuel est :
T
Y ⇥ > >
⇤
P (yn1 , yn2 , . . . , ynt | µn ) = F !ynt +1 xnt µn F !ynt xnt µn
t=1
En supposant que la distribution des effets individuels est normale, la probabilité

non conditionelle s’écrit :
Z T
+1 Y ⇥ > >
⇤ 1 0.5( µ )
2
Ln = F !ynt +1 xnt µn F !ynt xnt µn p e dµ
1 t=1 2⇡
En utilisant le même changement de variable que précédemment, on obtient :
Z T h
+1 Y ⇣ p ⌘ ⇣ p ⌘i
1 > > v2
Ln = p F !ynt +1 xnt 2 v F !ynt xnt 2 v e dv
⇡ 1 t=1
que l’on peut approximer en utilisant les quadrature de Gauss-Hermite :
R T h ⇣ ⌘ ⇣ ⌘i
1 X Y
>
p >
p
Ln = p wr F !ynt +1 xnt 2 vr F !ynt xnt 2 vr
⇡ r=1 t=1
En notant :
8 r >
p +r >
p
>
> znt = !ynt xnt 2vr znt = !ynt +1 xnt 2vr
>
> m r
< nt 0 nt= m(z r
) 1 m+r
nt = m(z
0 nt
+r
) 1
xn xn
>
>
> Mnt
>
r
= @ wpynt A Mnt = @ wypnt +1 A
r+
:
2vr 2vr
R T
1 X Y ⇥ +r r
⇤
Ln = p wr Fnt Fnt
⇡ r=1 t=1
QT ⇥ +r ⇤
avec ✓> = ( > , ! > , ) le vecteur complet de paramètres à estimer, Fnr = t=1 Fnt r
Fnt
+r r +r
@ ln[Fnt Fnt ] r @ 2 ln[Fnt r
Fnt ]
r
gnt = @z r , hnt = @z r 2 le gradient et la hessienne s’écrivent :
nt nt
R
( T
)
@ ln Ln 1 X X
+r +r
=p wr Fnr gnt Mnt r
gnt r
Mnt
@✓ ⇡Ln r=1 t=1
8 ! !>
2
@ ln Ln 1
R
X < X
T T
X
+r +r +r +r
= p wr Pnr gnt Mnt r
gnt r
Mnt ⇥ gnt Mnt r
gnt r
Mnt
@✓@✓> ⇡Ln r=1
:
t=1 t=1
T
X T
X
e+r
ynt +r +r > erynt r r >
+ Mnt Mnt Mnt Mnt
t=1
Fy+r
nt Fyrnt t=1
Fy+r
nt Fyrnt
T +r +r > !)
X fy+r Mnt fyrnt Mnt
r
fy+r Mnt fyrnt Mnt
r
nt nt
2
t=1 Fy+r
nt Fyrnt
✓ ◆✓ ◆>
@ ln Ln @ ln Ln
@✓ @✓
8.2.3 Application
Raux et al. (2009) ont analysé l’équité perçue de différents type de rationnement
de la demande à l’aide d’une enquête dans laquelle les individus devaient indiquer
sur une échelle ordinale leur avis sur une proposition de rationnement concernant
soit l’allocation de places de TGV, soit de places de parking. La variable expliquée
answer prend des valeurs entières de 0 (très injuste) à 3 (très juste). La principale
variable explicative indique le type de rationnement proposé : tarification de pointe
peak, règle administative admin, tirage au hasard lottery, offre complémentaire
addsupply, file d’attente queuing, règle morale moral et règle de compensation
compensation. Les autres variables explicatives indique que le rationnement est
récurrent ou non reccuring, que la personne interrogée a un diplôme education
et qu’elle dispose ou non d’un permis de conduire driving. L’estimation suivante
est un probit ordonné pour le bien parking en prenant en compte l’interaction

entre le type de règle et l’éducation.
> data(’Fairness’, package = ’pglm’)

> op <- pglm(as.numeric(answer)~recurring+driving+education+rule,
+ data= Fairness,subset=good==’parking’,
+ family=ordinal(’probit’), R=10, index=’id’,
+ model="random")
> summary(op)
--------------------------------------------
13 free parameters
Estimates:
(Intercept) -0.268592 0.072483 -3.7056 0.0002109 ***
recurringyes -0.077394 0.059175 -1.3079 0.1909119
drivingno 0.255440 0.079863 3.1985 0.0013816 **
educationno -0.308525 0.105204 -2.9326 0.0033610 **
ruleadmin -0.066439 0.088131 -0.7539 0.4509275
rulelottery 0.238053 0.086215 2.7612 0.0057594 **
ruleaddsupply 1.221326 0.085302 14.3177 < 2.2e-16 ***
rulequeuing 1.847690 0.088629 20.8476 < 2.2e-16 ***
rulemoral 2.836708 0.098330 28.8487 < 2.2e-16 ***
rulecompensation 2.622407 0.095999 27.3170 < 2.2e-16 ***
mu_1 1.018679 0.037790 26.9566 < 2.2e-16 ***
mu_2 2.515460 0.058926 42.6888 < 2.2e-16 ***
sigma 0.529240 0.050331 10.5152 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
8.3 Modèle tobit

8.3.1 Introduction
On considère désormais une variable y qui est censurée à gauche en 0. Sa relation
avec la variable latente continue y ⇤ est alors la suivante :
y⇤  0 ) y = 0
y⇤ > 0 ) y = y⇤
Les mêmes hypothèses que précédemment sont faites sur la variable latente, c’est-
à-dire y ⇤ = > x + ✏, avec ✏ ⇠ N (0, ✏2 ). La contribution d’une observation à la
vraisemblance dépend alors du fait que cette observation soit nulle ou positive.
Pour une observation nulle, il s’agit d’une probabilité :
✓ >
◆
x
P(y = 0) =
✏
alors que pour une observation positive, il s’agit de la densité :

✓ >
◆
1 y x
f (y) =
✏ ✏
En notant In0 et In+ deux variables indicatrices qui valent respectivement 1 si

l’observation est nulle et positive et 0 autrement, la contribution d’une observation
à la fonction devraisemblance est alors :
 ✓ >
◆ 0
In  ✓ >
◆ +
In
xn 1 yn xn
⇥
✏ ✏ ✏
ce qui conduit à la fonction de log de vraisemblance :
n 
X ✓ >
◆ ✓ >
◆
xn 1 1 (yn xn ) 2
ln L = In0 ln In+ ln(2⇡ 2
✏) + 2
i=1 ✏ 2 2 ✏
Le gradient et la hessienne ont pour expression :

⇢
@ ln Ln In0 n yn e n
= + 2
xn
@ ✏ n ✏
⇢ ✓ ◆
@ ln Ln In0 > xn n In+ e2n
= 1
@ ✏2 2 ✏3 n 2 ✏2 2
✏
 ✓ >
◆
@ 2 ln Ln 1 xn n n
= In0 + + yn x n x >
n
@ @ > 2
✏ ✏ n n
⇢  ✓ >
◆ >
@ 2 ln Ln 1 n xn n n xn en
= In0 + + In+ xn
@ @ ✏2 2 3
n ✏ n n 2 4 4
⇢  ✓ ◆
@ 2 ln Ln 1 n n 2
4
= ẽ0n 3 ẽ0n + ẽ0n + In+ (1 2 ẽ+
n
@ ✏ 2 ✏4 n n
8.3.2 Panel
En cas d’observation répétées pour les mêmes individus, on décompose comme
précédemment l’erreur en la somme d’un effet individuel et d’un terme isiosyncra-
tique : µn : ynt
⇤
= > xnt + µn + ✏nt , avec ✏ ⇠ N (0, ✏2 ) et µ ⇠ N (0, µ2 )
La probabilité jointe d’observer le vecteur yn = yi1 , . . . , ynt pour l’individu n pour
une valeur donnée de l’effet individuel est :
T
( ✓ ◆ 1 ynt  ✓ ◆ ynt
)
Y >
xnt + µn 1 ynt >
xnt µn
P(yn | µn ) = ⇥
t=1 ✏ ✏ ✏
La probabilité non conditionnelle s’obtient en intégrant l’expression précédente

par rapport à l’effet individuel :
Z +1 ⇣ ⌘2
1 1 µ
P(yn ) = q P(yn | µn )e 2 µ dµ
2⇡ 2 1
µ
En utilisant le changement de variable z = pµ , on obtient :

2 µ
82 0 q 131 ynt 2 0 q 1
Z T >
< >
xnt + 2 2 > 2
1 +1 Y µz 1 ynt xnt 2 µz
P(yn ) = p 4 @ A5 ⇥4 @ A
⇡ 1 t=1 >
: ✏ ✏ ✏
qui peut être approximé par la quadrature de Gauss-Hermite :
( ✓ p ◆  ✓ p ◆
1 ynt
PR QT >
xnt + 2 2
µ vr ynt >
xnt 2 2
µ vr
P(yn ) = p1
⇡ r=1 wr t=1 ✏
⇥ 1
✏ ✏
PR
= p1 r
wr Pnt
⇡ r=1
avec :
2 0 q 1 0 ⇣ q
> 2 >
T
X xnt + 2 µ vr ynt xnt
r 6 @ A B 2
ln Pnt = 4(1 ynt ) ln 0.5ynt @ln(2⇡ ✏) + 2
t=1 ✏ ✏
Le gradient s’écrit :
⇢ ⌘ ✓ x ◆
ynt ⇣
XR r p
@ ln Ln 1 r (1 ynt ) nt 2 p nt
= p w P
r nt ⇥ r + ent 2 ✏ vr
@( , µ2 ) 2⇡Ln r=1 ✏ nt
2
✏ 2vr
8 0 ⇣ p
>
< (1 p 2
R
X ynt )( >
xnt + 2 2 r ent 2 ✏v
@ ln Ln 1 r µ vr ) nt ynt B
=p wr Pnt ⇥ r @1
@ ✏2 2⇡Ln r=1
>
: 2
3/2
✏ nt 2 ✏2 2
✏
8.3.3 Application
Porto & Revelli (2012) se sont intéressé aux déterminants du niveau d’une taxe
régionale sur les automobiles en Italie. Les données concernent une panel consti-
tué des 100 régions italiennes sur 7 ans (2000-2007). La variable expliquée tax
est censurée car certaines régions certaines années ont choisi de ne pas appliquer
cette taxe. Les variables explicatives sont le fait qu’il y ait ou non une élection
régionale election, le fait que le gouvernement régional soit ou non de droite
right, le montant de subventions reçu par la région grants en euros par tête, le
revenu régionale par tête income et le nombre de véhicules immatriculés l’année
précédente vehicules.
> data("VehiculeTax", package="pder")
On commence par analyser la variable explicative :

> mean(VehiculeTax$tax)
[1] 16.52429
> prop.table(table(VehiculeTax$tax == 0))
FALSE TRUE
0.8785714 0.1214286
Le taux de taxe moyen est de 16.5% et il est nul pour 12% des observations.
L’estimation du modèle tobit à effets aléatoires nous donne :
> summary(z <- pglm(tax~right+log(grants)+log(income)+vehicules+election,
+ VehiculeTax, family="tobit", R=30))
--------------------------------------------
8 free parameters
Estimates:
(Intercept) -9.70268 6.77223 -1.4327 0.1519389
rightyes -2.36868 0.86185 -2.7484 0.0059890 **
log(grants) 1.96307 0.51455 3.8151 0.0001361 ***

log(income) 6.54658 2.22255 2.9455 0.0032241 **
vehicules -3.34148 1.26429 -2.6430 0.0082182 **
election 0.10314 0.51589 0.1999 0.8415450
sd.eps 4.96077 0.15649 31.7012 < 2.2e-16 ***
sd.mu 5.68479 0.51949 10.9431 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
8.4 Poisson
8.4.1 Introduction
On considère désormais un modèle pour lequel la variable expliquée est une variable
de comptage. Nous supposons dans un premier temps que la distribution de y est
une loi de Poisson de paramètre ✓n (qui est à la fois la moyenne et la variance
de la variable). Avec cette hypothèse de distribution, la probabilité associée à yn
s’écrit :
✓n y n
e ✓n
P (yn ) =
yn !
En utilisant le lien logarithmique, le paramètre de Poisson est une fonction log-
linéaire des variables explicatives :
>
xn
✓n = e
Ce qui conduit à la probabilité suivante pour l’observation n.
>x >
e n x n yn
e e
P (yn | xn ) =
yn !
En prenant cette probabilité en logarithmes et en sommant pour l’ensemble des
individus, on obtient la fonction de log de vraisemblance suivante :
n
X n
X n
X
>
xn >
ln L = e + x n yn ln yn !
i=1 i=1 i=1
Le gradient et la hessienne s’écrivent :
@ ln L X ⇣ ⌘
n
>
xn
= yn e xn
@ i=1
n
X
@ ln L >
= e xn
xn x>
n
@ @ > i=1
8.4.2 Panel
En cas d’observations répétées pour les mêmes individus, on écrit désormais le
paramètre de Poisson pour l’individu n à la date t de la manière suivante :
>
xnt
✓nt = ↵n nt = ↵n e
ce qui signifie que l’on suppose que l’effet individu est multiplicatif. Pour une valeur
donnée de cet effet individuel, la probabilité associée à ynt s’écrit :
✓nt ynt ↵n ynt
e ✓nt e nt
(↵n nt )
P(ynt | xnt , ↵n , ) = =
ynt ! ynt !
PT
Soit Yn = t=1 ynt la somme des réalisations de la variable pour l’ensemble des
PT
périodes pour l’individu n et ⇤n = t=1 nt la somme des paramètres de Poisson.
La somme de variables de Poisson est une variable de Poisson dont le paramètre
est égal à la somme des paramètres des variables sommées. Par conséquent, nous
avons :
↵n ⇤n
e (↵n ⇤n )Yn
P(Yn | xn , ↵n , ) = (8.1)
Yn !
Soit yn = (yi1 , yi2 , . . . , ynt ) le vecteur de réalisations de y pour l’individu n. On a
alors :
↵n
PT QT ynt ↵n ⇤i
QT ynt
e t=1 nt
t=1 (↵n nt ) e ↵nYn nt
P(yn | xn , ↵n , ) = QT = QT
t=1
(8.2)
t=1 ynt ! t=1 ynt !
En appliquant le théorème de Bayes, on a :
P(yn | xn , ↵n , ) = P(yn | xn , ↵n , , Yn )P(Yn | xn , ↵n , )

i.e. la probabilité jointe des éléments de yn est le produit de la probabilité condi-
tionnelle de yn compte tenu de la somme des réalisations Yn et de la distribution
marginae de Yn . Cette probabilité conditionnelle s’écrit :
P(yn | xn , ↵n , )
P(yn | xn , ↵n , , Yn ) =
P(Yn | xn , ↵n , )
ce qui implique :
T
Yn ! Y yntnt
P(yn | xn , , Yn ) = (8.3)
⇤Ynn t=1 ynt !
Yn est une “statistique suffisante”, ce qui signifie qu’elle permet d’éliminer l’ef-
fet individuel. En prenant le logarithme de cette expression et en sommant pour
l’ensemble des individus, on obtient le modèle de Poisson “within” :
n T T
!
X X X
ln L(y | x, , Y ) = ln Yn ! Yn ln nt + (ynt ln nt ln ynt !) (8.4)
i=1 t=1 t=1
Pour obtenir le modèle “between” et le modèle à effets aléatoires, on doit intégrer

les probabilités pertinentes (8.1 et ?? respectivement), en faisant une hypothèse de
distribution pour ces effets indivduels. Comme ceux-ci sont nécessairement positifs,
un choix de distribution naturel est une distribution gamma, dont la densité s’écrit :
ab ax b 1
f (x, a, b) = e x
(b)
avec
Z +1
(z) = tz 1
e t dt
0
la fonction . L’espérance et la variance de x sont respectivement :
b b
E(x) =
and V(x) = 2
a a
Si le modèle contient une constante, l’espérance n’est pas identifiée et on peut
donc, sans restriction, supposer qu’elle est égale à 1, ce qui implique que a = b.
On obtient ainsi une distribution de gamma à un paramètre (noté ) :
↵ 1
f (↵) = e ↵
( )
En intégrant les probabilités conditionelles (8.1 et ??), on obtient les probabilités
non-conditionelles pour les modèles “between” et pour le modèles à effets aléa-
toires :
Z +1
⇤ n Yn (Yn + )
P(Yn | xn , ) = P(Yn , xn , ↵, )f (↵)d↵ =
0 Yn ! ( ) (⇤n + )Yn +
Z +1 T
Y ynt
nt (Yn + )
P(yn , xn , ) = P(yn , xn , ↵, )f (↵)d↵ =
0 t=1
ynt ! ( ) (⇤n + )Yn +
ce qui conduit aux fonctions de log de vraisemblance pour les deux modèles :
Pn P
ln L(Y | x, ) = i=1 [Yn ln ln Yn ! + ln ⇣
t nt ⌘i
PT (8.5)
ln ( ) + ln (Yn + ) (Yn + ) ln t=1 nt +
Pn P
ln L(y | x, ) = i=1 [ t (ynt ln
ln ynt !) + ln⇣ nt ⌘i
PT (8.6)
ln ( ) + ln (Yn + ) (Yn + ) ln t=1 nt +
8.4.3 Application
Drakos (2007) s’est intéressé à la mesure des actions terroristes. Plus précisément,
l’hypothèse testée est qu’il y a un biais vers le bas dans la publicité faite par les
autorités sur les actions terroristes menées sur leur sol et que ce biais est d’autant
plus important que le pays est peu démocratique, et en particulier que la liberté
de la presse n’est pas respectée. A cet effet, on souhaite estimer un modèle dans
lequel la variable expliquée est le nombre d’actions terroristes (incidents) et les
deux variables explicatives polity qui est un index de régime politique qui varie de
-10 (régime très autocratique) à +10 (régime très démocratique) et press qui est
une variable catégorielle avec trois modalités : notFree, partlyFree et Free.
> data("Terrorism", package="pder")
On commence par estimer le modèle à effets aléatoires, qui est le modèle par
défaut :
> ea <- pglm(incidents~polity+press, data = Terrorism,
+ index = c("country", "year"), family = poisson)
> summary(ea)
--------------------------------------------
Return code 2: successive function values within tolerance limit
5 free parameters
Estimates:
(Intercept) 0.5672487 0.1388095 4.0865 4.379e-05 ***
polity 0.0686051 0.0070205 9.7721 < 2.2e-16 ***
presspartlyFree 0.0221862 0.0602074 0.3685 0.7125
pressFree 0.1376516 0.0752343 1.8296 0.0673 .
sigma 0.3977339 0.0451065 8.8177 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
Le coefficient associé à la variable polity est de signe positif et est très significa-
tive. Les coefficients associés aux trois modalités de la variable press sont classés
conformément à ce qui était attendu. Pour tester la significativité de cette variable,
on peut réaliser un test de Wald :
> stpress <- as.numeric(coef(ea)[3:4]%*%solve(vcov(ea))[3:4,3:4]%*%coef(ea)[3:4])
> stpress
[1] 5.685158
qui suit, sous H0 un chi-deux à 2 degrés de liberté. La probabilité critique est :

> pchisq(stpress, df = 2, lower.tail = FALSE)
[1] 0.05827518
L’hypothèse que la variable press n’a pas d’influence n’est pas rejetée au seuil de
5%, mais elle l’est au seuil de 10%.
Les autres modèles (pooling, within et between) sont aisément estimé en mettant
à jour le modèle précédemmment estimé :
> po <- update(ea, model="pooling")

> wi <- update(ea, model="within")
> be <- update(ea, model="between")
> summary(wi)
--------------------------------------------
3 free parameters
Estimates:
polity 0.068894 0.007416 9.2899 < 2e-16 ***
presspartlyFree 0.010625 0.060334 0.1761 0.86021
pressFree 0.127728 0.075556 1.6905 0.09093 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------
Les résultats des modèles within et à effets aléatoires sont très proches, ce qui doit
être le cas en l’absence de problèmes de corrélation entre l’effet individuel et les
variables explicatives.
8.5 Negbin
8.5.1 Introduction
Les variables de comptage présentent souvent un phénomène de dispersion excé-
dentaire, ce qui signifie que la variance est souvent supérieure à la moyenne. Dans
ce cas, le modèle NegBin est une alternative intéressante au modèle de Poisson.
Ce modèle, dans un contexte de coupe transversale, est très similaire au modèle
de Poisson à erreurs composées.
Supposons que yn est une variable aléatoire qui suit une distribution de Poisson
>
de paramètre ✓n = ↵n n avec n = e xn si le lien est logarithmique, ↵n étant
une variable aléatoire.
La probabilité conditionelle pour yn est :
✓n y n ↵n yn
e ✓n e n
(↵n n)
P(yn | xn , ↵n , ) = =
yn ! yn !
On suppose que ↵n suit une distribution gamma et, comme on l’a vu précédem-
ment, la moyenne n’est pas identifiée de fait qu’une distribution à un paramètre
est choisie, qui impose une moyenne unitaire.
↵ 1
f (↵) = e ↵
( )
En intégrant la probabilité conditionelle en uilisant cette fonction de densité, on
obtient :
Z +1 ↵
e (↵ i )yi
i
↵ 1
P (yn | xn ) = e ↵ d↵
0 yi ! ( )
✓ ◆ n
✓ ◆y n
n n (yn + n )
P (yn | xn ) =
n+ n n+ n (yn + 1) ( n )
Pour comprendre la signification de n , on calcule les deux premiers moments de
yn . Tout d’abord, pour une valeur donnée de ↵n , on a toujours : E(yn | ↵n ) =
V(yn | ↵n ) = ✓n = ↵n n . L’espérance non-conditionelle est : E↵ (↵ n ) = n car
l’espérance de ↵ est égale à 1.
Pour calculer la variance non-conditionelle, on applique la règle de la variance :
1
V(yn ) = E↵ (↵ n) + V↵ (↵ n) = n + 2
n
n
Une formule générale pour n est :

2 k
n
n =
⌫
Pour k = 1, on obtient le modèle Negbin1, avec n = n /⌫ et V(yn ) = n (1 + ⌫).
Dans ce cas, la variance est proportionelle à la moyenne.
Pour k = 2, on obtient le modèle Negbin2, avec n = 1/⌫ et V(yn ) = n +⌫ n.
2
Dans ce cas, la variance est une fonction quadratique de la moyenne.
8.5.2 Panel
T
!
Y ( + ynt )
nt (⇤n ) (Yn + 1)
P(yn | xn , , Yn ) = (8.7)
t=1
( nt ) (ynt + 1) (⇤n + Yn )
(⇤n + Yn ) (a + b) (a + ⇤n ) (b + Yn )
P(Yn | xn , ) = (8.8)
(⇤n ) (Yn + 1) (a) (b) (a + b + ⇤n + Yn )
T
!
(a + b) (a + ⇤n ) (b + Yn ) Y ( nt + ynt )
P(yn , xn , ) = (8.9)
(a) (b) (a + b + ⇤n + Yn ) t=1
( nt ) + (ynt + 1)
Chapitre 9
Racines unitaires et
cointégration
9.1 Introduction
La détection de la présence de racines unitaires et de relations de cointégration est
devenue un sujet phare de la macro-économétrie. Les techniques utilisées dans le
cadre de séries temporelles ont été adaptées au cas de données de panel. Nous com-
mencerons par rappeler les principaux résultats concernant les séries temporelles
avant de présenter ces techniques.
On considère une variable yt pour laquelle on suppose un processus autorégressif
d’odre 1 :
yt = ⇢yt 1 + x>
t + ✏t
Le vecteur de variables explicatives peut contenir un 1, un trend linéaire et diffé-
rentes variables explicatives. Pour simplifier, on supposera par la suite que = 0,
on s’intéresse donc à un processus autorégressif “pur”. Concernant l’erreur (appelée
aussi dans ce contexte l’innovation), nous supposerons qu’elle est d’espérance nulle
et d’écart-type . Par substitutions successives, on obtient :
y t = ⇢t y 0 + ⇢t 1
✏ 1 + ⇢t 2
+ . . . + ⇢✏t 1 + ✏t
Si y0 est déterministe et les ✏ ne sont pas corrélés, la variance de yt s’écrit :
V(yt ) = (⇢t 1
+ ⇢t 2
+ . . . + ⇢ + 1) 2
Si ⇢ 6= 1, on a :
1 ⇢t 1
V(yt ) = 2
! 2
1 ⇢ 1 ⇢
En revanche, si ⇢ = 1, on a V(yt ) = t 2 , la variance augmente avec t et tend vers

l’infini, la série n’est pas stationnaire, on dit qu’elle présente une racine unitaire.
La présence de racine unitaire présente plusieurs problème, le principale étant celui
des régressions falacieuses. En présence de racine unitaire, une série présente une
sorte de tendance, qui n’est pas une tendance déterministe mais stochastique, et le
présence de tendances de ce type sur deux séries présentant des racines unitaires
peut faire apparaître une corrélation artificielle entre deux variables. Sur la fi-
gure 9.1 on présente deux séries autorégressives avec ⇢ = 0.2 et ⇢ = 1. On constate
que dans le premier cas, le processus autoregressif se traduit par une corrélation
entre les valeurs successives de yt , en particulier si yt 1 < 0, il y a plus de chances
que yt soit négatif que positif. Cependant, la courbe représentative de y coupe
malgré tout fréquemment l’axe des abcisses. Dans le cas d’une racine unitaire en
revanche, on voit clairement la présence d’un trend stochastique (ici à la hausse),
yt ne change de signe qu’une seule fois et la plupart des valeurs de y sont positives.
5
2
● ●
●
●
●●
4
●●● ●
● ● ●
● ● ●
1
● ●● ● ●
● ●
●
●
3
●
●
● ● ● ●
● ● ●
● ●
● ●● ●
2
0
●● ●●
●● ● ●●
● ●
● ●
●●
1
● ●●
●● ●
●
●
−1
● ●
● ●
0
● ● ●
●
●
●
−1
●
−2
●
●
● ●
−2
● ● ●●
0 10 20 30 40 0 10 20 30 40
Fig. 9.1 – Courbe représentative pour un processus autoregressif
Pour illustrer l’importance du phénomène de régressions fallacieuses, on mène

un exercice de simulations ; on créé deux séries indépendantes autorégressives,
on régresse l’une par rapport à l’autre et on récupère la statistique de student
correspondant à l’hypothèse HO : = 0. Cette hypothèse est ici vraie et, dans un
contexte normal, cela signifie que, dans 95% des cas, on doit avoir une statistique
inférieure à 2 en valeur absolue. Commençons par illustrer ce résultat pour ⇢ = 0.2.
A cet effet, on utilise 2 fonctions : autoreg génère une série autoregressive, tstat
réalise une estimation et récupère la statistique de Student :
> autoreg <- function(rho = 0.1, T = 100){

+ e <- rnorm(T)
Chapitre 9. Racines unitaires et cointégration 151
+ for (t in 2:(T)) e[t] <- e[t]+rho*e[t-1]

+ e
+ }
> tstat <- function(rho = 0.1, T = 100){
+ y <- autoreg(rho, T)
+ x <- autoreg(rho, T)
+ z <- lm(y ~ x)
+ coef(z)[2] / sqrt(diag(vcov(z))[2])
+ }
> result <- c()
> R <- 1000
> for (i in 1:R) result <- c(result, tstat(rho = 0.2, T = 40))
> quantile(result, c(0.025, 0.975))
2.5% 97.5%
-2.114024 1.990031
> prop.table(table(abs(result) > 2))
FALSE TRUE
0.943 0.057
On constate que les quantiles empiriques sont très proches des valeurs attendues et
le pourcentage de cas où une relation significative entre les deux variables apparaît
est de l’ordre de 5%. Faisons maintenant la même expérience avec deux séries
contenant une racine unitaire :
> result <- c()
> R <- 1000
> for (i in 1:R) result <- c(result, tstat(rho = 1, T = 40))
> quantile(result, c(0.025, 0.975))
2.5% 97.5%
-9.158448 8.227059
> prop.table(table(abs(result) > 2))
FALSE TRUE
0.379 0.621
En se fiant à la statistique de Student habituelle, on retient désormais la conclusion

qu’il existe une relation significative entre les deux variables dans deux tiers des
cas, alors que ces variables sont par constructions indépendantes.
Il est donc crucial de déceler la présence de racines unitaires ; autrement, le risque
est grand d’obtenir des résultats faussement significatifs lorsque l’on réalise des
estimations sur séries temporelles. Pour cela, le plus simple est d’écire le modèle
autorégressif en en enlevant de chaque côté yt 1 . On a alors :
yt = (⇢ 1)yt 1 + ✏t
Le test de présence de racine unitaire se ramène alors à un test que le coefficient
estimé associé à yt 1 lorsque la variable expliquée est yt est nul. On peut alors
penser à utiliser une statistique de Student classique, obtenue en divisant ⇢ˆ 1 par
son écart-type. En posant HO : ⇢ = 1 vs H1 : ⇢ < 1, on rejettera alors l’hypothèse
de racine unitaire au seuil de 5% si la statistique est inférieure à 1.64. A cet effet,
on réalise de nouveau un exercice de simulations :
> R <- 1000

> T <- 100
> result <- c()
> for (i in 1:R){
+ y <- autoreg(rho=1, T=100)
+ Dy <- y[2:T] - y[1:(T-1)]
+ Ly <- y[1:(T-1)]
+ z <- lm(Dy ~ Ly)
+ result <- c(result, coef(z)[2] / sqrt(diag(vcov(z))[2]))
+ }
On représente sur la figure 9.2 les réalisations de la statistique de Student à l’aide

d’un histograme, en superposant la courbe de densité normale :
0.5
0.4
0.3
0.2
0.1
0.0
−4 −3 −2 −1 0 1
Fig. 9.2 – Histograme de la statistique de Student en présence de racine unitaire
On constate qu’on ne peut en aucun cas analyser la présence de racine unitaire en

utilisant l’inférence classique car la statistique de Student suit ici une distribution
très éloignée de la normale. En utilisant la valeur critique habituelle de 1.64, on
obtient ici :
> prop.table(table(result < -1.64))
FALSE TRUE
0.542 0.458
ce qui conduirait à rejeter l’hypothèse nulle de racine unitaire alors qu’elle est
vraie environ une fois sur deux. Le test que l’on vient de réaliser est le test de
Dickey-Fuller, il nécessite l’utilisation de valeurs critiques spécifiques qui ne sont
pas celles correspondant à une densité normale. On peut également réaliser ce
test en introduisant en plus une constante et/ou un trend déterministe et on peut
également ajouter des retards de y de manière en prendre en considération une
éventuelle autocorrélation de ✏.
La régression de deux séries présentant toutes les deux une racine unitaire est
pertinent si ces deux séries présentent une relation structurelle de long terme, on
parle alors de co-intégration. Plus précisément, on dira que deux variables x et y
sont co-intégrés si il existe tel que :
y = x+✏
avec ✏ qui ne contient pas de racine unitaire. Un test simple de cointégration peut
alors être réalisé de la manière suivante :
1. on utilise un test de Dickey-Fuller pour vérifier que x et y ont une racine
unitaire,
2. on estime alors y en fonction de x et on récupère les résidus d’estimation e,
3. on utilise un test de Dickey-Fuller sur e : si on rejette l’hypothèse de racine
unitaire, x et y sont cointégrés et la régression de y en fonction de x a du
sens, sinon x et y ne sont pas cointégrés et la régression de y en fonction de
x est falacieuse.
9.2 Tests de racine unitaire en panel

Le test classique de racine unitaire est souvent appelé adf pour “augmented
Dickey-Fuller”. Plusieures extensions de ce test ont été proposées afin de le rendre
utilisable et efficace sur données de panel.
Résultats préliminaires
Certains de ces tests sont obtenus en appliquant des tests adf pour chaque individu
de l’échantillon. Pour réaliser ces tests préliminaires, il faut choisir le nombre de
retards dans la régression suivante :
Ln
X
ynt = (⇢ 1)yn(t 1) + yn(t s)
s=1
Ce choix peut être réalisé en utilisant différents critères :
– le critère d’information de Swartz (SIC),

– le critère d’information d’Akaike (AIC),
– la méthode de Hall, qui consiste à retirer le retard le plus élevé tant qu’il n’est
pas significatif.
La régression est réalisée sur T Ln 1 observations pour chaque individu, soit
un nombre d’observations total de N ⇥ T̃ avec T̃ = T (L̄ 1)
avec L̄ le nombre moyen de retards. Notons en le vecteur de résidus pour l’individu
n, sa variance est estimée par :
PT 2
t=Ln +1 ent
ˆ✏2n =
dfn
dfn étant le nombre de degrés de liberté de l’estimation.
9.2.1 Test de Levin-lin-Chu

Levin et al. (2002) sont les premiers à avoir proposé un test de racine unitaire en
panel. Pour réaliser ce test, on réalise deux régressions préliminaires qui consistent
à regresser ynt et yit 1 en fonction de yit L et dmt de manière à récuperer
deux vecteurs de résidus notés znt et vnt .
Ces deux résidus sont ensuite normalisés en les divisant par l’écart-type estimé, et
on réalise alors une régression sur l’ensemble de l’échantillon de znt /ˆn en fonction
de vnt /ˆn de manière à obtenir ⇢ˆ, son écart-type ˆ (ˆ⇢) et la statistique de Student
t⇢ˆ = ⇢ˆ/ˆ (ˆ
⇢).
La variance de long-terme de yn est alors estimée :
T K̄
" T
#
1 X X 1 X
ˆy2n = 2
ynt +2 wK̄L ynt ynt L
T 1 t=2
T 1
L=1 t=2+L
En définissant s̄n comme le rapport entre les variance de long terme et de court
terme d’un individu et en notant s̄ la moyenne pour l’ensemble des individus de
l’échantillon, on obtient
ˆyi
sn =
ˆ ✏n
PN
i=1 sn
s̄ =
N
Levin et al. (2002) montrent alors que la statistique :
t⇢ nT̄ s̄ˆ✏˜ 2 ˆ (ˆ
⇢)µ⇤mT̃
t⇤⇢ = ⇤
mT̃
suit une distribution normale sous l’hypothèse nulle de racine-unitaire. Les valeurs
de µ⇤mT̃ sont m ⇤
T̃
données dans l’article.
9.2.2 Test de Im, Pesaran et Shin

Un des défaut du test de Levin et al. (2002) est que l’hypothèse alternative suppose
que ⇢ est différent de 1, mais prend la même valeur pour tous les individus. Le
test proposé de Im et al. (2003) dépasse cette limitation puisque l’hypothèse nulle
est toujours que ⇢ = 1 pour tous les individus, mais l’hypothèse alternative est
désormais que les valeurs de ⇢ peuvent être différentes d’un individu à un autre,
mais que ⇢n < 1 pour au moins certains individus.
La statistique de test est basée sur la moyenne des statistique de Student pour ⇢
obtenues pour chaque individu :
n
1X
t̄ = t⇢n
n n=1
La statistique de test est alors :
p
n (t̄ E(t̄))
z= p
V(t̄)
qui, sous l’hypothèse nulle de racine unitaire, suis une distribution normale centrée
réduite. Les valeurs de E(t̄) et de V(t̄) sont données dans l’article de Im et al. (2003)
9.2.3 Le test de Madalla et Wu

Maddala & Wu (1999) ont proposé un test très similaire au précédent, qui n’impose
pas non plus que les valeurs de ⇢ soient identiques dans l’hypothèse alternative.
Il est basé sur les N probabilités critiques pn obtenue dans le cadre de test adf
réalisés pour chaque individu. La statistique de test s’écrit alors simplement :
N
X
P= 2 ln pn
n=1
et, sous l’hypothèse nulle de racine unitaire pour les N individus, suit une distri-
bution de chi deux à N degrés de liberté.
Chapitre 10
Panels spacials
Bibliographie
Acemoglu A.D., Johnson S., Robinson J.A. & Yared P. (2008). Income and demo-
cracy. American Economic Review, 98(3), 808–842.
Alonso-Borrego C. & Arellano M. (1999). Symmetrically normalized instrumental-

variable estimation using panel data. Journal of Business and Economic Statis-
tics, 17(1), 36–49.
Amemiya T. (1971). The estimation of the variances in a variance–components

model. International Economic Review, 12, 1–13.
Amemiya T. & MaCurdy T.E. (1986). Instrumental-variable estimation of an

error-components model. Econometrica, 54(4), 869–80.
Anderson T. & Hsiao C. (1982). Formulation and estimation of dynamic models

using panel data. Journal of Econometrics, 18, 47–82.
Arellano M. & Bond S. (1991). Some tests of specification for panel data : Monte
carlo evidence and an application to employment equations. Review of Economic
Studies, 58, 277–297.
Arellano M. & Bover O. (1995). Another look at the at the instrumental variables
estimation of error components. Journal of Econometrics, 68, 29–51.
Avery R. (1977). Error components and seemingly unrelated regressions. Econo-

metrica, 45, 199–209.
Balestra P. & Nerlove M. (1966). Pooling cross-section and time-series data in the
estimation of dynamic models : The demand for natural gas. Econometrica, 34,
585–612.
Balestra P. & Varadharajan-Krishnakumar J. (1987). Full information estimations

of a system of simultaneous equations with error components. Econometric
Theory, 3, 223–246.
Baltagi B. (1980). On seemingly unrelated regressions with error components.

Econometrica, 48, 1547–1551.
Baltagi B. (1981). Simultaneous equations with error components. Journal of

Econometrics, 17, 21–49.
Baltagi B. (2001). Econometric Analysis of Panel Data. John Wiley and Sons ltd,
3rd ed.
Baltagi B. & Chang Y. (1994). Incomplete panels : a comparative study of alterna-
tive estimators for the unbalanced one-way error component regression model.
Journal of econometrics, 62, 67–89.
Baltagi B.H. & Li Q. (1992). A note on the estimation of simultaneous equations
with error components. Econometric Theory, 8(01), 113–119.
Baltagi B.H. & Liu L. (2009). A note on the application of ec2sls and ec3sls
estimators in panel data models. Statistics & Probability Letters, 79(20), 2189–
2192.
Blundell R. & Bond S. (1998). Initital conditions and moment restrictions in
dynamic panel data models. Journal of Econometrics, 87, 115–143.
Blundell R. & Bond S. (2000). Gmm estimation with persistent panel data : an
application to production functions. Econometric Reviews, 19(3), 321–340.
Bond S.R. (2002). Dynamic panel data models : a guide to micro data methods
and practise. Portugese Economic Journal, 1, 141–162.
Bond S.R., Hoeffler A. & Temple J. (2001). Gmm estimation of empirical growth
model. CEPR Discussion Paper, 3048.
Brender A. & Drazen A. (2008). Budget deficits and economic growth affect ree-
lection prospects ? evidence froma large panel of countries. American Economic
Review, 98(5), 2203–2220.
Breusch T. & Pagan A. (1980). The lagrange multiplier test and its applications to
model specification in econometrics. Review of Economic Studies, 47, 239–253.
Breusch T.S., Mizon G.E. & Schmidt P. (1989). Efficient estimation using panel
data. Econometrica, 57(3), 695–700.
Caselli F., Esquivel G. & Lefort F. (1996). Reopening the convergence debate :
a new look at cross-country growth empirics. Journal of Economic Growth, 1,
363–389.
Cohen A. & Einav L. (2003). The effects of mandatory seat belt laws on driving
behavior and traffic fatalities. The Review of Economics and Statistics, 85(4),
828–843.
Cornwell C., Schmidt P. & Wyhowski D. (1992). Simultaneous equations and panel
data. Journal of Econometrics, 51(1-2), 151–181.
Bibliographie 161
Croissant Y. & Millo G. (2008). Panel data econometrics in R : The plm package.
Journal of Statistical Software, 27(2). http://www.jstatsoft.org/v27/i02/.
Drakos K. (2007). The size of under-reporting bias in recorded transational ter-

rorist activity. Journal of the Royal Statistical Society, Series A (Statistics in
Society), 170(4), 909–921.
Egger P. & Pfaffermayr M. (2004). Distance, trade, and fdi : A hausman-taylor

sur approach. Journal of Applied Econometrics, 19(2), 227–46.
El-Gamal M. & Inanoglu H. (2005). Inefficiency and heterogeneity in turkish

banking : 1990-2000. Journal of Applied Econometrics, 20(5), 641–664.
Forbes K.J. (2000). A reassessment of the relation between inequality and growth.
American Economic Review, 90(4), 869–887.
Hansen L. (1982). Large sample properties of generalized method moments esti-

mators. Econometrica, 50, 1029–1054.
Harris M.N., Matyas L. & Sevestre P. (2008). Dynamic models for short panels.
Dans The Econometrics of Panel Data, réd. L. Matyas & P. Sevestre, pp. 249–
278. Springer.
Hausman J. (1978). Specification tests in econometrics. Econometrica, 46, 1251–

1271.
Hausman J. & Taylor W. (1981). Panel data and unobservable individual effects.
Holtz-Eakin D., Newey W. & Rosen H. (1988). Estimating vector autoregressions

with panel data. Econometrica, 56, 1371–1395.
Honda Y. (1985). Testing the error components model with non–normal distur-
bances. Review of Economic Studies, 52, 681–690.
Horrace W. & Schmidt P. (1996). Confidence statements for efficiency estimates

from stochastic frontier models. Journal of productivity analysis, 7, 257–282.
Horrace W. & Schmidt P. (2000). Multiple comparisons with the best, with eco-
nomic applications. Journal of applied econometrics, 15(1), 1–26.
Hsiao C. (2003). Analysis of Panel Data. Cambridge University Press, Cambridge.
Im K., Pesaran M. & Shin Y. (2003). Testing for unit roots in heterogenous panels.
Journal of econometrics, 115(1), 53–74.
Kessler A.S., Hansen N.A. & Lessman C. (2011). Interregional redistribution and
mobility in federations : a positive approach. The Review of Economic Studies,
78, 1345–78.
Khan M.S. & Knight M.D. (1988). Import compression and export performance
in developing countries. Review of economics and statistics, 70(2), 315–321.
Kinal T. & Lahiri K. (1990). A computational algorithm for multiple equation

models with panel data. Economic letters, 34, 143–146.
Kinal T. & Lahiri K. (1993). On the estimation of simultaneous-equations error-

components models with an application to a model of developing country foreign
trade. Journal of applied econometrics, 8, 81–92.
Kiviet J.F. (1995). On bias, inconsistency, and efficiency of various estimators in

dynamic panel data models. Journal of Econometrics, 68, 53–78.
Kumbhakar S. (1996). Estimation of cost efficiency with heteroscedasticity : an

application to electric utilities. Journal of the royal statistical society, series D,
45, 319–335.
Levin A., Lin C. & Chu C. (2002). Unit root test in panel data : asymptotic and
finite sample properties. Journal of Econometrics, 108, 1–24.
Levine R., Loayza N. & Beck T. (2000). Financial intermediation and growth :
causalty and causes. Journal of Monetary Economics, 46, 31–77.
Maddala G. & Wu S. (1999). A comparative study of unit root tests with panel
data and a new simple test. Oxford bulletin of economics and statistics, 61,
631–52.
Mairesse J. & Hall B. (1996). Estimating the productivity of research and deve-
lopment in french and us manufacturing firms : an exploration of simultaneity
issues with gmm methods. Dans International productivity differences and their
explanations, réd. K. Wagner & B. Van-Ark, pp. 285–315. Elsevier Science.
Mundlak Y. (1978). On the pooling of time series and cross section data. Econo-
metrica, 46(1), 69–85.
Nerlove M. (1971). Further evidence on the estimation of dynamic economic rela-

tions from a time–series of cross–sections. Econometrica, 39, 359–382.
Nickel S. (1981). Biaises in dynamic models with fixed effects. Econometrica, 49,
1417–1426.
Peltzman S. (1975). The effects of automobile safety regulation. Journal of Political

Economy, 83(4), 677–725.
Pirotte A. (2011). Econométrie des données de panel. Economica.
Porto E.D. & Revelli F. (2012). Tax limited reaction functions. Journal of applied
econometrics.
Bibliographie 163
Raux C., Souche S. & Croissant Y. (2009). How fair is pricing perceived to be ?
an empirical study. Public Choice, 139(1), 227–240.
Roodman D. (2009a). How to do xtabond2 : an introduction to difference and
system gmm in stata. The Stata Journal, 9, 86–136.
Roodman D. (2009b). A note on the theme of too many instruments. Oxford
Bulletin of Economics and Statistics, 71, 135–158.
Sargan J. (1958). The estimation of economic relationships using instrumental
variables. Econometrica, 26, 393–415.
Sevestre P. (2002). Econométrie des données de panel. Dunod.
Swamy P. (1970). Efficient inference in a random coefficient regression model.
Swamy P. & Arora S. (1972). The exact finite sample properties of the estimators
of coefficients in the error components regression models. Econometrica, 40,
261–275.
Wallace T. & Hussain A. (1969). The use of error components models in combining
cross section with time series data. Econometrica, 37(1), 55–72.
White H. (1986). Advances in statistical analysis and statistical computing, vol.

1, chap. Instrumental variables analogs of generalized least squares estimators.
Mariano, R.S.
Windmeijer F. (2005). A finite sample correction for the variance of linear efficient
two–steps gmm estimators. Journal of Econometrics, 126, 25–51.
Zeileis A. & Croissant Y. (2010). Extended model formulas in R : Multiple parts

and multiple responses. Journal of Statistical Software, 34(XYZ), 1–12. http:
//www.jstatsoft.org/v34/iXYZ/.
Zellner A. (1962). An efficient method of estimating seemingly unrelated regres-
sions and tests of aggregation bias. Journal of the american statistical associa-
tion, 57, 500–509.
Index
objets DemocracyIncome, 98
data.frame, 3 DemocracyIncome25, 36, 37, 98
pdata.frame, 3, 5, 28, 32 EmplUK, 126
FinGrowth, 125
fonctions ForeignTrade, 32, 33
as.matrix, 5 Grunfeld, 8
Between, 8 InvRate, 126
between, 8 LargeBanks, 28
ercomp, 29 RDPerfCompanies, 126
fixef, 30, 43 RegIneq, 126
index, 4 Snmesp, 126
lag, 100 TexasElectr, 34, 36
lm, 30, 100 Tileries, 48
mtest, 123 TurkishBanks, 33, 35
pdata.frame, 3 USAirlines, 66
pdim, 4
pFtest, 63 arguments
pglm, 52 data, 3, 28, 29
pgmm, 109 drop.index, 3
phtest, 72 effect, 8, 42, 43, 64, 102, 110
plm, 28, 42, 59, 81, 91, 101, 102, family, 52
110 formula, 28, 29, 110
plmtest, 64 index, 3, 28
pooltest, 65 inst.method, 86
print, 29, 66 mode, 66
pvcm, 65, 66, 69 model, 28, 59, 67, 69, 101, 102,
sapply, 32 110
sargan, 121 order, 123
summary, 9, 29, 32, 66, 124 random.method, 28, 44, 86
vcov, 120 restrict.matrix, 59
vcovHC, 120 restrict.rhs, 59
Within, 7 robust, 124
transformation, 118
données type, 30
Index 165
which, 4
Table des figures
1.1 Variation intra et inter individuelle pour les données Grunfeld . . . 10

1.2 Absence d’hétérogénéité . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Hétérogénéité de niveau . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Hétérogénéité de pentes . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1 Importations en fonction du produit intérieur pour les données Fo-

reignTrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Coût en fonction de l’output pour les données TurkishBanks . . . . 35
2.3 Coût en fonction de l’output pour les données TexasElectr . . . . . 36
2.4 Démocratie en fonction du revenu retardé pour les données Demo-
cracyIncome25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5 Distribution de l’estimateur des mcg . . . . . . . . . . . . . . . . . 40
7.1 Relation entre revenu et démocratie . . . . . . . . . . . . . . . . . 99

7.2 Coefficient de la première étape et 1 en fonction de la valeur du
coefficient autorégressif . . . . . . . . . . . . . . . . . . . . . . . . . 114
7.3 Le cas où la condition est vérifiée à chaque période . . . . . . . . . 116
7.4 Le cas où la condition est quasiment vérifiée pour les dernières pé-
riodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.1 Courbe représentative pour un processus autoregressif . . . . . . . 148

9.2 Histograme de la statistique de Student en présence de racine unitaire150

Econométrie Des Données de Panel Avec R PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Econométrie Des Données de Panel Avec R PDF

Transféré par

Droits d'auteur :

Formats disponibles

Table des matières

2 Modèle à erreurs composées 15

3 Le modèle à erreurs composées : extensions 41

3.2 D’autres estimateurs des variances des composantes du terme d’erreur 43

4 Tests sur le modele a erreurs composees 61

7 Estimation d’un modèle dynamique 97

7.2.4 La prolifération du nombre d’instruments dans le modèle des

8 Modèles linéaires généralisés et assimilés 127

9 Racines unitaires et cointégration 147

10 Panels spacials 155

Mmco = I Z(Z > Z) 1

E(q̂w ) = tr(M > W M ⌦) = ⌫ tr(M W M ) + ⌘ tr(M W M U )

E(q̂b ) = tr(M > BM ⌦) = ⌫ tr(M BM ) + ⌘ tr(M BM U )

1.1 Qu’est-ce qu’un panel

1.2 Organisation des données de panel sous R

invest value capital firm year

> smallGr <- pdata.frame(smallGr, index=c("firm", "year"), drop.index = TRUE)

invest value capital

Les informations concernant la dimension de ces données de panel peuvent être

Balanced Panel: n=2, T=4, N=8

> index(smallGr, "firm")

[1] 1935 1936 1937 1938 1935 1936 1937 1938

On peut également représenter ces séries sous forme matricielle en appliquant la

1935 1936 1937 1938

1.3 Mesure de la variabilité dans un panel

On parle de variabilité “intra” (within en anglais) lorsque l’on mesure la variabilité

La variabilité “inter” (between en anglais) mesure la variabilité entre éléments

Between et between calculent la transformation “between” ; la diﬀérence entre

> z <- smallGr$invest

General Motors US Steel

General Motors General Motors General Motors General Motors US Steel

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

> z <- smallGr$invest

1935 1936 1937 1938

> Within(z, effect = "time")

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

Les diﬀérentes mesures de la variabilité sont alors aisément obtenues en utilisant

[1] 9.71 2.24 7.47 9.14 0.57

On vérifie ensuite les deux formules de décomposition de la variabilité.

> SWt + SBt

Enfin, on peut analyser plus précisément l’importance des diﬀérentes sources de

> SBt / Stot

ce qui peut être automatiquement réalisé en appliquant la méthode summary à

total sum of squares : 9.711985

On constate, et c’est le cas la plupart du temps, que la variabilité dans l’échan-

General Motors Chrysler IBM Goodyear

1.4 Des transformations utiles

Afin de mettre en évidence ces transformations, on notera Ik la matrice identité

x> = (x11 , x12 , . . . , x1T , x21 , x22 , . . . , x2T , . . . , xN 1 , xN 2 , . . . , xN T )

Pour obtenir la transformation inter-individuelle (between), on utilisera une ma-

Par exemple, pour N = 2 et T = 3, on a :

Pour obtenir la transformation inter-individuelle (within), on utilisera une matrice

Ces deux matrices ont des propriétés très importantes :

Ces propriétés indiquent que W et B réalisent une décomposition orthogonale d’un

1.5 Les diﬀérentes formes d’hétérogénéité

Fig. 1.2 – Absence d’hétérogénéité

la variable expliquée. En revanche, l’ensemble des points semblent correctement

ynt = ↵ + xnt + ✏nt

Fig. 1.3 – Hétérogénéité de niveau

ynt = ↵ + xnt + ✏nt avec ✏nt = µn + ⌫nt

ynt = ↵ + n xnt + ✏nt avec ✏nt = µn + ⌫nt

Fig. 1.4 – Hétérogénéité de pentes

Le modèle à erreurs composées