Fiche Économétrie Panel

Fiche économétrie : Données de Panel
24 janvier 2024
1 Quand utiliser des données de Panel ?

Dans bien des situations on a besoin de gérer des données qui sont à la fois des données de
coupes transversales et des données temporelles
On peut définir deux sortes de données de cette sorte :

- jeu de coupes transversales indépendantes empilées : regroupe des échantillonnages indépendants
d’une population à différentes périodes → ce ne sont pas les mêmes individus
- jeu de données de Panel : données longitudinales → ce sont les mêmes individus qui sont suivis
Dans les deux cas les différentes données prises à différentes périodes ne peuvent pas être
considérées comme indépendantes car les facteurs qui influent la valeur de X à une période
donnée influent aussi aux autres périodes
2 Coupes transversales empilées

2.1 Usage de variables indicatrices
L’approche par les coupes transversales empilées est intéressante dans la mesure où elle permet
d’augmenter la taille de l’échantillon : on multiplie la taille de l’échantillon par le nombre de
périodes.
Cela dit, on ne peut faire cela que si on suppose que les données ne présentent pas de différences si-
gnificatives d’une années sur l’autre. En effet la relation entre variables explicatives et dépendante
peut varier au cours du temps
Toutefois il est souvent possible de faire face à ce problème de manière relativement simple. En
particulier on intègre parmi les variables explicatives une variable indicatrice pour chaque année
(sauf la première). A la sortie de la régression on pourra alors obtenir un coefficient β donnant pou
chaque année l’évolution de la variable dépendante par rapport à l’année de référence
EXEMPLE : on cherche à évaluer l’écart de fécondité des femmes entre 1980 et 1990
On prend des données empilées sur 6 dates : 1980, 1982, 1984, 1986, 1988, 1990 et on effectue une régression
multiple en contrôlant pour tous les facteurs qu’on veut
Le coefficient β de la variable indicatrice pour 1990 correspond à l’effet sur la fécondité du fait de prendre
des données de 1990 plutôt que de 1980.
1
On donne un modèle explicite pour la question
F = β0 + β1 X1 + β2 Y90 + u (1)
où X1 est un facteur de contrôle (par exemple le diplôme) et Y90 une variable indicatrice égale à 1
si l’observation a eu lieu en 1990
Le coefficient β2 représente la proportion dans laquelle les femmes ont moins d’enfants en 1990
qu’en 1980, à niveau d’éducation égal aux deux périodes.
Si on réduit les données utilisées à celles de l’année 1980 alors puisque Y90 = 0 on obtient un modèle
plus simple F = β0 + β1 X1 + u dans lequel β0 représente l’ordonnée à l’origine pour les observa-
tions de 1980. Au contraire en utilisant uniquement les données de 1990 (Y90 = 1) β2 devient une
constante en plus de β0 ce qui fait finalement que l’ordonnée à l’origine pour le groupe 1990 est
dans l’ensemble égale à β0 + β2
Mais si on prenait 1990 comme groupe de référence alors les valeurs s’inverseraient.
De ces exemples découle un point particulièrement important : le coefficient β0 dans l’équation

(1) correspond simplement au niveau auquel le plan de régression intersecte l’axe de F. Ainsi :
— dans le cas d’une régression multiple avec des variables quantitatives, l’ordonnée à l’origine
correspond à la valeur théorique qui devrait être prise par la variable dépendante lorsque
toutes les variables explicatives sont nulles. MAIS il ne faut pas perdre de vue la dimension
théorique et instrumentale de cette valeur.
— dans le cas d’une régression multiple avec variables indicatrices / qualitatives, l’ordonnée à
l’origine correspond à la valeur théorique attendue pour le groupe de référence dans le
cas (théorique) où toutes les autres variables quantitatives affichent des valeurs nulles.
On peut à l’occasion avoir besoin d’intégrer plusieurs alternatives qualitatives dans le cadre
d’une régression multiple (croiser couleur de peau et genre par exemple). Dans ce cas, la bonne idée
est de produire pour chaque combinaison de ces variables une variable indicatrice qui prend la va-
leur 1 si cette combinaison est réalisée.
Néanmoins dans tous les cas on a besoin d’un groupe de référence pour lequel on ne doit pas
produire de variable indicatrice. En effet, l’effet sur la variable dépendante induite par l’apparte-
nance au groupe de référence est déjà prise en charge par l’ordonnée à l’origine de la régression
multiple. Du coup si on introduit une variable indicatrice aussi pour ce groupe on va se retrouver
en situation de colinéarité parfaite. C’est pour cela que l’on évite dans la mesure du possible de
multiplier les variables indicatrices pour éviter de tomber dans la trappe à variables indicatrices
De la même manière il arrive (souvent) qu’une variable qualitative prenne plus de deux va-
leurs. On pourrait utiliser une variable indicatrice de 0 et de 1 mais cela implique que dans les
résultats l’effet de 2 sera nécessairement enregistré comme deux fois l’effet de 1, ce qui n’a rien
d’évident d’autant que ça risque de pourrir les échelles de nos autres variables (quantitatives).
Dès lors l’idéal est d’introduire une variable explicative par échelon pour distinguer différents
groupes de manière ordinale sans obligatoirement leur donner des pondérations cardinales. On
peut alors comparer le coefficient β pour les échelons 2 et 3 (par exemple) et interpréter leur écart
comme l’effet du passage de 2 à 3.
2
2.2 Ajout de termes d’interaction
Passons maintenant à la question des termes d’interaction. Reprenons le modèle (1). Ce modèle
postule implicitement que l’effet de l’éducation est le même aux deux années. Ainsi la régression
par OLS va conduire à rechercher un seul coefficient β1 qui fera la synthèse de l’effet de l’éducation
aux deux années
A rebours de cette approche on pourrait considérer que β1 dépend de l’année ce qui donne un
modèle :
F = β0 + f (Y90 )X1 + β2 Y90 + u (2)
On peut faire une hypothèse supplémentaire en posant que la relation f est linéaire autrement dit :
F = β0 + (δ1 + δ2 Y90 )X1 + β2 Y90 + u (3)
et par distributivité :
F = β0 + δ1 X1 + δ2 Y90 X1 + β2 Y90 + u (4)

On se retrouve donc avec un modèle dans lequel on a intégré un terme d’interaction. δ2 permet
de différencier l’effet de l’éducation aux deux dates. Pour les données de 1980, Y90 est nulle et donc
l’effet de l’éducation est égal à δ1 . Mais pour 1990 Y90 est égal à 1 donc on peut réécrire le modèle
F = (β0 + β2 ) + (δ1 + δ2 )X1 + u
L’ordonnée à l’origine est alors égale à (β0 + β2 ) et l’effet de l’éducation est (δ1 + δ2 ) (on se retrouve
bien en deux dimensions puisque la variable date n’est plus pertinente )
Récapitulons : lorsque l’on effectue une régression multiple sur k variables explicatives parmi
lesquelles une variable indicatrice on peut séparer le nuage en deux parties distinctes selon
cette variable ce qui rend possible de tracer deux droites de régressions projetées sur un espace de
dimension n-1. Concernant ces droites :
1. l’ordonnée à l’origine de la droite du groupe de référence est la même que celle du nuage
de point complet (ce qui tient au fait que c’est ce groupe qui se voit attribuer la valeur 0
de la variable indicatrice donc en ce qui concerne ce groupe le résultat est le même avec ou
sans la variable indicatrice) MAIS du coup cela est purement arbitraire
2. l’ordonnée à l’origine de la droite du groupe test est égale à l’addition de l’ordonnée à
l’origine de base de la régression multiple et du coefficient β de la variable indicatrice. DONC
ce dernier coefficient mesure l’écart relatif sur la variable dépendante entre les deux
groupes toutes choses égales par ailleurs
3. si on suppose qu’il n’y a pas d’interaction entre la variable indicatrice et les autres variables
(l’effet de Xi est le même quel que soit le groupe considéré) ALORS les deux droites projetées
sont parallèles (elles ont la même pente)
4. Au contraire si on admet un terme d’interaction les deux droites n’ont pas la même pente
car l’effet de Xi sur Y n’est pas identique selon la valeur de la variable indicatrice.
Mais dans ce cas le coefficient β de la variable indicatrice ne suffit plus à exprimer l’effet
relatif de l’appartenance au groupe test relativement au groupe de référence : pour exprimer
cette relation il faut une forme fonctionnelle dépendant de Xi
3
2.3 Test de Chow et Analyse des politiques publiques
Une chose qu’on a souvent envie de tester, c’est si deux groupes diffèrent de manière significative.
Plus précisément on peut avoir envie de savoir si le résultat d’une régression serait significativement
différent si on avait désagrégé notre échantillon de départ (selon le genre, selon le début et la fin
de la période... )
Par exemple on veut tester si la loi d’Okun diffère significativement entre la période avant 2008 et
la période après 2008. On pose le modèle :
∆U = β0 + β1 ∆Y + ϵ (5)
Pour tester la différence entre avant et après 2008 il suffit d’introduire une variable indicatrice I
valant 0 si l’observation a été réalisée avant 2008 et 1 si elle l’a été après
∆U = β0 + β1 ∆Y + β2 I + ϵ (6)
Dans ce cas une valeur élevée de β2 signifiera une différence significative entre le groupe de référence
(avant) et le groupe de test (après) en matière de chômage. En l’occurrence on ne teste qu’une
différence d’ordonnée à l’origine. On ne teste pas le fait que la relation entre variable explicative
et dépendante puisse varier au cours du temps. (le ratio d’Okun β1 est par construction supposé
constant aux deux périodes). Pour remédier à ce problème il faut introduire un terme d’interac-
tion selon la méthode présentée plus haut :
∆U = β0 + δ1 ∆Y + β2 I + δ2 I∆Y + ϵ (7)
Dans ce cadre la pente (le ratio d’Okun) pour le groupe de contrôle (avant 2008) est égale à δ1
tandis que celle pour le groupe de test est égale à δ1 + δ2 . Le coefficient δ2 donne donc la mesure
de la différence en matière de ratio d’Okun qui existe avant et après 2008. 1
Dès lors il convient de tester δ2 et β2 c’est à dire de vérifier si le modèle est différent en période 1
à la fois du point de vue de la variable dépendante et du point de vue de la relation entre variable
dépendante et indépendante, autrement dit de la forme fonctionnelle. ce coefficient s’écarte assez
de zéro pour être considéré comme significatif. Cela s’effectue à partir d’un test de Fisher classique.
Si l’on se trouve au départ dans une régression multiple, alors il faut multiplier les termes
d’interactions pour distinguer l’effet de l’appartenance aux deux groupes sur l’ensemble des va-
riables explicatives.
Imaginons que l’on teste la loi d’Okun, mais en contrôlant par l’âge moyen de la population des
pays.
∆U = β0 + β1 ∆Y + β2 Age + β3 I + ϵ (8)
Dans ce cas le modèle avec termes d’interaction est :
∆U = β0 + δ1 ∆Y + δ2 Age + β3 I + δ3 I∆Y + δ4 AgeI + ϵ (9)
Pour tester la différence entre les deux groupes il faut tester la significativité conjointe de δ3 et δ4
à partir d’un test de Fisher avec H0 : β3 = 0, δ1 = 0, δ2 = 0
1. Les coefficients δ renvoient aux pentes des variables explicatives tandis que les coefficients β renvoient aux
ordonnées à l’origine
4
Si ce test est positif alors la différence existe entre avant et après. Si les coefficients δ (les coeffi-
cients de termes d’interaction) sont significatifs alors c’est que les pentes associées aux variables
explicatives Age et ∆Y sont différentes dans les groupes séparés par I. Autrement dit la période a
un impact sur le ratio d’Okun.
RAPPEL : le test de Fisher de significativité conjointe de k coefficients consiste à calculer la somme des carrés des
résidus pour le modèle contraint (expurgé des variables que l’on cherche à tester) et non contraint. La statistique de
(SCR −SCRN C )/q
Fisher est alors SCRC /DDL où q = DDLC − DDLN C
NC NC
Ce qui est spécifique dans le cas des variables indicatrices, c’est que la valeur SCRN C peut être ob-
tenue par une simple addition des sommes des carrés des résidus pour chacun des deux
groupes. On fait deux régressions avec les mêmes variables explicatives (mais sans les termes d’in-
teraction 2 ) en utilisant les données des deux groupes. On a alors SCRN C = SCR1 + SCR2 De plus
le nombre de degré de liberté du modèle non contraint (DDLN C ) est égal à n - 2(k+1) 3 et q = k + 1.
On peut alors poser

(SCRC − (SCR1 + SCR2 ))/k + 1
F = (10)
(SCR1 + SCR2 )/(n − 2(k + 1))
Ce cas particulier de la statistique de Fisher est appelée Statistique de Chow . Elle ne diffère
en rien de la statistique F sinon dans sa méthode de calcul : les hypothèses et les conditions sont
les mêmes notamment l’homoscédasticité des erreurs et la normalité des résidus (sauf en situation
asymptotique).
De plus, pour être utilisé il nécessite que la variance des erreurs ne soit pas différente dans les deux
groupes donc n’est pas robuste à l’hétéroscédasticité.
Dans le cas des données de panel, le test de Chow peut être calculé sur davantage que deux
périodes, dans ce cas la méthode n’est pas très différente (voir 2.7) :
1. La SCR du modèle contraint est obtenue par régression sur les données empilées (tous les
groupes ensemble) avec une variable indicatrice distincte pour chaque période 4 mais sans
les termes d’interaction. (équation (6))
2. La SCR du modèle non contraint est obtenue par l’addition des SCR obtenues par les
régressions partielle avec les données de chaque période 5
2. La question est de savoir s’il faut à ce moment intégrer ou non les variables indicatrices. Je suppose que cela
dépend de ce qu’on veut tester : si c’est uniquement la forme fonctionnelle oui, si c’est l’homogénéité du modèle entre
les deux groupes non
3. puisque le modèle non contraint comporte k variables explicatives plus une variable indicatrice plus k termes
d’interaction plus une constante
4. Ou pas, voire la note 2
5. sans variables indicatrices qui ne sont par définition pas nécessaires ici
5
2.4 L’intérêt des données de Panel dans l’analyse des politiques pu-
bliques
Que se passe t-il lorsque l’on combine données de Panel et variable indicatrice dans le
cadre de l’analyse d’une politique ?
Dans ce cas on se retrouve à introduire deux variables indicatrices : l’une qui sépare l’échantillon
en deux groupes (de traitement et de contrôle), l’autre qui le divise selon la période.
Cette situation est en réalité analogue à celle présentée à la partie 2.2 même si cette fois on ne fait
pas interagir la variable indicatrice de période avec un facteur quantitatif (l’éducation) mais avec
un facteur qualitatif lui même symbolisé par une variable indicatrice (l’appartenance ou non ou
groupe test).
Dans l’exemple du manuel, on a affaire à une expérience naturelle qui doit permettre d’évaluer
l’effet d’un incinérateur sur la valeur des maisons proches. Différents niveaux de modèles sont dis-
ponibles :
P rix = β0 + β1 Dist + u (11)
Ce modèle est le plus simple puisqu’il utilise une simple variable indicatrice pour distinguer deux
groupes selon la proximité. β1 mesure alors l’écart de valeur entre les maisons proches et moins
proches dans l’ensemble de l’échantillon.
Mais il est aussi trop simple pour attribuer ce écart de valeur à l’incinérateur puisqu’il est bien
possible que ce dernier ait été construit dans un quartier où l’immobilier avait déjà moins de valeur
Une méthode consiste alors à utiliser à mesurer l’écart δ1 entre β1 avant la mise en place
de l’incinérateur et β1 après cette mise en place : cet estimateur est appelé l’estimateur de la
différence des différences ou estimateur des doubles différences
L’estimateur des doubles différences δ1 peut s’obtenir par une autre méthode qui consiste à es-
timer le modèle :
P rix = β0 + δ0 Y ear + β1 Dist + δ1 DistY ear + u (12)
Autrement dit δ1 est le coefficient du terme d’interaction entre la variable indicatrice de distance
est celle de l’année. C’est logique ! Par définition ce coefficient enregistre l’effet de prendre les
(on trouve pas écart type
données APRÈS l’installation sur l’effet de la distance sur le prix . en faisant la soustraction
L’intérêt de cette seconde manière de calculer δ1 et qu’elle rend facile d’obtenir son écart-type es- des valeurs du modèle 1
pour 1978 et 1981, alors
timé (ce qui est moins évident avec une simple soustraction). qu’on le trouve facilement
On peut améliorer cette méthode en contrôlant à partir d’à peu près tout ce qu’on veut. On pourrait en revenant à la formule
pour une régression
alors découvrir que l’effet de la proximité à l’incinérateur sur le prix passe par des canaux indirects linéaire avec OLS toussa)
comme la qualité où la taille des logements. Au pire, l’ajout de contrôles permet de réduire la
variance de l’erreur, donc d’accroı̂tre la puissance des tests.
Le résultat de l’expérience peut être présenté sous la forme d’un tableau qui montre les valeurs
moyennes de chacun des groupes dans le carré nord-ouest et les valeurs de traitement au sud et à
l’est(voire schéma) 6 . δ1 est alors appelé l’effet moyen du traitement.
6. Puisque l’on utilise des variables indicatrices comme variables explicatives principales (on cherche à expliquer
la valeur de y en fonction de l’appartenance à des groupes temporels et spatiaux) la pente est toujours égale à l’écart
entre les valeurs moyennes puisque tous les axes sont unitaires.
6
AVANT APRÈS APRÈS - AVANT
Groupe de contrôle β0 β0 + δ 0 δ0
Groupe de traitement β 0 + β1 β 0 + β 1 + δ1 + δ0 δ1 + δ0
Traitement - contrôle β1 β1 + δ 1 δ1
Comme on peut le voir dans le tableau, δ1 mesure bien l’effet excédentaire spécifique au groupe de
traitement induit par le fait de prendre les données après.
Quoi qu’il en soit, l’usage des données de Panel est très efficace ici pour mettre au jour des inférences
causales dans la mesure où l’on suppose que l’effet des variables omises est le même avant et après
l’installation. L’estimateur des doubles différences permet alors de toutes les supprimer et de mener
un raisonnement toutes choses égales par ailleurs.
3 Méthode d’estimation par différences premières

La méthode des données de panel empilées consiste donc à agréger toutes les données et à
contrôler l’ensemble par des variables indicatrices temporelles et des termes d’interaction.
La méthode des différences premières est une autre méthode qui vise à obtenir des résultats similaires
mais en recourant aux variations dans le temps des données.
3.1 Données de Panel et biais de variable omise

Une intérêt fondamental des données de Panel est qu’elles permettent de résoudre le problème
du biais de variable omise dans le cas où l’effet des variables cachées est constant dans
le temps.
Supposons par exemple que l’on cherche à évaluer les causes de la fécondité des femmes. On utilise
le modèle :
F = β0 + β1 Educ + β2 X + u (13)
Où X regroupe l’ensemble des variables cachées affectant F. Le problème pour mener la régression
est alors comme d’habitude le biais de variable omise si X est corrélée avec Educ.
Le terme d’erreur X + u est appelé erreur composée et u erreur idiosyncratique . En vertu

des hypothèses de base des OLS c’est ce terme qui doit être décorrélé de Educ pour éviter les biais
de variable omise
Supposons pour commencer que l’on cherche simplement à estimer le modèle (13) tout d’un bloc
(sans introduire de variables indicatrices) à partir d’une différence première. Dans ce cas le passage
à l’équation en différences implique que si le phénomène suit à l’origine un fonction linéaire alors
l’équation en différences premières suit une fonction affine (β0 = 0) ce qui est problématique.
Ce résultat implique que ce n’est pas la même chose de tester d’une part un modèle linéaire sur des
données quantitatives fixes et de tester d’autre part un modèle linéaire sur les variations entre ces
données. Ce sont là deux choix méthodologiques différents qui conduisent à tester deux estima-
teurs β distincts.
7
Le corrélat de cette remarque est le suivant : si les β sont distincts avec les deux méthodes alors cela
ne veut en aucun cas dire que le passage à la différence est en mesure de corriger un biais de variable
omise par la suppression des effets fixes (ce qui voudrait dire qu’on a vraiment fait n’importe quoi
dans notre projet tutoré). 7
Supposons au contraire que l’on cherche à estimer le modèle en tenant compte de l’évolution
entre deux périodes de temps. La manière logique serait alors d’estimer le modèle (13) en ajou-
tant une variable indicatrice T2 qui prend la valeur 1 pour la période 2.
F = β0 + δ0 T 2 + β1 Educ + β2 X + u
Mais le problème avec cette méthode est que l’on risque d’avoir de l’endogénéité dans le terme X
+ u, endogénéité incontrôlable puisque les variables sont cachées.
Une manière astucieuse de procéder est alors de supposer que X est constante au cours du temps.
Dans ce cas on divise les données en deux groupes qui suivent deux modèles différents :
F1 = β0 + β1 Educ + β2 X + u (14)
F2 = (β0 + δ0 ) + β1 Educ + β2 X + u (15)
Comme on introduit pas de termes d’interaction les droites des deux groupes sont supposées pa-
rallèles. On peut alors soustraire l’un des deux modèles à l’autre
F2 − F1 = (β0 − β0 + δ0 ) + β1 (Educ2 − Educ1 ) + (β2 X − β2 X) + u

= δ0 + β1 (Educ1 − Educ2 ) + u
= ∆F = δ0 + β1 ∆Educ + u (16)
On a transformé le modèle d’origine par données empilées pour obtenir l’équation en différences
premières qui est un modèle de régression linéaire simple SANS variable omise.
Dans ce modèle, X est appelé hétérogénéité non observée tandis que β1 est appelé estimateur
en différences premières
Le terme δ0 quand à lui renvoie à une constance dans l’évolution entre les deux périodes.
C’est logique puisque dans l’équation de base δ0 correspond à l’effet propre de la deuxième période
par rapport à la première.
Bien entendu la validité de la méthode des différences premières reste suspendue à la constance
des variables omises. Si un facteur de confusion augmente entre les deux dates alors il va avoir
un impact plus fort sur la valeur des variables dépendantes et explicatives.
De plus il faut remarquer que les hypothèses de base des OLS nécessitent que ∆Educ varie au
cours du temps sinon on a pas de variabilité disponible pour la régression. Du coup l’emploi de la
méthode des premières différences n’est pas possible si la variable explicative reste inva-
riante selon les périodes et ce même si elle change selon les individus. Plus généralement il est
d’autant plus difficile d’obtenir des OLS précis que la variable explicative varie peu au cours du
temps.
7. Heureusement, la suite explicite les cas où une forme fonctionnelle linéaire sur les différences permet d’obtenir
le même estimateur que la régression sans différences
8
L’ajout de variables de contrôle dans le modèle ne pose aucune difficulté. De même l’estimateur
des différences premières est tout à fait compatible avec l’emploi de variables indicatrices non
temporelles (qui ne seraient pas supprimées par le passage à la différence puisque le partage entre
les groupes ne se superpose pas au partage entre les expressions de F1 et F2).
3.2 Différenciation selon plus de deux périodes

On peut tout à fait ajouter des variables indicatrices dans le cadre de l’estimation d’un modèle
en différences premières.
F = β1 + δ1 T 2 + δ2 T 3 + βX + ai + u (17)
Dans ce modèle on cherche à estimer l’effet de chaque année sur la fécondité. Le terme ai est sup-
posé décorrélé des variables indicatrices autrement dit il regroupe l’ensemble des facteurs ayant
des effets invariants au cours du temps.
X représente l’ensemble des facteurs par lesquels on choisit de contrôler (avec ou sans termes
d’interaction) et dont on suppose que l’effet n’est pas invariant.
On remarque que l’on a introduit deux variables indicatrices pour trois périodes (la constante
synthétise l’effet de la première période). Ainsi si on étudie n périodes on aura n-1 variables
indicatrices.
On pourrait opérer cette estimation par l’intermédiaire de données de panel empilées. Dans
ce cas rien ne change sinon qu’il faudrait ajouter des colonnes dans le tableau pour chaque période.
Le problème peut néanmoins intervenir dès lors que l’on doit multiplier les termes d’interaction.
En effet si on a beaucoup de périodes et beaucoup de facteurs de contrôle on se retrouve à calculer
énormément de termes d’interaction ce qui est vite problématique.
De son côté la méthode des différences premières correspond à distinguer autant de modèle
que de périodes et à soustraire chaque période à la précédente :
Y1 = β0 + β1 X1 + ai + u
Y2 = (β0 + δ1 ) + β1 X2 + ai + u
Y3 = (β0 + δ2 ) + β1 X3 + ai + u
(18)
On peut transformer ce système en :
∆1 Y = Y2 − Y1 = δ1 + β1 (X2 − X1 ) + u
∆2 Y = Y3 − Y2 = δ2 + β1 (X3 − X2 ) + u
Si on traite Y1 et Y2 comme une seule population Y, estimer conjointement ces deux équations
est équivalent à estimer une équation comportant deux variables indicatrices, chacune décrivant à
quelle soustraction on se réfère. Autrement dit on peut rendre commensurables toutes les différences
si l’on injecte dans le modèle les variables indicatrices qui leur permettent de relier chaque donnée
(soit chaque différence) à la période d’où elle est tirée.
9
∆i Y = δ1 D1 + δ2 D2 + β1 ∆i X + u (19)
L’intérêt de cette équation est qu’elle permet d’interpréter correctement les coefficients δ. En effet
si la division du dataset en plusieurs groupes n’est pas pertinent alors δi = 0 et la différence suit
bien une fonction affine comme prévu. En fait cette équation EST une fonction affine en dimension
multiple.
Toutefois l’absence de constance dans cette équation pose problème pour des raisons calculatoires.
Aussi on peut la reformuler à partir d’une constante et d’une seule variable indicatrice et d’une
seule variable indicatrice T divisant le groupe des variations en deux groupes :
∆Y = γ0 + γ1 T + +β1 ∆X + u (20)
Parenthèse : Cette reformulation ne soit cependant pas laisser croire que la différence suit un
modèle linéaire avec une constante non nulle. En effet le cas où δi = 0 implique automatiquement
la nullité de tous les facteurs γ. Mais alors comment comprendre le terme γ0 ? En fait ce terme doit
se comprendre comme une reformulation particulièrement parcimonieuse d’une expression à deux
variables. Cette parcimonie est rendue possible par l’état de colinéarité entre les deux variables : le
plan définit par D1 et D2 est tel qu’une droite et une constante suffisent à le caractériser : il est
constant selon l’une de ses dimensions. On passe donc d’un raisonnement dans n dimensions à un
raisonnement dans n-1 dimensions. En d’autres termes on a une forme fonctionnelle comportant n
variables explicatives qui peut être ré-exprimée sans perte d’information en transformant l’une de
ces variables explicatives en constante.
On peut d’ailleurs interpréter les coefficients γ de la même manière qu’on a interprété δ1 dans
(16) chacun des γ donne la mesure de la constance qui existe pour chaque passage d’une période à
l’autre dans chaque groupe d’observation. La constante γ0 est simplement la valeur de référence qui
est celle à la première variation. Ainsi toutes les variations pour tous les individus entre la période
j et j+1 contiennent une variation de γ0 + γj par delà les valeurs des autres variables explicatives.
On a donc bien transformé une estimation portant sur un nuage de valeur en une estimation
portant sur un nuage de variations de ces valeurs. Ce faisant on a supprimé les effets fixes tout en
conservant l’estimation de β1 . Néanmoins il faut noter que les valeurs des constantes ne sont pas les
mêmes que dans l’équation de départ. La variable indicatrice T est une variable indicatrice ad hoc
qui sépare les données selon la différence à laquelle elle se réfère, et non selon les groupes de départ
(ce qui est logique puisque les données sur lesquelles on raisonne sont désormais exclusivement des
variations). Ainsi, γ0 et γ1 contiennent bien la même information que les δ mais elles ne leur sont
pas égales.
En définitive, on avait au départ un modèle à trois périodes dont l’une prise en charge par une
constante. Le passage à la différence permet de réduire le nombre de périodes à deux (deux varia-
tions) dont l’une est pris en charge par une constante. Le passage a la différence permet d’estimer les
mêmes coefficients β et ce sans avoir à se préoccuper des effets fixes. Enfin, cette méthode modifie la
nature de l’information obtenue par les variables indicatrices : le modèle ne nous donne plus l’effet
spécifique de chaque période mais l’effet spécifique de chaque PASSAGE d’une période à l’autre.
10
Point de vocabulaire : si la base de données recense le même nombre de périodes pour chaque
individu (et donc inversement) alors on parle de panel cylindré
PETITE DIFFICULTÉ : lorsque l’on emploie l’équation en différences premières (18) avec plus
de deux périodes, une hypothèse nécessaire pour appliquer les OLS est que ∆u soit décorrélé au
temps (donc aux variables indicatrices de période).
Mais pour que cela soit réalisé, il faut paradoxalement que les résidus ut aux différentes périodes
soient corrélés les uns avec les autres. Si ce n’est pas le cas alors le modèle est auto corrélé
Le manuel explique différentes manière de gérer cette autocorrélation mais ce n’est peut être pas le
plus important.
La différenciation selon plusieurs périodes est tout à fait compatible avec l’emploi d’un test
de Chow. Il suffit alors de faire des tests sur les coefficients de termes d’interaction conformément
à la méthode décrite en 2.3.
4 Transformation WITHIN (ou estimateur à effets fixes)

4.1 Usage de l’écart à la moyenne temporelle
Il s’agit d’une méthode alternative à la méthode des différences premières pour éliminer les effets
fixes. (ATTENTION : ne pas confondre le modèle à effet fixe et l’estimateur à effet fixe qui est une
méthode )
Cette méthode fait usage de la valeur centrée sur la moyenne.
Soit une équation de régression linéaire simple :
Yt = β1 Xt + a + ut (21)
Où a représente les facteurs à effets constants dans le temps sur Y. On a alors :
Ȳ = β1 X̄ + a + ū (22)
L’estimation de cette dernière équation nous conduirait à faire usage de l’estimateur between. Cet estimateur est
un peu rudimentaire ce qui fait qu’on ne l’utilise pas tant que ça. Il est biaisé en cas de corrélation entre a et X̄
(ce qui n’est pas la même chose qu’une corrélation entre a et Xt ) mais même lorsqu’il n’ y a pas de corrélation il
n’est pas si efficace que ça car il laisse de côté une bonne partie de l’information en ne prenant pas en compte la
variation des variables au cours du temps.
Revenons à (20). On remarque que la moyenne par le temps est inopérante sur a, ce qui est logique
puisque ce terme est constant dans le temps. On peut alors soustraire les deux dernières équations :
Yt − Ȳ = β1 (Xt − X̄) + ut − ū (23)

Y¨t = β1 X¨T + u¨t (24)
On remarque que cette opération a permis de supprimer les effets fixes a.
La valeur de β1 reste calculable est est appelée estimateur à effets fixes ou estimateur within
Cet estimateur s’accommode très bien des régressions multiples. Il est par ailleurs sans biais sous
11
l’hypothèse d’exogénéité stricte des facteurs explicatifs (comme d’habitude ils ne doivent pas être
corrélés aux résidus u). Comme d’habitude, l’homoscédasticité et l’absence de corrélation
sérielle sont deux autres hypothèses requises pour la pratique des OLS.
En revanche la transformation within présente d’autres inconvénients :

- la suppression du facteur a implique aussi que tout facteur invariant au cours du temps par
lequel on voudrait opérer un contrôle disparaitrait lui aussi. Cela tient au fait que si un facteur est
invariant au cours du temps son écart à la moyenne temporelle est constant égal à 0.
- l’usage de l’écart à la moyenne temporelle pour chaque individu a l’inconvénient de faire perdre
au modèle un degré de liberté par individu
Cela dit le problème d’impossibilité de contrôler par un facteur invariant n’empêche pas d’introduire
de tels facteurs dans le cadre de termes d’interaction. Mais cette méthode ne peut mettre au
jour que des écarts dans les rendements du facteur fixe par rapport à l’année de référence. Le
niveau de l’effet reste inconnu.
Une propriété intéressante de l’estimateur à effets fixes est que ce dernier s’accommode très bien
d’un panel non cylindré (lorsque des données temporelles manquent pour certains individus). Le
passage à la moyenne s’effectue simplement sans la donnée manquante.
Cela dit, un problème intervient dans le cas où les données sont absentes pour une raison qui induit
une corrélation avec le terme d’erreur ui et peut donc induire un biais d’échantillonnage. On
parle alors de problème d’attrition.
4.2 Régression sur variables indicatrices

Il s’agit là d’une interprétation alternative du modèle à effets fixes, dans laquelle plutôt que
de chercher à supprimer les effets fixes ai par une transformation et l’usage de la moyenne, on les
prend en compte comme un paramètre à estimer pour chaque observation i.
La conséquence de l’emploi de cette méthode est que l’on obtient n + k paramètres à estimer,
ce qui est beaucoup (et rend impossible l’emploi de cette méthode en coupe transversale).
Cette méthode est a priori équivalente à la transformation within en ce qui concerne l’estimation
des coefficients β (peut être même est elle plus précise ?). Ce qui est sûr en revanche c’est qu’elle
donne un R2 plus élevé puisqu’on introduit beaucoup plus de variables explicatives.
Cette méthode permet également de donner des estimations directes aˆi c’est à dire d’estimer les
effets fixes pour chacun des individus. Cela dit, il est simple de les calculer dès lors qu’on dispose
des coefficients β par transformation within.
Il est difficile de trancher entre transformation within et régression sur variable indicatrice. Une
des limites de cette dernière méthode est toutefois que ses estimateurs ne sont pas convergents.
En effet lorsque l’on augmente la taille de l’échantillon on ajoute autant de variables explicatives
(ai ) ce qui fait que la variance des estimateurs n’a aucune raison de se réduire puisqu’on augmente
pas le nombre de degrés de liberté.
12
4.3 Quelle méthode choisir ?
Si on excepte la méthode des données empilées on dispose de deux méthodes pour les données
de panel :
1. La méthode des différences premières (page 6) qui consiste à transformer les valeurs
absolues en variations sur lesquelles on va réaliser l’estimation
2. La méthode de l’estimateur à effets fixes (ou transformation within) qui passe par les
écarts à la moyenne.
Mais du coup on peut se demander quelle méthode est la meilleure.

Dans le cas où l’on considère deux périodes, les deux estimateurs sont strictement équivalents (en
terme d’estimations mais aussi de statistiques de test). En revanche dans ce cas la méthode des
différences premières s’apparente à une coupe transversale ce qui rend plus facile la construction
d’estimateurs robustes à l’hétéroscédasticité
Si on raisonne sur plus de deux périodes en revanche les deux méthodes diffèrent même si elles sont
toutes deux sans biais.
La question discriminante est alors celle de l’efficacité relative des deux estimateurs (lequel a la
variance la plus faible ?). Cela dépend en grande partie du degré d’autocorrélation (= corrélation
sérielle) du terme d’erreur ui
— si le terme d’erreur ne présente pas de corrélation sérielle alors l’estimateur à effets fixes
est plus adapté
— dans le cas contraire si on s’approche d’une marche aléatoire avec une très fort degré de
corrélation sérielle alors mieux vaut employer l’estimation en différence première
— La plupart du temps on se situe entre les deux et il est plus difficile de trancher. Le mieux
est de tester les deux méthodes en espérant que les deux donneront des résultats similaires.
— Si T est grand et N petit alors il faut être prudent lorsque l’on recourt à l’estimateur à effets
fixes. En effet si tout va bien en théorie sous les hypothèses habituelles, l’inférence devient
très sensible tout écart à ces hypothèses.
13
5 Modèles à effets aléatoires
On se place dans le cas où les effets fixes existent mais où ils ne sont corrélés à aucune des
variables explicatives introduites dans l’équation.
Yit = β0 + β1 X1 + ... + βk Xk + ai + uit (25)

Cov(Xj , ai ) = 0 (26)
Ce cas pourrait être estimé avec une régression simple sans problème d’endogénéité. Le terme ai
serait alors simplement intégré dans le résidu. On pourrait aussi ajouter des variables indicatrices
temporelles pour faire une régression empilée 8 . Mais l’emploi de ce genre de méthodes ”simples”
pose deux problèmes :
1. Le terme ai augmente la variance des résidus ce qui nuit à la précision de l’estimateur.
Ce serait quand même dommage de manquer une occasion de s’en débarrasser ...
2. La présence d’un terme fixe temporellement implique la présence de corrélation sérielle
dans les résidus, ce qui provoque un biais des estimateurs.
Au contraire le recours à des méthodes d’effets fixes (par soustraction par la moyenne ou par
régression sur variables indicatrices), ou aux différences premières permettrait de supprimer ces
termes par le passage à la moyenne.
Mais une autre méthode est applicable en pratique, qui permet de dépasser certaines limites
des méthodes en effets fixes. Elle consiste à opérer une transformation de la forme (25), selon une
procédure analogue à celle qui permet de gérer l’autocorrélation dans les séries temporelles.
La méthode fait intervenir un terme particulièrement bizarre. On pose vit = ai + uit le terme
d’erreur composé. On a besoin de calculer :
s
V ar(u)
θ =1− (27)
V ar(u) + V ar(ai )T
Ce terme ne ressemble pas à grand chose mais on peut l’utiliser pour transformer l’équation (25) :
Yit − θȲi = β0 (1 − θ) + β1 (X1 − θX̄1 ) + ... + βk (Xk − θX̄k ) + (vit − θv¯i ) (28)
Et des gens très intelligents ont démontré que dans ce modèle le terme de résidu ne comporte
pas d’auto-corrélation. On peut alors calculer un estimateur sur données empilées qui ne
soit pas biaisé.
Cette méthode est donc une recette qui nous donne une valeur θ bien spécifique. Lorsqu’on l’utilise
comme pondération de la moyenne dans un estimateur de quasi-écarts à la moyenne on obtient
un résultat qui a le bon goût d’être estimable sans auto-corrélation.
L’intérêt principal de ce mode d’estimation est que l’on peut employer comme contrôles des
variables explicatives constantes au cours du temps, sans que ces dernières ne disparaissent
lors du passage en écarts à la moyenne. C’est pour cette raison que cette méthode peut être une
alternative intéressante aux effets fixes
8. L’introduction d’une constante implique que ai est de moyenne nulle au travers de l’échantillon.
14
Le problème est toujours le même : outre le besoin d’une non corrélation entre les effets fixes
et les variables explicatives, le terme θ n’est pas forcément connu. Dans la plupart des cas il
est donc nécessaire de l’estimer ce qui relie le modèle à effet aléatoires aux moindres carrés
généralisés, ou plutôt en l’occurrence sur l’estimateur des moindres carrés quasi-généralisés. On
obtient alors l’estimateur à effet aléatoire.
Si les hypothèses principales sont vérifiées :
1. Toutes les hypothèses de Gauss-Markov sont valables
2. Les effets ai sont décorrélés de toutes les variables explicatives
3. N est relativement grand et T petit
Alors l’estimateur à effets aléatoires (de l’équation (28))est convergent et asymptotiquement
normal lorsque N devient grand pour un T fixé. Si N est petit est T est grand alors on ne peut
pas dire grand chose.
Si l’on observe plus en détail les équations (27) et (28) en supposant qu’on introduit des dum-
mies pour chaque période comme variables explicatives, on peut comparer l’estimateur à effets
aléatoires aux estimateurs du modèle empilé et par effets fixes. On peut alors distinguer
deux cas :
1. Le paramètre θ est proche de 0 (ce qui équivaut à dire que la variance de a est négligeable
face à la variance de u). Dans ce cas tout se passe comme si on estimait le modèle
empilé. Les effets fixes sont considérés comme nuls puisque leur variance est trop
faible pour peser véritablement dans le terme d’erreur composé, autrement dit l’écart d’effet
fixe entre les individus est négligeable face à l’écart résiduel exogène.
2. Le paramètre θ est proche de 1 (la variance de u est négligeable en comparaison de la
variance de a). Dans ce cas θX̄k = X̄k et on se retrouve donc à estimer un modèle à
effet fixe. Mais le principal avantage des effets aléatoires disparaı̂t puisque tous les facteurs
de contrôle éventuels invariants dans le temps se trouvent éliminés.
Je comprends donc le terme θ comme un quantificateur de la part respective des effets fixes
et des effets exogènes dans la variance du terme d’erreur composé en fonction du temps. Dès
lors quand on opère vit − θv¯i on opère une transformation juste suffisante pour supprimer
les effets fixes, mais sans être trop importante de sorte que les variables explicatives constantes
soient conservées.
15

Fiche Économétrie Panel

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fiche Économétrie Panel

Transféré par

Droits d'auteur :

Formats disponibles

Fiche économétrie : Données de Panel

1 Quand utiliser des données de Panel ?

On peut définir deux sortes de données de cette sorte :

2 Coupes transversales empilées

De ces exemples découle un point particulièrement important : le coefficient β0 dans l’équation

F = β0 + (δ1 + δ2 Y90 )X1 + β2 Y90 + u (3)

F = β0 + δ1 X1 + δ2 Y90 X1 + β2 Y90 + u (4)

∆U = β0 + δ1 ∆Y + δ2 Age + β3 I + δ3 I∆Y + δ4 AgeI + ϵ (9)

On peut alors poser

3 Méthode d’estimation par différences premières

3.1 Données de Panel et biais de variable omise

Le terme d’erreur X + u est appelé erreur composée et u erreur idiosyncratique . En vertu

F2 − F1 = (β0 − β0 + δ0 ) + β1 (Educ2 − Educ1 ) + (β2 X − β2 X) + u

3.2 Différenciation selon plus de deux périodes

On peut transformer ce système en :

4 Transformation WITHIN (ou estimateur à effets fixes)

Yt − Ȳ = β1 (Xt − X̄) + ut − ū (23)

On remarque que cette opération a permis de supprimer les effets fixes a.

En revanche la transformation within présente d’autres inconvénients :

4.2 Régression sur variables indicatrices

Mais du coup on peut se demander quelle méthode est la meilleure.

Yit = β0 + β1 X1 + ... + βk Xk + ai + uit (25)

Vous aimerez peut-être aussi