Vous êtes sur la page 1sur 15

Fiche économétrie : Données de Panel

24 janvier 2024

1 Quand utiliser des données de Panel ?


Dans bien des situations on a besoin de gérer des données qui sont à la fois des données de
coupes transversales et des données temporelles

On peut définir deux sortes de données de cette sorte :


- jeu de coupes transversales indépendantes empilées : regroupe des échantillonnages indépendants
d’une population à différentes périodes → ce ne sont pas les mêmes individus
- jeu de données de Panel : données longitudinales → ce sont les mêmes individus qui sont suivis

Dans les deux cas les différentes données prises à différentes périodes ne peuvent pas être
considérées comme indépendantes car les facteurs qui influent la valeur de X à une période
donnée influent aussi aux autres périodes

2 Coupes transversales empilées


2.1 Usage de variables indicatrices
L’approche par les coupes transversales empilées est intéressante dans la mesure où elle permet
d’augmenter la taille de l’échantillon : on multiplie la taille de l’échantillon par le nombre de
périodes.

Cela dit, on ne peut faire cela que si on suppose que les données ne présentent pas de différences si-
gnificatives d’une années sur l’autre. En effet la relation entre variables explicatives et dépendante
peut varier au cours du temps

Toutefois il est souvent possible de faire face à ce problème de manière relativement simple. En
particulier on intègre parmi les variables explicatives une variable indicatrice pour chaque année
(sauf la première). A la sortie de la régression on pourra alors obtenir un coefficient β donnant pou
chaque année l’évolution de la variable dépendante par rapport à l’année de référence
EXEMPLE : on cherche à évaluer l’écart de fécondité des femmes entre 1980 et 1990
On prend des données empilées sur 6 dates : 1980, 1982, 1984, 1986, 1988, 1990 et on effectue une régression
multiple en contrôlant pour tous les facteurs qu’on veut
Le coefficient β de la variable indicatrice pour 1990 correspond à l’effet sur la fécondité du fait de prendre
des données de 1990 plutôt que de 1980.

1
On donne un modèle explicite pour la question

F = β0 + β1 X1 + β2 Y90 + u (1)

où X1 est un facteur de contrôle (par exemple le diplôme) et Y90 une variable indicatrice égale à 1
si l’observation a eu lieu en 1990
Le coefficient β2 représente la proportion dans laquelle les femmes ont moins d’enfants en 1990
qu’en 1980, à niveau d’éducation égal aux deux périodes.
Si on réduit les données utilisées à celles de l’année 1980 alors puisque Y90 = 0 on obtient un modèle
plus simple F = β0 + β1 X1 + u dans lequel β0 représente l’ordonnée à l’origine pour les observa-
tions de 1980. Au contraire en utilisant uniquement les données de 1990 (Y90 = 1) β2 devient une
constante en plus de β0 ce qui fait finalement que l’ordonnée à l’origine pour le groupe 1990 est
dans l’ensemble égale à β0 + β2
Mais si on prenait 1990 comme groupe de référence alors les valeurs s’inverseraient.

De ces exemples découle un point particulièrement important : le coefficient β0 dans l’équation


(1) correspond simplement au niveau auquel le plan de régression intersecte l’axe de F. Ainsi :
— dans le cas d’une régression multiple avec des variables quantitatives, l’ordonnée à l’origine
correspond à la valeur théorique qui devrait être prise par la variable dépendante lorsque
toutes les variables explicatives sont nulles. MAIS il ne faut pas perdre de vue la dimension
théorique et instrumentale de cette valeur.
— dans le cas d’une régression multiple avec variables indicatrices / qualitatives, l’ordonnée à
l’origine correspond à la valeur théorique attendue pour le groupe de référence dans le
cas (théorique) où toutes les autres variables quantitatives affichent des valeurs nulles.

On peut à l’occasion avoir besoin d’intégrer plusieurs alternatives qualitatives dans le cadre
d’une régression multiple (croiser couleur de peau et genre par exemple). Dans ce cas, la bonne idée
est de produire pour chaque combinaison de ces variables une variable indicatrice qui prend la va-
leur 1 si cette combinaison est réalisée.
Néanmoins dans tous les cas on a besoin d’un groupe de référence pour lequel on ne doit pas
produire de variable indicatrice. En effet, l’effet sur la variable dépendante induite par l’apparte-
nance au groupe de référence est déjà prise en charge par l’ordonnée à l’origine de la régression
multiple. Du coup si on introduit une variable indicatrice aussi pour ce groupe on va se retrouver
en situation de colinéarité parfaite. C’est pour cela que l’on évite dans la mesure du possible de
multiplier les variables indicatrices pour éviter de tomber dans la trappe à variables indicatrices

De la même manière il arrive (souvent) qu’une variable qualitative prenne plus de deux va-
leurs. On pourrait utiliser une variable indicatrice de 0 et de 1 mais cela implique que dans les
résultats l’effet de 2 sera nécessairement enregistré comme deux fois l’effet de 1, ce qui n’a rien
d’évident d’autant que ça risque de pourrir les échelles de nos autres variables (quantitatives).
Dès lors l’idéal est d’introduire une variable explicative par échelon pour distinguer différents
groupes de manière ordinale sans obligatoirement leur donner des pondérations cardinales. On
peut alors comparer le coefficient β pour les échelons 2 et 3 (par exemple) et interpréter leur écart
comme l’effet du passage de 2 à 3.

2
2.2 Ajout de termes d’interaction
Passons maintenant à la question des termes d’interaction. Reprenons le modèle (1). Ce modèle
postule implicitement que l’effet de l’éducation est le même aux deux années. Ainsi la régression
par OLS va conduire à rechercher un seul coefficient β1 qui fera la synthèse de l’effet de l’éducation
aux deux années
A rebours de cette approche on pourrait considérer que β1 dépend de l’année ce qui donne un
modèle :
F = β0 + f (Y90 )X1 + β2 Y90 + u (2)
On peut faire une hypothèse supplémentaire en posant que la relation f est linéaire autrement dit :

F = β0 + (δ1 + δ2 Y90 )X1 + β2 Y90 + u (3)

et par distributivité :

F = β0 + δ1 X1 + δ2 Y90 X1 + β2 Y90 + u (4)


On se retrouve donc avec un modèle dans lequel on a intégré un terme d’interaction. δ2 permet
de différencier l’effet de l’éducation aux deux dates. Pour les données de 1980, Y90 est nulle et donc
l’effet de l’éducation est égal à δ1 . Mais pour 1990 Y90 est égal à 1 donc on peut réécrire le modèle
F = (β0 + β2 ) + (δ1 + δ2 )X1 + u
L’ordonnée à l’origine est alors égale à (β0 + β2 ) et l’effet de l’éducation est (δ1 + δ2 ) (on se retrouve
bien en deux dimensions puisque la variable date n’est plus pertinente )

Récapitulons : lorsque l’on effectue une régression multiple sur k variables explicatives parmi
lesquelles une variable indicatrice on peut séparer le nuage en deux parties distinctes selon
cette variable ce qui rend possible de tracer deux droites de régressions projetées sur un espace de
dimension n-1. Concernant ces droites :
1. l’ordonnée à l’origine de la droite du groupe de référence est la même que celle du nuage
de point complet (ce qui tient au fait que c’est ce groupe qui se voit attribuer la valeur 0
de la variable indicatrice donc en ce qui concerne ce groupe le résultat est le même avec ou
sans la variable indicatrice) MAIS du coup cela est purement arbitraire
2. l’ordonnée à l’origine de la droite du groupe test est égale à l’addition de l’ordonnée à
l’origine de base de la régression multiple et du coefficient β de la variable indicatrice. DONC
ce dernier coefficient mesure l’écart relatif sur la variable dépendante entre les deux
groupes toutes choses égales par ailleurs
3. si on suppose qu’il n’y a pas d’interaction entre la variable indicatrice et les autres variables
(l’effet de Xi est le même quel que soit le groupe considéré) ALORS les deux droites projetées
sont parallèles (elles ont la même pente)
4. Au contraire si on admet un terme d’interaction les deux droites n’ont pas la même pente
car l’effet de Xi sur Y n’est pas identique selon la valeur de la variable indicatrice.
Mais dans ce cas le coefficient β de la variable indicatrice ne suffit plus à exprimer l’effet
relatif de l’appartenance au groupe test relativement au groupe de référence : pour exprimer
cette relation il faut une forme fonctionnelle dépendant de Xi

3
2.3 Test de Chow et Analyse des politiques publiques
Une chose qu’on a souvent envie de tester, c’est si deux groupes diffèrent de manière significative.
Plus précisément on peut avoir envie de savoir si le résultat d’une régression serait significativement
différent si on avait désagrégé notre échantillon de départ (selon le genre, selon le début et la fin
de la période... )

Par exemple on veut tester si la loi d’Okun diffère significativement entre la période avant 2008 et
la période après 2008. On pose le modèle :

∆U = β0 + β1 ∆Y + ϵ (5)

Pour tester la différence entre avant et après 2008 il suffit d’introduire une variable indicatrice I
valant 0 si l’observation a été réalisée avant 2008 et 1 si elle l’a été après

∆U = β0 + β1 ∆Y + β2 I + ϵ (6)

Dans ce cas une valeur élevée de β2 signifiera une différence significative entre le groupe de référence
(avant) et le groupe de test (après) en matière de chômage. En l’occurrence on ne teste qu’une
différence d’ordonnée à l’origine. On ne teste pas le fait que la relation entre variable explicative
et dépendante puisse varier au cours du temps. (le ratio d’Okun β1 est par construction supposé
constant aux deux périodes). Pour remédier à ce problème il faut introduire un terme d’interac-
tion selon la méthode présentée plus haut :

∆U = β0 + δ1 ∆Y + β2 I + δ2 I∆Y + ϵ (7)

Dans ce cadre la pente (le ratio d’Okun) pour le groupe de contrôle (avant 2008) est égale à δ1
tandis que celle pour le groupe de test est égale à δ1 + δ2 . Le coefficient δ2 donne donc la mesure
de la différence en matière de ratio d’Okun qui existe avant et après 2008. 1

Dès lors il convient de tester δ2 et β2 c’est à dire de vérifier si le modèle est différent en période 1
à la fois du point de vue de la variable dépendante et du point de vue de la relation entre variable
dépendante et indépendante, autrement dit de la forme fonctionnelle. ce coefficient s’écarte assez
de zéro pour être considéré comme significatif. Cela s’effectue à partir d’un test de Fisher classique.

Si l’on se trouve au départ dans une régression multiple, alors il faut multiplier les termes
d’interactions pour distinguer l’effet de l’appartenance aux deux groupes sur l’ensemble des va-
riables explicatives.
Imaginons que l’on teste la loi d’Okun, mais en contrôlant par l’âge moyen de la population des
pays.
∆U = β0 + β1 ∆Y + β2 Age + β3 I + ϵ (8)
Dans ce cas le modèle avec termes d’interaction est :

∆U = β0 + δ1 ∆Y + δ2 Age + β3 I + δ3 I∆Y + δ4 AgeI + ϵ (9)

Pour tester la différence entre les deux groupes il faut tester la significativité conjointe de δ3 et δ4
à partir d’un test de Fisher avec H0 : β3 = 0, δ1 = 0, δ2 = 0
1. Les coefficients δ renvoient aux pentes des variables explicatives tandis que les coefficients β renvoient aux
ordonnées à l’origine

4
Si ce test est positif alors la différence existe entre avant et après. Si les coefficients δ (les coeffi-
cients de termes d’interaction) sont significatifs alors c’est que les pentes associées aux variables
explicatives Age et ∆Y sont différentes dans les groupes séparés par I. Autrement dit la période a
un impact sur le ratio d’Okun.

RAPPEL : le test de Fisher de significativité conjointe de k coefficients consiste à calculer la somme des carrés des
résidus pour le modèle contraint (expurgé des variables que l’on cherche à tester) et non contraint. La statistique de
(SCR −SCRN C )/q
Fisher est alors SCRC /DDL où q = DDLC − DDLN C
NC NC

Ce qui est spécifique dans le cas des variables indicatrices, c’est que la valeur SCRN C peut être ob-
tenue par une simple addition des sommes des carrés des résidus pour chacun des deux
groupes. On fait deux régressions avec les mêmes variables explicatives (mais sans les termes d’in-
teraction 2 ) en utilisant les données des deux groupes. On a alors SCRN C = SCR1 + SCR2 De plus
le nombre de degré de liberté du modèle non contraint (DDLN C ) est égal à n - 2(k+1) 3 et q = k + 1.

On peut alors poser


(SCRC − (SCR1 + SCR2 ))/k + 1
F = (10)
(SCR1 + SCR2 )/(n − 2(k + 1))
Ce cas particulier de la statistique de Fisher est appelée Statistique de Chow . Elle ne diffère
en rien de la statistique F sinon dans sa méthode de calcul : les hypothèses et les conditions sont
les mêmes notamment l’homoscédasticité des erreurs et la normalité des résidus (sauf en situation
asymptotique).
De plus, pour être utilisé il nécessite que la variance des erreurs ne soit pas différente dans les deux
groupes donc n’est pas robuste à l’hétéroscédasticité.

Dans le cas des données de panel, le test de Chow peut être calculé sur davantage que deux
périodes, dans ce cas la méthode n’est pas très différente (voir 2.7) :
1. La SCR du modèle contraint est obtenue par régression sur les données empilées (tous les
groupes ensemble) avec une variable indicatrice distincte pour chaque période 4 mais sans
les termes d’interaction. (équation (6))
2. La SCR du modèle non contraint est obtenue par l’addition des SCR obtenues par les
régressions partielle avec les données de chaque période 5

2. La question est de savoir s’il faut à ce moment intégrer ou non les variables indicatrices. Je suppose que cela
dépend de ce qu’on veut tester : si c’est uniquement la forme fonctionnelle oui, si c’est l’homogénéité du modèle entre
les deux groupes non
3. puisque le modèle non contraint comporte k variables explicatives plus une variable indicatrice plus k termes
d’interaction plus une constante
4. Ou pas, voire la note 2
5. sans variables indicatrices qui ne sont par définition pas nécessaires ici

5
2.4 L’intérêt des données de Panel dans l’analyse des politiques pu-
bliques
Que se passe t-il lorsque l’on combine données de Panel et variable indicatrice dans le
cadre de l’analyse d’une politique ?
Dans ce cas on se retrouve à introduire deux variables indicatrices : l’une qui sépare l’échantillon
en deux groupes (de traitement et de contrôle), l’autre qui le divise selon la période.
Cette situation est en réalité analogue à celle présentée à la partie 2.2 même si cette fois on ne fait
pas interagir la variable indicatrice de période avec un facteur quantitatif (l’éducation) mais avec
un facteur qualitatif lui même symbolisé par une variable indicatrice (l’appartenance ou non ou
groupe test).

Dans l’exemple du manuel, on a affaire à une expérience naturelle qui doit permettre d’évaluer
l’effet d’un incinérateur sur la valeur des maisons proches. Différents niveaux de modèles sont dis-
ponibles :
P rix = β0 + β1 Dist + u (11)
Ce modèle est le plus simple puisqu’il utilise une simple variable indicatrice pour distinguer deux
groupes selon la proximité. β1 mesure alors l’écart de valeur entre les maisons proches et moins
proches dans l’ensemble de l’échantillon.
Mais il est aussi trop simple pour attribuer ce écart de valeur à l’incinérateur puisqu’il est bien
possible que ce dernier ait été construit dans un quartier où l’immobilier avait déjà moins de valeur

Une méthode consiste alors à utiliser à mesurer l’écart δ1 entre β1 avant la mise en place
de l’incinérateur et β1 après cette mise en place : cet estimateur est appelé l’estimateur de la
différence des différences ou estimateur des doubles différences

L’estimateur des doubles différences δ1 peut s’obtenir par une autre méthode qui consiste à es-
timer le modèle :
P rix = β0 + δ0 Y ear + β1 Dist + δ1 DistY ear + u (12)
Autrement dit δ1 est le coefficient du terme d’interaction entre la variable indicatrice de distance
est celle de l’année. C’est logique ! Par définition ce coefficient enregistre l’effet de prendre les
(on trouve pas écart type
données APRÈS l’installation sur l’effet de la distance sur le prix . en faisant la soustraction
L’intérêt de cette seconde manière de calculer δ1 et qu’elle rend facile d’obtenir son écart-type es- des valeurs du modèle 1
pour 1978 et 1981, alors
timé (ce qui est moins évident avec une simple soustraction). qu’on le trouve facilement
On peut améliorer cette méthode en contrôlant à partir d’à peu près tout ce qu’on veut. On pourrait en revenant à la formule
pour une régression
alors découvrir que l’effet de la proximité à l’incinérateur sur le prix passe par des canaux indirects linéaire avec OLS toussa)
comme la qualité où la taille des logements. Au pire, l’ajout de contrôles permet de réduire la
variance de l’erreur, donc d’accroı̂tre la puissance des tests.

Le résultat de l’expérience peut être présenté sous la forme d’un tableau qui montre les valeurs
moyennes de chacun des groupes dans le carré nord-ouest et les valeurs de traitement au sud et à
l’est(voire schéma) 6 . δ1 est alors appelé l’effet moyen du traitement.
6. Puisque l’on utilise des variables indicatrices comme variables explicatives principales (on cherche à expliquer
la valeur de y en fonction de l’appartenance à des groupes temporels et spatiaux) la pente est toujours égale à l’écart
entre les valeurs moyennes puisque tous les axes sont unitaires.

6
AVANT APRÈS APRÈS - AVANT
Groupe de contrôle β0 β0 + δ 0 δ0
Groupe de traitement β 0 + β1 β 0 + β 1 + δ1 + δ0 δ1 + δ0
Traitement - contrôle β1 β1 + δ 1 δ1

Comme on peut le voir dans le tableau, δ1 mesure bien l’effet excédentaire spécifique au groupe de
traitement induit par le fait de prendre les données après.

Quoi qu’il en soit, l’usage des données de Panel est très efficace ici pour mettre au jour des inférences
causales dans la mesure où l’on suppose que l’effet des variables omises est le même avant et après
l’installation. L’estimateur des doubles différences permet alors de toutes les supprimer et de mener
un raisonnement toutes choses égales par ailleurs.

3 Méthode d’estimation par différences premières


La méthode des données de panel empilées consiste donc à agréger toutes les données et à
contrôler l’ensemble par des variables indicatrices temporelles et des termes d’interaction.
La méthode des différences premières est une autre méthode qui vise à obtenir des résultats similaires
mais en recourant aux variations dans le temps des données.

3.1 Données de Panel et biais de variable omise


Une intérêt fondamental des données de Panel est qu’elles permettent de résoudre le problème
du biais de variable omise dans le cas où l’effet des variables cachées est constant dans
le temps.

Supposons par exemple que l’on cherche à évaluer les causes de la fécondité des femmes. On utilise
le modèle :
F = β0 + β1 Educ + β2 X + u (13)
Où X regroupe l’ensemble des variables cachées affectant F. Le problème pour mener la régression
est alors comme d’habitude le biais de variable omise si X est corrélée avec Educ.

Le terme d’erreur X + u est appelé erreur composée et u erreur idiosyncratique . En vertu


des hypothèses de base des OLS c’est ce terme qui doit être décorrélé de Educ pour éviter les biais
de variable omise

Supposons pour commencer que l’on cherche simplement à estimer le modèle (13) tout d’un bloc
(sans introduire de variables indicatrices) à partir d’une différence première. Dans ce cas le passage
à l’équation en différences implique que si le phénomène suit à l’origine un fonction linéaire alors
l’équation en différences premières suit une fonction affine (β0 = 0) ce qui est problématique.
Ce résultat implique que ce n’est pas la même chose de tester d’une part un modèle linéaire sur des
données quantitatives fixes et de tester d’autre part un modèle linéaire sur les variations entre ces
données. Ce sont là deux choix méthodologiques différents qui conduisent à tester deux estima-
teurs β distincts.

7
Le corrélat de cette remarque est le suivant : si les β sont distincts avec les deux méthodes alors cela
ne veut en aucun cas dire que le passage à la différence est en mesure de corriger un biais de variable
omise par la suppression des effets fixes (ce qui voudrait dire qu’on a vraiment fait n’importe quoi
dans notre projet tutoré). 7

Supposons au contraire que l’on cherche à estimer le modèle en tenant compte de l’évolution
entre deux périodes de temps. La manière logique serait alors d’estimer le modèle (13) en ajou-
tant une variable indicatrice T2 qui prend la valeur 1 pour la période 2.

F = β0 + δ0 T 2 + β1 Educ + β2 X + u

Mais le problème avec cette méthode est que l’on risque d’avoir de l’endogénéité dans le terme X
+ u, endogénéité incontrôlable puisque les variables sont cachées.
Une manière astucieuse de procéder est alors de supposer que X est constante au cours du temps.
Dans ce cas on divise les données en deux groupes qui suivent deux modèles différents :

F1 = β0 + β1 Educ + β2 X + u (14)
F2 = (β0 + δ0 ) + β1 Educ + β2 X + u (15)

Comme on introduit pas de termes d’interaction les droites des deux groupes sont supposées pa-
rallèles. On peut alors soustraire l’un des deux modèles à l’autre

F2 − F1 = (β0 − β0 + δ0 ) + β1 (Educ2 − Educ1 ) + (β2 X − β2 X) + u


= δ0 + β1 (Educ1 − Educ2 ) + u
= ∆F = δ0 + β1 ∆Educ + u (16)

On a transformé le modèle d’origine par données empilées pour obtenir l’équation en différences
premières qui est un modèle de régression linéaire simple SANS variable omise.
Dans ce modèle, X est appelé hétérogénéité non observée tandis que β1 est appelé estimateur
en différences premières

Le terme δ0 quand à lui renvoie à une constance dans l’évolution entre les deux périodes.
C’est logique puisque dans l’équation de base δ0 correspond à l’effet propre de la deuxième période
par rapport à la première.

Bien entendu la validité de la méthode des différences premières reste suspendue à la constance
des variables omises. Si un facteur de confusion augmente entre les deux dates alors il va avoir
un impact plus fort sur la valeur des variables dépendantes et explicatives.

De plus il faut remarquer que les hypothèses de base des OLS nécessitent que ∆Educ varie au
cours du temps sinon on a pas de variabilité disponible pour la régression. Du coup l’emploi de la
méthode des premières différences n’est pas possible si la variable explicative reste inva-
riante selon les périodes et ce même si elle change selon les individus. Plus généralement il est
d’autant plus difficile d’obtenir des OLS précis que la variable explicative varie peu au cours du
temps.
7. Heureusement, la suite explicite les cas où une forme fonctionnelle linéaire sur les différences permet d’obtenir
le même estimateur que la régression sans différences

8
L’ajout de variables de contrôle dans le modèle ne pose aucune difficulté. De même l’estimateur
des différences premières est tout à fait compatible avec l’emploi de variables indicatrices non
temporelles (qui ne seraient pas supprimées par le passage à la différence puisque le partage entre
les groupes ne se superpose pas au partage entre les expressions de F1 et F2).

3.2 Différenciation selon plus de deux périodes


On peut tout à fait ajouter des variables indicatrices dans le cadre de l’estimation d’un modèle
en différences premières.
F = β1 + δ1 T 2 + δ2 T 3 + βX + ai + u (17)
Dans ce modèle on cherche à estimer l’effet de chaque année sur la fécondité. Le terme ai est sup-
posé décorrélé des variables indicatrices autrement dit il regroupe l’ensemble des facteurs ayant
des effets invariants au cours du temps.
X représente l’ensemble des facteurs par lesquels on choisit de contrôler (avec ou sans termes
d’interaction) et dont on suppose que l’effet n’est pas invariant.
On remarque que l’on a introduit deux variables indicatrices pour trois périodes (la constante
synthétise l’effet de la première période). Ainsi si on étudie n périodes on aura n-1 variables
indicatrices.

On pourrait opérer cette estimation par l’intermédiaire de données de panel empilées. Dans
ce cas rien ne change sinon qu’il faudrait ajouter des colonnes dans le tableau pour chaque période.
Le problème peut néanmoins intervenir dès lors que l’on doit multiplier les termes d’interaction.
En effet si on a beaucoup de périodes et beaucoup de facteurs de contrôle on se retrouve à calculer
énormément de termes d’interaction ce qui est vite problématique.

De son côté la méthode des différences premières correspond à distinguer autant de modèle
que de périodes et à soustraire chaque période à la précédente :

Y1 = β0 + β1 X1 + ai + u
Y2 = (β0 + δ1 ) + β1 X2 + ai + u
Y3 = (β0 + δ2 ) + β1 X3 + ai + u
(18)

On peut transformer ce système en :

∆1 Y = Y2 − Y1 = δ1 + β1 (X2 − X1 ) + u
∆2 Y = Y3 − Y2 = δ2 + β1 (X3 − X2 ) + u

Si on traite Y1 et Y2 comme une seule population Y, estimer conjointement ces deux équations
est équivalent à estimer une équation comportant deux variables indicatrices, chacune décrivant à
quelle soustraction on se réfère. Autrement dit on peut rendre commensurables toutes les différences
si l’on injecte dans le modèle les variables indicatrices qui leur permettent de relier chaque donnée
(soit chaque différence) à la période d’où elle est tirée.

9
∆i Y = δ1 D1 + δ2 D2 + β1 ∆i X + u (19)

L’intérêt de cette équation est qu’elle permet d’interpréter correctement les coefficients δ. En effet
si la division du dataset en plusieurs groupes n’est pas pertinent alors δi = 0 et la différence suit
bien une fonction affine comme prévu. En fait cette équation EST une fonction affine en dimension
multiple.

Toutefois l’absence de constance dans cette équation pose problème pour des raisons calculatoires.
Aussi on peut la reformuler à partir d’une constante et d’une seule variable indicatrice et d’une
seule variable indicatrice T divisant le groupe des variations en deux groupes :

∆Y = γ0 + γ1 T + +β1 ∆X + u (20)

Parenthèse : Cette reformulation ne soit cependant pas laisser croire que la différence suit un
modèle linéaire avec une constante non nulle. En effet le cas où δi = 0 implique automatiquement
la nullité de tous les facteurs γ. Mais alors comment comprendre le terme γ0 ? En fait ce terme doit
se comprendre comme une reformulation particulièrement parcimonieuse d’une expression à deux
variables. Cette parcimonie est rendue possible par l’état de colinéarité entre les deux variables : le
plan définit par D1 et D2 est tel qu’une droite et une constante suffisent à le caractériser : il est
constant selon l’une de ses dimensions. On passe donc d’un raisonnement dans n dimensions à un
raisonnement dans n-1 dimensions. En d’autres termes on a une forme fonctionnelle comportant n
variables explicatives qui peut être ré-exprimée sans perte d’information en transformant l’une de
ces variables explicatives en constante.
On peut d’ailleurs interpréter les coefficients γ de la même manière qu’on a interprété δ1 dans
(16) chacun des γ donne la mesure de la constance qui existe pour chaque passage d’une période à
l’autre dans chaque groupe d’observation. La constante γ0 est simplement la valeur de référence qui
est celle à la première variation. Ainsi toutes les variations pour tous les individus entre la période
j et j+1 contiennent une variation de γ0 + γj par delà les valeurs des autres variables explicatives.

On a donc bien transformé une estimation portant sur un nuage de valeur en une estimation
portant sur un nuage de variations de ces valeurs. Ce faisant on a supprimé les effets fixes tout en
conservant l’estimation de β1 . Néanmoins il faut noter que les valeurs des constantes ne sont pas les
mêmes que dans l’équation de départ. La variable indicatrice T est une variable indicatrice ad hoc
qui sépare les données selon la différence à laquelle elle se réfère, et non selon les groupes de départ
(ce qui est logique puisque les données sur lesquelles on raisonne sont désormais exclusivement des
variations). Ainsi, γ0 et γ1 contiennent bien la même information que les δ mais elles ne leur sont
pas égales.

En définitive, on avait au départ un modèle à trois périodes dont l’une prise en charge par une
constante. Le passage à la différence permet de réduire le nombre de périodes à deux (deux varia-
tions) dont l’une est pris en charge par une constante. Le passage a la différence permet d’estimer les
mêmes coefficients β et ce sans avoir à se préoccuper des effets fixes. Enfin, cette méthode modifie la
nature de l’information obtenue par les variables indicatrices : le modèle ne nous donne plus l’effet
spécifique de chaque période mais l’effet spécifique de chaque PASSAGE d’une période à l’autre.

10
Point de vocabulaire : si la base de données recense le même nombre de périodes pour chaque
individu (et donc inversement) alors on parle de panel cylindré

PETITE DIFFICULTÉ : lorsque l’on emploie l’équation en différences premières (18) avec plus
de deux périodes, une hypothèse nécessaire pour appliquer les OLS est que ∆u soit décorrélé au
temps (donc aux variables indicatrices de période).
Mais pour que cela soit réalisé, il faut paradoxalement que les résidus ut aux différentes périodes
soient corrélés les uns avec les autres. Si ce n’est pas le cas alors le modèle est auto corrélé
Le manuel explique différentes manière de gérer cette autocorrélation mais ce n’est peut être pas le
plus important.

La différenciation selon plusieurs périodes est tout à fait compatible avec l’emploi d’un test
de Chow. Il suffit alors de faire des tests sur les coefficients de termes d’interaction conformément
à la méthode décrite en 2.3.

4 Transformation WITHIN (ou estimateur à effets fixes)


4.1 Usage de l’écart à la moyenne temporelle
Il s’agit d’une méthode alternative à la méthode des différences premières pour éliminer les effets
fixes. (ATTENTION : ne pas confondre le modèle à effet fixe et l’estimateur à effet fixe qui est une
méthode )
Cette méthode fait usage de la valeur centrée sur la moyenne.
Soit une équation de régression linéaire simple :

Yt = β1 Xt + a + ut (21)

Où a représente les facteurs à effets constants dans le temps sur Y. On a alors :

Ȳ = β1 X̄ + a + ū (22)

L’estimation de cette dernière équation nous conduirait à faire usage de l’estimateur between. Cet estimateur est
un peu rudimentaire ce qui fait qu’on ne l’utilise pas tant que ça. Il est biaisé en cas de corrélation entre a et X̄
(ce qui n’est pas la même chose qu’une corrélation entre a et Xt ) mais même lorsqu’il n’ y a pas de corrélation il
n’est pas si efficace que ça car il laisse de côté une bonne partie de l’information en ne prenant pas en compte la
variation des variables au cours du temps.

Revenons à (20). On remarque que la moyenne par le temps est inopérante sur a, ce qui est logique
puisque ce terme est constant dans le temps. On peut alors soustraire les deux dernières équations :

Yt − Ȳ = β1 (Xt − X̄) + ut − ū (23)


Y¨t = β1 X¨T + u¨t (24)

On remarque que cette opération a permis de supprimer les effets fixes a.

La valeur de β1 reste calculable est est appelée estimateur à effets fixes ou estimateur within
Cet estimateur s’accommode très bien des régressions multiples. Il est par ailleurs sans biais sous

11
l’hypothèse d’exogénéité stricte des facteurs explicatifs (comme d’habitude ils ne doivent pas être
corrélés aux résidus u). Comme d’habitude, l’homoscédasticité et l’absence de corrélation
sérielle sont deux autres hypothèses requises pour la pratique des OLS.

En revanche la transformation within présente d’autres inconvénients :


- la suppression du facteur a implique aussi que tout facteur invariant au cours du temps par
lequel on voudrait opérer un contrôle disparaitrait lui aussi. Cela tient au fait que si un facteur est
invariant au cours du temps son écart à la moyenne temporelle est constant égal à 0.
- l’usage de l’écart à la moyenne temporelle pour chaque individu a l’inconvénient de faire perdre
au modèle un degré de liberté par individu

Cela dit le problème d’impossibilité de contrôler par un facteur invariant n’empêche pas d’introduire
de tels facteurs dans le cadre de termes d’interaction. Mais cette méthode ne peut mettre au
jour que des écarts dans les rendements du facteur fixe par rapport à l’année de référence. Le
niveau de l’effet reste inconnu.

Une propriété intéressante de l’estimateur à effets fixes est que ce dernier s’accommode très bien
d’un panel non cylindré (lorsque des données temporelles manquent pour certains individus). Le
passage à la moyenne s’effectue simplement sans la donnée manquante.
Cela dit, un problème intervient dans le cas où les données sont absentes pour une raison qui induit
une corrélation avec le terme d’erreur ui et peut donc induire un biais d’échantillonnage. On
parle alors de problème d’attrition.

4.2 Régression sur variables indicatrices


Il s’agit là d’une interprétation alternative du modèle à effets fixes, dans laquelle plutôt que
de chercher à supprimer les effets fixes ai par une transformation et l’usage de la moyenne, on les
prend en compte comme un paramètre à estimer pour chaque observation i.

La conséquence de l’emploi de cette méthode est que l’on obtient n + k paramètres à estimer,
ce qui est beaucoup (et rend impossible l’emploi de cette méthode en coupe transversale).

Cette méthode est a priori équivalente à la transformation within en ce qui concerne l’estimation
des coefficients β (peut être même est elle plus précise ?). Ce qui est sûr en revanche c’est qu’elle
donne un R2 plus élevé puisqu’on introduit beaucoup plus de variables explicatives.

Cette méthode permet également de donner des estimations directes aˆi c’est à dire d’estimer les
effets fixes pour chacun des individus. Cela dit, il est simple de les calculer dès lors qu’on dispose
des coefficients β par transformation within.

Il est difficile de trancher entre transformation within et régression sur variable indicatrice. Une
des limites de cette dernière méthode est toutefois que ses estimateurs ne sont pas convergents.
En effet lorsque l’on augmente la taille de l’échantillon on ajoute autant de variables explicatives
(ai ) ce qui fait que la variance des estimateurs n’a aucune raison de se réduire puisqu’on augmente
pas le nombre de degrés de liberté.

12
4.3 Quelle méthode choisir ?
Si on excepte la méthode des données empilées on dispose de deux méthodes pour les données
de panel :
1. La méthode des différences premières (page 6) qui consiste à transformer les valeurs
absolues en variations sur lesquelles on va réaliser l’estimation
2. La méthode de l’estimateur à effets fixes (ou transformation within) qui passe par les
écarts à la moyenne.

Mais du coup on peut se demander quelle méthode est la meilleure.


Dans le cas où l’on considère deux périodes, les deux estimateurs sont strictement équivalents (en
terme d’estimations mais aussi de statistiques de test). En revanche dans ce cas la méthode des
différences premières s’apparente à une coupe transversale ce qui rend plus facile la construction
d’estimateurs robustes à l’hétéroscédasticité
Si on raisonne sur plus de deux périodes en revanche les deux méthodes diffèrent même si elles sont
toutes deux sans biais.
La question discriminante est alors celle de l’efficacité relative des deux estimateurs (lequel a la
variance la plus faible ?). Cela dépend en grande partie du degré d’autocorrélation (= corrélation
sérielle) du terme d’erreur ui
— si le terme d’erreur ne présente pas de corrélation sérielle alors l’estimateur à effets fixes
est plus adapté
— dans le cas contraire si on s’approche d’une marche aléatoire avec une très fort degré de
corrélation sérielle alors mieux vaut employer l’estimation en différence première
— La plupart du temps on se situe entre les deux et il est plus difficile de trancher. Le mieux
est de tester les deux méthodes en espérant que les deux donneront des résultats similaires.
— Si T est grand et N petit alors il faut être prudent lorsque l’on recourt à l’estimateur à effets
fixes. En effet si tout va bien en théorie sous les hypothèses habituelles, l’inférence devient
très sensible tout écart à ces hypothèses.

13
5 Modèles à effets aléatoires
On se place dans le cas où les effets fixes existent mais où ils ne sont corrélés à aucune des
variables explicatives introduites dans l’équation.

Yit = β0 + β1 X1 + ... + βk Xk + ai + uit (25)


Cov(Xj , ai ) = 0 (26)

Ce cas pourrait être estimé avec une régression simple sans problème d’endogénéité. Le terme ai
serait alors simplement intégré dans le résidu. On pourrait aussi ajouter des variables indicatrices
temporelles pour faire une régression empilée 8 . Mais l’emploi de ce genre de méthodes ”simples”
pose deux problèmes :
1. Le terme ai augmente la variance des résidus ce qui nuit à la précision de l’estimateur.
Ce serait quand même dommage de manquer une occasion de s’en débarrasser ...
2. La présence d’un terme fixe temporellement implique la présence de corrélation sérielle
dans les résidus, ce qui provoque un biais des estimateurs.
Au contraire le recours à des méthodes d’effets fixes (par soustraction par la moyenne ou par
régression sur variables indicatrices), ou aux différences premières permettrait de supprimer ces
termes par le passage à la moyenne.

Mais une autre méthode est applicable en pratique, qui permet de dépasser certaines limites
des méthodes en effets fixes. Elle consiste à opérer une transformation de la forme (25), selon une
procédure analogue à celle qui permet de gérer l’autocorrélation dans les séries temporelles.

La méthode fait intervenir un terme particulièrement bizarre. On pose vit = ai + uit le terme
d’erreur composé. On a besoin de calculer :
s
V ar(u)
θ =1− (27)
V ar(u) + V ar(ai )T

Ce terme ne ressemble pas à grand chose mais on peut l’utiliser pour transformer l’équation (25) :

Yit − θȲi = β0 (1 − θ) + β1 (X1 − θX̄1 ) + ... + βk (Xk − θX̄k ) + (vit − θv¯i ) (28)

Et des gens très intelligents ont démontré que dans ce modèle le terme de résidu ne comporte
pas d’auto-corrélation. On peut alors calculer un estimateur sur données empilées qui ne
soit pas biaisé.
Cette méthode est donc une recette qui nous donne une valeur θ bien spécifique. Lorsqu’on l’utilise
comme pondération de la moyenne dans un estimateur de quasi-écarts à la moyenne on obtient
un résultat qui a le bon goût d’être estimable sans auto-corrélation.

L’intérêt principal de ce mode d’estimation est que l’on peut employer comme contrôles des
variables explicatives constantes au cours du temps, sans que ces dernières ne disparaissent
lors du passage en écarts à la moyenne. C’est pour cette raison que cette méthode peut être une
alternative intéressante aux effets fixes
8. L’introduction d’une constante implique que ai est de moyenne nulle au travers de l’échantillon.

14
Le problème est toujours le même : outre le besoin d’une non corrélation entre les effets fixes
et les variables explicatives, le terme θ n’est pas forcément connu. Dans la plupart des cas il
est donc nécessaire de l’estimer ce qui relie le modèle à effet aléatoires aux moindres carrés
généralisés, ou plutôt en l’occurrence sur l’estimateur des moindres carrés quasi-généralisés. On
obtient alors l’estimateur à effet aléatoire.
Si les hypothèses principales sont vérifiées :
1. Toutes les hypothèses de Gauss-Markov sont valables
2. Les effets ai sont décorrélés de toutes les variables explicatives
3. N est relativement grand et T petit
Alors l’estimateur à effets aléatoires (de l’équation (28))est convergent et asymptotiquement
normal lorsque N devient grand pour un T fixé. Si N est petit est T est grand alors on ne peut
pas dire grand chose.

Si l’on observe plus en détail les équations (27) et (28) en supposant qu’on introduit des dum-
mies pour chaque période comme variables explicatives, on peut comparer l’estimateur à effets
aléatoires aux estimateurs du modèle empilé et par effets fixes. On peut alors distinguer
deux cas :
1. Le paramètre θ est proche de 0 (ce qui équivaut à dire que la variance de a est négligeable
face à la variance de u). Dans ce cas tout se passe comme si on estimait le modèle
empilé. Les effets fixes sont considérés comme nuls puisque leur variance est trop
faible pour peser véritablement dans le terme d’erreur composé, autrement dit l’écart d’effet
fixe entre les individus est négligeable face à l’écart résiduel exogène.
2. Le paramètre θ est proche de 1 (la variance de u est négligeable en comparaison de la
variance de a). Dans ce cas θX̄k = X̄k et on se retrouve donc à estimer un modèle à
effet fixe. Mais le principal avantage des effets aléatoires disparaı̂t puisque tous les facteurs
de contrôle éventuels invariants dans le temps se trouvent éliminés.
Je comprends donc le terme θ comme un quantificateur de la part respective des effets fixes
et des effets exogènes dans la variance du terme d’erreur composé en fonction du temps. Dès
lors quand on opère vit − θv¯i on opère une transformation juste suffisante pour supprimer
les effets fixes, mais sans être trop importante de sorte que les variables explicatives constantes
soient conservées.

15

Vous aimerez peut-être aussi