Vous êtes sur la page 1sur 29

ECONOMETRIE

DE DONNEES
DE PANEL
CHA[ITRE I
COUPES TRANSVERSALES EMPILÉES
COUPES TRANSVERSALES EMPILÉES
SECTION 1 : ELEMENTS DE DEFINITION

*** Concepts clé


Dans la littérature économétrique, plusieurs travaux sont débattus. Cependant, ces travaux aussi diverses soient-ils,
s'appuient essentiellement sur trois (3) types de données : coupe transversale, séries temporelles et données de panel. Dans
cette partie, nous accorderons une attention particulière à une variante de données en coupe transversale : les jeux de
données de coupes transversales empilées.

Les données obtenues à l’issu de l'échantillonnage aléatoire de données sur des périodes différentes constituent des données
en coupe transversale. Cependant, lorsque ces données sont empilées, le jeu de données qui en résulte est celui de données
de coupes transversales indépendantes empilées.

Les coupes transversales indépendantes empilées ont la particularité de provenir de plusieurs échantillonnages aléatoires
contrairement à une coupe transversale qui ne peut provenir que d’un seul échantillonnage aléatoire.
Les distributions de chacun de ces échantillons aléatoires sont nécessairement différentes.

*** Illustration
On considère que dans le cadre d’une enquête sur la cherté de la vie, périodique d’un semestre sur 2 ans, un échantillon
aléatoire de ménages est tiré au sein de la population d’une région. Cet échantillon est, par la suite, soumis à un questionnaire
visant à relever des informations sur les conditions de vie des ménages.

Pour chaque semestre, les données découlant de l'échantillon aléatoire obtenu, constituent une coupe transversale tandis que
leur empilement sur les 2 années, constitue des données de coupes transversales indépendantes empilées.
COUPES TRANSVERSALES EMPILÉES
SECTION 2 : JUSTIFICATIONS DE L'UTILISATION DE COUPES TRANSVERSALES EMPILÉES

*** Augmentation de la taille de l'échantillon


Les coupes transversales empilées présentent plusieurs avantages. En effet, le fait d'être constituées d’une série de jeux de
données sur plusieurs périodes confère à ces données, l'avantage de disposer d’une taille d'échantillon plus importante.

*** Gain en précision des estimateurs


Le gain en termes de précision des estimateurs constitue une conséquence de l'augmentation de la taille de l'échantillon.
Cependant, ce gain est conditionné par la stabilité, sur chaque période de temps, de la relation entre la variable à expliquer et
les variables explicatives. A cet effet, le test de Chow qui vise à étudier le changement structurel dans le temps s'avère d’une
grande utilité.

Le test de Chow est un test de Fisher dont l'application nécessite le calcul de deux (2) sommes de carrés des résidus (SCR) :
▪ SCR contrainte (𝑆𝐶𝑅𝑐 ) qui correspond à la SCR pour le jeu de données de coupes transversales empilées
▪ SCR non contrainte (𝑆𝐶𝑅𝑛𝑐 ) qui correspond à la somme des SCR pour chaque période couverte par le jeu de données de
coupes transversales empilées : 𝑆𝐶𝑅𝑛𝑐 = 𝑆𝐶𝑅1 + 𝑆𝐶𝑅2 + ⋯ + 𝑆𝐶𝑅 𝑇 avec 𝑇 désignant le nombre total de périodes
considérées pour la constitution du jeu de données à coupe transversale
En désignant par k, 𝑛 = σ𝑇𝑖=1 𝑛𝑖 et 𝑇 respectivement le nombre de variables explicatives, le nombre total d'individus et de
périodes considérées dans le modèle portant sur le jeu de données de coupes transversale empilées, alors la statistique de
test notée S est la suivante :

𝒏 − 𝑻(𝟏 + 𝒌) 𝑺𝑪𝑹𝒄 − 𝑺𝑪𝑹𝒏𝒄


𝑺= ~𝑭 𝑻𝒌 − 𝒌 , 𝒏 − 𝑻 − 𝑻𝒌 (E.1)
𝑻−𝟏 𝒌 𝑺𝑪𝑹𝒏𝒄
COUPES TRANSVERSALES EMPILÉES
SECTION 3 : ANALYSE D’UNE POLITIQUE PUBLIQUE A PARTIR DE COUPES TRANAVERSALES EMPILÉES

Les données en coupes transversales empilées se prêtent bien à l'évaluation des politiques publiques. Avant d'aller plus loin
dans notre analyse, nous nous attèlerons à définir des thèmes d’une grande importance pour cette section du cours.

***Expérience naturelle
Elle constitue une configuration dans laquelle un choc exogène, motivé par une politique Gouvernementale, change
l'environnement. Ce type d'expérience repose sur deux (2) groupes d'individus au centre de l'évaluation du changement.

***Groupe de contrôle
Il s'agit des individus qui ne sont pas exposés au changement induit par la politique Gouvernementale.

***Groupe de traitement
Il s'agit des individus qui sont exposés au changement induit par la politique Gouvernementale.

Afin d'apprécier l'effet du choc exogène, il est de coutumes de considérer deux périodes (coupes transversales empilées sur 2
périodes) dont l’une couvre la période post choc exogène et l'autre couvre la période d'avant le choc exogène.

A chacune des périodes susmentionnées, on associe un groupe de traitement et un groupe de contrôle. Soit 4 groupes à
considérer au total.
COUPES TRANSVERSALES EMPILÉES
SECTION 3 : ANALYSE D’UNE POLITIQUE PUBLIQUE A PARTIR DE COUPES TRANAVERSALES EMPILÉES

***Modèle
L'expression mathématique du modèle d'évaluation d'impact de politique publique, sans prise en compte d'autres facteurs outre
les fonctions indicatrices de période et de groupe, est la suivante : 𝑦 = 𝛽0 + 𝛿0 𝟏𝒕=𝟐 + 𝛽1 𝟏𝑮=𝟐 + 𝛿1 𝟏𝑮=𝟐 𝟏𝒕=𝟐 + 𝜇 (E.2)

𝛽0 , 𝛽1 , 𝛿0 , 𝛿1 désignent des paramètres à estimer, 𝜇 le terme d'erreurs et 1 une fonction indicatrice.

෡𝟏 , également connu sur le nom d'effet moyen, est calculé comme


L'estimateur des doubles différences du paramètre 𝜹𝟏 noté 𝜹
suit :
Avant le choc (t=1) Après le choc (t=2) Différence inter période
Groupe de traitement (G=2) ෢0 + 𝛽
𝛽 ෢1 ෢0 + 𝛽
𝛽 ෢1 + 𝛿መ0 + 𝛿መ1 𝛿መ0 + 𝛿መ1
Groupe de contrôle (G=1) ෢0
𝛽 ෢0 + 𝛿መ0
𝛽 𝛿መ0
Différence inter groupe ෢1
𝛽 𝛿መ1 + 𝛽
෢1 𝛿መ1

***Illustration
Supposons que le Gouvernement désire entreprendre une politique publique qui consiste à doter les écoles primaires d’une
région données de cantines scolaires à proximité des écoles primaires dès la date du 01/01/2005.

Les groupes de contrôle seront constitués d'écoles primaires tirées aléatoirement dans la région et n'ayant pas bénéficié d’une
proximité de cantine scolaire avant et après la date du 01/01/2005 . Les groupes de traitement seront, quant à eux, constitués
d'écoles primaires ayant bénéficié d'une cantine scolaire à proximité avant et après la date du 01/01/2005 . Enfin, le choc
introduit par le Gouvernement dans l'environnement des écoles primaires est leur mise en proximité avec des cantines scolaires.
COUPES TRANSVERSALES EMPILÉES
SECTION 3 : ANALYSE DE POLITIQUES PUBLIQUES A PARTIR DE COUPES TRANAVERSALES EMPILÉES

***Illustration (suite)
En prenant pour variable à expliquer 𝒚, le taux d'admission en classe supérieure des écoliers du primaire, l'expression du
modèle économétrique associé au contexte exposé plus haut partant des variables indicatrices est :

𝑦 = 1,4 + 2,8. 𝟏𝑎𝑝𝑟è𝑠 01/01/2005 − 3,7. 𝟏proximité 𝒅𝒆 𝒄𝒂𝒏𝒕𝒊𝒏𝒆 + 4,2 . 𝟏proximité 𝒅𝒆 𝒄𝒂𝒏𝒕𝒊𝒏𝒆 . 𝟏𝑎𝑝𝑟𝑒𝑠 01/01/2005 (E.3)

Il est aisé dans cette équation, d'identifier les estimations des paramètres de ce modèle :
𝛽෠0 = 1,4
𝛽෠1 = 2,8
𝛿መ1 = −3,7
𝛿መ0 = 4,2

Cependant, il est bien de noter qu’un tel modèle peut déboucher sur des résultats peu satisfaisants en termes de pouvoir
explicatif de la variable d'intérêt 𝒚 (le taux d'admission en classe supérieure des écoliers du primaire). Il y a donc lieu
d’associer au modèle, d'autres facteurs explicatifs de la variable d'intérêt afin de corriger le problème de variables omises.

En effet, dans la pratique, le problème d'omission de variables peut être résolu en introduisant dans le modèle, des facteurs
pertinents pour l'analyse, éventuellement : des variables sociodémographiques, des variables socioéconomiques, etc.
CHA[ITRE II
ANALYSE DE DONNÉES DE PANEL SUR AU MOINS
2 PÉRIODES
ANALYSE DE DONNÉES DE PANEL SUR 2 PERIODES
SECTION 1 : ELEMENTS DE DEFINITION

*** Conceptualisation
A l'instar d’un jeu de données en coupes transversales empilées, un jeu de données de panel (encore appelé jeu de données
longitudinales), allie bien à la fois des dimensions temporelles et individuelles. Cependant, dans le cas du jeu de données de
panel, l'échantillonnage est unique et donne lieu à considérer qu’un et un seul échantillon. Aussi, les observations d’une
variable donnée, à différentes périodes, ne sont pas indépendantes.

Par ailleurs, le jeu de données de panel permet de contourner le problème d'omission de facteurs pertinents à l'analyse en
enrichissant la qualité de la régression par l'historique des variables mesurées sur l'unique échantillon.

*** Illustration
On considère que dans le cadre d’une enquête sur la cherté de la vie périodique d’un semestre, un échantillonnage aléatoire
de ménages est mené initialement au sein de la population d’une région. Suite à cela, une base de données de ménages
destinés à être suivis chaque semestre, durant 2 ans, est consolidée en vue de l'enquête.

Dans ce cas d'espèce, comme nous pouvons le constaté, l'échantillon globale utilisé pour l'enquête n'est pas issu de plusieurs
échantillonnages aléatoires.

Par ailleurs, les observations collectées dans cette enquête ne sont pas indépendantes. Par exemple, les observations sur le
salaire ou encore l’âge, pour un même individu, ne sauraient être considérées comme indépendantes respectivement du fait
de l'indexation des salaires à l'inflation et de l’âge qui constitue une progression arithmétique de l’âge de la période précédente.
ANALYSE DE DONNÉES DE PANEL SUR 2 PERIODES
SECTION 2 : SPECIFICATION DU MODELE

***Modèle

Il est courant d'associer à un modèle sur données de panel, la relation suivante :

𝑦𝑖,𝑡 = 𝛽0 + 𝛿0 𝟏𝒕=𝟐 + σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 + 𝜀𝑖,𝑡 avec 𝜀𝑖,𝑡 = 𝛼𝑖 + 𝜇𝑖,𝑡 (E.4)

▪ 𝑦𝑖,𝑡 désigne la variable dépendante, variable à expliquer encore appelée variable endogène
▪ 𝛽0 , 𝛿0 , 𝛽1 désignent des paramètres
▪ 𝟏𝒕=𝟐 désigne une variable indicatrice égale à 1 si la période considérée est la deuxième et 0 sinon
▪ 𝛼𝑖 designe l'effet fixe, ou encore le terme rendant compte de l'hétérogénéité non observée. C’est-à-dire, qu'il rend compte
de l'ensemble des facteurs non observés et constants au cours du temps qui influencent 𝑦𝑖,𝑡
▪ 𝜇𝑖,𝑡 désigne l'erreur idiosyncratique. C’est-à-dire, qu’il représente les facteurs inobservés et qui changent dans le temps.
▪ 𝜀𝑖,𝑡 désigne l'erreur combinée du modèle
▪ 𝑥𝑖,𝑡𝑝 désigne la p-ième variable explicative du modèle
▪ 𝑡 = 1,2 désigne la période de temps considérée dans le jeu de données de panel
ANALYSE DE DONNÉES DE PANEL SUR 2 PERIODES
SECTION 3 : ESTIMATION DU MODÈLE

Le modèle précédemment exposé peut être estimé par MCO sous condition qu’il n'y ait aucune violation des hypothèses sous-
jacentes à l'application des MCO. En présence de violation de ces hypothèses, les estimateurs des paramètres par MCO sont
biaisés, imprécis et non convergents.

Le biais dans l'estimateur peut être le fait d’une corrélation entre 𝛼𝑖 et 𝑥𝑖,𝑡 . Dans ce cas, une manière de le corriger consiste à
appliquer à l'équation (E.4), le traitement suivant :

𝑦𝑖,2 − 𝑦𝑖,1 = 𝛿0 + σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖𝑝,2 − 𝑥𝑖𝑝,1 + 𝜇𝑖,2 − 𝜇𝑖,1 (E.5)


∆𝑦𝑖 = 𝛿0 + σ𝑘𝑝=1 𝛽𝑝 ∆𝑥𝑖𝑝 + ∆𝜇𝑖 (E.5)

(E.5) et 𝛽1 désignent respectivement l'équation et l'estimateur en différences premières.

Sous conditions que (i) ∆𝜇𝑖 ne soit pas corrélé à ∆𝑥𝑖 avec 𝑡 = 1,2, (ii) ∆𝑥𝑖𝑝 varie suffisamment afin de réduire l'écart type
estimée de l'estimateur du paramètre 𝛽1 et (iii) que les autres hypothèses nécessaires à l'application d’un MCO soient vérifiées
(sinon, y appliquer les corrections nécessaires), l'équation (E.5) peut-être estimée par MCO.

Cependant, il est à noter que la double différence présente l'inconvénient d'être coûteuse et difficile à mettre en œuvre car elle
nécessite de procéder à des enquêtes de suivi régulières des individus, étant entendu les éventuelles difficultés que posent la
stabilité de leurs identifications, leurs localisations ainsi que leur accessibilité et leur disposition à prendre part à l'enquête.
ANALYSE DE DONNÉES DE PANEL SUR 2 PERIODES
SECTION 3 : ESTIMATION DU MODÈLE

*** Illustration

Soit une étude portant sur la relation entre le capital humain et la productivité menée sur des données de panel sur un
échantillon de 1368 élèves en fin de cycle secondaire en 2000 et en 2010 (soit 10 ans après leur sortie du cycle secondaire).

Les variables prises en compte dans le modèle, autres que la variable indicatrice (𝟏𝒕=𝟐0𝟏𝟎 ) de temps et le terme d'erreur (𝜀𝑖,𝑡 )
sont : la productivité (Prod), le niveau d'éducation (𝑛𝑖𝑣𝑒𝑑𝑢) et le niveau de santé (𝑛𝑖𝑣𝑠𝑎𝑛𝑡é).

Prod𝑖,𝑡 = 𝛽0 + 𝛿0 𝟏𝒕=𝟐0𝟏𝟎 + 𝛽1 𝑛𝑖𝑣𝑒𝑑𝑢𝑖,𝑡 + 𝛽2 𝑛𝑖𝑣𝑠𝑎𝑛𝑡é𝑖,𝑡 + 𝜀𝑖,𝑡 𝑎𝑣𝑒𝑐 𝜀𝑖,𝑡 = 𝛼𝑖 + 𝜇𝑖,𝑡 (E.6)

❑ L'équation en différences premières de l'équation précédente est :

∆Prod𝑖 = 𝛿0 + 𝛽1 ∆𝑛𝑖𝑣𝑒𝑑𝑢𝑖 + 𝛽2 ∆𝑛𝑖𝑣𝑠𝑎𝑛𝑡é𝑖 + ∆𝜇𝑖

❑ L'estimation du modèle décrit par l'équation (E.6) est :

∆Prod𝑖 = 11,5 + 2,54 ∆𝑛𝑖𝑣𝑒𝑑𝑢𝑖 + 7,32 ∆𝑛𝑖𝑣𝑠𝑎𝑛𝑡é𝑖


ANALYSE DE DONNÉES DE PANEL SUR 2 PERIODES
SECTION 4 : ANALYSE DE POLITIQUES PUBLIQUES A PARTIR DE DONNÉES DE PANEL SUR 2 PERIODES

*** Illustration

Un Gouvernement tente d’accroître les effectifs (𝑁𝑏𝑆𝑐𝑖) des jeunes filles dans les domaines scientifiques. Pour ce faire, il
décide d'octroyer des subventions (𝑆𝑢𝑏𝑣) aux familles ayant fait le choix de faire scolariser leurs filles.

Ces subventions prennent la forme de dons de matériels didactiques dont des ordinateurs, des fournitures scolaires, des
bourses d'études, etc. Une cohorte de 1000 jeunes filles prises dans une province du pays est choisie pour évaluer l'impact de
la politique de subvention initiée par le Gouvernement dont le lancement s’est fait le 01/01/2015.

On note que 400 d'entre ces filles bénéficient de la subvention gouvernementale contrairement aux autres. L'évaluation de
l'impact de cette politique démarre exactement 2 ans après son lancement.

Formellement, l'équation du modèle dévaluation d'impact associé au contexte susmentionné peut être, celui d’un modèle de
données de panel en différences premières sur 2 périodes, tel que suit :

∆𝑁𝑏𝑆𝑐𝑖𝑖 = 𝛽0 + 𝛽1 ∆𝑆𝑢𝑏𝑣𝑖,𝑡 + ∆𝜇𝑖 (E.7)

L'estimateur de 𝛽1 par MCO (sous réserve de la validité des hypothèses sous-jacentes à cette estimation) rend compte de
l'effet moyen de la subvention gouvernementale.
ANALYSE DE DONNÉES DE PANEL SUR PLUS DE 2 PERIODES
SECTION 5 : ESTIMATEUR DES DIFFERENCES PREMIERES SUR PLUS DE 2 PERIODES

Comme on peut bien le soupçonner, les données de panel peuvent s'appliquer pour plus de 2 périodes (T> 2).

*** Illustration

On considère 3 périodes (𝑇 = 3) dans lesquelles sont respectivement échantillonnés 𝑁1 , 𝑁2 et 𝑁3 individus. Le modèle


mathématique associé à un modèle de panel sur 3 périodes peut être introduit comme suit :

𝑦𝑖,𝑡 = 𝛿0 + 𝛿1 𝟏𝒕=𝟐 + 𝛿2 𝟏𝒕=𝟑 + σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 + 𝜀𝑖,𝑡 avec 𝜀𝑖,𝑡 = 𝛼𝑖 + 𝜇𝑖,𝑡 (E.8)

Les indicatrices 𝟏𝒕=𝟐 et 𝟏𝒕=𝟑 susmentionnées aident à rendre compte de la constante du modèle pour chaque période étant
entendu que t = 1 correspond à la période de référence.

Comme nous l'avons précédemment souligné, en cas de corrélation entre 𝑥𝑖,𝑡𝑝 et 𝛼𝑖 , les estimations des paramètres 𝛽𝑝
courent le risque d'être biaisées. Tant bien même que l'on supposerait que 𝑥𝑖,𝑡𝑝 et 𝛼𝑖 soient indépendants, il resterait encore à
s'assurer qu’il n'y ait pas d'omission de variables pertinentes pour l'analyse, auquel cas, un problème d'endogénéité se
poserait, étend entendu que les autres hypothèses des MCO sont validées.

A l'instar du cas avec 2 périodes, celui avec plus de 2 périodes fixe le problème de corrélation entre 𝑥𝑖,𝑡𝑝 et 𝛼𝑖 en procédant à
la différence première des équations du modèle mathématique qui porte les 2 périodes considérées.
ANALYSE DE DONNÉES DE PANEL SUR PLUS DE 2 PERIODES
SECTION 6 : ESTIMATEUR DES DIFFERENCES PREMIERES SUR PLUS DE 2 PERIODES

Dans le cas où T> 2, pour éliminer 𝛼𝑖 , il suffit de considérer la différence entre les périodes adjacentes.

Par exemple, pour 𝑇 = 3 on procède à la différence entre l'équation mathématique pour 𝑡 = 1 et 𝑡 = 2 puis à la différence
entre l'équation mathématique pour 𝑡 = 2 et 𝑡 = 3. Ce faisant on obtient l'équation ci-après :

∆𝑦𝑖,𝑡 = 𝛿2 ∆𝟏𝒕=𝟐 + 𝛿3 ∆𝟏𝒕=𝟑 + σ𝑘𝑝=1 𝛽𝑝 ∆𝑥𝑖,𝑡𝑝 + ∆𝜇𝑖,𝑡 pour t = 2, 3 (E.9)

Les indicatrices 𝟏𝒕=𝟐 et 𝟏𝒕=𝟑 susmentionnées aident à rendre compte de la constante du modèle pour chaque période étant
entendu que 𝑡 = 1 correspond à la période de référence.

En raison des difficultés que pose l'absence de constante dans l'équation ci-dessus, on lui préfère l'équation ci-dessous, qui
est un cas qu’on sait traiter par analogie avec les résultats de l'équation (E.4)

𝑦𝑖,𝑡 = 𝜃0 + 𝜃3 𝟏𝒕=𝟑 + σ𝑘𝑝=1 𝛽𝑝 ∆𝑥𝑖,𝑡𝑝 + ∆𝜇𝑖,𝑡 pour t = 2, 3 (E.10)

A noter qu'en règle générale, cette procédure est applicable pour T> 2 et débouche, sans perte de généralités, sur 𝑇 − 1
périodes pour chaque individu 𝑖 qu’il faut inclure au moyen de variables indicatrices pour rendre compte des changements qui
n’ont pas été modélisés :

𝑦𝑖,𝑡 = 𝜃0 + 𝜃3 𝟏𝒕=𝟑 + 𝜃4 𝟏𝒕=𝟒 + 𝜃5 𝟏𝒕=𝟓 + ⋯ + 𝜃𝑇 𝟏𝒕=𝑻 + σ𝑘𝑝=1 𝛽𝑝 ∆𝑥𝑖,𝑡𝑝 + ∆𝜇𝑖,𝑡 pour t = 2, 3,4,…,T (E.11)
CHAPITRE III
METHODES AVANCEES D’ESTIMATION EN
ECONOMETRIE DE DONNEES DE PANEL
ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 1 : TRANSFORMATION WITHIN ET TRANSFORMATION BETWEEN

Jusqu’ici, la méthode d'estimation d'un modèle à données de panel que nous avons parcourue, est celle des différences
premières. Cependant, comme on aurait pu le soupçonner, d'autres méthodes d'estimation peuvent être mobilisées aux fins
d'estimer un modèle avec données panel. Deux (2) d'entre elles, la transformation within et la transformation between du
modèle à effets fixes, feront l'objet de cette section.

A l'instar de la méthode d'estimation par différences premières, la transformation within du modèle à effets fixes repose sur
une transformation permettant d'éliminer l'effet aléatoire inobservé 𝛼𝑖 . Ce faisant, cette méthode constitue également une
garantie de l'élimination de toutes les variables explicatives invariantes dans le modèle.

Considérons le modèle mathématique suivant :

𝑦𝑖,𝑡 = σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 + 𝛼𝑖 + 𝜇𝑖,𝑡 pour 𝑡 = 1,2,3, … , 𝑇 (E.12)

La transformation within du modèle a effet fixe consiste, pour chaque individu i, d'exprimer la moyenne de l'équation (E.12)
dans le temps (calcul des moyennes temporelles) afin d'obtenir l'équation (E.13), avant de procéder à la différence entre (E.12)
et (E.13) afin d'obtenir l'équation (E.14)

E(𝑦𝑖 ) = σ𝑘𝑝=1 𝛽𝑝 E 𝑥𝑖𝑝 + 𝛼𝑖 + E 𝜇𝑖 (E.13)

𝑦𝑖,𝑡 − E(𝑦𝑖 ) = σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 − E 𝑥𝑖𝑝 + 𝜇𝑖,𝑡 − E 𝜇𝑖 pour 𝑡 = 1,2,3, … , 𝑇 (E.14)


ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 1 : TRANSFORMATION WITHIN ET TRANSFORMATION BETWEEN

L'estimateur des MCO de l'équation (E.14) est appelé estimateur within. Sous l'hypothèse d'exogénéité stricte (termes
d'erreurs idiosyncratiques décorrélés aux variables explicatives) des variables explicatives et des autres hypothèses de
validation des MCO, cet estimateur est sans biais.

La transformation between de l'équation (E.12) consiste, pour chaque individu 𝑖, à exprimer la moyenne de l'équation (E.12)
dans le temps, puis à y introduire une constante. Ainsi, on débouche sur une équation différente à une constante près de
l'équation (E.13) définie comme suit :

E(𝑦𝑖 ) = 𝛽0 + σ𝑘𝑝=1 𝛽𝑝 E 𝑥𝑖𝑝 + 𝛼𝑖 + E 𝜇𝑖 (E.15)

L'estimateur des MCO de l'équation (E.15) est appelé estimateur between. A l'évidence, cet estimateur présente l'inconvénient
d'incorporer en son sein, l'effet fixe inobservé 𝛼𝑖 , ce qui pose problème lorsque cet effet se trouve être corrélé aux valeurs
moyennes des variables explicatives retenues dans l'équation (E.15). Dans une telle configuration, l'estimateur between sera
nécessairement biaisé.

Par contre, lorsque l'effet fixe inobservé 𝛼𝑖 est aucunement corrélé aux variables explicatives alors, sous l'hypothèse
d'exogénéité stricte, on peut procéder à une estimation MCO, étend entendu que les conditions sous-jacentes à cette
méthode d'estimation soient toutes vérifiées.

Un autre inconvénient de l'estimateur between réside dans le fait qu’il ignore une partie non négligeable de l'information
portant sur la dynamique d'évolution dans le temps des variables explicatives incorporées dans le modèle.
ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 2 : CALCULS MATRICIELS DANS UN MODÈLE DE PANEL : CAS

On rappelle que 𝑦 = α𝑖𝑁𝑇 + 𝑋𝛽 + 𝑍𝜇 + 𝜗 = 𝑍𝛿 + 𝑍𝜇 𝜇 + 𝜗 (E.16)


• 𝜇 est la matrice d'effets fixes inobservés
• 𝜗 est la matrice des erreurs idiosyncratiques qui sont iid 0, 𝜎𝜗2
• On a ∀𝑖 et 𝑡, 𝑋𝑖𝑡 est indépendant de 𝜗𝑖𝑡
• 𝑁 désigne le nombre d’observations sur une période et 𝑇 désigne le nombre de périodes
• N𝑇 désigne le nombre d'observations que compte le jeu de données de panel (il s'agit panel cylindré)
• 𝑖𝑁𝑇 désigne une matrice de dimension 𝑁𝑇 x 1 constituée que d'unités
• 𝑍 = 𝐼𝑁𝑇 , 𝑋 est une matrice de dimension 𝑁𝑇 x (K+1)
• 𝐼𝑁 désigne la matrice identité de dimension 𝑁 x 𝑁
• 𝑖 𝑇 désigne une matrice de dimension 𝑇 x 1 constituée que d'unités
• 𝑍𝜇 = 𝐼𝑁 ⊗ 𝐼𝑇 désigne une matrice d'indicatrices de dimension 𝑁𝑇 x N et ⊗ désigne le produit de Kronecker
• 𝑦 est la matrice de dimension 𝑁𝑇 x 1 des observations de la variable à expliquer
• 𝑋 est la matrice des variables explicatives de dimension 𝑁𝑇 x K
• 𝛿 ′ = 𝛼 ′ , 𝛽 ′ désigne la matrice de dimension 1 x (K+1) dont les éléments sont les paramètres du modèle
ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 2 : ELEMENTS MATRICIELS POUR L'ESTIMATION D’UN MODÈLE A EFFETS FIXES

Pour parvenir à estimer (E.16) le modèle, on multiplie chaque membres de l'équation la matrice rendant compte de la
−1
déviation par rapport à l'individu moyen 𝑄 = 𝐼𝑁𝑇 − 𝑃 avec P = 𝑍𝜇 𝑍𝜇′ 𝑍𝜇 𝑍𝜇′ avec 𝑃𝑍𝜇 = 𝑍𝜇 et 𝑃 désignant le projecteur de 𝑍𝜇

On note que P et Q portent 3 propriétés :


• 𝑄 et 𝑃 sont symétriques, c’est-à-dire que 𝑃′ = 𝑃, 𝑄 ′ = 𝑄, 𝑡𝑟𝑎𝑐𝑒 𝑄 = 𝑟𝑎𝑛𝑔 𝑄 = 𝑁𝑇 − 𝑁 et 𝑡𝑟𝑎𝑐𝑒 𝑃 = 𝑟𝑎𝑛𝑔 𝑃 = 𝑁
• 𝑄 et 𝑃 sont idempotentes , c’est-à-dire que 𝑃2 = 𝑃 et 𝑄 2 = 𝑄
• 𝑄 et 𝑃 sont orthogonales, c’est-à-dire 𝑃. 𝑄 = 0 et 𝑃 + 𝑄 = 𝐼𝑁𝑇

En procédant à cette multiplication, sachant que 𝑄𝑍𝜇 = 𝑄𝑖𝑁𝑇 = 0, on obtient la relation ci-après :

𝑄𝑦 = 𝑄𝑋𝛽 + 𝑄𝜗 (E.17)

Les éléments de la matrice 𝑄𝑦 de dimension de 𝑁𝑇 x 1 sont 𝑦𝑖,𝑡 − 𝐸 𝑦𝑖


Les éléments de la matrice 𝑄𝑋 de dimension 𝑁𝑇x K sont 𝑋𝑖𝑘,𝑡 − 𝐸 𝑋𝑖
Les éléments de la matrice 𝑄𝜗 de dimension de 𝑁𝑇 x 1 sont 𝜗𝑖,𝑡 − 𝐸 𝜗𝑖

L'estimateur de 𝛽 par MCO de l'équation (E.17) est donné par la relation suivante : 𝛽෠ = 𝑋 ′ 𝑄𝑋 −1
𝑋 ′ 𝑄𝑦 (E.18)

On note que var 𝛽෠ = 𝜎𝜗2 𝑋 ′ 𝑄𝑋 −1


ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 3 : TESTER L'EXISTENCE D’UN EFFET FIXE

On peut tester l'existence d'effets fixes en procédant au test de CHOW qui n’est rien d'autre qu’un test de Fisher (F-test)

Pour ce faire on teste l'hypothèse nulle suivante (𝐻0 ) suivante : 𝜇1 = 𝜇2 = 𝜇3 =…= 𝜇𝑁−2 = 𝜇𝑁−1 = 0

𝑵𝑻 − 𝑵 − 𝑲 𝑺𝑪𝑹𝒄 − 𝑺𝑪𝑹𝒏𝒄
𝑺= ~𝑭 𝑵 − 𝟏, 𝑵𝑻 − 𝑵 − 𝑲 (E.19)
𝑵−𝟏 𝑺𝑪𝑹𝒏𝒄

:Dans ce cas de figure, il y a lieu de considérer les définitions suivantes pour les sommes de carres des résidus (SCR) :

▪ SCR contrainte (𝑆𝐶𝑅𝑐 ) qui correspond à la SCR obtenu après estimation de (E.16)

▪ SCR non contrainte (𝑆𝐶𝑅𝑛𝑐 ) qui correspond à la somme des SCR obtenu par estimation (E.17)
ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 4 : REGRESSION SUR VARIABLES INDICATRICES

Une alternative à l'estimation d’un modèle à effets fixes consiste à faire l'hypothèse que l'effet inobservé 𝛼𝑖 est un paramètre à
estimer pour chaque individu i. En d'autres termes, pour parvenir à cette fin, il faudrait introduire pour chacune des
observations, une constante rendant compte de l'effet inobservé en plus des variables explicatives que compte déjà le modèle.

Naturellement, selon que la taille des observations soit importante, cette méthode introduira de nombreuses variables
explicatives, si nombreuses qu’elles rendront impossible l'estimation de la régression. De ce fait, cette approche s'avère
impertinente pour des données de panel dont les observations sont beaucoup trop importantes.

Cependant, lorsque la taille de l'échantillon se prête à ce type d'estimation, cette régression comporte bien de spécificités
intéressantes. En effet, elle peut fournir les mêmes résultats standards (écart type, estimation des paramètres et t-test de
significativité) que ceux obtenus avec l'estimation de (E.15).

Par ailleurs, cette régression a l'avantage de fournir un R-carré plus élevé de coutume que celui fournit par l'estimation de
l'équation (E.15). Ceci s'explique du fait qu’elle intègre autant de variables indicatrices que d’individus, ce qui lui permet de
rendre mieux compte de la variabilité des données.

Enfin, un autre avantage de cette approche est la possibilité d’en tirer une estimation de la distribution des effets fixes
inobservés. Cette distribution est telle que :
∀𝑖 ∈ ℕ∗ , 𝛼ො 𝑖 = 𝑦ത𝑖 − 𝛽෠1 𝑥ҧ 𝑖1 + 𝛽෠2 𝑥ҧ 𝑖2 + 𝛽෠3 𝑥ҧ 𝑖3 + ⋯ + 𝛽෠𝑘 𝑥ҧ 𝑖𝑘 (E.20)
ESTIMATION DU MODÈLE A EFFETS FIXES
SECTION 5 : ARBITRAGE ENTRE ESTIMATION PAR DIFFERENCES PREMIERES ET ESTIMATION D'EFFETS FIXES

Nombre de périodes Estimateur en différences premières VS Estimateur d'effets fixes

• 𝛽෠𝑘𝐷𝑃 = 𝛽෠𝑘𝐸𝐹
• 𝛽෠𝑘𝐷𝑃 et 𝛽෠𝑘𝐸𝐹 sont convergents pour 𝑇 fixé et N → +∞
• 𝛽෠𝑘𝐷𝑃 et 𝛽෠𝑘𝐸𝐹 sont sans biais sous les hypothèses d'application des MCO
𝑇=2
• Les statistiques de test sont identiques (t-test, 𝑅 2 , F-test, etc.) lorsque (E.5) et (E.12) sont identiques,
c’est-à-dire que (E.12) doit inclure une variable indicatrice
• Le calcul de 𝛽෠𝑘𝐸𝐹 est robuste au présence d'hétéroscédasticité

• 𝛽෠𝑘𝐷𝑃 ≠ 𝛽෠𝑘𝐸𝐹
• 𝛽෠𝑘𝐷𝑃 et 𝛽෠𝑘𝐸𝐹 sont sans biais sous les hypothèses d'application des MCO
𝑇>2
• 𝛽෠𝑘𝐷𝑃 et 𝛽෠𝑘𝐸𝐹 sont convergents pour 𝑇 fixé et N → +∞
• Lorsque les 𝜇𝑖𝑡 ne sont pas corrélés dans le temps alors 𝛽෠𝑘𝐸𝐹 est plus efficace que 𝛽෠𝑘𝐷𝑃 , il est
préférable d'estimer 𝛽෠𝑘𝐸𝐹 sinon on estime 𝛽෠𝑘𝐷𝑃
𝑇 ≥ 30 et N < 30 Il est recommander de recourir avec prudence à l'estimateur à effets fixes, notamment en présence de
racine unitaire. L'usage d’une différence première présente l'avantage de stationnariser le variables.
ESTIMATION D’UN MODÈLE A EFFETS ALEATOIRES

SECTION 1 : PRINCIPES ET ESTIMATION D’UN MODÈLE A EFFETS ALÉATOIRES

On considère l'équation 𝑦𝑖,𝑡 = 𝛽0 + σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 + 𝛼𝑖 + 𝜇𝑖,𝑡 pour 𝑡 = 1,2,3, … , 𝑇 (E.21)

Le modèle à effets fixes, comme nous l'avons vu précédemment repose principalement sur l'hypothèse que l'effet inobservé
soit corrélé aux variables explicatives. Mais qu’en est-il si nous estimons un modèle à effet fixes partant de (E.21) et en
violation de cette hypothèse fondamentale ?

Dans un tel contexte, les estimations par MCO qui découleraient de l'estimation de ce modèle seraient inefficaces. Pour palier
à de telles déconvenues, il est préférable de procéder à l'estimation d'un modèle à effets aléatoires.

En effet, à la différence du modèle à effet fixe, le modèle à effets aléatoires repose sur l'hypothèse d'indépendance entre l'effet
inobservé et les variables explicatives, et ce, sur toutes les périodes couvertes par l'analyse.
ESTIMATION D’UN MODÈLE A EFFETS ALEATOIRES
SECTION 1 : PRINCIPES ET ESTIMATION D’UN MODÈLE A EFFETS ALÉATOIRES

On reprend l'équation (E.21) dans laquelle on fait l'hypothèse que l'effet inobservé est de moyenne nulle. Lorsqu'il est
soupçonné que les effets inobservés soient corrélés avec certaines variables explicatives, c’est-à-dire qu’on a la relation
Cov(𝑎𝑖 , 𝑥𝑖𝑡 ) = 0 pour 𝑡 = 1,2,3, … , 𝑇 alors on a recourt à l'estimation d’un modèle à effets fixes ou a une estimation par
différence première.

Par contre, lorsque l'effet inobservé ne souffre d'aucune corrélation possible avec ces variables, alors on lui préfère, en termes
d'estimation, le modèle à effets aléatoires. Cette méthode peut être appliquée dans l'hypothèse que les données sont en
coupes transversales ou des données sont indépendantes et empilées. Dans chacun de ces cas, les estimateurs obtenus sont
convergents.

Toutefois, lorsque les données considérées sont des coupes transversales empilées indépendantes alors les termes d'erreurs
composés 𝜀𝑖,𝑡 = 𝛼𝑖 + 𝜇𝑖,𝑡 pour 𝑡 = 1,2, …,T sont sériellement corrélées au cours du temps. A noter que sous l'hypothèse
𝑉𝑎𝑟 𝑎𝑖
d'erreurs aléatoires, l'autocorrélation des erreurs est : 𝐶𝑜𝑟 𝜀𝑖𝑠 , 𝜀𝑖𝑡 = pour 𝑡 ≠ 𝑠
𝑉𝑎𝑟 𝑎𝑖 +𝑉𝑎𝑟 𝜇𝑖
Le recours à la méthode d'estimation par MCO sur données en coupes transversales indépendantes empilées pose problème
dans la mesure où par hypothèse, il ne peut admettre une telle corrélation. De même, les statistiques de tests traditionnelles
qui en découlent sont caduques.

En lieu et place de la méthode MCO, on lui préfère la méthode des moindres carrés généralisés (MCG) dont la spécificité est
qu’elle peut être mobilisée en présence d'autocorrélation des erreurs.
ESTIMATION D’UN MODÈLE A EFFETS ALEATOIRES
SECTION 2 : ESTIMATION D’UN MODÈLE A EFFETS ALÉATOIRES PAR MCG

Sous condition que le nombre d'observations (N) soit grand et que le nombre de périodes (T) soit relativement petit, la
transformation par MCG permet de se défaire de l'existence d’une corrélation sérielle des termes d'erreurs composés en
procédant par la transformation suivante

𝑦𝑖,𝑡 − 𝜌E 𝑦𝑖 = 𝛽0 1 − 𝜌 + σ𝑘𝑝=1 𝛽𝑝 𝑥𝑖,𝑡𝑝 − 𝜌E 𝑥𝑖p + 𝜀𝑖,𝑡 −𝜌E 𝜀𝑖 pour 𝑡 = 1,2,3, … , 𝑇 (E.22)

𝑉𝑎𝑟 𝜇𝑖𝑡
Avec 0 < 𝜌 = 1 − < 1, E 𝑦𝑖 , E 𝑥𝑖p et E 𝜀𝑖 désignant respectivement un paramètre de transformation, les
𝑉𝑎𝑟 𝜇𝑖𝑡 +𝑇.𝑉𝑎𝑟 𝛼𝑖
moyennes temporelles associées à la variable dépendante, la p-ieme variable explicative et le terme d'erreurs composé. On
note également que l'estimation de (E.22) permet d'obtenir des autocorrélations d'erreurs nulles.

Ainsi, l'estimation par MCG se prête aux spécifications de modèles incluant un effet fixes ou des variables invariantes dans le
temps.

Par ailleurs, en pratique puisque est inconnu, on estime chacun de ses arguments comme suit :
σ𝑁 𝑇−1 𝑇
𝑖=1 σ𝑡=1 σ𝑝+1 𝜀
ො 𝑖𝑡 𝜀ො 𝑖𝑝
෢ 𝛼𝑖 = 2
𝑉𝑎𝑟 ෞ 𝜀𝑖𝑡 − 𝑉𝑎𝑟
= 𝑉𝑎𝑟 ෞ 𝜇𝑖𝑡 étant entendu que les parametres ෝ𝜀𝑖𝑡 et 𝜀𝑖𝑝
Ƹ désignent les résidus de
𝑁𝑇 𝑇−1 −2 𝑘+1
l'estimation du modèle (E.12) par les MCO sur données empilées.
ESTIMATION D’UN MODÈLE A EFFETS ALEATOIRES
SECTION 2 : ESTIMATION D’UN MODÈLE A EFFETS ALÉATOIRES PAR MCG

La valeur de 𝜌 renferme des implications précieuses qui permettent de discriminer sur le type de modèle à privilégier entre un
modèle à effets fixes et une estimation par MCO sur données empilées.

Pour s’en convaincre reprenons l'expression du paramètre 𝜌 et l'écart des erreurs composés par rapport à leur moyenne
temporelle ajustée par 𝜀𝑖,𝑡 −𝜌E 𝜀𝑖 précédemment exposés :

𝑉𝑎𝑟 𝜇𝑖𝑡
𝜌 =1−
𝑉𝑎𝑟 𝜇𝑖𝑡 + 𝑇. 𝑉𝑎𝑟 𝛼𝑖

𝜀𝑖,𝑡 −𝜌E 𝜀𝑖 = (1 − 𝜌) 𝛼𝑖 + 𝜇𝑖𝑡 − 𝜌E 𝜇𝑖


Cas de figure Modèle à estimer Propriétés d'estimateurs obtenus
𝜌→1 Estimer un modèle à effets fixes Si N est grand et T est fixé alors les estimateur sont :
▪ Convergents
▪ Biaisé
▪ Asymptotiquement normal
𝜌→0 Procéder à une estimation par MCO sur données Si N est grand et T est fixé alors les estimateur sont :
empilées ▪ Convergents
▪ Biaisé
▪ Asymptotiquement normal
ESTIMATION D’UN MODÈLE A EFFETS ALEATOIRES

SECTION 3 : PRINCIPES ET ESTIMATION D’UN MODÈLE A EFFETS ALÉATOIRES CORRÉLÉS

Cette approche pose pour hypothèse que l'effet inobservé soit corrélé avec les variables explicatives du modèle.

Dans le contexte d’une corrélation linéaire simple, on a : 𝛼𝑖 = 𝜔 + 𝛾E 𝑥𝑖 + 𝜏𝑖 tel que 𝜏𝑖 (terme d'erreurs) n’est pas corrélé aux
variables 𝑥𝑖𝑡 et par conséquent est non corrélé à E 𝑥𝑖 .

Le modèle à effets aléatoires corrélés est donné par la relation ci-après

𝑦𝑖𝑡 = 𝜔 + 𝛾E 𝑥𝑖 + 𝛽𝑥𝑖𝑡 + 𝜏𝑖 + 𝜇𝑖,𝑡 (E.23)

Curieusement, l'estimation de ce modèle fournit les mêmes estimateurs que ceux obtenus avec la transformation within. De ce
fait , l'estimateur du modèle à effets fixes à l'avantage de mesurer l'impact marginal de la variable explicative sur la variable
dépendante tout en tenant compte de l'influence du niveau moyen de la variable explicative.

Par ailleurs, le modèle à effets aléatoires corrélés revêt un tout autre avantage du fait que selon la valeur 𝛾 = 0 ou non,
permet de facto d'arbitrer entre le choix d’un modèle à effets fixes et un modèle à effets aléatoires.

Pour ce faire, partant de l'équation (E.23) on procède au test hypothèse suivant :


𝐻0 ∶ 𝛾 = 0 𝑉𝑆 𝐻1 ∶ 𝛾 ≠ 0
ARBITRAGE ENTRE EFFETS ALEATOIRES ET FIXES

SECTION 1 : ARGUMENTS DE L'ARBITRAGE ENTRE EFFETS ALEATOIRES ET EFFETS FIXES

▪ Le modèle à effets fixes constitue le cadre le plus complet de l'estimation d’un modèle sur données de panel pour la simple
raison qu’il intègre la possibilité pour l'erreur fixe inobservé d'être corrélée avec les variables explicatives.

▪ Le modèle à effets aléatoires est mieux adapté aux modèles dont la spécification contient des variables explicatives
invariantes dans le temps. Il est également préféré au modèle à effets fixes lorsque 𝐶𝑜𝑟 𝛼𝑖 , 𝑥𝑖𝑡 = 0.

▪ L'estimateur d’un modèle à effets aléatoires est préférés à celui des MCO sur les données empilées car généralement plus
efficace.

▪ On peut également arbitrer entre un modèle a effets fixes et un modèle a effets aléatoires en procédant à la différence
statistique de leurs estimateurs respectifs via un test de Hausman.

Vous aimerez peut-être aussi