SSRN-id2891006 - Copie

Économétrie des données de panel
UNIVERSITE DE CARTHAGE
INSTITUT DES HAUTES ETUDES LABORATOIRE D’ECONOMIE

COMMERCIALES DE CARTHAGE & DE FINANCE APPLIQUEES
MODULE N°1
ECONOMETRIE DES DONNEES DE PANEL
SOUS STATA
MAI 2012
Mohamed GOAIED & Seifallah SASSI
1ère édition
Electroniccopy
Electronic copy available
available at:
at: https://ssrn.com/abstract=2891006
https://ssrn.com/abstract=2891006
Économétrie des données de panel Mohamed GOAIED & Seifallah SASSI
Introduction
L’objectif de ces modules consiste à démystifier l’économétrie et à aider les chercheurs de

tout bord (universitaires et praticiens) à se familiariser avec les techniques économétriques les
plus utilisées grâce à l’usage des logiciels économétriques les plus répandus, tels que Stata et
E-Views. Pour cela, il est utile de rappeler que l’économétrie reste un outil d’aide à la
décision et non pas une finalité. Mon professeur , feu Piétro Balestra de l’Université de
Genève, nous rappelait, à juste titre, dans son cours d’économétrie à Dijon, qu’un bon
économètre doit être avant tout un bon économiste ! Par conséquent, la maitrise de la théorie
économique, le développement de l’analyse économique sont autant d’atouts pour pouvoir
profiter davantage de l’outil économétrique. Il ne faut pas tomber dans les pièges de l’attitude
facile des presses-Boutons, aidée par la multiplicité des logiciels économétriques qui nous
offrent aujourd’hui des procédures d’estimation complexes à partir de boîtes de dialogues de
plus en plus conviviales, mais qui ne peuvent en aucun cas remplacer ni l’intuition
économique ni la rigueur scientifique du chercheur.
Je voudrai donner quelques conseils principalement aux jeunes doctorants qui auront dans
leur recherches à utiliser les techniques économétriques afin de réussir leur partie empirique
qui constitue une barrière pour plusieurs chercheurs confrontés à la mise en pratique de leurs
connaissances qui restent très souvent théoriques. Il s’agit là, d’une réflexion qui permet, un
tant soit peu, d’orienter le chercheur vers le choix approprié des méthodes économétriques à
utiliser, compte tenu de la nature de l’information statistique disponible, tout en gardant à
l’esprit que tout travail de recherche demeure perfectible. Seul Dieu est parfait !
La démarche économétrique.
 La disponibilité de l’information statistique et sa nature (coupe instantanée, série

chronologique ou panel) vont conditionner la portée du champ d’investigation
empirique, ainsi que les méthodes économétriques à retenir.
 Une double vision est requise au niveau de la lecture des articles de référence. (Type
de données, de variables retenues, méthodes d’estimation, type d’instruments et de
tests,…) en plus du cadre conceptuel de la théorie économique. Economie et
statistique vont de pair.
 Les résultats empiriques sont tributaires de la qualité de l’information statistique et de

la représentativité de l’échantillon retenu. D’où le besoin de s’attarder sur la
description de la base statistique.
 Une analyse descriptive détaillée de l’échantillon est importante avant de se lancer

dans les estimations économétriques.
Electroniccopy
Electronic copy available
available at:
at: https://ssrn.com/abstract=2891006
https://ssrn.com/abstract=2891006
 La transposition (pure est simple) d’un modèle théorique tiré de la littérature et

appliqué dans un contexte qui n’est pas le sien peut être une approximation grossière
de la réalité et peut conduire à des résultats controversés.
 Les objectifs de la recherche (l’économique) peuvent être « en conflit » avec les

méthodes économétriques souhaitées.
 Les méthodes économétriques « sophistiquées » améliorent souvent la précision des

estimateurs mais ne remettent pas en question la nature de la relation entre les
variables étudiées ! La solution est plutôt d’ordre économique que statistique.
Cette collection d’économétrie appliquée sous Stata et/ou E-Views est une série de modules,
fruit d’un travail de recherche assidu d’une équipe de jeunes chercheurs passionnés du LEFA
que j’ai eu le privilège de diriger. Pour ce premier module, je tiens particulièrement à
remercier Seifallah Sassi et Dorsaf El Byr pour leur sérieux. La série N°1 est consacrée à
l’économétrie des données de panel sous Stata. Elle fait l’objet de séminaires de formation
pour les doctorants pour leur permettre de manipuler les principales estimations en données
de panel, classiques et dynamiques. D’autres modules sont en cours d’élaboration et paraitront
sous forme de modules complémentaires. Je peux citer :
- Econométrie des variables qualitatives dépendantes.

- Econométrie des séries temporelles.
Les lecteurs de ce document peuvent télécharger les bases de données, à partir du site du
laboratoire d’économie et de finance appliquées, LEFA. Nous espérons recevoir vos
commentaires, afin d’améliorer et de mettre à jour, de façon continue les versions proposées.
Mohamed Goaied
Professeur en Econométrie & Statistique

HEC Carthage
Directeur du LEFA, directeur de l’édition.
e-mail : mohamed_goaied@yahoo.fr
www.lefa-ihec.com
Electronic copy available at: https://ssrn.com/abstract=2891006

Table des matières
Introduction
I. Initiation à Stata
1. Connaissance avec l’environnement de stata
2. Importation des données.
3. Analyse descriptive.
II. Regresion linéaire sur données de panel

1. Le modèle à effets fixes individuels.
1.1. Les hypothèses.
1.2. L’estimation par les MCO, LSDV.
1.3. Application sous Stata
1.3.1. Modèles à effets fixes.
1.3.2. Modèles à effets fixes avec variables instrumentales.
2. Le modèle à erreurs composées.
2.1. Les hypothèses sur les résidus.
2.2. L’estimation par les MCG.
2.3. Application sous Stata.
2.3.1. Estimation du modèles à erreurs commposées.
2.3.2. Estimation du modèles à erreurs commposées avec variables instrumentales.
3. Le test de spécification de Haussman.
3.1. La procédure du test.
4. Méthode de Haussman-Taylor en données de panel.
4.1. Les hypothèses du test.
5. Quelques tests sur données de panel
5.1. Test de normalité des résidus.
5.2. Test du multiplicateur de Lagrange.

5.3. Test de validité des instruments.

6. La méthode GMM en panels dynamiques.
6.1. Le principe de la méthode GMM.
6.1.1. La méthode GMM en différences premières.
6.1.2. La méthode GMM en système.
6.2. Application sous Stata
6.2.1. Application de la méthode GMM en différences premières
6.2.2. Application de la méthode GMM en système.
Références bibliographiques.

1. Initiation à Stata
1. Connaissance de l’environnement Stata.

Pour se familiariser avec l’environnement de Stata, il faut découvrir les quatre fenêtres
de Stata :
- Review : historique des commandes passées

- Variables : liste des variables relative au fichier des données utilisées.
- Command : permet de saisir les instructions à exécuter sur Stata
- Stata results : résultats de l’exécution des commandes

Dans l’ordre, les principales icônes :

(1) Ouvrir,
(2) Enregistrer,
(3) Imprimer
(4) Visualiser ou créer un fichier log (fichier résultats)
(5) Afficher l’aide et diverses options (même résultat avec la commande help)
(6) Afficher un graphique
(7) Ouvrir ou créer un fichier do
(8) Modifier la base de données (edit), (data Editor)
(9) Arrêter l’exécution d’une commande
Une instruction utile qui vient juste après l’icône (8) est « variables Manager ».
Elle permet de d’attribuer des étiquettes pour les différentes variables du fichier des
données.
Exemple, le fichier des données ci-dessus contient comme troisième variable, GDP-
Capita qui est le taux de croissance du PIB par tête. Pour lui attribuer une
étiquette, il suffit de cliquer sur l’icône (variables Manager) , après avoir
ouvert le fichier des données. Vous aurez la figure suivante :
Pour attribuer une étiquette ou Label à une variable, vous cliquez sur la variable, puis
vous indiquez à la case label (à droite) : croissance du PIB par tête, puis vous
cliquez sur Apply. Le label indiqué apparait à droite de la variable concernée.
Vous pouvez refaire ce principe pour toutes les variables du fichier de
données.

Vous pouvez créer plusieurs documents, mais les deux principaux sont les suivants :
 Data
Fichiers.dta : Base de données brutes + Bases de données qui intègrent les
modifications (transformation logarithmique, nouvelles variables crées, etc.)
Il est fortement conseillé de ne pas travailler directement sur la base brute, mais plutôt
sur une copie.
 Log
Fichiers.log : indiquent toutes les sorties de stata. Ils contiennent tous les
résultats des commandes stata que vous avez effectué. Il doit être ouvert, juste après
l’ouverture du fichier des données afin de contenir tous les résultats des commandes que
vous allez effectuer.
1. L’importation de fichiers de données, Excel.

L’importation des données préparées sur un tableur Excel peuvent être effectuées en
utilisant le logiciel d’accompagnement de Stata, Stat/Transfert. La dernière version de
Stata 12, permet directement d’importer le fichier excel. Dans cette version(11), on utilise
plutôt le logiciel Stat/Transfert car il présente le mérite de pouvoir transférer plusieurs
types de données (autres que ceux d’excel) et les convertir en fichiers Stata.
Exemple ; On dispose d’une base de données de panel relative à 15 pays de la région

MENA observés de manière incomplète sur la période 1961-2006. (Voir Tableau suivant).

Tableau N°1. Descriptif de la base de la base de données. Source : WDI.
Les principales variables sont la croissance annuelle du PIB par tête (prix
constants). Un Indicateur du développement financier CPS : L’ensemble des
crédits alloués au secteur privé, en pourcentage du PIB, le taux d’inflation, le
degré d’ouverture (importations+Exportations/PIB) et les dépenses
gouvernementales. La base de données , se présente sous forme d’un fichier excel,
de ma manière suivante :

Tableau N°2. Fichier des données, panel.xlsx.

On remarque qu’il existe des données manquantes pour certaines variables. Stata les
assimiles à des poins manquants, « missing points ». Lors du calcul de statsitique
descriptive ou d’estimation, les observations relatives à des points manquants seront
automatiquement éliminées. Par conséquent, il y’a une perte d’information. Pour
transferer le fichier excel, cliquez sur Stat/ Transfert, la fenêtre suivante , apparait :
10

Input file : Le fichier excel à rechercher avec Browse. Output file, vous recherchez
la version Stata. Vous cliquez par la suite sur Transfert, pour vous permettre
d’avoir le fichier.xlsx converti, dans le même répertoire en fichier.dta ( exemple ;
Panel.xlsx est converti en fichier stata, panel.dta).
En cliquant sur le logiciel Stata, et en ouvrant le ficher panel.dta, (file/open), on

obtient la fenêtre suivante qui va nous permettre d’entamer l’analyse
économétrique sur données de panel, sur les determinants de la croissance
économique et répondre à la question principale, à savoir si l’impact du
développement financier stimule la croissance économique dans les pays de la
région Ména. Des variables de contrôle telles que l’inflation (inf1), les dépenses
publiques (gc) et l’ouverture commerciale (to) seront introduites, après
transformation logarithmique.
2. Analyse descriptive sur Stata.
Quelques commandes Stata sont utiles, pour créer de nouvelles variables, calculer des
moyennes, des correlations, etc.
11

Gener nom de la nouvelle variable= ln(ancienne variable). Exemple, on a dans le fichier

des données le degré d’ouverture commerciale TO. On souhaite faire une transformation
logarithmique : Dans la case « command » de Stata, on écrit : gener ln_to=ln(to). Le nom
ln_to est arbitraire. D’autres commandes Stata sont utiles :
summarize ..., Calcule pour une variable ou une liste de variables la moyenne, l’écart-
type, le minimum, le maximum
tabulate Calcule les fréquences des observations d’une variable et permet de faire
des tableaux croisés pour deux variables
pwcorr et corr Permet d’obtenir la matrice des corrélations et la matrice des
variance-covariances, avec la significativité statsitique du coefficient de
corrélation linéaire.
ttest ou sdtest Test de comparaison des moyennes ou des variances
tabulate ..., chi2 Test d’indépendance de 2 caractères, test de Pearson
On peut utiliser également les boîtes de dialogue de Stata. Par exemple si, on
veut calculer les : moyenne, écarts type, minimum et maximum des variables, on
procède de la manière suivante :
Puis on introduit les variables pour le calcul statistique, comme suit :
12

Après avoir retenu les variables, dans la case de gauche (variables), on obtient les
résultats qui suivent :
13

On observe que le nombre d’observations pour les differentes variables, n’est pas
identique. Cela est expliqué par le nombre de données manquantes pour les
principales variables retenues. Les valeurs minimales et maximales peuvent nous
permettre de détecter l’existence d’eventuels points aberrants. Il est possible de
calculer les coeffcients de variation pour chaque variable (ecart-type/ moyenne)
pour voir l’homogénéité/Hétérogénéité de l’echantillon selon la variable étudiée. A
titre d’exemple, le CV de la variable ln_cps est égal à 0.25 < 0.15. Ceci indique
une hétérogénéité de l’echantillon par rapport à l’indicateur du développement
financier. On peut aussi calculer les correlations possibles avec les differentes
variables du modèle afin de detecter le risque de multicolinérité, en cas de
correlations fortes entre certaines variables explicatives du modèle. On procède
de la manière suivante :
De la même façon, on choisit par la suite, les variables, pour lesquelles nous
effectuons l’analyse de la correlation, comme suit :
14

Les résultats sont les suivants :
On observe que le coeffcient de correlation le plus élevé (0.528) se situe entre

l’indicateur du développement financier (ln_cps) et celui des dépenses publiques
(ln_gc). Les variables étant toutes exprimées en logarithme.
15

Les régressions linéaires sur données de panel
Introduction
Les données utilisées en économétrie sont le plus souvent des séries

chronologiques, telles que le nombre d’entrées de touristes par mois, la croissance
annuelle du PIB, etc. Par ailleurs, on peut disposer de données en coupe instantanée
concernant une période donnée, telle que la valeur ajoutée des entreprises du secteur
manufacturier pour l’exercice 2011.
Les données de panel, ou données longitudinales possèdent les deux dimensions
précédentes (individuelle et temporelle) et rapportent les valeurs des variables
considérées relevées pour un ensemble, ou panel, d'individus sur une période donnée.
Par conséquent, le modèle en données de panel s’écrit comme une modèle à double indice
qui prend la forme suivante :
yit     k X kit   p z pi  it i=1…N t=1…Ti

k p
On utilise une notation à deux indices, i pour l'individu i et t pour le temps. Les variables
explicatives Xkit sont variables dans le temps, alors que les variables z pi sont des facteurs
invariants dans le temps. La double dimension qu’offrent les données de panel est un
atout majeur. En effet, si les données en séries temporelles permettent d’étudier
l’évolution des relations dans le temps, elles ne permettent pas de contrôler
l’hétérogénéité entre les individus. A l’inverse, les données en coupes transversales
permettent d’analyser l’hétérogénéité entre les individus mais elles ne peuvent pas tenir
compte des comportements dynamiques, puisque la dimension temporelle est exclue du
champ d’analyse.
16

En utilisant des données de panel, on pourra exploiter les deux sources de variation de
l’information statistique : Temporelle où variabilité intra-individuelle et individuelle ou
variabilité inter-individuelle. L’augmentation du nombre d’observations permet de
garantir une meilleure précision des estimateurs, de réduire les risques de multi
colinéarité et surtout d’élargir le champ d’investigation. De nombreux modèles
économétriques, exploitant essentiellement des données d'entreprise, peuvent être
confrontés à des données croisées, le caractère particulier de celles-ci invite à considérer
des spécifications et des méthodes d'estimation adaptées. Le panel considéré n’est pas
nécessairement complet (cylindré) où toutes les unités statistiques sont observés durant
la période considérée. Il peut s’agir d’un panel incomplet, non cylindré, où les individus
ne sont pas observés sur toute la période de l’analyse du fait du problème d’entrée/sortie.
A titre d’exemple si on dispose d’un panel incomplet de 1500 entreprises observées sur la
période 1991-2010, certaines entreprises n’existaient pas en 1991 et ont été crées par la
suite. Par ailleurs, d’autres entreprises qui existaient en 1991 ont pu disparaître de
l’échantillon avant 2010, pour diverses raisons (fusion, acquisition, banqueroute, etc).
Dans ce cas de figure, le cylindrage de l’échantillon n’est pas conseillé à cause du risque
de biais de sélectivité, puisque les entreprises que nous éliminerons de l’échantillon, pour
raisons d’informations temporelle incomplète, peuvent ne pas avoir la même typologie
que celle qui sont observées sur toute la période indiquée.
Ce chapitre présente les techniques les plus courantes de modélisation des données de
panel. Théoriquement, les méthodes proposées dans ce cadre supposent que la dimension
individuelle est infinie (des centaines, voire des milliers d’entreprises) et la dimension
temporelle est finie (bilans annuels observés sur quinze à vingt ans). D’où l’intérêt de
contrôler l’hétérogénéité des individuelle qui peut être supposée fixe ou aléatoire.1
1
Dans notre exemple empirique, on retient pour des raisons de commodité un panel de 15 pays observés sur 46
ans.
17

Tableau N°3. Contrôle de l’hétérogénéité individuelle, en données de panel.
Le tableau précédent, montre quelques exemples d’hypothèses sur l’hétérogénéité

des individus qui peuvent orienter au niveau des problématiques retenus pour le choix
de la modélisation économétrique à entreprendre lors de l’usage des données de panel.
1. Le modèle à effets fixes
Le modèle à effets fixes suppose que les relations entre la variable dépendante et
les variables explicatives sont identiques pour tous les individus. Si l’on considère N
individus, observés sur Ti périodes de temps et K variables explicatives, le modèle s’écrit
alors :
yi,t = αi + k Xk,i,t + εi,t , i =1,….,N et t =1,…., Ti (4.1)
Pour k = 4, le modèle s’écrit :

Yi,t = αi + β1 X1i,t + β2 X2i,t + β3 X3i,t + β3 X4i,t + εi,t (4.1.1)
αi représente la spécificité individuelle, supposée fixe.
18

1.1 Les hypothèses (H1)
On suppose que les résidus εi,t sont i.i.d. et satisfont les conditions suivantes, et
[1;N] ; [1;Ti] :
 E (εi,t) = 0
 E (εi,t εi,s) = ,
ce qui implique E (εi ε'i)= où désigne la matrice identité (Ti, Ti).
 E (εi,t εj,s) = 0 , ,
Le modèle à effets fixes individuels présente une structure des résidus qui vérifient les
hypothèses standards des MCO. Il s’agit en fait d’un modèle classique avec variables
indicatrices individuelles.
1.2 L’estimateur MCO ou LSDV (Least Square Dummy Variables)
L’estimateur des Moindres Carrés Ordinaires (MCO) des paramètres αi et β dans

le modèle à effets fixes est appelé aussi estimateur à variables muettes indicatrices,
LSDV. Les estimateurs de ce modèle par la méthode des MCO sont sans biais. Dans la
pratique, l’estimateur des MCO ou LSDV est obtenu à partir d’un modèle transformé où
les différentes variables du modèle sont centrées par rapport à leurs moyennes
individuelles respectives. Ceci privilégie l’exploitation de la variabilité intra-individuelle
(dimension temporelle) dans l’estimation des paramètres structurels du modèle. Aussi,
on retient la spécification suivante:
K
yit   i    k xkit   it i =1,….,N et t =1,….,Ti (4.2)
k 1
Les réalisations des estimateurs des constantes αi sont déduites au point moyen, après
estimation des paramètres  k selon la relation qui suit :
K
ˆ i  yi   ˆk xki
k 1
L’estimateur MCO des coefficients  k est obtenu en centrant les différentes (variables
endogène et exogènes) sur leur moyenne individuelle respective. Ainsi, on obtient

l’estimateur MCO en utilisant le modèle transformé suivant :
19

K
yit    k xkit   it
k 1
Ti
Avec yit  yit  yi , xkit  xkit  xki ,  it   it   i . On note que yit  1
Ti y
t 1
it .
Les variables xkit et  it , étant définies de façon analogue. Il est conseillé dans le cas où le panel
est non cylindré d’utiliser l’option robuste de manière à tenir compte de l’hétéroscédasticité
des erreurs, puisque la variance des erreurs du modèle transformé n’est pas constante. En
effet, on vérifie que : v( it )   2 TiTi 1 .
Outre le fait que la variabilité inter-individuelle n’est pas exploitée pour estimer les
paramètres structurels du modèle, une limite inhérente au modèle à effets fixes réside
dans le fait que l’impact des facteurs invariants à travers le temps ne peut être identifié.
Ceci constitue une limite au niveau de l’analyse économique, puisqu’il revient à
restreindre le champ d’analyse économique de l’étude.
1.3 Application sous STATA
Pour toutes les applications sous STATA sur des données de panel, on utilise la
même base de données « panel.dta», présentée dans la section précédente.
Avant d'utiliser les commandes sur données de panel, il faut indiquer à Stata la variable précisant la
dimension individuelle et celle relative à la dimension temporelle. Cela se fait par la commande tsset.
Exemple : tsset id tps déclare des données de panel ; où id est la variable indicatrice de la dimension
individuelle et tps l'indicatif de la dimension temporelle.
Pour les commandes qui suivent, il est sous-entendu que la commande tsset doit les précéder.
Dans cette application, l’indicateur de la dimension individuelle est le code_pays, celui de la dimension
temporelle est la variable année.
20

Il est possible avant de procéder à des régressions linéaires en panel, d’effectuer un

calcul des variances intra-individuelle (temporelle) et interindividuelle (individuelle).
Prenons, à titre indicatif, la variable croissance du PIB par tête.
Dans la boîte de dialogue suivante, on retient la variable : gdp_capita
21

Les résultats sont les suivants :
La croissance moyenne du PIB par tête, sur l’ensemble de l’échantillon est de 1.98%. La
variance inter-individuelle (between) est égale à 3.9, alors que la variance intra-
individuelle (temporelle) est égale à 60.1 sur une variance totale de 63.9, soit 94% de la
variance totale. Ceci s’explique par l’importance de la dimension temporelle dans notre
échantillon (en moyenne 35 ans par pays) par rapport à la dimension individuelle (15
pays).
22

1.3.1 Modèle à effets fixes.

Dans l'exemple qui suit, on estime l'impact du développement financier sur la croissance
économique, sur un panel incomplet de 15 pays de la région MENA, observés sur la
période 1961-2006. La variable dépendante mesure la croissance du PIB par tête.
L’indicateur du développement financier est mesuré par le volume des crédits bancaires
accordés au secteur privé, exprimés en pourcentage du PIB. On retient trois variables de
contrôle : l’inflation, les dépenses publiques (en % du PIB) et le degré d’ouverture de
l’économie. Le modèle théorique s’écrit, comme suit2 :
Yit =  i + β1 ln (CPS) it + β2 ln (INF+1) it + β3 ln(TO) it + β4 ln (GC) it +εit
pour i = 1,…., N et t =1,…. ,Ti
L’estimation d’un modèle à effets fixes sous Stata se fait avec la syntaxe suivante :
xtreg variable dépendante_ variables explicatives , fe
2
On retient un modèle double logarithmique de manière à pouvoir estimer des élasticités et effectuer l’analyse
en terme relatif.
23

Les résultats d’estimation montrent que les coefficients associés à l’indicateur du

développement financier (CPS), à l’inflation(Inf1) et à l’ouverture commerciale (trade)
sont statistiquement significatifs (leur p-value respective < 5%). Toutefois, l’effet du
développement financier sur la croissance économique semble négatif. En outre, Les
dépenses publiques présentent, en moyenne, un effet non significatif sur la croissance du
PIB par tête. (p-Value > 5%). La statistique de Fischer : F(14,360)=2.33 confirme
l’hétérogénité des individus sous la forme d’un effet fixe, puisque la p-value < 5%.
L'option robust associée à la commande xtreg, corrige les t de student de l'hétéroscédasticité par la
méthode de White. Mais La commande xtreg..., fe ne permet pas d'option robust pour la correction de
l'hétéroscédasticité. Pour le faire, il faut utiliser une autre commande nommée areg. (estimation par les MCO
avec variables indicatrices individuelles). La commande areg nécessite de spécifier la dimension individuelle,
même si la commande tsset est utilisée avant. L'option absorb(id) spécifie la variable id comme représentant la
dimension individuelle. Ceci permet de créer les 15 variables indicatrices relatives aux pays.
La commande est la suivante :
24

La différence entre xtreg..., fe et areg est qu'avec le premier, les données sont transformées en
différences par rapport a la moyenne individuelle pour éliminer les effets fixes, alors que la commande areg
revient a faire des MCO sur un modèle dans lequel on introduit une variable muette pour chaque individu ou
pays. On note que les deux méthodes fournissent les mêmes valeurs pour les paramètres estimés. La différence
réside dans les écarts-types estimés avec la fonction (areg) qui permet de fournir des estimateurs robustes.
Les estimations des paramètres sont identiques que celles du tableau précédent. Seuls
les écarts types estimés de ces estimateurs sont plus faibles, à cause de l’instruction
robuste. Les résultats montrent qu’en termes d’impact, l’ouverture commerciale présente
un effet marginal plus important sur la croissance économique, qu’une politique
monétaire visant la maîtrise de l’inflation. L’effet négatif du développement financier sur
la croissance peut s’expliquer par plusieurs raisons : (hétérogénéité des pays en matière
de développement financier, la non linéarité de la relation, la présence d’un effet seuil,
etc. La recherche d’une explication doit être davantage du côté de la littérature
économique, plutôt que de l’arsenal économétrique à utiliser !
1.3.2 Modèle à effets fixes avec variables instrumentales
Pour estimer un modèle à effets fixes avec des variables instrumentales, il faut utiliser la commande
xtivreg..., fe dont la syntaxe générale est:
xtivreg variable_dépendante variables_exogènes (variables endogènes = instruments), fe
25

Dans l'exemple qui suit, On retient comme variables exogènes les trois variables
de contrôle. La variable endogène est le ratio des crédits aux secteurs privés par rapport
au PIB, logCPS. On retient comme instrument supplémentaire le trend, (variable year),
sachant que toutes les variables exogènes du modèle sont utilisées comme instruments.
La commande Stata est la suivante :
L’application avec variables instrumentales proposée dans cette section ne permet pas
d’améliorer la précision des estimateurs. Elle est retenue, juste pour la vulgarisation de la
méthode. Le choix des instruments peut ne pas être pertinent. Dans la pratique, il s’agit de
procéder à des modifications des instruments à retenir, jusqu’à l’obtention de résultats
significatifs.
2. Le modèle à erreurs composées.
Le modèle à erreurs composées suppose que la spécificité individuelle est sous
forme aléatoire. Le terme constant spécifique à l’individu i est aléatoire. Il se décompose
en un terme fixe et un terme aléatoire spécifique à l’individu permettant de contrôler
l’hétérogénéité individuelle. En regroupant les termes aléatoires du modèle, on obtient
une structure à erreurs composées.
Comme nous décomposons la constante dans le modèle à effets fixes, il s’agit dans
le modèle à effets aléatoires de décomposer les résidus. C’est en effet dans ces derniers
qu’interagissent les variables explicatives omises. Le modèle s’écrit toujours :
yit  i   k X kit   p z pi  it , i =1,….,N et t =1,….,Ti (4.1)

k p
26

Le terme individuel aléatoire αi est alors décomposé de la manière suivante :

αi = α +  i
α désigne la composante fixe et  i la composante stochastique individuelle, non observable

telle que la qualité du management, dans le cadre d’un panel d’entreprises. Il s’en suit un
modèle à erreurs composées qui s’exprime de la manière suivante:
yit     k X kit   p z pi i   it , i =1,….,N et t =1,….,Ti (4.1)

k p
Généralement, on est conduit à faire un certain nombre d’hypothèses sur cette structure
de résidus.
2.1 Les hypothèses sur les résidus.
On suppose que les résidus sont i.i.d. et satisfont les conditions suivantes :
 E (ui) = E (εi,t) = 0
 E (ui εi,t) = 0
 E (ui u j) =  u² i  j , 0 sinon
 E (εi,t εs,t) =  2 i=j et t=s , 0 sinon.
 E (ui x'it) = E (εi,t x'it) = 0
Sous ces hypothèses, la variance de la variable endogène yi,t conditionnellement
aux variables explicatives xi,t est alors égale à  u2   2 .3
2.2 Estimateur des Moindres Carrés Généralisés, MCG.
Contrairement au modèle à effets fixes, le modèle à erreurs composées utilise les deux
dimensions du panel. Par conséquent, on peut élargir le champ de recherche empirique,
en mesurant l’effet de facteurs invariants dans le temps, z pi (secteur d’activité de
l’entreprise, à titre d’exemple), en plus des facteurs explicatifs variables dans le temps,
xkit . Puisque les erreurs composées, sont corrélées par individu dans le temps, on utilise
la méthode des moindres carrés généralisés. Il est aisé de vérifier que l’application des
MCG, revient à appliquer les MCO sur le modèle transformé suivant:
3
On retient une structure à erreurs composées ou seule la composante individuelle est prise en compte. Il est
possible d’inclure une composante temporelle.
27

yit  (1  i ) yi  i   k ( xkit  (1  i ) xki )   pi z pi  i i   it  (1  i i )

k p
 2
Où i 
Ti u2   2
Dans la pratique, lorsque le panel est incomplet on, retient  où Ti est remplacé par T .

2.3.1. Estimation du modèle à erreurs composées.
Pour estimer un modèle a effets aléatoires, il suffit de remplacer l'option fe dans la commande xtreg par
l'option re. La syntaxe générale est donc la suivante:
xtreg variable_dependante variables_explicatives , re
On applique le modèle à effets aléatoires sur les mêmes données utilisées

précédemment :
28

La commande :
Les résultats d’estimation obtenus par le modèle à erreurs composées ne sont pas
meilleurs que ceux obtenus par le modèle à effets fixes. En effet, les coefficients
associés à l’inflation et à l’ouverture commerciale ne sont plus significatifs, au
seuil conventionnel de 5%. Cela laisse penser que l’hypothèse d’absence de
corrélation entre le terme aléatoire individuel ui et les variables explicatives du
modèle n’est pas vérifiée. Il s’en suit des estimations biaisées. Le test de Haussmann
développé à la section 3, devrait confirmer ces présomptions. Toutefois, cette défaillance
statistique peut également s’expliquer par le problème d’endogénéité de la variable (CPS).
D’où l’intérêt d’utiliser les techniques des variables instrumentales.
2.3.2 Modèle à effets aléatoires avec variables instrumentales
La variable endogène relative à l’indicateur du développement financier est à

présent instrumentée par le logarithme de la population (Log Pop) et le logarithme des
transferts des revenus des travailleurs à l’étranger,(log_workers).
En ce qui concerne le modèle a effets aléatoires avec des variables instrumentales, il faut utiliser la
commande xtivreg..., re dont la syntaxe générale est la suivante:
xtivreg variable_dependante variables_exogènes (var_endogène = instruments) , re
29

La commande :
En traitant le problème d’endogénéité de la variable CPS, les résultats du MEC avec

variables instrumentales ont gagné en précision, notamment au niveau de l’effet de
l’inflation, dont le coefficient devient significatif. Toutefois, il est légitime d’appliquer le
test de Hausman afin de valider l’hypothèse nulle d’absence de corrélation entre le terme
aléatoire individuel et les variables explicatives du modèle.
3. Le test de Hausman
3.1. La procédure du test.
Le test de spécification d’Hausman (1978) est un test général qui peut être
appliqué à des nombreux problèmes de spécification en économétrie, traitant avec le
problème d’endogénéité. Son application la plus répandue est celle des tests de
spécification des effets individuels aléatoires en panel. L’idée générale du test
d’Hausman est simple : Supposons que l’on cherche à tester la présence éventuelle d’une
corrélation ou d’un défaut de spécification. Admettons que l’on dispose de deux types
d’estimateurs pour les paramètres du modèle étudié. Le premier estimateur est supposé
être l’estimateur non biaisé à variance minimale sous l’hypothèse nulle de spécification
correcte du modèle (absence de corrélation). En revanche, sous l’hypothèse alternative de
mauvaise spécification, cet estimateur est supposé être biaisé. Par contre, le second
estimateur, celui du modèle à effets fixes, est non biaisé dans les deux cas. L’application
30

technique de ce principe suppose tout de même que l’on construise la matrice de variance
covariance de l’écart entre les deux estimateurs. Le test de spécification de Haussman
repose sur le corps d’hypothèses suivant :
 H0 : E(ui i) = 0 ( les estimateurs du modèle à erreurs composées sont efficaces.)
 H1 : E(ui i) 0 (les estimateurs du modèle à erreurs composées sont biaisés).
La statistique du test est la suivante :

1
H = ( ˆMEF  ˆMEC ) ' Vˆ ( ˆMEF )  Vˆ ( ˆMEC )  ( ˆMEF  ˆMEC )   2 ( k )
Sous l’hypothèse nulle de spécification correcte, cette statistique est asymptotiquement

distribuée selon une chi-deux à K degrés de liberté, soit le Nombre de facteurs variables
dans le temps, introduits dans le modèle. Si le test est significatif ( p-value < 5%), on
retient les estimateurs du Modèle à effets fixes qui sont non biaisés. Dans le cas,
contraire (peu probable), on retient ceux du modèle à erreurs composées, car ils sont
efficaces.

Le test de spécification de Hausman permet de choisir entre le modèle à effets
fixes et le modèle à effets aléatoires. On procède en 4 étapes :
1) On applique le modèle à effets fixes comme démontré précédemment
2) On sauvegarde l’estimation obtenue du modèle à effets fixes sous le nom « fixed » :
3) On applique le modèle à erreur composées sur les mêmes variables.

4) On applique le test d’Hausman :
31

La démarche est comme suit :

xtreg...,fe
est store fixed
xtreg..., re
hausman fixed
La première ligne de commande estime le modèle à effets fixes. La seconde ligne conserve les résultats du
modèle à effets fixes sous le nom fixed. La troisième ligne estime le modèle à effets aléatoire et la quatrième
ligne exécute le test de Hausman proprement dit.
Appliquons le test de Hausman pour choisir le modèle le plus approprié aux données.
Le test de Hausman réfute l’hypothèse d’absence de corrélation entre le terme aléatoire

 i et les variables explicatives du modèle. ( P-value= 3.4% <5%). Le test de Chi-Deux est
à 4 degrés de libertés car il y’a sous H0 , 4 restrictions relatives à l’égalité des coefficients
des deux modèles pour les facteurs variables dans le temps (CPS, inflation, GC, Trade).
32

Les estimateurs du modèle à erreurs composées sont biaisés. Il est préférable de retenir
ceux du modèle à effet fixes qui sont sans biais. Il est possible de refaire la même
procédure pour les estimations du modèle à effets individuels fixes et aléatoires dans le
cadre des techniques des variables instrumentales.
4. Méthodes de Hausman-Taylor sur données de panel.
Le modèle linéaire des données de panel est fondé sur l’hypothèse de non-
corrélation entre les effets spécifiques non observés,  i , les régresseurs xit et Zi. Hypothèse
fortement contestée dans la pratique. Cependant si le modèle retenu au départ, comporte

des facteurs invariants dans le temps, il est légitime de procéder à l’usage des techniques
des variables instrumentales, dans le cadre d’un modèle à erreurs composées. La
méthode de Hausman-Taylor est appropriée pour ce genre de situations où on peut avoir
des facteurs variables dans le temps et des facteurs invariants dans le temps dont
certains présentent un problème d’endogénéité. Ceci est en violation avec l’hypothèse
d’absence de corrélation du terme aléatoire et des facteurs considérés. Cette méthode
présente l’avantage d’augmenter le nombre d’instruments en utilisant la double
dimension du panel. Le modèle théorique est le suivant :
yit = x'1it β1 + x'2it β2 + z'1i α1 + z'2i α2 +  i +εit
où : β = (β'1, β'2) et α = (α'1, α'2i).
Les auteurs définissent quatre ensembles de variables observées dans le modèle :

x'1it correspond aux K1 variables variantes dans le temps et non corrélées avec  i .
z'1i correspond aux L1 variables invariantes dans le temps et non corrélées avec  i .
x'2it correspond aux K2 variables variantes dans le temps et corrélées avec  i .
z'2i correspond aux L2 variables invariantes dans le temps et corrélées avec  i .
4.1 Les hypothèses.
Les hypothèses supplémentaires sur le terme aléatoire  i sont comme suit:
E ( i x1it )  E ( i z1i )  0

E ( i x2it )  0 et E ( i z2i )  0
33

Sur le plan pratique, la difficulté réside dans la partition des facteurs explicatifs
(variant et invariants dans le temps) entre variables endogènes et exogènes. La
méthode d’estimation est celle des MCG avec variables instrumentales.
La commande :
La syntaxe générale de la commande sur Stata est la suivante:
xthtaylor var_dep var_explicatives ,endo(listel) cons(liste2) small
listel est la liste des variables endogènes du modèle (séparées par un espace) y compris
les variables endogènes invariantes dans le temps. Ici le terme endogène désigne une
corrélation uniquement avec l'effet spécifique  i et non avec le terme résiduel εit.
liste2 est la liste de l'ensemble des variables invariantes dans le temps. Cette option est
facultative car Stata détecte automatiquement les variables constantes dans le temps et
celles qui varient selon les individus et le temps.
small est l'option qui permet de reporter les t de student au lieu des statistiques z de la
loi normale centrée réduite, et la statistique F de Fisher au lieu de la statistique de chi2.
Cette démarche est valide dans les échantillons de petites tailles, en l’absence de
convergence asymptotiques en lois. Dans cette application, nous avons introduit 2
variables supplémentaires invariantes dans le temps (une variable régionale, exogène:
Middle East=1, pour les pays du moyen orient, 0 sinon) et ressources naturelles,
supposée endogène, égale à 1 pour les pays producteurs de pétrole, 0 sinon). Par
conséquent, pour l’objet de cet exercice, on a 2 variables endogènes : le développement
34

financier et Production du pétrole. La décomposition des 6 variables explicatives

introduites dans le modèle se présente, comme suit :
X1it= [ln_inf1, ln_to, ln_gc] X2it=[ln_CPS]
Z1i= [middle_East] Z2i= [petrol]
Les résultats d’estimation avec la méthode de Hausman-Taylor permettent d’améliorer

la significativité statistique de certains paramètres, principalement, celle de l’ouverture
commerciale, l’inflation, à côté de l’indicateur de développement financier (CPS,
endogène) dont l’impact demeure négatif et significatif. Toutefois, l’introduction de
facteurs invariants dans le temps, (Middle_East, exogène) et Petrol (endogène),
fournissent des coefficients qui ne sont pas significatifs. Dans ce cas de figure, il est
possible de se restreindre aux résultats du modèle à effets fixes, avec variables
instrumentales. Le gain en efficacité que procurent les techniques des variables
instrumentales est un exercice long qui exige beaucoup de persévérance afin de trouver
les bons instruments.
35

5. Quelques tests sur données de panel

5.1 Le test de normalité des résidus.4
Le test de Jarque-Bera est utilisé pour déterminer si les résidus d'une régression
linéaire suivent une distribution normale. On pose :
 H0: les résidus suivent une loi normale.
 H1: les résidus ne suivent pas une loi normale.
Avec
Avec:
n = Nombre d'observations
k = Nombre de variables explicatives si les données proviennent des résidus d'une
régression linéaire. Sinon, k=0.
S = Coefficient d'asymétrie : Moment d'ordre 3 d'une variable centrée-réduite
K = Kurtosis : Moment d'ordre 4 d'une variable centrée-réduite
Le test de Jarque-Bera ne teste pas à proprement parler si les données suivent une loi
normale, mais plutôt si les coefficients de kurtosis et d'asymétrie des données sont les
mêmes que ceux d'une loi normale, de même espérance et variance. On a donc:
 H0: S = 0 et K = 3
 H1: S 0 et K 3
Une loi normale a un coefficient d'asymétrie = 0 et un coefficient de kurtosis = 3. Par
conséquent, si les données suivent une loi normale, le test s'approche alors de 0 et on
accepteHo, au seuil α. Le résidu prédit, provient d'un modèle estimé par xtreg..., fe ou
xtreg..., re selon l'estimateur choisi. Choisissons le modèle à effets fixes à tester : Après
avoir appliqué le modèle à effets fixes, puis on récupère les valeurs prédites du résidu :
4
Ce test peut aussi s’appliquer si on ne dispose pas de données de panel.
36

Et on applique le test de normalité des résidus :
La commande du test de normalité des résidus est sktest :
La probabilité du test est 0.80 > 0.05, on accepte l'hypothèse nulle Ho de normalité des
résidus.
5.2. Le test d’effets individuels aléatoires.
Le test de Breusch-Pagan ou test du multiplicateur de Lagrange permet de valider

empiriquement le choix d’une structure à erreurs composées. Le corps d’hypothèses à
tester est le suivant :
H 0 :  2  0
H 0 :  2  0
37

Où  2 désigne la variance de l’erreur spécifique à l’individu, i  N (0,  u2 ) .
La statistique du test est basée sur les résidus estimés par les MCO. Elle prend la forme
suivante :
2
 N  Ti 2

2
   ît  
NT  i 1  t 1  
LM    1  2 (1)
2(T  1) N Ti
  ît2 
 i 1 t 1 
Pour les régressions en panel, le test d'hétéroscédasticité de Breush-Pagan est donné

seulement par la commande xttest0 après xtreg..., re sans l’option robust.
La probabilité du test est 0.0707 > 5%, on accepte l'hypothèse nulle. Le test rejette la
spécification d’une structure à erreurs composées. Ce test doit précéder celui de
Hausman, qui traite du problème de corrélation du terme aléatoire et des variables
explicatives du modèle.
La boîte de dialogue de ce test d’effet aléatoire individuel est la suivante:
38

5.3 Le test de validité des instruments
Le test de suridentification de Sargan permet de tester la validité des

instruments utilisés dans les régressions en données de panel.
Le test est basé sur la statistique :
Où Zit désigne la matrice des instruments. La statistique du test suit la loi de chi-deux à
I−P degrés de liberté, avec I le nombre des instruments et P le nombre de paramètres
à estimer.
Pour un niveau de significativité  , le corps d’hypothèses à tester est le suivant:
 H0 : Les instruments sont valides.
 H1 : Les instruments ne sont pas valides.
5.4. Application sous STATA
Stata permet de tester la validité des instruments à partir de la commande : overidxt.
Reprenons toujours le modèle de l'impact du développement financier sur la

croissance économique. Une condition nécessaire pour réaliser le test de Sargan est que
39

le modèle soit suridentifié : le nombre d'instruments doit être strictement supérieur au

nombre de variables endogènes. On retient, à titre illustratif, comme instruments, un
trend et la population.
La probabilité du test est de 0.63 > 0.05. On ne peut donc pas rejeter l'hypothèse nulle
Ho, de validité des instruments. Le test de chi-deux est de 1 degré de liberté ( I=5, P=4),
dans le modèle à effets fixes, il n’y a pas de terme constant.
6. La méthode des moments généralisés (GMM) en panels dynamiques.
Un modèle dynamique est un modèle dans lequel un ou plusieurs retards de la

variable dépendante figurent comme variables explicatives. A l'inverse des GMM en
panel dynamique, les techniques économétriques standards comme les MCO ne
permettent pas d'obtenir des estimations sans biais d'un tel modèle, à cause de la
présence de la variable dépendante retardée à droite de l'équation. Il s’en suit des
estimations biaisées. La méthode GMM repose sur les conditions d’orthogonalité entre
les variables retardées et le terme d’erreur, aussi bien en différences premières qu’en
niveau. Lorsque le modèle dynamique est exprimé en différences premières, les
40

instruments sont en niveau, et vice versa. Dans le modèle à estimer, l'utilisation des
variables retardées comme instruments diffère selon la nature des variables explicatives:
(a) Pour les variables exogènes, leurs valeurs courantes sont utilisées comme
instruments.
(b) Pour les variables prédéterminées ou faiblement exogènes (des variables qui
peuvent être influencées par les valeurs passées de la variable dépendante, mais
qui restent non corrélées aux réalisations futures du terme d'erreur), leurs
valeurs retardées d'au moins une période peuvent être utilisées comme
instruments.
(c) Pour les variables endogènes, leurs valeurs retardées de deux périodes et plus
peuvent être des instruments valides.
La validité des instruments retenus peut être confirmée ou infirmée, à partir des
tests de Hansen et de Sargan. Il existe deux variantes d'estimateur des GMM en panel
dynamique: L'estimateur GMM en différences premières et l'estimateur GMM en
système.
6.1. Le principe de la méthode GMM.

6.1.1. GMM en différences premières.
L'estimateur GMM en différences premières d'Arellano et Bond (1991) consiste à

prendre pour chaque période la première différence de l'équation à estimer pour éliminer
les effets spécifiques individuels. On obtient : Δyi,t = βΔ yi,t-1 +φ ΔXi,t + Δ ε i,t
Il s’agit ensuite d’ instrumenter la variable endogène retardée par ses valeurs passés de
2 périodes et plus. Cependant, cette méthode ne permet pas d’identifier l’effet des
facteurs invariants dans le temps. De plus, Blundel et Bond (1998) ont montré à l'aide
des simulations de Monte Carlo que l'estimateur GMM en système est plus performant
que celui en différences premières, ce dernier donne des résultats biaisés dans des
échantillons finis lorsque les instruments sont faibles.
6.1.2. GMM en système.

L’estimateur GMM en système de Blundel et Bond (1998), combine les équations
en différences premières avec les équations en niveau. Les instruments dans l’équation
en différences premières sont exprimés en niveau, et vice versa.
41

Les principaux tests en panels dynamiques, reposent sur les hypothèses suivantes, à
accepter.
- Test de Sargan : H 0 . Les instruments sont valides.
- Absence de corrélation sérielle des résidus.

H 1 : Corrélation négative d’ordre 1 des résidus.
H 0 : Absence de corrélation d’ordre 2 des résidus.
6.2. Application sous STATA
Cet exemple est la suite logique du modèle de croissance économique retenu dans
la première partie. On introduit la variable endogène retardée d’une période dans les
variables explicatives notamment le PIB par tête à t-1 , de manière à tester l’effet de
Comportements dynamiques. Dans cette application, on retient le revenu initial comme
proxy de la croissance du PIB par tête, décalé d’une période, pour tester l’effet de
convergence. Le modèle s’écrit :
Yit =  i + β1 ln(IIC)it + β2 ln (CPS) it + β3 ln(INF+1) it + β4 ln(TO) it + β5 ln (GC) it +εit

i = 1,…., N t = 1,…. ,T
La syntaxe générale est la suivante:

xtabond2 var_dep var_explicatives, noleveleq gmm(varendo, lag(a b)]) iv(varinstrum) two robust small
L'option noleveleq permet de spécifier l'estimateur GMM en différences premières. Lorsque cette option est
omise, alors c'est l'estimateur GMM en système qui est utilisé, de manière automatique.
er
gmm(varendo, lag(a b)): varendo est la variable endogène, à instrumenter. Lag ( a b) sont les retards (du 1 au
dernier retard) de la variable endogène à utiliser en tant qu’instruments. Le nombre d’instruments est (b-a)+1,
( a  2 ) On ajoute l’instruction collapse lorsque le nombre de retard est fixé. Dans le cas contraire (lag(2 .), il n’y
a pas lieu de la rajouter, puisqu’on ne spécifie pas la borne supérieure du retard des instruments qui commencent
à partir du retard d’ordre 2. Pour iv(varinstrum), varinstrum, indique la liste des variables exogènes du modèle qui
sont utilisées comme instruments. L'option small reporte les t de student à la place des statistiques de la loi
normale centrée réduite z. L’option two permet d’avoir un estimateur en 2 étapes, plus précis que celui en une
étape (sans two), car l’estimateur MM en deux étapes tient compte de la structure de la matrice des variances
covariances des erreurs.
42

6.2.1. GMM en différences premières.

La commande :
On voit qu’on accepte la présence d’un effet AR(1) pour les résidus et on accepte l’absence
d’un effet AR(2). Ceci est en conformité avec les hypothèses formulées. Par ailleurs, les tests
de Sargan ou de Hansen valident le choix des instruments. De plus les variables explicatives
sont statistiquement significatives, avec un effet négatif de l’indicateur du développement
financier, de l’inflation et un effet positif de l’ouverture commerciale. Si on se base sur la
littérature des modèles de convergence, en matière de croissance, l’hypothèse de convergence,
suppose un effet négatif du revenu initial. Pour la variable endogène revenu initial, on a
retenu de manière arbitraire les retards d’ordre 4 à 8 comme instruments, soit 5 instruments.
Pour l’indicateur du développement financier, on retient les retards d’ordre 4 à 9 comme
instruments, soit 6 instruments. En plus de ces instruments, les 3 variables exogènes (ln_inf,
ln_gc, ln_to) sont utilisés comme instruments. Le nombre total des instruments est égal à 14
Instruments, comme il est mentionné. Par ailleurs, le nombre de paramètres est égal à P=5.
Par conséquent les tests de Sargan et Hansen, suivent une chi-deux à 14-5=9 degrés de
libertés.
43

6.2.2. GMM en système.

En éliminant, l’option noleveleq, on obtient les résultats d’estimation du GMM en
système, en deux étapes. Ils présentent des tests conformes, en termes de processus
autorégressifs et de validation des instruments.
De plus, les résultats des paramètres estimés sont meilleurs et conformes à l’intuition
économique. Un effet positif et significatif de l’ouverture commerciale sur la croissance
du PIB par tête, un effet négatif et significatif de l’inflation, indiquant qu’une politique
monétaire qui vise la maitrise de l’inflation permet d’accroitre le PIB par tête. Le
comportement dynamique de la croissance capté par le revenu initial, préconise un effet
de convergence. Seule fausse note, l’effet négatif, toujours significatif de l’indicateur de
développement financier sur la croissance du PIB par tête et ce, malgré les différentes
procédures économétriques retenues. La solution est plutôt d’ordre économique que
44

statistique ! Une façon de contourner ce problème consiste à supposer que l’effet du

développement financier sur la croissance économique dépend de la qualité des
institutions, principalement de la corruption, de manière à inclure dans le modèle un
effet croisé, pour rompre avec l’hypothèse de linéarité de l’effet du développement
financier sur la croissance économique.
Références bibliographiques
Greene W.H.(2003). Econometric Analysis. 5th Edition. Prentice Hall.
Greene W.H.(2005). Econométrie. 5ème édition. Traduction française dirigée par

Schlacther. D., Azomahou. T., Couderc.N., Monjon .S., Nguyen Van . P. Editions Pearson
Education.
Baltagi B.H.(2009). A companion to Econometric Analysis of Panel data. John Wiley and
Sons.
45

SSRN-id2891006 - Copie

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

SSRN-id2891006 - Copie

Transféré par

Droits d'auteur :

Formats disponibles

Économétrie des données de panel

INSTITUT DES HAUTES ETUDES LABORATOIRE D’ECONOMIE

ECONOMETRIE DES DONNEES DE PANEL

Mohamed GOAIED & Seifallah SASSI

L’objectif de ces modules consiste à démystifier l’économétrie et à aider les chercheurs de

 La disponibilité de l’information statistique et sa nature (coupe instantanée, série

 Les résultats empiriques sont tributaires de la qualité de l’information statistique et de

 Une analyse descriptive détaillée de l’échantillon est importante avant de se lancer

 La transposition (pure est simple) d’un modèle théorique tiré de la littérature et

 Les objectifs de la recherche (l’économique) peuvent être « en conflit » avec les

 Les méthodes économétriques « sophistiquées » améliorent souvent la précision des

- Econométrie des variables qualitatives dépendantes.

Professeur en Econométrie & Statistique

Electronic copy available at: https://ssrn.com/abstract=2891006

Table des matières

II. Regresion linéaire sur données de panel

Electronic copy available at: https://ssrn.com/abstract=2891006

5.3. Test de validité des instruments.

Electronic copy available at: https://ssrn.com/abstract=2891006

1. Connaissance de l’environnement Stata.

- Review : historique des commandes passées

Electronic copy available at: https://ssrn.com/abstract=2891006

Dans l’ordre, les principales icônes :

Electronic copy available at: https://ssrn.com/abstract=2891006

1. L’importation de fichiers de données, Excel.

Exemple ; On dispose d’une base de données de panel relative à 15 pays de la région

Electronic copy available at: https://ssrn.com/abstract=2891006

Tableau N°1. Descriptif de la base de la base de données. Source : WDI.

Electronic copy available at: https://ssrn.com/abstract=2891006

Tableau N°2. Fichier des données, panel.xlsx.

Electronic copy available at: https://ssrn.com/abstract=2891006

En cliquant sur le logiciel Stata, et en ouvrant le ficher panel.dta, (file/open), on

2. Analyse descriptive sur Stata.

Electronic copy available at: https://ssrn.com/abstract=2891006

Gener nom de la nouvelle variable= ln(ancienne variable). Exemple, on a dans le fichier

Puis on introduit les variables pour le calcul statistique, comme suit :

Electronic copy available at: https://ssrn.com/abstract=2891006

Electronic copy available at: https://ssrn.com/abstract=2891006

Electronic copy available at: https://ssrn.com/abstract=2891006

Les résultats sont les suivants :

On observe que le coeffcient de correlation le plus élevé (0.528) se situe entre

Electronic copy available at: https://ssrn.com/abstract=2891006

Les régressions linéaires sur données de panel

Les données utilisées en économétrie sont le plus souvent des séries

yit     k X kit   p z pi  it i=1…N t=1…Ti

Electronic copy available at: https://ssrn.com/abstract=2891006

Electronic copy available at: https://ssrn.com/abstract=2891006

Tableau N°3. Contrôle de l’hétérogénéité individuelle, en données de panel.

Le tableau précédent, montre quelques exemples d’hypothèses sur l’hétérogénéité

1. Le modèle à effets fixes

Pour k = 4, le modèle s’écrit :

αi représente la spécificité individuelle, supposée fixe.

Electronic copy available at: https://ssrn.com/abstract=2891006

1.1 Les hypothèses (H1)

ce qui implique E (εi ε'i)= où désigne la matrice identité (Ti, Ti).

1.2 L’estimateur MCO ou LSDV (Least Square Dummy Variables)

L’estimateur des Moindres Carrés Ordinaires (MCO) des paramètres αi et β dans

endogène et exogènes) sur leur moyenne individuelle respective. Ainsi, on obtient

Electronic copy available at: https://ssrn.com/abstract=2891006

1.3 Application sous STATA

Electronic copy available at: https://ssrn.com/abstract=2891006

Il est possible avant de procéder à des régressions linéaires en panel, d’effectuer un

Dans la boîte de dialogue suivante, on retient la variable : gdp_capita

Electronic copy available at: https://ssrn.com/abstract=2891006