Séance 1 - Introduction Données de Panel

Université Mohamed V Agdal
Faculté des Sciences Juridiques, Economiques

et Sociales
ECONOMETRIE DES
DONNEES DE PANEL
Saad-Ellah Berhili
Novembre 2014
Plan de la présentation
I. Plan du cours et évaluation

II. Introduction
III. Théorie des données de panel
IV. Logiciels
V. Références
2
Plan du cours
 Introduction à l’économétrie des données de panel (1
séance)
 Modèles linéaires (1 séance)
 Modèles à erreurs composées (1 séance)
 Modèles à double erreurs composées (1 séance)
 Tests d’hypothèses sur les données de panel (1 séance)
 Modèles dynamiques (1 séance)
 Modèles à variables dépendantes limitées (1 séance)
 Présentations des groupes (2 à 3 séances)
 Examen Final (date à fixer)
3
Évaluation
 Devoir individuel : 25%

 Travail de recherche (par deux) : 25%
 Examen final : 50 %
4
Introduction
 Nous savons comment modéliser une variable
dépendante Y, de type continue, à l’aide de la
régression linéaire
 Soit le modèle de régression linéaire :
yi = β0 + β1x1i + ... + βpxpi + ei (1)
La réponse yi, i = 1, . . . , n est modélisée par

une fonction linéaire de variables explicatives
xj , j = 1, . . . , p plus un terme d’erreur ei ∼ N (0, σ2 ).
5
Méthode MCO (OLS)
 La technique d’estimation la plus populaire pour
estimer le vecteur β est la méthode des
moindres carrés ordinaires (MCO). Dans le cas
où Y est normale, elle est équivalente à la
méthode du maximum de vraisemblance.
 = (X T X )−1 X T Y
 Exemple : On veut relier le salaire d’un individu
à son niveau d’instruction (nombre d’années de
scolarité).
6
Conditions et hypothèses
 Hypothèses du modèle :
1. Normalité des erreurs
2. Homoscédasticité
3. Indépendance
4. E(e/x) = 0
1. E(e) = 0, et
2. Cov(x,e) = 0 (exogénéité)
 Il y a plusieurs cas où l’une de ces hypothèses

est remise en cause (surtout celle de
l’exogénéité stricte)
7
Données de panel
Les données de panel se présentent
généralement sous forme de plusieurs mesures
répétées sur le même individu. On est alors en
présence d’une double dimension temporelle et
individuelle des données.
Id temps 1 temps 2 … temps k
1
2
…
n
Données de panel - exemples
Les données de panel contiennent des données
sur plusieurs individus observés à différentes
dates.
Exemples:
 Des données sur les 24 pays de l’Union
européenne pendant trois ans, soit 72
observations.
 Des données sur 1000 individus pendant
quatre mois, soit 4000 observations.
Terminologie
 Données longitudinales est aussi synonyme
de données de panel
 un panel équilibré ou cylindré (balanced
panel en anglais) a le même nombre
d’observations pour tous les individus
 un panel déséquilibré ou non cylindré est
un panel où il manque des observations pour
certains individus
Utilité des données de panel
 Chacune des deux dimensions procure une information
que l'autre ne possède pas.
 La combinaison des deux permet alors d'obtenir des
résultats à la fois plus fiables et plus précis que ceux
que l'on obtiendrait en n'utilisant une seule dimension.
 Elles permettent de tenir compte explicitement de l’effet
de :
 l’hétérogénéité individuelle non observée (variabilité entre les
individus)
 facteurs inobservables ou non disponibles et qui ne peuvent être
inclus dans la régression
 facteurs qui pourraient causer un biais d’omission si l’on en
tenait pas compte.
Considérations générales
Soit N le nombre d’individus et T le nombre de

périodes :
 Si N=1 ET T>1 : Séries chronologiques
 Si T=1 ET N>1 : Coupe transversale
 Si T>1 ET N>1 (ET T<N) : Données de panel
 Si T>1 ET N>1 (ET T>N) : Séries
chronologiques multivariées
Exemple :
28 mesures pour 30 pays
Maroc Tunisie … Turquie
(i=1) (i=2) (i=30)
1981 X1,1 X1,2 … X1,30

(t=1)
1982 X2,1 X2,2 … X2,30

(t=2)
. . . .
. . . .
. . . .
2008 X28,1 X28,2 … X28,30

(t=28)
Pourquoi les données de panel ?
 Publications de données de panel
 Double dimension
 Une richesse d’information qui doit être exploitée
 Progrès informatiques
 Progrès dans la théorie économétrique qui
ont permis le développement de méthodes
statistiques adaptées
Avantages des données de
panel
 Plus d’observations
 Prise en compte de l’hétérogénéité
individuelle
 On peut tenir compte de l’influence des
caractéristiques non observables
 Risque de multicolinéarité réduit
 On capte des effets de court et de long terme
 Tests de modèles plus complets
 Réduction du biais d’estimation des
coefficients
Inconvénients des données de
panel
 Présence d’observations aberrantes
 Perturbation de la qualité des estimations
 Observations non renseignées
 Panels cylindrés
 Panels non cylindrés :
 Il manque des observations soit sur les individus, soit sur
les périodes, soit les deux
 Non traités par tous les logiciels écono
 Dimension temporelle trop courte
 Présence de dépendance inter-individuelle
Représentation des données
de panel
 Double dimension :
yit
i = individu, i = 1,…N
t = temps, t = 1,…T
 Plusieurs schémas pour l’analyse asymptotique :
 N fixe et T  ∞
 N  ∞ et T fixe
 N  ∞ et T  ∞
Un modèle général
 Modèle général, où les coefficients varient dans
le temps et/ou par individu
yit   it  x1,it 1,it  ...  xK ,it  K ,it   it

K
yit   it   xk ,it  k ,it   it
k 1
1 4 2
3
 Deux problèmes :
 Aucun pouvoir explicatif
 Cette expression n’est pas estimable (NT
observations et NT(K+1) paramètres à estimer)
 On doit munir cette expression d’une
structure :
 1 : Nature des variables explicatives
 2 : Distribution des erreurs
 3 : La relation entre les deux
 4 : le degré de variabilité des coefficients de
régression
 Hypothèses :
 1 : les variables explicatives sont non-stochastiques
et les matrices correspondantes sont de rang complet
 3 : les variables explicatives sont indépendantes des
erreurs
 Les différentes hypothèses sur la
distribution des erreurs (2) et le degré de
variabilité des coefficients (4) conduisent
aux principaux modèles de panel.
Modèle I : Régression
ordinaire
 Hypothèses :
  it  
 H 4 (I) : 
   k ,it   k k  1,...K
 2
H
 2 (I) :  it  iid (0,  )
 Le modèle :
K
yit     xk ,it  k   it
k 1
Modèle I : Régression
ordinaire
 Les hypothèses de la régression classique
sont vérifiées
 On peut estimer le modèle par les MCO
 Avantages :
 Simplicité des calculs
 Modèle parcimonieux
 Inconvénient :
 Admettre l’uniformité des comportements et
l’homogénéité des observations, c’est nier toutes
sortes d’hétérogénéités
Modèle II : Régressions
individuelles
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k ,i k  1,...K
 2
H
 2 (II) :  it  iid (0,  )
 Le modèle :
K
yit   i   xk ,it  k ,i   it
k 1
Modèle II : Régressions
individuelles
 Les hypothèses de la régression classique sont
vérifiées équation par équation
 On peut estimer chaque équation individuelle par les MCO
 Avantages :
 Modélisation parfaite de l’hétérogénéité individuelle
 Simplicité des calculs
 On peut tester l’uniformité des comportements
 Inconvénients :
 Un grand nombre de paramètres à estimer
 L’estimation individuelle n’est possible que si T > K + 1
 Néglige toutes sortes d’interdépendances des
comportements individuels
Conclusion provisoire
 La régression classique est parcimonieuse mais
néglige toutes sortes d’hétérogénéités.
 Le modèle des régressions individuelles
représente l’autre extrême : prise en compte
de l’hétérogénéité individuelle mais il n’est pas
parcimonieux.
 On veut un compromis : comment modéliser
l’hétérogénéité de manière parcimonieuse?
Modèle III : Modèle de la covariance ou
modèle à effets fixes
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k k  1,...K
 2
H
 2 (II) :  it  iid (0,  )
 L’hétérogénéité des comportements est
modélisée par un effet individuel générique.
 Il s’agit donc d’un modèle avec variables
muettes individuelles.
Modèle III : Modèle de la covariance ou
modèle à effets fixes
 Avantages :
 Parcimonieux, facile à calculer
 Prend en compte de manière simple
l’hétérogénéité et permet de tester l’uniformité
des comportements
 Inconvénient :
 Lorsque N est grand, le nombre de paramètres à
estimer est prohibitif :
 K paramètres pour b
 N paramètres pour les effets fixes
Autres modèles
 Modèles à effets aléatoires
 Modèles à variables instrumentales
 Modèles dynamiques
 Modèles à variables qualitatives
 Etc…
Test de spécificité
 Un test de spécification est nécessaire pour
déterminer si le processus générateur de
données peut être considéré comme homogène,
C’est-à-dire unique pour tout les individus, ou si
au contraire il parait totalement hétérogène.
 En cas d’hétérogénéité, l’utilisation des

techniques de panel ne peut se justifier.
Références
 Baltagi, B.H., ed., 2004, Econometric Analysis of Panel Data,
(John Wiley & Sons).
 Greene, W.H., 2003, Econometric Analysis (Prentice Hall,
New Jersey).
 Heckman, J.J. and B. Singer, 1985, Longitudinal Analysis of
Labor Market Data (Cambridge University Press, Cambridge).
 Matyas, L. and P. Sevestre, eds., 1996, The Econometrics of
Panel Data: A Handbook of the Theory With Applications
(Kluwer Academic Publishers, Dordrecht).
 Wooldridge, J.M., 2002, Econometric Analysis of Cross-
Section and Panel Data (MIT Press, Massachusetts).
Logiciels
 Commerciaux
 STATA
 SAS
 E-views
 SPSS
 Gratuits
 R
 Installation sur le site www.r-project.org
31

Séance 1 - Introduction Données de Panel

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Séance 1 - Introduction Données de Panel

Transféré par

Droits d'auteur :

Formats disponibles

Université Mohamed V Agdal

Faculté des Sciences Juridiques, Economiques

I. Plan du cours et évaluation

 Devoir individuel : 25%

yi = β0 + β1x1i + ... + βpxpi + ei (1)

La réponse yi, i = 1, . . . , n est modélisée par

 Il y a plusieurs cas où l’une de ces hypothèses

Soit N le nombre d’individus et T le nombre de

 Si T=1 ET N>1 : Coupe transversale

 Si T>1 ET N>1 (ET T<N) : Données de panel

 Si T>1 ET N>1 (ET T>N) : Séries

1981 X1,1 X1,2 … X1,30

1982 X2,1 X2,2 … X2,30

2008 X28,1 X28,2 … X28,30

yit   it  x1,it 1,it  ...  xK ,it  K ,it   it

 En cas d’hétérogénéité, l’utilisation des

Vous aimerez peut-être aussi