Vous êtes sur la page 1sur 31

Université Mohamed V Agdal

Faculté des Sciences Juridiques, Economiques


et Sociales

ECONOMETRIE DES
DONNEES DE PANEL

Saad-Ellah Berhili
Novembre 2014
Plan de la présentation

I. Plan du cours et évaluation


II. Introduction
III. Théorie des données de panel
IV. Logiciels
V. Références

2
Plan du cours
 Introduction à l’économétrie des données de panel (1
séance)
 Modèles linéaires (1 séance)
 Modèles à erreurs composées (1 séance)
 Modèles à double erreurs composées (1 séance)
 Tests d’hypothèses sur les données de panel (1 séance)
 Modèles dynamiques (1 séance)
 Modèles à variables dépendantes limitées (1 séance)
 Présentations des groupes (2 à 3 séances)
 Examen Final (date à fixer)
3
Évaluation

 Devoir individuel : 25%


 Travail de recherche (par deux) : 25%
 Examen final : 50 %

4
Introduction
 Nous savons comment modéliser une variable
dépendante Y, de type continue, à l’aide de la
régression linéaire
 Soit le modèle de régression linéaire :

yi = β0 + β1x1i + ... + βpxpi + ei (1)

La réponse yi, i = 1, . . . , n est modélisée par


une fonction linéaire de variables explicatives
xj , j = 1, . . . , p plus un terme d’erreur ei ∼ N (0, σ2 ).
5
Méthode MCO (OLS)
 La technique d’estimation la plus populaire pour
estimer le vecteur β est la méthode des
moindres carrés ordinaires (MCO). Dans le cas
où Y est normale, elle est équivalente à la
méthode du maximum de vraisemblance.

 = (X T X )−1 X T Y
 Exemple : On veut relier le salaire d’un individu
à son niveau d’instruction (nombre d’années de
scolarité).

6
Conditions et hypothèses
 Hypothèses du modèle :
1. Normalité des erreurs
2. Homoscédasticité
3. Indépendance
4. E(e/x) = 0
1. E(e) = 0, et
2. Cov(x,e) = 0 (exogénéité)

 Il y a plusieurs cas où l’une de ces hypothèses


est remise en cause (surtout celle de
l’exogénéité stricte)
7
Données de panel
Les données de panel se présentent
généralement sous forme de plusieurs mesures
répétées sur le même individu. On est alors en
présence d’une double dimension temporelle et
individuelle des données.
Id temps 1 temps 2 … temps k
1
2

n
Données de panel - exemples
Les données de panel contiennent des données
sur plusieurs individus observés à différentes
dates.
Exemples:
 Des données sur les 24 pays de l’Union
européenne pendant trois ans, soit 72
observations.
 Des données sur 1000 individus pendant
quatre mois, soit 4000 observations.
Terminologie
 Données longitudinales est aussi synonyme
de données de panel
 un panel équilibré ou cylindré (balanced
panel en anglais) a le même nombre
d’observations pour tous les individus
 un panel déséquilibré ou non cylindré est
un panel où il manque des observations pour
certains individus
Utilité des données de panel
 Chacune des deux dimensions procure une information
que l'autre ne possède pas.
 La combinaison des deux permet alors d'obtenir des
résultats à la fois plus fiables et plus précis que ceux
que l'on obtiendrait en n'utilisant une seule dimension.
 Elles permettent de tenir compte explicitement de l’effet
de :
 l’hétérogénéité individuelle non observée (variabilité entre les
individus)
 facteurs inobservables ou non disponibles et qui ne peuvent être
inclus dans la régression
 facteurs qui pourraient causer un biais d’omission si l’on en
tenait pas compte.
Considérations générales

Soit N le nombre d’individus et T le nombre de


périodes :
 Si N=1 ET T>1 : Séries chronologiques

 Si T=1 ET N>1 : Coupe transversale

 Si T>1 ET N>1 (ET T<N) : Données de panel

 Si T>1 ET N>1 (ET T>N) : Séries

chronologiques multivariées
Exemple :
28 mesures pour 30 pays
Maroc Tunisie … Turquie
(i=1) (i=2) (i=30)

1981 X1,1 X1,2 … X1,30


(t=1)

1982 X2,1 X2,2 … X2,30


(t=2)
. . . .
. . . .
. . . .

2008 X28,1 X28,2 … X28,30


(t=28)
Pourquoi les données de panel ?
 Publications de données de panel
 Double dimension
 Une richesse d’information qui doit être exploitée
 Progrès informatiques
 Progrès dans la théorie économétrique qui
ont permis le développement de méthodes
statistiques adaptées
Avantages des données de
panel
 Plus d’observations
 Prise en compte de l’hétérogénéité
individuelle
 On peut tenir compte de l’influence des
caractéristiques non observables
 Risque de multicolinéarité réduit
 On capte des effets de court et de long terme
 Tests de modèles plus complets
 Réduction du biais d’estimation des
coefficients
Inconvénients des données de
panel
 Présence d’observations aberrantes
 Perturbation de la qualité des estimations
 Observations non renseignées
 Panels cylindrés
 Panels non cylindrés :
 Il manque des observations soit sur les individus, soit sur
les périodes, soit les deux
 Non traités par tous les logiciels écono
 Dimension temporelle trop courte
 Présence de dépendance inter-individuelle
Représentation des données
de panel
 Double dimension :
yit

i = individu, i = 1,…N
t = temps, t = 1,…T
 Plusieurs schémas pour l’analyse asymptotique :
 N fixe et T  ∞
 N  ∞ et T fixe
 N  ∞ et T  ∞
Un modèle général
 Modèle général, où les coefficients varient dans
le temps et/ou par individu

yit   it  x1,it 1,it  ...  xK ,it  K ,it   it


K
yit   it   xk ,it  k ,it   it
k 1
1 4 2

3
Un modèle général
 Deux problèmes :
 Aucun pouvoir explicatif
 Cette expression n’est pas estimable (NT
observations et NT(K+1) paramètres à estimer)
 On doit munir cette expression d’une
structure :
 1 : Nature des variables explicatives
 2 : Distribution des erreurs
 3 : La relation entre les deux
 4 : le degré de variabilité des coefficients de
régression
Un modèle général
 Hypothèses :
 1 : les variables explicatives sont non-stochastiques
et les matrices correspondantes sont de rang complet
 3 : les variables explicatives sont indépendantes des
erreurs
 Les différentes hypothèses sur la
distribution des erreurs (2) et le degré de
variabilité des coefficients (4) conduisent
aux principaux modèles de panel.
Modèle I : Régression
ordinaire
 Hypothèses :
  it  
 H 4 (I) : 
   k ,it   k k  1,...K
 2
H
 2 (I) :  it  iid (0,  )
 Le modèle :
K
yit     xk ,it  k   it
k 1
Modèle I : Régression
ordinaire
 Les hypothèses de la régression classique
sont vérifiées
 On peut estimer le modèle par les MCO
 Avantages :
 Simplicité des calculs
 Modèle parcimonieux
 Inconvénient :
 Admettre l’uniformité des comportements et
l’homogénéité des observations, c’est nier toutes
sortes d’hétérogénéités
Modèle II : Régressions
individuelles
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k ,i k  1,...K
 2
H
 2 (II) :  it  iid (0,  )
 Le modèle :
K
yit   i   xk ,it  k ,i   it
k 1
Modèle II : Régressions
individuelles
 Les hypothèses de la régression classique sont
vérifiées équation par équation
 On peut estimer chaque équation individuelle par les MCO
 Avantages :
 Modélisation parfaite de l’hétérogénéité individuelle
 Simplicité des calculs
 On peut tester l’uniformité des comportements
 Inconvénients :
 Un grand nombre de paramètres à estimer
 L’estimation individuelle n’est possible que si T > K + 1
 Néglige toutes sortes d’interdépendances des
comportements individuels
Conclusion provisoire
 La régression classique est parcimonieuse mais
néglige toutes sortes d’hétérogénéités.
 Le modèle des régressions individuelles
représente l’autre extrême : prise en compte
de l’hétérogénéité individuelle mais il n’est pas
parcimonieux.
 On veut un compromis : comment modéliser
l’hétérogénéité de manière parcimonieuse?
Modèle III : Modèle de la covariance ou
modèle à effets fixes
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k k  1,...K
 2
H
 2 (II) :  it  iid (0,  )
 L’hétérogénéité des comportements est
modélisée par un effet individuel générique.
 Il s’agit donc d’un modèle avec variables
muettes individuelles.
Modèle III : Modèle de la covariance ou
modèle à effets fixes
 Avantages :
 Parcimonieux, facile à calculer
 Prend en compte de manière simple
l’hétérogénéité et permet de tester l’uniformité
des comportements

 Inconvénient :
 Lorsque N est grand, le nombre de paramètres à
estimer est prohibitif :
 K paramètres pour b
 N paramètres pour les effets fixes
Autres modèles
 Modèles à effets aléatoires
 Modèles à variables instrumentales
 Modèles dynamiques
 Modèles à variables qualitatives
 Etc…
Test de spécificité
 Un test de spécification est nécessaire pour
déterminer si le processus générateur de
données peut être considéré comme homogène,
C’est-à-dire unique pour tout les individus, ou si
au contraire il parait totalement hétérogène.

 En cas d’hétérogénéité, l’utilisation des


techniques de panel ne peut se justifier.
Références
 Baltagi, B.H., ed., 2004, Econometric Analysis of Panel Data,
(John Wiley & Sons).
 Greene, W.H., 2003, Econometric Analysis (Prentice Hall,
New Jersey).
 Heckman, J.J. and B. Singer, 1985, Longitudinal Analysis of
Labor Market Data (Cambridge University Press, Cambridge).
 Matyas, L. and P. Sevestre, eds., 1996, The Econometrics of
Panel Data: A Handbook of the Theory With Applications
(Kluwer Academic Publishers, Dordrecht).
 Wooldridge, J.M., 2002, Econometric Analysis of Cross-
Section and Panel Data (MIT Press, Massachusetts).
Logiciels

 Commerciaux
 STATA
 SAS
 E-views
 SPSS

 Gratuits
 R
 Installation sur le site www.r-project.org

31

Vous aimerez peut-être aussi