Vous êtes sur la page 1sur 45

Formation permanente à

l’économétrie des données


de panel

Ecole Doctorale en Sciences


Economiques, Gestion et Démographie
Université Montesquieu-Bordeaux IV
Plan général
 Nature et spécificités des données de panel
 Typologie des modèles de données de panel
 Modèles SUR
 Modèles à effets fixes
 Modèles à effets aléatoires
 Modèles à coefficients aléatoires
 Extension(s)
Nature et spécificités des
données de panel

• Définition et exemple
• Avantages et inconvénients
Définition (1)
 Un panel : des observations sur un
ensemble d’individus à plusieurs moments du
temps
 Individus = unité statistique observée
(consommateur, firme, région, etc.)
 Exemples :
 Enquêtes revenus sur les ménages : un
échantillon de ménages est observé sur plusieurs
années
 Séries de PIB par tête pour les pays de l’OCDE
observés sur plusieurs années
Définitions (2) : exemple
France Allemagne … Italie
(i=1) (i=2) (i=30)

1975 X1,1 X1,2 … X1,30


(t=1)

1976 X2,1 X2,2 … X2,30


(t=2)
. . . .
. . . .
. . . .

2002 X28,1 X28,2 … X28,30


(t=28)
Pourquoi les données de
panel ?
 Publications de données de panel
 Double dimension
 Une richesse d’information qui doit être
exploitée
 Progrès informatiques
 Progrès dans la théorie économétrique
qui ont permis le développement de
méthodes statistiques adaptées
Avantages des données de
panel
 Plus d’observations
 Prise en compte de l’hétérogénéité
 On peut tenir compte de l’influence des
caractéristiques non observables
 Risque de multicolinéarité réduit
 On capte des effets de court et de long terme
 Tests de modèles plus complets
 Réduction du biais d’estimation des
coefficients
Inconvénients des
données de panel
 Présence d’observations aberrantes
 Perturbation de la qualité des estimations
 Observations non renseignées
 Panels cylindrés
 Panels non cylindrés :
 Il manque des observations soit sur les
individus, soit sur les périodes, soit les deux
 Non traités par tous les logiciels
économétriques
Représentation des
données de panel
 Double dimension :
yit
i = individu, i = 1,…N
t = temps, t = 1,…T
 Plusieurs schémas pour l’analyse asymptotique :
 N fixe et T  ∞
 N  ∞ et T fixe
 N  ∞ et T  ∞
Typologie des modèles de
panel

• Un modèle général
• Différents schémas de variation des
paramètres
• Rappels:
• Le produit Kronecker
• MCO, MCG purs et MCG réalisables
Un modèle général (1)
 Modèle général, où les coefficients
varient dans le temps et/ou par individu
yit   it  x1,it 1,it  ...  xK ,it  K ,it   it
K
yit   it   xk ,it  k ,it   it
k 1
1 4 2

3
Un modèle général (2)
 Deux problèmes :
 Aucun pouvoir explicatif
 Cette expression n’est pas estimable (NT
observations et NT(K+1) paramètres à estimer)
 On doit munir cette expression d’une
structure :
 1 : Nature des variables explicatives
 2 : Distribution des erreurs
 3 : La relation entre les deux
 4 : le degré de variabilité des coefficients de
régression
Un modèle général (3)
 Hypothèses :
 1 : les variables explicatives sont non-
stochastiques et les matrices correspondantes
sont de rang complet
 3 : les variables explicatives sont indépendantes
des erreurs
 Les différentes hypothèses sur la
distribution des erreurs (2) et le degré
de variabilité des coefficients (4)
conduisent aux principaux modèles de
panel.
Modèle I : Régression
ordinaire (1)
 Hypothèses :
  it  
 H 4 (I) : 
   k ,it   k k  1,...K

H
 2 (I) :  it  iid (0,  2
)
 Le modèle :
K
yit     xk ,it  k   it
k 1
Modèle I : Régression
ordinaire (2)
 Les hypothèses de la régression
classique sont vérifiées
 On peut estimer le modèle par les MCO
 Avantages :
 Simplicité des calculs
 Modèle parcimonieux
 Inconvénient :
 Admettre l’uniformité des comportements et
l’homogénéité des observations, c’est nier toutes
sortes d’hétérogénéités
Modèle II : Régressions
individuelles (1)
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k ,i k  1,...K

H
 2 (II) :  it  iid (0,  2
)
 Le modèle :
K
yit   i   xk ,it  k ,i   it
k 1
Modèle II : Régressions
individuelles (2)
 Les hypothèses de la régression classique sont
vérifiées équation par équation
 On peut estimer chaque équation individuelle par les MCO
 Avantages :
 Modélisation parfaite de l’hétérogénéité individuelle
 Simplicité des calculs
 On peut tester l’uniformité des comportements
 Inconvénients :
 Un grand nombre de paramètres à estimer
 L’estimation individuelle n’est possible que si T > K + 1
 Néglige toutes sortes d’interdépendances des
comportements individuels
Modèle III : Modèle SUR
de Zellner (1)
 Hypothèses :
 H 4 (III)  H 4 (II)

  E ( it )  0
 
 V (  it )   i i  1,... N
2

 H 2 (III) : Cov( ,  )   i, j  1,...N


  it jt ij

 Cov( ,  )  0 t  s, i, j
  it js

 On appelle ij la covariance contemporaine.


Les individus sont interdépendants.
Modèle III : Modèle SUR
de Zellner (2)
 Structure de la matrice de variances-
covariances :
  E ( ')    IT avec    ij 
 Avantages :
 Comme pour le modèle II
 En plus : la prise en compte de l’interdépendance
individuelle
 Inconvénient :
 Ce n’est pas un modèle parcimonieux, surtout quand N est
grand et T est petit :
 N(K+1) coefficients
 N(N+1)/2 éléments de 
Conclusion provisoire
 La régression classique est
parcimonieuse mais néglige toutes sortes
d’hétérogénéités.
 Le modèle SUR représente l’autre
extrême : prise en compte de
l’hétérogénéité individuelle mais il n’est
pas parcimonieux.
 On veut un compromis : comment
modéliser l’hétérogénéité de manière
parcimonieuse?
Modèle IV : Modèle de la covariance
ou modèle à effets fixes (1)
 Hypothèses :
  it   i
 H 4 (II) : 
   k ,it   k k  1,...K

H
 2 (II) :  it  iid (0,  2
)
 L’hétérogénéité des comportements est
modélisée par un effet individuel générique.
 Il s’agit donc d’un modèle avec variables
muettes individuelles.
Modèle IV : Modèle de la covariance
ou modèle à effets fixes (2)
 Avantages :
 Parcimonieux, facile à calculer
 Prend en compte de manière simple
l’hétérogénéité et permet de tester l’uniformité
des comportements

 Inconvénient :
 Lorsque N est grand, le nombre de paramètres à
estimer est prohibitif :
 K paramètres pour 
 N paramètres pour les effets fixes
Modèle V : Modèle à erreurs composées ou
modèle à effets aléatoires (1)

 Hypothèses :
 H 4 (V)  H 4 (I)

  it  ui  wit
 
 wit iid (0,  w )
2

 H 2 (V) : 
 u
 i iid (0,  2
u)
  w , u indépendants
 it i
 L’effet individuel n’est plus un paramètre fixe
à estimer mais une variable aléatoire non
observable
Effets fixes ou effets aléatoires?
 Le choix entre effets fixes et effets
aléatoires dépend des
considérations suivantes :
 La nature de l’effet individuel
 Le nombre d’unités statistiques
 La nature de l’échantillon
 Le type d’induction qu’on veut faire
Modèle VI: Modèle à coefficients
aléatoires
 Hypothèses :

  i    ui
 H 4 (II) : 
   k ,i   k  u k ,i

H
 2 (II) :  it  iid (0,  2
i )

 Extension du modèle à effets aléatoires : le caractère


aléatoire est étendu à tous les coefficients.
 On pose également un hétéroscédasticité
individuelle.
To pool or not to pool?

Stratégie de test de Hsiao (1986) pour le modèle II:
yit   i  xit' i   it

H 0 :  i   et i  
H0 rejetée H0 vraie

H 0 : i   yit    xit'    it
Panel homogène
H0 rejetée H0 vraie

yit   i  xit'  i   it H 0 : i  
Panel hétérogène
H0 vraie H0 rejetée

yit    xit'    it yit   i  xit'    it


Panel homogène Effets fixes
Rappels (1) : Le produit
Kronecker - définition
 Définition :
 On appelle produit Kronecker entre deux matrices
A (m,n) et B (p,q) la matrice :
 a11 B a12 B  a1n B 
a B a B  a2 n B 
A  B   aij B    21 22

     
 
 am1 B am 2 B  amn B 

 En général, le produit Kronecker n’est pas


commutatif : A  B  B  A
Rappels (1) : Le produit
Kronecker - exemple
 Exemples :
B 0  0 
0 B  0
IN  B   
    
 
 0 0  B 
 a11 I N  a1n I N 
A  I N   aij I N       
 am1 I N  amn I N 
I N  IT  I NT
Rappels (1) : Le produit
Kronecker – quelques propriétés
 Quelques propriétés :

1:( A  B)  C  A  C  B  C
2 : ( A  B) '  A ' B '
3 : ( A  B)(C  D)  AC  BD
1 1 1
4 : ( A  B)  A  B
Rappels (2) : MCO et MCG –
Hypothèses des MCO
 Soit le modèle de régression :
Y( N ,1)  X ( N , K )  ( K ,1)   ( N ,1)

 3 corps d’hypothèses :
 Sur les variables explicatives : non-
stochastiques et de rang complet
 Sur les erreurs : E ( )  0 et E ( ')   2 I N
 Indépendance entre les erreurs et les
variables explicatives
Rappels (2) : MCO et MCG –
Estimation par les MCO
 On minimise la somme des carrés des
résidus : SS   '  ( y  X  )( y  X  ) '
 Le résultat : ˆ  ( X ' X ) 1 X 'Y
 Propriétés :
 Estimateur centré : E ( ˆ )  
 Estimateur BLUE
 Estimateur convergent
Rappels (2) : MCO et MCG –
Hypothèses des MCG purs
 Soit le modèle de régression :
Y( N ,1)  X ( N , K )  ( K ,1)   ( N ,1)
 Mêmes hypothèses que la régression
classique sauf :
 Sur les erreurs :
V ( )  ( ')   2V
 On suppose V connue et définie-positive
Rappels (2) : MCO et MCG –
Estimation par les MCG purs
 Si on applique les MCO, l’estimateur des MCO reste
centré mais n’est plus efficient.
 L’estimateur des MCG :
ˆMCG  ( X 'V 1 X )1 X 'V 1Y

 Cet estimateur est équivalent à l’estimateur des MCO


sur le modèle transformé :
PY  PX   P

où P est une matrice non-singulière telle que :


PVP '  I  V 1  P ' P
Rappels (2) : MCO et MCG –
les MCG réalisables
 En pratique, V n’est pas connue. Supposons
qu’elle dépende d’un vecteur  de m

paramètres inconnus.
 Les MCG réalisables – 2 étapes :
 1ère étape : on estime de façon convergente le
vecteur de paramètres inconnus  dont dépend V.
 2ème étape : on applique les MCG avec ˆ qui
remplace 
 On démontre que sous des conditions
générales, les MCGR sont asymptotiquement
équivalents aux MCG purs
Modèles SUR de Zellner

• Spécification et hypothèses
• Estimation
• Tests
• Exemple sur E-Views 4
Motivations
 SUR = Seemingly Unrelated Regressions
 Grünfeld (1958) : étude de fonctions
d’investissement (5 firmes, période = 1935-
1954)
 Les comportements d’investissement des
entreprises :
 ne sont nécessairement les mêmes : paramètres
différents selon les entreprises
 sont interdépendants : interdépendance captée
par le biais des erreurs
Spécification (1)
 Structure matricielle du modèle :
 Pour chaque individu i et chaque période t :
yit  xit'  i   i
 Pour chaque individu i :
yi  X i  i   i

 En regroupant tous les individus :


Y  X   X1
0
0  0 
X2  0 
X 
   
où X est une matrice bloc-diagonale : 
 0 0

 X N 
Spécification (2)
 Hypothèses :
 H1 : Sur les variables explicatives
 H1a : les X i sont non-stochastiques
 H1b : rg(X i)=K i < T
 H2 : Sur les erreurs  E ( i )  0

Pour chaque régression :  E ( i i )   ii I T
'

 E ( it  js )  0 t  s
 D’une régression à l’autre : 
 E ( it  jt )   ij t
 Au total : V    IT
 H3 : Indépendance entre les variables explicatives et les
erreurs
Spécification (3)
 Exemple : structure de la matrice de variances-
covariances pour 2 périodes et 3 individus :
 11 I 2  12 I 2  13 I 2 
V   21 I 2  22 I 2  23 I 2 
 31 I 2  32 I 2  33 I 2 

 11 0  12 0  13 0 
 0  0  0  
 11 12 13 
 21 0  22 0  23 0 
V  
 0  21 0  22 0  23 
 31 0  32 0  33 0 
 
 0  31 0  32 0  33 

Estimation (1)
 Cas simple : V   2 I NT
Dans ce cas, on peut faire les MCO individuels
équation par équation :
ˆ  ( X ' X ) 1 X ' Y

 Cas général (1) : V connu


Dans ce cas, on applique les MCG purs :

ˆ  ( X 'V 1 X ) 1 X 'V 1Y


Estimation (2)
 Conséquences de l’application des MCO
dans le cas général :
 Estimateur centré
 Estimateur non efficient
 Cas d’égalité entre MCO et MCG :
 Covariances contemporaines nulles
 Variables explicatives identiques dans chaque
équation
 Les régresseurs dans un bloc d’équations sont un
sous-ensemble de ceux d’un autre bloc d’équation
Estimation (3)
 Cas général (2) : V inconnu
Dans ce cas, on peut estimer le modèle par les MCG
réalisables ou par la méthode du maximum de
vraisemblance :
 MCGR :

 1ère étape : On cherche un estimateur convergent de 


ˆ ij   1 T  ˆi'ˆ 'j
 2ème étape : On applique les MCG
 Maximum de vraisemblance : on montre que la
solution numérique peut être obtenue en itérant la
procédure des MCG en deux étapes.
Tests (1) : test d’uniformité ou de
stabilité des comportements
 Soit le modèle pour un individu :
yi  X i i   i
 On veut savoir si les coefficients sont
différents d’une équation à l’autre :
 H 0 : 1   2  ...   N

 H A : Au moins 2 coefficients sont différents
 Procédure de test :
 Procédure de Chow
 Comparaison modèle contraint/modèle non-
contraint
Tests (2) : test de diagonalité de la
matrice des variances-covariances
 Test de diagonalité
 Le test :
 H 0 :  ij  0 i  j

 H A : Au moins un des éléments de  est non-nul
 Sous l’hypothèse nulle : modèle avec hétéroscédasticité en groupes
 Test à l’aide du principe du multiplicateur de Lagrange ou du ratio de
vraisemblance

 Test joint de diagonalité et d’homoscédasticité


 Le test :
 ij  0 i  j
H0 : 
 ii   i
2

 Sous l’hypothèse nulle : régressions individuelles (modèle II)


 Test à l’aide du principe du multiplicateur de Lagrange ou du ratio de
vraisemblance
Exemple sur E-Views 4.0
 Données d’investissement de Grünfeld :
 Période 1935-1954
 5 firmes : General Motors, Chrysler, General
Electric, Westinghouse, US Steel
 Variable expliquée : investissement brut (I)
 Variables explicatives :
 Valeur en bourse de l’entreprise à la fin de l’année
écoulée (F)
 Valeur du stock de capital à la fin de l’année
écoulée (C)

Vous aimerez peut-être aussi