Académique Documents
Professionnel Documents
Culture Documents
Problème1 .................................................................................................... 26
Problème 2 .................................................................................................... 28
N est alors le carré de la corrélation entre les valeurs observées de y et les prédictions
obtenues par l’équation estimée de la régression, Il faut noter que, la régression avec une
variable supplémentaire produit un N plus grand. On est ainsi tenté d’ajouter des variables au
modèle car N augmente jusqu’à sa limite supérieure qui est 1. Pour remédier à ce problème,
un coefficient N ajusté (par rapport au degré de liberté), noté N \ est donné par:
\ =
N
@H@
− d"Mef / d
′g2
\ =
f ( . h) ou N − "Me ( − N ) ( . i).
"M
"M
1.3.2 Propriétés à distance finie de l’estimateur des moindres carrés
Les hypothèses du modèle de régression linéaire permettent d’établir les propriétés
exactes à distance finie des estimateurs des MCO, b j ) des paramètres inconnus % et k ) .
• C[I/+] = C[I] = et C[A /+] = C[A ] = 7 donc b et j ) sont sans biais.
• 456(I/+) = 7 (+H +)M et 456CA=. (I/+) = A (+H +)M
• limo→qr b = % , donc b est un estimateur convergent.
• On peut démontrer que limo→qr A = 0 donc A est convergent.
• L’estimateur des moindres carrés est asymptotiquement efficace c'est-à-dire qu’il est
convergent, asymptotiquement normal et de matrice de covariance asymptotique
inférieure à celle de tout estimateur convergent et asymptotiquement normal.
Théorème de Gauss-Markov : Dans le modèle classique de régression linéaire, b est
l’estimateur linéaire sans biais de variance minimale de que X soit stochastique ou non,
pourvu que les hypothèses du modèle soient vérifiées.
1.4 Intervalle de confiance
Une estimation étant une approximation, il serait utile de la cadrer c'est-à-dire de lui
trouver un meilleur intervalle. Une approche générale pour l’estimation d’un paramètre t,
^ ± w56 5= >" ?@ x′éz{5"= xx>".
serait : u
Supposons que l’intervalle d’intérêt est symétrique autour de t| . Le but est de choisir une
valeur conventionnelle } (0.05 •€ 0.01 ) de manière à associer la probabilité 100(1 − })%.
Rédigé par HALIDOU MOUSSA ISSOUFOU
4
Théorème : Si ' est normalement distribué, alors l’estimateur MCO, b est indépendant du
vecteur des résidus et indépendant de toute autre fonction de , y compris A . Ainsi la
A ("‡ )
… /† "M
I M e Ie M e
relation =e = ‚ e ee 7
= ( . ˆ) est une distribution t à n-K degrés de liberté.
ƒ7 „ ƒA „ee
On peut utiliser =e pour pour construire des intervalles de confiance des éléments de % . En
conséquence, l’intervalle de confiance de %‰ peut être construit de la façon suivante :
Š‹•b Œb‰ − •
((M , oM‰)
√•‰‰ ≤ %‰ ≤ b‰ + •
((M , oM‰)
√•‰‰ ‘ = 1 − } ( . 2) où =d ’
M , "Mef
est la
V V
(2.4). Dans ces modèles, les variations sont en proportion ou en pourcentage. Par exemple, %
mesure la variation en pourcentage de y par rapport à une variation de 1% de #Ã .
Le modèle semi-log constitue un modèle hybride des modèles linéaire et log-linéaire, c'est-
à-dire x" = + + ( . :). Les coefficients du modèle semi-log correspondent à des
Äx"
élasticités partielles. Par exemple dans ( . :) on trouve : =
Ä
.
2.2.2 Effets d’interaction
Une autre formulation intéressante du modèle de régression est celle comportant des
termes d’interaction. Par exemple, un modèle reliant la distance de freinage D à la vitesse V
ÄC[Å/4,.]
et à l’humidité de la route H peut s’écrire ¸ = %( + %) © + %” “ + %¹ ©“ + ' . Ainsi, Äx"4
= %2 +
%4 “ signifie que l’effet marginal d’une vitesse supérieure sur la distance de freinage
Rédigé par HALIDOU MOUSSA ISSOUFOU
7
augmente avec l’humidité de la roue (en supposant %¹ positif). Pour construire des intervalles
de confiance ou des tests d’hypothèse sur les effets marginaux, les écarts-types sont calculés
f = ©ª‹_%Ç) ` + “) ©ª‹_%ǹ ` + “È•É_%Ç) , %ǹ `, et de façon comparable pour
ÄC[Å/4,.]
selon 456 dÄC[Å/4,.]
Äx"4 Äx".
2.2.3 Modèle intrinsèquement linéaire
Dans le modèle de régression classique, si on peut écrire K paramètres %1, %2 , … . , %
comme K fonctions bijectives, éventuellement non linéaires, d’un ensemble de K paramètres
sous-jacents t1, t2 , … , t , alors le modèle est intrinsèquement linéaire en t. L’équation du
modèle log-linéaire est intrinsèquement linéaire. Le logarithme de ÊË = }#Ë %2 'Ë , donne
¿ Ê/ = ¿ } + %) ¿ #/ + '/ ou !Ë = %1 + %2 Ë + 'Ë . Malgré son aspect non linéaire par rapport à }, le
modèle reste entièrement linéaire avec l’utilisation de %1 . Si b( est un estimateur de %1 , alors
a = exp (b1 ) est un estimateur de }. Le point central de linéarité intrinsèque est la « bijection ».
}
Si les conditions sont remplies, nous pouvons estimer le modèle selon les fonctions
%1, %2 , … . , % permettant de déduire ensuite les paramètres sous-jacents. La propriété de
bijection représente une condition d’identification. Les paramètres sous-jacents (t) de la
régression sont identifiés exactement selon les paramètres % du modèle.
Par ailleurs, tous les modèles de la forme !Ë = %1 (t) Ë1 + %2 (t) Ë2 + ⋯ + % (t) Ë + 'Ë (2.6) ne
sont pas intrinsèquement linéaires. Par exemple le modèle, !Ë = } + % Ë1 + Ï Ë2 + %Ï Ë3 + 'Ë est
non linéaire. Si on l’écrit sous la forme de (2.6), alors %4, = %2 %3 qui est une restriction non
linéaire. Dans ce modèle, }, % Ï sont suridentifiés en termes de quatre paramètres
%1, %2 , %3 et %4.
2.3. Modélisation et test de changement structurel
Le test de changement structurel représente l’une des applications les plus courantes
du test de F. Avec un modèle de régression, on suppose que les hypothèses s’appliquent à
toutes les observations de l’échantillon. Il est tout à fait possible de tester si certains ou tous
les coefficients du modèle varient d’un sous-ensemble de données à l’autre. Si !1 et #1 sont les
( premières observations d’un échantillon des données, et !2 et #2 , les ) dernières, alors
une régression non contrainte autorisant les %Ë, à varier entre ces deux périodes est
!1 #1 0 %1 '1
!2 ¡ = 0 ¡ Œ ‘ + ' ¡.
#2 %2 2
Si # et ! sont les matrices des données, l’estimateur des moindres
0 #H ! b
carrés non contraint est b = (#′#)M( #′! = Œ#( #(
H M(
‘ Œ (H ( ‘ = Œ ( ‘.
0 #)H #) #) !) b)
Il est possible de
construire la restriction sur les coefficients de deux manières. Formellement, la restriction
%1 = %2 est équivalente à ¨% = • où ¨ = [Ñ ∶ −Ñ] et • = 0. Une autre façon, plus simple,
consiste à intégrer la restriction directement dans le modèle. Si %1 = %2 alors on a
!1 #1 0 '1
!2 ¡ = 0 #2
¡ % + ' ¡.
2
Une régression simple sur les données empilées donne l’estimateur
contraint. La somme des carrés des résidus de cette régression contrainte est ∗H ∗ et
constitue le point de départ du test. La statistique du test est :
(T∗® T∗ MTHT)⁄Õ
Ó[J, 1 + 2 −2 ]= , J est le nombre de restrictions (nombre de colonnes de #2 )
′ /( 1 + 2 −2 )
l’équation (4.2) se réduit à : bäå = (ZH X)M( ZH Y (4.3). En pratique la matrice Z contient toutes
les variables exogènes du modèle.
Supposons que l’équation structurelle soit: Y- = β( X(-+β) X )-+…+βáM( XáM(- + βá Xá- +ε-
dans laquelle on soupçonne XK d’être endogène. Soit Z( , Z) , … , Zè , les variables
instrumentales. Dans ce cas la matrice Z aura pour colonne : (1, X( , X ) , … , X áM( , Z( , Z) , … , Zè )
avec L = K + m où L est le nombre de colonnes de Z. notons de plus que les variables
instrumentales Zi ne figurent pas dans l’équation structurelle; ces restrictions d’exclusion
permettent d’identifier le modèle. On montre dans ce cas que, pour obtenir bäå , il faut
procéder selon les deux étapes ci-contre:
information sur la forme de cette dépendance (la variance de '/ dépend de i mais on ne sait
individus, ou encore que la variance des erreurs dépend de i mais nous n’avons aucune
pas “comment“). Cette stratégie utilise les propriétés asymptotiques des estimateurs et est
donc valable en grand échantillon. En pratique c’est la stratégie la plus utilisée quand
l’échantillon est de taille suffisante. La seconde stratégie sera utilisée si nous disposons d’une
information sur la forme de l’hétéroscédasticité. Cette information auxiliaire permet d’utiliser
les Moindres Carrés Généralisés, noté MCG (GLS en anglais). Dans ce cas nous pourrons
utiliser les propriétés exactes des estimateurs c’est à dire en échantillon fini.
5.2 Conséquences de l’hétéroscédasticité sur les propriétés de l’estimateur des MCO
Si la variance des erreurs n’est plus constante, on montre que les estimateurs des
MCO sont toujours sans biais et consistants mais ils ne sont plus les meilleurs estimateurs
(linéaires et sans biais). En effet la variance des MCO, c’est à dire, σ2(X’X)−1 n’est plus
valide. Ainsi tous les tests présentés dans le chapitre1 ne sont plus valides. Deux stratégies
sont alors possibles : la première stratégie consiste à conserver les estimateurs des MCO
et à corriger la variance des estimateurs des MCO. La variance corrigée (ou variance
robuste à l’hétéroscédasticité) est une estimation robuste à l’hétéroscédasticité (par défaut
et dans la suite de ce chapitre toute mention de robustesse correspond à la robustesse à
l’hétéroscédasticité) valable en grand échantillon. Cette première stratégie très utilisée en
pratique sera présentée dans le paragraphe suivant. Les paragraphes qui vont suivre
présenteront la seconde stratégie qui consiste à abandonner les MCO et à faire une
hypothèse sur la spécification de la variance des erreurs afin d’appliquer une autre
méthode d’estimation, les Moindres Carrés Généralisés (MCG ou GLS en anglais).
5.3 Stratégies d’estimation en présence d’hétéroscédasticité
La première stratégie est utilisée si on n’a aucune information sur la forme de
l’hétéroscédasticité et permet d’éviter de spécifier la variance des erreurs. White(1980) a
la suivante : Σ| = (X H X)M( (X H diag(ε) )X(X H X)M( où diag(λi) est la matrice diagonale qui
proposé une matrice de variance-covariance asymptotique des paramètres estimés qui est
contient λi sur la diagonale. Nous supposons que i toutes les hypothèses des MCO sont
vérifiées sauf une : la variance des erreurs n’est pas constante dans l’échantillon. Ainsi
nous supposons toujours que la covariance entre les erreurs est nulle et que, hors
diagonale la matrice de Variance-Covariance des erreurs ne contient que des 0. Une seule
hypothèse est donc levée sur cette matrice : les termes sur la diagonale ne sont pas
constants, ils dépendent de i. En pratique pour savoir si cette hypothèse
d’homoscédasticité doit être levée sur l’échantillon étudié, on procède à des tests
d’hétéroscédasticité sur les erreurs. La seconde stratégie consiste à abandonner les
estimateurs des MCO et à estimer le modèle par MCG. La première étape de cette
stratégie consiste à procéder à des tests d’hétéroscédasticité. En cas de rejet de
Rédigé par HALIDOU MOUSSA ISSOUFOU
12
l’homoscédasticité des erreurs, la seconde étape consistera à appliquer les MCG en faisant
une hypothèse sur la forme de l’hétéroscédasticité.
On peut rarement affirmer que les perturbations sont hétéroscédastiques et
connaître la forme de l’hétéroscédasticité. Il est donc utile de tester la présence de celle-ci
et de modifier la procédure d’estimation le cas échéant.
5.4 Tests d’hétéroscédasticité des erreurs (Tests de White et Breusch-Pagan)
Nous allons présenter dans ce paragraphe deux tests d’hétéroscédasticité des erreurs
qui sont des tests asymptotiques très utilisés en pratique: le test de Breusch- Pagan (1979)
et celui de White (1980). Nous présenterons brièvement le principe d’un test asymptotique
du multiplicateur de Lagrange avant de présenter les tests d’hétéroscédasticité.
5.4.1 Test du multiplicateur de Lagrange
Soit le modèle de régression partitionnée suivant : Y = X1β1 + X2β2 + u (5.1) où X1 est
de dimension (1, k1) constante incluse et X2 de dimension (1, k2) . Nous allons présenter
Notons β|(ø l’estimateur de β1 sous H0. Le résidu du modèle contraint est uaÈ = Y − X1βa 1È .
une autre approche pour tester H0: β2 = 0. Cette approche utilise le modèle contraint.
procède comme suit : on régresse le résidu du modèle contraint uaø sur X1 et X2. Soit le
Lagrange ou test du Score, repose sur cette observation sur le modèle contraint. On
R2 de cette régression. La statistique de test est N x R2 qui suit, sous H0, une loi de
χ2 à k2 degrés de liberté. Si N x R2 est “grand”, le résidu est corrélé avec X2 et on
rejette H0. Attention, il est important de faire figurer X1 dans la régression auxiliaire des
résidus même si ce résidu est toujours orthogonal à X1. Si X1 est exclue, la statistique ne suit
généralement pas une loi de χ2 quand X1 et X2 sont corrélées, ce qui est très souvent le cas
en pratique.
5.4.2 Test de Breusch-Pagan (1979)
Le test de Breusch-Pagan (1979) sera noté BP. Il s’agit de itester l’hypothèse selon
laquelle la variance des erreurs ne dépend pas des variables explicatives du modèle. Soit le
modèle de régression multiple Y = Xβ +' . L’hypothèse nulle d’homoscédasticité est H0 :
©ª‹('/ /#) = k ) ou encore H0: E('2 /X) = k2 . Pour tester la violation de cette hypothèse, nous
allons tester si ' ) dépend d’une ou de plusieurs variables explicatives. Si H0 est rejetée
alors E('2 /X) est une fonction des variables explicatives. La spécification la plus simple
est '/) = δ0 + δ1X1 + . . . + δkXk + v où v vérifie toutes les hypothèses des MCO.
L’hypothèse nulle d’homoscédasticité devient H0 : δ1 = δ2 = . . . = δk = 0. Si les paramètres
δ sont tous nuls, alors la dispersion des erreurs ne dépend pas des variables explicatives ;
cette dispersion devient une constante et nous retrouvons l’hypothèse d’homoscédasticité.
On régresse Y sur toutes des variables explicatives par MCO ; on sauve les résidus '̂/) .
Nous procédons ensuite à un test du multiplicateur de Lagrange pour tester la nullité des δ :
' avec E(' /X) = 0 et Var(' /X) = σ2I. En présence d’hétéroscédasticité, la diagonale de la
Nous avons vu dans le chapitre 1, le modèle de régression multiple suivant: Y = Xβ +
#‰(
) 2 . . . 2
2 #‰)
) . . . 2
2 . . . .
Si ©ª‹(ε- ) = σ) Xá-
)
Ω= . . . . . . Nous
. .
, alors Ω devient sommes donc bien
. . . . . .
2 2 . . . #‰)
dans le cas où Ω est connue car nous connaissons la diagonale de la matrice Ω car la variable
Rédigé par HALIDOU MOUSSA ISSOUFOU
14
#* de chaque individu est connue. La transformation du modèle consiste toujours à diviser
l’équation initiale par la racine carrée de la diagonale de la matrice Ω−1. Procédons ainsi sur
notre modèle qui est le suivant : Y- = β0 + β( X(-+β) X)-+…..+βáM( XáM(- + βá X á-+ε- (5.3)
(
En divisant (4.3) par XK , on obtient : = β0 d f +β( d Y
f + β) d V
f + ⋯ + βá + d f (5.4)
( (
/ = , on a ©ª‹( / /#) = ©ª‹( /#) = ©ª‹('/ /#) = ¯σ) X á ) ° = k ) . Donc en
ÁV ÁV
Posons :
appliquant la transformation adéquate sur le (5.3), on obtient un modèle transformé dont les
erreurs / sont homoscédastiques. Nous pouvons donc appliquer les MCO sur le modèle
transformé: ils seront BLUE si ©ª‹(ε- ) = σ) X )á- est vraie (et que toutes les autres hypothèses
des MCO sont vérifiées). Il est à noter qu’à la lecture des paramètres estimés dans le modèle
(
transformé, la constante β0 est le paramètre de dans le modèle transformé mais c’est la
constante dans notre modèle initial et βK est le paramètre de Xá du modèle initial et ce
paramètre est devenu la constante dans le modèle transformé. Pour éviter ce problème de
lecture nous utiliserons les Moindres Carrés Pondérés (MCP ou WLS, Weighted Lesat
)
Squares): Au lieu de transformer le modèle et de minimiser ∑ )
/ ou ∑ d f , on peut
pour calculer un estimateur des MCG : ^ g < = ¯+′Ω ^ M +° +′Ω ^ M . Cette méthode
M
d’estimation des MCG en deux étapes est appelée Moindres Carrés Quasi Généralisés,
MCQG, (ou Feasible GLS).
Dans la première étape on régressei les résidus au carré sur les variables spécifiées dans
l’équation (5.5) de la variance. Grâce à cette régression on obtient une estimation de la
variance des en calculant la variable endogène estimée de l’équation des résidus. En effet,
étant donné que a une espérance nulle sa variance est égale à E('/) ). Dans notre exemple,
nous allons donc supposer que E('/) )= σ2(θ0 + θ1
régressant ε)- sur les variables explicatives, on obtient les w
+ θ2 + θ3 ) = σ2wi . Ainsi en
G - , et on dispose donc d’une
estimation de Ω. Nous utilisons ensuite cette variable “omega” pour transformer le modèle et
appliquer les MCO sur le modèle transformé et nous nous ramenons au cas où Ω est connue.
En conclusion, nous avons vu, au cours de ce chapitre, une forme du modèle de
régression généralisé, le modèle hétéroscédastique. L’estimation des moindres carrés garde sa
convergence et sa normalité asymptotique mais la matrice de covariance asymptotique doit
être corrigée pour réaliser une inférence correcte. L’estimateur de White en est une approche
standard. Après avoir considéré deux tests d’hétéroscédasticité, nous avons étudié quelques
formes hétéroscédastiques paramétriques ainsi que les estimations des moindres carrés
pondérés (généralisés) pour une estimation efficace. Si la forme hétéroscédastique est connue
Rédigé par HALIDOU MOUSSA ISSOUFOU
15
mais présente des paramètres inconnus, il n’est pas certain que les corrections MCQG soient
meilleures que MCO. La comparaison est claire asymptotiquement, mais dans les échantillons
petits ou moyens, la variation additionnelle incorporée par l’estimation des paramètres de la
variance peut compenser les gains dus à l’utilisation des MCO.
suppose que > / et ¦['/¶ '–ž /#( , … , #é ] = k/– si jË = j et 0 sinon. (Non corrélation entre
les observations) implique. ¦['/ '– ′/#( , … , #é ] = k/– ÑR (6.2).
6.1.1 Moindres carrés généralisés
Chaque équation est une régression classique, donc les paramètres du modèle SUR
peuvent être estimés de manière convergente par les méthodes MCO. La régression
généralisée s’applique aux données empilées.
Ê1 #1 0 . . . 0 %1 '1 k(( k() . . . k(é
Ê2 0 #2 . . . 0 %2 '2 k)( k)) . . . k)é
. . . . .. . . . . . . . .. . .
= . . . + . = #% + ' Σ= . . . . . . (6.4)
. . . . .
(6.3). Posons :
. . . . . . . . . . . . . . .
Ê . . . # % ' ké( ké) . . . kéé
0 0
covariance MxM des perturbations, pour tout t est Σ. On a que Ω = Σ⨂I et ΩM( = Σ M( ⨂I.
Pour estimer efficacement (6.3), il faut utiliser la méthode des MCG. La matrice de
Ainsi l’estimateur MCG est: | µ = (#′Ω−1 #)−1 #′ Ω−1 Ê = _#′ (Σ−1 ⨂I)X` #′ (Σ−1 ⨂I)Y. Cet
%
−1
estimateur est différent des MCO. Pour l’instant, les équations sont seulement liées par les
perturbations, d’où le terme de régressions apparemment indépendantes. Il est donc
intéressent de se demander quel est le gain d’efficacité provenant de l’utilisation de MCG à la
place de MCO. Généralement, plus la corrélation entre les perturbations est élevée, plus le
gain d’efficacité des MCG est important. De même, moins les matrices X sont corrélées, plus
le gain d’efficacité venant de l’utilisation des MCG est élevé.
Ï11 ! 1 + Ï21 ! 2 + ⋯ + Ï 1
! + %11 1 + %21 2 +⋯+ % 1
='1
Ï12 ! 1 + Ï22 ! 2 + ⋯ + Ï 2
! + %12 1 + %22 2 +⋯+ % 2
='2
Ï13 ! 1 + Ï23 ! 2 + ⋯ + Ï 3
! + %13 1 + %23 2 +⋯+ % 3
='2
.
.
.
Ï1 ! 1 + Ï2 ! 2 + ⋯ + Ï ! + %1 1 + %2 2 +⋯+% ='2
Il y a M équations et M variables endogènes, !( , !) , … , !é . Il y a K régresseurs, ( , ) , … , *
(6.1)
un certain nombre de restrictions sur Γ et (. Une des variables dans chaque équation est
particulière, alors que chaque ligne correspond à une variable spécifique. La théorie impose
)11 )12 . . . )1
forme réduite du modèle.
)21 )22 . . . )2
sont obtenues comme des prédictions dans une régression de la colonne j correspondant, ß–H
sur X. (6.3) se traduit aussi par une simplification utile de la covariance estimée
| Ø )′(!Ø −ßØ ·| Ø )
asymptotique, ©ª‹. $j!. ¦j . _·Ç–,)éP ` = ka/– _ßÇ–H ßÇ– ` ; ka ËØ =
M( (!Ø −ßØ ·
(6.4)
Chaque colonne de ¦•Ø est un ensemble de résidus des moindres carrés de la régression de la
colonne correspondante Ê•Ø sur #Ø , c'est-à-dire les variables exogènes apparaissant dans
l’équation j. Ainsi ˜•Ø est la matrice de la somme des carrés et des produits croisés des résidus.
est définie comme ˜–0 sauf que les régressions
−1
Ø ¦Ø = ÊØ ′[I - #Ø d#Ø # f
˜1Ø = ¦1′ #′Ø ]Ê•Ø (6.6) . ˜1Ø
1 • ′
portent sur tous les x du modèle et pas seulement sur l’équation j. Soit ℷ( la plus petite racine
Ø
˜ØØ ˜•′
caractéristique de ¯˜1Ø ° ˜0Ø (6.7). La partition de ˜•Ø en ˜•Ø = - • >.
•
−1 Ø
correspond à [!– , Ê– ],
˜ Ø -88
(6.8). %Ç–
est estimé par MCO. La matrice de covariance asymptotique de MVIL est identique à
celle de 2MC. Par suite, avec des perturbations normales, 2MC est efficace. Les estimateurs de
Ê′Ø ÊØ − é′Ø ©Ø Ê′Ø #Ø Ê′Ø !Ø − é′Ø ÉØ
« classe k » sont de la forme : ·| Ø,Ã = - .0 1 (6.9). Trois estimateurs
#′Ø ÊØ #′Ø #Ø #′Ø !Ø
de cette classe ont été étudié : MCO avec k = 0, 2MC avec k =1 et MVIL avec k = ℷ1 .
6.3.3 Méthodes d’estimation de système
!1
Une reformulation du système complet d’équations est sous la forme
ß1 0 . . . 0 ·1 '1
!2 0 ß2 . . . 0 ·2 '2
. . . . .. . . . .
. = . . . . + . = ß· + ' (6.10) où ¦['/ß] = 0 et ¦[''′/ß] = Σ[ = Σ⨂I
. . .
. . . . . . . . .
! 0 0 . . . ß · '
L’estimateur des moindres carrés 2 = [ß′ß]M( ß H ! est l’estimateur MCO équation par équation
et n’est pas convergent. Même si l’estimateur MCO était convergent, nous savons d’après les
modèles SUR, qu’il n’est pas efficace par rapport à un estimateur qui utilise les corrélations
des perturbations entre équations. En ce qui concerne le premier problème, nous en revenons
plus efficace peut être fondé sur le principe des MCG, ·| ©Ñ, \ ′ (Σ−1 ⨂I)ß¡ \ (Σ−1 ⨂I)! .
−1
= ˜ ˜
′
µ
Trois méthodes des VI sont généralement utilisées pour l’estimation jointe du système
complet d’équations: 3MC, modèle des moments généralisés (MMG), maximum de
vraisemblance à information complète (MVIC). MMG et MVIC seront étudié ultérieurement.
Rédigé par HALIDOU MOUSSA ISSOUFOU
19
ß( 0 . . . 0
0 ß) . . . 0
. . . .. . .
˜ = ß = 2˪½[#(# #) # ß( … #(# #) # ßé ] =
\ Ç H M( H H M( H
. . .
. . .
Posons . L’estimateur VI,
. . . . . .
0 0 . . . ßé
·Ç34 = _ßÇ H ß` ßÇ H !
M(
correspond au 2MC équation par équation. La convergence de l’estimateur 2MC
a été déjà établie. Mais, par analogie aux régressions SUR, nous pouvons-nous attendre à ce
que cet estimateur soit moins efficace que l’estimateur MCG. Une solution naturelle serait
·Ç”éP = _ßÇ H (ΣM( ⨂I)ß` ßÇ H (Σ M( ⨂I)! . Pour que cet estimateur soit valide, il faut que ßa (Σ−1 ⨂I)ε = 0
M( 1 ′
et
1
a (Σ−1 ⨂I)Z ≠ 0. L’estimateur 3MC peut être considéré
ß
′
comme un estimateur MCG de la forme
% = :¦[!/¶ ⁄ /¶ ]/: /¶ . Celle-ci dépend des hypothèses sur les effets non observés.
L’objectif principal de l’analyse sera l’estimation convergente et efficace des effets partiels,
linéaire avec une perturbation composée, qui peut être estimé de façon convergente, quoi que
inefficace, par les moindres carrés. Cette approche des effets aléatoires spécifiques du groupe
i de la même manière que '/¶ , sauf que pour chaque groupe, un seul tirage entre dans la
régression identiquement pour toutes les périodes.
7.3 Panels cylindrés et non cylindrés
Un échantillon de données de panel sera constitué de n ensembles d’observations sur
les individus notés Ë = 1, 2, … , . Si chaque individu est observé le même nombre de fois,
noté T, l’échantillon de données est un est panel cylindré ou équilibré. En revanche, si les
individus sont observés un nombre de fois différents, noté / , l’échantillon de données est un
panel non cylindré ou déséquilibré. Un panel fixe est un échantillon dans lequel le même
ensemble d’individus est observé durant la période d’étude.
A la section suivante, nous utilisons T pour simplifier l’analyse, ce qui suggère un panel
cylindré. On peut remplacer T par / pour généraliser le résultat.
7.4 Méthode de régression groupé
Nous commençons l’analyse par la version la plus simple du modèle, le modèle
groupé : !/¶ = }+ /¶H % + '/¶ , Ë = 1, 2, … , , = 1, 2, … , / , ¦['/¶ ⁄ /( , /) , … /RU ] = 0 ;
©ª‹['/¶ ⁄ /( , /) , … /RU ] = k ) et µ•É['/¶ , '–ž ⁄ /( , /) , … /RU ] = 0, Ë ≠ Ø et ≠ j (h. )
Si le reste des hypothèses du modèle classique est vérifié, alors les résultats du chapitre 1
suffiront. L’estimateur des moindres carrés ordinaires est efficace et l’inférence peut être
développée selon la manière vue au chapitre 1.
L’essentiel de l’analyse des données de panel repose sur le fait que les hypothèses de MCO ne
sont probablement pas vérifiées. Que se passe-t-il si l’hétérogénéité varie selon les individus ?
Rédigé par HALIDOU MOUSSA ISSOUFOU
21
Le résultat est évident avec les effets fixes. Ignorer l’hétérogénéité lorsque le modèle à effets
fixes est approprié a pour conséquence la non-convergence de l’estimateur des MCO. Pour les
effets aléatoires, le vrai modèle, !/¶ = /¶H % + '/¶ , ¦[È/ ⁄#/ ] = }, peut être réécrit
!/¶ = } + /¶H % + '/¶ + (È/ − ¦[È/ ⁄#/ ]) = } + /¶H % + '/¶ + €/ ⇒ !/¶ = } + /¶H % + >/¶ . Sous cette forme,
on remarque que l’hétérogénéité non observée entraîne l’autocorrélation, ¦[>/¶ , >/ž ] = k?)
lorsque ≠ j. Comme au chapitre 5, l’estimateur MCG peut être convergent mais l’estimateur
conventionnel de sa variance asymptotique en sous-estime probablement la vraie variance.
7.5 Estimation robuste de la matrice de covariance
L’empilement de / observations de l’individu i en une seule équation donne :
!/ = #/ % + >/ , où % contient le terme constant. L’hétéroscédasticité peut exister entre individus.
Mais, dans un échantillon de données de panel, le point le plus important est la corrélation au
sein de l’observation, ou autocorrélation. Dans un échantillon longitudinal, le groupe
d’observations pouvant se rapporter au même individu, tout effet latent concernera toutes les
périodes. Supposons que le vecteur de perturbation comprenne '/¶ et les composantes omises.
Donc ©ª‹[>/ ] = k ) ÑRU + Σ/ = Ω/ et , l’estimateur robuste de la matrice de covariance est
©ª‹. $j!. ¦j . [b] = _∑@L( #@H #@ ` ∑@L(¯#@H >
M( M(
G@ °(>
G@H #@ )¡ _∑@L( #@H #@ `
M(
où G est le nombre
de grappes dans l’échantillon et où chaque grappe compte @ observations ( ½ = 1, 2, … , ).
7.6 Estimateurs intra- et interindividuels
On peut exprimer le modèle de régression de trois façons. Premièrement, la
formulation d’origine est !/¶ = } + /¶ H
% + '/¶ (7.3a).
En termes des moyennes par groupe, ![/ = } + ̅/ % + '̅/ (7.3b). En termes des écarts par
rapport aux moyennes par groupe, !/¶ − ![/ = } + ( /¶ H
− ̅/ )% + '/¶ − '̅/ (7.3c).
On suppose qu’il n’y a pas des variables invariantes dans le temps dans /¶ . Ces trois modèles
peuvent être estimés par les MCO. On examine les matrices des sommes des carrés et des
produits croisés dans chaque cas, où on ne s’intéresse qu’à l’estimation de %.
l’échantillon, ̿ et !B : •CC
Dans (7.3a), où les moments correspondent à la variation par rapport aux moyennes de
¶D¶EÂ
= ∑o/L( ∑R¶L(( /¶ − ̿ )( /¶ − ̿ )′ et •CZ¶D¶EÂ
= ∑o/L( ∑R¶L(( /¶ − ̿ )(!/¶ − !B) (7.4).
( /¶ − ̅/ ) et (!/¶ − ![/ ) sont nulles. Les matrices des moments sont les sommes des carrés et
Pour (7.3c), comme les variables sont déjà exprimées en termes d’écarts, les moyennes de
ε- . Pour ces T observations, posons W/¶ = '/¶ + €/ et W/¶ = [W/( ; W/) ; … , W/R ]′ . Etant
Il est utile de réécrire le modèle sous forme de blocs de T observations pour le groupe
, !/ , #/ , €/
donné la forme de W/¶ , nous avons un modèle à erreurs composées, pour lequel,
¦[W/¶
)
/#] = k ) + k?) , ¦[W/¶ W/ž /#] = k?) , jË ≠ j et ¦_W/¶ W–ž /#` = 0, U•€‹ •€ j jË Ë ≠ Ø.
Pour tout T observations du groupe Ë, on pose Σ = ¦_W/ W/′ ⁄#`. Alors
k) + k?) k?) k?) . . k?) Σ 0 0 . . 0
k?) k ) + k?) 0 . . k) 0 Σ 0 . . 0
?
Y
que ΩMV = [Ño ⨂ Σ]MV ou, plus précisément, ΣMV , laquelle est donnée par ΣM 2 = •( Ñ − Rθ ËR ËR′ ¡ avec
Y Y 1
J
!/( − t![/
( !/) − t! [/
Σ V !/ = \ ⋮ ⋮ ^ (7.21)
Y
t =1− La transformation de !/ #/
•J M
Z•[V q•Q •J ⋮
. pour les MCG est et
VR
!/R − t![/
c’est la même chose pour les lignes de #/ . Avec l’ensemble des données, l’estimateur des
moindres carrés est obtenu par la régression des écarts partiels de #/¶ . Cette procédure est
analogue à celle utilisée dans le modèle LSDV où t = 1. (on peut interpréter t comme l’effet
restant si k = 0 car, il ne reste plus que €/ . Ainsi, les modèle à effets fixes et à effets
aléatoires ne sont plus distinguables). On peut montrer que l’estimateur MCG est :
%Ç = Ó| /o¶FE b /o¶FE + ¯Ñ − Ó| /o¶FE °™ (7.30) où Ó| /o¶FE = [•CC + &•CC •CC , & =
/o¶FE /o¶FE ]M( /o¶FE •JV
/o¶FE
V V = (1 − t))
Dans la mesure où & ≠ 1, l’inefficacité de l’estimateur MCO varie selon une pondération
•J qR•Q
inefficace des deux estimateurs. Comparer à l’estimateur de MCG, celui de MCO accord trop
de poids à la variation interindividuelle. Cette dernière est entièrement incorporée dans la
variation de X, plutôt que partiellement incluse dans la variation aléatoire entre groupe qui est
Rédigé par HALIDOU MOUSSA ISSOUFOU
24
due à la variation dans €/ entre unités. L’aspect non cylindré des données ajoute des
difficultés au modèle à effets aléatoires comme l’a montré (7.32), la matrice Ω n’est plus Ño ⨂ Σ
car les blocs dans Ω sont de tailles différentes. Il y a aussi une hétéroscédasticité individuelle
dans (11.33) puis que le i-ième bloc diagonal dans Ω est : ΩMV = ÑRU − R_U ËRU ËR′ U , t/ = 1 −
Y
•J
Z•JV qRU •Q
.
` V
)
/= - .=
V
∑W
UXY_∑H̀XY TUH ` ∑W
UXY(RT̅U )
V
Œ − 1‘ . Sous“0 , ML suit
oR oR
∑W I V )(RM() ∑W I V
)(RM() UXY ∑HXY TUH UXY ∑HXY TUH
un Khi-2 à 1 degré de liberté.
7.9 Test de spécification d’Hausman
Le test de spécification d’Hausman (1978) pour le modèle à effets aléatoires est utilisé
pour tester l’orthogonalité entre les effets communs et les régresseurs. Sous l’hypothèse de
non-corrélation, l’estimateur MCO dans le modèle LSDV et l’estimateur MCQG sont
convergents mais l’estimateur MCO est inefficace. Sous l’alternative, l’estimateur LSDV est
convergent tandis que l’estimateur MCQG ne l’est pas. Par conséquent sous l’hypose nulle, les
deux estimateurs ne sont pas systématiquement différents. Un test peut être construit sur cette
On utilise les estimateurs des matrices de covariance des coefficients estimés du modèle LSDV et
l’estimateur de la matrice de covariance du modèle à effet aléatoire, excepté le terme constant. Sous
l’hypothèse nulle, W suit un Khi-2 à K-1 degrés de liberté. Le test d’Hausman est un outil pratique
pour déterminer la spécification préférée du modèle à effet communs.
Une statistique asymptotique à (7.44) qui est particulièrement commode est donnée par :
“ H = ¯%Ç»OG3 − %Çéde ° ©ª‹. $j!. _%Ç»OG3 ` + ©ª‹. $j![%éde
M(
¯%Ç»OG3 − %Çéde °
H o ]
¡ (7.45)
D’après Imbens et Wooldridge (2007), malgré son aspect pratique dans (7.444) et (7.45), le test de
Hausman devait être fondé sur les matrices de covariance robustes qui ne dépendent pas de
l’hypothèse nulle (modèle à effets aléatoires). Leur approche conduit au test de variables
additionnelles avec une matrice de covariance robuste.
Ce chapitre, qui vient boucler le contenu de notre résumé analytique, a étudié les
extensions du modèle classique au cadre des données de panel. Tous ces modèles, y compris
ceux à équations multiples, sont généralisés de la même manière. L’avantage principale réside
dans le fait que grâce aux données de panel, les effets dynamiques et l’hétérogénéité entre
; = 14 et (. ) = éȪ‹ − !U 2 j È• ¼¼ËÈË j
(0,26) (0,13)
( (g = 3; ( (h = 6; ) (g = 24 et ) (h = 38 .
Calculez une prévision et son intervalle à 95% pour les périodes 15 et 16, sachant que :
8- Décrivez comment peut-on obtenir les estimateurs des moindres carrés non linéaires des
paramètres du modèle ! = } › + ' (% est non nul et différent de zéro).
Résultat 1
1- Estimation des paramètres du modèle ( par les MCO.
le modèle ( peut s’écrire sous la forme : ! = #b + ' avec b H = (I2 , I , I , I ).
D’après la formule (1.4), nous avons : I^ = (+H +)M +H
14
85 532 2094 20,169 0,015 −0,231 −0,076
85
631 3126 13132 0,015 0,013 0,001 −0,001
⇒ (#′ #) = \ ^
−1
#′ # = 5
3126 20666 78683 −0,231 0,001 0,004 0,001
532
13132 78683 317950 −0,076 −0,001 0,001 0,0004
2094
20,1686 0,0151 −0,2315 −0,0762 248 32,891
^ = (#′ #)−1 #′ ! = \ 0,0151 0,0132 0,0012 −0,0009^ \ 1622 ^ = \ 0,8019 ^
I
−0,2315 0,0012 0,0036 0,0006 9202 −0,3814
−0,0762 −0,0009 0,0006 0,0004 37592 −0,0371
D’où b|0 = , iˆ ; b|( = 2, i2 ; b|) = −2. i @= b|” = −2, 2 h et on :
( : = , iˆ + 2, i2 − 2, i − 2, 2 h +@
2- Calculons l’estimation de la variance de l’erreur, A ainsi que les écarts-types de chacun
b|” . Nous avons A = "M = (¹M¹ = 6,745 d’où A = c, h3:
hi,¹g
des coefficients b|0 , b|( , b|)
@@ ®
La matrice des variances estimées des coefficients est: 456CA=. (I/+) = A (+H +)M ; d’où
Les variances des coefficients de régression se retrouvent sur la diagonale de ©ª‹¦j . (b/#).
Ainsi nous avons : kab^) = 136,0375; kab^) = 0,0891 ; ka^b) = 0,0245 et kab^) = 0,0027 . D’où
0 1 2 3
G I^2 =
7 G I^ = 2, ˆi: ; 7
, cc : ; 7 G I^ = 2, :c: et 7
G I^ = 2, 2: 2
¨[ ) . D’après la formule (1.5), nous avons ¨ ) =
@H@
3- Calculons ¨ ) −∑ 3 ( M\)
or
X
′ = 67,45 et ∑(¹
hi,¹g
/L((!/ − !
[)) = 226,86 donc ¨) = 1 − ))h,jh = 0,703 d’où N = 2, h2
\ =
La relation ( . h) donne N −
"M
( −N )=1−
(¹M(
\ = c , c 3.
(1 − 0,703), d’où N
"Me (¹M¹
Testons la significativité globale du modèle avec les trois variables. D’après la formule
2,h2 ‡2
Ó ∗ > Ó(”,(0)
2
0,0g
, nous rejetons alors l’hypothèse “0 de nullité de tous les coefficients. Ainsi, la
régression est globalement significative.
4- Voyons si les variables explicatives du modèle1 sont significativement contributives pour
expliquer la variable endogène.
Calculons les trois ratios de Student et comparons-les à la valeur lue dans la table pour un
seuil de 5% pour un test bilatéral.
= k•G Y k = 0,)mjg = 2,687 > = 2,228 ⇒ b( ≠ 0, donc la variable explicative
∗ ™| 0,j0) 0,0g
™|Y (0
l
^Y
, ˆi
Ó ∗ = ±[ , 2] = = 2, c 3ˆ or le F lu est Ó(),(0)
0,0g
= 4,10 . On a Ó ∗ < Ó(),(0)
0,0g
donc on accepte
l’hypothèse nulle. Les données ne sont pas incompatibles avec la possibilité que les
coefficients I et I sont simultanément et respectivement égaux à 1 et -0,5.
( (g = 3 ; ( (h = 6 ; ) (g = 24 et ) (h = 38 .
7. Prédiction et intervalle de prédiction à 95% pour les périodes 15 et 16, sachant que :
8- Décrivons comment on obtient les estimateurs des moindres carrés non linéaires des
paramètres du modèle = ’ + .
Nous ne pouvons pas simplement prendre les logarithmes des deux membres de l’équation
= ’ + car la perturbation est additive plutôt que multiplicative. Nous devons donc
en appliquant les MCO à cette équation. Le processus est repété avec des nouvelles
estimations dans le } 0 et % 0 . Cette itération pourrait être continuée jusqu’à la convergence.
= =u +
2- Estimez le
modèle à effets fixes
= + = et testez l’hypothèse de la
2 26,30 25,69 17,47 17,96 19,60 16,55 ′
3 2,62 5,48 9,31 9,16 3,87 1,47 même constante pour toutes les firmes.
= + (} + u ) + = et construisez le test
4 14,94 13,79 18,01 18,73 24,19 24,91 3- Estimez le modèle à effets aléatoires
= =
5 15,80 15,41 7,63 11,31 3,99 5,01 ′
6 12,20 12,59 19,84 21,15 5,73 8,34 du multiplicateur de Lagrange pour l’hypothèse
7 14,93 16,64 13,76 16,13 26,68 22,70 du modèle classique sans l’effet commun.
8 29,82 26,45 10,00 11,61 11,49 8,36 4- Effectuez le test de spécification de Hausman
9 20,32 19,64 19,51 19,55 18,49 15,44 pour le modèle à effets aléatoires contre le
10 4,77 5,43 18,32 17,06 20,84 17,87
modèle à effets fixes.
Résultats 2:
I)
1- Calculons les estimations MCQG %| = _%| 1 , %| 2 ` de % = [%( , %) ]H .
′
j j µt
= 0,0619⁄(0,182) ¤) ≈ 0,145 est très petit donc nous ne rejetterions pas l’hypothèse %1 = %2 .
(
j¹
Echantillon1
b( = ( ( ()
H
( !(
M( H
= (4)M( (5) = 3⁄: ; H
= !(H !( − b( (H !( = 20 − (4⁄5)(4) =
( ( g
j¹⁄g j¹⁄g
( ( ⁄(
TY® TY
•() = H
− 1) = = 2, ii3 ¨() = 1 − Z® Z = 1 − = 2, c
(m )0
;
Y Y
0,88421
©ª‹. ¦j [b( ] = •() ( ( ()
H M(
= = 0,1768
5
h h¹
Echantillon 2
b) = ( ) ))
H
) !)
M( H
= (0 = 2, c ; H
) ) = !)H !) − b) ) !)
H
= 10 − 0,6(6) = (0
h¹ h¹
) ) ⁄( − 1) = d(0f⁄19 = 2, ci3 ; ¨)) = 1 − ZV® ZV = 1 − d(0f⁄10 = 2, c
T® T
•)) = H
V V
0,33684
©ª‹. ¦j [b( ] = •)) ( ) ))
H
=
= 2, 2ch ci
M(
5
4- Réalisons le test de multiplication de Lagrange pour l’hypothèse k() = k))
Nous avons besoin des estimateurs séparés et groupés de la variance basés sur l’estimateur de
restriction simple. La valeur critique de la table de Khi-2 est 3,84, ainsi nous pouvons rejeter
l’hypothèse nulle k() = k)) .
Rédigé par HALIDOU MOUSSA ISSOUFOU
30
5- Calculons l’estimateur des doubles MCQG de % et un estimateur de sa variance.
Afin de calculer les deux étapes de l’estimateur MCG, nous pouvons utiliser soit les
estimations de la variance originale basée sur les estimations des moindres carrés séparés ou
ceux obtenus ci-dessus en faisant le test LM. Puisque les deux pairs sont cohérents, les deux
estimateurs MCQG auront tous des propriétés asymptotiques durables. Pour notre estimateur,
nous avons utilisé ka–) = –H – ⁄ de la régression originale. Ainsi, ka() = 0,84 et ka)) = 0,32.
L’estimateur MCG est :
¡ v 0,j¹ + 0,”)¡ = 0,632
h ) g
%Ç =
( H ( ( H ( ¹ (0
!
GYV ( (
+ GV ) !) ¡¤ •
H
GYV ( (
+ GV ) )¡
H
= +
• •V •V 0,j¹ 0,”)
( (
1¤ G V (H ( + G V )H ) ¡ = 0,2688 , cela
•Y •V
La variance d’échantillonnage estimée est implique une
2
erreur standard asymptotique de (0,2688) =0,16395.
II)
1-Calculons les coefficients des moindres carrés du modèle groupé: !/¶ = } + % /¶ + '/¶ .
Après tout calcul fait avec le tableur Excel, nous trouvons les matrices suivantes
30 448,86 0,21205 −0,01194 452,86
# H# = ¡ ; (# H #)M( = Œ ‘ # HÊ = Œ ‘. Donc un
448,86 7968,4544 −0,01194 0,00080 8102,0386
−0,7474
estimateur % est = (# H #)M( # H Ê = ¡, d’où = = −0,7474 + 1,0589 = + @ = et H = 120,6687
1,0589
155,02 −1,4659
154,15 −2,8334
ßH Ê = \ ^ . On en déduit donc que : b»OG3 = (ß H ß)M( ß H Ê = \ ^. D’où on a :
143,69 0,1198
8102,0386 1,1020
de F est ÓÂ?T
0,0g
= 3,37. On constate que Ó ∗ > ÓÂ?T
0,0g
donc on rejette l’hypothèse nulle, alors la
constante n’est pas la même pour toutes les firmes. Ainsi la qualité d’ajustement du modèle
augmente considérablement lorsque les effets individuels sont ajoutés.
+ (} + u ) +
3-
• Estimons le modèle à effets aléatoires = = ′
= =
Rédigé par HALIDOU MOUSSA ISSOUFOU
31
Pour estimer le modèle à effets aléatoires, nous avons besoin de quelques estimateurs
̅
supplémentaires. En calculant les moyennes des groupes, on trouve :
![
Groupe 1 15,502 14,962
Groupe 2 15,415 16,559
Groupe 3 14,373 12,930
notre estimation de k?) est ka?) = 0,19747 − = −1,10703 ( il y a une absurdité, car ka?) est
3,045
10
négatif). Avant d’abandonner éventuellement les effets aléatoires, considérons un estimateur
cohérent alternatif de la constante et de la pente, l’estimateur des moindres carrés
∑”/L([![/ − (−0,747476 + 1,058959 ̅/ )]) = 3,9273. Donc nous utilisons maintenant, l’estimateur,
ordinaires groupé. En utilisant les moyennes de groupe ci-dessus, nous trouvons,
Z•Q
ka?) =
V
3,9273 3,045
− = 3,6227. Ainsi, nous pouvons calculer t = 1 − = 1−
√”,h))i
”M) 10 Z•JV qR•Q
V ƒ3,045+10(3,6227)
Pour le test LM, nous revenons à la régression des moindres carrés ordinaires groupés. Les
quantités nécessaires sont H = 120,6687 ; ∑(0
¶L( (¶ = −0,55314 ; ∑¶L( )¶ = −13,72824 et
(0
∑(0
¶L( ”¶ = 14,28138.
) V V V )
d∑10 10 10
/= - -
V
∑W
UXY_∑H̀XY TUH ` =1 1 f qd∑ =1 2 f qd∑ =1 3 f
− 1. = − 1. = i, 3ci
oR ”((0)
∑W I V
)(RM() UXY ∑HXY TUH )((0M() T ®T
Pour le test de Hausman, nous comparons les MCQG et les LSDV. On utilise les estimateurs des
matrices de covariance des coefficients estimés du modèle LSDV et l’estimateur de la matrice de
covariance du modèle à effet aléatoire MCQG, excepté le terme constant. Sous l’hypothèse nulle, H
suit un Khi-2 à K-1 degrés de liberté. La statistique du test est
Problème 3 ( TP)
Le TP porte sur un fichier de données constitué d’un échantillon de 3010 hommes, sur
lesquels sont observées 6 variables quantitatives : LWAGE (log du salaire horaire), EDUC
(nombre d'années d'études), EXPER (expérience sur le marche du travail en années), EXPERSQ
(EXPER au carre), FATHEDUC (nombre d'années d'étude du père) et MOTHEDUC (nombre
d'années d'étude de la mère) et 3 variables qualitatives binaires NEARC4 (=1 si l'individu vivait
près d'un collège disposant de 4 ans d’étude en 1966), SMSA (=1 si l'individu vit dans une
métropole) et SOUTH (=1 si l'individu vit dans le sud).
L’objectif est d’étudier le rendement de l’éducation (EDUC) sur le salaire horaire (LWAGE)
|}~•€ = 3,905 + 0,1212 €•‚ƒ + 0,118 € „€… −0,0025 € „€…†‡ + 0,1356 †ˆ†~ − 0,1313†‰‚Š‹ + @
FATHEDUC, MOTHEDUC et NEARC4. Le modèle estimé devient
Le modèle est très significatif (p-value < 2e-16). Toutes les variables explicatives du modèle
sont très significatives (p-value < 0,001). Les paramètres estimes dans la régression sont donc
tous significativement différent de zéro. Le rendement de l’éducation est finalement de
12,12%. Le R2 associé au modèle est toujours faible, ainsi le modèle n’explique que 21% de
la variance du log du salaire horaire.
4-) Test de l’exogénéité de l’éducation
Pour tester l’exogénéité de la variable EDUC, on procède en deux étapes :
• On estime la forme réduite par MCO en régressant EDUC sur toutes les variables exogènes :
EDUC~EXPER+EXPERSQ+SMSA+SOUTH+MOTHEDUC+FATHEDUC+NEARC4. On calcule le
résidu de cette régression (résidu EDUC)
• On estime l’équation structurelle par MCO en ajoutant ce résidu comme variable explicative.
On va ainsi tester l’hypothèse H0 : le paramètre, βrésidu = 0 ; c’est-à-dire EDUC est exogène.
On a alors l’équation : LWAGE~EDUC+EXPER+EXPERSQ+SMSA+SOUTH+résidu EDUC
Dans notre cas, βrésidu= -0,0461508 et la p-value associée est égale a 0,00018. On rejette donc
H0. On en conclut que EDUC est bien endogène et qu’il fallait effectivement utiliser les 2MC.
5-) Test de l’éxogénéité des instruments
Dans notre application, on est en conditions suridentifiantes : nous disposons de trois
variables instrumentales pour une variable endogène, autrement dit le nombre de restrictions
suridendifiantes, noté q, est égal a deux.
Dans la mesure où q≥1, nous pouvons donc appliquer le test de Sargan pour tester
l’exogénéité des instruments. Pour ce faire, il faut procéder en deux étapes :
• On enregistre les résidus des 2MC. Dans notre cas, nous utilisons le code R suivant
iv2 < - ivreg (LWAGE~EDUC+EXPER+EXPERSQ+SMSA+SOUTH | MOTHEDUC+FATHEDUC+
NEARC4+EXPER+EXPERSQ+SMSA+SOUTH, data=card2)
• On régresse ce résidu sur toutes les variables exogènes du modèle. le code R est :
lm(residuals(iv2)~EXPER+EXPERSQ+SMSA+SOUTH+MOTHEDUC+FATHEDUC+NEARC4,data=card2)
On effectue un test du multiplicateur de Lagrange sur cette régression auxiliaire en calculant
N*R2 que l’on compare une loi du Khi2 à q (=2 ici) degrés de liberté. L’hypothèse nulle étant
: toutes les variables instrumentales sont exogènes. Si la valeur observée dépasse la valeur
théorique de la table, on rejette H0. Au moins une variable instrumentale n’est pas exogène.
Si la valeur observée n’est pas dans la région critique, alors on ne rejette pas H0, le test n’a
pas permis de mettre en évidence de problème d’endogénéité au sein des variables
instrumentales, on considère donc les variables instrumentales comme étant toutes exogènes.
Ici : R2= 0,0006215 et n = 2220. La valeur observée est donc de 1,379733, avec une p-value
associée de 0,501. En conséquence, on ne rejette pas H0, on considère donc les variables
instrumentales comme étant toutes exogènes.
Conclusion
Dans le cadre de cette application, la méthode des MCO aurait conduit a une
estimation biaisée et inconsistante des paramètres du modèle et notamment du rendement de
l’éducation. Ainsi dans cette application, la méthode des MCO nous aurait amené à sous-
estimer le rendement de l’éducation (8,08% par MCO contre 12,12% par 2MC avec 3 IV) et à
le considérer plus faible (pour une augmentation d’une unité) que le rendement de
l’expérience, alors que la méthode des 2MC le fait apparaitre comme étant plus élevé que le
rendement de l’expérience (12,12% pour l’éducation contre 8,22% pour l’expérience).
L’utilisation de la méthode des 2MC était justifiée : d’une part car nous avons pu mettre en
évidence l’endogénéité de la variable explicative éducation et d’autre part car les 3
instruments respectent les conditions attendues.
I
Chapitre 4 : Endogénéité et estimation par variables instrumentales ........................... 9
II
6.3.3 Méthodes d’estimation de système ............................................................... 19
Problème1 .................................................................................................................. 26
Résultat 1 ................................................................................................................... 26
Problème 2 ................................................................................................................. 28
Résultats 2: ................................................................................................................. 29
III