Académique Documents
Professionnel Documents
Culture Documents
BINOMIAL DISCRÈTE
MODÈLES DE CHOIX
Instructeur : Eugène Kouassi - WVU (USA) et Université de Cocody (CI)
Références :
Amemiya, T (1984) 'Tobit Models : A Survey', Journal of Econometrics, 24, pp. 3-63.
Maddala, G.S (1983) Limited Dependent and Qualitative Variables in Econometrics (Variables qualitatives
et dépendantes limitées en économétrie). Cambridge
U. Press, Cambridge.
Holland.
Wooldridge, J (2002) Econometric Analysis of Cross Section and Panel Data. MIT Press, MIT.
1
LES MODÈLES DE CHOIX
DISCRETS
1. INTRODUCTION
Modèle
économique Règle de de
Règle
(par exemple, décision
décision
les services (par
publics exemple,
(par exemple,
maximisation) FOC)
FOC)
Sous- Modèle
jacents économétrique
régression (par exemple, en
(par exemple, fonction des données
résoudre l'OFC observées, des
pour un données dépendantes
variable) discrètes ou limitées).
modèle variable)
Section 2 : Configuration
Estimation
implications du modèle, par exemple des OF, que nous pouvons tester. La conversion de ces
réarrangement des termes afin d'isoler une variable dépendante. Souvent, cette variable
dépendante n'est pas directement observée, d'une manière que nous expliquerons plus tard. Dans
ce cas, nous ne pouvons pas nous contenter d'estimer la régression sous-jacente. Au lieu de cela,
nous devons formuler un modèle économétrique qui nous permet d'estimer les paramètres
d'intérêt dans la règle de décision / régression sous-jacente en utilisant le peu d'informations dont
nous disposons sur la variable dépendante. Dans la section 2, nous présenterons deux modèles
qui nous aideront à combler le fossé entre les régressions sous-jacentes inestimables et le modèle
économétrique présenté dans la section 2 afin qu'il soit prêt pour l'estimation. Dans la section 4,
le β estimé ne nous donne pas les effets marginaux d'un changement dans les variables indépendantes
sur la variable dépendante. Nous abordons ce sujet parce qu'il nous fournira certaines
informations dont nous aurons besoin pour estimer le modèle. Enfin, la section 5 décrit comment
estimer le modèle.
2. MOTIVATION
2.1 Quelques exemples
3
1. Nombre de brevets y = 0,1, 2,
:
4
Dans la plupart des cas que nous étudierons, les valeurs prises par les variables dépendantes ne
Nous attribuons la valeur 0 à "Non" et la valeur 1 à "Oui". Ces décisions sont des choix
valeur 3 "soutien" et la valeur 4 "fortement soutien". Ces chiffres sont des classements et les
valeurs choisies ne sont pas quantitatives, mais simplement une indication de l'importance de la
question.
commander. La différence entre les résultats représentés par 1 et 0 n'est pas nécessairement la
4. Le domaine professionnel :
Il s'agit du domaine choisi par un individu. Soit 0 pour un employé, 1 pour un ingénieur,
2 pour un avocat, 3 pour un politicien, etc. Ces données ne sont que des catégories, qui ne
5. Le choix du consommateur :
Il s'agit ici de choisir entre plusieurs zones commerciales. Ce cas présente les mêmes
caractéristiques que le numéro 4, mais le modèle approprié est légèrement différent. Ces deux
derniers exemples se distinguent par la mesure dans laquelle le choix est basé sur des
5
caractéristiques de l'individu.
par opposition aux attributs des choix, ce qui est probablement la considération la plus importante dans
l'évaluation de l'impact des choix sur l'environnement.
6
Aucune de ces situations ne se prête facilement à notre type familier d'analyse de
régression. Néanmoins, dans chaque cas, nous pouvons construire des modèles qui lient la
approche consistera à analyser chacune de ces situations dans le cadre général des modèles de
probabilité.
Les modèles à variables dépendantes discrètes sont souvent présentés sous la forme de modèles à
fonction d'indice
ou modèles d'utilité aléatoire. Ces deux modèles considèrent que le résultat d'un choix discret est le reflet
de l'état de l'environnement.
une régression sous-jacente. La volonté d'éclairer les modèles économétriques par des modèles
marginal. La différence entre les deux modèles est que la structure du calcul coût-bénéfice dans
les modèles de fonction d'indice est plus simple que dans les modèles d'utilité aléatoire.
Étant donné que les calculs des avantages marginaux ne sont pas observables, nous modélisons la
différence entre les avantages marginaux et les avantages marginaux.
y* = β ' x + (7.1)
ε
où ε f (0, 1) , avec f symétrique. Bien que nous y* , nous observons y , qui est
n'observions pas
7
y = 0 si y* ≤ 0
8
Dans cette β ' x est appelée fonction d'indexation. Il convient de noter deux choses :
formulation Premièrement, notre hypothèse selon laquelle
Var (ε ) = 1 pourrait être remplacé par Var (ε ) = σ2 en multipliant nos coefficients par σ2 . Notre
les données observées resteront y = 0 ou 1, en fonction uniquement du y* , mais pas son échelle.
inchangées ; signe de
Deuxièmement, fixer le seuil pour y étant donné y* à 0 est également innocent si le modèle contient un
terme constant. En général, à moins de raisons impérieuses, les modèles de probabilité binomiale
Pr{y = 1} = Pr{y* > 0} = Pr{β ' x + ε > 0} = Pr{ε > -β ' (7.3)
x}
Supposons que le calcul du coût marginal soit légèrement plus complexe. Soit y0 et
y1 sont le bénéfice net ou l'utilité dérivée de l'action 0 et de l'action 1, respectivement. Nous pouvons
modéliser
y = β' x + ε (7.5)
0 0 0
10
et y = γ 'x + ε (7.6)
1 1 1
Supposons maintenant que f (0, où f est symétrique. Là encore, bien que nous n ' observions pas
(ε1 - ε0 ) 1)
y = 0 si y0 > y1 (7.7)
et y=1 y0 ≤ y1 (7.8)
si
En d'autres termes, si l'utilité de l'action 0 est supérieure à celle de l'action 1, c'est- y0 > y1 , alors
à-dire,
3. FORMULATION
Les modèles de fonction d'indice et d'utilité aléatoire permettent de faire le lien entre une fonction
d'indice sous-jacente et une fonction d'utilité aléatoire.
régression et un modèle économétrique. Nous allons maintenant entamer le processus d'élimination des
distribution de ε et ensuite, dans la section 4, nous examinerons comment les effets marginaux
la structure,
12
Pr{y = 1} = F ( β ' x) \N - Pr{y = 1} = F (β ' x)
Pourquoi s'intéresser à la probabilité que y = 1 ? Parce que la valeur attendue de y étant donnée
x)
la littérature.
F ( β ' x) = β ' x
(iii)Modèle logit
eβ x'
F ( β x) = Λ( β x) 1+ eβ '
' '
= x
14
3.3 Décider de la spécification à utiliser
Le modèle de probabilité linéaire est populaire parce qu'il est extrêmement simple à estimer.
x) + ε
Étant donné que F est linéaire, cela se résume au modèle de régression classique. Il convient de noter que le
modèle de régression de
Var ⎡⎣ε x) (1- β' x) = (1- (β' x) x) ) ( β ' x) + (β' x) (1- β' x)
2 2 2 2
x ⎤ ⎦ = (1-β x) β' x + (-β' - 2(β'
'
Notre premier problème est donc que ε est hétéroscédastique d'une manière qui dépend de β .
Bien sûr, en l'absence d'autres problèmes, nous pourrions gérer cela avec un estimateur FGLS.
Un second problème plus sérieux, cependant, est que puisque β ' x n'est pas confiné à
15
ouvre la possibilité de prédire des probabilités qui se situent en dehors de l'intervalle [ 0, 1], ce qui
est le cas dans les pays en voie de développement.
16
β ' x < 0 ⇒ E [ y] = F = β ' x < 0, Var (ε ) = β ' x (1- β ' x) < 0
Il s'agit d'un problème plus difficile à résoudre. Nous F=1 F ( β ' x) = β ' x > 1 et F = 0
pourrions définir si
si F ( β ' x) = β ' x < 0 , mais cette procédure crée des coudes irréalistes aux points de troncature pour les
( y, x β x = 0 ou 1) .
'
Le modèle probit, qui utilise la distribution normale, peut être justifié par l'attrait qu'il suscite.
à un théorème de limite centrale, tandis que le modèle logit peut être justifié par le fait qu'il est similaire à
un théorème de limite centrale.
La distribution logit est la même que la distribution normale, mais sa forme est beaucoup plus
simple. La différence entre la distribution logit et la distribution normale est que les queues de la
distribution logit sont légèrement plus lourdes. La distribution normale standard a une moyenne
nulle et une variance de 1, tandis que le logit a une moyenne nulle et une variance égale à π2 /3 .
La distribution de type I des valeurs extrêmes est la moins fréquente des quatre
modèles. Il est important de noter qu'il s'agit d'une fonction de densité de probabilité
asymétrique.
4. EFFETS MARGINAUX
17
Contrairement aux modèles linéaires tels que les modèles de régression classique ou néo-classique,
l'effet marginal d'un changement de x E [ y]n'est pas simplement β . Pour voir E [ y] par
sur pourquoi, différencier
x,
18
∂E [ y] ∂F ( β 'x) ∂( β ' x)f ' x (7.12)
= = ( β )β
∂x ∂( β ' x) ∂x
Ces effets marginaux sont différents dans chacun des quatre modèles de probabilité de base.
(ii) Probit
1 ( x)
- β'
2
Aujourd'hui, ; de f ( β ' x ) β = ϕβ
f( β' x) = ϕ ( β' /2
e sorte
2π
x) = que
(iii)Logit
∂Λ ( β ' ∂ ⎡ eβ x' ⎤
β'
x)
En
l'occurrenc f( x) = = ⎢ ⎥ = Λ( β ' x) ⎡1- Λ( β ' x)⎤
e,
(-u )
W (β' x) = 1- exp (- exp (β' x)) = 1- exp
19
avec u = exp (β ' x)
C'est pourquoi,
20
W' = u' exp (-u ) .
REMARQUE :
Ce qui précède a mis l'accent sur le calcul des effets partiels pour l'individu moyen de
l'échantillon. Dans la pratique actuelle, de nombreuses applications reposent plutôt sur des
"effets partiels moyens" [voir, par exemple, Wooldridge, 2002]. La logique sous-jacente est que
1n
APE = γ = ∑
n i=1 ( )
'
f β xi β
marginaux Logit
partir de l a discussion ci-dessus comparant les variances des variables aléatoires probit et logit,
on obtient
3
π
Il est logique de multiplier l'estimation du coefficient ≅ 1.8 (puisque la variance du π2 /3
probit par
logit est
21
alors que la variance de la normale est de 1). Mais Amemiya propose un facteur de conversion
différent. En procédant par essais et erreurs, il a découvert que 1,6 donne de meilleurs résultats
22
délimite la valeur moyenne des régresseurs. Au centre de la distribution, F = 0.5 et
β ' x = 0 . Par ϕ (0) = 0,3989 et Λ ( 0 ) ⎡ ⎣ 1 - Λ ( 0 )⎤⎦ = 0,25 . Nous voulons donc résoudre la
conséquent,
équation,
Cela donne,
NLLS. La première étant beaucoup plus répandue, c'est à elle que nous consacrerons la majeure
5.1 MLE
Étant donné que nous supposons que les ε sont identiques, par la définition de l'indépendance, nous
pouvons écrire
notationnelle F, ,
23
i i i i i i
de la fonction de vraisemblance,
1- yi
L = ∏[1- F i] [F i]
yi
(7.14)
i
24
Puisque nous recherchons une valeur de β qui maximise la probabilité d'observer ce que nous avons
observé, nous devons nous assurer que cette valeur n'est pas trop élevée.
ont, les transformations monotones croissantes n'affecteront pas notre résultat de maximisation.
maximisation d'une somme est plus facile que la maximisation d'une valeur de
(7.14)
ln L = ∑{(1- yi )ln [1- Fi ] + yi ln Fi }
i
β = arg max ln L
β
Dans le cadre de la MLE, nous allons maintenant examiner les six procédures d'estimation et de test
suivantes :
- Estimation de β ;
25
5.1.1 Estimation de β
26
Pour résoudre maxln L, nous devons examiner les conditions du premier et du second ordre.
β
Une condition nécessaire à la maximisation est que la dérivée première soit égale à zéro,
∂ ln
L
∂ ln
L
∂( β ' ∂ ln L
= x) = x=0 (7.16)
∂β ∂( β ' x) ∂β ∂( β ' x)
Ain
si,
∂ ln L ∂ {(1- y )ln [1- F ]+ y ln F }⎤ = ⎧(1- y ) (- fi ) + ⎫⎬
⎡ yi fi
ii ⎩ ii ⎭
= ∑⎨⎪⎧( yi -1) fi Fi + yi fi (1- Fi ) ⎫ ⎪ ⎪
F (1- F ) ⎬
i ⎪⎩ i i ⎪⎭
Nos objectifs
prioritaires sont
donc les
)( i i f x = 0
⎧⎪⎫.
⎪( yi -1) fi Fi + yi fi (1- Fi ) ⎪ ⎫ = 0 ⇔ y -F (7.17)
suivants, ∑⎨
F (1- F ⎬xi ∑(1- F ) F i i
)
i i
i ⎪⎩ i i i
⎪⎭
Nous examinons à présent les OFC spécifiques dans trois modèles principaux :
)
( y-F
∑ 27
( y - β' x)
i i fi xi i i
=∑ xi =0
i (1- F )i F i i (1- β' x ) β
i i
x'
Il s'agit simplement d'un ensemble d'équations linéaires en x et y que nous pouvons résoudre explicitement
pour β de deux manières.
28
Cas 1 : Moindres carrés
La première solution donne un résultat qui rappelle les prédicteurs familiers des moindres carrés.
GLS
En résolvant pour le β au numérateur, nous obtenons quelque chose qui ressemble à l'équation généralisée
suivante
( y - β' x )
i i β x'2 yx
∑ x =0 ⇔ ∑ i
=∑ ii
i
(1- β' x ) β
i i i i (1- β' x ) β x ' i i i (1- β' x ) β x '
i i
x'
yi xi
∑ ∑Var (ε ) yi xi
⇒β= i (1- x ) β
β' i x'
i
= i
i
x2 x2
∑ i
∑ i
MCO
1 ∑ yx
∑y
x
Var (ε ) ii ii
β= =i
i
i
i
1 i x2
x2
∑ ∑
Var (ε ) i
29
Cas 2 : GMM
30
pour résoudre le modèle linéaire LS à hétéroscédasticité,
( y - β' x εx εx
∑ ) i i
=0
ii ii
modèle de régression,
∑ε xi = ∑ε xii i= 0
1
Var (ε i i
Notez que chacun de ces estimateurs est identique. Certains peuvent être plus efficaces que
(ii) Probit
L'approche utilisée ici est basée sur les résultats de la distribution normale tronquée dans
∂ ln L x = ∑ -ϕ ( β ' x x + ∑ ϕ (β x )x
'
i 0
=
i
) i
i
i i
i
31
∂( β ' x
i y =0 1- Φ ( β i ' x ) y =1 Φ(β ' x )
i
)
= ∑ λ0i xi +∑λ1i xi = 0
yi =0 yi =1
32
∑λi xi =0
i
où λi = λ0i si yi = 0 et λi = λ1i si yi = 1.
Notez que, contrairement au LPM, ces FOCs sont un ensemble d'équations non linéaires en β .
Il n'est pas facile de les résoudre explicitement pour β . Il f a u t donc estimer β à l'aide de
méthodes numériques.
(iii) Logit
( yi - Fi ) f x = ∑( yi - Λi ) Λi (1- Λi =0 ⇔ ∑( y - Λ ) x = 0 ,
∑ )x
ii i i i i
i (1- Fi ) Fi i (1- Λi ) Λi i
Il est intéressant de noter que nous yi - Λi = εi de sorte que l'OFC peut s'écrire
pouvons écrire
∑( yi - Λi ) xi = ∑εi xi = 0 , ce qui est similaire aux conditions de moment pour le LPM. Comme dans le cas du
i i
Cependant, les FOCs pour le modèle logit sont non linéaires en β et doivent donc être résolus à
Ensemble, les FOC et les SOC, qui exigent que la dérivée seconde ou le hessien soient
définis négativement, sont des conditions nécessaires et suffisantes pour la maximisation. Pour
condition,
laissez
33
∂f ( β '
x)
∂( β ' x)
= f' (β'
x)
34
C'est ce que nous devons vérifier,
2 ∂ln L
L
∂ ⎡ ∂ ln ⎤ ∂( β ' 2 ∂ln L
(.) y
∂ ⎡( - β 'x ) ⎤
x) i
= ⎢ x⎥ = xx' = ∑ ⎢ i
f x ⎥x' < 0
∂β∂β ∂( β x) ⎣ ⎢ ∂ (β x) ⎥⎦
' '
∂( β x) ∂( β
' ' i ∂(β x) ⎢⎣ (1- Fi )
' ii
⎥⎦
i
'
∂ x)
Fi
β
Nous examinons maintenant les SOC spécifiques dans trois modèles principaux :
y
∂ ⎡( - β' x) ⎡ -x (1- β' x ) β ' x - (1- 2β' x - β' x ) x ⎤
⎤
f x ⎥x' = ∑⎢
)( yi
∑i ∂( β x)⎢ ⎢ (1- F ) F i i i
' i i i
⎡
i
' '
⎤2 i i
⎥⎥x
ii ' i
⎥ ⎢
⎣ i i ⎦
i
⎣⎢ ⎣(1- β xi )β xi ⎦ ⎥⎦
⎡
-x ( y - β x ) x (1- 2β' x )⎤ ⎡ -x (1- β' x ) β ' x - ( - β' x ) x (1- 2β' x )⎤
'
y
i ⎥xi' = ∑⎢
= ∑⎢ i
- i i i
2 2
i i i i
2
i
2
i i
⎥xi'
i ⎢( 1- β'
x ) β (1- β '
x ) ( β '
x ) ⎥ ⎢ (1- β '
x ) ( β '
x ) ⎥
x' i
⎣ i i i i ⎦ ⎣ i i ⎦
En développant, on obtient
x ) )x ⎤2
⎡(- y + 2β' y x - ( β ' ⎡ ' 2
⎤
ii i ii -( yi - β xi ) ⎥� x' < 0
∑⎢ ⎢ 2 2 ⎥⎥ ix' = ∑⎢ ⎢ ' 2 ' 2 ii
x' = ∑⎢ ' ' ⎥
i
⎢⎣ (1- β ) (β )
xi xi
⎥⎦
i ⎣(1- β ) (β ) ⎦
xi xi
35
(ii) Probit
La preuve découle ici des résultats obtenus dans le modèle de Roy. Tout d'abord, notons que
36
En prenant la dérivée de la première dérivée, nous devons montrer,
∂ ∂
∑ [λ x ] x' = ∑ [λ ] x x' < 0
ii i ii i
i ∂( β ' x i i ∂( β ' xi
) )
Nous pouvons simplifier cette expression en utilisant les résultats de la normale tronquée,
⎞2
∂λ ∂ ⎡ -ϕ ⎤ ⎛ -β x' ϕ (1- Φ ) + ϕ2 ⎞ ⎛ -ϕ ⎞⎛ -ϕ
0i
= ⎢i
⎥=
ii ii
= -β ' x ⎜ i⎟
-⎜
i
⎟
= -λ (β' x + λ ) < 0
∂( β ' x ∂(β' x ) ⎣1� Φ -⎜
i
⎦ ⎝ i i ( 1-Φ i )2
⎟
⎠
i 1-
⎝ i ⎠⎝ 1- Φi
0i i 0i
Φ ⎠
)
De même,
∂λ ∂ ⎡ ϕ ⎤ �⎛ -βx' ϕ Φ -ϕ 2 ⎞
1i = i = iii i = -β ' xiλ1i - λ1i = 2-λ1i (β xi + λ1i' ) < 0
⎢ ⎥ ⎜ ⎟
∂( β x ) 'i
β
∂( ) Φi ⎦ ⎝ Φ2i
'i ⎣
x ⎠
où
-ϕi
λi = λ0i = si yi = 0 , et
1- Φi
ϕi
λi = λ1i = si yi =1
Φi
(iii)Logit
37
En prenant la dérivée du FOC pour le logit, nous obtenons le SOC,
38
∑∂ ⎡⎣( yi - Λi ) xi ⎦⎤
x' = -∑Λ (1- Λ ) x x' < 0 ,
i i ii i
i ∂( β ' x ) i i
ce qui est clairement ∀β ∈ B . Notons que, puisque le hessien ne comprend pas yi, la méthode de Newton-
le cas
l'optimisation numérique par la méthode Raphson, qui utilise H dans son algorithme itératif, et la méthode
de notation, qui utilise E [H ] sont identiques dans le cas du logit. Pourquoi ? E [ y]est pris
Parce que
par rapport à la distribution de y . Nous avons montré que les modèles LPM, probit et logit sont
quelques itérations pour ces trois modèles, à moins que les données ne soient très mal
conditionnées.
R1. Les trois premières dérivées de ln f ( yi θ ) par rapport à θ sont continues et finies pour
presque yi et pour tout θ . Cette condition assure l'existence d'une certaine série de Taylor
tous
R2 : Les conditions nécessaires pour obtenir les espérances des dérivées première et seconde de
ln f ( yi θ ) sont respectées ;
R3 : Pour toutes les 3 ∂ln f ( y θ ) / ∂θ ∂θ est inférieure à une fonction dont la durée de vie est
valeurs de θ , finie.
∂θ ∂θ
39
i j k l
40
D1 : ln f ( yi θ gi = ∂ ln f ( yi θ ) / ∂θ , et H = ∂2 ln f ( θ ) / ∂θ∂θ ' , i = 1, , n sont tous aléatoires.
), y
i
des échantillons de variables aléatoires. Cette affirmation découle de notre hypothèse de variables
aléatoires.
D2 E0 ⎡⎣gi (θ0) ⎤⎦ = 0 ;
:
PREUVE :
Par
définition, B(θ0 )
f( y
)dy = 1.
θ
∫A(θ )
i 0 i
0
Si les deuxième et troisième termes sont nuls, on peut intervertir les opérations de différenciation
42
∂A(θ0 ) / ∂θ0 = ∂B (θ0 ) / ∂θ0 = ou que la densité soit nulle aux points terminaux. Cette condition,
0
est alors la condition de régularité R2. Cette dernière est généralement supposée, et nous la
∂∫ f ( θ0 ) f yθ dy = E ⎡∂ ln f ( yi θ0 ) ⎤ = 0
= ∂f ( yi θ0 dyi =
yi dyi
∂θ ∫ ∂θ ∫ ( ) 0⎢ ⎥
∂ ln f ( θ0
i 0 i
∂θ
∂θ) yi
0 0 ) 0 ⎢⎣ 0 ⎥⎦
∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
2
ln f y(θ i ) f(
∫ ⎡∂
⎢ ∂θ ∂θ'
0
yi θ0 ) +
∂θ0
i 0
∂θ ' i 0 ⎥ dyi = 0
⎢⎣ 0 0 0 ⎥⎦
Mai
s..,
∂f ( yi θ0 ∂ ln f ( yi θ0
∂θ ' =f( θ0
)
yi
),
) ∂θ'
0 0
⎡∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
⎡∂ 2ln f y(θ i' )⎤ f (
-∫⎢ ∂θ ∂θ 0
⎥ yi θ0 ) dyi = ∫⎢ ∂θ i 0
∂θ ' i 0
⎥f ( θ0 )
dyi
yi
⎢⎣ 0 0 ⎥⎦ ⎢⎣ 0 0 ⎥⎦
43
Le côté gauche de l'équation est le négatif de la matrice des dérivées secondes attendues. Le côté
droit est le carré attendu (produit extérieur) du vecteur de la première dérivée. Mais, parce que
44
ce vecteur a une valeur attendue de 0 , le côté droit est la variance du vecteur de la dérivée
⎡∂ ln f ( y θ )⎤ ⎡⎛ ⎡∂ ln f ( y θ ) ⎡⎛ ∂ ln f (i y0 θ ) ⎞⎛ ∂ ln f2 ( y θ ) ⎞⎤ ⎤
Var ⎢ i 0 i 0 ⎟⎥ = -E ⎡∂ ln f y (θ i 0 )
⎥ = E ⎢⎜ ⎢ ⎥
∂θ ∂θ
0
0
⎣⎢ ∂θ0
⎥⎦ ⎢⎣⎝ ∂θ0
⎟⎜
⎠⎝ ∂θ 0 ⎠⎥⎦ ⎣⎢ 0 0
'
⎦⎥
'
RAPPEL 3 :
M1:Cohérence : p lim β = β0
où I (β 0 ) = -E 0 2 ⎣⎡∂ln L (.) / ∂β
0 ∂β
'
0 ⎤⎦
45
PREUVE :
46
RAPPEL 4 :
d'un estimateur sans biais d'un paramètre θ sera toujours au moins aussi grande que,
⎞-1
⎞2
-1 ⎛ ⎡∂ln L (θ ) ⎤ ⎞ -1 ⎛ ⎡⎛ ∂ ln L (θ ) ⎤
2
⎣⎡ I (θ = -E ⎢ ∂θ 2 ⎜ ⎟⎥⎟
) ⎤⎦ ⎜ ⎥ ⎟ = E ⎢⎜ ∂θ
⎜ ⎢⎣⎝
⎝ ⎣⎦ ⎠ ⎠ ⎥⎦ ⎟
⎝ ⎠
PREUVE :
Normalité asymptotique
(i) (
T β - β0 ) → N (0, - I −1
( β0 ))
où,
⎛ 1 ∂2 ln L ⎞
'
I (β0 ) = p lim⎜ ⎟
⎝ T ∂β∂β
47
β0 ⎠
48
Limite inférieure de Cramer-Rao
1 ∂2 ln L ⎛ 1 ∂2 ln L ⎞⎟ = E2⎢⎡∂ln L ⎤ ⎥ = p lim⎛ 1⎜ ∂2 ln L ⎞ ⎛ 1 ∂2 ln L ⎞
(ii) lim- = -E ⎜ ∂β∂β ' ∂β∂β '
∂β∂β' β ⎟ = Tlim ∂β∂β' β ⎟
T ∂β∂β' β
T →∞ →∞
T T ⎜
⎝ ⎠ ⎣ ⎦ ⎝ T
0⎠ ⎝ ⎠
-1
Asy.var ⎡β ⎤ = -H où
⎣⎦
H=
∂ ⎡( ⎢yi - Fi ) fi ⎤ x x⎥' i i
∑∂( β ' x ) (1- F ) F β
i i ⎣ ii ⎦
Asy.var ⎡β ⎤ = -E [H ] où
-1
⎣⎦
2 ⎡∂ln L ⎤
E [H =] E ⎢
⎣ ∂β∂β ⎦
' ⎥
Dans tout modèle où H ne dépend pas de yi , E [H ] = H puisque l'espérance a été prise en compte
sur la distribution de y . Ainsi, dans des modèles tels que le logit, les premier et deuxième estimateurs sont
les suivants
Response Models : A Survey", Journal of Economic Literature, 19(4), pp. 481-536, a montré que
'
= ∑λ0iλ1i xi xi = ∑
-ϕ2i '
E [H ] xi xi
Pr obit ii ( 1- Φi )Φi
49
Berndt, Hall, Hall et Hausman ont repris l'estimateur suivant d'Anderson T. W. (1959)
-1
Asy.var ⎡β ⎤ = H où
⎣⎦
⎞'
⎛( y-F) f ⎛( y-F) f⎞
i ii '
H = ∑⎜ x x i i i ⎟
⎟ ii ⎜
i ⎝ (1- Fi ) Fi ⎠ ⎝ (1- Fi ) Fi ⎠
-1
Remarquez qu'il n'y a pas de signe négatif H car les deux signes négatifs se multiplient.
avant le
Notez que les trois estimateurs énumérés ici sont les trois variantes de base de la méthode
les probabilités ( )
F β x
'
prédites,
Par souci de
simplicité, le
( ) = F . Rappelons la méthode delta :
F β x
'
50
T (θT -θ0 ) ⎯d⎯→ N ⎣⎡0, σ 2 ⎤⎦ alors,
51
⎤2
⎡ g (θ ) - g (θ )⎤ ⎯
d → N ⎡0, ⎡g' θ
( ) σ2 ⎤
T⎣ ⎦ ⎦
T 0
⎢⎣ ⎣ 0
⎥⎦
(( )
T F β - F (β0 ) )⎯ ⎯→
d N⎡ ⎢0,⎡⎣ ⎢ F' (β0 ) ⎥ ⎦
⎤2
( )
var β ⎤ ⎥
⎣ ⎦
⎛ ∂F ⎞'
⎛ ∂F ⎞
Asy.var ⎡F =
⎤ V
⎣ ⎦ ⎜ ∂β ⎜⎟ ⎟⎜⎜ ⎟∂β⎟
⎟ ⎝ ⎠ ⎝ ⎠
où V = Asy.var β( ).
Depui
s,
'
∂F
=
∂F ∂( ( ) β = f x
∂β ∂( β xx))'
∂β
' 2
Asy. var ⎡F ⎤
⎣⎦ = ( f x) V ( f x) = ( f ) x Vx '
52
5.1.4 Estimation l'estimation asymptotique de
covariance de covariance pour
les effets ( )
f βx β
marginaux,
∂E [ y] ∂F
= ∂F ∂( β ' x)== f β
∂x ∂x ∂( β ' x) ∂x
Pour simplifier la
notation, notons
f (β x)β = f β = γ . En utilisant à nouveau la méthode delta comme
'
motivation, a
( )
un estimateur raisonnable de la variance asymptotique de γ β serait,
⎛ ∂γ ⎞⎛ ∂γ ⎞ '
Asy.var ⎡γ ⎤ = ⎣⎜⎟⎦⎜
V ⎜ = ⎟⎜ ⎜⎟� ⎜ ⎟
⎝ ∂β ⎠ ⎝ ∂β⎠
⎟
( ).
où V = Asy.var β
Nous pouvons être plus explicites dans la définition de notre estimateur en notant que,
∂γ ∂ f β = f ∂β + ∂f
∂( β x)
'
∂f '
= β=fI+ βx
∂β ∂β ∂β
∂( β x)
'
∂( β '
∂β x)
I ∂(β x)
'
⎟
x)
⎟ ⎜
⎝ ⎠ ⎝ ⎠
54
Cette équation ne nous apprend toujours pas grand-chose. Il peut être intéressant d'examiner à
Asy.var ⎡ f β ⎤ = V = Asy.var ⎡β ⎤
⎣ ⎦ LPM ⎣⎦
(ii) Probit
'.
⎡fβ⎤
Asy. var ⎣⎦Pr obit
=ϕ
2
( ( x) ) ( ( x) )
I - β'
'
β x V I - β'
'
β x
(iii) Logit
⎤2 '
Asy. var ⎡ f β ⎤ =
⎣ ⎦Logit ⎣
⎡Λ( 1- Λ)
⎦
( ( Λ) ) ( ( Λ) )
I + 1- 2
'
β x V I + 1- 2
'
β x
Supposons que nous voulions tester l'ensemble des H0 : Rβ = q . Si l'on considère p comme
restrictions suivantes, le
nombre de restrictions dans R , c'est-à-dire, rank ( R ) = p , alors MLE nous fournit trois statistiques de test.
55
(i) Test de Wald
56
⎤-1 '
(
W = Rβ - q ) ⎡ R Est.Asy.var β R ' ( ) (
Rβ - q → χ2 ) ( p)
(7.20)
⎣ ⎦
Exemple :
'
W = β V−1 β
LL L
R
( )
LR = -2 ⎡ln L β - ln L β ⎤ → χ2
( p)
( ) (7.21)
⎣ ⎦
où ( )
ln LR β et ( )
ln β sont la fonction de log-vraisemblance évaluée avec et sans l'élément
Exemple :
Pour H0 : tous les coefficients de pente sauf celui du terme constant sont 0, soit
tester
ln LR β ( )= ∑{yi
i
ln Fi + (1- yi )ln (1- Fi )} = n∑{( i
yi }
/ n)ln Fi + ([1- yi ]/ n)ln (1- Fi )
L = ln L - λ (β - βR )
∂ ln L
L'OFC est =λ
∂β
Exemple :
Dans le modèle logit, supposons que nous H0 : toutes les pentes sont LM = nR2 ,
voulions tester égales à 0. Alors
De nombreuses mesures d'adéquation ont été proposées pour les modèles de réponse qualitative.
La façon la plus simple de décrire le degré d'adéquation du modèle aux données est d'indiquer
la valeur de ln L à β . Étant donné que l'hypothèse selon laquelle toutes les autres pentes du
58
modèle sont nulles est également intéressante, ln L calculé avec seulement un terme constant (ln
59
Comparais ln L0 à ln L nous donne une idée de l'amélioration de la vraisemblance lorsque l'on ajoute le
on
l'indice de ratio,
ln L0
LRI = 1-
ln L
Cette mesure présente un attrait intuitif dans la mesure où elle est limitée par zéro et 1. Si tous les
coefficients de pente sont nuls, elle est égale à zéro. Il n'existe aucun moyen de faire en sorte que
- Ben - Akiva et Lerman (1985) et Kay et Little (1986) ont suggéré une adéquation entre les deux.
( )
R2 = 1 ∑⎡ y Fi + (1- y ) 1- Fi ⎤
BL
n i ⎣ i i
⎦
réside dans le fait que, dans les échantillons déséquilibrés, le résultat le moins fréquent sera
généralement très mal prédit par la procédure standard, et cette mesure ne tient pas compte de ce
60
point.
61
- Cramer (1999)
Cramer (1999) a proposé une mesure alternative qui mesure directement cet échec,
( (
λ = moyenne F yi = 1)- moyenne F yi = 0 )
( ( )
= moyenne 1- F yi (
= 0)- moyenne 1- F ( ) yi =1)
-Parmi les autres mesures d'ajustement proposées, on peut citer
∑( y - p )
n
i i
2
i=1
δ -1 ⎞ δ=
n
2
Veal et Zimmermann (1992) : RVZ = ⎛⎜ LRI ,
⎝ δ - LRI ⎠ 2log L0
⎟
∑(β - β x)
n ' ' 2
xi
Un résumé utile de la capacité prédictive du modèle est un tableau 2 x 2 des succès et des pertes.
62
yi =0 yi =1
La valeur habituelle F* = 0,5 . Notez toutefois que 0,5 peut sembler raisonnable, mais qu'i l est arbitraire
de
littérature récente, en particulier dans le domaine de l'analyse des données de panel, a produit un
haute qualité sur le comportement microéconomique a maintenu l'intérêt pour l'extension des
modèles disponibles aux modèles binaires (et autres choix discrets). Dans cette section, nous
Le modèle structurel pour un panel de données éventuellement déséquilibré s'écrirait comme suit
*
=xβ
yl'article '
+ ε i = 1,
l'entrepriseil , N ; t = 1, ,T
63
La deuxième ligne de cette définition est souvent écrite
( β+ε>0 )
= 1 x' l'entreprise
yl'article
il
64
pour indiquer qu'une variable est égale à un lorsque la condition entre parenthèses est vraie et à zéro
lorsqu'elle l'est.
pas. Idéalement, nous voudrions spécifier que εit sont librement corrélées au sein d'un groupe, mais
sans corrélation entre les groupes. Mais cela implique de calculer les probabilités conjointes à
partir d'une distribution variée Ti, ce qui est généralement problématique. (Nous reviendrons sur
cette question ultérieurement). Une approche plus prometteuse est un modèle d'effet,
y* = x' β + v + u , i = 1, , N ; t = 1, ,T
l'article l'entreprise i i
où, ui est l'hétérogénéité individuelle non observée. Une fois de plus, nous distinguons
entre les modèles à effets "aléatoires" et les modèles à effets "fixes" en fonction ui et xit . Les
de la relation entre les effets "aléatoires" et les effets "fixes".
dépendant de , produit le modèle à effets aléatoires. Il convient de noter que cela impose une restriction
xit
sur le modèle à effets aléatoires.
la distribution de l'hétérogénéité.
Si cette distribution n'est pas limitée, de ui et peuvent être corrélées, alors nous avons ce qui
xit
sorte que suit
est appelé modèle à effets fixes. La distinction n'est pas liée à une caractéristique intrinsèque des modèles à
effets fixes.
l'effet lui-même.
Comme nous le verrons bientôt, il s'agit d'un cadre de modélisation qui présente de
nombreuses difficultés et des problèmes d'estimation non conventionnels. Parmi ceux-ci, citons
65
les suivants : l'estimation du modèle à effets aléatoires nécessite des hypothèses très fortes sur
l'hétérogénéité.
sans restriction, de ui et peuvent être corrélés, le modèle à effets fixes se heurte alors à un problème
xit
sorte que d'incertitude.
le problème des paramètres accessoires qui rend l'estimateur du maximum de vraisemblance incohérent.
66
6.1 L'ESTIMATEUR GROUPÉ
Pour commencer, il est utile d'examiner l'estimateur groupé qui résulte de la non-prise en compte de
l'effet de levier.
17.2.2 s'applique. Dans ce cas, l'adage selon lequel "ignorer l'hétérogénéité ne la fait pas
disparaître" s'applique avec encore plus de force que dans le cas de la régression linéaire. Si le
modèle à effets fixes est approprié, tous les résultats précédents concernant les variables omises,
y compris le résultat de Yatchew et Griliches (1984), s'appliquent. L'ELM regroupée qui ne tient
pas compte des effets fixes sera incohérente, voire très incohérente. (Il convient de noter que,
puisque l'estimateur est de type ML et non des moindres carrés, la conversion des données en
écarts par rapport aux moyennes du groupe n'est pas une solution - la conversion de la variable
dépendante binaire en écarts produira une variable continue dont les propriétés sont inconnues).
Le cas des effets aléatoires est plus bénin. D'après (17-39), la probabilité marginale impliquée
L'implication est que, sur la base des distributions marginales, nous pouvons estimer δ de
manière cohérente (mais pas β ou σu séparément) par la méthode de l'EML groupée. [Ce résultat
Il s'agirait d'une "pseudo-MLE" puisque la fonction de log-vraisemblance n'est pas la véritable log-
vraisemblance pour
yit
l'ensemble des données observées, mais il s'agit du produit correct des distributions xit .
marginales de
(Il s'agirait de la contrepartie de l'estimation cohérente de β dans le cas d'un choix binaire, dans le cas d'un
choix linéaire).
67
modèle à effets aléatoires par moindres carrés ordinaires regroupés). L'implication, qui n'existe
pas dans le cas linéaire, est que le fait d'ignorer les effets aléatoires dans un modèle groupé
produit une estimation atténuée (incohérente et biaisée vers le bas) de β ; le facteur d'échelle qui
produit δ est
68
1/ 2
1/ (1+ σu 2 ) qui est compris entre zéro et un. L'implication pour les effets partiels est moins claire.
Wooldridge (2002a) montre que le résultat final, en supposant la normalité de vit et de ui, est le suivant
E ⎡PE (x ,u )⎤ = δϕ x' δ .
( )
u⎣ it i⎦ it
Jusqu'à présent, il semblerait que la simple mise en commun des données et l'utilisation de la
MLE simple "fonctionnent". Les erreurs types estimées seront incorrectes, de sorte qu'une
correction telle que l'estimateur en grappes présenté à la section 14.8.4 serait appropriée. Trois
considérations suggèrent que l'on pourrait vouloir procéder à la MLE complète malgré ces
résultats : (1) l'estimateur groupé sera inefficace par rapport à la MLE complète ; (2) l'estimateur
σuqui pourrait être intéressant en soi ; (3) l'estimateur FIML est disponible dans les versions contemporaines
de l'estimation de l'indice de masse corporelle (IMC).
et n'est pas plus difficile à estimer que l'estimateur groupé. Il convient de noter que l'estimateur
groupé n'est pas justifié (par rapport à l'approche FIML) par des considérations de robustesse, car
les mêmes hypothèses de normalité et d'effets aléatoires qui sont nécessaires pour obtenir
l'estimateur FIML seront nécessaires pour obtenir les résultats précédents pour l'estimateur
groupé.
69
Une spécification ayant la même structure que celle du modèle à effets aléatoires a été
mise en œuvre par Butler et Moffitt (1982). Nous esquisserons la dérivation pour suggérer
comment les effets aléatoires peuvent être traités dans des modèles à variables dépendantes
70
Des détails sur l'estimation et l'inférence peuvent être trouvés dans Butler et Moffitt (1982) et
Greene (1995a). Nous examinerons ensuite quelques extensions du modèle de Butler et Moffitt.
εit = vit + ui
autrement.
E ⎡u X ⎤ = 0 ; Var ⎡u X ⎤ = σ 2 ; Cov ⎡u ,u X ⎤ = Var ⎡u X ⎤ = σ 2 , si i = j ; 0 sinon.
⎣i ⎦ ⎣i ⎦ u ⎣i j ⎦ ⎣i ⎦ u
et
et X indique toutes les données exogènes de xit pour tout i et tout t . Dans ce cas,
l'échantillon,
E ⎡⎣εit X ⎤⎦ = 0 ;
Var ⎡ε X ⎤ = σ 2 +σ 2 = 1+σ
2 et
⎣ it ⎦ v u u
l'observation
est P ( y x ) = f (ε )dε , ( L , U ) = (-∞, - x' β y = 0 et (-x ' β , +
i i
Ui
) si ∞) , si
∫L
i i i i i i i
i
et
yi = 1. Cela se simplifie à Φ ⎣⎡( 2y -1) x' β ⎤⎦ pour la distribution normale
i i i i
71
Λ ⎣⎡( 2y -1) x' β ⎤⎦ pour
72
le modèle logit. Dans le cas général complet avec une matrice de covariance non restreinte, la
observations Ti ; UiTi U i1
)
, yiTi X i = ∫LT
ii
∫ Li 1
(
f ε ,i1ε , i 2 ,ε iTi )dε
i1 i2 dε iTi
L=P
i
( y, i1
dε
L'intégration de la densité conjointe, telle qu'elle se présente, n'est pas pratique dans la plupart
des cas. La nature particulière du modèle à effets aléatoires permet toutefois une simplification.
les vit ' s en intégrant ui dans la densité conjointe de εi1 ,εi2 , ( ,εiT i , ui ) qui est
(
f εi1 , ,εiT i , ui ) = f (ε i1 , εiT i ui × f (ui ) )
Ain
si,
+∞
f ε i1,εi 2 ,
( ,ε iTi = ∫-∞ f ε ,i1ε , i 2
) ( ,ε iTi ui f (ui )dui
)
L'avantage de cette forme est que, conditionnellement à ui, les εit ' s sont indépendants, de sorte que
+∞ Ti
f ( , ,
εi1 εi 2 ,εiTi ) = ∏ f ( )f (
∫�∞
t =1
εit ui )
ui dui
UiTi Ui 1 +∞ Ti
Li =P ( ,
yi1 , yiT iXi )= ∫ LT
ii
∫ ∫ ∏ f ε(
Li 1 -∞
t =1
il ui f) u (dui )dε idεi1 i2 dεiT i
Cela ne semble pas être une grande simplification, mais en fait, c'en est une. Comme les plages
Li =P ,
yi1 , yiT iXi ⎢ ∫LTi i il i1 i2
-∞ Li 1
⎣ t =1
)dui ⎦
i
Conditionné au commun ui , le ε ' s sont indépendants, de sorte que le terme entre crochets est
73
simplement
74
⎡ ⎤
( ) =∫ f (ε u )dε f (u )du
+∞ Uit
Li =P yi1 , , yiT Xi
iT
i -∞
⎢∏(∫
⎣ t =1 Lit
it iit )⎦ ⎥ i i
Considérons maintenant les différentes densités du produit. Sous réserve ui , il s'agit de l'actuelle-
de
les probabilités familières pour les observations individuelles, xil' β + ui . On obtient ainsi un
calculées maintenant à
modèle général d'effets aléatoires pour le modèle de choix binaire. En rassemblant tous les
+∞⎡ iT ⎤
L=
i P ( yi1 , , yiTi Xi ) = ⎢∏Pr ob
∫�∞
⎣ t =1
(
Yit = yit
'
xit )
β + ui ⎥ f (ui )dui
⎦
Il reste à spécifier les distributions, mais le résultat important jusqu'à présent est que l'ensemble
être n'importe lequel des modèles que nous avons considérés jusqu'à présent, tels que probit,
logit, Gumbel, etc. La partie complexe qui reste à faire est de déterminer comment effectuer
en supposant ui est normalement distribuée est détaillée dans leur article. Un certain nombre d'auteurs ont
que
ont estimé que la formulation de Butler et Moffitt constituait un compromis satisfaisant entre un
comportement criminel est une application qui inclut à la fois des effets de groupe et des effets
corrélation égale entre les périodes. Mais elle a une vertu convaincante, à savoir que le modèle
peut être estimé efficacement, même avec des Ti assez importants, à l'aide de méthodes
75
informatiques conventionnelles. [Voir Greene, 2007b]
la normalité. En général, les autres distributions posent des problèmes en raison de la difficulté à
trouver une forme fermée pour l'intégrale ou une méthode satisfaisante d'approximation de
l'intégrale. Une
76
La méthode du maximum de vraisemblance simulée est une autre approche qui offre une certaine souplesse.
(MSL). La probabilité transformée que nous avons dérivée est une attente :
⎡ iT
+∞ ⎤
Liyit= ∫�∞t =1⎢∏Pr ob ( Yit = xit' β + ui ⎥ f (ui )dui
)
T⎣ ⎤⎦
=
Eui
⎢∏Pr ob ( Yit = yit xit β + ui ⎥
'
)
⎣ t =1 ⎦
Cette espérance peut être approchée par simulation plutôt que par quadrature. Tout d'abord, laissons θ
maintenant
par exemple, ou toute autre échelle pour la distribution logistique ou uniforme. Ensuite, écrivez
La fonction est lisse, continue et continuellement différentiable. Si cette espérance est finie, alors
les conditions de la loi des grands nombres devraient s'appliquer, ce qui signifierait que pour un
Cela suggère, sur la base des résultats de Greene (2012), une méthode alternative de
population peut être généré à l'aide d'un générateur de nombres aléatoires. Pour les modèles de Butler et
ui
Moffitt
77
N
⎧⎪ 1 ⎡ Ti ⎡ ' ⎤⎤⎫⎪
ln LSimulé = ∑ln ⎨ ⎢∏F ⎣(2 yik -1) xit β +σuuir )⎦⎥⎬
(
R
i=1 ⎪⎩ ⎣ t =1 ⎦⎪⎭
78
Cette fonction est maximisée par rapport à β et à σu . Notons que dans ce qui précède, comme dans le
Grâce à la log-vraisemblance approximée par quadrature, le modèle peut être basé sur un probit,
un logit ou toute autre forme fonctionnelle souhaitée. Nous avons examiné deux approches de
l'estimation d'un modèle probit avec effets aléatoires. L'estimation GMM est une autre
possibilité. Avery, Hansen et Hotz (1983), Bertschek et Lechner (1998) et Inkmann (2000)
examinent cette approche ; ces deux derniers proposent une comparaison avec les estimateurs par
y* = α d + x' β + ε ; i = 1, , N ; t = 1, ,T
iti it it it
où dit est une variable muette qui prend la valeur un pour l'individu i et zéro sinon. Pour les
nous avons redéfini la notion de xit comme étant les variables non constantes du modèle. Les paramètres
à estimer sont les K éléments de β et les N termes constants individuels. Avant d'examiner les
différentes vertus et lacunes de ce modèle, nous nous pencherons sur les aspects pratiques de
l'estimation de la valeur de β.
limité ici, et pourrait atteindre des milliers dans une application typique. La fonction de log-
où P (.) est la probabilité du résultat observé, par exemple, Φ ⎣⎡ q (α + x' β ) ⎤⎦ pour les
79
il i it
80
étendu à n'importe quel modèle de fonction d'indice, mais pour l'instant, nous nous limiterons
aux distributions symétriques telles que la normale et la logistique, de sorte que la probabilité
nous avons constaté que l'estimation des paramètres était rendue possible par une transformation
des données en écarts par rapport aux moyennes du groupe, ce qui éliminait les constantes
spécifiques à la personne de l'estimateur. Sauf dans l e c a s particulier discuté plus loin, cela ne
sera pas possible ici, de sorte que si l'on souhaite estimer l e s paramètres de ce modèle, il sera
Cela a été largement considéré comme un obstacle pratique à l'estimation de ce modèle en raison
s'agit d'une idée fausse. [La méthode d'estimation des modèles non linéaires à effets fixes, tels
que les modèles probit et logit, est décrite en détail dans Greene (2012). Les problèmes liés à
l'estimateur des effets fixes sont d'ordre statistique et non pratique. Les
s'appuie sur croissant pour que les termes constants soient cohérents - par essence,
Ti αi est
chaque
estimée avec Tiobservations. Mais, dans ce contexte, non Ti fixé, il est susceptible d'être assez
seulement
petit. Ainsi, les estimateurs des termes constants ne sont pas cohérents (non pas parce qu'ils
convergent vers quelque chose d'autre que ce qu'ils essaient d'estimer, mais parce qu'ils ne
81
convergent pas à
tous). L'estimateur de β est une fonction des estimateurs de α , ce qui signifie que la MLE de β est
n'est pas cohérente non plus. Il s'agit du problème des paramètres accessoires. [Voir Neyman et Scott
(1948)
et Lancaster (2000)]. Il existe également un petit échantillon Ti ) dans les estimateurs. Comment
(petit
La gravité de ce biais reste une question dans la littérature. Deux idées reçues sont
82
les résultats de Hsiao (1986) pour un modèle logit binaire [avec des résultats supplémentaires dans
Abrevaya (1997)] et
Les résultats de Heckman et MaCurdy (1980) pour le modèle probit. Hsiao a constaté Ti = 2 , le
que pour
dans la MLE de β est de 100 % , ce qui est extrêmement pessimiste. Heckman et MaCurdy
Une étude de Monte Carlo a montré que dans les N =100 et T = 8, le biais semble se situer au niveau des
échantillons de
de l'ordre de 10 %, ce qui est important, mais certainement moins grave que ce que suggèrent les
résultats de Hsiao. Aucun autre résultat théorique n'a été obtenu pour d'autres modèles, bien que
dans de très rares cas, on puisse montrer qu'il n'y a pas de problème de paramètres accessoires.
(Le modèle de Poisson mentionné dans Greene (2012) est l'un de ces cas particuliers).
L'approche des effets fixes présente un certain intérêt dans la mesure où elle ne nécessite pas
penche actuellement sur la gravité du compromis entre cette vertu et le problème des paramètres
accessoires. Certains commentaires sur cette question figurent dans Arellano (2001). Les
Pourquoi le problème des paramètres incidents se pose-t-il ici et non dans le modèle de
régression linéaire ? Rappelons que l'estimation dans le modèle de régression était basée sur les
écarts par rapport aux moyennes des groupes, et non sur les données originales comme c'est le
cas ici. Le résultat que nous avons exploité est que, bien que
estimation de β . Dans ce cadre, yi est une statistique suffisante minimale pour αi . Statistiques suffisantes
83
sont disponibles pour quelques distributions que nous allons examiner, mais pas pour le modèle
probit. Elles sont disponibles pour le modèle logit, que nous examinons maintenant.
84
eαi + x'ilβ
Pr ob ( yit = 1 xit ) '
=
1+ eα + xit β
i
1- yit )
L = ∏∏( F l'article
)yit (1- F )it(
i t
est libre des paramètres accessoires, αi . La vraisemblance conjointe pour Observations sur le Ti
chaque ensemble de
85
1. yi1 = 0 et yi 2 = 0 . Pr ob (0, 0 somme = 0) = 1.
86
2. yi1 = 1 et yi2 = 1. Pr ob (1,1 somme = 2) = 1.
Le ième terme de Lc pour l'un ou l'autre de ces éléments n'est qu'un seul, de sorte qu'ils ne contribuent en
rien à l'évaluation conditionnelle.
fonction de vraisemblance. Lorsque nous prenons les logs, ces termes (et ces observations) disparaissent.
Mais
Par conséquent, pour cette paire d'observations, la probabilité conditionnelle est la suivante
eαi + x'i β
1βα + x '
2
βα + x' x' β
1+ e i i1 1+ e i i 2eα + x β e i2
eα + x β ' ' = ex β ex β
' '
1 i
i2 i i1 1 i1 + i2
+
1+ eα + xi1β 1+ eα + xiβ2 1+ eα i+i1 x β 1+ eα + xiβ2
' ' ' '
i i i
En conditionnant la somme des deux observations, nous avons supprimé l'hétérogénéité. Par
produit de ces termes pour les paires d'observations pour lesquelles les deux observations sont
La maximisation de la fonction résultante est simple et peut être réalisée par des méthodes
conventionnelles. Comme dans le modèle de régression linéaire, il est intéressant de vérifier s'il
existe effectivement une hétérogénéité. Avec l'homogénéité (αi = α ), il n'y a pas de problème
87
inhabituel et le modèle peut être
estimée, comme d'habitude, comme un modèle logit. Il n'est pas possible de tester l'hypothèse à l'aide de la
méthode de la vraisemblance.
Cependant, le test du ratio de la variance n'est pas possible car les deux vraisemblances ne sont
pas comparables (la vraisemblance conditionnelle est basée sur un ensemble de données
restreint). (La vraisemblance conditionnelle est basée sur un ensemble de données restreint.)
Aucun des tests habituels de restriction ne peut être utilisé car les effets individuels ne sont
spécification naturel.
88
Cependant, il n'est pas nécessaire d'en utiliser un ici. Sous l'hypothèse nulle d'homogénéité,
sont cohérentes, mais celle de Chamberlain est inefficace. (Il n'utilise pas l'information selon laquelle αi = α
, et il
peut ne pas utiliser toutes les données). Sous l'hypothèse alternative, l'estimateur inconditionnel
cohérent et efficace. Le test de Hausman peut être basé sur la statistique du khi-deux
"
(
χ2 = β CML - β
ML
) ⎣⎡Var (CML) -Var (CL ⎦ (β
)⎤-1
CML - β ML )
Les matrices de covariance estimées sont celles calculées pour les deux estimateurs du maximum
colonne correspondant au terme constant sont supprimées. Une valeur élevée met en doute
supposée être une matrice nulle, et la statistique du khi-deux est donc nulle.
Jusqu'à présent, les spécifications des effets fixes (FE) et des effets aléatoires (RE)
présentent toutes deux des problèmes pour la modélisation du choix binaire avec des données de
panel. La MLE du modèle à effets fixes est incohérente même si le modèle est correctement
spécifié - c'est le problème des paramètres accessoires. (Et, comme le m o d è l e linéaire, les
89
modèles probit et logit FE ne permettent pas l'utilisation de régresseurs invariants dans le temps).
La spécification des effets aléatoires exige une hypothèse forte, souvent déraisonnable, selon
laquelle les effets et les régresseurs ne sont pas corrélés. Des deux, le modèle FE est le plus
90
Dans le cas d'ensembles de données longitudinales modernes comportant de nombreuses données
démographiques, le problème des variables invariantes dans le temps semble impérieux. Cela
complication. En l'absence d'estimations des termes constants, ni les probabilités ni les effets
partiels ne peuvent être calculés avec les résultats. Il ne nous reste plus qu'à faire des inférences
sur les ratios des coefficients. Deux approches ont été proposées pour trouver un juste milieu :
L'approche de Mundlak (1978) qui consiste à projeter les effets sur les moyennes de groupe des
variables variant dans le temps et les développements récents tels que l'approche de Fernandez-
Val (2009) qui consiste à corriger le biais dans la MLE FE. L'approche de Mundlak (1978) [et
Chamberlain (1984) et Wooldridge, par exemple (2002a)] complète (17-44) comme suit :
91