Binomial Discrete Choices November 2014 (1) FR

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.
Visitez www.DeepL.com/pro pour en savoir plus.
BINOMIAL DISCRÈTE
MODÈLES DE CHOIX
Instructeur : Eugène Kouassi - WVU (USA) et Université de Cocody (CI)
Références :
Amemiya, T (1981) 'Qualitative Response Models : A Survey", Journal of Economic
Literature, 19(4), pp. 481-536.
Amemiya, T (1984) 'Tobit Models : A Survey', Journal of Econometrics, 24, pp. 3-63.
Amemiya, T (1985) Advanced Econometrics, Harvard U. Press, Cambridge.
Cameron, A.C et Trivedi, P.K (2007) Micro-Econometrics : Methods and Applications.
Cambridge U. Press, Cambridge.
Cameron, A.C et Trivedi, P.K (2009) : Microeconometrics, STATA Press, 2009.

Dhrymes, P (1984) Econometric Analysis of Qualitative Response Models, in Z. Griliches and
M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-Holland.
Greene, W.H (2012) Econometric Analysis. Prentice Hall, NJ
Maddala, G.S (1983) Limited Dependent and Qualitative Variables in Econometrics (Variables qualitatives
et dépendantes limitées en économétrie). Cambridge
U. Press, Cambridge.
McFadden, D.L (1984) Econometric Analysis of Qualitative Response Models, in Z. Griliches
and M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-
Holland.
Wooldridge, J (2002) Econometric Analysis of Cross Section and Panel Data. MIT Press, MIT.
1
LES MODÈLES DE CHOIX
DISCRETS
1. INTRODUCTION
Voici l'approche générale de cette conférence,
Modèle
économique Règle de de
Règle
(par exemple, décision
décision
les services (par
publics exemple,
(par exemple,
maximisation) FOC)
FOC)
Section 1 : Motivation : fonction d'indice et modèles d'utilité aléatoire
Sous- Modèle
jacents économétrique
régression (par exemple, en
(par exemple, fonction des données
résoudre l'OFC observées, des
pour un données dépendantes
variable) discrètes ou limitées).
modèle variable)
Section 2 : Configuration
Estimation
Section 4 : Section 3 : Effets

Estimation marginaux
Interprétation
2
Section 4 : Section 3 : Effets

Estimation marginaux
Nous supposons que nous disposons d'un modèle économique et que nous avons dérivé des
implications du modèle, par exemple des OF, que nous pouvons tester. La conversion de ces
conditions en une régression sous-jacente n'implique généralement guère plus qu'un
réarrangement des termes afin d'isoler une variable dépendante. Souvent, cette variable
dépendante n'est pas directement observée, d'une manière que nous expliquerons plus tard. Dans
ce cas, nous ne pouvons pas nous contenter d'estimer la régression sous-jacente. Au lieu de cela,
nous devons formuler un modèle économétrique qui nous permet d'estimer les paramètres
d'intérêt dans la règle de décision / régression sous-jacente en utilisant le peu d'informations dont
nous disposons sur la variable dépendante. Dans la section 2, nous présenterons deux modèles
qui nous aideront à combler le fossé entre les régressions sous-jacentes inestimables et le modèle
économétrique estimable. Dans la section 3, nous développerons davantage le modèle
économétrique présenté dans la section 2 afin qu'il soit prêt pour l'estimation. Dans la section 4,
nous passons à l'interprétation de nos résultats. En particulier, nous expliquerons pourquoi,
contrairement aux modèles de régression linéaire,
le β estimé ne nous donne pas les effets marginaux d'un changement dans les variables indépendantes
sur la variable dépendante. Nous abordons ce sujet parce qu'il nous fournira certaines
informations dont nous aurons besoin pour estimer le modèle. Enfin, la section 5 décrit comment
estimer le modèle.
2. MOTIVATION
2.1 Quelques exemples
3
1. Nombre de brevets y = 0,1, 2,
:
Il s'agit de données de comptage.
4
Dans la plupart des cas que nous étudierons, les valeurs prises par les variables dépendantes ne
sont qu'un codage de certains résultats qualitatifs. Voici d'autres exemples :
2. Participation à la population active :
Nous attribuons la valeur 0 à "Non" et la valeur 1 à "Oui". Ces décisions sont des choix
qualitatifs. Le codage 0/1 est une simple commodité.
3. Avis sur un certain type de législation :
La valeur 0 représente "fortement opposé", la valeur 1 "opposé", la valeur 2 "neutre", la
valeur 3 "soutien" et la valeur 4 "fortement soutien". Ces chiffres sont des classements et les
valeurs choisies ne sont pas quantitatives, mais simplement une indication de l'importance de la
question.
commander. La différence entre les résultats représentés par 1 et 0 n'est pas nécessairement la
même que celle entre 2 et 1.
4. Le domaine professionnel :
Il s'agit du domaine choisi par un individu. Soit 0 pour un employé, 1 pour un ingénieur,
2 pour un avocat, 3 pour un politicien, etc. Ces données ne sont que des catégories, qui ne
donnent ni un classement ni un décompte.
5. Le choix du consommateur :
Il s'agit ici de choisir entre plusieurs zones commerciales. Ce cas présente les mêmes
caractéristiques que le numéro 4, mais le modèle approprié est légèrement différent. Ces deux
derniers exemples se distinguent par la mesure dans laquelle le choix est basé sur des
5
caractéristiques de l'individu.
par opposition aux attributs des choix, ce qui est probablement la considération la plus importante dans
l'évaluation de l'impact des choix sur l'environnement.
le choix du lieu d'achat.
6
Aucune de ces situations ne se prête facilement à notre type familier d'analyse de
régression. Néanmoins, dans chaque cas, nous pouvons construire des modèles qui lient la
décision ou le résultat à un ensemble de facteurs, au moins dans l'esprit de la régression. Notre
approche consistera à analyser chacune de ces situations dans le cadre général des modèles de
probabilité.
Les modèles à variables dépendantes discrètes sont souvent présentés sous la forme de modèles à
fonction d'indice
ou modèles d'utilité aléatoire. Ces deux modèles considèrent que le résultat d'un choix discret est le reflet
de l'état de l'environnement.
une régression sous-jacente. La volonté d'éclairer les modèles économétriques par des modèles
économiques suggère que la régression sous-jacente soit un calcul d'analyse coût-bénéfice
marginal. La différence entre les deux modèles est que la structure du calcul coût-bénéfice dans
les modèles de fonction d'indice est plus simple que dans les modèles d'utilité aléatoire.
2.2 Modèles de fonction d'index
Étant donné que les calculs des avantages marginaux ne sont pas observables, nous modélisons la
différence entre les avantages marginaux et les avantages marginaux.
et le coût comme une variable non observée y* telle que,
y* = β ' x + (7.1)
ε
où ε f (0, 1) , avec f symétrique. Bien que nous y* , nous observons y , qui est
n'observions pas
liée à y* dans le sens où,
7
y = 0 si y* ≤ 0
et y=1 y* > 0 (7.2)

si
8
Dans cette β ' x est appelée fonction d'indexation. Il convient de noter deux choses :
formulation Premièrement, notre hypothèse selon laquelle
Var (ε ) = 1 pourrait être remplacé par Var (ε ) = σ2 en multipliant nos coefficients par σ2 . Notre
les données observées resteront y = 0 ou 1, en fonction uniquement du y* , mais pas son échelle.
inchangées ; signe de
Deuxièmement, fixer le seuil pour y étant donné y* à 0 est également innocent si le modèle contient un
terme constant. En général, à moins de raisons impérieuses, les modèles de probabilité binomiale
ne devraient pas être estimés sans termes constants.
La probabilité que y = 1 est observé est,
Pr{y = 1} = Pr{y* > 0} = Pr{β ' x + ε > 0} = Pr{ε > -β ' (7.3)
x}
Alors, sous l'hypothèse que la distribution f de ε est symétrique, on peut écrire
Pr{y = 1} = Pr{ε < β ' x} = F ( β ' x) (7.4)
où F est la fonction de distribution cumulative de ε . Cela fournit le modèle structurel sous-

jacent pour l'estimation par maximum de vraisemblance (MLE) ou NLLS.
2.3 Modèles d'utilité aléatoire
Supposons que le calcul du coût marginal soit légèrement plus complexe. Soit y0 et
y1 sont le bénéfice net ou l'utilité dérivée de l'action 0 et de l'action 1, respectivement. Nous pouvons
modéliser
ce calcul d'utilité en tant que variables non obser vées

9
y0 et y1 tel
que,
y = β' x + ε (7.5)
0 0 0
10
et y = γ 'x + ε (7.6)
1 1 1
Supposons maintenant que f (0, où f est symétrique. Là encore, bien que nous n ' observions pas
(ε1 - ε0 ) 1)
y0 et y1 , on observe bien y où,
y = 0 si y0 > y1 (7.7)
et y=1 y0 ≤ y1 (7.8)
si
En d'autres termes, si l'utilité de l'action 0 est supérieure à celle de l'action 1, c'est- y0 > y1 , alors
à-dire,
y = 0 ; y = 1lorsque l'inverse est vrai. Ici, la probabilité d'observer l'action 1 est,
Pr{y = 1} = Pr{y ≤ y } = Pr{β' x + ε ≤ γ' x + ε } = Pr{ε - ε ≥ β' x - γ' x } (7.9)

0 1 0 0 1 1 1 0 0 1
= Pr{ε - ε < γ' x - β' x } = F (γ' x - β' x )

1 0 1 0 1 0
3. FORMULATION
Les modèles de fonction d'indice et d'utilité aléatoire permettent de faire le lien entre une fonction
d'indice sous-jacente et une fonction d'utilité aléatoire.
régression et un modèle économétrique. Nous allons maintenant entamer le processus d'élimination des
modèle économétrique. Tout d'abord, nous examinerons différentes spécifications pour la
distribution de ε et ensuite, dans la section 4, nous examinerons comment les effets marginaux
sont dérivés de notre modèle de probabilité. Ce modèle
ouvrira la voie à notre discussion sur la manière d'estimer le modèle.
3.1 Pourquoi Pr{y = 1} est-il si important ?

11
Dans les modèles de fonction d'indice et d'utilité aléatoire, la probabilité y=1a
d'observer
la structure,
12
Pr{y = 1} = F ( β ' x) \N - Pr{y = 1} = F (β ' x)
Pourquoi s'intéresser à la probabilité que y = 1 ? Parce que la valeur attendue de y étant donnée
x est justement cette probabilité.
E ⎡⎣ y x ⎤⎦ = 0×(1- F ) +1× F = F (β ' (7.10)
x)
3.2 Spécifications communes F ( β ' x)

pour les
Comment spécifier F ( β ' x) ? Il y a quatre spécifications de base qui dominent la
la littérature.
(i) Modèle de probabilité linéaire (MPL)
F ( β ' x) = β ' x
(ii) Modèle Probit
' ' β x' β x' 1 2
F ( β x) = Φ ( β x) = ∫�∞ ϕ (t ) dt = ∫-∞ exp (-t / 2 dt

2π
)
(iii)Modèle logit
eβ x'
F ( β x) = Λ( β x) 1+ eβ '
' '
= x
(iv) Valeur extrême Type I

13
β 'x
F (β' x) = W (β' x) = 1- e e
−
14
3.3 Décider de la spécification à utiliser
Chaque spécification a ses avantages et ses inconvénients.
Le modèle de probabilité linéaire est populaire parce qu'il est extrêmement simple à estimer.
Cette simplicité a toutefois un coût. Par exemple,
y = E ⎣⎡ y x⎦⎤ + ( y - E ⎡⎣ y x ⎤⎦) = F (β ' (7.11)
x) + ε
Étant donné que F est linéaire, cela se résume au modèle de régression classique. Il convient de noter que le
modèle de régression de
terme d'erreur ε = 1- avec une F = β ' x et ε = -β ' x avec la probabilité 1- F = 1- β ' x .

β 'x probabilité de
E ⎡⎣ε x ⎤ ⎦ = (1- β ' x ) β ' x - β ' x (1- β ' x) = 0
Var ⎡⎣ε x) (1- β' x) = (1- (β' x) x) ) ( β ' x) + (β' x) (1- β' x)
2 2 2 2
x ⎤ ⎦ = (1-β x) β' x + (-β' - 2(β'
'
= β' x (1- β' x)
Notre premier problème est donc que ε est hétéroscédastique d'une manière qui dépend de β .
Bien sûr, en l'absence d'autres problèmes, nous pourrions gérer cela avec un estimateur FGLS.
Un second problème plus sérieux, cependant, est que puisque β ' x n'est pas confiné à
l'intervalle [ 0, 1], le LPM ne laisse pas de traces.
15
ouvre la possibilité de prédire des probabilités qui se situent en dehors de l'intervalle [ 0, 1], ce qui
est le cas dans les pays en voie de développement.
absurde et de variance négative.
β ' x > 1⇒ E [ y] = F = β ' x > 1, Var (ε ) = β ' x (1- β ' x) < 0
16
β ' x < 0 ⇒ E [ y] = F = β ' x < 0, Var (ε ) = β ' x (1- β ' x) < 0
Il s'agit d'un problème plus difficile à résoudre. Nous F=1 F ( β ' x) = β ' x > 1 et F = 0
pourrions définir si
si F ( β ' x) = β ' x < 0 , mais cette procédure crée des coudes irréalistes aux points de troncature pour les
( y, x β x = 0 ou 1) .
'
(ii) Probit vs. Logit
Le modèle probit, qui utilise la distribution normale, peut être justifié par l'attrait qu'il suscite.
à un théorème de limite centrale, tandis que le modèle logit peut être justifié par le fait qu'il est similaire à
un théorème de limite centrale.
La distribution logit est la même que la distribution normale, mais sa forme est beaucoup plus
simple. La différence entre la distribution logit et la distribution normale est que les queues de la
distribution logit sont légèrement plus lourdes. La distribution normale standard a une moyenne
nulle et une variance de 1, tandis que le logit a une moyenne nulle et une variance égale à π2 /3 .
(iii)Valeur extrême Type I
La distribution de type I des valeurs extrêmes est la moins fréquente des quatre
modèles. Il est important de noter qu'il s'agit d'une fonction de densité de probabilité
asymétrique.
4. EFFETS MARGINAUX
17
Contrairement aux modèles linéaires tels que les modèles de régression classique ou néo-classique,
l'effet marginal d'un changement de x E [ y]n'est pas simplement β . Pour voir E [ y] par
sur pourquoi, différencier
x,
18
∂E [ y] ∂F ( β 'x) ∂( β ' x)f ' x (7.12)
= = ( β )β
∂x ∂( β ' x) ∂x
Ces effets marginaux sont différents dans chacun des quatre modèles de probabilité de base.
Il f (β' x) = 1, de f ( β ' x ) β = β , ce qui est la même chose que dans le modèle

convient sorte que classique.
de noter
que
les modèles de type régression, comme prévu.
(ii) Probit
1 ( x)
- β'
2
Aujourd'hui, ; de f ( β ' x ) β = ϕβ
f( β' x) = ϕ ( β' /2
e sorte
2π
x) = que
(iii)Logit
∂Λ ( β ' ∂ ⎡ eβ x' ⎤
β'
x)
En
l'occurrenc f( x) = = ⎢ ⎥ = Λ( β ' x) ⎡1- Λ( β ' x)⎤
e,
∂( β ' x) ∂( β ' x) ⎣⎢1+ e β'x ⎣ ⎦

⎥⎦
Donner l'effet marginal
f ( β ' x ) β = Λ[1- Λ]β
(iv) Valeur extrême Type I ou complémentaire log - log
(-u )
W (β' x) = 1- exp (- exp (β' x)) = 1- exp
19
avec u = exp (β ' x)
C'est pourquoi,
20
W' = u' exp (-u ) .
f ( β ' x ) β = exp ( β ' x)⎡exp (- exp ( β ' x))⎤ β

⎣ ⎦
REMARQUE :
Ce qui précède a mis l'accent sur le calcul des effets partiels pour l'individu moyen de
l'échantillon. Dans la pratique actuelle, de nombreuses applications reposent plutôt sur des
"effets partiels moyens" [voir, par exemple, Wooldridge, 2002]. La logique sous-jacente est que
la quantité d'intérêt est,
APE = E ⎡∂E ⎡⎣ y x⎤⎦ ⎤⎦ ⎤

x ⎢⎢ ⎥⎥
⎣ ∂x ⎦
En pratique, cela signifie que le calcul de
1n
APE = γ = ∑
n i=1 ( )
'
f β xi β
4.1 Conversion des effets marginaux Probit en effets
marginaux Logit
Pour convertir une estimation de coefficient probit en estimation de coefficient logit, à
partir de l a discussion ci-dessus comparant les variances des variables aléatoires probit et logit,
on obtient
3
π
Il est logique de multiplier l'estimation du coefficient ≅ 1.8 (puisque la variance du π2 /3
probit par
logit est
21
alors que la variance de la normale est de 1). Mais Amemiya propose un facteur de conversion
différent. En procédant par essais et erreurs, il a découvert que 1,6 donne de meilleurs résultats
au centre de la distribution, ce qui est le cas pour la variance.
22
délimite la valeur moyenne des régresseurs. Au centre de la distribution, F = 0.5 et
β ' x = 0 . Par ϕ (0) = 0,3989 et Λ ( 0 ) ⎡ ⎣ 1 - Λ ( 0 )⎤⎦ = 0,25 . Nous voulons donc résoudre la
conséquent,
équation,
0,3989βPr obit = 0,25βLogit
Cela donne,
βLogit = 1.6βPr obit
5. ESTIMATION ET TESTS D'HYPOTHÈSES

Il existe deux méthodes d'estimation de base, l'estimation MLE et l'estimation
NLLS. La première étant beaucoup plus répandue, c'est à elle que nous consacrerons la majeure
partie de notre temps.
5.1 MLE
Étant donné que nous supposons que les ε sont identiques, par la définition de l'indépendance, nous
pouvons écrire
la probabilité conjointe d'observer {y }i comme,

i=1, ,n
Pr{y 1, y 2, , y n} = ∏⎣⎡1- F (β ' xi ) ⎤ ⎦ ∏ ⎡⎣ F (βi ' x (7.13)

) ⎤⎦
yi =0 yi =1
En utilisant la simplification F (β ' x ) = f ( β ' x ) = f f' (β x ) = f' . Nous pouvons écrire la

'
notationnelle F, ,
23
i i i i i i
de la fonction de vraisemblance,
1- yi
L = ∏[1- F i] [F i]
yi
(7.14)
i
24
Puisque nous recherchons une valeur de β qui maximise la probabilité d'observer ce que nous avons
observé, nous devons nous assurer que cette valeur n'est pas trop élevée.
ont, les transformations monotones croissantes n'affecteront pas notre résultat de maximisation.
Nous pouvons donc prendre les logarithmes de la fonction de vraisemblance ; et comme la
maximisation d'une somme est plus facile que la maximisation d'une valeur de
maximiser un produit, nous prenons le logarithme de la

fonction de vraisemblance,
(7.14)
ln L = ∑{(1- yi )ln [1- Fi ] + yi ln Fi }
i
Estimons maintenant β par :
β = arg max ln L
β
Dans le cadre de la MLE, nous allons maintenant examiner les six procédures d'estimation et de test
suivantes :
- Estimation de β ;
- Estimation de la variance asymptotique de β ;
- Estimation de la variance asymptotique des probabilités prédites ;
- Estimation de la variance asymptotique des effets marginaux ;
- les tests d'hypothèses ; et
- Mesurer la qualité de l'ajustement.
25
5.1.1 Estimation de β
26
Pour résoudre maxln L, nous devons examiner les conditions du premier et du second ordre.
β
Conditions du premier ordre (FOC) :
Une condition nécessaire à la maximisation est que la dérivée première soit égale à zéro,
∂ ln
L
∂ ln
L
∂( β ' ∂ ln L
= x) = x=0 (7.16)
∂β ∂( β ' x) ∂β ∂( β ' x)
Ain
si,
∂ ln L ∂ {(1- y )ln [1- F ]+ y ln F }⎤ = ⎧(1- y ) (- fi ) + ⎫⎬
⎡ yi fi
∂( β ' x)= ∂( β '

⎣⎢∑ x) i ⎦⎥ ∑⎨ 1-
i FF
ii
i
ii ⎩ ii ⎭
= ∑⎨⎪⎧( yi -1) fi Fi + yi fi (1- Fi ) ⎫ ⎪ ⎪
F (1- F ) ⎬
i ⎪⎩ i i ⎪⎭
Nos objectifs
prioritaires sont
donc les
)( i i f x = 0
⎧⎪⎫.
⎪( yi -1) fi Fi + yi fi (1- Fi ) ⎪ ⎫ = 0 ⇔ y -F (7.17)
suivants, ∑⎨
F (1- F ⎬xi ∑(1- F ) F i i
)
i i
i ⎪⎩ i i i
⎪⎭
Nous examinons à présent les OFC spécifiques dans trois modèles principaux :
Depuis Fi = β i et fi = 1, ∀i , l'OFC devient

x'
)
( y-F
∑ 27
( y - β' x)
i i fi xi i i
=∑ xi =0
i (1- F )i F i i (1- β' x ) β
i i
x'
Il s'agit simplement d'un ensemble d'équations linéaires en x et y que nous pouvons résoudre explicitement
pour β de deux manières.
28
Cas 1 : Moindres carrés
La première solution donne un résultat qui rappelle les prédicteurs familiers des moindres carrés.
GLS
En résolvant pour le β au numérateur, nous obtenons quelque chose qui ressemble à l'équation généralisée
suivante
estimateur des moindres carrés, où xi est pondérée par la variance de εi ,

chaque
( y - β' x )
i i β x'2 yx
∑ x =0 ⇔ ∑ i
=∑ ii
i
(1- β' x ) β
i i i i (1- β' x ) β x ' i i i (1- β' x ) β x '
i i
x'
yi xi
∑ ∑Var (ε ) yi xi
⇒β= i (1- x ) β
β' i x'
i
= i
i
x2 x2
∑ i
∑ i
i (1- β' x ) β x i i '

i Var (εi )
MCO
Si nous supposons l'homoscédasticité, c'est-à-dire = Var ε = Var ε = σ 2 , ∀i

i i ( i) ( )
(1- β x )β x
' '
L'équation ci-dessus se réduit alors à l'estimateur standard des MCO de β ,
1 ∑ yx
∑y
x
Var (ε ) ii ii
β= =i
i
i
i
1 i x2
x2
∑ ∑
Var (ε ) i
29
Cas 2 : GMM
Si nous y - β' x = ε , alors les conditions de l'OFC ressemblent à la condition du GMM

réécrivons
i i i
30
pour résoudre le modèle linéaire LS à hétéroscédasticité,
( y - β' x εx εx
∑ ) i i
=0
ii ii
(1- β' x ) β =∑ (1- β' x ) β

=0⇒
i i i
xi
i i i Var (εi )
x'
∑
x' i
De nouveau, si nous supposons l'homoscédasticité, nous obtenons la condition de moment pour la

résolution du problème classique
modèle de régression,
∑ε xi = ∑ε xii i= 0
1
Var (ε i i
Notez que chacun de ces estimateurs est identique. Certains peuvent être plus efficaces que
d'autres en présence d'hétéroscédasticité, mais, en général, il s'agit simplement de différentes
façons de motiver l'estimateur LS.
(ii) Probit
L'approche utilisée ici est basée sur les résultats de la distribution normale tronquée dans
laquelle la fonction de vraisemblance est,
ln L = ∑ln ⎣ ⎡ 1 - Φ ( β 'ix ) ⎤ ⎦ + ∑ln Φ ( βi ' x )

yi =0 yi =1
Les conditions du premier ordre pour maximiser ln L sont les suivantes,
∂ ln L x = ∑ -ϕ ( β ' x x + ∑ ϕ (β x )x
'
i 0
=
i
) i
i
i i
i
31
∂( β ' x
i y =0 1- Φ ( β i ' x ) y =1 Φ(β ' x )
i
)
= ∑ λ0i xi +∑λ1i xi = 0
yi =0 yi =1
Nous pouvons alors réécrire l'avis de conformité comme suit
32
∑λi xi =0
i
où λi = λ0i si yi = 0 et λi = λ1i si yi = 1.
Notez que, contrairement au LPM, ces FOCs sont un ensemble d'équations non linéaires en β .
Il n'est pas facile de les résoudre explicitement pour β . Il f a u t donc estimer β à l'aide de
méthodes numériques.
(iii) Logit
Ici, Fi = Λi et fi = Λi (1- Λi ), de sorte que l'OFC devient,
( yi - Fi ) f x = ∑( yi - Λi ) Λi (1- Λi =0 ⇔ ∑( y - Λ ) x = 0 ,
∑ )x
ii i i i i
i (1- Fi ) Fi i (1- Λi ) Λi i
Il est intéressant de noter que nous yi - Λi = εi de sorte que l'OFC peut s'écrire
pouvons écrire
∑( yi - Λi ) xi = ∑εi xi = 0 , ce qui est similaire aux conditions de moment pour le LPM. Comme dans le cas du
i i
Cependant, les FOCs pour le modèle logit sont non linéaires en β et doivent donc être résolus à
l'aide de méthodes numériques.
Conditions du second ordre (SOC) :
Ensemble, les FOC et les SOC, qui exigent que la dérivée seconde ou le hessien soient
définis négativement, sont des conditions nécessaires et suffisantes pour la maximisation. Pour
vérifier le second ordre
condition,
laissez
33
∂f ( β '
x)
∂( β ' x)
= f' (β'
x)
34
C'est ce que nous devons vérifier,
2 ∂ln L
L
∂ ⎡ ∂ ln ⎤ ∂( β ' 2 ∂ln L
(.) y
∂ ⎡( - β 'x ) ⎤
x) i
= ⎢ x⎥ = xx' = ∑ ⎢ i
f x ⎥x' < 0
∂β∂β ∂( β x) ⎣ ⎢ ∂ (β x) ⎥⎦
' '
∂( β x) ∂( β
' ' i ∂(β x) ⎢⎣ (1- Fi )
' ii
⎥⎦
i
'
∂ x)
Fi
β
Nous examinons maintenant les SOC spécifiques dans trois modèles principaux :
Nous pouvons maintenant prouver que la LPM satisfait le SOC ∀β ∈ B . En effet,
y
∂ ⎡( - β' x) ⎡ -x (1- β' x ) β ' x - (1- 2β' x - β' x ) x ⎤
⎤
f x ⎥x' = ∑⎢
)( yi
∑i ∂( β x)⎢ ⎢ (1- F ) F i i i
' i i i
⎡
i
' '
⎤2 i i
⎥⎥x
ii ' i
⎥ ⎢
⎣ i i ⎦
i
⎣⎢ ⎣(1- β xi )β xi ⎦ ⎥⎦
⎡
-x ( y - β x ) x (1- 2β' x )⎤ ⎡ -x (1- β' x ) β ' x - ( - β' x ) x (1- 2β' x )⎤
'
y
i ⎥xi' = ∑⎢
= ∑⎢ i
- i i i
2 2
i i i i
2
i
2
i i
⎥xi'
i ⎢( 1- β'
x ) β (1- β '
x ) ( β '
x ) ⎥ ⎢ (1- β '
x ) ( β '
x ) ⎥
x' i
⎣ i i i i ⎦ ⎣ i i ⎦
En développant, on obtient
x ) )x ⎤2
⎡(- y + 2β' y x - ( β ' ⎡ ' 2
⎤
ii i ii -( yi - β xi ) ⎥� x' < 0
∑⎢ ⎢ 2 2 ⎥⎥ ix' = ∑⎢ ⎢ ' 2 ' 2 ii
x' = ∑⎢ ' ' ⎥
i
⎢⎣ (1- β ) (β )
xi xi
⎥⎦
i ⎣(1- β ) (β ) ⎦
xi xi
En utilisant le fait yi ∈{0,1} ⇒i y2 =i y

que
35
(ii) Probit
La preuve découle ici des résultats obtenus dans le modèle de Roy. Tout d'abord, notons que
ϕ' ( β ' x) = -β ' xϕ ( β ' x)
36
En prenant la dérivée de la première dérivée, nous devons montrer,
∂ ∂
∑ [λ x ] x' = ∑ [λ ] x x' < 0
ii i ii i
i ∂( β ' x i i ∂( β ' xi
) )
Nous pouvons simplifier cette expression en utilisant les résultats de la normale tronquée,
⎞2
∂λ ∂ ⎡ -ϕ ⎤ ⎛ -β x' ϕ (1- Φ ) + ϕ2 ⎞ ⎛ -ϕ ⎞⎛ -ϕ
0i
= ⎢i
⎥=
ii ii
= -β ' x ⎜ i⎟
-⎜
i
⎟
= -λ (β' x + λ ) < 0
∂( β ' x ∂(β' x ) ⎣1� Φ -⎜
i
⎦ ⎝ i i ( 1-Φ i )2
⎟
⎠
i 1-
⎝ i ⎠⎝ 1- Φi
0i i 0i
Φ ⎠
)
De même,
∂λ ∂ ⎡ ϕ ⎤ �⎛ -βx' ϕ Φ -ϕ 2 ⎞
1i = i = iii i = -β ' xiλ1i - λ1i = 2-λ1i (β xi + λ1i' ) < 0
⎢ ⎥ ⎜ ⎟
∂( β x ) 'i
β
∂( ) Φi ⎦ ⎝ Φ2i
'i ⎣
x ⎠
Nous pouvons donc écrire le SOC comme suit,
-∑λ (iβ ' x +i λ ) x iixi' < 0

i
où
-ϕi
λi = λ0i = si yi = 0 , et
1- Φi
ϕi
λi = λ1i = si yi =1
Φi
(iii)Logit
37
En prenant la dérivée du FOC pour le logit, nous obtenons le SOC,
38
∑∂ ⎡⎣( yi - Λi ) xi ⎦⎤
x' = -∑Λ (1- Λ ) x x' < 0 ,
i i ii i
i ∂( β ' x ) i i
ce qui est clairement ∀β ∈ B . Notons que, puisque le hessien ne comprend pas yi, la méthode de Newton-
le cas
l'optimisation numérique par la méthode Raphson, qui utilise H dans son algorithme itératif, et la méthode
de notation, qui utilise E [H ] sont identiques dans le cas du logit. Pourquoi ? E [ y]est pris
Parce que
par rapport à la distribution de y . Nous avons montré que les modèles LPM, probit et logit sont
globalement concaves. La méthode d'optimisation de Newton-Raphson convergera donc en
quelques itérations pour ces trois modèles, à moins que les données ne soient très mal
conditionnées.
RAPPEL 1 : DÉFINITIONS : CONDITIONS DE RÉGULARITÉ
R1. Les trois premières dérivées de ln f ( yi θ ) par rapport à θ sont continues et finies pour
presque yi et pour tout θ . Cette condition assure l'existence d'une certaine série de Taylor
tous
et la variance finie des dérivées de ln L ;
R2 : Les conditions nécessaires pour obtenir les espérances des dérivées première et seconde de
ln f ( yi θ ) sont respectées ;
R3 : Pour toutes les 3 ∂ln f ( y θ ) / ∂θ ∂θ est inférieure à une fonction dont la durée de vie est
valeurs de θ , finie.
∂θ ∂θ
39
i j k l
l'espérance. Cette condition nous permettra de tronquer la série de Taylor.
RAPPEL 2 : MOMENTS DES DÉRIVÉES DE LA LOG-VRAISEMBLANCE
40
D1 : ln f ( yi θ gi = ∂ ln f ( yi θ ) / ∂θ , et H = ∂2 ln f ( θ ) / ∂θ∂θ ' , i = 1, , n sont tous aléatoires.
), y
i
des échantillons de variables aléatoires. Cette affirmation découle de notre hypothèse de variables
aléatoires.
l'échantillonnage. La gi (θ0 ) et Hi (θ0 ) indique les dérivées évaluées à θ0 ;

notation
D2 E0 ⎡⎣gi (θ0) ⎤⎦ = 0 ;
:
D3 : Var ⎣⎡ g i (θ0 ) ⎤⎦ = -E ⎡⎣ H i (θ0 ) ⎤⎦
PREUVE :
D1 : La condition D1 est une simple conséquence de la définition de la densité ;
D2 : Pour l'instant, nous autorisons la yi dépendent des paramètres ; A(θ0 ) ≤ yi ≤ B (θ0 ) .

gamme des
Par
définition, B(θ0 )
f( y
)dy = 1.
θ
∫A(θ )
i 0 i
0
Différenciez maintenant cette expression par rapport à θ0 . Le théorème de Leibnitz donne

B(θ0 )
∂ f ( y θ )dy ∂B (θ0 )
) - f ( A(θ ) θ ∂A θ
) ∂f ( ) + f (B (θ )
θ ) ( 0 ) =0
∫A(θ ) B(θ0
i 0 i yi θ0
0
= dy
∂θ0 ∫A(θ0 )
∂θ0
i
0 0
∂(θ0 ) 0 0 ∂(θ0 )
Si les deuxième et troisième termes sont nuls, on peut intervertir les opérations de différenciation
et l'intégration. Les condition condition est que

yi →A(θ0 )
lim
41
f( yi θ0 ) lim f( yi
yi →B(θ0 )
= )=
θ0
0.
Les
condi
tions
suffis
antes
sont
que
l'inter
valle
des
valeu
rs
obser
vées
de
variable variable yi , n'est pas dépend pas de paramètres paramètres, ce qui

aléatoire, signifie que
42
∂A(θ0 ) / ∂θ0 = ∂B (θ0 ) / ∂θ0 = ou que la densité soit nulle aux points terminaux. Cette condition,
0
est alors la condition de régularité R2. Cette dernière est généralement supposée, et nous la
supposerons dans ce q u i suit. Ainsi, la condition de régularité R2 est généralement supposée et
nous la supposerons dans ce qui suit,
∂∫ f ( θ0 ) f yθ dy = E ⎡∂ ln f ( yi θ0 ) ⎤ = 0
= ∂f ( yi θ0 dyi =
yi dyi
∂θ ∫ ∂θ ∫ ( ) 0⎢ ⎥
∂ ln f ( θ0
i 0 i
∂θ
∂θ) yi
0 0 ) 0 ⎢⎣ 0 ⎥⎦
Cela prouve que D2.
D3 : Puisque nous pouvons interchanger les opérations d'intégration et de différenciation, nous
différencions à nouveau sous l'intégrale pour obtenir,
∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
2
ln f y(θ i ) f(
∫ ⎡∂
⎢ ∂θ ∂θ'
0
yi θ0 ) +
∂θ0
i 0
∂θ ' i 0 ⎥ dyi = 0
⎢⎣ 0 0 0 ⎥⎦
Mai
s..,
∂f ( yi θ0 ∂ ln f ( yi θ0
∂θ ' =f( θ0
)
yi
),
) ∂θ'
0 0
et l'intégrale d'une somme est la somme des intégrales. Par conséquent,
⎡∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
⎡∂ 2ln f y(θ i' )⎤ f (
-∫⎢ ∂θ ∂θ 0
⎥ yi θ0 ) dyi = ∫⎢ ∂θ i 0
∂θ ' i 0
⎥f ( θ0 )
dyi
yi
⎢⎣ 0 0 ⎥⎦ ⎢⎣ 0 0 ⎥⎦
43
Le côté gauche de l'équation est le négatif de la matrice des dérivées secondes attendues. Le côté
droit est le carré attendu (produit extérieur) du vecteur de la première dérivée. Mais, parce que
44
ce vecteur a une valeur attendue de 0 , le côté droit est la variance du vecteur de la dérivée
première, ce qui prouve D3 :
⎡∂ ln f ( y θ )⎤ ⎡⎛ ⎡∂ ln f ( y θ ) ⎡⎛ ∂ ln f (i y0 θ ) ⎞⎛ ∂ ln f2 ( y θ ) ⎞⎤ ⎤
Var ⎢ i 0 i 0 ⎟⎥ = -E ⎡∂ ln f y (θ i 0 )
⎥ = E ⎢⎜ ⎢ ⎥
∂θ ∂θ
0
0
⎣⎢ ∂θ0
⎥⎦ ⎢⎣⎝ ∂θ0
⎟⎜
⎠⎝ ∂θ 0 ⎠⎥⎦ ⎣⎢ 0 0
'
⎦⎥
'
RAPPEL 3 :
Théorème 1 : Propriétés d'un MLE
Sous réserve de régularité, l'estimateur du maximum de vraisemblance (MLE) possède les
propriétés asymptotiques suivantes :
M1:Cohérence : p lim β = β0
M2 : Normalité β ⎯a⎯→ N ⎡β , {I }-1

⎤,
asymptotique : (β) )
⎣0 0 ⎦
où I (β 0 ) = -E 0 2 ⎣⎡∂ln L (.) / ∂β
0 ∂β
'
0 ⎤⎦
M3 : Efficacité asymptotique : β est asymptotiquement efficace et atteint la valeur inférieure de Cramer-

Rao.
pour les estimateurs cohérents, compte tenu de M 2 et du théorème C2 .
M4 : Invariance : L'estimateur du maximum de vraisemblance de γ0 = C (β0 ) est C (β )si C (β0 ) est un

estimateur du maxi mum de vraisemblancedeγ=C(β).
fonction continue et continuellement différentiable.
45
PREUVE :
46
RAPPEL 4 :
Théorème C2 : Limite inférieure de Cramer-Rao
En supposant que la densité de x satisfasse certaines conditions de régularité, la variance
d'un estimateur sans biais d'un paramètre θ sera toujours au moins aussi grande que,
⎞-1
⎞2
-1 ⎛ ⎡∂ln L (θ ) ⎤ ⎞ -1 ⎛ ⎡⎛ ∂ ln L (θ ) ⎤
2
⎣⎡ I (θ = -E ⎢ ∂θ 2 ⎜ ⎟⎥⎟
) ⎤⎦ ⎜ ⎥ ⎟ = E ⎢⎜ ∂θ
⎜ ⎢⎣⎝
⎝ ⎣⎦ ⎠ ⎠ ⎥⎦ ⎟
⎝ ⎠
La quantité I (θ ) est le numéro d'information de l'échantillon.
PREUVE :
5.1.2 Estimation de la matrice de covariance asymptotique pour β
Tout d'abord, nous avons besoin de deux résultats importants de la MLE,
Normalité asymptotique
(i) (
T β - β0 ) → N (0, - I −1
( β0 ))
où,
⎛ 1 ∂2 ln L ⎞
'
I (β0 ) = p lim⎜ ⎟
⎝ T ∂β∂β
47
β0 ⎠
48
Limite inférieure de Cramer-Rao
1 ∂2 ln L ⎛ 1 ∂2 ln L ⎞⎟ = E2⎢⎡∂ln L ⎤ ⎥ = p lim⎛ 1⎜ ∂2 ln L ⎞ ⎛ 1 ∂2 ln L ⎞
(ii) lim- = -E ⎜ ∂β∂β ' ∂β∂β '
∂β∂β' β ⎟ = Tlim ∂β∂β' β ⎟
T ∂β∂β' β
T →∞ →∞
T T ⎜
⎝ ⎠ ⎣ ⎦ ⎝ T
0⎠ ⎝ ⎠
Nous disposons de trois estimateurs Asy.var ⎡β ⎤ s u r l a base de ces deux faits.

possibles pour ⎣⎦
-1
Asy.var ⎡β ⎤ = -H où
⎣⎦
H=
∂ ⎡( ⎢yi - Fi ) fi ⎤ x x⎥' i i
∑∂( β ' x ) (1- F ) F β
i i ⎣ ii ⎦
Asy.var ⎡β ⎤ = -E [H ] où
-1
⎣⎦
2 ⎡∂ln L ⎤
E [H =] E ⎢
⎣ ∂β∂β ⎦
' ⎥
Dans tout modèle où H ne dépend pas de yi , E [H ] = H puisque l'espérance a été prise en compte
sur la distribution de y . Ainsi, dans des modèles tels que le logit, les premier et deuxième estimateurs sont
les suivants
identiques. Dans le modèle probit, H dépend yi so H ≠ E [H ] . Amemiya T (1982) "Qualitative

de
Response Models : A Survey", Journal of Economic Literature, 19(4), pp. 481-536, a montré que
'
= ∑λ0iλ1i xi xi = ∑
-ϕ2i '
E [H ] xi xi
Pr obit ii ( 1- Φi )Φi
49
Berndt, Hall, Hall et Hausman ont repris l'estimateur suivant d'Anderson T. W. (1959)
que nous appelons l'estimateur TWA,
-1
Asy.var ⎡β ⎤ = H où
⎣⎦
⎞'
⎛( y-F) f ⎛( y-F) f⎞
i ii '
H = ∑⎜ x x i i i ⎟
⎟ ii ⎜
i ⎝ (1- Fi ) Fi ⎠ ⎝ (1- Fi ) Fi ⎠
-1
Remarquez qu'il n'y a pas de signe négatif H car les deux signes négatifs se multiplient.
avant le
Notez que les trois estimateurs énumérés ici sont les trois variantes de base de la méthode
du gradient des techniques d'optimisation numérique itérative.
5.1.3 Estimation l'estimation asymptotique de

covariance de covariance pour
les probabilités ( )
F β x
'
prédites,
Dans ce cas, nous avons besoin de la méthode dite delta.
Par souci de
simplicité, le
( ) = F . Rappelons la méthode delta :
F β x
'
Si g est deux fois continuellement différentiable et
50
T (θT -θ0 ) ⎯d⎯→ N ⎣⎡0, σ 2 ⎤⎦ alors,
51
⎤2
⎡ g (θ ) - g (θ )⎤ ⎯
d → N ⎡0, ⎡g' θ
( ) σ2 ⎤
T⎣ ⎦ ⎦
T 0
⎢⎣ ⎣ 0
⎥⎦
En appliquant cela à F, on obtient
(( )
T F β - F (β0 ) )⎯ ⎯→
d N⎡ ⎢0,⎡⎣ ⎢ F' (β0 ) ⎥ ⎦
⎤2
( )
var β ⎤ ⎥
⎣ ⎦
où β0est la vraie valeur du paramètre. Un estimateur naturel de la matrice de covariance asymptotique

est donc
pour les probabilités prédites est,
⎛ ∂F ⎞'
⎛ ∂F ⎞
Asy.var ⎡F =
⎤ V
⎣ ⎦ ⎜ ∂β ⎜⎟ ⎟⎜⎜ ⎟∂β⎟
⎟ ⎝ ⎠ ⎝ ⎠
où V = Asy.var β( ).
Depui
s,
'
∂F
=
∂F ∂( ( ) β = f x
∂β ∂( β xx))'
∂β
Nous pouvons donc écrire,
' 2
Asy. var ⎡F ⎤
⎣⎦ = ( f x) V ( f x) = ( f ) x Vx '
52
5.1.4 Estimation l'estimation asymptotique de
covariance de covariance pour
les effets ( )
f βx β
marginaux,
Pour récapituler, les effets marginaux sont donnés par,
∂E [ y] ∂F
= ∂F ∂( β ' x)== f β
∂x ∂x ∂( β ' x) ∂x
Pour simplifier la
notation, notons
f (β x)β = f β = γ . En utilisant à nouveau la méthode delta comme
'
motivation, a
( )
un estimateur raisonnable de la variance asymptotique de γ β serait,
⎛ ∂γ ⎞⎛ ∂γ ⎞ '
Asy.var ⎡γ ⎤ = ⎣⎜⎟⎦⎜
V ⎜ = ⎟⎜ ⎜⎟� ⎜ ⎟
⎝ ∂β ⎠ ⎝ ∂β⎠
⎟
( ).
où V = Asy.var β
Nous pouvons être plus explicites dans la définition de notre estimateur en notant que,
∂γ ∂ f β = f ∂β + ∂f
∂( β x)
'
∂f '
= β=fI+ βx
∂β ∂β ∂β
∂( β x)
'
∂( β '
∂β x)
Cela nous donne,

53
⎛ ⎞ ⎛ ⎞⎟'
⎡fβ⎤=⎜fI+∂
'
Asy.var
f ⎟ ⎜ ∂f β x
β' +
x ⎟V ⎜ f ⎟
⎣ ⎦ ⎜
⎜ ∂(β '
I ∂(β x)
'
⎟
x)
⎟ ⎜
⎝ ⎠ ⎝ ⎠
54
Cette équation ne nous apprend toujours pas grand-chose. Il peut être intéressant d'examiner à
quoi ressemble l'estimateur sous différentes spécifications de F .
Rappe F = β ' x f = 1 et f' = 0 , donc

l ,
Asy.var ⎡ f β ⎤ = V = Asy.var ⎡β ⎤
⎣ ⎦ LPM ⎣⎦
(ii) Probit
Ici, F =Φ , f = ϕ et f' = -β ' xϕ ce qui nous donne
'.
⎡fβ⎤
Asy. var ⎣⎦Pr obit
=ϕ
2
( ( x) ) ( ( x) )
I - β'
'
β x V I - β'
'
β x
(iii) Logit
Maintenant, f = Λ( 1- Λ) et f' = Λ(1- Λ)(1- 2Λ) donc,

F =Λ ,
⎤2 '
Asy. var ⎡ f β ⎤ =
⎣ ⎦Logit ⎣
⎡Λ( 1- Λ)
⎦
( ( Λ) ) ( ( Λ) )
I + 1- 2
'
β x V I + 1- 2
'
β x
5.2 TEST D'HYPOTHÈSE
Supposons que nous voulions tester l'ensemble des H0 : Rβ = q . Si l'on considère p comme
restrictions suivantes, le
nombre de restrictions dans R , c'est-à-dire, rank ( R ) = p , alors MLE nous fournit trois statistiques de test.
55
(i) Test de Wald
56
⎤-1 '
(
W = Rβ - q ) ⎡ R Est.Asy.var β R ' ( ) (
Rβ - q → χ2 ) ( p)
(7.20)
⎣ ⎦
Exemple :
Supposo H0 : les L derniers coefficients ou éléments de β sont 0. Définir R = [0, IL ] et

ns que
q = 0 ; et βL sont les derniers L éléments de β . On obtient alors ,

laissez
'
W = β V−1 β
LL L
(ii) Test du rapport de vraisemblance
R
( )
LR = -2 ⎡ln L β - ln L β ⎤ → χ2
( p)
( ) (7.21)
⎣ ⎦
où ( )
ln LR β et ( )
ln β sont la fonction de log-vraisemblance évaluée avec et sans l'élément
des restrictions sur β , respectivement.
Exemple :
Pour H0 : tous les coefficients de pente sauf celui du terme constant sont 0, soit
tester
ln LR β ( )= ∑{yi
i
ln Fi + (1- yi )ln (1- Fi )} = n∑{( i
yi }
/ n)ln Fi + ([1- yi ]/ n)ln (1- Fi )
= n{P ln P + (1- P)ln (1- P)}
où P est la proportion d'observations avec y = 1.
(iii) Score ou test du multiplicateur de Lagrange

57
Écrire le Lagrangien pour le problème MLE étant donné la β = βR :
restriction
L = ln L - λ (β - βR )
∂ ln L
L'OFC est =λ
∂β
La statistique de test est donc,
LM = λR' VλR (7.22)
où λR est juste λ évalué à βR .
Exemple :
Dans le modèle logit, supposons que nous H0 : toutes les pentes sont LM = nR2 ,
voulions tester égales à 0. Alors
où R2 est le coefficient de détermination non centré dans la régression de ( y i - P) sur xi ,
où P est la proportion d'observations y = 1 dans l'échantillon.
5.3 MESURER LA QUALITÉ DE L'AJUSTEMENT
De nombreuses mesures d'adéquation ont été proposées pour les modèles de réponse qualitative.
(i) Fonction de vraisemblance logarithmique, ln L
La façon la plus simple de décrire le degré d'adéquation du modèle aux données est d'indiquer
la valeur de ln L à β . Étant donné que l'hypothèse selon laquelle toutes les autres pentes du
58
modèle sont nulles est également intéressante, ln L calculé avec seulement un terme constant (ln
L0 ), qui devrait également être signalé.
59
Comparais ln L0 à ln L nous donne une idée de l'amélioration de la vraisemblance lorsque l'on ajoute le
on
les variables explicatives.
(ii) Indice du rapport de vraisemblance (LRI)
Un analogue au R2 dans une régression conventionnelle est la vraisemblance de McFadden

(1974).
l'indice de ratio,
ln L0
LRI = 1-
ln L
Cette mesure présente un attrait intuitif dans la mesure où elle est limitée par zéro et 1. Si tous les
coefficients de pente sont nuls, elle est égale à zéro. Il n'existe aucun moyen de faire en sorte que
le LRI soit égal à 1, bien que l'on puisse s'en approcher.
Malheureusement, les valeurs comprises entre zéro et un n'ont pas d'interprétation
naturelle. D'autres mesures ont été proposées :
- Ben - Akiva et Lerman (1985) et Kay et Little (1986) ont suggéré une adéquation entre les deux.
qui est importante pour la règle de prédiction,
( )
R2 = 1 ∑⎡ y Fi + (1- y ) 1- Fi ⎤
BL
n i ⎣ i i
⎦
Il s'agit de la probabilité moyenne d'une règle de prédiction correcte. La difficulté de ce calcul
réside dans le fait que, dans les échantillons déséquilibrés, le résultat le moins fréquent sera
généralement très mal prédit par la procédure standard, et cette mesure ne tient pas compte de ce
60
point.
61
- Cramer (1999)
Cramer (1999) a proposé une mesure alternative qui mesure directement cet échec,
( (
λ = moyenne F yi = 1)- moyenne F yi = 0 )
( ( )
= moyenne 1- F yi (
= 0)- moyenne 1- F ( ) yi =1)
-Parmi les autres mesures d'ajustement proposées, on peut citer
∑( y - p )
n
i i
2
Efron (1978) : = 1- i=1n

R2
Ef
∑( yi -y )
2
i=1
δ -1 ⎞ δ=
n
2
Veal et Zimmermann (1992) : RVZ = ⎛⎜ LRI ,
⎝ δ - LRI ⎠ 2log L0
⎟
∑(β - β x)
n ' ' 2
xi
Zavoina et McKelvey (1975) : R2 MZ =i=1

n
n + ∑(β - β x )
' '
xi
i=1
(iii)Tableau des succès et des échecs
Un résumé utile de la capacité prédictive du modèle est un tableau 2 x 2 des succès et des pertes.
manque d'une règle de

prédiction :
yi = 1 si F β x ( ) > F , et 0 sinon.
'
*
62
yi =0 yi =1
Les coups de # Nombre d'obs. où yî = 0 # Nombre d'obs. où yî = 1

poing
Mademoiselle # Nombre d'obs. où yî = 1 # Nombre d'obs. où yî = 0
La valeur habituelle F* = 0,5 . Notez toutefois que 0,5 peut sembler raisonnable, mais qu'i l est arbitraire
de
(Voir, par exemple, Greene, 2012).
6. MODÈLES DE CHOIX BINAIRES POUR LES

DONNÉES DE PANEL
Les modèles de réponse qualitative sont un secteur en plein essor en économétrie. La
littérature récente, en particulier dans le domaine de l'analyse des données de panel, a produit un
certain nombre de nouvelles techniques. La disponibilité d'ensembles de données de panel de
haute qualité sur le comportement microéconomique a maintenu l'intérêt pour l'extension des
modèles disponibles aux modèles binaires (et autres choix discrets). Dans cette section, nous
passerons en revue quelques résultats de cette littérature en plein essor.
Le modèle structurel pour un panel de données éventuellement déséquilibré s'écrirait comme suit
*
=xβ
yl'article '
+ ε i = 1,
l'entrepriseil , N ; t = 1, ,T
yit = 1 si yil* > 0 et 0 dans le cas contraire.
63
La deuxième ligne de cette définition est souvent écrite
( β+ε>0 )
= 1 x' l'entreprise
yl'article
il
64
pour indiquer qu'une variable est égale à un lorsque la condition entre parenthèses est vraie et à zéro
lorsqu'elle l'est.
pas. Idéalement, nous voudrions spécifier que εit sont librement corrélées au sein d'un groupe, mais
sans corrélation entre les groupes. Mais cela implique de calculer les probabilités conjointes à
partir d'une distribution variée Ti, ce qui est généralement problématique. (Nous reviendrons sur
cette question ultérieurement). Une approche plus prometteuse est un modèle d'effet,
y* = x' β + v + u , i = 1, , N ; t = 1, ,T
l'article l'entreprise i i
yit = 1 si yil* > 0 et 0 dans le cas contraire.
où, ui est l'hétérogénéité individuelle non observée. Une fois de plus, nous distinguons
entre les modèles à effets "aléatoires" et les modèles à effets "fixes" en fonction ui et xit . Les
de la relation entre les effets "aléatoires" et les effets "fixes".
hypothèse selon ui n'est pas lié à , de sorte que la distribution

xit f (ui xit ) n'est pas
laquelle conditionnelle
dépendant de , produit le modèle à effets aléatoires. Il convient de noter que cela impose une restriction
xit
sur le modèle à effets aléatoires.
la distribution de l'hétérogénéité.
Si cette distribution n'est pas limitée, de ui et peuvent être corrélées, alors nous avons ce qui
xit
sorte que suit
est appelé modèle à effets fixes. La distinction n'est pas liée à une caractéristique intrinsèque des modèles à
effets fixes.
l'effet lui-même.
Comme nous le verrons bientôt, il s'agit d'un cadre de modélisation qui présente de
nombreuses difficultés et des problèmes d'estimation non conventionnels. Parmi ceux-ci, citons
65
les suivants : l'estimation du modèle à effets aléatoires nécessite des hypothèses très fortes sur
l'hétérogénéité.
sans restriction, de ui et peuvent être corrélés, le modèle à effets fixes se heurte alors à un problème
xit
sorte que d'incertitude.
le problème des paramètres accessoires qui rend l'estimateur du maximum de vraisemblance incohérent.
66
6.1 L'ESTIMATEUR GROUPÉ
Pour commencer, il est utile d'examiner l'estimateur groupé qui résulte de la non-prise en compte de
l'effet de levier.
l'hétérogénéit ui dans (17-39) et ajuster le modèle comme si la spécification transversale de la section

é,
17.2.2 s'applique. Dans ce cas, l'adage selon lequel "ignorer l'hétérogénéité ne la fait pas
disparaître" s'applique avec encore plus de force que dans le cas de la régression linéaire. Si le
modèle à effets fixes est approprié, tous les résultats précédents concernant les variables omises,
y compris le résultat de Yatchew et Griliches (1984), s'appliquent. L'ELM regroupée qui ne tient
pas compte des effets fixes sera incohérente, voire très incohérente. (Il convient de noter que,
puisque l'estimateur est de type ML et non des moindres carrés, la conversion des données en
écarts par rapport aux moyennes du groupe n'est pas une solution - la conversion de la variable
dépendante binaire en écarts produira une variable continue dont les propriétés sont inconnues).
Le cas des effets aléatoires est plus bénin. D'après (17-39), la probabilité marginale impliquée
par le modèle est de

1/2
Pr ob ( y = 1 x ) = Pr ob v + u > -x' β ( ) = F ⎡x' β / (1+ σ2 )
it u
(
⎤ = F x' δ
it
)
l'article l'entreprise i i it ⎢⎣ ⎥⎦
L'implication est que, sur la base des distributions marginales, nous pouvons estimer δ de
manière cohérente (mais pas β ou σu séparément) par la méthode de l'EML groupée. [Ce résultat
est examiné en détail dans Wooldridge (2002)].
Il s'agirait d'une "pseudo-MLE" puisque la fonction de log-vraisemblance n'est pas la véritable log-
vraisemblance pour
yit
l'ensemble des données observées, mais il s'agit du produit correct des distributions xit .
marginales de
(Il s'agirait de la contrepartie de l'estimation cohérente de β dans le cas d'un choix binaire, dans le cas d'un
choix linéaire).
67
modèle à effets aléatoires par moindres carrés ordinaires regroupés). L'implication, qui n'existe
pas dans le cas linéaire, est que le fait d'ignorer les effets aléatoires dans un modèle groupé
produit une estimation atténuée (incohérente et biaisée vers le bas) de β ; le facteur d'échelle qui
produit δ est
68
1/ 2
1/ (1+ σu 2 ) qui est compris entre zéro et un. L'implication pour les effets partiels est moins claire.
Dans la spécification du modèle, l'effet partiel

est
= β × f x' β + u
( )
PE ( x ,u ) = ∂E ⎡ y x ,u ⎤ / ∂x
il i ⎣ it it i ⎦ l'article it i
qui n'est pas calculable. Le résultat utile serait

E ⎡PE ( x ,u )⎤ = β E ⎡ f ( x ' β + u )⎤
u⎣ iti ⎦ u⎣ iti ⎦
Wooldridge (2002a) montre que le résultat final, en supposant la normalité de vit et de ui, est le suivant
E ⎡PE (x ,u )⎤ = δϕ x' δ .
( )
u⎣ it i⎦ it
Jusqu'à présent, il semblerait que la simple mise en commun des données et l'utilisation de la
MLE simple "fonctionnent". Les erreurs types estimées seront incorrectes, de sorte qu'une
correction telle que l'estimateur en grappes présenté à la section 14.8.4 serait appropriée. Trois
considérations suggèrent que l'on pourrait vouloir procéder à la MLE complète malgré ces
résultats : (1) l'estimateur groupé sera inefficace par rapport à la MLE complète ; (2) l'estimateur
groupé ne produit pas un estimateur de
σuqui pourrait être intéressant en soi ; (3) l'estimateur FIML est disponible dans les versions contemporaines
de l'estimation de l'indice de masse corporelle (IMC).
et n'est pas plus difficile à estimer que l'estimateur groupé. Il convient de noter que l'estimateur
groupé n'est pas justifié (par rapport à l'approche FIML) par des considérations de robustesse, car
les mêmes hypothèses de normalité et d'effets aléatoires qui sont nécessaires pour obtenir
l'estimateur FIML seront nécessaires pour obtenir les résultats précédents pour l'estimateur
groupé.
6.2 LES MODÈLES À EFFETS ALÉATOIRES
69
Une spécification ayant la même structure que celle du modèle à effets aléatoires a été
mise en œuvre par Butler et Moffitt (1982). Nous esquisserons la dérivation pour suggérer
comment les effets aléatoires peuvent être traités dans des modèles à variables dépendantes
discrètes et limitées tels que celui-ci. Complète
70
Des détails sur l'estimation et l'inférence peuvent être trouvés dans Butler et Moffitt (1982) et
Greene (1995a). Nous examinerons ensuite quelques extensions du modèle de Butler et Moffitt.
Le modèle à effets aléatoires spécifie
εit = vit + ui
où vit et ui sont des variables aléatoires indépendantes avec
E ⎡⎣vit X ⎦⎤ = 0 ; Var ⎡⎣vit X ⎦⎤ = 1 ; Cov ⎣⎡vit , vjs X ⎤⎦ = Var ⎡⎣vjt X ⎤⎦ = 1, si i = j et t = s ; 0
autrement.
E ⎡u X ⎤ = 0 ; Var ⎡u X ⎤ = σ 2 ; Cov ⎡u ,u X ⎤ = Var ⎡u X ⎤ = σ 2 , si i = j ; 0 sinon.
⎣i ⎦ ⎣i ⎦ u ⎣i j ⎦ ⎣i ⎦ u
et
Cov ⎣⎡vit ,uj X ⎤⎦ = 0, ∀i,t, j
et X indique toutes les données exogènes de xit pour tout i et tout t . Dans ce cas,
l'échantillon,
E ⎡⎣εit X ⎤⎦ = 0 ;
Var ⎡ε X ⎤ = σ 2 +σ 2 = 1+σ
2 et
⎣ it ⎦ v u u
Corr ⎡ε it ,εis X ⎤ Cov ⎡ ⎣ ε it ,εis X ⎤⎦ == ρ = σ u2

1/2
1+ σu2
⎣ ⎦ 1/2
Var (εil X ) Var (εe X )
st
Le nouveau paramètre libre est

u σ2 = ρ / (1- ρ ) .
Rappelons que dans le cas de la coupe transversale, la probabilité marginale associée à un
l'observation
est P ( y x ) = f (ε )dε , ( L , U ) = (-∞, - x' β y = 0 et (-x ' β , +
i i
Ui
) si ∞) , si
∫L
i i i i i i i
i
et
yi = 1. Cela se simplifie à Φ ⎣⎡( 2y -1) x' β ⎤⎦ pour la distribution normale
i i i i
71
Λ ⎣⎡( 2y -1) x' β ⎤⎦ pour
72
le modèle logit. Dans le cas général complet avec une matrice de covariance non restreinte, la
contribution du groupe i à la vraisemblance serait la probabilité conjointe pour toutes les
observations Ti ; UiTi U i1
)
, yiTi X i = ∫LT
ii
∫ Li 1
(
f ε ,i1ε , i 2 ,ε iTi )dε
i1 i2 dε iTi
L=P
i
( y, i1
dε
L'intégration de la densité conjointe, telle qu'elle se présente, n'est pas pratique dans la plupart
des cas. La nature particulière du modèle à effets aléatoires permet toutefois une simplification.
Nous pouvons obtenir la densité conjointe de
les vit ' s en intégrant ui dans la densité conjointe de εi1 ,εi2 , ( ,εiT i , ui ) qui est
(
f εi1 , ,εiT i , ui ) = f (ε i1 , εiT i ui × f (ui ) )
Ain
si,
+∞
f ε i1,εi 2 ,
( ,ε iTi = ∫-∞ f ε ,i1ε , i 2
) ( ,ε iTi ui f (ui )dui
)
L'avantage de cette forme est que, conditionnellement à ui, les εit ' s sont indépendants, de sorte que
+∞ Ti
f ( , ,
εi1 εi 2 ,εiTi ) = ∏ f ( )f (
∫�∞
t =1
εit ui )
ui dui
En insérant ce résultat dans (XXXX), on obtient
UiTi Ui 1 +∞ Ti
Li =P ( ,
yi1 , yiT iXi )= ∫ LT
ii
∫ ∫ ∏ f ε(
Li 1 -∞
t =1
il ui f) u (dui )dε idεi1 i2 dεiT i
Cela ne semble pas être une grande simplification, mais en fait, c'en est une. Comme les plages
d'intégration sont indépendantes, nous pouvons changer l'ordre d'intégration :

Ti
Ui 1
⎡ UT ⎤
ui dε
) dε dεiT ⎥ f (ui
+∞
( )= ∫ ∫ ∏ f ε(
ii
Li =P ,
yi1 , yiT iXi ⎢ ∫LTi i il i1 i2
-∞ Li 1
⎣ t =1
)dui ⎦
i
Conditionné au commun ui , le ε ' s sont indépendants, de sorte que le terme entre crochets est
73
simplement
le produit des probabilités individuelles. Nous pouvons l'écrire comme suit
74
⎡ ⎤
( ) =∫ f (ε u )dε f (u )du
+∞ Uit
Li =P yi1 , , yiT Xi
iT
i -∞
⎢∏(∫
⎣ t =1 Lit
it iit )⎦ ⎥ i i
Considérons maintenant les différentes densités du produit. Sous réserve ui , il s'agit de l'actuelle-
de
les probabilités familières pour les observations individuelles, xil' β + ui . On obtient ainsi un
calculées maintenant à
modèle général d'effets aléatoires pour le modèle de choix binaire. En rassemblant tous les
termes, nous l'avons réduit à
+∞⎡ iT ⎤
L=
i P ( yi1 , , yiTi Xi ) = ⎢∏Pr ob
∫�∞
⎣ t =1
(
Yit = yit
'
xit )
β + ui ⎥ f (ui )dui
⎦
Il reste à spécifier les distributions, mais le résultat important jusqu'à présent est que l'ensemble
du calcul ne nécessite qu'une intégration unidimensionnelle. Les probabilités internes peuvent
être n'importe lequel des modèles que nous avons considérés jusqu'à présent, tels que probit,
logit, Gumbel, etc. La partie complexe qui reste à faire est de déterminer comment effectuer
l'intégration extérieure. Méthode de Butler et Moffitt
en supposant ui est normalement distribuée est détaillée dans leur article. Un certain nombre d'auteurs ont
que
ont estimé que la formulation de Butler et Moffitt constituait un compromis satisfaisant entre un
modèle entièrement non restreint et la variante transversale qui ignore complètement la
corrélation. L'étude de Tauchen, Witte et Griesinger (1994) sur les arrestations et le
comportement criminel est une application qui inclut à la fois des effets de groupe et des effets
temporels. L'approche de Butler et Moffitt a été critiquée en raison de l a restriction d'une
corrélation égale entre les périodes. Mais elle a une vertu convaincante, à savoir que le modèle
peut être estimé efficacement, même avec des Ti assez importants, à l'aide de méthodes
75
informatiques conventionnelles. [Voir Greene, 2007b]
Un problème subsiste avec la spécification de Butler et Moffitt, à savoir son hypothèse de
la normalité. En général, les autres distributions posent des problèmes en raison de la difficulté à
trouver une forme fermée pour l'intégrale ou une méthode satisfaisante d'approximation de
l'intégrale. Une
76
La méthode du maximum de vraisemblance simulée est une autre approche qui offre une certaine souplesse.
(MSL). La probabilité transformée que nous avons dérivée est une attente :
⎡ iT
+∞ ⎤
Liyit= ∫�∞t =1⎢∏Pr ob ( Yit = xit' β + ui ⎥ f (ui )dui
)
T⎣ ⎤⎦
=
Eui
⎢∏Pr ob ( Yit = yit xit β + ui ⎥
'
)
⎣ t =1 ⎦
Cette espérance peut être approchée par simulation plutôt que par quadrature. Tout d'abord, laissons θ
maintenant
dénote le paramètre d'échelle dans la ui . Ce serait σu pour une distribution normale,

distribution de
par exemple, ou toute autre échelle pour la distribution logistique ou uniforme. Ensuite, écrivez
le terme de la fonction de vraisemblance comme suit

⎤
L = E ⎡ Ti F y ,Ex' β +θu( = ⎡h (u )⎤ )
iui ⎢∏ it iti ⎥
ui ⎣ i⎦
⎣ t =1 ⎦
La fonction est lisse, continue et continuellement différentiable. Si cette espérance est finie, alors
les conditions de la loi des grands nombres devraient s'appliquer, ce qui signifierait que pour un
échantillon d'observations ui1, ,uiR ,

∑R
p lim 1 h (u ) = E ⎡h (u )⎤
iru ⎣ i⎦
R r =1
Cela suggère, sur la base des résultats de Greene (2012), une méthode alternative de
maximisation de la log-vraisemblance pour le modèle à effets aléatoires. Un échantillon de
tirages spécifiques à une personne de la
population peut être généré à l'aide d'un générateur de nombres aléatoires. Pour les modèles de Butler et
ui
Moffitt
avec ui normalement distribué, la fonction de log-vraisemblance simulée est
77
N
⎧⎪ 1 ⎡ Ti ⎡ ' ⎤⎤⎫⎪
ln LSimulé = ∑ln ⎨ ⎢∏F ⎣(2 yik -1) xit β +σuuir )⎦⎥⎬
(
R
i=1 ⎪⎩ ⎣ t =1 ⎦⎪⎭
78
Cette fonction est maximisée par rapport à β et à σu . Notons que dans ce qui précède, comme dans le
Grâce à la log-vraisemblance approximée par quadrature, le modèle peut être basé sur un probit,
un logit ou toute autre forme fonctionnelle souhaitée. Nous avons examiné deux approches de
l'estimation d'un modèle probit avec effets aléatoires. L'estimation GMM est une autre
possibilité. Avery, Hansen et Hotz (1983), Bertschek et Lechner (1998) et Inkmann (2000)
examinent cette approche ; ces deux derniers proposent une comparaison avec les estimateurs par
quadrature et par simulation examinés ici.
6.3 LES MODÈLES À EFFETS FIXES
Le modèle à effets fixes est le suivant
y* = α d + x' β + ε ; i = 1, , N ; t = 1, ,T
iti it it it
yit = 1, si yil* > 0 , et 0 sinon,
où dit est une variable muette qui prend la valeur un pour l'individu i et zéro sinon. Pour les
nous avons redéfini la notion de xit comme étant les variables non constantes du modèle. Les paramètres
à estimer sont les K éléments de β et les N termes constants individuels. Avant d'examiner les
différentes vertus et lacunes de ce modèle, nous nous pencherons sur les aspects pratiques de
l'estimation de la valeur de β.
l'estimation d'un nombre probablement considérable de paramètres, ( N + K ) - N n'est pas
limité ici, et pourrait atteindre des milliers dans une application typique. La fonction de log-
vraisemblance pour le paramètre fixe
Le modèle des effets est

ln L = ∑
N Ti
ln P yit α + x β )
i=1 t =1
∑ ( i
'
it
où P (.) est la probabilité du résultat observé, par exemple, Φ ⎣⎡ q (α + x' β ) ⎤⎦ pour les
79
il i it
modèle probit ou Λ ⎣ ⎡ilq (α + x' β ) ⎤ ⎦

i it = 2y it -Ce qui suit peut être
pour le modèle logit, où ql'article
80
étendu à n'importe quel modèle de fonction d'indice, mais pour l'instant, nous nous limiterons
aux distributions symétriques telles que la normale et la logistique, de sorte que la probabilité
puisse être calculée à l'aide de l'équation suivante

l'article it l'article it i it
Il est commode de Pr ob =yx ) =P (α + x' β ) ⎤ ⎦ . Il sera commode de laisser

l'écrire sous la forme (Y ⎣⎡ q
suivante
z = α + x' β donc Pr =yx ) = P (q z ) .

il i ob(itY l'article it il it it
Dans notre précédente application de ce modèle, dans le cas de la régression linéaire,
nous avons constaté que l'estimation des paramètres était rendue possible par une transformation
des données en écarts par rapport aux moyennes du groupe, ce qui éliminait les constantes
spécifiques à la personne de l'estimateur. Sauf dans l e c a s particulier discuté plus loin, cela ne
sera pas possible ici, de sorte que si l'on souhaite estimer l e s paramètres de ce modèle, il sera
nécessaire de calculer en même temps le nombre éventuellement énorme de termes constants.
Cela a été largement considéré comme un obstacle pratique à l'estimation de ce modèle en raison
de la nécessité d'inverser une matrice de dérivées secondes potentiellement importante, mais il
s'agit d'une idée fausse. [La méthode d'estimation des modèles non linéaires à effets fixes, tels
que les modèles probit et logit, est décrite en détail dans Greene (2012). Les problèmes liés à
l'estimateur des effets fixes sont d'ordre statistique et non pratique. Les
s'appuie sur croissant pour que les termes constants soient cohérents - par essence,
Ti αi est
chaque
estimée avec Tiobservations. Mais, dans ce contexte, non Ti fixé, il est susceptible d'être assez
seulement
petit. Ainsi, les estimateurs des termes constants ne sont pas cohérents (non pas parce qu'ils
convergent vers quelque chose d'autre que ce qu'ils essaient d'estimer, mais parce qu'ils ne
81
convergent pas à
tous). L'estimateur de β est une fonction des estimateurs de α , ce qui signifie que la MLE de β est
n'est pas cohérente non plus. Il s'agit du problème des paramètres accessoires. [Voir Neyman et Scott
(1948)
et Lancaster (2000)]. Il existe également un petit échantillon Ti ) dans les estimateurs. Comment
(petit
La gravité de ce biais reste une question dans la littérature. Deux idées reçues sont
82
les résultats de Hsiao (1986) pour un modèle logit binaire [avec des résultats supplémentaires dans
Abrevaya (1997)] et
Les résultats de Heckman et MaCurdy (1980) pour le modèle probit. Hsiao a constaté Ti = 2 , le
que pour
dans la MLE de β est de 100 % , ce qui est extrêmement pessimiste. Heckman et MaCurdy
Une étude de Monte Carlo a montré que dans les N =100 et T = 8, le biais semble se situer au niveau des
échantillons de
de l'ordre de 10 %, ce qui est important, mais certainement moins grave que ce que suggèrent les
résultats de Hsiao. Aucun autre résultat théorique n'a été obtenu pour d'autres modèles, bien que
dans de très rares cas, on puisse montrer qu'il n'y a pas de problème de paramètres accessoires.
(Le modèle de Poisson mentionné dans Greene (2012) est l'un de ces cas particuliers).
L'approche des effets fixes présente un certain intérêt dans la mesure où elle ne nécessite pas
d'hypothèse d'orthogonalité des variables indépendantes et de l'hétérogénéité. La littérature se
penche actuellement sur la gravité du compromis entre cette vertu et le problème des paramètres
accessoires. Certains commentaires sur cette question figurent dans Arellano (2001). Les
résultats de notre propre enquête figurent dans Greene (2004).
6.4 UN ESTIMATEUR D'EFFETS FIXES CONDITIONNELS
Pourquoi le problème des paramètres incidents se pose-t-il ici et non dans le modèle de
régression linéaire ? Rappelons que l'estimation dans le modèle de régression était basée sur les
écarts par rapport aux moyennes des groupes, et non sur les données originales comme c'est le
cas ici. Le résultat que nous avons exploité est que, bien que
f( yit Xi )est fonction de αi , f ( yit Xi )

, yi n'est pas une , et nous avons utilisé cette dernière
αi
dans
fonction de
estimation de β . Dans ce cadre, yi est une statistique suffisante minimale pour αi . Statistiques suffisantes
83
sont disponibles pour quelques distributions que nous allons examiner, mais pas pour le modèle
probit. Elles sont disponibles pour le modèle logit, que nous examinons maintenant.
Un modèle logit binaire à effets fixes est
84
eαi + x'ilβ
Pr ob ( yit = 1 xit ) '
=
1+ eα + xit β
i
La vraisemblance non conditionnelle pour les observations indépendantes NT est
1- yit )
L = ∏∏( F l'article
)yit (1- F )it(
i t
Chamberlain (1980) [ à la suite de Rasch ( 1960) et Andersen ( 1970)] a observé que la
fonction de vraisemblance conditionnelle,

N T
⎛ ⎞
LC = ∏Pr ob ⎜Yi1 = yi1,Yi 2 = yi 2 , ,YiTi = yiTi ∑ yit ⎟
i=1 ⎝ t =1 ⎠
est libre des paramètres accessoires, αi . La vraisemblance conjointe pour Observations sur le Ti
chaque ensemble de
conditionné par le nombre de uns dans l'ensemble est

N T
⎛ ⎞
LC = ∏Pr ob ,YiTi = yiTi ∑
⎜Yi1 = yi1,Yi 2 = yi 2 , yit , data ⎟
i=1 ⎝ t =1 ⎠
= exp (∑Ti
t
=1
'
y xil ilβ )
∑∑t dit =si
exp (∑Ti
t
=1
'
d xil ilβ )
⎛Ti ⎞
La fonction au dénominateur est additionnée sur l'ensemble de différentes séquences de Ti
tous les ⎜s⎟
⎝ i⎠
Ti
les zéros et les uns qui ont la même somme = t yit .
=1
que si
∑
Prenons l'exemple de Ti = 2 . La vraisemblance inconditionnelle est
L = ∏Pr ob (Yi1 = yi1 )Pr ob (Yi2 = yi2 )

i
Pour chaque paire d'observations, nous avons ces possibilités :
85
1. yi1 = 0 et yi 2 = 0 . Pr ob (0, 0 somme = 0) = 1.
86
2. yi1 = 1 et yi2 = 1. Pr ob (1,1 somme = 2) = 1.
Le ième terme de Lc pour l'un ou l'autre de ces éléments n'est qu'un seul, de sorte qu'ils ne contribuent en
rien à l'évaluation conditionnelle.
fonction de vraisemblance. Lorsque nous prenons les logs, ces termes (et ces observations) disparaissent.
Mais
Supposons yi1 = 0 et yi2 = 1. Dans ce cas

que
Pr ob (0,1 et somme = Pr ob (0,1)

3. Pr ob (0,1 somme = 1) = =
1) Pr ob (somme Pr ob (0,1) + Pr ob (1, 0)
= 1)
Par conséquent, pour cette paire d'observations, la probabilité conditionnelle est la suivante
eαi + x'i β
1βα + x '
2
βα + x' x' β
1+ e i i1 1+ e i i 2eα + x β e i2
eα + x β ' ' = ex β ex β
' '
1 i
i2 i i1 1 i1 + i2
+
1+ eα + xi1β 1+ eα + xiβ2 1+ eα i+i1 x β 1+ eα + xiβ2
' ' ' '
i i i
En conditionnant la somme des deux observations, nous avons supprimé l'hétérogénéité. Par
conséquent, nous pouvons construire la fonction de vraisemblance conditionnelle comme le
produit de ces termes pour les paires d'observations pour lesquelles les deux observations sont
(0,1). Les paires d'observations avec

un et zéro sont inclus de manière analogue. Le produit des termes tels que ceux qui précèdent, pour ceux
qui
les ensembles d'observations pour lesquels la somme Ti , constitue la vraisemblance conditionnelle.

n'est pas nulle ou
La maximisation de la fonction résultante est simple et peut être réalisée par des méthodes
conventionnelles. Comme dans le modèle de régression linéaire, il est intéressant de vérifier s'il
existe effectivement une hétérogénéité. Avec l'homogénéité (αi = α ), il n'y a pas de problème
87
inhabituel et le modèle peut être
estimée, comme d'habitude, comme un modèle logit. Il n'est pas possible de tester l'hypothèse à l'aide de la
méthode de la vraisemblance.
Cependant, le test du ratio de la variance n'est pas possible car les deux vraisemblances ne sont
pas comparables (la vraisemblance conditionnelle est basée sur un ensemble de données
restreint). (La vraisemblance conditionnelle est basée sur un ensemble de données restreint.)
Aucun des tests habituels de restriction ne peut être utilisé car les effets individuels ne sont
jamais réellement estimés. Le test de spécification de Hausman (1978) est un test de
spécification naturel.
88
Cependant, il n'est pas nécessaire d'en utiliser un ici. Sous l'hypothèse nulle d'homogénéité,
l'estimateur conditionnel du maximum de vraisemblance de Chamberlain (CMLE) et l'estimateur
habituel du maximum de vraisemblance
sont cohérentes, mais celle de Chamberlain est inefficace. (Il n'utilise pas l'information selon laquelle αi = α
, et il
peut ne pas utiliser toutes les données). Sous l'hypothèse alternative, l'estimateur inconditionnel
du maximum de vraisemblance est incohérent, alors que l'estimateur de Chamberlain est
cohérent et efficace. Le test de Hausman peut être basé sur la statistique du khi-deux
"
(
χ2 = β CML - β
ML
) ⎣⎡Var (CML) -Var (CL ⎦ (β
)⎤-1
CML - β ML )
Les matrices de covariance estimées sont celles calculées pour les deux estimateurs du maximum
de vraisemblance. Pour l'estimateur inconditionnel du maximum de vraisemblance, la ligne et la
colonne correspondant au terme constant sont supprimées. Une valeur élevée met en doute
l'hypothèse d'homogénéité. (Il est possible que la matrice de covariance de l'estimateur du
maximum de vraisemblance soit plus grande que celle de l'estimateur du maximum de
vraisemblance conditionnel. Si c'est le cas, la matrice de différence entre parenthèses est
supposée être une matrice nulle, et la statistique du khi-deux est donc nulle.
6.5 L'APPROCHE DE MUNDLAK, L'ADDITION DE VARIABLES ET LA RÉDUCTION DES

BIAIS
Jusqu'à présent, les spécifications des effets fixes (FE) et des effets aléatoires (RE)
présentent toutes deux des problèmes pour la modélisation du choix binaire avec des données de
panel. La MLE du modèle à effets fixes est incohérente même si le modèle est correctement
spécifié - c'est le problème des paramètres accessoires. (Et, comme le m o d è l e linéaire, les
89
modèles probit et logit FE ne permettent pas l'utilisation de régresseurs invariants dans le temps).
La spécification des effets aléatoires exige une hypothèse forte, souvent déraisonnable, selon
laquelle les effets et les régresseurs ne sont pas corrélés. Des deux, le modèle FE est le plus
attrayant, bien qu'avec
90
Dans le cas d'ensembles de données longitudinales modernes comportant de nombreuses données
démographiques, le problème des variables invariantes dans le temps semble impérieux. Cela
semble recommander l'estimateur conditionnel de Greene (2012), à l'exception d'une autre
complication. En l'absence d'estimations des termes constants, ni les probabilités ni les effets
partiels ne peuvent être calculés avec les résultats. Il ne nous reste plus qu'à faire des inférences
sur les ratios des coefficients. Deux approches ont été proposées pour trouver un juste milieu :
L'approche de Mundlak (1978) qui consiste à projeter les effets sur les moyennes de groupe des
variables variant dans le temps et les développements récents tels que l'approche de Fernandez-
Val (2009) qui consiste à corriger le biais dans la MLE FE. L'approche de Mundlak (1978) [et
Chamberlain (1984) et Wooldridge, par exemple (2002a)] complète (17-44) comme suit :
91

Binomial Discrete Choices November 2014 (1) FR

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Binomial Discrete Choices November 2014 (1) FR

Transféré par

Droits d'auteur :

Formats disponibles

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

Amemiya, T (1981) 'Qualitative Response Models : A Survey", Journal of Economic

Literature, 19(4), pp. 481-536.

Amemiya, T (1985) Advanced Econometrics, Harvard U. Press, Cambridge.

Cameron, A.C et Trivedi, P.K (2007) Micro-Econometrics : Methods and Applications.

Cambridge U. Press, Cambridge.

Cameron, A.C et Trivedi, P.K (2009) : Microeconometrics, STATA Press, 2009.

M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-Holland.

Greene, W.H (2012) Econometric Analysis. Prentice Hall, NJ

McFadden, D.L (1984) Econometric Analysis of Qualitative Response Models, in Z. Griliches

and M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-

Voici l'approche générale de cette conférence,

Section 1 : Motivation : fonction d'indice et modèles d'utilité aléatoire

Section 4 : Section 3 : Effets

Section 4 : Section 3 : Effets

conditions en une régression sous-jacente n'implique généralement guère plus qu'un

économétrique estimable. Dans la section 3, nous développerons davantage le modèle

nous passons à l'interprétation de nos résultats. En particulier, nous expliquerons pourquoi,

contrairement aux modèles de régression linéaire,

Il s'agit de données de comptage.

sont qu'un codage de certains résultats qualitatifs. Voici d'autres exemples :

2. Participation à la population active :

qualitatifs. Le codage 0/1 est une simple commodité.

3. Avis sur un certain type de législation :

La valeur 0 représente "fortement opposé", la valeur 1 "opposé", la valeur 2 "neutre", la

même que celle entre 2 et 1.

donnent ni un classement ni un décompte.

le choix du lieu d'achat.

décision ou le résultat à un ensemble de facteurs, au moins dans l'esprit de la régression. Notre

économiques suggère que la régression sous-jacente soit un calcul d'analyse coût-bénéfice

2.2 Modèles de fonction d'index

et le coût comme une variable non observée y* telle que,

liée à y* dans le sens où,

et y=1 y* > 0 (7.2)

ne devraient pas être estimés sans termes constants.

La probabilité que y = 1 est observé est,

Alors, sous l'hypothèse que la distribution f de ε est symétrique, on peut écrire

Pr{y = 1} = Pr{ε < β ' x} = F ( β ' x) (7.4)

où F est la fonction de distribution cumulative de ε . Cela fournit le modèle structurel sous-

2.3 Modèles d'utilité aléatoire

ce calcul d'utilité en tant que variables non obser vées

y0 et y1 , on observe bien y où,

y = 0 ; y = 1lorsque l'inverse est vrai. Ici, la probabilité d'observer l'action 1 est,

Pr{y = 1} = Pr{y ≤ y } = Pr{β' x + ε ≤ γ' x + ε } = Pr{ε - ε ≥ β' x - γ' x } (7.9)

= Pr{ε - ε < γ' x - β' x } = F (γ' x - β' x )

modèle économétrique. Tout d'abord, nous examinerons différentes spécifications pour la

sont dérivés de notre modèle de probabilité. Ce modèle

ouvrira la voie à notre discussion sur la manière d'estimer le modèle.

3.1 Pourquoi Pr{y = 1} est-il si important ?

x est justement cette probabilité.

E ⎡⎣ y x ⎤⎦ = 0×(1- F ) +1× F = F (β ' (7.10)

3.2 Spécifications communes F ( β ' x)

Comment spécifier F ( β ' x) ? Il y a quatre spécifications de base qui dominent la

(i) Modèle de probabilité linéaire (MPL)

(ii) Modèle Probit

' ' β x' β x' 1 2

F ( β x) = Φ ( β x) = ∫�∞ ϕ (t ) dt = ∫-∞ exp (-t / 2 dt

(iv) Valeur extrême Type I

Chaque spécification a ses avantages et ses inconvénients.

(i) Modèle de probabilité linéaire (MPL)

Cette simplicité a toutefois un coût. Par exemple,

y = E ⎣⎡ y x⎦⎤ + ( y - E ⎡⎣ y x ⎤⎦) = F (β ' (7.11)