Vous êtes sur la page 1sur 92

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

BINOMIAL DISCRÈTE
MODÈLES DE CHOIX
Instructeur : Eugène Kouassi - WVU (USA) et Université de Cocody (CI)

Références :

Amemiya, T (1981) 'Qualitative Response Models : A Survey", Journal of Economic

Literature, 19(4), pp. 481-536.

Amemiya, T (1984) 'Tobit Models : A Survey', Journal of Econometrics, 24, pp. 3-63.

Amemiya, T (1985) Advanced Econometrics, Harvard U. Press, Cambridge.

Cameron, A.C et Trivedi, P.K (2007) Micro-Econometrics : Methods and Applications.

Cambridge U. Press, Cambridge.

Cameron, A.C et Trivedi, P.K (2009) : Microeconometrics, STATA Press, 2009.


Dhrymes, P (1984) Econometric Analysis of Qualitative Response Models, in Z. Griliches and

M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-Holland.

Greene, W.H (2012) Econometric Analysis. Prentice Hall, NJ

Maddala, G.S (1983) Limited Dependent and Qualitative Variables in Econometrics (Variables qualitatives
et dépendantes limitées en économétrie). Cambridge

U. Press, Cambridge.

McFadden, D.L (1984) Econometric Analysis of Qualitative Response Models, in Z. Griliches

and M. Intriligator eds, Handbook of Econometrics, Vol. 2, Amsterdam : North-

Holland.

Wooldridge, J (2002) Econometric Analysis of Cross Section and Panel Data. MIT Press, MIT.

1
LES MODÈLES DE CHOIX
DISCRETS

1. INTRODUCTION

Voici l'approche générale de cette conférence,

Modèle
économique Règle de de
Règle
(par exemple, décision
décision
les services (par
publics exemple,
(par exemple,
maximisation) FOC)
FOC)

Section 1 : Motivation : fonction d'indice et modèles d'utilité aléatoire

Sous- Modèle
jacents économétrique
régression (par exemple, en
(par exemple, fonction des données
résoudre l'OFC observées, des
pour un données dépendantes
variable) discrètes ou limitées).
modèle variable)

Section 2 : Configuration

Estimation

Section 4 : Section 3 : Effets


Estimation marginaux
Interprétation
2

Section 4 : Section 3 : Effets


Estimation marginaux
Nous supposons que nous disposons d'un modèle économique et que nous avons dérivé des

implications du modèle, par exemple des OF, que nous pouvons tester. La conversion de ces

conditions en une régression sous-jacente n'implique généralement guère plus qu'un

réarrangement des termes afin d'isoler une variable dépendante. Souvent, cette variable

dépendante n'est pas directement observée, d'une manière que nous expliquerons plus tard. Dans

ce cas, nous ne pouvons pas nous contenter d'estimer la régression sous-jacente. Au lieu de cela,

nous devons formuler un modèle économétrique qui nous permet d'estimer les paramètres

d'intérêt dans la règle de décision / régression sous-jacente en utilisant le peu d'informations dont

nous disposons sur la variable dépendante. Dans la section 2, nous présenterons deux modèles

qui nous aideront à combler le fossé entre les régressions sous-jacentes inestimables et le modèle

économétrique estimable. Dans la section 3, nous développerons davantage le modèle

économétrique présenté dans la section 2 afin qu'il soit prêt pour l'estimation. Dans la section 4,

nous passons à l'interprétation de nos résultats. En particulier, nous expliquerons pourquoi,

contrairement aux modèles de régression linéaire,

le β estimé ne nous donne pas les effets marginaux d'un changement dans les variables indépendantes

sur la variable dépendante. Nous abordons ce sujet parce qu'il nous fournira certaines

informations dont nous aurons besoin pour estimer le modèle. Enfin, la section 5 décrit comment

estimer le modèle.

2. MOTIVATION
2.1 Quelques exemples

3
1. Nombre de brevets y = 0,1, 2,
:

Il s'agit de données de comptage.

4
Dans la plupart des cas que nous étudierons, les valeurs prises par les variables dépendantes ne

sont qu'un codage de certains résultats qualitatifs. Voici d'autres exemples :

2. Participation à la population active :

Nous attribuons la valeur 0 à "Non" et la valeur 1 à "Oui". Ces décisions sont des choix

qualitatifs. Le codage 0/1 est une simple commodité.

3. Avis sur un certain type de législation :

La valeur 0 représente "fortement opposé", la valeur 1 "opposé", la valeur 2 "neutre", la

valeur 3 "soutien" et la valeur 4 "fortement soutien". Ces chiffres sont des classements et les

valeurs choisies ne sont pas quantitatives, mais simplement une indication de l'importance de la

question.

commander. La différence entre les résultats représentés par 1 et 0 n'est pas nécessairement la

même que celle entre 2 et 1.

4. Le domaine professionnel :

Il s'agit du domaine choisi par un individu. Soit 0 pour un employé, 1 pour un ingénieur,

2 pour un avocat, 3 pour un politicien, etc. Ces données ne sont que des catégories, qui ne

donnent ni un classement ni un décompte.

5. Le choix du consommateur :

Il s'agit ici de choisir entre plusieurs zones commerciales. Ce cas présente les mêmes

caractéristiques que le numéro 4, mais le modèle approprié est légèrement différent. Ces deux

derniers exemples se distinguent par la mesure dans laquelle le choix est basé sur des

5
caractéristiques de l'individu.

par opposition aux attributs des choix, ce qui est probablement la considération la plus importante dans
l'évaluation de l'impact des choix sur l'environnement.

le choix du lieu d'achat.

6
Aucune de ces situations ne se prête facilement à notre type familier d'analyse de

régression. Néanmoins, dans chaque cas, nous pouvons construire des modèles qui lient la

décision ou le résultat à un ensemble de facteurs, au moins dans l'esprit de la régression. Notre

approche consistera à analyser chacune de ces situations dans le cadre général des modèles de

probabilité.

Les modèles à variables dépendantes discrètes sont souvent présentés sous la forme de modèles à
fonction d'indice

ou modèles d'utilité aléatoire. Ces deux modèles considèrent que le résultat d'un choix discret est le reflet
de l'état de l'environnement.

une régression sous-jacente. La volonté d'éclairer les modèles économétriques par des modèles

économiques suggère que la régression sous-jacente soit un calcul d'analyse coût-bénéfice

marginal. La différence entre les deux modèles est que la structure du calcul coût-bénéfice dans

les modèles de fonction d'indice est plus simple que dans les modèles d'utilité aléatoire.

2.2 Modèles de fonction d'index

Étant donné que les calculs des avantages marginaux ne sont pas observables, nous modélisons la
différence entre les avantages marginaux et les avantages marginaux.

et le coût comme une variable non observée y* telle que,

y* = β ' x + (7.1)
ε

où ε f (0, 1) , avec f symétrique. Bien que nous y* , nous observons y , qui est
n'observions pas

liée à y* dans le sens où,

7
y = 0 si y* ≤ 0

et y=1 y* > 0 (7.2)


si

8
Dans cette β ' x est appelée fonction d'indexation. Il convient de noter deux choses :
formulation Premièrement, notre hypothèse selon laquelle

Var (ε ) = 1 pourrait être remplacé par Var (ε ) = σ2 en multipliant nos coefficients par σ2 . Notre

les données observées resteront y = 0 ou 1, en fonction uniquement du y* , mais pas son échelle.
inchangées ; signe de

Deuxièmement, fixer le seuil pour y étant donné y* à 0 est également innocent si le modèle contient un

terme constant. En général, à moins de raisons impérieuses, les modèles de probabilité binomiale

ne devraient pas être estimés sans termes constants.

La probabilité que y = 1 est observé est,

Pr{y = 1} = Pr{y* > 0} = Pr{β ' x + ε > 0} = Pr{ε > -β ' (7.3)

x}

Alors, sous l'hypothèse que la distribution f de ε est symétrique, on peut écrire

Pr{y = 1} = Pr{ε < β ' x} = F ( β ' x) (7.4)

où F est la fonction de distribution cumulative de ε . Cela fournit le modèle structurel sous-


jacent pour l'estimation par maximum de vraisemblance (MLE) ou NLLS.

2.3 Modèles d'utilité aléatoire

Supposons que le calcul du coût marginal soit légèrement plus complexe. Soit y0 et

y1 sont le bénéfice net ou l'utilité dérivée de l'action 0 et de l'action 1, respectivement. Nous pouvons
modéliser

ce calcul d'utilité en tant que variables non obser vées


9
y0 et y1 tel
que,

y = β' x + ε (7.5)
0 0 0

10
et y = γ 'x + ε (7.6)
1 1 1

Supposons maintenant que f (0, où f est symétrique. Là encore, bien que nous n ' observions pas
(ε1 - ε0 ) 1)

y0 et y1 , on observe bien y où,

y = 0 si y0 > y1 (7.7)

et y=1 y0 ≤ y1 (7.8)
si

En d'autres termes, si l'utilité de l'action 0 est supérieure à celle de l'action 1, c'est- y0 > y1 , alors
à-dire,

y = 0 ; y = 1lorsque l'inverse est vrai. Ici, la probabilité d'observer l'action 1 est,

Pr{y = 1} = Pr{y ≤ y } = Pr{β' x + ε ≤ γ' x + ε } = Pr{ε - ε ≥ β' x - γ' x } (7.9)


0 1 0 0 1 1 1 0 0 1

= Pr{ε - ε < γ' x - β' x } = F (γ' x - β' x )


1 0 1 0 1 0

3. FORMULATION
Les modèles de fonction d'indice et d'utilité aléatoire permettent de faire le lien entre une fonction
d'indice sous-jacente et une fonction d'utilité aléatoire.

régression et un modèle économétrique. Nous allons maintenant entamer le processus d'élimination des

modèle économétrique. Tout d'abord, nous examinerons différentes spécifications pour la

distribution de ε et ensuite, dans la section 4, nous examinerons comment les effets marginaux

sont dérivés de notre modèle de probabilité. Ce modèle

ouvrira la voie à notre discussion sur la manière d'estimer le modèle.

3.1 Pourquoi Pr{y = 1} est-il si important ?


11
Dans les modèles de fonction d'indice et d'utilité aléatoire, la probabilité y=1a
d'observer

la structure,

12
Pr{y = 1} = F ( β ' x) \N - Pr{y = 1} = F (β ' x)

Pourquoi s'intéresser à la probabilité que y = 1 ? Parce que la valeur attendue de y étant donnée

x est justement cette probabilité.

E ⎡⎣ y x ⎤⎦ = 0×(1- F ) +1× F = F (β ' (7.10)

x)

3.2 Spécifications communes F ( β ' x)


pour les

Comment spécifier F ( β ' x) ? Il y a quatre spécifications de base qui dominent la

la littérature.

(i) Modèle de probabilité linéaire (MPL)

F ( β ' x) = β ' x

(ii) Modèle Probit

' ' β x' β x' 1 2

F ( β x) = Φ ( β x) = ∫�∞ ϕ (t ) dt = ∫-∞ exp (-t / 2 dt



)

(iii)Modèle logit

eβ x'
F ( β x) = Λ( β x) 1+ eβ '
' '

= x

(iv) Valeur extrême Type I


13
β 'x
F (β' x) = W (β' x) = 1- e e

14
3.3 Décider de la spécification à utiliser

Chaque spécification a ses avantages et ses inconvénients.

(i) Modèle de probabilité linéaire (MPL)

Le modèle de probabilité linéaire est populaire parce qu'il est extrêmement simple à estimer.

Cette simplicité a toutefois un coût. Par exemple,

y = E ⎣⎡ y x⎦⎤ + ( y - E ⎡⎣ y x ⎤⎦) = F (β ' (7.11)

x) + ε

Étant donné que F est linéaire, cela se résume au modèle de régression classique. Il convient de noter que le
modèle de régression de

terme d'erreur ε = 1- avec une F = β ' x et ε = -β ' x avec la probabilité 1- F = 1- β ' x .


β 'x probabilité de

E ⎡⎣ε x ⎤ ⎦ = (1- β ' x ) β ' x - β ' x (1- β ' x) = 0

Var ⎡⎣ε x) (1- β' x) = (1- (β' x) x) ) ( β ' x) + (β' x) (1- β' x)
2 2 2 2
x ⎤ ⎦ = (1-β x) β' x + (-β' - 2(β'
'

= β' x (1- β' x)

Notre premier problème est donc que ε est hétéroscédastique d'une manière qui dépend de β .

Bien sûr, en l'absence d'autres problèmes, nous pourrions gérer cela avec un estimateur FGLS.

Un second problème plus sérieux, cependant, est que puisque β ' x n'est pas confiné à

l'intervalle [ 0, 1], le LPM ne laisse pas de traces.

15
ouvre la possibilité de prédire des probabilités qui se situent en dehors de l'intervalle [ 0, 1], ce qui
est le cas dans les pays en voie de développement.

absurde et de variance négative.

β ' x > 1⇒ E [ y] = F = β ' x > 1, Var (ε ) = β ' x (1- β ' x) < 0

16
β ' x < 0 ⇒ E [ y] = F = β ' x < 0, Var (ε ) = β ' x (1- β ' x) < 0

Il s'agit d'un problème plus difficile à résoudre. Nous F=1 F ( β ' x) = β ' x > 1 et F = 0
pourrions définir si

si F ( β ' x) = β ' x < 0 , mais cette procédure crée des coudes irréalistes aux points de troncature pour les

( y, x β x = 0 ou 1) .
'

(ii) Probit vs. Logit

Le modèle probit, qui utilise la distribution normale, peut être justifié par l'attrait qu'il suscite.

à un théorème de limite centrale, tandis que le modèle logit peut être justifié par le fait qu'il est similaire à
un théorème de limite centrale.

La distribution logit est la même que la distribution normale, mais sa forme est beaucoup plus

simple. La différence entre la distribution logit et la distribution normale est que les queues de la

distribution logit sont légèrement plus lourdes. La distribution normale standard a une moyenne

nulle et une variance de 1, tandis que le logit a une moyenne nulle et une variance égale à π2 /3 .

(iii)Valeur extrême Type I

La distribution de type I des valeurs extrêmes est la moins fréquente des quatre

modèles. Il est important de noter qu'il s'agit d'une fonction de densité de probabilité

asymétrique.

4. EFFETS MARGINAUX
17
Contrairement aux modèles linéaires tels que les modèles de régression classique ou néo-classique,

l'effet marginal d'un changement de x E [ y]n'est pas simplement β . Pour voir E [ y] par
sur pourquoi, différencier

x,

18
∂E [ y] ∂F ( β 'x) ∂( β ' x)f ' x (7.12)
= = ( β )β
∂x ∂( β ' x) ∂x
Ces effets marginaux sont différents dans chacun des quatre modèles de probabilité de base.

(i) Modèle de probabilité linéaire (MPL)

Il f (β' x) = 1, de f ( β ' x ) β = β , ce qui est la même chose que dans le modèle


convient sorte que classique.
de noter
que

les modèles de type régression, comme prévu.

(ii) Probit

1 ( x)
- β'
2

Aujourd'hui, ; de f ( β ' x ) β = ϕβ
f( β' x) = ϕ ( β' /2
e sorte

x) = que

(iii)Logit

∂Λ ( β ' ∂ ⎡ eβ x' ⎤
β'
x)
En
l'occurrenc f( x) = = ⎢ ⎥ = Λ( β ' x) ⎡1- Λ( β ' x)⎤
e,

∂( β ' x) ∂( β ' x) ⎣⎢1+ e β'x ⎣ ⎦


⎥⎦

Donner l'effet marginal

f ( β ' x ) β = Λ[1- Λ]β

(iv) Valeur extrême Type I ou complémentaire log - log

(-u )
W (β' x) = 1- exp (- exp (β' x)) = 1- exp
19
avec u = exp (β ' x)

C'est pourquoi,

20
W' = u' exp (-u ) .

f ( β ' x ) β = exp ( β ' x)⎡exp (- exp ( β ' x))⎤ β


⎣ ⎦

REMARQUE :

Ce qui précède a mis l'accent sur le calcul des effets partiels pour l'individu moyen de

l'échantillon. Dans la pratique actuelle, de nombreuses applications reposent plutôt sur des

"effets partiels moyens" [voir, par exemple, Wooldridge, 2002]. La logique sous-jacente est que

la quantité d'intérêt est,

APE = E ⎡∂E ⎡⎣ y x⎤⎦ ⎤⎦ ⎤


x ⎢⎢ ⎥⎥
⎣ ∂x ⎦

En pratique, cela signifie que le calcul de

1n
APE = γ = ∑
n i=1 ( )
'
f β xi β

4.1 Conversion des effets marginaux Probit en effets

marginaux Logit

Pour convertir une estimation de coefficient probit en estimation de coefficient logit, à

partir de l a discussion ci-dessus comparant les variances des variables aléatoires probit et logit,

on obtient
3
π
Il est logique de multiplier l'estimation du coefficient ≅ 1.8 (puisque la variance du π2 /3
probit par
logit est
21
alors que la variance de la normale est de 1). Mais Amemiya propose un facteur de conversion

différent. En procédant par essais et erreurs, il a découvert que 1,6 donne de meilleurs résultats

au centre de la distribution, ce qui est le cas pour la variance.

22
délimite la valeur moyenne des régresseurs. Au centre de la distribution, F = 0.5 et

β ' x = 0 . Par ϕ (0) = 0,3989 et Λ ( 0 ) ⎡ ⎣ 1 - Λ ( 0 )⎤⎦ = 0,25 . Nous voulons donc résoudre la
conséquent,

équation,

0,3989βPr obit = 0,25βLogit

Cela donne,

βLogit = 1.6βPr obit

5. ESTIMATION ET TESTS D'HYPOTHÈSES


Il existe deux méthodes d'estimation de base, l'estimation MLE et l'estimation

NLLS. La première étant beaucoup plus répandue, c'est à elle que nous consacrerons la majeure

partie de notre temps.

5.1 MLE

Étant donné que nous supposons que les ε sont identiques, par la définition de l'indépendance, nous
pouvons écrire

la probabilité conjointe d'observer {y }i comme,


i=1, ,n

Pr{y 1, y 2, , y n} = ∏⎣⎡1- F (β ' xi ) ⎤ ⎦ ∏ ⎡⎣ F (βi ' x (7.13)


) ⎤⎦
yi =0 yi =1

En utilisant la simplification F (β ' x ) = f ( β ' x ) = f f' (β x ) = f' . Nous pouvons écrire la


'

notationnelle F, ,
23
i i i i i i

de la fonction de vraisemblance,

1- yi
L = ∏[1- F i] [F i]
yi
(7.14)
i

24
Puisque nous recherchons une valeur de β qui maximise la probabilité d'observer ce que nous avons
observé, nous devons nous assurer que cette valeur n'est pas trop élevée.

ont, les transformations monotones croissantes n'affecteront pas notre résultat de maximisation.

Nous pouvons donc prendre les logarithmes de la fonction de vraisemblance ; et comme la

maximisation d'une somme est plus facile que la maximisation d'une valeur de

maximiser un produit, nous prenons le logarithme de la


fonction de vraisemblance,

(7.14)
ln L = ∑{(1- yi )ln [1- Fi ] + yi ln Fi }
i

Estimons maintenant β par :

β = arg max ln L
β

Dans le cadre de la MLE, nous allons maintenant examiner les six procédures d'estimation et de test

suivantes :

- Estimation de β ;

- Estimation de la variance asymptotique de β ;

- Estimation de la variance asymptotique des probabilités prédites ;

- Estimation de la variance asymptotique des effets marginaux ;

- les tests d'hypothèses ; et

- Mesurer la qualité de l'ajustement.

25
5.1.1 Estimation de β

26
Pour résoudre maxln L, nous devons examiner les conditions du premier et du second ordre.
β

Conditions du premier ordre (FOC) :

Une condition nécessaire à la maximisation est que la dérivée première soit égale à zéro,

∂ ln
L
∂ ln
L
∂( β ' ∂ ln L
= x) = x=0 (7.16)
∂β ∂( β ' x) ∂β ∂( β ' x)
Ain
si,
∂ ln L ∂ {(1- y )ln [1- F ]+ y ln F }⎤ = ⎧(1- y ) (- fi ) + ⎫⎬
⎡ yi fi

∂( β ' x)= ∂( β '


⎣⎢∑ x) i ⎦⎥ ∑⎨ 1-
i FF
ii
i

ii ⎩ ii ⎭
= ∑⎨⎪⎧( yi -1) fi Fi + yi fi (1- Fi ) ⎫ ⎪ ⎪
F (1- F ) ⎬
i ⎪⎩ i i ⎪⎭

Nos objectifs
prioritaires sont
donc les
)( i i f x = 0
⎧⎪⎫.
⎪( yi -1) fi Fi + yi fi (1- Fi ) ⎪ ⎫ = 0 ⇔ y -F (7.17)
suivants, ∑⎨
F (1- F ⎬xi ∑(1- F ) F i i
)
i i
i ⎪⎩ i i i
⎪⎭

Nous examinons à présent les OFC spécifiques dans trois modèles principaux :

(i) Modèle de probabilité linéaire (MPL)

Depuis Fi = β i et fi = 1, ∀i , l'OFC devient


x'

)
( y-F
∑ 27
( y - β' x)
i i fi xi i i
=∑ xi =0
i (1- F )i F i i (1- β' x ) β
i i

x'

Il s'agit simplement d'un ensemble d'équations linéaires en x et y que nous pouvons résoudre explicitement
pour β de deux manières.

28
Cas 1 : Moindres carrés

La première solution donne un résultat qui rappelle les prédicteurs familiers des moindres carrés.

GLS

En résolvant pour le β au numérateur, nous obtenons quelque chose qui ressemble à l'équation généralisée
suivante

estimateur des moindres carrés, où xi est pondérée par la variance de εi ,


chaque

( y - β' x )
i i β x'2 yx
∑ x =0 ⇔ ∑ i
=∑ ii
i
(1- β' x ) β
i i i i (1- β' x ) β x ' i i i (1- β' x ) β x '
i i

x'
yi xi
∑ ∑Var (ε ) yi xi

⇒β= i (1- x ) β
β' i x'
i
= i
i
x2 x2

∑ i
∑ i

i (1- β' x ) β x i i '


i Var (εi )

MCO

Si nous supposons l'homoscédasticité, c'est-à-dire = Var ε = Var ε = σ 2 , ∀i


i i ( i) ( )
(1- β x )β x
' '

L'équation ci-dessus se réduit alors à l'estimateur standard des MCO de β ,

1 ∑ yx
∑y
x
Var (ε ) ii ii
β= =i
i
i
i
1 i x2

x2
∑ ∑
Var (ε ) i

29
Cas 2 : GMM

Si nous y - β' x = ε , alors les conditions de l'OFC ressemblent à la condition du GMM


réécrivons
i i i

30
pour résoudre le modèle linéaire LS à hétéroscédasticité,

( y - β' x εx εx
∑ ) i i
=0
ii ii

(1- β' x ) β =∑ (1- β' x ) β


=0⇒
i i i
xi
i i i Var (εi )
x'

x' i

De nouveau, si nous supposons l'homoscédasticité, nous obtenons la condition de moment pour la


résolution du problème classique

modèle de régression,

∑ε xi = ∑ε xii i= 0
1
Var (ε i i

Notez que chacun de ces estimateurs est identique. Certains peuvent être plus efficaces que

d'autres en présence d'hétéroscédasticité, mais, en général, il s'agit simplement de différentes

façons de motiver l'estimateur LS.

(ii) Probit

L'approche utilisée ici est basée sur les résultats de la distribution normale tronquée dans

laquelle la fonction de vraisemblance est,

ln L = ∑ln ⎣ ⎡ 1 - Φ ( β 'ix ) ⎤ ⎦ + ∑ln Φ ( βi ' x )


yi =0 yi =1

Les conditions du premier ordre pour maximiser ln L sont les suivantes,

∂ ln L x = ∑ -ϕ ( β ' x x + ∑ ϕ (β x )x
'
i 0
=
i
) i
i
i i
i

31
∂( β ' x
i y =0 1- Φ ( β i ' x ) y =1 Φ(β ' x )
i
)
= ∑ λ0i xi +∑λ1i xi = 0
yi =0 yi =1

Nous pouvons alors réécrire l'avis de conformité comme suit

32
∑λi xi =0
i

où λi = λ0i si yi = 0 et λi = λ1i si yi = 1.

Notez que, contrairement au LPM, ces FOCs sont un ensemble d'équations non linéaires en β .

Il n'est pas facile de les résoudre explicitement pour β . Il f a u t donc estimer β à l'aide de

méthodes numériques.

(iii) Logit

Ici, Fi = Λi et fi = Λi (1- Λi ), de sorte que l'OFC devient,

( yi - Fi ) f x = ∑( yi - Λi ) Λi (1- Λi =0 ⇔ ∑( y - Λ ) x = 0 ,
∑ )x
ii i i i i
i (1- Fi ) Fi i (1- Λi ) Λi i

Il est intéressant de noter que nous yi - Λi = εi de sorte que l'OFC peut s'écrire
pouvons écrire

∑( yi - Λi ) xi = ∑εi xi = 0 , ce qui est similaire aux conditions de moment pour le LPM. Comme dans le cas du
i i

Cependant, les FOCs pour le modèle logit sont non linéaires en β et doivent donc être résolus à

l'aide de méthodes numériques.

Conditions du second ordre (SOC) :

Ensemble, les FOC et les SOC, qui exigent que la dérivée seconde ou le hessien soient

définis négativement, sont des conditions nécessaires et suffisantes pour la maximisation. Pour

vérifier le second ordre

condition,
laissez
33
∂f ( β '
x)
∂( β ' x)
= f' (β'
x)

34
C'est ce que nous devons vérifier,

2 ∂ln L
L
∂ ⎡ ∂ ln ⎤ ∂( β ' 2 ∂ln L
(.) y
∂ ⎡( - β 'x ) ⎤
x) i
= ⎢ x⎥ = xx' = ∑ ⎢ i
f x ⎥x' < 0
∂β∂β ∂( β x) ⎣ ⎢ ∂ (β x) ⎥⎦
' '
∂( β x) ∂( β
' ' i ∂(β x) ⎢⎣ (1- Fi )
' ii
⎥⎦
i

'
∂ x)
Fi
β

Nous examinons maintenant les SOC spécifiques dans trois modèles principaux :

(i) Modèle de probabilité linéaire (MPL)

Nous pouvons maintenant prouver que la LPM satisfait le SOC ∀β ∈ B . En effet,

y
∂ ⎡( - β' x) ⎡ -x (1- β' x ) β ' x - (1- 2β' x - β' x ) x ⎤

f x ⎥x' = ∑⎢
)( yi
∑i ∂( β x)⎢ ⎢ (1- F ) F i i i
' i i i

i
' '
⎤2 i i
⎥⎥x
ii ' i

⎥ ⎢
⎣ i i ⎦
i
⎣⎢ ⎣(1- β xi )β xi ⎦ ⎥⎦

-x ( y - β x ) x (1- 2β' x )⎤ ⎡ -x (1- β' x ) β ' x - ( - β' x ) x (1- 2β' x )⎤
'
y
i ⎥xi' = ∑⎢
= ∑⎢ i
- i i i
2 2
i i i i
2
i
2
i i
⎥xi'
i ⎢( 1- β'
x ) β (1- β '
x ) ( β '
x ) ⎥ ⎢ (1- β '
x ) ( β '
x ) ⎥
x' i

⎣ i i i i ⎦ ⎣ i i ⎦

En développant, on obtient

x ) )x ⎤2
⎡(- y + 2β' y x - ( β ' ⎡ ' 2

ii i ii -( yi - β xi ) ⎥� x' < 0
∑⎢ ⎢ 2 2 ⎥⎥ ix' = ∑⎢ ⎢ ' 2 ' 2 ii
x' = ∑⎢ ' ' ⎥
i
⎢⎣ (1- β ) (β )
xi xi
⎥⎦
i ⎣(1- β ) (β ) ⎦
xi xi

En utilisant le fait yi ∈{0,1} ⇒i y2 =i y


que

35
(ii) Probit

La preuve découle ici des résultats obtenus dans le modèle de Roy. Tout d'abord, notons que

ϕ' ( β ' x) = -β ' xϕ ( β ' x)

36
En prenant la dérivée de la première dérivée, nous devons montrer,

∂ ∂
∑ [λ x ] x' = ∑ [λ ] x x' < 0
ii i ii i
i ∂( β ' x i i ∂( β ' xi

) )

Nous pouvons simplifier cette expression en utilisant les résultats de la normale tronquée,
⎞2
∂λ ∂ ⎡ -ϕ ⎤ ⎛ -β x' ϕ (1- Φ ) + ϕ2 ⎞ ⎛ -ϕ ⎞⎛ -ϕ
0i
= ⎢i
⎥=
ii ii
= -β ' x ⎜ i⎟
-⎜
i

= -λ (β' x + λ ) < 0
∂( β ' x ∂(β' x ) ⎣1� Φ -⎜
i
⎦ ⎝ i i ( 1-Φ i )2


i 1-
⎝ i ⎠⎝ 1- Φi
0i i 0i

Φ ⎠
)

De même,

∂λ ∂ ⎡ ϕ ⎤ �⎛ -βx' ϕ Φ -ϕ 2 ⎞
1i = i = iii i = -β ' xiλ1i - λ1i = 2-λ1i (β xi + λ1i' ) < 0
⎢ ⎥ ⎜ ⎟
∂( β x ) 'i
β
∂( ) Φi ⎦ ⎝ Φ2i
'i ⎣
x ⎠

Nous pouvons donc écrire le SOC comme suit,

-∑λ (iβ ' x +i λ ) x iixi' < 0


i

-ϕi
λi = λ0i = si yi = 0 , et
1- Φi

ϕi
λi = λ1i = si yi =1
Φi

(iii)Logit

37
En prenant la dérivée du FOC pour le logit, nous obtenons le SOC,

38
∑∂ ⎡⎣( yi - Λi ) xi ⎦⎤
x' = -∑Λ (1- Λ ) x x' < 0 ,
i i ii i
i ∂( β ' x ) i i

ce qui est clairement ∀β ∈ B . Notons que, puisque le hessien ne comprend pas yi, la méthode de Newton-
le cas

l'optimisation numérique par la méthode Raphson, qui utilise H dans son algorithme itératif, et la méthode

de notation, qui utilise E [H ] sont identiques dans le cas du logit. Pourquoi ? E [ y]est pris
Parce que

par rapport à la distribution de y . Nous avons montré que les modèles LPM, probit et logit sont

globalement concaves. La méthode d'optimisation de Newton-Raphson convergera donc en

quelques itérations pour ces trois modèles, à moins que les données ne soient très mal

conditionnées.

RAPPEL 1 : DÉFINITIONS : CONDITIONS DE RÉGULARITÉ

R1. Les trois premières dérivées de ln f ( yi θ ) par rapport à θ sont continues et finies pour

presque yi et pour tout θ . Cette condition assure l'existence d'une certaine série de Taylor
tous

et la variance finie des dérivées de ln L ;

R2 : Les conditions nécessaires pour obtenir les espérances des dérivées première et seconde de

ln f ( yi θ ) sont respectées ;

R3 : Pour toutes les 3 ∂ln f ( y θ ) / ∂θ ∂θ est inférieure à une fonction dont la durée de vie est
valeurs de θ , finie.
∂θ ∂θ

39
i j k l

l'espérance. Cette condition nous permettra de tronquer la série de Taylor.

RAPPEL 2 : MOMENTS DES DÉRIVÉES DE LA LOG-VRAISEMBLANCE

40
D1 : ln f ( yi θ gi = ∂ ln f ( yi θ ) / ∂θ , et H = ∂2 ln f ( θ ) / ∂θ∂θ ' , i = 1, , n sont tous aléatoires.
), y
i

des échantillons de variables aléatoires. Cette affirmation découle de notre hypothèse de variables
aléatoires.

l'échantillonnage. La gi (θ0 ) et Hi (θ0 ) indique les dérivées évaluées à θ0 ;


notation

D2 E0 ⎡⎣gi (θ0) ⎤⎦ = 0 ;
:

D3 : Var ⎣⎡ g i (θ0 ) ⎤⎦ = -E ⎡⎣ H i (θ0 ) ⎤⎦

PREUVE :

D1 : La condition D1 est une simple conséquence de la définition de la densité ;

D2 : Pour l'instant, nous autorisons la yi dépendent des paramètres ; A(θ0 ) ≤ yi ≤ B (θ0 ) .


gamme des

Par
définition, B(θ0 )
f( y
)dy = 1.
θ
∫A(θ )
i 0 i
0

Différenciez maintenant cette expression par rapport à θ0 . Le théorème de Leibnitz donne


B(θ0 )
∂ f ( y θ )dy ∂B (θ0 )
) - f ( A(θ ) θ ∂A θ
) ∂f ( ) + f (B (θ )
θ ) ( 0 ) =0
∫A(θ ) B(θ0
i 0 i yi θ0
0
= dy
∂θ0 ∫A(θ0 )
∂θ0
i
0 0
∂(θ0 ) 0 0 ∂(θ0 )

Si les deuxième et troisième termes sont nuls, on peut intervertir les opérations de différenciation

et l'intégration. Les condition condition est que


yi →A(θ0 )
lim
41
f( yi θ0 ) lim f( yi
yi →B(θ0 )
= )=
θ0
0.
Les
condi
tions
suffis
antes
sont
que
l'inter
valle
des
valeu
rs
obser
vées
de

variable variable yi , n'est pas dépend pas de paramètres paramètres, ce qui


aléatoire, signifie que

42
∂A(θ0 ) / ∂θ0 = ∂B (θ0 ) / ∂θ0 = ou que la densité soit nulle aux points terminaux. Cette condition,
0

est alors la condition de régularité R2. Cette dernière est généralement supposée, et nous la

supposerons dans ce q u i suit. Ainsi, la condition de régularité R2 est généralement supposée et

nous la supposerons dans ce qui suit,

∂∫ f ( θ0 ) f yθ dy = E ⎡∂ ln f ( yi θ0 ) ⎤ = 0
= ∂f ( yi θ0 dyi =
yi dyi

∂θ ∫ ∂θ ∫ ( ) 0⎢ ⎥
∂ ln f ( θ0
i 0 i
∂θ
∂θ) yi

0 0 ) 0 ⎢⎣ 0 ⎥⎦

Cela prouve que D2.

D3 : Puisque nous pouvons interchanger les opérations d'intégration et de différenciation, nous

différencions à nouveau sous l'intégrale pour obtenir,

∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
2
ln f y(θ i ) f(
∫ ⎡∂
⎢ ∂θ ∂θ'
0
yi θ0 ) +
∂θ0
i 0
∂θ ' i 0 ⎥ dyi = 0
⎢⎣ 0 0 0 ⎥⎦

Mai
s..,

∂f ( yi θ0 ∂ ln f ( yi θ0
∂θ ' =f( θ0
)
yi
),
) ∂θ'
0 0

et l'intégrale d'une somme est la somme des intégrales. Par conséquent,

⎡∂ ln f ( y θ ) ∂ ln f ( y θ )⎤
⎡∂ 2ln f y(θ i' )⎤ f (
-∫⎢ ∂θ ∂θ 0
⎥ yi θ0 ) dyi = ∫⎢ ∂θ i 0
∂θ ' i 0
⎥f ( θ0 )
dyi

yi
⎢⎣ 0 0 ⎥⎦ ⎢⎣ 0 0 ⎥⎦

43
Le côté gauche de l'équation est le négatif de la matrice des dérivées secondes attendues. Le côté

droit est le carré attendu (produit extérieur) du vecteur de la première dérivée. Mais, parce que

44
ce vecteur a une valeur attendue de 0 , le côté droit est la variance du vecteur de la dérivée

première, ce qui prouve D3 :

⎡∂ ln f ( y θ )⎤ ⎡⎛ ⎡∂ ln f ( y θ ) ⎡⎛ ∂ ln f (i y0 θ ) ⎞⎛ ∂ ln f2 ( y θ ) ⎞⎤ ⎤
Var ⎢ i 0 i 0 ⎟⎥ = -E ⎡∂ ln f y (θ i 0 )
⎥ = E ⎢⎜ ⎢ ⎥
∂θ ∂θ
0
0
⎣⎢ ∂θ0
⎥⎦ ⎢⎣⎝ ∂θ0
⎟⎜
⎠⎝ ∂θ 0 ⎠⎥⎦ ⎣⎢ 0 0
'
⎦⎥
'

RAPPEL 3 :

Théorème 1 : Propriétés d'un MLE

Sous réserve de régularité, l'estimateur du maximum de vraisemblance (MLE) possède les

propriétés asymptotiques suivantes :

M1:Cohérence : p lim β = β0

M2 : Normalité β ⎯a⎯→ N ⎡β , {I }-1


⎤,
asymptotique : (β) )
⎣0 0 ⎦

où I (β 0 ) = -E 0 2 ⎣⎡∂ln L (.) / ∂β
0 ∂β
'
0 ⎤⎦

M3 : Efficacité asymptotique : β est asymptotiquement efficace et atteint la valeur inférieure de Cramer-


Rao.

pour les estimateurs cohérents, compte tenu de M 2 et du théorème C2 .

M4 : Invariance : L'estimateur du maximum de vraisemblance de γ0 = C (β0 ) est C (β )si C (β0 ) est un


estimateur du maxi mum de vraisemblancedeγ=C(β).
fonction continue et continuellement différentiable.

45
PREUVE :

46
RAPPEL 4 :

Théorème C2 : Limite inférieure de Cramer-Rao

En supposant que la densité de x satisfasse certaines conditions de régularité, la variance

d'un estimateur sans biais d'un paramètre θ sera toujours au moins aussi grande que,

⎞-1
⎞2
-1 ⎛ ⎡∂ln L (θ ) ⎤ ⎞ -1 ⎛ ⎡⎛ ∂ ln L (θ ) ⎤
2
⎣⎡ I (θ = -E ⎢ ∂θ 2 ⎜ ⎟⎥⎟
) ⎤⎦ ⎜ ⎥ ⎟ = E ⎢⎜ ∂θ
⎜ ⎢⎣⎝
⎝ ⎣⎦ ⎠ ⎠ ⎥⎦ ⎟
⎝ ⎠

La quantité I (θ ) est le numéro d'information de l'échantillon.

PREUVE :

5.1.2 Estimation de la matrice de covariance asymptotique pour β

Tout d'abord, nous avons besoin de deux résultats importants de la MLE,

Normalité asymptotique

(i) (
T β - β0 ) → N (0, - I −1
( β0 ))

où,

⎛ 1 ∂2 ln L ⎞
'
I (β0 ) = p lim⎜ ⎟
⎝ T ∂β∂β
47
β0 ⎠

48
Limite inférieure de Cramer-Rao

1 ∂2 ln L ⎛ 1 ∂2 ln L ⎞⎟ = E2⎢⎡∂ln L ⎤ ⎥ = p lim⎛ 1⎜ ∂2 ln L ⎞ ⎛ 1 ∂2 ln L ⎞
(ii) lim- = -E ⎜ ∂β∂β ' ∂β∂β '
∂β∂β' β ⎟ = Tlim ∂β∂β' β ⎟
T ∂β∂β' β
T →∞ →∞
T T ⎜
⎝ ⎠ ⎣ ⎦ ⎝ T
0⎠ ⎝ ⎠

Nous disposons de trois estimateurs Asy.var ⎡β ⎤ s u r l a base de ces deux faits.


possibles pour ⎣⎦

-1
Asy.var ⎡β ⎤ = -H où
⎣⎦

H=
∂ ⎡( ⎢yi - Fi ) fi ⎤ x x⎥' i i
∑∂( β ' x ) (1- F ) F β
i i ⎣ ii ⎦

Asy.var ⎡β ⎤ = -E [H ] où
-1
⎣⎦

2 ⎡∂ln L ⎤
E [H =] E ⎢
⎣ ∂β∂β ⎦
' ⎥

Dans tout modèle où H ne dépend pas de yi , E [H ] = H puisque l'espérance a été prise en compte

sur la distribution de y . Ainsi, dans des modèles tels que le logit, les premier et deuxième estimateurs sont
les suivants

identiques. Dans le modèle probit, H dépend yi so H ≠ E [H ] . Amemiya T (1982) "Qualitative


de

Response Models : A Survey", Journal of Economic Literature, 19(4), pp. 481-536, a montré que

'
= ∑λ0iλ1i xi xi = ∑
-ϕ2i '
E [H ] xi xi

Pr obit ii ( 1- Φi )Φi
49
Berndt, Hall, Hall et Hausman ont repris l'estimateur suivant d'Anderson T. W. (1959)

que nous appelons l'estimateur TWA,

-1
Asy.var ⎡β ⎤ = H où
⎣⎦

⎞'
⎛( y-F) f ⎛( y-F) f⎞
i ii '
H = ∑⎜ x x i i i ⎟
⎟ ii ⎜
i ⎝ (1- Fi ) Fi ⎠ ⎝ (1- Fi ) Fi ⎠

-1
Remarquez qu'il n'y a pas de signe négatif H car les deux signes négatifs se multiplient.
avant le

Notez que les trois estimateurs énumérés ici sont les trois variantes de base de la méthode

du gradient des techniques d'optimisation numérique itérative.

5.1.3 Estimation l'estimation asymptotique de


covariance de covariance pour

les probabilités ( )
F β x
'

prédites,

Dans ce cas, nous avons besoin de la méthode dite delta.

Par souci de
simplicité, le
( ) = F . Rappelons la méthode delta :
F β x
'

Si g est deux fois continuellement différentiable et

50
T (θT -θ0 ) ⎯d⎯→ N ⎣⎡0, σ 2 ⎤⎦ alors,

51
⎤2
⎡ g (θ ) - g (θ )⎤ ⎯
d → N ⎡0, ⎡g' θ
( ) σ2 ⎤
T⎣ ⎦ ⎦
T 0
⎢⎣ ⎣ 0
⎥⎦

En appliquant cela à F, on obtient

(( )
T F β - F (β0 ) )⎯ ⎯→
d N⎡ ⎢0,⎡⎣ ⎢ F' (β0 ) ⎥ ⎦
⎤2
( )
var β ⎤ ⎥
⎣ ⎦

où β0est la vraie valeur du paramètre. Un estimateur naturel de la matrice de covariance asymptotique


est donc

pour les probabilités prédites est,

⎛ ∂F ⎞'
⎛ ∂F ⎞
Asy.var ⎡F =
⎤ V
⎣ ⎦ ⎜ ∂β ⎜⎟ ⎟⎜⎜ ⎟∂β⎟
⎟ ⎝ ⎠ ⎝ ⎠

où V = Asy.var β( ).
Depui
s,
'
∂F
=
∂F ∂( ( ) β = f x
∂β ∂( β xx))'
∂β

Nous pouvons donc écrire,

' 2
Asy. var ⎡F ⎤
⎣⎦ = ( f x) V ( f x) = ( f ) x Vx '

52
5.1.4 Estimation l'estimation asymptotique de
covariance de covariance pour

les effets ( )
f βx β
marginaux,

Pour récapituler, les effets marginaux sont donnés par,

∂E [ y] ∂F
= ∂F ∂( β ' x)== f β
∂x ∂x ∂( β ' x) ∂x

Pour simplifier la
notation, notons
f (β x)β = f β = γ . En utilisant à nouveau la méthode delta comme
'

motivation, a

( )
un estimateur raisonnable de la variance asymptotique de γ β serait,

⎛ ∂γ ⎞⎛ ∂γ ⎞ '
Asy.var ⎡γ ⎤ = ⎣⎜⎟⎦⎜
V ⎜ = ⎟⎜ ⎜⎟� ⎜ ⎟
⎝ ∂β ⎠ ⎝ ∂β⎠

( ).
où V = Asy.var β

Nous pouvons être plus explicites dans la définition de notre estimateur en notant que,

∂γ ∂ f β = f ∂β + ∂f
∂( β x)
'

∂f '
= β=fI+ βx
∂β ∂β ∂β
∂( β x)
'
∂( β '

∂β x)

Cela nous donne,


53
⎛ ⎞ ⎛ ⎞⎟'
⎡fβ⎤=⎜fI+∂
'
Asy.var
f ⎟ ⎜ ∂f β x
β' +
x ⎟V ⎜ f ⎟
⎣ ⎦ ⎜
⎜ ∂(β '

I ∂(β x)
'

x)
⎟ ⎜
⎝ ⎠ ⎝ ⎠

54
Cette équation ne nous apprend toujours pas grand-chose. Il peut être intéressant d'examiner à

quoi ressemble l'estimateur sous différentes spécifications de F .

(i) Modèle de probabilité linéaire (MPL)

Rappe F = β ' x f = 1 et f' = 0 , donc


l ,

Asy.var ⎡ f β ⎤ = V = Asy.var ⎡β ⎤
⎣ ⎦ LPM ⎣⎦

(ii) Probit

Ici, F =Φ , f = ϕ et f' = -β ' xϕ ce qui nous donne

'.
⎡fβ⎤
Asy. var ⎣⎦Pr obit

2
( ( x) ) ( ( x) )
I - β'
'
β x V I - β'
'
β x

(iii) Logit

Maintenant, f = Λ( 1- Λ) et f' = Λ(1- Λ)(1- 2Λ) donc,


F =Λ ,

⎤2 '
Asy. var ⎡ f β ⎤ =
⎣ ⎦Logit ⎣
⎡Λ( 1- Λ)

( ( Λ) ) ( ( Λ) )
I + 1- 2
'
β x V I + 1- 2
'
β x

5.2 TEST D'HYPOTHÈSE

Supposons que nous voulions tester l'ensemble des H0 : Rβ = q . Si l'on considère p comme
restrictions suivantes, le

nombre de restrictions dans R , c'est-à-dire, rank ( R ) = p , alors MLE nous fournit trois statistiques de test.

55
(i) Test de Wald

56
⎤-1 '
(
W = Rβ - q ) ⎡ R Est.Asy.var β R ' ( ) (
Rβ - q → χ2 ) ( p)
(7.20)
⎣ ⎦

Exemple :

Supposo H0 : les L derniers coefficients ou éléments de β sont 0. Définir R = [0, IL ] et


ns que

q = 0 ; et βL sont les derniers L éléments de β . On obtient alors ,


laissez

'
W = β V−1 β
LL L

(ii) Test du rapport de vraisemblance

R
( )
LR = -2 ⎡ln L β - ln L β ⎤ → χ2
( p)
( ) (7.21)
⎣ ⎦

où ( )
ln LR β et ( )
ln β sont la fonction de log-vraisemblance évaluée avec et sans l'élément

des restrictions sur β , respectivement.

Exemple :

Pour H0 : tous les coefficients de pente sauf celui du terme constant sont 0, soit
tester

ln LR β ( )= ∑{yi
i
ln Fi + (1- yi )ln (1- Fi )} = n∑{( i
yi }
/ n)ln Fi + ([1- yi ]/ n)ln (1- Fi )

= n{P ln P + (1- P)ln (1- P)}

où P est la proportion d'observations avec y = 1.

(iii) Score ou test du multiplicateur de Lagrange


57
Écrire le Lagrangien pour le problème MLE étant donné la β = βR :
restriction

L = ln L - λ (β - βR )

∂ ln L
L'OFC est =λ
∂β

La statistique de test est donc,

LM = λR' VλR (7.22)

où λR est juste λ évalué à βR .

Exemple :

Dans le modèle logit, supposons que nous H0 : toutes les pentes sont LM = nR2 ,
voulions tester égales à 0. Alors

où R2 est le coefficient de détermination non centré dans la régression de ( y i - P) sur xi ,

où P est la proportion d'observations y = 1 dans l'échantillon.

5.3 MESURER LA QUALITÉ DE L'AJUSTEMENT

De nombreuses mesures d'adéquation ont été proposées pour les modèles de réponse qualitative.

(i) Fonction de vraisemblance logarithmique, ln L

La façon la plus simple de décrire le degré d'adéquation du modèle aux données est d'indiquer

la valeur de ln L à β . Étant donné que l'hypothèse selon laquelle toutes les autres pentes du

58
modèle sont nulles est également intéressante, ln L calculé avec seulement un terme constant (ln

L0 ), qui devrait également être signalé.

59
Comparais ln L0 à ln L nous donne une idée de l'amélioration de la vraisemblance lorsque l'on ajoute le
on

les variables explicatives.

(ii) Indice du rapport de vraisemblance (LRI)

Un analogue au R2 dans une régression conventionnelle est la vraisemblance de McFadden


(1974).

l'indice de ratio,

ln L0
LRI = 1-
ln L

Cette mesure présente un attrait intuitif dans la mesure où elle est limitée par zéro et 1. Si tous les

coefficients de pente sont nuls, elle est égale à zéro. Il n'existe aucun moyen de faire en sorte que

le LRI soit égal à 1, bien que l'on puisse s'en approcher.

Malheureusement, les valeurs comprises entre zéro et un n'ont pas d'interprétation

naturelle. D'autres mesures ont été proposées :

- Ben - Akiva et Lerman (1985) et Kay et Little (1986) ont suggéré une adéquation entre les deux.

qui est importante pour la règle de prédiction,

( )
R2 = 1 ∑⎡ y Fi + (1- y ) 1- Fi ⎤
BL
n i ⎣ i i

Il s'agit de la probabilité moyenne d'une règle de prédiction correcte. La difficulté de ce calcul

réside dans le fait que, dans les échantillons déséquilibrés, le résultat le moins fréquent sera

généralement très mal prédit par la procédure standard, et cette mesure ne tient pas compte de ce
60
point.

61
- Cramer (1999)

Cramer (1999) a proposé une mesure alternative qui mesure directement cet échec,

( (
λ = moyenne F yi = 1)- moyenne F yi = 0 )
( ( )
= moyenne 1- F yi (
= 0)- moyenne 1- F ( ) yi =1)
-Parmi les autres mesures d'ajustement proposées, on peut citer

∑( y - p )
n

i i
2

Efron (1978) : = 1- i=1n


R2
Ef
∑( yi -y )
2

i=1

δ -1 ⎞ δ=
n
2
Veal et Zimmermann (1992) : RVZ = ⎛⎜ LRI ,
⎝ δ - LRI ⎠ 2log L0

∑(β - β x)
n ' ' 2
xi

Zavoina et McKelvey (1975) : R2 MZ =i=1


n
n + ∑(β - β x )
' '
xi
i=1

(iii)Tableau des succès et des échecs

Un résumé utile de la capacité prédictive du modèle est un tableau 2 x 2 des succès et des pertes.

manque d'une règle de


prédiction :
yi = 1 si F β x ( ) > F , et 0 sinon.
'
*

62
yi =0 yi =1

Les coups de # Nombre d'obs. où yˆi = 0 # Nombre d'obs. où yˆi = 1


poing

Mademoiselle # Nombre d'obs. où yˆi = 1 # Nombre d'obs. où yˆi = 0

La valeur habituelle F* = 0,5 . Notez toutefois que 0,5 peut sembler raisonnable, mais qu'i l est arbitraire
de

(Voir, par exemple, Greene, 2012).

6. MODÈLES DE CHOIX BINAIRES POUR LES


DONNÉES DE PANEL
Les modèles de réponse qualitative sont un secteur en plein essor en économétrie. La

littérature récente, en particulier dans le domaine de l'analyse des données de panel, a produit un

certain nombre de nouvelles techniques. La disponibilité d'ensembles de données de panel de

haute qualité sur le comportement microéconomique a maintenu l'intérêt pour l'extension des

modèles disponibles aux modèles binaires (et autres choix discrets). Dans cette section, nous

passerons en revue quelques résultats de cette littérature en plein essor.

Le modèle structurel pour un panel de données éventuellement déséquilibré s'écrirait comme suit

*
=xβ
yl'article '
+ ε i = 1,
l'entrepriseil , N ; t = 1, ,T

yit = 1 si yil* > 0 et 0 dans le cas contraire.

63
La deuxième ligne de cette définition est souvent écrite

( β+ε>0 )
= 1 x' l'entreprise
yl'article
il

64
pour indiquer qu'une variable est égale à un lorsque la condition entre parenthèses est vraie et à zéro
lorsqu'elle l'est.

pas. Idéalement, nous voudrions spécifier que εit sont librement corrélées au sein d'un groupe, mais

sans corrélation entre les groupes. Mais cela implique de calculer les probabilités conjointes à

partir d'une distribution variée Ti, ce qui est généralement problématique. (Nous reviendrons sur

cette question ultérieurement). Une approche plus prometteuse est un modèle d'effet,

y* = x' β + v + u , i = 1, , N ; t = 1, ,T
l'article l'entreprise i i

yit = 1 si yil* > 0 et 0 dans le cas contraire.

où, ui est l'hétérogénéité individuelle non observée. Une fois de plus, nous distinguons

entre les modèles à effets "aléatoires" et les modèles à effets "fixes" en fonction ui et xit . Les
de la relation entre les effets "aléatoires" et les effets "fixes".

hypothèse selon ui n'est pas lié à , de sorte que la distribution


xit f (ui xit ) n'est pas
laquelle conditionnelle

dépendant de , produit le modèle à effets aléatoires. Il convient de noter que cela impose une restriction
xit
sur le modèle à effets aléatoires.

la distribution de l'hétérogénéité.

Si cette distribution n'est pas limitée, de ui et peuvent être corrélées, alors nous avons ce qui
xit
sorte que suit

est appelé modèle à effets fixes. La distinction n'est pas liée à une caractéristique intrinsèque des modèles à
effets fixes.

l'effet lui-même.

Comme nous le verrons bientôt, il s'agit d'un cadre de modélisation qui présente de

nombreuses difficultés et des problèmes d'estimation non conventionnels. Parmi ceux-ci, citons

65
les suivants : l'estimation du modèle à effets aléatoires nécessite des hypothèses très fortes sur

l'hétérogénéité.

sans restriction, de ui et peuvent être corrélés, le modèle à effets fixes se heurte alors à un problème
xit
sorte que d'incertitude.

le problème des paramètres accessoires qui rend l'estimateur du maximum de vraisemblance incohérent.

66
6.1 L'ESTIMATEUR GROUPÉ

Pour commencer, il est utile d'examiner l'estimateur groupé qui résulte de la non-prise en compte de
l'effet de levier.

l'hétérogénéit ui dans (17-39) et ajuster le modèle comme si la spécification transversale de la section


é,

17.2.2 s'applique. Dans ce cas, l'adage selon lequel "ignorer l'hétérogénéité ne la fait pas

disparaître" s'applique avec encore plus de force que dans le cas de la régression linéaire. Si le

modèle à effets fixes est approprié, tous les résultats précédents concernant les variables omises,

y compris le résultat de Yatchew et Griliches (1984), s'appliquent. L'ELM regroupée qui ne tient

pas compte des effets fixes sera incohérente, voire très incohérente. (Il convient de noter que,

puisque l'estimateur est de type ML et non des moindres carrés, la conversion des données en

écarts par rapport aux moyennes du groupe n'est pas une solution - la conversion de la variable

dépendante binaire en écarts produira une variable continue dont les propriétés sont inconnues).

Le cas des effets aléatoires est plus bénin. D'après (17-39), la probabilité marginale impliquée

par le modèle est de


1/2
Pr ob ( y = 1 x ) = Pr ob v + u > -x' β ( ) = F ⎡x' β / (1+ σ2 )
it u
(
⎤ = F x' δ
it
)
l'article l'entreprise i i it ⎢⎣ ⎥⎦

L'implication est que, sur la base des distributions marginales, nous pouvons estimer δ de

manière cohérente (mais pas β ou σu séparément) par la méthode de l'EML groupée. [Ce résultat

est examiné en détail dans Wooldridge (2002)].

Il s'agirait d'une "pseudo-MLE" puisque la fonction de log-vraisemblance n'est pas la véritable log-
vraisemblance pour

yit
l'ensemble des données observées, mais il s'agit du produit correct des distributions xit .
marginales de

(Il s'agirait de la contrepartie de l'estimation cohérente de β dans le cas d'un choix binaire, dans le cas d'un
choix linéaire).
67
modèle à effets aléatoires par moindres carrés ordinaires regroupés). L'implication, qui n'existe

pas dans le cas linéaire, est que le fait d'ignorer les effets aléatoires dans un modèle groupé

produit une estimation atténuée (incohérente et biaisée vers le bas) de β ; le facteur d'échelle qui

produit δ est

68
1/ 2
1/ (1+ σu 2 ) qui est compris entre zéro et un. L'implication pour les effets partiels est moins claire.

Dans la spécification du modèle, l'effet partiel


est
= β × f x' β + u
( )
PE ( x ,u ) = ∂E ⎡ y x ,u ⎤ / ∂x
il i ⎣ it it i ⎦ l'article it i

qui n'est pas calculable. Le résultat utile serait


E ⎡PE ( x ,u )⎤ = β E ⎡ f ( x ' β + u )⎤
u⎣ iti ⎦ u⎣ iti ⎦

Wooldridge (2002a) montre que le résultat final, en supposant la normalité de vit et de ui, est le suivant
E ⎡PE (x ,u )⎤ = δϕ x' δ .
( )
u⎣ it i⎦ it

Jusqu'à présent, il semblerait que la simple mise en commun des données et l'utilisation de la

MLE simple "fonctionnent". Les erreurs types estimées seront incorrectes, de sorte qu'une

correction telle que l'estimateur en grappes présenté à la section 14.8.4 serait appropriée. Trois

considérations suggèrent que l'on pourrait vouloir procéder à la MLE complète malgré ces

résultats : (1) l'estimateur groupé sera inefficace par rapport à la MLE complète ; (2) l'estimateur

groupé ne produit pas un estimateur de

σuqui pourrait être intéressant en soi ; (3) l'estimateur FIML est disponible dans les versions contemporaines
de l'estimation de l'indice de masse corporelle (IMC).

et n'est pas plus difficile à estimer que l'estimateur groupé. Il convient de noter que l'estimateur

groupé n'est pas justifié (par rapport à l'approche FIML) par des considérations de robustesse, car

les mêmes hypothèses de normalité et d'effets aléatoires qui sont nécessaires pour obtenir

l'estimateur FIML seront nécessaires pour obtenir les résultats précédents pour l'estimateur

groupé.

6.2 LES MODÈLES À EFFETS ALÉATOIRES

69
Une spécification ayant la même structure que celle du modèle à effets aléatoires a été

mise en œuvre par Butler et Moffitt (1982). Nous esquisserons la dérivation pour suggérer

comment les effets aléatoires peuvent être traités dans des modèles à variables dépendantes

discrètes et limitées tels que celui-ci. Complète

70
Des détails sur l'estimation et l'inférence peuvent être trouvés dans Butler et Moffitt (1982) et

Greene (1995a). Nous examinerons ensuite quelques extensions du modèle de Butler et Moffitt.

Le modèle à effets aléatoires spécifie

εit = vit + ui

où vit et ui sont des variables aléatoires indépendantes avec

E ⎡⎣vit X ⎦⎤ = 0 ; Var ⎡⎣vit X ⎦⎤ = 1 ; Cov ⎣⎡vit , vjs X ⎤⎦ = Var ⎡⎣vjt X ⎤⎦ = 1, si i = j et t = s ; 0

autrement.
E ⎡u X ⎤ = 0 ; Var ⎡u X ⎤ = σ 2 ; Cov ⎡u ,u X ⎤ = Var ⎡u X ⎤ = σ 2 , si i = j ; 0 sinon.
⎣i ⎦ ⎣i ⎦ u ⎣i j ⎦ ⎣i ⎦ u

et

Cov ⎣⎡vit ,uj X ⎤⎦ = 0, ∀i,t, j

et X indique toutes les données exogènes de xit pour tout i et tout t . Dans ce cas,
l'échantillon,

E ⎡⎣εit X ⎤⎦ = 0 ;

Var ⎡ε X ⎤ = σ 2 +σ 2 = 1+σ
2 et
⎣ it ⎦ v u u

Corr ⎡ε it ,εis X ⎤ Cov ⎡ ⎣ ε it ,εis X ⎤⎦ == ρ = σ u2


1/2
1+ σu2
⎣ ⎦ 1/2
Var (εil X ) Var (εe X )
st

Le nouveau paramètre libre est


u σ2 = ρ / (1- ρ ) .

Rappelons que dans le cas de la coupe transversale, la probabilité marginale associée à un

l'observation
est P ( y x ) = f (ε )dε , ( L , U ) = (-∞, - x' β y = 0 et (-x ' β , +
i i
Ui
) si ∞) , si
∫L
i i i i i i i
i

et
yi = 1. Cela se simplifie à Φ ⎣⎡( 2y -1) x' β ⎤⎦ pour la distribution normale
i i i i

71
Λ ⎣⎡( 2y -1) x' β ⎤⎦ pour

72
le modèle logit. Dans le cas général complet avec une matrice de covariance non restreinte, la

contribution du groupe i à la vraisemblance serait la probabilité conjointe pour toutes les

observations Ti ; UiTi U i1
)
, yiTi X i = ∫LT
ii
∫ Li 1
(
f ε ,i1ε , i 2 ,ε iTi )dε
i1 i2 dε iTi

L=P
i
( y, i1

L'intégration de la densité conjointe, telle qu'elle se présente, n'est pas pratique dans la plupart

des cas. La nature particulière du modèle à effets aléatoires permet toutefois une simplification.

Nous pouvons obtenir la densité conjointe de

les vit ' s en intégrant ui dans la densité conjointe de εi1 ,εi2 , ( ,εiT i , ui ) qui est
(
f εi1 , ,εiT i , ui ) = f (ε i1 , εiT i ui × f (ui ) )
Ain
si,
+∞
f ε i1,εi 2 ,
( ,ε iTi = ∫-∞ f ε ,i1ε , i 2
) ( ,ε iTi ui f (ui )dui
)
L'avantage de cette forme est que, conditionnellement à ui, les εit ' s sont indépendants, de sorte que
+∞ Ti

f ( , ,
εi1 εi 2 ,εiTi ) = ∏ f ( )f (
∫�∞
t =1
εit ui )
ui dui

En insérant ce résultat dans (XXXX), on obtient

UiTi Ui 1 +∞ Ti

Li =P ( ,
yi1 , yiT iXi )= ∫ LT
ii
∫ ∫ ∏ f ε(
Li 1 -∞
t =1
il ui f) u (dui )dε idεi1 i2 dεiT i

Cela ne semble pas être une grande simplification, mais en fait, c'en est une. Comme les plages

d'intégration sont indépendantes, nous pouvons changer l'ordre d'intégration :


Ti
Ui 1
⎡ UT ⎤
ui dε
) dε dεiT ⎥ f (ui
+∞
( )= ∫ ∫ ∏ f ε(
ii

Li =P ,
yi1 , yiT iXi ⎢ ∫LTi i il i1 i2
-∞ Li 1
⎣ t =1
)dui ⎦
i

Conditionné au commun ui , le ε ' s sont indépendants, de sorte que le terme entre crochets est
73
simplement

le produit des probabilités individuelles. Nous pouvons l'écrire comme suit

74
⎡ ⎤
( ) =∫ f (ε u )dε f (u )du
+∞ Uit
Li =P yi1 , , yiT Xi
iT
i -∞
⎢∏(∫
⎣ t =1 Lit
it iit )⎦ ⎥ i i

Considérons maintenant les différentes densités du produit. Sous réserve ui , il s'agit de l'actuelle-
de

les probabilités familières pour les observations individuelles, xil' β + ui . On obtient ainsi un
calculées maintenant à

modèle général d'effets aléatoires pour le modèle de choix binaire. En rassemblant tous les

termes, nous l'avons réduit à

+∞⎡ iT ⎤
L=
i P ( yi1 , , yiTi Xi ) = ⎢∏Pr ob
∫�∞
⎣ t =1
(
Yit = yit
'
xit )
β + ui ⎥ f (ui )dui

Il reste à spécifier les distributions, mais le résultat important jusqu'à présent est que l'ensemble

du calcul ne nécessite qu'une intégration unidimensionnelle. Les probabilités internes peuvent

être n'importe lequel des modèles que nous avons considérés jusqu'à présent, tels que probit,

logit, Gumbel, etc. La partie complexe qui reste à faire est de déterminer comment effectuer

l'intégration extérieure. Méthode de Butler et Moffitt

en supposant ui est normalement distribuée est détaillée dans leur article. Un certain nombre d'auteurs ont
que

ont estimé que la formulation de Butler et Moffitt constituait un compromis satisfaisant entre un

modèle entièrement non restreint et la variante transversale qui ignore complètement la

corrélation. L'étude de Tauchen, Witte et Griesinger (1994) sur les arrestations et le

comportement criminel est une application qui inclut à la fois des effets de groupe et des effets

temporels. L'approche de Butler et Moffitt a été critiquée en raison de l a restriction d'une

corrélation égale entre les périodes. Mais elle a une vertu convaincante, à savoir que le modèle

peut être estimé efficacement, même avec des Ti assez importants, à l'aide de méthodes

75
informatiques conventionnelles. [Voir Greene, 2007b]

Un problème subsiste avec la spécification de Butler et Moffitt, à savoir son hypothèse de

la normalité. En général, les autres distributions posent des problèmes en raison de la difficulté à

trouver une forme fermée pour l'intégrale ou une méthode satisfaisante d'approximation de

l'intégrale. Une

76
La méthode du maximum de vraisemblance simulée est une autre approche qui offre une certaine souplesse.

(MSL). La probabilité transformée que nous avons dérivée est une attente :

⎡ iT
+∞ ⎤
Liyit= ∫�∞t =1⎢∏Pr ob ( Yit = xit' β + ui ⎥ f (ui )dui
)
T⎣ ⎤⎦
=
Eui
⎢∏Pr ob ( Yit = yit xit β + ui ⎥
'
)
⎣ t =1 ⎦

Cette espérance peut être approchée par simulation plutôt que par quadrature. Tout d'abord, laissons θ
maintenant

dénote le paramètre d'échelle dans la ui . Ce serait σu pour une distribution normale,


distribution de

par exemple, ou toute autre échelle pour la distribution logistique ou uniforme. Ensuite, écrivez

le terme de la fonction de vraisemblance comme suit



L = E ⎡ Ti F y ,Ex' β +θu( = ⎡h (u )⎤ )
iui ⎢∏ it iti ⎥
ui ⎣ i⎦
⎣ t =1 ⎦

La fonction est lisse, continue et continuellement différentiable. Si cette espérance est finie, alors

les conditions de la loi des grands nombres devraient s'appliquer, ce qui signifierait que pour un

échantillon d'observations ui1, ,uiR ,


∑R
p lim 1 h (u ) = E ⎡h (u )⎤
iru ⎣ i⎦
R r =1

Cela suggère, sur la base des résultats de Greene (2012), une méthode alternative de

maximisation de la log-vraisemblance pour le modèle à effets aléatoires. Un échantillon de

tirages spécifiques à une personne de la

population peut être généré à l'aide d'un générateur de nombres aléatoires. Pour les modèles de Butler et
ui
Moffitt

avec ui normalement distribué, la fonction de log-vraisemblance simulée est

77
N
⎧⎪ 1 ⎡ Ti ⎡ ' ⎤⎤⎫⎪
ln LSimulé = ∑ln ⎨ ⎢∏F ⎣(2 yik -1) xit β +σuuir )⎦⎥⎬
(
R
i=1 ⎪⎩ ⎣ t =1 ⎦⎪⎭

78
Cette fonction est maximisée par rapport à β et à σu . Notons que dans ce qui précède, comme dans le

Grâce à la log-vraisemblance approximée par quadrature, le modèle peut être basé sur un probit,

un logit ou toute autre forme fonctionnelle souhaitée. Nous avons examiné deux approches de

l'estimation d'un modèle probit avec effets aléatoires. L'estimation GMM est une autre

possibilité. Avery, Hansen et Hotz (1983), Bertschek et Lechner (1998) et Inkmann (2000)

examinent cette approche ; ces deux derniers proposent une comparaison avec les estimateurs par

quadrature et par simulation examinés ici.

6.3 LES MODÈLES À EFFETS FIXES

Le modèle à effets fixes est le suivant

y* = α d + x' β + ε ; i = 1, , N ; t = 1, ,T
iti it it it

yit = 1, si yil* > 0 , et 0 sinon,

où dit est une variable muette qui prend la valeur un pour l'individu i et zéro sinon. Pour les

nous avons redéfini la notion de xit comme étant les variables non constantes du modèle. Les paramètres

à estimer sont les K éléments de β et les N termes constants individuels. Avant d'examiner les

différentes vertus et lacunes de ce modèle, nous nous pencherons sur les aspects pratiques de
l'estimation de la valeur de β.

l'estimation d'un nombre probablement considérable de paramètres, ( N + K ) - N n'est pas

limité ici, et pourrait atteindre des milliers dans une application typique. La fonction de log-

vraisemblance pour le paramètre fixe

Le modèle des effets est


ln L = ∑
N Ti
ln P yit α + x β )
i=1 t =1
∑ ( i
'
it

où P (.) est la probabilité du résultat observé, par exemple, Φ ⎣⎡ q (α + x' β ) ⎤⎦ pour les
79
il i it

modèle probit ou Λ ⎣ ⎡ilq (α + x' β ) ⎤ ⎦


i it = 2y it -Ce qui suit peut être
pour le modèle logit, où ql'article

80
étendu à n'importe quel modèle de fonction d'indice, mais pour l'instant, nous nous limiterons

aux distributions symétriques telles que la normale et la logistique, de sorte que la probabilité

puisse être calculée à l'aide de l'équation suivante


l'article it l'article it i it

Il est commode de Pr ob =yx ) =P (α + x' β ) ⎤ ⎦ . Il sera commode de laisser


l'écrire sous la forme (Y ⎣⎡ q
suivante

z = α + x' β donc Pr =yx ) = P (q z ) .


il i ob(itY l'article it il it it

Dans notre précédente application de ce modèle, dans le cas de la régression linéaire,

nous avons constaté que l'estimation des paramètres était rendue possible par une transformation

des données en écarts par rapport aux moyennes du groupe, ce qui éliminait les constantes

spécifiques à la personne de l'estimateur. Sauf dans l e c a s particulier discuté plus loin, cela ne

sera pas possible ici, de sorte que si l'on souhaite estimer l e s paramètres de ce modèle, il sera

nécessaire de calculer en même temps le nombre éventuellement énorme de termes constants.

Cela a été largement considéré comme un obstacle pratique à l'estimation de ce modèle en raison

de la nécessité d'inverser une matrice de dérivées secondes potentiellement importante, mais il

s'agit d'une idée fausse. [La méthode d'estimation des modèles non linéaires à effets fixes, tels

que les modèles probit et logit, est décrite en détail dans Greene (2012). Les problèmes liés à

l'estimateur des effets fixes sont d'ordre statistique et non pratique. Les

s'appuie sur croissant pour que les termes constants soient cohérents - par essence,
Ti αi est
chaque

estimée avec Tiobservations. Mais, dans ce contexte, non Ti fixé, il est susceptible d'être assez
seulement

petit. Ainsi, les estimateurs des termes constants ne sont pas cohérents (non pas parce qu'ils

convergent vers quelque chose d'autre que ce qu'ils essaient d'estimer, mais parce qu'ils ne
81
convergent pas à

tous). L'estimateur de β est une fonction des estimateurs de α , ce qui signifie que la MLE de β est

n'est pas cohérente non plus. Il s'agit du problème des paramètres accessoires. [Voir Neyman et Scott
(1948)

et Lancaster (2000)]. Il existe également un petit échantillon Ti ) dans les estimateurs. Comment
(petit

La gravité de ce biais reste une question dans la littérature. Deux idées reçues sont

82
les résultats de Hsiao (1986) pour un modèle logit binaire [avec des résultats supplémentaires dans
Abrevaya (1997)] et

Les résultats de Heckman et MaCurdy (1980) pour le modèle probit. Hsiao a constaté Ti = 2 , le
que pour

dans la MLE de β est de 100 % , ce qui est extrêmement pessimiste. Heckman et MaCurdy

Une étude de Monte Carlo a montré que dans les N =100 et T = 8, le biais semble se situer au niveau des
échantillons de

de l'ordre de 10 %, ce qui est important, mais certainement moins grave que ce que suggèrent les

résultats de Hsiao. Aucun autre résultat théorique n'a été obtenu pour d'autres modèles, bien que

dans de très rares cas, on puisse montrer qu'il n'y a pas de problème de paramètres accessoires.

(Le modèle de Poisson mentionné dans Greene (2012) est l'un de ces cas particuliers).

L'approche des effets fixes présente un certain intérêt dans la mesure où elle ne nécessite pas

d'hypothèse d'orthogonalité des variables indépendantes et de l'hétérogénéité. La littérature se

penche actuellement sur la gravité du compromis entre cette vertu et le problème des paramètres

accessoires. Certains commentaires sur cette question figurent dans Arellano (2001). Les

résultats de notre propre enquête figurent dans Greene (2004).

6.4 UN ESTIMATEUR D'EFFETS FIXES CONDITIONNELS

Pourquoi le problème des paramètres incidents se pose-t-il ici et non dans le modèle de

régression linéaire ? Rappelons que l'estimation dans le modèle de régression était basée sur les

écarts par rapport aux moyennes des groupes, et non sur les données originales comme c'est le

cas ici. Le résultat que nous avons exploité est que, bien que

f( yit Xi )est fonction de αi , f ( yit Xi )


, yi n'est pas une , et nous avons utilisé cette dernière
αi
dans
fonction de

estimation de β . Dans ce cadre, yi est une statistique suffisante minimale pour αi . Statistiques suffisantes

83
sont disponibles pour quelques distributions que nous allons examiner, mais pas pour le modèle

probit. Elles sont disponibles pour le modèle logit, que nous examinons maintenant.

Un modèle logit binaire à effets fixes est

84
eαi + x'ilβ
Pr ob ( yit = 1 xit ) '

=
1+ eα + xit β
i

La vraisemblance non conditionnelle pour les observations indépendantes NT est

1- yit )
L = ∏∏( F l'article
)yit (1- F )it(
i t

Chamberlain (1980) [ à la suite de Rasch ( 1960) et Andersen ( 1970)] a observé que la

fonction de vraisemblance conditionnelle,


N T
⎛ ⎞
LC = ∏Pr ob ⎜Yi1 = yi1,Yi 2 = yi 2 , ,YiTi = yiTi ∑ yit ⎟
i=1 ⎝ t =1 ⎠

est libre des paramètres accessoires, αi . La vraisemblance conjointe pour Observations sur le Ti
chaque ensemble de

conditionné par le nombre de uns dans l'ensemble est


N T
⎛ ⎞
LC = ∏Pr ob ,YiTi = yiTi ∑
⎜Yi1 = yi1,Yi 2 = yi 2 , yit , data ⎟
i=1 ⎝ t =1 ⎠
= exp (∑Ti
t
=1
'
y xil ilβ )
∑∑t dit =si
exp (∑Ti
t
=1
'
d xil ilβ )
⎛Ti ⎞
La fonction au dénominateur est additionnée sur l'ensemble de différentes séquences de Ti
tous les ⎜s⎟
⎝ i⎠
Ti
les zéros et les uns qui ont la même somme = t yit .
=1
que si

Prenons l'exemple de Ti = 2 . La vraisemblance inconditionnelle est

L = ∏Pr ob (Yi1 = yi1 )Pr ob (Yi2 = yi2 )


i

Pour chaque paire d'observations, nous avons ces possibilités :

85
1. yi1 = 0 et yi 2 = 0 . Pr ob (0, 0 somme = 0) = 1.

86
2. yi1 = 1 et yi2 = 1. Pr ob (1,1 somme = 2) = 1.

Le ième terme de Lc pour l'un ou l'autre de ces éléments n'est qu'un seul, de sorte qu'ils ne contribuent en
rien à l'évaluation conditionnelle.

fonction de vraisemblance. Lorsque nous prenons les logs, ces termes (et ces observations) disparaissent.
Mais

Supposons yi1 = 0 et yi2 = 1. Dans ce cas


que

Pr ob (0,1 et somme = Pr ob (0,1)


3. Pr ob (0,1 somme = 1) = =
1) Pr ob (somme Pr ob (0,1) + Pr ob (1, 0)
= 1)

Par conséquent, pour cette paire d'observations, la probabilité conditionnelle est la suivante

eαi + x'i β
1βα + x '
2
βα + x' x' β

1+ e i i1 1+ e i i 2eα + x β e i2
eα + x β ' ' = ex β ex β
' '
1 i
i2 i i1 1 i1 + i2

+
1+ eα + xi1β 1+ eα + xiβ2 1+ eα i+i1 x β 1+ eα + xiβ2
' ' ' '
i i i

En conditionnant la somme des deux observations, nous avons supprimé l'hétérogénéité. Par

conséquent, nous pouvons construire la fonction de vraisemblance conditionnelle comme le

produit de ces termes pour les paires d'observations pour lesquelles les deux observations sont

(0,1). Les paires d'observations avec


un et zéro sont inclus de manière analogue. Le produit des termes tels que ceux qui précèdent, pour ceux
qui

les ensembles d'observations pour lesquels la somme Ti , constitue la vraisemblance conditionnelle.


n'est pas nulle ou

La maximisation de la fonction résultante est simple et peut être réalisée par des méthodes

conventionnelles. Comme dans le modèle de régression linéaire, il est intéressant de vérifier s'il

existe effectivement une hétérogénéité. Avec l'homogénéité (αi = α ), il n'y a pas de problème

87
inhabituel et le modèle peut être

estimée, comme d'habitude, comme un modèle logit. Il n'est pas possible de tester l'hypothèse à l'aide de la
méthode de la vraisemblance.

Cependant, le test du ratio de la variance n'est pas possible car les deux vraisemblances ne sont

pas comparables (la vraisemblance conditionnelle est basée sur un ensemble de données

restreint). (La vraisemblance conditionnelle est basée sur un ensemble de données restreint.)

Aucun des tests habituels de restriction ne peut être utilisé car les effets individuels ne sont

jamais réellement estimés. Le test de spécification de Hausman (1978) est un test de

spécification naturel.

88
Cependant, il n'est pas nécessaire d'en utiliser un ici. Sous l'hypothèse nulle d'homogénéité,

l'estimateur conditionnel du maximum de vraisemblance de Chamberlain (CMLE) et l'estimateur

habituel du maximum de vraisemblance

sont cohérentes, mais celle de Chamberlain est inefficace. (Il n'utilise pas l'information selon laquelle αi = α
, et il

peut ne pas utiliser toutes les données). Sous l'hypothèse alternative, l'estimateur inconditionnel

du maximum de vraisemblance est incohérent, alors que l'estimateur de Chamberlain est

cohérent et efficace. Le test de Hausman peut être basé sur la statistique du khi-deux

"
(
χ2 = β CML - β
ML
) ⎣⎡Var (CML) -Var (CL ⎦ (β
)⎤-1
CML - β ML )
Les matrices de covariance estimées sont celles calculées pour les deux estimateurs du maximum

de vraisemblance. Pour l'estimateur inconditionnel du maximum de vraisemblance, la ligne et la

colonne correspondant au terme constant sont supprimées. Une valeur élevée met en doute

l'hypothèse d'homogénéité. (Il est possible que la matrice de covariance de l'estimateur du

maximum de vraisemblance soit plus grande que celle de l'estimateur du maximum de

vraisemblance conditionnel. Si c'est le cas, la matrice de différence entre parenthèses est

supposée être une matrice nulle, et la statistique du khi-deux est donc nulle.

6.5 L'APPROCHE DE MUNDLAK, L'ADDITION DE VARIABLES ET LA RÉDUCTION DES


BIAIS

Jusqu'à présent, les spécifications des effets fixes (FE) et des effets aléatoires (RE)

présentent toutes deux des problèmes pour la modélisation du choix binaire avec des données de

panel. La MLE du modèle à effets fixes est incohérente même si le modèle est correctement

spécifié - c'est le problème des paramètres accessoires. (Et, comme le m o d è l e linéaire, les

89
modèles probit et logit FE ne permettent pas l'utilisation de régresseurs invariants dans le temps).

La spécification des effets aléatoires exige une hypothèse forte, souvent déraisonnable, selon

laquelle les effets et les régresseurs ne sont pas corrélés. Des deux, le modèle FE est le plus

attrayant, bien qu'avec

90
Dans le cas d'ensembles de données longitudinales modernes comportant de nombreuses données

démographiques, le problème des variables invariantes dans le temps semble impérieux. Cela

semble recommander l'estimateur conditionnel de Greene (2012), à l'exception d'une autre

complication. En l'absence d'estimations des termes constants, ni les probabilités ni les effets

partiels ne peuvent être calculés avec les résultats. Il ne nous reste plus qu'à faire des inférences

sur les ratios des coefficients. Deux approches ont été proposées pour trouver un juste milieu :

L'approche de Mundlak (1978) qui consiste à projeter les effets sur les moyennes de groupe des

variables variant dans le temps et les développements récents tels que l'approche de Fernandez-

Val (2009) qui consiste à corriger le biais dans la MLE FE. L'approche de Mundlak (1978) [et

Chamberlain (1984) et Wooldridge, par exemple (2002a)] complète (17-44) comme suit :

91

Vous aimerez peut-être aussi