STATS308 CH 04

Chapitre 4
Les modles de choix binaire

Les modles de rgression linaire dvelopps ci-dessus concernent une variable
dpendante continue (comme par exemple le salaire ou le taux de chmage). Ce
chapitre considre des modles de rgression pour une variable dpendante discrte,
cest--dire prenant un nombre fini de valeurs possibles. Nous commencerons par
la situation la plus simple dans laquelle la variable dpendante prend deux valeurs
possibles.
4.1
Exemples et dfinitions
De nombreux phnomnes conomiques peuvent tre modliss comme un choix

entre plusieurs alternatives possibles. Commenons par quelques exemples.
1. Supposons que lon sintresse aux modes de transport utiliss par les travailleurs en Belgique. Plus spcifiquement, on sintresse au choix des travailleurs entre le transport en commun ou le transport priv. La variable
dpendante que nous souhaitons tudier prend ici deux valeurs possibles :
transport public ou transport priv. Si Yi reprsente le mode de transport choisi par lindividu i, on crit par exemple
(
0 Si lindividu i utilise un transport priv
Yi =
1 Si lindividu i utilise un transport public
Dans cet exemple, il serait intressant de pouvoir expliquer le choix du mode
de transport en fonction de variables explicatives (par exemple le revenu, la
composition familiale, la rgion dhabitation, les avantages fiscaux utiliser
le transport en commun, etc.).
Une telle variable Yi prenant deux valeurs possibles est une variable de choix
binaire.
2. Les universits peuvent sintresser au choix des tudiants pour leur tablissement denseignement suprieur. Ce choix est en effet dterminant pour son
ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 166

financement. Si Yi reprsente luniversit choisie par ltudiant i, on crit par
exemple
1 Si ltudiant i choisit lUCL
2 Si ltudiant i choisit lULB
3 Si ltudiant i choisit lULg

Yi =
4 Si ltudiant i choisit une autre universit
de la Communaut franaise
5 Si ltudiant i choisit une autre universit
que les prcites

Il serait intressant dtudier le choix de luniversit en fonction de variables
explicatives telles que la distance entre le domicile et luniversit, le rseau de
ltablissement denseignement secondaire de ltudiant, les caractristiques
socio-conomiques de la famille, etc.
Une telle variable Yi prenant plus de deux valeurs possibles est une variable
de choix multiple.
3. Lorsquon sintresse aux salaires dans une population donne, il nest pas
toujours ncessaire dexpliquer cette variable dpendante leuro prs. On
est parfois amen considrer des catgories de salaire, comme par exemple :
1 Si le revenu annuel du mnage i est en dessous 20k

2 Si le revenu annuel du mnage i est entre 20k et 25k
Yi =
... ...
Dans cet exemple, une variables discrte multiple a t construire partir
de la variable continue de salaire. La variable Yi ainsi dfinie sappelle une
variable catgorielle.
4. On peut galement faire une distinction dans les variables de choix multiple.
Dans lexemple prcdent, la variable dpendante prsente un ordre logique
pour prsenter les catgories : Y = 1 reprsente les plus bas revenus, Y = 2
reprsente la catgorie de revenu juste suprieure etc.
Dans certaines situations, il ny a pas dordre logique dans lencodage de la
variable Y . titre dexemple, considrons nouveau le choix du mode de
transport et affinons notre analyse en prcisant si un individu qui choisit le
transport en commun utilise le bus ou le train. Dans ce cas, on peut encoder
la variable dpendante comme suit :
1 Si lindividu i utilise la voiture

Yi =
2 Si lindividu i utilise le bus
3 Si lindividu i utilise le train

Remarquons que cet encodage est arbitraire puisquon aurait pu encoder
par "1" les individus prenant le train. Lorsque, comme dans cet exemple, la
variable dpendante nindique aucun ordre naturel dans la variable discrte,
on parle de variable discrte non ordonne.
Les diffrentes situations numres ci-dessus sont importantes car elles vont
dicter la stratgie de modlisation du choix des individus. Comme nous lavons
fait dans les chapitres prcdents, nous dveloppons ci-dessous des modles pour
lesprance conditionnelle
E(Y |X1 , X2 , . . . , XK )
(4.1)
cest--dire pour la valeur attendue du choix Y conditionnellement un vecteur

de variables explicatives. Ce que nous souhaitons surtout analyser, cest limpact
de chacune des variables explicatives sur le choix Y . A titre dexemple, on peut se
poser la question : Quel est limpact dun accroissement des avantages fiscaux sur
le choix du mode de transport dun individu ?
Le prsent chapitre se concentre sur les variables dpendantes binaires.
4.2
Le modle de probabilit linaire (LPM)
Soit Y une variable binaire prenant les valeurs 0 et 1, et X = (X1 , . . . , XK ) un

ensemble de variables explicatives. Pour se fixer les ides, nous allons travailler sur
lexemple concret suivant.
Exemple
La Grande-Bretagne tient jour une base de donnes sur les mnages britanniques 1 que nous souhaitons utiliser pour expliquer lemploi. Nous nous
concentrons sur un chantillon de familles monoparentales tudi notamment
par Duncan (2005). Nous nous intressons la variable dpendante binaire
Y = 1 si le parent travaille, Y = 0 sil ne travaille pas. Nous avons disposition une series de variables explicatives :
X1 = AGE = ge du parent
X2 = TEA = nombre dannes dducation du parent
X3 = MARITAL = statut civil (prenant quatre valeurs : clibataire,

veuf, divorc ou spar)
X4 = TOTKIDS = nombre denfants dans le mnage
X5 = YOUNGCH = ge du plus jeune enfant
X6 = WHITE = indique si lindividu est blanc (=1) ou non
En laborant un modle pour (4.1), on sintresse linfluence de chacune de

ces variables explicatives sur lemploi, cest--dire sur la valeur attendue de
la variable binaire Y .
1. Disponible la page www.data-archive.ac.uk.

Comme la variable Y est binaire, nous calculons directement :
E(Y |X) = P(Y = 1|X) .
En dautres termes, lesprance conditionnelle sinterprte simplement comme une
probabilit conditionnelle. En analogie avec le modle de rgression linaire, nous
modliserons cette probabilit comme une fonction linaire des variables explicatives :
E(Y |X) = 1X1 + 2 X2 + . . . + K XK
=X.
(4.2)
Comme lesprance conditionnelle concide ici avec une probabilit conditionnelle,

ce modle sappelle le modle de probabilit linaire (LPM 2 ). Comme dans le cas
de la rgression linaire, on introduit la variable alatoire derreur := Y E(Y |X)
et le modle LPM se dfinit de faon quivalente
Y = X + .
(4.3)
En dpit de sa ressemblance formelle avec le modle de rgression linaire, le

modle LPM comporte de srieux inconvnients.
Tout dabord, observons que la variable derreur est htroscdastique et dpend du paramtre inconnu . Puisque X + doit tre gal 0 ou 1 avec la probabilit P(Y = 0|X) ou P(Y = 1|X) respectivement, lerreur doit valoir (X )
ou (1 X ) avec les probabilits correspondantes. La variance conditionnelle de
lerreur est donc gale
Var(|X) = (X )2 P(Y = 0|X) + (1 X )2 P(Y = 1|X)
en utilisant P(Y = 0|X) = 1 P(Y = 1|X) pour la variable binaire Y , on obtient
immdiatement
Var(|X) = X (1 X ) .
Cette dernire expression montre que la variable derreur dans le modle (4.3) est
htroscdastique. De plus, cette htroscdasticit nest pas connue en pratique
car elle dpend des paramtres estimer.
Pour remdier au problme dhtroscdasticit, nous pouvons ventuellement
utiliser lestimateur OLS robuste (Section 3.3.4). Cependant, mme si nous utilisons
cet estimateur, un problme plus srieux subsiste en ce qui concerne la prdiction.
le prdicteur dans le
En effet, supposer que nous obtenions un estimateur ,
modle linaire (4.3) scrira
Y0 = X 0
2. Linear Probability Model.

et rien nassure que Y0 soit bien une probabilit comprise entre 0 et 1. Pour voir ce
phnomne autrement, rien nassure dans le modle (4.2) que la droite de rgression
X soit bien comprise entre 0 et 1, donc modlise valablement la probabilit
conditionnelle P(Y = 1|X).
Pour ces raisons, le modle linaire LPM nest pas souvent utilis dans les
modles de choix discrets. 3
4.3
Les modles probit et logit
4.3.1
Lapproche par transformation
Lide des modles probit et logit est de modifier le modle linaire (4.2) en
imposant que lesprance E(Y |X) soit comprise entre 0 et 1. Pour ce faire, on
remplace le modle (4.2) par le modle
E(Y |X) = G (1 X1 + 2 X2 + . . . + K XK )
=G X
(4.4)
o G est une fonction choisie par lconomtre et comprise entre 0 et 1 (donc

telle que 0 6 G(z) 6 1 pour tout z). Le rle de la fonction G est de transformer
le modle linaire X pouvant prendre des valeurs sur (, ), en un modle
G(X ) satisfaisant la contrainte de rester sur lintervalle [0, 1].
Quelle fonction G choisir ? Il y a traditionnellement deux choix possibles pour
cette fonction. Ces choix, que nous allons prsent dfinir, portent le nom de
modle probit et modle logit.
4.3.2
Le modle probit
Dans le cas du modle probit, on choisit comme fonction G la fonction de distribution de la variable alatoire Normale standardise. Rappelons que la fonction
de densit de la loi Normale standardise est
1
2
(u) = eu /2 ,
2
uR.
Cette fonction est reprsente la Figure 4.1(a). La fonction de distribution correspondante est
Z z
(u)du, z R
(z) =
et est reprsente la Figure 4.1(b).

3. Des auteurs ont propos certaines corrections afin de solutionner les problmes du
modle LPM. Voir Judge, Griffiths, Hill, and Lee (1985) pour une discussion plus dtaille.
0.0
0.0
0.2
0.1
0.4
0.2
0.6
0.3
0.8
1.0
0.4
(a) Fonction de densit .
(b) Fonction de distribution .
Figure 4.1: Fonctions de distribution et fonction de densit de

la loi Normale standardise N (0, 1).
Comme toute fonction de distribution, la fonction (z) est comprise entre 0
et 1. Elle constitue donc une fonction possible pour jouer le rle de la fonction G
dans le modle (4.4). Le modle probit scrit donc :

(4.5)
E(Y |X) = P(Y = 1|X) = X .
4.3.3
Le modle logit
Un autre choix populaire pour la fonction G est la fonction logistique

(z) =
ez
1 + ez
qui est, elle aussi, comprise entre 0 et 1. Cette fonction est reprsente la figure
4.2.
Le modle logit (ou logistique) scrit alors

(4.6)
E(Y |X) = P(Y = 1|X) = X .
4.3.4
Interprtation et comparaison des modles
Nous rsumons les trois modles dvelopps ci-dessus :

Le Modle LPM : P(Y = 1|X) = X ,
Le Modle Probit : P(Y = 1|X) = (X ),
Le Modle Logit : P(Y = 1|X) = (X ).
0.0
0.2
0.4
0.6
0.8
1.0
Figure 4.2: Fonctions logistique (z).

Dans ces trois modles, la probabilit est modlise par une fonction monotone
des variables exognes X. Nous avons donc la premire interprtation intuitive
suivante : si le paramtre j associ la variable explicative Xj est positif (resp.
ngatif), alors, ceteris paribus, la probabilit conditionnelle P(Y = 1|X) augmentera (resp. diminuera) si la variable Xj augmente.
Que pouvons-nous dire de la magnitude de cette variation, cest--dire de leffet
marginal de la variable Xk ? Pour rpondre cette question, nous calculons la
drive partielle 4
P(Y = 1|X)
Xj
dans chacun des trois modles. Nous trouvons : 5
Dans le modle LPM :
P(Y = 1|X)
= j
Xj
Dans le modle Probit :
P(Y = 1|X)
= (X )j
Xj
Dans le modle Logit :
exp(X )
P(Y = 1|X)
=
j
Xj
{1 + exp(X )}2
4. Voir la section 2.3 ci-dessus
5. Exercice utile

Leffet marginal est modlis trs diffrement dans les trois modles. On constate
tout de suite que les paramtres j des trois modles ne sont absolument pas comparables entre eux. De plus, le coefficient j ne reprsente leffet marginal de la
variable Xj que dans le modle LPM. Dans les modles probit et logit, leffet marginal varie en fonction de toutes les variables exognes X1 , . . . , XK .
Exemple
Reprenons lexemple du mode de transport o Y = 0 si lindividu utilise un
transport priv, et Y = 1 si lindividu utilise les transports publics. Imaginons
que nous analysions ce choix par rapport un ensemble de variables explicatives X parmi lesquelles se trouve la variable tps reprsentant le temps de
parcours domicile-travail.
1. Si le terme X est lev, disons gal 3, alors, dans les modles logit ou
probit, la probabilit que lindividu utilise le transport en commun est
proche de 1 (car (3) et (3) sont proches de 1). Dans ce cas, quel est
exp(3)
leffet marginal de la variable tps ? On observe que (3) et {1+exp(3)}
2
sont proches de 0, donc leffet marginal sera lui-mme pratiquement
nul.
Cela signifie quun changement dans la variable temps de parcours
aura peu dimpact sur le choix du transport de lindividu. Cet effet est
naturel car lindividu possdant une combinaison linaire X leve
est prdispos utiliser les transports en commun et son comportement sera assez robuste face un petit changement dans une variable
explicative particulire, comme tps.
2. Au contraire, si le terme X est proche de zro, (X ) et (X )
sera proche de 1/2. Nous sommes ici dans la situation o lindividu opte
pour un mode de transport avec une probabilit 1/2. Cet individu est
donc indcis. Quen est-il de leffet marginal ? Ici leffet marginal sera
maximal, ce qui signifie que le choix de lindividu sera trs influenc par
un changement dans une des variables explicatives, comme par exemple
le temps de parcours domicile-travail.
4.4
Modlisation par variable latente
Nous developpons une autre interprtation usuelle des modles de choix discret.
Il ne sagit pas vraiment dun nouveau modle, mais plutt dun autre point de
vue sur les modles introduits ci-dessus.
Dans cette approche, on suppose quil existe une variable continue Y qui nest
pas observe, mais qui mesure la propension dun individu faire son choix. Bien
que nous nobservions pas cette propension Y directement, nous constatons le
choix qui en rsulte, modlise par la variable binaire Y que nous relions Y par

lquation :
(
Y =
1 si Y > 0
0 si Y 6 0
(4.7)
Exemple
Dans lexemple ci-dessus du march du travail pour les familles monoparentales, Y pourrait modliser lintensit avec laquelle un individu souhaite
travailler (il sagit dun exemple simpliste du phnomne, mais qui illustre
la notion de propension). Plus leve est cette intensit, plus il est probable
dobserver un individu qui travaille.
Une variable comme Y qui est inobserve mais qui explique le phnomne
analys est appele une variable latente. Dans cette stratgie de modlisation, il
faut alors imposer des conditions sur la variable latente elle-mme. La condition
la plus simple consite modliser Y comme un modle de rgression linaire des
variables exognes :
Y = 1X1 + . . . + K XK +
=X +.
(4.8)
Avec ce modle, on drive immdiatement la structure de lesprance conditionnelle

E(Y |X) :
E(Y |X) = P(Y = 1|X)
= P(Y > 0|X)
= P(1 X1 + . . . + K XK + > 0|X)
= P( > X |X) .
(car Y {0, 1})

(par quation (4.7))
(par quation (4.8))
(manipulation de lingalit)
Si la distribution conditionnelle de lerreur est symtrique autour de zro, on peut

simplifier cette dernire expression :
E(Y |X) = P( < X |X)
= F|X (X ) .
(par symtrie de la densit conditionnelle de )
o la fonction F|X reprsente la distribution conditionnelle de la variable (conditionnellement X).

On retrouve bien lapproche par transformation prcdente, en considrant
G(X ) = F|X (X ).
Interprtation par les modles dutilit stochastique

Une justification de lapproche par variable latente peut se trouver dans la
thorie conomique des comportements base sur les fonctions dutilit. Supposons
que Y reprsente comme dans un exemple ci-dessus le statut professionnel (Y = 1 si
lindividu travaille, Y = 0 si lindividu ne travaille pas) et supposons que les deux

issues possibles (travailler ou ne pas travailler) soient dcrites par les fonctions
dutilit UY =0 et UY =1 supposes linaires :
UY =1 = X 1 + 1
UY =0 = X 0 + 0 .
Avec cette caractrisation, un individu choisira de travailler si lutilit dont il bnficie en travaillant (note UY =1 ) excde lutilit obtenue en demeurant sans emploi
(note UY =0 ). Le choix de travailler est donc ralis si UY =1 > UY =0 . En dautres
termes, la variable binaire Y reprsentant la participation au march du travail est
telle que
(
1 si UY =1 > UY =0
Y =
0 sinon
et donc, en utilisant la linarit des fonctions dutilit,
E(Y |X) = P(UY =1 > UY =0 |X)
= P(X ( 1 0 ) + 1 0 > 0|X) .
Dans ce modle, les paramtres 0 et 1 ne sont clairement pas identifiables, mais
on peut identifier leur diffrence. En notant = 1 0 et = 1 0 , on obtient
comme ci-dessus
E(Y |X) = P(X + > 0|X) .
4.5
Estimation
lexception du modle LPM, la relation entre entre lesprance conditionnelle

E(Y |X) et les paramtres nest pas linaire car elle fait intervenir la fonction de
tranformation G. Lestimation dans un tel modle non linaire est plus souvent fonde sur le principe du maximum de vraisemblance que sur le principe des moindres
carrs.
Nous allons tout dabord rappeler quelques rsultats importants du principe du
maximum de vraisemblance. 6
4.5.1
Rappel : le principe du maximum de vraisemblance
Dans le cadre de ce rappel sur le principe du maximum de vraisemblance, nous

allons travailler dans un modle simple. Considrons les 10 observations indpen6. Cette technique destimation a dj t tudie au cours de statistique de 2me
anne.

dantes suivantes provenant dune distribution Bernoulli : 7
Z1 = 1, Z2 = 0, Z3 = 0, Z4 = 0, Z5 = 0,
Z6 = 0, Z7 = 1, Z8 = 0, Z9 = 1, Z10 = 0. (4.9)
Nous souhaitons estimer le paramtre de la variable Bernoulli ayant gnr
ces donnes. La distribution de probabilit de chaque observation Zi est dtermine
par
(
si zi = 1
P(Zi = zi ) =
1 si zi = 0
= zi (1 )1zi
Puisque les observations Zi sont indpendantes, la probabilit jointe est gale
au produit des probabilits :
P(Z1 = 1, Z2 = 0, , Z10 = 0)
= P(Z
1 = 1) P(Z2 = 0) P(Z10 = 0)
= 31 (1 )70 0 (1 )1 0 (1 )1
= (1 ) .
Cette dernire probabilit sinterprte comme suit : en supposant que les donnes
ont t gnres par une loi de Bernoulli de paramtre , la probabilit dobserver
lchantillon (4.9) est gale 3 (1 )7 .
Le principe du maximum de vraisemblance consiste choisir la valeur de
qui rende lobservation de cet chantillon la plus probable. La figure 4.3 reprsente
la probabilit 3 (1 )7 en fonction des diffrentes valeurs possibles de . Cette
fonction possde un mode, et son maximum est atteint en 3/10. Lide est que
la valeur = 3/10 correspond au paramtre le plus vraisemblable tant donn
lchantillon observ.
La fonction de la figure 4.3 est la fonction de vraisemblance. Cette fonction est
dfinie dans notre exemple par
L(|Z1 , Z2 , . . . , Z10 ) := P(Z
1 = 1, Z2 = 0, , Z10 = 0)
= 3 (1 )7 .
Notez quil sagit dune fonction du paramtre conditionnellement lchantillon
observ. En pratique, on remplace souvent cette fonction par la fonction de logvraisemblance
(|Z1 , Z2 , . . . , Z10 ) := ln L(|Z1 , Z2 , . . . , Z10 ) .
7. Rappelons quune variable alatoire discrte Z suit une loi de Bernoulli de paramtre
si Z prend les deux valeurs 0 et 1 avec les probabilits repectives 1 et (0 6 6 1).
Sa fonction de distribution est donc P(Z = z) = z (1 )z o le nombre z ne prend que
les valeurs 0 ou 1. Il sagit dun cas particulier de la variable Binomiale (Voir cours de
probabilit de 1re anne).
0.0000
0.0005
0.0010
0.0015
0.0020
0.0
0.2
0.4
0.6
0.8
1.0
Figure 4.3: La fonction 7 3 (1 )7 atteint son maximum

en
b = 3/10.
qui est simplement le logarithme de la fonction de vraisemblance. La valeur du paramtre qui minimise est bien entendu la mme valeur du paramtre qui minimise
L. On peut donc baser linfrence sur la maximisation de , qui est souvent plus
facile traiter en pratique. Dans notre exemple, la fonction de log-vraisemblance
est
(|Z1 , Z2 , . . . , Z10 ) = 3 ln + 7 ln(1 ) .
Ce principe destimation se gnralise toutes les situations o un ou plusieurs
paramtres doivent tre estims. Dans bien des situations, lexpression de la fonction de vraisemblance est complique, et son maximum est impossible trouver
analytiquement. On a alors recours des mthodes numriques comme par exemple
la mthode de Newton.
Terminons ce rappel en nonant quelques proprits importantes de lestimateur de maximum de vraisemblance. Tout dabord, ce principe se gnralise naturellement lestimation dun vecteur de plusieurs paramtres = (1 , . . . , K ) . De
plus, sous des conditions de rgularit assez gnrales 8
1. Lestimateur par maximum de vraisemblance est consistant. En dautres
termes, si b
reprsente lestimateur par maximum de vraisemblance du vecP
teur de paramtres , alors b
.
2. Lestimateur par maximum de vraisemblance est asymptotiquement normal,

cest--dire :
L
n(b
) N (0, S) .
(4.10)
8. Pour un expos rigoureux de ces conditions, on pourra consulter par exemple Monfort
(1997).

La matrice de variance asymptotique S est dtermine par la forme de la
fonction de vraisemblance. On montre que cette matrice est limite pour n
tendant vers linfini de la matrice {In ()}1 o

1 2 ln L()
In () = E
n
cest--dire loppos de lesprance (calcule en utilisant le modle ) de la
matrice Hessienne de ln L().
3. On montre galement que lestimateur de maximum de vraisemblance est
efficace dans la classe des estimateurs consistants et asymptotiquement normaux (Thorme de Cramr-Rao).
4.5.2
Estimation par maximum de vraisemblance dans

le modle de choix discret
La variable alatoire Y est une variable binaire telle que

P(Y = 1|X) = G(X )
et
1|X)
P(Y = 0|X) = 1 P(Y =
= 1 G(X )
o, rappelons-le, G est la fonction dans le cas du modle probit, ou dans le
cas du modle logit.
La variable alatoire Y |X peut donc tre modlise comme une variable Bernoulli de paramtre = G(X ). En particulier, la distribution de probabilit de
Y |X scrit
1y
P(Y = y|X) = y {1 }

1y
y
= G(X ) 1 G(X )
pour y = 0 ou 1,
pour y = 0 ou 1.
Supposons prsent que lon observe un chantillon iid des variables (Y, X) de
taille n. Notons cet chantillon
Xn = {(Y1 , X 1 ), (Y2 , X 2 ), . . . , (Yn , X n )} .
En utilisant que chaque variable Yi |X i possde la distribution Bernoulli rappele
ci-dessus, et en notant que ces variables sont indpendantes, la fonction de vraisemblance de lchantillon Xn est alors donne par

1Y1
L(|Xn ) = G(X 1 )Y1 1 G(X 1 )
1Y2
G(X 2 )Y2 1 G(X 2 )

1Yn
G(X n )Yn 1 G(X n )
n
Y

1Yi
G(X i )Yi 1 G(X i )
.
=
i=1

Par le principe du maximum de vraisemblance, nous cherchons calculer la valeur du paramtre qui maximise la fonction L(|Xn ). Il est quivalent de chercher
le paramtre qui maximise la log-vraisemblance
(|Xn ) := ln
L(|Xn )
n
X

Yi ln G(X i ) + (1 Yi ) ln 1 G(X i ) .
=
i=1
Pour trouver le maximum de cette fonction, il faut rsoudre les quations de

log-vraisemblance
(|Xn ) = 0
dont il nexiste pas de solution analytique en gnral. La rsolution de ce systme
dquations est ralise par les logiciels en utilisant des procdures itratives pour
trouver des maxima de fonctions relles.
Exemple
Reprenons lexemple de la participation dun parent isol au march du travail. Un logiciel utilise une procdure itrative pour trouver les paramtres
maximisant la vraisemblance. Dans notre exemple, le logiciel R prcise le
nombre ditrations ncessaires afin de trouver une solution :
Number of Fisher Scoring iterations: 4
Le logiciel a calcul les valeurs suivantes des paramtres :
(Intercept)
AGE
TEA
TOTKIDS
YOUNGCH
WHITETRUE
MARITALSeparated
MARITALSingle
MARITALWidowed
Estimate Std. Error z value Pr(>|z|)

-0.790191
0.254745 -3.102 0.00192 **
0.017297
0.005682
3.044 0.00233 **
-0.004361
0.004809 -0.907 0.36444
-0.241375
0.037768 -6.391 1.65e-10 ***
0.066579
0.009276
7.178 7.09e-13 ***
0.220789
0.108132
2.042 0.04117 *
0.069997
0.086138
0.813 0.41644
-0.263126
0.086369 -3.047 0.00232 **
-0.312020
0.156283 -1.996 0.04588 *
Comment interprtez-vous les coefficients estims ? Comme dans le cas de

la rgression linaire avec variables dpendantes continues, le logiciel fournit
galement une estimation de lcart-type pour lestimation des coefficients, et
donne le rsultat dun test de significativit de ces coefficients estims. Nous
allons voir dans la suite comment ces valeurs sont calcules.
4.5.3
Estimation de la variance des estimateurs
Estimer la matrice de covariance de lestimateur par maximum de vraisemblance est une tche plus dlicate que pour lestimateur OLS dans le modle linaire. Si on considre la matrice donne par le thorme central limite (4.10), la
matrice de covariance asymptotique est donne par

1
=
I()
"
2 ()
E

#)1
Cette variance dpend du paramtre inconnu . On pourrait imaginer remplacer

b mais il rsultera calculer lesprance dune
le paramtre par son estimateur ,
expression nonlinaire trs difficile manipuler. Pour cette raison, deux autres
solutions sont en gnral considres en pratique.

Mthode itrative
Le premier estimateur consiste calculer
1
2 ()

\1 =
{I()}
.

b
=
Cet estimateur calcule la matrice Hessienne en lestimateur b (et non plus lesprance de la matrice).
Cet estimateur ncessite de calculer des drives secondes. Cest pourquoi dans
la pratique, on a nouveau recourt des mthodes itratives pour calculer cette
matrice.
Lestimateur BHHH
Cet estimateur tient son nom des travaux de Berndt, Hall, Hall, and Hausman
(1974). Ces auteurs se basent sur le fait que lesprance des drives secondes de la
matrice est gale la covariance du vecteur des premires drives 9 . Lestimateur
propos est donn par
( n
)1
X
\1 =
b
gb
g
.
{I()}
i i
i=1
o b
g i est le vecteur des premires drives
gi :=
b
ln G(X i )
.
b
Cet estimateur a lavantage dtre trs simple calculer, car il nutilise que
les premires drives dj calcules dans le travail de maximisation de la logvraisemblance. De plus, la matrice ainsi estime a lavantage dtre automatiquement non-dfinie ngative, comme doit ltre une matrice de covariance.
En utilisant la forme particulire des modles probit et logit, ces deux estimateurs se simplifient en des formules pouvant tre consultes, par exemple, dans
Amemiya (1985).
4.6
4.6.1
Tests
Tests de restriction linaire
Le test de restriction linaire, dont le test de significativit est un cas particulier,

peut tre construit partir des estimateurs de maximum de vraisemblance des
9. Ce rsultat nest pas trivial. Pour un approfondissement sur la mthode du maximum
de vraisemblance, voir Monfort (1997) ou le cours ECON2651 (Advanced Econometrics)

paramtres du modle non linaire. Lingrdient de base de cette construction est
le thorme central limite (4.10). Cette proprit permet de trouver la distribution
b et de toute combinaison linaire R,
b o la R est
asymptotique des estimateurs
la matrice exprimant la restriction tester, cf section 2.6 ci-dessus.
titre dexemple, supposons que nous souhaitions prouver lhypothse
H0 : 1 = 0
contre
H1 : 1 6= 0
Le thorme central limite (4.10) permet de conclure que lestimateur du maximum

de vraisemblance de 1 est tel que
n(1 1 )
suit approximativement une loi normale N (0, S11 ) o S1 1 est llment (1, 1) de
la matrice dinformation I(). Cette matrice tant inconnue en pratique, elle est
estime comme expliqu la section 4.5.3. Notons S11
lestimateur de la variance
p
ainsi obtenu. La statistique de test est donc n1 / S 1 1 qui, sous H0 , suit approximativement une loi de student tnK .
Exemple
Dans la sortie de lexemple de la page 179, la statistique de test t est automatiquement fournie pour le test de significativit (cest--dire H0 : j = 0).
La p-valeur est galement donne.
4.6.2
Test du rapport de vraisemblances
Le calcul de la vraisemblance permet de construire dautres tests de restriction

souvent utiles. Supposons que nous souhaitions tester une srie de contraintes sur
les paramtres du modle. A titre dexemple, considrons le test suivant :
H0 : tous les coefficients sauf celui de lventuelle constante sont nuls.
(Le rsultat de ce test est en ralit fourni par dfaut dans la sortie de nombreux
logiciels.)
Lide du test bas sur la vraisemblance est la suivante : Si la restriction propose par lhypothse H0 est vraie, alors en recalculant la vraisemblance sous la
contrainte que les coefficients considrs sont nuls, nous ne devrions pas observer une grande diffrence avec la vraisemblance calcule sans cette restriction. La
construction du test se base donc sur une comparaison entre la vraisemblance maximise dans le modle complet

LbU = L (1 , 2 , . . . , K ) |Xn = max L (1 , . . . , K ) |Xn
1 ,...,K

et la vraisemblance maximise sous H0 , cest--dire en ignorant tous les paramtres sauf 1 (nous supposons ici que la premire variable explicative modlise la
constante, donc X1 = 1) :

LbR = max L (1 , 0, . . . , 0) |Xn .
1
Afin de comparer ces deux valeurs, nous constuisons le rapport de vraisemblances 10

LR =
LbR
.
LbU
Si ce rapport est proche de 1, alors les deux vraisemblances sont similaires, et

cette situation est donc compatible avec lhypothse H0 . Au contraire, lorsque le
rapport de vraisemblance nest pas proche de 1, les deux vraisemblances diffrent
et lhypothse H0 sera remise en question. Le test du rapport de vraisemblances se
base sur la distribution suivante :
2 ln LR = 2(ln LbU ln LbR ) 2r
sous H0
o r est le nombre de restrictions (dans notre exemple, r = K 1).

Exemple
1. Dans lexemple de la page 179 :
LR (zero slopes) = 383.435 [.000]
Quelle est votre conclusion ?
2. Dans le mme exemple, on teste la significativit jointe des paramtres
de EDU et LOC (test de restriction, avec 2 restrictions). Les rsultats du
test sont
CHISQ(2) =
1.2171808
; P-value = 0.54412
Quelle est votre conclusion ?
Il existe dautres tests bass sur la vraisemblance que nous ne voyons pas dans le
cadre de ce cours. Une tude plus approfondie des tests bass sur la vraisemblance
est en gnral comprise dans un second cours dconomtrie 11 . Un bon point de
dpart dans la littrature sur le sujet est louvrage de Godfrey (1988).
10. LR est labbrviation de langlais Likelihood Ratio signifiant Rapport de vraisemblances.
11. Par exemple lactuel ECON3503 (Advanced Econometrics).
4.7
Mesures dajustement
Dans le but de juger de la prcision dun modle calibr aux donnes, un certain nombre de mesures ont t proposes suivant le principe du coefficient de
dtermination R2 tudi au chapitre 1.
4.7.1
Pseudos R2
Une possibilit pour construire un indice dajustement est de comparer la valeur

de la vraisemblance avec la valeur de la vraisemblance si le modle est seulement
estim avec un coefficient constant 1 sans aucune variable explicative. En utilisant
les notations de la section 4.6.2, il sagit de comparer LbU et LbR , o LbU reprsente le
maximum de la fonction de vraisemblance sans contrainte, et LbR est le maximum
de la fonction de vraisemblance calcule avec un seul paramtre 1 .
Une mesure dajustement propose par McFadden (1974) est dfinie par
Pseudo-R2 de McFadden = 1
ln LbU
.
ln LbR
La justification mathmatique de cette mesure dajustement nest pas identique

la dfinition du R2 , cest pourquoi on parle de pseudo-R2 . Lide de cette mesure
est la suivante. Par construction de la vraisemblance dans le modle binaire, la
vraisemblance est toujours plus petite ou gale 1. Pour un modle bien ajust, la
vraisemblance non restreinte LbU doit tre proche de 1, donc ln LbU est proche de 0,
et le pseudo-R2 est proche de 1. Au contraire, pour un modle mal ajust, LbU sera
proche de LbR et le pseudo-R2 est proche de zro.
Dautres mesures ont t proposes dans la littrature. Une mesure rcente
rgulirement utilise a t propose par Estrella (1998) et est dfinie comme suit :
"
ln LbU
Pseudo-R2 dEstrella = 1
ln LbR
4.7.2
# 2 ln LR
n
Mesure de prvision
Une autre faon de mesurer la qualit de lajustement est dexaminer la capacit

prdictive du modle estim. Lide ici est de calculer la proportion de prdictions
correctes du modle.
Afin de construire cette mesure, il faut tout dabord construire une rgle
partir de laquelle la prvision des probabilits P(Y = 1|X) peut conduire un
prdicteur discret de ltat Y = 0 ou Y = 1. Lapproche la plus simple est la
suivante : dfinissons le prdicteur
b
Pbi = G(X i )
pour tout i

o G est la transformation probit ou logit, et b est lestimateur par maximum de
vraisemblance. Le prdicteur Pbi reprsente notre estimateur de la probabilit que
lindividu i choisisse Yi = 1. Comme rgle de prvision du choix Yi , on considre
(
1 si Pbi > 0.5
Ybi :=
0 si Pbi 6 0.5
On peut prsent comparer notre prdiction du choix de chaque individu (Ybi ) avec
le choix rellement observ (Yi ). Cette comparaison peut prendre la forme dune
table de contingence :
Valeurs
Observes
0
1
Valeurs prdites
0
1
n00
n01
n10
n11
Dans cette table n00 reprsente le nombre dindividus choisissant Y = 0 pour

lequel notre modle a bien prdit Y = 0. De mme n11 reprsente le nombre
dindividus choisissant Y = 1 pour lequel nous avons prdit Y = 1. Au contraire,
les nombres n01 et n10 mesurent les erreurs de classification. Un modle bien ajust
aura donc des valeurs n00 et n11 maximales.
Dans les sorties de logiciels, cette mesure dajustement est donne par la proportion de prdictions correctes :
n00 + n11
n
o n est la taille de lchantillon. Un rapport proche de 1 signifie que le modle a
une capacit de prvision presque parfaite. Si ce rapport est proche de 0, alors le
modle a une mauvaise qualit prdictive.
Exemple
Dans lexemple de la page 179, :
Scaled R-squared = .196935
Fraction of Correct Predictions =
0.677419
Dans lchantillon, le modle a donc prdit correctement le choix de 67,7 %

individus.
4.8
Exercices sur le chapitre 4
Modles de choix binaire

Exercice 47. On cherche expliquer par un modle rponse binaire la probabilit de vote pour le candidat dmocrate Jimmy Carter aux lctions prsidentielles

amricaines de 1976 en fonction de caractristiques propres aux Etats. La variable
explique Yi = 1 prend la valeur 1 si dans ltat indic i, les votes ont t majoritaires pour le candidat dmocrate Jimmy Carter, et 0 si au contraire le candidat
rpublicain Gerry Ford a obtenu la majorit des voix dans cet tat. Les variables
explicatives sont les suivantes : Inc dsigne le revenu mdian de ltat en 1975,
School dsigne la mdiane du nombre dannes de scolarit suivies par les habitants de ltat gs de plus de 18 ans, Urban dsigne le pourcentage de la population
vivant en zone urbaine et la variable Region est une variable dummy prenant la
valeur 1 pour la rgion Nord Est, 2 pour le Sud Est, 3 pour le Sud et le Middle
West et 4 pour lOuest. Les donnes couvrent les 51 tats amricains.
On reporte dans le tableau suivant les rsultats destimation dun modle Probit :
Inc
School
Urban
Coefficient
-0.0004
0.269
0.036
cart-type
0.00016
0.140
0.012
t de Student
-2.60
1.93
2.87
p valeur
0.009
0.053
0.04
Log vraisemblance : -28.65252

Proportion de prdictions correctes : 0.745
1. Sur base des informations fournies, que pouvez-vous dire de influence du
revenu mdian par tat sur le vote dmocrate aux lections de 1976 ? Mme
question pour le niveau de scolarit mdian et limportance de la population
urbaine.
2. A partir des estimations du modle probit, donnez la probabilit quun Etat
comme le Texas, ayant un revenu mdian de 12672 dollars, un niveau mdian
dtude de 12.4, et un taux durbanisation de 71.4 ait vot dmocrate aux
lctions de 1976.
3. Quelle utilisation pourrait on envisager pour ce modle probit dans le cadre
de nouvelles lctions prsidentielles ? Prcisez les limites dun tel exercice.
4. Calculez llasticit pour ltat du Texas de la probabilit du vote dmocrate
par rapport au revenu mdian. Daprs ce modle et votre calcul, quel serait limpact dune augmentation de 2% du revenu mdian dans cet tat en
matire de vote aux prsidentielles ?
5. Lestimation dun probit avec pour seule variable explicative la variable
Urban donne comme valeur pour la log vraisemblance : - 35.28. Testez la
nullit des coefficients des variables de revenu Inc et de scolarit School au
niveau = 5 % et concluez en termes conomiques.
Exercice 48. Dans le cadre de la mise en place dune nouvelle ligne RER reliant
Ottignies Bruxelles, les autorits de tutelle sont intresses de prdire la proportion de navetteurs qui emprunteront ce nouveau mode de transport. Pour ce

faire, vous recoltez un chantillon de 640 navetteurs pour lesquels vous mesurez les
variables suivantes :
Y = choix actuel du mode de transport (1 = transport en commun, 0 =
voiture)
T = une mesure comparant le temps de parcours en transport en commun
et celui en voiture. Cette mesure est donne par

Temps de parcours en transport en commun
T = ln
Temps de parcours en voiture
Un modle logit est utilis pour modliser la probabilit du choix du mode de
transport. Les rsultats de lestimation par maximum de vraisemblance sont rsums dans la table ci-dessous :
Coefficients :
constante
T
ln L
Pseudo-R2
0.953
-1.823
-206.83
0.449
p-valeur : 0.002
p-valeur : 0.000
(a) Justifiez lutilisation dun modle logit dans cette tude.

(b) Interprtez les estimations obtenues.
(c) Le 72e navetteur de lchantillon emprunte rgulirement sa voiture et possde
les variables explicatives suivantes, selon le mode de transport choisi :
Temps de parcours
Transport en commun
60
Voiture
30
A partir des estimations donnes ci-dessus, prdisez la probabilit que cet

individu emprunte un transport en commun ou un bus pour aller travailler.
(d) Aprs la mise en place du RER, on estime que le temps de parcours que le
72e navetteur prendrait pour aller au travail en RER slve 40 minutes.
Quel sera leffet attendu de ce changement sur le choix du mode de transport
de ce navetteur ? (Indication : pour rpondre cette question, fondez votre
calcul sur leffet marginal de cet individu dans le modle logit)
4.9
Solution aux principaux exercices du chapitre 4
Solution de lExercice 47
1. Inc : Le coefficient de cette variable est significatif au niveau = 5% (puisque la
p-valeur du test de significativit est 0.009 < 0.05). De plus son signe est positif,

signifiant que limpact du revenu mdian sur la probabilit de voter dmocrate est
ngatif. En dautres termes, un accroissement du revenu mdian se traduit dans le
modle estim par une diminution de la probabilit de voter pour Jimmy Carter.
School : Ce coefficient nest pas significatif au niveau = 5% (puisque la p-valeur
du test de significativit est 0.053 > 0.05). Ceci suggre que la mdiane du niveau
dducation na pas dinfluence sur le choix de llecteur dans cet chantillon.
Urban : Ce coefficient est significatif au niveau = 5% (puisque la p-valeur du
test de significativit est 0.04 < 0.05). Au contraire de Inc, son signe est positif.
La proportion durbanisation est donc significative, et a un impact positif sur la
probabilit de voter dmocrate.
2. La question pose revient calculer
P(Y = 1|Inc = 12672, School = 12.4, Urban = 71.4).
Par dfinition du modle probit, et vu le tableau prsentant les rsultats destimation, cette probabilit se calcule comme suit :
P(Y = 1|Inc = 12672, School = 12.4, Urban = 71.4)
= (0.0004 12672 + 0.269 12.4 + 0.036 71.4)
( est la CDF dune v.a. Normale standardise)
= (0.8372)
= 0.80
(en consultant une table statistique)
3. Une utilisation possible pourrait tre de vrifier sur quel tat la probabilit de vot
dmocrate est proche de 0.5. Un candidat pourrait utiliser cette information afin
de savoir o concentrer ses efforts de campagne afin de faire pencher le vote en sa
faveur.
Une limite de cet exercice rside dans le choix des variables prises en compte dans
le modle. Tout dabord, ces variables sont des quantits mdianes et ne refltent
pas lhtrognit de revenus ou dducation pouvant exister dans certains tats.
De plus, dautres variables pourraient tre pertinentes dans le modle (par exemple
la taille de la population par tat ou la proportion de votants de couleur noire).
Enfin, le modle probit considr ne considre pas dintercept. Cela signifie que, sans
les variables explicatives du modle, le choix des lecteurs est quiprobablement
dmocrate ou rpublicain. Des circonstances particulires la politique amricaine
en 1976 auraient pu contredire cette hypothse de travail.
4. Le syllabus, page 44, a driv la formule de llasticit. Dans le cas dun modle
binaire, lesprance conditionnelle de la variable dpendante se confond avec sa
probabilit conditionnelle. Llasticit prend donc la forme suivante :
:=
Inc
P(Y |Inc, School, Urban)
Inc
Remarquons que le premier facteur est leffet marginal du modle probit. Celui-ci
est calcul dans le syllabus, page 91. Nous rfrant cette formule, llasticit scrit
finalement

Inc
= (Inc, School, Urban) Inc
o est la densit dune variable alatoire Normale standardise, et le vecteur
reprsente les paramtres du modle probit.

Nous calculons prsent llasticit dans le cas particulier de ltat du Texas, pour
lequel le revenu mdiant Inc est gal 12672 dollars US. Nous avons dj obtenu
la probabilit conditionnelle la question 2. Llasticit est donc :
= (0.8372) (0.0004)
12672
= 1.780434
0.80
Une augmentation de 2% du revenu mdian dans cet tat aura donc pour consquence une dcroissance de 2 1.78% 3.5% de la probabilit de voter dmocrate.
5. On utilise un test de vraisemblance tel quexpliqu la section 4.6.2 du syllabus.

Lhypothse nulle H0 est la nullit des coefficients des variables Inc et School. La
log-vraisemblance maximise sous le modles complet est fournie dans le tableau de
cU = 28.65. Dans le modle rduit, cette log-vraisemblance est gale
donnes : ln L
lnLR = 35.28 daprs lnonc. On calcule la statistique de test nonce la
page 102 :
cU ln Lc
2(ln L
R ) = 13.26
La loi de la statistique de test sous H0 est celle dune variable alatoire 22 . La

rgion critique du test au niveau = 5% est [5.99, ), o la valeur 5.99 est trouve
dans une table 22 . Comme la statistique de test appartient la rgion critique,
nous rejetons lhypothse nulle.
Le niveau mdian de revenu et dducation a donc un impact sur le choix de llecteur.
Solution de lexercice 48
(a) Le modle logit se justifie par la nature binaire de la variable dpendante, Y . Dans ce
cas, lesprance conditionnelle de Y sachant les variables explicatives est en ralit
une probabilit conditionnelle. Le modle logit est conu pour modliser une
probabilit conditionnelle.
(b) Les deux coefficients estims sont significatifs car leur p-valeur est proche de zro.
La constante vaut 0.953. Cela signifie que, si T = 0, la probabilit demprunter
un transport en commun est suprieure 0.5 :
P (Y = 1 | T = 0) =
=
=
(0.953)
e0.953
0.953
1 + e>
0.72
0.5
Notons que lvnement T = 0 reprsente, par dfinition de T , la situation dans

laquelle le temps de parcours en transport en commun gale le temps de parcours
en voiture (car, dans ce cas, T = ln(1) = 0). La valeur de la constante signifie donc
ceci : Si le temps de parcours est le mme pour les deux modes de transport, la
probabilit demprunter un transport en commun est 0.72. Cette valeur est assez
leve, et indique que lchantillon considr contient des individus plutt enclins
voyager en transport en commun.

Le coefficient de T est ngatif. Ceci implique quune augmentation de T induira
une diminution de la probabilit dusage dun transport en commun. Que signifie
une augmentation de T ? Le logarithme tant une fonction monotone croissant en
son argument, cela signifie que le temps de parcours augmente ou, inversment,
que le temps de parcours en voiture diminue (plus prcisment : laugmentation
du temps de parcours en transport en commun est plus importante que pour la
voiture). Le signe du coefficient de T est donc logique : Si le temps de parcours
en voiture diminue, les individus de lchantillon auront tendance abandonner le
transport public.
(c) Pour ce navetteur,
T = ln
60
30
= ln(2) 0.69
Par consquent, la probabilit demande est :

P (Y = 1 | T = ln(2))
= (0.953 1.823 ln(2))

0.42
(d) Leffet marginal dans ce modle logit (voir syllabus) est :

P (Y = 1|T )
exp(0.953 1.823T )
= 1.823
T
{1 + exp(0.953 1.823T )}2
qui, pour le navetteur pour lequel T = ln(2), vaut approximativement -0.45.

Avec larrive du RER, la variable T du navetteur passe de ln(2) ln(40/30) =
ln(4/3). Lcart est donc de
ln

2
4
ln(2) = ln
0.40
3
3
En se rfrant au calcul ci-dessus de leffet marginal, une diminution de 0.4 de la

variable T induira une augmentation de 0.45 demprunter le transport en commun.
Leffet attendu est donc de passer de la probabilit 0.42 (calcule au point prcdent)
la probabilit 0.42 + 0.45 = 0.87. Il y a donc des raisons de penser que ce navetteur,
sil se dplaait en voiture, emprunterait le RER avec grande probabilit.
Bibliographie
Amemiya, T. (1985) : Advanced Econometrics. Harvard University Press, Cambridge.
Berndt, E., B. Hall, R. Hall, and J. Hausman (1974) : Estimation and
Inference in nonlinear structural models, Annals of Economic and Social Measurement, 3/4, 653665.
Blundell, R., A. Duncan, and K. Pendakur (1998) : Semiparametric estimation and Consumer Demand, Journal of Applied Econometrics, 13, 435462.
Bourbonnais, R. (2004) : conomtrie. Dunod, Paris, 5e edn.
Breusch, T., and A. Pagan (1979) : A simple test for heteroscedasticity and
random coefficient variation, Econometrica, 47, 12871294.
Duncan, A. (2005) : A short course in microeconometric methods. University of
Nottingham.
Durbin, J., and G. Watson (1950) : Testing for Serial Correlation in Least
Square Regression I, Biometrika, 37, 409428.
(1951) : Testing for Serial Correlation in Least Square Regression II,
Biometrika, 38, 159179.
Estrella, A. (1998) : A New Measure of Fit for Equations with Dichotomous
Dependent Variables, Journal of Business and Economic Statistics, 16, 198205.
Farrar, D., and R. Glauber (1968) : Multicolinearity in regression analysis,
Review of Economics and Statistics, 49, 92107.
Godfrey, L. (1988) : Misspecification Tests in Econometrics. Cambridge University Press, Cambridge.
Goldfeld, S., and R. Quandt (1965) : Some tests for homoskedasticity, Journal of the American Statistical Association, 60, 539547.
Greene, W. H. (2003) : Econometric analysis. Pearson Education, Upper Saddle
River, 5th edn.
Hayashi, F. (2000) : Econometrics. Princeton University Press, Princeton.
Jarque, C., and A. Bera (1987) : A test for Normality of observations and
regression residuals, International Statistical Review, 55, 163172.
Judge, G., W. Griffiths, C. Hill, and T. Lee (1985) : The Theory and
Practice of Econometrics. John Wiley and Sons, New York.
Keynes, J. (1936) : The General Theory of Employment, Interest, and Money.
Harcourt, Brace, and Jovanovich, New York.
Leser, C. (1963) : Forms of Engle functions, Econometrica, 31, 694703.
Maddala, G. (2001) : Introduction to econometrics. John Wiley & Sons, Chichester, 3rd edn.
BIBLIOGRAPHIE
191
McFadden, D. (1974) : The Measurement of Urban Travel Demand, Journal of

Public Economics, 3, 303328.
Monfort, A. (1997) : Cours de statistique mathmatique. Economica, Paris.
Ruud, P. A. (2000) : An Introduction to Classical Econometric Theory. Oxford
University Press, New York.
Serfling, R. J. (1980) : Approximation Theorems of Mathematical Statistics.
John Wiley & Sons, New York.
van der Vaart, A. (1998) : Asymptotic Statistics. Cambridge University Press.
Vinod, H. D., and A. Ullah (1981) : Recent advances in regression methods.
Dekker.
Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2002) : Mathematical Statistics with Applications. Duxbury, Pacific Grove, 6th edition.
White, H. (1980) : A Heteroscedasticity-Consistent Covariance Matrix Estimator
and a Direct Test for Heteroscedasticity, Econometrica, 48, 817838.
Working, H. (1943) : Statistical laws of family expenditure, Journal of the
American Statistical Association, 38, 4356.

STATS308 CH 04

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STATS308 CH 04

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 4

Les modles de choix binaire

De nombreux phnomnes conomiques peuvent tre modliss comme un choix

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 166

1 Si ltudiant i choisit lUCL

2 Si ltudiant i choisit lULB

3 Si ltudiant i choisit lULg

5 Si ltudiant i choisit une autre universit

que les prcites

1 Si le revenu annuel du mnage i est en dessous 20k

1 Si lindividu i utilise la voiture

3 Si lindividu i utilise le train

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 167

cest--dire pour la valeur attendue du choix Y conditionnellement un vecteur

Le modle de probabilit linaire (LPM)

Soit Y une variable binaire prenant les valeurs 0 et 1, et X = (X1 , . . . , XK ) un

X2 = TEA = nombre dannes dducation du parent

X3 = MARITAL = statut civil (prenant quatre valeurs : clibataire,

X6 = WHITE = indique si lindividu est blanc (=1) ou non

En laborant un modle pour (4.1), on sintresse linfluence de chacune de

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 168

Comme lesprance conditionnelle concide ici avec une probabilit conditionnelle,

En dpit de sa ressemblance formelle avec le modle de rgression linaire, le

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 169

Les modles probit et logit

Lapproche par transformation

o G est une fonction choisie par lconomtre et comprise entre 0 et 1 (donc

et est reprsente la Figure 4.1(b).

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 170

(a) Fonction de densit .

(b) Fonction de distribution .

Figure 4.1: Fonctions de distribution et fonction de densit de

Un autre choix populaire pour la fonction G est la fonction logistique

Interprtation et comparaison des modles

Nous rsumons les trois modles dvelopps ci-dessus :

Le Modle Probit : P(Y = 1|X) = (X ),

Le Modle Logit : P(Y = 1|X) = (X ).

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 171

Figure 4.2: Fonctions logistique (z).

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 172

Modlisation par variable latente

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 173

Avec ce modle, on drive immdiatement la structure de lesprance conditionnelle

(car Y {0, 1})

Si la distribution conditionnelle de lerreur est symtrique autour de zro, on peut

(par symtrie de la densit conditionnelle de )

o la fonction F|X reprsente la distribution conditionnelle de la variable (conditionnellement X).

Interprtation par les modles dutilit stochastique

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 174

lexception du modle LPM, la relation entre entre lesprance conditionnelle

Rappel : le principe du maximum de vraisemblance

Dans le cadre de ce rappel sur le principe du maximum de vraisemblance, nous

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 175

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 176

Figure 4.3: La fonction 7 3 (1 )7 atteint son maximum

2. Lestimateur par maximum de vraisemblance est asymptotiquement normal,

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 177

Estimation par maximum de vraisemblance dans

La variable alatoire Y est une variable binaire telle que

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 178

Pour trouver le maximum de cette fonction, il faut rsoudre les quations de

ULB 2014 STATS308 conomtrie (Dehon-Van Bellegem) 179

Estimate Std. Error z value Pr(>|z|)