Vous êtes sur la page 1sur 40

INTRODUCTION A LECONOMETRIE

Amphi 9
Les modles probit et logit
Denis Fougre et Francis Kramarz
24 octobre 2008
1
Dans de nombreux cas, la variable expliquer se prsente sous
la forme dune rponse qualitative, du type oui ou non
Codage: 0 pour non, 1 pour oui
Exemples des rponses aux questions suivantes:
Possdez-vous un ordinateur personnel?
Avez-vous particip aux dernires lections?
Quel est votre loisir prfr dans la liste ci-aprs : cinma, thtre,
lecture, tlvison, bricolage?
Quelle tait votre situation au mois de dcembre : en emploi,
votre compte (professions indpendantes et librales), en chmage
ou en inactivit ?
2
Difficile de traiter ces variables dpendantes par le biais dun
modle linaire parce que les informations de ce type ne
peuvent pas tre spontanment ordonnes
Exemples :
la situation sur le march du travail (emploi prcaire ou chmage):
pour certaines personnes, dtenir un emploi prcaire peut tre
prfrable la situation de chmage, alors que cest linverse pour
dautres
la dtention dun bien durable (avoir ou ne pas avoir dordinateur
personnel) : certaines personnes souhaitent avoir un ordinateur
personnel et sont en mesure de lacheter, dautres le souhaitent
mais ne peuvent lacheter, dautres enfin ne souhaitent pas en
possder (quel que soit leur niveau de revenu)
3
Ces informations correspondent des choix individuels que lon
dit discrets puisque leur consquence directe est :
une action particulire (exemple : accepter ou non une offre
demploi)
et non le niveau ou lintensit du rsultat de cette action (exemple:
le nombre dheures travailles ou le salaire peru)
Deux possibilits pour la modlisation des choix discrets:
1. supposer quils rsultent dun comportement rationnel
(maximisation de lutilit ou du profit)
2. adopter une approche plus descriptive
4
1. Lapproche par la rgression
La variable que lon souhaite expliquer est code Y 1 ou Y 0
Les variables susceptibles dinfluencer la dcision sont notes X
On spcifie la relation entre ces variables explicatives et la
variable explique par le biais dun modle discret de probabilit
qui scrit :
PrY 1 FX
PrY 0 1 FX
o:
F est une fonction de R sur lintervalle 0, 1, croissante en son argument
est un vecteur de paramtres (inconnus) associ au vecteur X et de dimension L, 1
si le vecteur X est de dimension 1, L
5
1a. Le modle linaire de probabilit
Si F est lidentit:
FX X
alors:
EY X

j0
1
PrY j j PrY 1 X
Supposons maintenant que Y soit engendre par le modle
linaire de probabilit suivant :
Y X u
avec
Eu X 0
6
Mise en oeuvre de la technique des MCO pour estimer :

MCO
X

X
1
X

Y
Principal dfaut de ce modle : il ne peut contraindre
EY X X

MCO
appartenir lintervalle 0, 1
1b. Les modles probit et logit
Les fonctions F telles que EY X 0, 1 doivent vrifier les
conditions suivantes :
1. FX doit tre une fonction croissante en X
2. lim
X

PrY 1 1
3. lim
X

PrY 1 0
En principe, toute loi continue de probabilit pourrait convenir
7
Si lon choisit la loi normale N0, 1, le modle de probabilit
correspondant est appel modle probit, et il scrit :
PrY 1

tdt X
PrY 0

X

tdt 1 X
o est la fonction de rpartition de la loi N0, 1, et est sa fonction de densit
Un modle encore plus facile utiliser est le modle logit de
probabilit dfini par :
PrY 1
expX
1 expX
X
PrY 0
1
1 expX
1 X
8
Remarque: Quel modle choisir ?
Aux extrmits de la distribution, la loi logistique sapplatit moins
vite que la loi normale N0, 1 : elle est en effet assez proche de
la loi de Student 7 degrs de libert (cf. graphe)
Les deux modles donneront des rponses trs diffrentes ds
lors que lchantillon contient trs peu dobservations telles que
Y 1, ou trs peu dobservations telles que Y 0
Si les prdictions sont assez souvent comparables, les valeurs
estimes des paramtres ne le sont pas
Estimation de par la technique du maximum de vraisemblance
9
2. Maximum de vraisemblance
2.1 Estimateur du maximum de vraisemblance
Dfinition de la vraisemblance
0 Si X est une v.a. discrte, la vraisemblance de lobservation x est:
L(x, 0) Pr(X x; 0)
o 0 est un paramtre qui indice la loi de X
0 Si X est une v.a. relle, la vraisemblance de lobservation x est:
L(x, 0) f
X
(x; 0)
Soit x (x
1
, . . . , x
n
) une ralisation de lchantillon (X
1
, . . . , X
n
)
La vraisemblance de lchantillon est:
L
n
(x; 0)

i1
n
L(x
i
; 0)
11
Dfinition
Un estimateur du maximum de vraisemblance de 0 est une
solution du problme de maximisation
0
max L
n
(x; 0)
ou de
0
max lnL
n
(x; 0)
Remarque
Maximiser la fonction de vraisemblance en [ quivaut
maximiser le logarithme de cette fonction en [, puisque le
logarithme est une transformation monotone croissante
12
Dfinition: Les quations de vraisemblance sont donnes par
les conditions du premier ordre:
L
n
x;

0
0

lnL
n
x;

0
0
0
Ces quations sont en gnral non linaires et leur rsolution
ncessite la mise en oeuvre dune mthode itrative, telle que la
mthode de Newton-Raphson:
0
(l1)
0
(l)


2
lnL(0)
00

00
(l)
1

lnL(0)
0
00
(l)
o 0
(l)
est la valeur du paramtre litration l, 0
(0)
tant une valeur initiale
Si la matrice hessienne est partout dfinie ngative, la fonction de log-vraisemblance
est globalement concave. Cette mthode converge vers loptimum en un nombre fini
ditrations
13
Information de Fisher
I
1
(0) E
lnL(X; 0)
0
lnL(X; 0)
0

E

2
lnL(X; 0)
00

Dmonstration (simplifie, dans le cas un seul paramtre):


E

2
lnL(X;0)
0
2
E

0
lnL(X;0)
0
E

0
1
L
L(X;0)
0
E
1
L
2
L(X;0)
0
2

(
2
L/0
2
)dx
2
/0
2

Ldx0
E
1
L

2
L(X;0)
0
2
E
1
L
2
L(X;0)
0
2
E
lnL(X;0)
0
2
14
2.2 Proprits asymptotiques de lEMV
Sous certaines hypothses de rgularit, il existe une suite

0
n
de maxima locaux de la log-vraisemblance convergeant vers 0
0
,
telle que
n

0
n
0
0
loi
n
N 0, I
1
(0
0
)
1
Proprits: Lestimateur du maximum de vraisemblance est
efficace asymptotiquement. Aucun autre estimateur rgulier na
une meilleure prcision
Remarque: I
1
(0
0
) est inconnue puisque la vraie valeur 0
0
du
paramtre est inconnue, mais elle est estime par I
1

0
n
15
Exemple
Soit un chantillon de taille n de variables normales :
X
i
N(m, o
2
)
Fonction de vraisemblance dune observation:
1
2m o
exp((
X
i
m
o
)
2
/2)
Log-vraisemblance de lchantillon:

n
2
logm nlogo
1
2o
2

i1
n
(x
i
m)
2
Equations de vraisemblance:

i1
n
(x
i
m

n
) 0
16

n
o

1
o

n
3

i1
n
(x
i
m

n
)
2
0
Estimateur:
m

n

1
n

i1
n
x
i
x
n
o

n
2

1
n

i1
n
(x
i
x
n
)
2

n 1
n
s
n
2
Matrice dinformation:
I
1
(0)
1 0
0 2/o
2
17
2.3 Test du rapport des vraisemblances
Test de lhypothse nulle: H
0
:
.
0 0
contre lhypothse alternative: H
1
:
.
0 0
o
.
0 est un sous-vecteur de 0 : dim
.
0 p dim(0) k
Notations:

0
n
(0)
EMV de 0 sous H
0
et

0
n
(1)
EMV de 0 sous H
1
Sous certaines conditions de rgularit, le test dfini par la rgion critique
W
n
R
_
1o
2
(p))
avec

n
R
2 logL
n
x;

0
n
(1)
logL
n
x;

0
n
(0)
est de niveau asymptotique o et est convergent
18
3. Estimation des modles probit et
logit
Chaque observation est traite comme un tirage alatoire
suivant une loi de Bernouilli de paramtre F(X[)
Si les tirages sont i.i.d., la probabilit jointe de lchantillon est
donne par la fonction de vraisemblance:
L([) Pr Y
1
y
1
, . . . , Y
n
y
n
[, (X
i
)
i1,...,n


i:Y
i
0
|1 F(X
i
[)]

i:Y
i
1
F(X
i
[)


i1
n
|F(X
i
[)]
Y
i
|1 F(X
i
[)]
1Y
i
19
La fonction de log-vraisemblance est donc :
lnL([)

i1
n
Y
i
lnF(X
i
[) (1 Y
i
) ln|1 F(X
i
[)]
3.1 Conditions de premier ordre pour la
maximisation
De manire gnrale, celles -ci scrivent :
lnL([)
[


i1
n
Y
i
f
i
F
i
(1 Y
i
)
f
i
1 F
i
X
i

0
en posant :
F
i
F(X
i
[) et f
i
f(X
i
[)
F(X
i
[)
(X
i
[)
20
1) Pour le modle logit :
En posant
i

exp(X
i
[)
1 exp(X
i
[)
il vient:
lnL([)
[


i1
n
(Y
i

i
)X
i

0
2) Pour le modle probit :
En posant
i
(X
i
[) et
i

(X
i
[)
(X
i
[)
il vient :
lnL([)
[


i
(Y
i

i
)

i

i
(1
i
)
X
i

0
21
3.2 Drives secondes de la log-vraisemblance
1) Pour le modle logit :
La matrice hessienne de la fonction de log-vraisemblance scrit:
H

2
lnL([)
[[

i

i
(1
i
)X
i

X
i
Les drives secondes ne faisant pas intervenir les Y
i
, il sensuit que
E
Y


2
lnL([)
[[



i

i
(1
i
)X
i

X
i
La matrice hessienne est toujours dfinie ngative : la fonction de log-vraisemblance
est donc globalement concave.
La mthode de Newton-Raphson convergera donc vers loptimum en un nombre fini
ditrations
22
2) Pour le modle probit :
Posons
z
0i


i
1
i
si Y
i
0, et z
1i


i

i
si Y
i
1
soit encore
z
i
z
0i
(1 Y
i
) z
1i
Y
i
On en dduit que la matrice hessienne de la fonction de log-vraisemblance scrit :
H

2
lnL([)
[[

i
z
i
(z
i
X
i
[)X
i

X
i
On montre ensuite que H est dfinie ngative pour toute valeur de [
23
3.3 Matrice de variances-covariances de lEMV
Cette matrice est estime par linverse de la matrice hessienne value en

[, soit
par:
V

[

2
lnL([)
[[

[
1
Elle peut tre galement estime par linverse du produit crois des drives
premires de la log-vraisemblance values en

[:
V

[
lnL([)
[

lnL([)
[

[
1


i
g
i
2
X
i

X
i
1
avec :
0 g
i
Y
i

i
pour le modle logit
0 g
i


z
0i
(1 Y
i
)

z
1i
Y
i
pour le modle probit
24
3.4 Comment mesurer ladquation de ces
modles?
Le pseudo-R
2
est dfini comme:
pseudo R
2
1

i
|y
i
ln

p
i
(1 y
i
) ln(1

p
i
)]
N| y ln y (1 y ) ln(1 y )]
o

p
i
F x
i

[
et y N
1

i
y
i
est la proportion dobservations telles que
y
i
1
25
3.5 Exemple : les probabilits daccident
automobile
M. Boyer et G. Dionne (1989): An Empirical Analysis of Moral Hazard and
Experience Rating, The Review of Economics and Statistics, vol. 71, pp. 128-134
En prsence de risque moral (i.e. lorsque lassureur ne peut
observer le comportement de lassur), les compagnies
dassurance doivent proposer des systmes de primes tenant
compte des probabilits ex ante daccident des assurs
Comment ces probabilits varient-elles avec:
1. les caractristiques individuelles des assurs (ge, sexe, lieu de rsidence,
nombre dannes de dtention du permis de conduire, type de permis, etc.)
2. leur exprience de conduite passe (nombre daccidents et points de malus au
cours des deux dernires annes, nombre de suspensions du permis de
conduire durant lanne passe)
26
Echantillon: 19 013 conducteurs qubcois observs entre aot
1980 et juillet 1983
Estimation dun modle Probit
Principaux rsultats:
0 les conducteurs gs de plus de 25 ans ont une probabilit
daccident de 2 3 points plus faible que celle des conducteurs
gs de moins de 19 ans
0 la probabilit daccident des hommes est suprieure de 3.7 points
celle des femmes
0 le nombre dannes de dtention du permis de conduire et le lieu
de rsidence nont pas deffet statistiquement significatif
27
0 les conducteurs ayant eu cinq points de malus au cours des deux
dernires annes ont une probabilit daccident suprieure de 3.4
points (0.6 2.8) celles des conducteurs nayant pas eu de points
de malus (variable X, tableau 2, dernire colonne)
0 ceux ayant eu un accident au cours des deux dernires annes ont
une probabilit daccident suprieure de 2.5 points celles des
conducteurs nayant pas eu daccident (variable Z, tableau 2,
dernire colonne)
0 un second accident augmente encore la probabilit actuelle de 3.4
points
0 un retrait de permis est associ une probabilit daccident
suprieure de 3.9 points (variable Y, tableau 2)
28
29
30
4. Les modles utilit alatoire
Les modles variables dpendantes discrtes sont souvent
crits sous la forme de modles avec fonction indicatrice
Le rsultat dun choix discret est alors considr comme
limage dune fonction de rgression sous-jacente
Exemple de lachat dun bien durable:
La thorie conomique nonce que le consommateur compare
les utilits associes lachat et au non-achat du bien
On suppose que la diffrence dutilit est reprsente par une
variable latente, non-observable :
Y

X o N0, 1
31
En fait on observe la variable alatoire Y dfinie par :
Y 1 si Y

0 et Y 0 sinon
Dans cette formulation, X est appel la fonction indice, de sorte que :
Y 1X 0
o 1. est une fonction qui vaut 1 si lexpression logique qui en est largument est
vraie, 0 sinon.
Remarques :
1. La variance de nest pas identifiable. Pour sen apercevoir, il suffit de multiplier
X

par
2
: cela ne modifie pas les observations Y 0 ou Y 1. Pour
cette raison, on impose la restriction de normalisation suivante:
2
1
2. Lhypothse dun seuil gal zro est neutre ds lors que le terme X

contient
une constante
32
5. Le modle logit multinomial
Supposons quun individu (not i) doive choisir, dans un
ensemble de K possibilits, une et une seule modalit, note k
Par exemple, choisir son lieu de vacances dans un ensemble de trois possibilits
mutuellement exclusives : montagne, mer, ou campagne.
Dans la suite, nous ferons lhypothse qu chacune des K
modalits, indice par k k 1, . . . , K, correspond un niveau
dutilit
U
ik

ik

ik
k 1, . . . , K
o
ik
est une fonction dterministe de variables observables
(par exemple,
ik
X
i

k
) et
ik
est une variable alatoire
indpendante
Lindividu est suppos choisir la modalit k qui lui procure lutilit maximale
33
Thorme (Mac Fadden, 1973): Si les
ik

k1,...,K
sont des variables i.i.d. selon
une loi des valeurs extrmes de fonction de rpartition :
Gx expexpx
alors la probabilit de choisir la modalit k scrit :
PrY
i
k
exp
ik

1
K
exp
ik


expX
i

1
K
expX
i

k

Ce modle est appel modle logit multinomial.
Remarques:
1. Ces probabilits ne dpendent que des diffrences

ik

ik
X
i

k

k
, k

k
Elles ne sont pas modifies si tous les paramtres
k
sont translats dune
constante.
34
2. En consquence, les paramtres
k
sont non identifiables, sauf poser par
exemple
1
0
3. Les paramtres estims sinterprtent alors comme des carts la rfrence

1
. Un signe positif signifie que la variable explicative accrot la probabilit de
la modalit associe relativement la probabilit de la modalit de rfrence
Estimation du modle logit multinomial. Posons
P
ik
PrY
i
k
expX
i

1
K
expX
i

k

avec
1
0, i 1, . . . , n, et k 1, . . . , K
La log-vraisemblance de lchantillon scrit alors :
lnL

i1
n

k1
K
1Y
i
k lnP
ik

35
Cette fonction de log-vraisemblance est globalement concave.
En effet, on montre que sa matrice hessienne, qui est de la forme:

2
lnL

i1
n

k1
K
P
ik
X
i

X
i

X
i
X
i

avec X
i

1
K
expX
i

k
X
i

1
K
expX
i

k

est dfinie ngative puisque P
ik
PrY
i
k 0
La matrice hessienne ne dpendant pas de Y
i
, il sensuit que:
V



i1
n

k1
K
P
ik
X
i

X
i

X
i
X
i

1
36
6. Le modle logit conditionnel
Dans le modle logit multinomial, les paramtres
k
sont variables dune modalit
lautre alors que les rgresseurs X
i
ne le sont pas
Dans le modle logit conditionnel (McFadden, 1973,1981), cest linverse: les
paramtres sont constants et gaux , alors que les variables explicatives
dpendent de chaque modalit et scrivent X
ik
Dfinition. Le modle logit conditionnel scrit :
PrY
i
k
expX
ik

1
K
expX
ik


expX
ik

2
K
expX
ik


avec
X
ik

X
ik
X
i1
pour k 1, . . . , K
37
Remarques
1. Dans le modle logit multinomial, les paramtres
k
sinterprtent comme la diffrence entre les paramtres
originaux et ceux de la modalit de rfrence
1
2. Dans le modle conditionnel, ils sinterprtent comme ceux
associs aux diffrences X
ik
X
i1
entre les variables
caractrisant une modalit (autre que la modalit de rfrence)
et les variables caractrisant la modalit de rfrence
3. Cette spcification est trs utile lorsque lon souhaite prdire
la probabilit dune nouvelle modalit (encore virtuelle) en
fonction de variables explicatives simules
38
Exemple: la mise en place dun nouveau mode de transport
public (un tramway) dans une collectivit locale
Pour valuer la probabilit que les rsidents adoptent ce
nouveau mode de transport, on conduit dabord une enqute
sur le choix du mode de transport (parmi les modes de transport
existants) auprs dun chantillon de personnes
Le but est ici destimer la probabilit quun individu choisisse le
bus (modalit 2), lautomobile (modalit 3), le mtro (modalit
4), ou le vlo (modalit 5), plutt que la marche pied (modalit
1).
Les variables explicatives sont:
le temps moyen de trajet du domicile au lieu de travail avec le
mode de transport k, variable note X
1ik
le cot au kilomtre du mode de transport k, not X
2ik
39
La probabilit que lindividu i choisisse le bus est alors:
PrY
i
2
exp
0

1
x
1i2


2
x
2i2

k2
5
exp
0

1
x
1ik


2
x
2ik


Comme le mode de transport numro 6 (le tramway) est encore
inexistant, les variables x
1i6

et x
2i6

sont bien sr inconnues, mais


elles peuvent tre simules partir dune estimation du temps
de trajet en tramway et de son cot (tarif) au kilomtre
En remplaant x
1i6

et x
2i6

par leurs simulations pour chaque


individu, et le vecteur
0
,
1
,
2
par son estimation
pralable partir des cinq modes de transport dj existants, on
peut calculer la probabilit que chaque individu choisisse le
tramway (plutt quun autre mode de transport)
40