Dans cet exemple, une variables discrète multiple a été construire à partir
de la variable continue de salaire. La variable Yi ainsi définie s’appelle une
variable catégorielle.
4. On peut également faire une distinction dans les variables de choix multiple.
Dans l’exemple précédent, la variable dépendante présente un ordre logique
pour présenter les catégories : Y = 1 représente les plus bas revenus, Y = 2
représente la catégorie de revenu juste supérieure etc.
Dans certaines situations, il n’y a pas d’ordre logique dans l’encodage de la
variable Y . À titre d’exemple, considérons à nouveau le choix du mode de
transport et affinons notre analyse en précisant si un individu qui choisit le
transport en commun utilise le bus ou le train. Dans ce cas, on peut encoder
la variable dépendante comme suit :
⎧
⎨ 1 Si l’individu i utilise la voiture
⎪
Yi = 2 Si l’individu i utilise le bus
⎪
⎩
3 Si l’individu i utilise le train
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 167
Exemple
La Grande-Bretagne tient à jour une base de données sur les ménages bri-
tanniques 1 que nous souhaitons utiliser pour expliquer l’emploi. Nous nous
concentrons sur un échantillon de familles monoparentales étudié notamment
par Duncan (2005). Nous nous intéressons à la variable dépendante binaire
Y = 1 si le parent travaille, Y = 0 s’il ne travaille pas. Nous avons à disposi-
tion une series de variables explicatives :
• X1 = AGE = âge du parent
• X2 = TEA = nombre d’années d’éducation du parent
• X3 = MARITAL = statut civil (prenant quatre valeurs : célibataire,
veuf, divorcé ou séparé)
• X4 = TOTKIDS = nombre d’enfants dans le ménage
• X5 = YOUNGCH = âge du plus jeune enfant
• X6 = WHITE = indique si l’individu est blanc (=1) ou non
En élaborant un modèle pour (4.1), on s’intéresse à l’influence de chacune de
ces variables explicatives sur l’emploi, c’est-à-dire sur la valeur attendue de
la variable binaire Y .
Y = X ′β + ϵ . (4.3)
Var(ϵ|X) = X ′ β(1 − X ′ β) .
Cette dernière expression montre que la variable d’erreur dans le modèle (4.3) est
hétéroscédastique. De plus, cette hétéroscédasticité n’est pas connue en pratique
car elle dépend des paramètres β à estimer.
Pour remédier au problème d’hétéroscédasticité, nous pouvons éventuellement
utiliser l’estimateur OLS robuste (Section 3.3.4). Cependant, même si nous utilisons
cet estimateur, un problème plus sérieux subsiste en ce qui concerne la prédiction.
En effet, à supposer que nous obtenions un estimateur β̂, le prédicteur dans le
modèle linéaire (4.3) s’écrira
Ŷ0 = X ′0 β̂
et rien n’assure que Ŷ0 soit bien une probabilité comprise entre 0 et 1. Pour voir ce
phénomène autrement, rien n’assure dans le modèle (4.2) que la droite de régression
X ′ β soit bien comprise entre 0 et 1, donc modélise valablement la probabilité
conditionnelle P(Y = 1|X).
Pour ces raisons, le modèle linéaire LPM n’est pas souvent utilisé dans les
modèles de choix discrets. 3
3. Des auteurs ont proposé certaines corrections afin de solutionner les problèmes du
modèle LPM. Voir Judge, Griffiths, Hill, and Lee (1985) pour une discussion plus détaillée.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 170
0.4
1.0
0.8
0.3
0.6
0.2
0.4
0.1
0.2
0.0
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
1.0
0.8
0.6
0.4
0.2
0.0
−3 −2 −1 0 1 2 3
Dans ces trois modèles, la probabilité est modélisée par une fonction monotone
des variables exogènes X. Nous avons donc la première interprétation intuitive
suivante : si le paramètre βj associé à la variable explicative Xj est positif (resp.
négatif), alors, ceteris paribus, la probabilité conditionnelle P(Y = 1|X) augmen-
tera (resp. diminuera) si la variable Xj augmente.
Que pouvons-nous dire de la magnitude de cette variation, c’est-à-dire de l’effet
marginal de la variable Xk ? Pour répondre à cette question, nous calculons la
dérivée partielle 4
∂P(Y = 1|X)
∂Xj
L’effet marginal est modélisé très différement dans les trois modèles. On constate
tout de suite que les paramètres βj des trois modèles ne sont absolument pas com-
parables entre eux. De plus, le coefficient βj ne représente l’effet marginal de la
variable Xj que dans le modèle LPM. Dans les modèles probit et logit, l’effet mar-
ginal varie en fonction de toutes les variables exogènes X1 , . . . , XK .
Exemple
Reprenons l’exemple du mode de transport où Y = 0 si l’individu utilise un
transport privé, et Y = 1 si l’individu utilise les transports publics. Imaginons
que nous analysions ce choix par rapport à un ensemble de variables expli-
catives X parmi lesquelles se trouve la variable tps représentant le temps de
parcours domicile-travail.
1. Si le terme X ′ β est élevé, disons égal à 3, alors, dans les modèles logit ou
probit, la probabilité que l’individu utilise le transport en commun est
proche de 1 (car Φ(3) et Λ(3) sont proches de 1). Dans ce cas, quel est
exp(3)
l’effet marginal de la variable tps ? On observe que φ(3) et {1+exp(3)} 2
l’équation :
!
1 si Y ∗ > 0
Y = (4.7)
0 si Y ∗ ! 0
Exemple
Dans l’exemple ci-dessus du marché du travail pour les familles monoparen-
tales, Y ∗ pourrait modéliser l’intensité avec laquelle un individu souhaite
travailler (il s’agit d’un exemple simpliste du phénomène, mais qui illustre
la notion de propension). Plus élevée est cette intensité, plus il est probable
d’observer un individu qui travaille.
Une variable comme Y ∗ qui est inobservée mais qui explique le phénomène
analysé est appelée une variable latente. Dans cette stratégie de modélisation, il
faut alors imposer des conditions sur la variable latente elle-même. La condition
la plus simple consite à modéliser Y ∗ comme un modèle de régression linéaire des
variables exogènes :
Y ∗ = β1′X1 + . . . + βK XK + ϵ (4.8)
=X β+ϵ.
issues possibles (travailler ou ne pas travailler) soient décrites par les fonctions
d’utilité UY∗ =0 et UY∗ =1 supposées linéaires :
UY∗ =1 = X ′ β 1 + ϵ1
UY∗ =0 = X ′ β 0 + ϵ0 .
4.5 Estimation
À l’exception du modèle LPM, la relation entre entre l’espérance conditionnelle
E(Y |X) et les paramètres β n’est pas linéaire car elle fait intervenir la fonction de
tranformation G. L’estimation dans un tel modèle non linéaire est plus souvent fon-
dée sur le principe du maximum de vraisemblance que sur le principe des moindres
carrés.
Nous allons tout d’abord rappeler quelques résultats importants du principe du
maximum de vraisemblance. 6
P(Z1 = 1, Z2 = 0, · · · , Z10 = 0)
= P(Z 1 = 1) × P(Z2 = 0) × · · · × P(Z10 = 0)
= π 31 (1 − π)70 × π 0 (1 − π)1 × · · · × π 0 (1 − π)1
= π (1 − π) .
Cette dernière probabilité s’interprète comme suit : en supposant que les données
ont été générées par une loi de Bernoulli de paramètre π, la probabilité d’observer
l’échantillon (4.9) est égale à π 3 (1 − π)7 .
Le principe du maximum de vraisemblance consiste à choisir la valeur de π
qui rende l’observation de cet échantillon la plus probable. La figure 4.3 représente
la probabilité π 3 (1 − π)7 en fonction des différentes valeurs possibles de π. Cette
fonction possède un mode, et son maximum est atteint en 3/10. L’idée est que
la valeur π = 3/10 correspond au paramètre le plus vraisemblable étant donné
l’échantillon observé.
La fonction de la figure 4.3 est la fonction de vraisemblance. Cette fonction est
définie dans notre exemple par
7. Rappelons qu’une variable aléatoire discrète Z suit une loi de Bernoulli de paramètre
π si Z prend les deux valeurs 0 et 1 avec les probabilités repectives 1 − π et π (0 ! π ! 1).
Sa fonction de distribution est donc P(Z = z) = π z (1 − π)z où le nombre z ne prend que
les valeurs 0 ou 1. Il s’agit d’un cas particulier de la variable Binomiale (Voir cours de
probabilité de 1ère année).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 176
0.0020
0.0015
0.0010
0.0005
0.0000
8. Pour un exposé rigoureux de ces conditions, on pourra consulter par exemple Monfort
(1997).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 177
ℓ(β|Xn ) := ln
n
L(β|Xn )
/ 0 , -1
= Yi ln G(X ′i β) + (1 − Yi ) ln 1 − G(X ′i β) .
i=1
∇β ℓ(β|Xn ) = 0
Exemple
Reprenons l’exemple de la participation d’un parent isolé au marché du tra-
vail. Un logiciel utilise une procédure itérative pour trouver les paramètres
maximisant la vraisemblance. Dans notre exemple, le logiciel R précise le
nombre d’itérations nécessaires afin de trouver une solution :
Méthode itérative
Le premier estimateur consiste à calculer
⎧ 5 ⎫−1
⎨ ∂ 2 ℓ(β) 5 ⎬
!−1 = − 5
{I(β)} 5 .
⎩ ∂β∂β ′ 5 ! ⎭
β=β
Cet estimateur calcule la matrice Hessienne en l’estimateur θ) (et non plus l’espé-
rance de la matrice).
Cet estimateur nécessite de calculer des dérives secondes. C’est pourquoi dans
la pratique, on a à nouveau recourt à des méthodes itératives pour calculer cette
matrice.
L’estimateur BHHH
Cet estimateur tient son nom des travaux de Berndt, Hall, Hall, and Hausman
(1974). Ces auteurs se basent sur le fait que l’espérance des dérivées secondes de la
matrice est égale à la covariance du vecteur des premières dérivées 9 . L’estimateur
proposé est donné par
! n 4−1
/
!−1 =
{I(β)} )
g)g′ .
i i
i=1
où )
g i est le vecteur des premières dérivées
)
∂ ln G(X ′i β)
ĝ i := .
)
∂β
Cet estimateur a l’avantage d’être très simple à calculer, car il n’utilise que
les premières dérivées déjà calculées dans le travail de maximisation de la log-
vraisemblance. De plus, la matrice ainsi estimée a l’avantage d’être automatique-
ment non-définie négative, comme doit l’être une matrice de covariance.
En utilisant la forme particulière des modèles probit et logit, ces deux esti-
mateurs se simplifient en des formules pouvant être consultées, par exemple, dans
Amemiya (1985).
4.6 Tests
4.6.1 Tests de restriction linéaire
Le test de restriction linéaire, dont le test de significativité est un cas particulier,
peut être construit à partir des estimateurs de maximum de vraisemblance des
9. Ce résultat n’est pas trivial. Pour un approfondissement sur la méthode du maximum
de vraisemblance, voir Monfort (1997) ou le cours ECON2651 (Advanced Econometrics)
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 181
H0 : β1 = 0 contre H1 : β1 ̸= 0
suit approximativement une loi normale N (0, S11 ) où S1 1 est l’élément (1, 1) de
la matrice d’information I(β). Cette matrice étant inconnue en pratique, elle est
estimée comme expliqué à la section 4.5.3. Notons Ŝ11
9 l’estimateur de la variance
√
ainsi obtenu. La statistique de test est donc nβ̂1 / Ŝ 1 1 qui, sous H0 , suit ap-
proximativement une loi de student tn−K .
Exemple
Dans la sortie de l’exemple de la page 179, la statistique de test t est auto-
matiquement fournie pour le test de significativité (c’est-à-dire H0 : βj = 0).
La p-valeur est également donnée.
(Le résultat de ce test est en réalité fourni par défaut dans la sortie de nombreux
logiciels.)
L’idée du test basé sur la vraisemblance est la suivante : Si la restriction pro-
posée par l’hypothèse H0 est vraie, alors en recalculant la vraisemblance sous la
contrainte que les coefficients considérés sont nuls, nous ne devrions pas obser-
ver une grande différence avec la vraisemblance calculée sans cette restriction. La
construction du test se base donc sur une comparaison entre la vraisemblance maxi-
misée dans le modèle complet
: ; & '
L)U = L (β̂1 , β̂2 , . . . , β̂K )′ |Xn = max L (β1 , . . . , βK )′ |Xn
β1 ,...,βK
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 182
L)R
LR = .
L)U
Si ce rapport est proche de 1, alors les deux vraisemblances sont similaires, et
cette situation est donc compatible avec l’hypothèse H0 . Au contraire, lorsque le
rapport de vraisemblance n’est pas proche de 1, les deux vraisemblances diffèrent
et l’hypothèse H0 sera remise en question. Le test du rapport de vraisemblances se
base sur la distribution suivante :
Exemple
1. Dans l’exemple de la page 179 :
Il existe d’autres tests basés sur la vraisemblance que nous ne voyons pas dans le
cadre de ce cours. Une étude plus approfondie des tests basés sur la vraisemblance
est en général comprise dans un second cours d’économétrie 11 . Un bon point de
départ dans la littérature sur le sujet est l’ouvrage de Godfrey (1988).
4.7.1 Pseudos R2
Une possibilité pour construire un indice d’ajustement est de comparer la valeur
de la vraisemblance avec la valeur de la vraisemblance si le modèle est seulement
estimé avec un coefficient constant β1 sans aucune variable explicative. En utilisant
les notations de la section 4.6.2, il s’agit de comparer L)U et L)R , où L)U représente le
maximum de la fonction de vraisemblance sans contrainte, et L)R est le maximum
de la fonction de vraisemblance calculée avec un seul paramètre β1 .
Une mesure d’ajustement proposée par McFadden (1974) est définie par
ln L)U
Pseudo-R2 de McFadden = 1 − .
ln L)R
La justification mathématique de cette mesure d’ajustement n’est pas identique à
la définition du R2 , c’est pourquoi on parle de pseudo-R2 . L’idée de cette mesure
est la suivante. Par construction de la vraisemblance dans le modèle binaire, la
vraisemblance est toujours plus petite ou égale à 1. Pour un modèle bien ajusté, la
vraisemblance non restreinte L)U doit être proche de 1, donc ln L)U est proche de 0,
et le pseudo-R2 est proche de 1. Au contraire, pour un modèle mal ajusté, L)U sera
proche de L)R et le pseudo-R2 est proche de zéro.
D’autres mesures ont été proposées dans la littérature. Une mesure récente
régulièrement utilisée a été proposée par Estrella (1998) et est définie comme suit :
2 3− 2 ln L̂R
ln L)U n
Pseudo-R2 d’Estrella = 1 − .
ln L)R
On peut à présent comparer notre prédiction du choix de chaque individu (Y)i ) avec
le choix réellement observé (Yi ). Cette comparaison peut prendre la forme d’une
table de contingence :
Valeurs prédites
0 1
Valeurs 0 n00 n01
Observées 1 n10 n11
Dans cette table n00 représente le nombre d’individus choisissant Y = 0 pour
lequel notre modèle a bien prédit Y = 0. De même n11 représente le nombre
d’individus choisissant Y = 1 pour lequel nous avons prédit Y = 1. Au contraire,
les nombres n01 et n10 mesurent les erreurs de classification. Un modèle bien ajusté
aura donc des valeurs n00 et n11 maximales.
Dans les sorties de logiciels, cette mesure d’ajustement est donnée par la pro-
portion de prédictions correctes :
n00 + n11
n
où n est la taille de l’échantillon. Un rapport proche de 1 signifie que le modèle a
une capacité de prévision presque parfaite. Si ce rapport est proche de 0, alors le
modèle a une mauvaise qualité prédictive.
Exemple
Dans l’exemple de la page 179, :
faire, vous recoltez un échantillon de 640 navetteurs pour lesquels vous mesurez les
variables suivantes :
– Y = choix actuel du mode de transport (1 = transport en commun, 0 =
voiture)
– T = une mesure comparant le temps de parcours en transport en commun
et celui en voiture. Cette mesure est donnée par
< =
Temps de parcours en transport en commun
T = ln
Temps de parcours en voiture
signifiant que l’impact du revenu médian sur la probabilité de voter démocrate est
négatif. En d’autres termes, un accroissement du revenu médian se traduit dans le
modèle estimé par une diminution de la probabilité de voter pour Jimmy Carter.
School : Ce coefficient n’est pas significatif au niveau α = 5% (puisque la p-valeur
du test de significativité est 0.053 > 0.05). Ceci suggère que la médiane du niveau
d’éducation n’a pas d’influence sur le choix de l’électeur dans cet échantillon.
Urban : Ce coefficient est significatif au niveau α = 5% (puisque la p-valeur du
test de significativité est 0.04 < 0.05). Au contraire de Inc, son signe est positif.
La proportion d’urbanisation est donc significative, et a un impact positif sur la
probabilité de voter démocrate.
2. La question posée revient à calculer
3. Une utilisation possible pourrait être de vérifier sur quel état la probabilité de voté
démocrate est proche de 0.5. Un candidat pourrait utiliser cette information afin
de savoir où concentrer ses efforts de campagne afin de faire pencher le vote en sa
faveur.
Une limite de cet exercice réside dans le choix des variables prises en compte dans
le modèle. Tout d’abord, ces variables sont des quantités médianes et ne reflètent
pas l’hétérogénéité de revenus ou d’éducation pouvant exister dans certains États.
De plus, d’autres variables pourraient être pertinentes dans le modèle (par exemple
la taille de la population par État ou la proportion de votants de couleur noire).
Enfin, le modèle probit considéré ne considère pas d’intercept. Cela signifie que, sans
les variables explicatives du modèle, le choix des électeurs est équiprobablement
démocrate ou républicain. Des circonstances particulières à la politique américaine
en 1976 auraient pu contredire cette hypothèse de travail.
4. Le syllabus, page 44, a dérivé la formule de l’élasticité. Dans le cas d’un modèle
binaire, l’espérance conditionnelle de la variable dépendante se confond avec sa
probabilité conditionnelle. L’élasticité prend donc la forme suivante :
∂P(Y |Inc, School, Urban) Inc
ν := ×
∂Inc P(Y |Inc, School, Urban)
Remarquons que le premier facteur est l’effet marginal du modèle probit. Celui-ci
est calculé dans le syllabus, page 91. Nous référant à cette formule, l’élasticité s’écrit
finalement
& ' Inc
ν = φ (Inc, School, Urban)′ β × βInc ×
P(Y |Inc, School, Urban)
où φ est la densité d’une variable aléatoire Normale standardisée, et le vecteur β
représente les paramètres du modèle probit.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 188
Nous calculons à présent l’élasticité dans le cas particulier de l’État du Texas, pour
lequel le revenu médiant Inc est égal à 12672 dollars US. Nous avons déjà obtenu
la probabilité conditionnelle à la question 2. L’élasticité est donc :
12672
ν = φ (0.8372) × (−0.0004) × = −1.780434
0.80
Une augmentation de 2% du revenu médian dans cet État aura donc pour consé-
quence une décroissance de 2 × 1.78% ≈ 3.5% de la probabilité de voter démocrate.
5. On utilise un test de vraisemblance tel qu’expliqué à la section 4.6.2 du syllabus.
L’hypothèse nulle H0 est la nullité des coefficients des variables Inc et School. La
log-vraisemblance maximisée sous le modèles complet est fournie dans le tableau de
>U = −28.65. Dans le modèle réduit, cette log-vraisemblance est égale
données : ln L
à lnˆLR = −35.28 d’après l’énoncé. On calcule la statistique de test énoncée à la
page 102 :
>U − ln L>
2(ln L R ) = 13.26
La loi de la statistique de test sous H0 est celle d’une variable aléatoire χ22 . La
région critique du test au niveau α = 5% est [5.99, ∞), où la valeur 5.99 est trouvée
dans une table χ22 . Comme la statistique de test appartient à la région critique,
nous rejetons l’hypothèse nulle.
Le niveau médian de revenu et d’éducation a donc un impact sur le choix de l’élec-
teur.
Solution de l’exercice 48
(a) Le modèle logit se justifie par la nature binaire de la variable dépendante, Y . Dans ce
cas, l’espérance conditionnelle de Y sachant les variables explicatives est en réalité
une probabilité conditionnelle. Le modèle logit est conçu pour modéliser une
probabilité conditionnelle.
(b) Les deux coefficients estimés sont significatifs car leur p-valeur est proche de zéro.
P (Y = 1 | T = 0) = Λ(0.953)
e0.953
= 0.953
= 1 + e>
0.72 0.5
Notons que l’évènement T = 0 représente, par définition de T , la situation dans
laquelle le temps de parcours en transport en commun égale le temps de parcours
en voiture (car, dans ce cas, T = ln(1) = 0). La valeur de la constante signifie donc
ceci : Si le temps de parcours est le même pour les deux modes de transport, la
probabilité d’emprunter un transport en commun est 0.72. Cette valeur est assez
élevée, et indique que l’échantillon considéré contient des individus plutôt enclins à
voyager en transport en commun.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 189