Vous êtes sur la page 1sur 27

Chapitre 4

Les modèles de choix binaire

Les modèles de régression linéaire développés ci-dessus concernent une variable


dépendante continue (comme par exemple le salaire ou le taux de chômage). Ce
chapitre considère des modèles de régression pour une variable dépendante discrète,
c’est-à-dire prenant un nombre fini de valeurs possibles. Nous commencerons par
la situation la plus simple dans laquelle la variable dépendante prend deux valeurs
possibles.

4.1 Exemples et définitions


De nombreux phénomènes économiques peuvent être modélisés comme un choix
entre plusieurs alternatives possibles. Commençons par quelques exemples.
1. Supposons que l’on s’intéresse aux modes de transport utilisés par les tra-
vailleurs en Belgique. Plus spécifiquement, on s’intéresse au choix des tra-
vailleurs entre le transport en commun ou le transport privé. La variable
dépendante que nous souhaitons étudier prend ici deux valeurs possibles :
«transport public» ou «transport privé». Si Yi représente le mode de trans-
port choisi par l’individu i, on écrit par exemple
!
0 Si l’individu i utilise un transport privé
Yi =
1 Si l’individu i utilise un transport public

Dans cet exemple, il serait intéressant de pouvoir expliquer le choix du mode


de transport en fonction de variables explicatives (par exemple le revenu, la
composition familiale, la région d’habitation, les avantages fiscaux à utiliser
le transport en commun, etc.).
Une telle variable Yi prenant deux valeurs possibles est une variable de choix
binaire.
2. Les universités peuvent s’intéresser au choix des étudiants pour leur établis-
sement d’enseignement supérieur. Ce choix est en effet déterminant pour son
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 166

financement. Si Yi représente l’université choisie par l’étudiant i, on écrit par


exemple


⎪ 1 Si l’étudiant i choisit l’UCL



⎪ 2 Si l’étudiant i choisit l’ULB




⎨ 3 Si l’étudiant i choisit l’ULg

Yi = 4 Si l’étudiant i choisit une autre université



⎪ de la Communauté française





⎪ 5 Si l’étudiant i choisit une autre université


que les précitées

Il serait intéressant d’étudier le choix de l’université en fonction de variables


explicatives telles que la distance entre le domicile et l’université, le réseau de
l’établissement d’enseignement secondaire de l’étudiant, les caractéristiques
socio-économiques de la famille, etc.
Une telle variable Yi prenant plus de deux valeurs possibles est une variable
de choix multiple.
3. Lorsqu’on s’intéresse aux salaires dans une population donnée, il n’est pas
toujours nécessaire d’expliquer cette variable dépendante à l’euro près. On
est parfois amené à considérer des catégories de salaire, comme par exemple :


⎨ 1 Si le revenu annuel du ménage i est en dessous 20k€

Yi = 2 Si le revenu annuel du ménage i est entre 20k€ et 25k€

⎩ ... ...

Dans cet exemple, une variables discrète multiple a été construire à partir
de la variable continue de salaire. La variable Yi ainsi définie s’appelle une
variable catégorielle.
4. On peut également faire une distinction dans les variables de choix multiple.
Dans l’exemple précédent, la variable dépendante présente un ordre logique
pour présenter les catégories : Y = 1 représente les plus bas revenus, Y = 2
représente la catégorie de revenu juste supérieure etc.
Dans certaines situations, il n’y a pas d’ordre logique dans l’encodage de la
variable Y . À titre d’exemple, considérons à nouveau le choix du mode de
transport et affinons notre analyse en précisant si un individu qui choisit le
transport en commun utilise le bus ou le train. Dans ce cas, on peut encoder
la variable dépendante comme suit :

⎨ 1 Si l’individu i utilise la voiture

Yi = 2 Si l’individu i utilise le bus


3 Si l’individu i utilise le train
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 167

Remarquons que cet encodage est arbitraire puisqu’on aurait pu encoder


par "1" les individus prenant le train. Lorsque, comme dans cet exemple, la
variable dépendante n’indique aucun ordre naturel dans la variable discrète,
on parle de variable discrète non ordonnée.
Les différentes situations énumérées ci-dessus sont importantes car elles vont
dicter la stratégie de modélisation du choix des individus. Comme nous l’avons
fait dans les chapitres précédents, nous développons ci-dessous des modèles pour
l’espérance conditionnelle

E(Y |X1 , X2 , . . . , XK ) (4.1)

c’est-à-dire pour la valeur attendue du choix Y conditionnellement à un vecteur


de variables explicatives. Ce que nous souhaitons surtout analyser, c’est l’impact
de chacune des variables explicatives sur le choix Y . A titre d’exemple, on peut se
poser la question : Quel est l’impact d’un accroissement des avantages fiscaux sur
le choix du mode de transport d’un individu ?
Le présent chapitre se concentre sur les variables dépendantes binaires.

4.2 Le modèle de probabilité linéaire (LPM)


Soit Y une variable binaire prenant les valeurs 0 et 1, et X = (X1 , . . . , XK ) un
ensemble de variables explicatives. Pour se fixer les idées, nous allons travailler sur
l’exemple concret suivant.

Exemple
La Grande-Bretagne tient à jour une base de données sur les ménages bri-
tanniques 1 que nous souhaitons utiliser pour expliquer l’emploi. Nous nous
concentrons sur un échantillon de familles monoparentales étudié notamment
par Duncan (2005). Nous nous intéressons à la variable dépendante binaire
Y = 1 si le parent travaille, Y = 0 s’il ne travaille pas. Nous avons à disposi-
tion une series de variables explicatives :
• X1 = AGE = âge du parent
• X2 = TEA = nombre d’années d’éducation du parent
• X3 = MARITAL = statut civil (prenant quatre valeurs : célibataire,
veuf, divorcé ou séparé)
• X4 = TOTKIDS = nombre d’enfants dans le ménage
• X5 = YOUNGCH = âge du plus jeune enfant
• X6 = WHITE = indique si l’individu est blanc (=1) ou non
En élaborant un modèle pour (4.1), on s’intéresse à l’influence de chacune de
ces variables explicatives sur l’emploi, c’est-à-dire sur la valeur attendue de
la variable binaire Y .

1. Disponible à la page www.data-archive.ac.uk.


ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 168

Comme la variable Y est binaire, nous calculons directement :

E(Y |X) = P(Y = 1|X) .

En d’autres termes, l’espérance conditionnelle s’interprète simplement comme une


probabilité conditionnelle. En analogie avec le modèle de régression linéaire, nous
modéliserons cette probabilité comme une fonction linéaire des variables explica-
tives :

E(Y |X) = β1′X1 + β2 X2 + . . . + βK XK


=Xβ. (4.2)

Comme l’espérance conditionnelle coïncide ici avec une probabilité conditionnelle,


ce modèle s’appelle le modèle de probabilité linéaire (LPM 2 ). Comme dans le cas
de la régression linéaire, on introduit la variable aléatoire d’erreur ϵ := Y − E(Y |X)
et le modèle LPM se définit de façon équivalente

Y = X ′β + ϵ . (4.3)

En dépit de sa ressemblance formelle avec le modèle de régression linéaire, le


modèle LPM comporte de sérieux inconvénients.
Tout d’abord, observons que la variable d’erreur ϵ est hétéroscédastique et dé-
pend du paramètre inconnu β. Puisque X ′ β + ϵ doit être égal à 0 ou 1 avec la pro-
babilité P(Y = 0|X) ou P(Y = 1|X) respectivement, l’erreur ϵ doit valoir (−X ′ β)
ou (1 − X ′ β) avec les probabilités correspondantes. La variance conditionnelle de
l’erreur ϵ est donc égale à

Var(ϵ|X) = (−X ′ β)2 P(Y = 0|X) + (1 − X ′ β)2 P(Y = 1|X)

en utilisant P(Y = 0|X) = 1 − P(Y = 1|X) pour la variable binaire Y , on obtient


immédiatement

Var(ϵ|X) = X ′ β(1 − X ′ β) .

Cette dernière expression montre que la variable d’erreur dans le modèle (4.3) est
hétéroscédastique. De plus, cette hétéroscédasticité n’est pas connue en pratique
car elle dépend des paramètres β à estimer.
Pour remédier au problème d’hétéroscédasticité, nous pouvons éventuellement
utiliser l’estimateur OLS robuste (Section 3.3.4). Cependant, même si nous utilisons
cet estimateur, un problème plus sérieux subsiste en ce qui concerne la prédiction.
En effet, à supposer que nous obtenions un estimateur β̂, le prédicteur dans le
modèle linéaire (4.3) s’écrira

Ŷ0 = X ′0 β̂

2. Linear Probability Model.


ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 169

et rien n’assure que Ŷ0 soit bien une probabilité comprise entre 0 et 1. Pour voir ce
phénomène autrement, rien n’assure dans le modèle (4.2) que la droite de régression
X ′ β soit bien comprise entre 0 et 1, donc modélise valablement la probabilité
conditionnelle P(Y = 1|X).
Pour ces raisons, le modèle linéaire LPM n’est pas souvent utilisé dans les
modèles de choix discrets. 3

4.3 Les modèles probit et logit


4.3.1 L’approche par transformation
L’idée des modèles probit et logit est de modifier le modèle linéaire (4.2) en
imposant que l’espérance E(Y |X) soit comprise entre 0 et 1. Pour ce faire, on
remplace le modèle (4.2) par le modèle

E(Y |X) = G &(β1 ′X1' + β2 X2 + . . . + βK XK )


=G Xβ (4.4)

où G est une fonction choisie par l’économètre et comprise entre 0 et 1 (donc


telle que 0 ! G(z) ! 1 pour tout z). Le rôle de la fonction G est de transformer
le modèle linéaire X ′ β pouvant prendre des valeurs sur (−∞, ∞), en un modèle
G(X ′ β) satisfaisant la contrainte de rester sur l’intervalle [0, 1].
Quelle fonction G choisir ? Il y a traditionnellement deux choix possibles pour
cette fonction. Ces choix, que nous allons à présent définir, portent le nom de
modèle probit et modèle logit.

4.3.2 Le modèle probit


Dans le cas du modèle probit, on choisit comme fonction G la fonction de dis-
tribution de la variable aléatoire Normale standardisée. Rappelons que la fonction
de densité de la loi Normale standardisée est
1 2
φ(u) = √ e−u /2 , u∈R.

Cette fonction est représentée à la Figure 4.1(a). La fonction de distribution cor-
respondante est
( z
Φ(z) = φ(u)du, z ∈ R
−∞

et est représentée à la Figure 4.1(b).

3. Des auteurs ont proposé certaines corrections afin de solutionner les problèmes du
modèle LPM. Voir Judge, Griffiths, Hill, and Lee (1985) pour une discussion plus détaillée.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 170
0.4

1.0
0.8
0.3

0.6
0.2

0.4
0.1

0.2
0.0
0.0

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

(a) Fonction de densité φ. (b) Fonction de distribution Φ.

Figure 4.1: Fonctions de distribution et fonction de densité de


la loi Normale standardisée N (0, 1).

Comme toute fonction de distribution, la fonction Φ(z) est comprise entre 0


et 1. Elle constitue donc une fonction possible pour jouer le rôle de la fonction G
dans le modèle (4.4). Le modèle probit s’écrit donc :
& '
E(Y |X) = P(Y = 1|X) = Φ X ′ β . (4.5)

4.3.3 Le modèle logit


Un autre choix populaire pour la fonction G est la fonction logistique
ez
Λ(z) =
1 + ez
qui est, elle aussi, comprise entre 0 et 1. Cette fonction est représentée à la figure
4.2.
Le modèle logit (ou logistique) s’écrit alors
& '
E(Y |X) = P(Y = 1|X) = Λ X ′ β . (4.6)

4.3.4 Interprétation et comparaison des modèles


Nous résumons les trois modèles développés ci-dessus :
• Le Modèle LPM : P(Y = 1|X) = X ′ β,
• Le Modèle Probit : P(Y = 1|X) = Φ(X ′ β),
• Le Modèle Logit : P(Y = 1|X) = Λ(X ′ β).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 171

1.0
0.8
0.6
0.4
0.2
0.0

−3 −2 −1 0 1 2 3

Figure 4.2: Fonctions logistique Λ(z).

Dans ces trois modèles, la probabilité est modélisée par une fonction monotone
des variables exogènes X. Nous avons donc la première interprétation intuitive
suivante : si le paramètre βj associé à la variable explicative Xj est positif (resp.
négatif), alors, ceteris paribus, la probabilité conditionnelle P(Y = 1|X) augmen-
tera (resp. diminuera) si la variable Xj augmente.
Que pouvons-nous dire de la magnitude de cette variation, c’est-à-dire de l’effet
marginal de la variable Xk ? Pour répondre à cette question, nous calculons la
dérivée partielle 4

∂P(Y = 1|X)
∂Xj

dans chacun des trois modèles. Nous trouvons : 5


• Dans le modèle LPM :
∂P(Y = 1|X)
= βj
∂Xj

• Dans le modèle Probit :


∂P(Y = 1|X)
= φ(X ′ β)βj
∂Xj

• Dans le modèle Logit :

∂P(Y = 1|X) exp(X ′ β)


= βj
∂Xj {1 + exp(X ′ β)}2

4. Voir la section 2.3 ci-dessus


5. Exercice utile
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 172

L’effet marginal est modélisé très différement dans les trois modèles. On constate
tout de suite que les paramètres βj des trois modèles ne sont absolument pas com-
parables entre eux. De plus, le coefficient βj ne représente l’effet marginal de la
variable Xj que dans le modèle LPM. Dans les modèles probit et logit, l’effet mar-
ginal varie en fonction de toutes les variables exogènes X1 , . . . , XK .

Exemple
Reprenons l’exemple du mode de transport où Y = 0 si l’individu utilise un
transport privé, et Y = 1 si l’individu utilise les transports publics. Imaginons
que nous analysions ce choix par rapport à un ensemble de variables expli-
catives X parmi lesquelles se trouve la variable tps représentant le temps de
parcours domicile-travail.
1. Si le terme X ′ β est élevé, disons égal à 3, alors, dans les modèles logit ou
probit, la probabilité que l’individu utilise le transport en commun est
proche de 1 (car Φ(3) et Λ(3) sont proches de 1). Dans ce cas, quel est
exp(3)
l’effet marginal de la variable tps ? On observe que φ(3) et {1+exp(3)} 2

sont proches de 0, donc l’effet marginal sera lui-même pratiquement


nul.
Cela signifie qu’un changement dans la variable «temps de parcours»
aura peu d’impact sur le choix du transport de l’individu. Cet effet est
naturel car l’individu possédant une combinaison linéaire X ′ β élevée
est prédisposé à utiliser les transports en commun et son comporte-
ment sera assez robuste face à un petit changement dans une variable
explicative particulière, comme tps.
2. Au contraire, si le terme X ′ β est proche de zéro, Φ(X ′ β) et Λ(X ′ β)
sera proche de 1/2. Nous sommes ici dans la situation où l’individu opte
pour un mode de transport avec une probabilité 1/2. Cet individu est
donc indécis. Qu’en est-il de l’effet marginal ? Ici l’effet marginal sera
maximal, ce qui signifie que le choix de l’individu sera très influencé par
un changement dans une des variables explicatives, comme par exemple
le temps de parcours domicile-travail.

4.4 Modélisation par variable latente


Nous developpons une autre interprétation usuelle des modèles de choix discret.
Il ne s’agit pas vraiment d’un nouveau modèle, mais plutôt d’un autre point de
vue sur les modèles introduits ci-dessus.
Dans cette approche, on suppose qu’il existe une variable continue Y ∗ qui n’est
pas observée, mais qui mesure la propension d’un individu à faire son choix. Bien
que nous n’observions pas cette propension Y ∗ directement, nous constatons le
choix qui en résulte, modélisée par la variable binaire Y que nous relions à Y ∗ par
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 173

l’équation :
!
1 si Y ∗ > 0
Y = (4.7)
0 si Y ∗ ! 0

Exemple
Dans l’exemple ci-dessus du marché du travail pour les familles monoparen-
tales, Y ∗ pourrait modéliser l’intensité avec laquelle un individu souhaite
travailler (il s’agit d’un exemple simpliste du phénomène, mais qui illustre
la notion de propension). Plus élevée est cette intensité, plus il est probable
d’observer un individu qui travaille.

Une variable comme Y ∗ qui est inobservée mais qui explique le phénomène
analysé est appelée une variable latente. Dans cette stratégie de modélisation, il
faut alors imposer des conditions sur la variable latente elle-même. La condition
la plus simple consite à modéliser Y ∗ comme un modèle de régression linéaire des
variables exogènes :

Y ∗ = β1′X1 + . . . + βK XK + ϵ (4.8)
=X β+ϵ.

Avec ce modèle, on dérive immédiatement la structure de l’espérance conditionnelle


E(Y |X) :

E(Y |X) =∗ P(Y = 1|X) (car Y ∈ {0, 1})


= P(Y > 0|X) (par équation (4.7))
= P(β1 X1 + ′. . . + βK XK + ϵ > 0|X) (par équation (4.8))
= P(ϵ > −X β|X) . (manipulation de l’inégalité)

Si la distribution conditionnelle de l’erreur ϵ est symétrique autour de zéro, on peut


simplifier cette dernière expression :

E(Y |X) = P(ϵ < X′ ′ β|X) (par symétrie de la densité conditionnelle de ϵ)


= Fϵ|X (X β) .

où la fonction Fϵ|X représente la distribution conditionnelle de la variable ϵ (condi-


tionnellement à X).
On retrouve bien l’approche par transformation précédente, en considérant
G(X ′ β) = Fϵ|X (X ′ β).

Interprétation par les modèles d’utilité stochastique


Une justification de l’approche par variable latente peut se trouver dans la
théorie économique des comportements basée sur les fonctions d’utilité. Supposons
que Y représente comme dans un exemple ci-dessus le statut professionnel (Y = 1 si
l’individu travaille, Y = 0 si l’individu ne travaille pas) et supposons que les deux
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 174

issues possibles (travailler ou ne pas travailler) soient décrites par les fonctions
d’utilité UY∗ =0 et UY∗ =1 supposées linéaires :

UY∗ =1 = X ′ β 1 + ϵ1
UY∗ =0 = X ′ β 0 + ϵ0 .

Avec cette caractérisation, un individu choisira de travailler si l’utilité dont il béné-


ficie en travaillant (notée UY∗ =1 ) excède l’utilité obtenue en demeurant sans emploi
(notée UY∗ =0 ). Le choix de travailler est donc réalisé si UY∗ =1 > UY∗ =0 . En d’autres
termes, la variable binaire Y représentant la participation au marché du travail est
telle que
!
1 si UY∗ =1 > UY∗ =0
Y =
0 sinon

et donc, en utilisant la linéarité des fonctions d’utilité,

E(Y |X) = P(UY∗′ =1 > UY∗ =0 |X)


= P(X (β 1 − β 0 ) + ϵ1 − ϵ0 > 0|X) .

Dans ce modèle, les paramètres β0 et β1 ne sont clairement pas identifiables, mais


on peut identifier leur différence. En notant β = β 1 − β 0 et ϵ = ϵ1 − ϵ0 , on obtient
comme ci-dessus

E(Y |X) = P(X ′ β + ϵ > 0|X) .

4.5 Estimation
À l’exception du modèle LPM, la relation entre entre l’espérance conditionnelle
E(Y |X) et les paramètres β n’est pas linéaire car elle fait intervenir la fonction de
tranformation G. L’estimation dans un tel modèle non linéaire est plus souvent fon-
dée sur le principe du maximum de vraisemblance que sur le principe des moindres
carrés.
Nous allons tout d’abord rappeler quelques résultats importants du principe du
maximum de vraisemblance. 6

4.5.1 Rappel : le principe du maximum de vraisem-


blance
Dans le cadre de ce rappel sur le principe du maximum de vraisemblance, nous
allons travailler dans un modèle simple. Considérons les 10 observations indépen-
6. Cette technique d’estimation a déjà été étudiée au cours de statistique de 2ème
année.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 175

dantes suivantes provenant d’une distribution Bernoulli : 7


Z1 = 1, Z2 = 0, Z3 = 0, Z4 = 0, Z5 = 0,
Z6 = 0, Z7 = 1, Z8 = 0, Z9 = 1, Z10 = 0. (4.9)

Nous souhaitons estimer le paramètre π de la variable Bernoulli ayant généré


ces données. La distribution de probabilité de chaque observation Zi est déterminée
par
!
π si zi = 1
P(Zi = zi ) =
1 − π si zi = 0
= π zi (1 − π)1−zi

Puisque les observations Zi sont indépendantes, la probabilité jointe est égale


au produit des probabilités :

P(Z1 = 1, Z2 = 0, · · · , Z10 = 0)
= P(Z 1 = 1) × P(Z2 = 0) × · · · × P(Z10 = 0)
= π 31 (1 − π)70 × π 0 (1 − π)1 × · · · × π 0 (1 − π)1
= π (1 − π) .

Cette dernière probabilité s’interprète comme suit : en supposant que les données
ont été générées par une loi de Bernoulli de paramètre π, la probabilité d’observer
l’échantillon (4.9) est égale à π 3 (1 − π)7 .
Le principe du maximum de vraisemblance consiste à choisir la valeur de π
qui rende l’observation de cet échantillon la plus probable. La figure 4.3 représente
la probabilité π 3 (1 − π)7 en fonction des différentes valeurs possibles de π. Cette
fonction possède un mode, et son maximum est atteint en 3/10. L’idée est que
la valeur π = 3/10 correspond au paramètre le plus vraisemblable étant donné
l’échantillon observé.
La fonction de la figure 4.3 est la fonction de vraisemblance. Cette fonction est
définie dans notre exemple par

L(π|Z1 , Z2 , . . . , Z10 ) := P(Z 1 = 1, Z2 = 0, · · · , Z10 = 0)


= π 3 (1 − π)7 .

Notez qu’il s’agit d’une fonction du paramètre π conditionnellement à l’échantillon


observé. En pratique, on remplace souvent cette fonction par la fonction de log-
vraisemblance

ℓ(π|Z1 , Z2 , . . . , Z10 ) := ln L(π|Z1 , Z2 , . . . , Z10 ) .

7. Rappelons qu’une variable aléatoire discrète Z suit une loi de Bernoulli de paramètre
π si Z prend les deux valeurs 0 et 1 avec les probabilités repectives 1 − π et π (0 ! π ! 1).
Sa fonction de distribution est donc P(Z = z) = π z (1 − π)z où le nombre z ne prend que
les valeurs 0 ou 1. Il s’agit d’un cas particulier de la variable Binomiale (Voir cours de
probabilité de 1ère année).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 176

0.0020
0.0015
0.0010
0.0005
0.0000

0.0 0.2 0.4 0.6 0.8 1.0

Figure 4.3: La fonction π &→ π 3 (1 − π)7 atteint son maximum


en π
) = 3/10.

qui est simplement le logarithme de la fonction de vraisemblance. La valeur du pa-


ramètre qui minimise ℓ est bien entendu la même valeur du paramètre qui minimise
L. On peut donc baser l’inférence sur la maximisation de ℓ, qui est souvent plus
facile à traiter en pratique. Dans notre exemple, la fonction de log-vraisemblance
est

ℓ(π|Z1 , Z2 , . . . , Z10 ) = 3 ln π + 7 ln(1 − π) .

Ce principe d’estimation se généralise à toutes les situations où un ou plusieurs


paramètres doivent être estimés. Dans bien des situations, l’expression de la fonc-
tion de vraisemblance est compliquée, et son maximum est impossible à trouver
analytiquement. On a alors recours à des méthodes numériques comme par exemple
la méthode de Newton.
Terminons ce rappel en énonçant quelques propriétés importantes de l’estima-
teur de maximum de vraisemblance. Tout d’abord, ce principe se généralise natu-
rellement à l’estimation d’un vecteur de plusieurs paramètres θ = (θ1 , . . . , θK )′ . De
plus, sous des conditions de régularité assez générales 8
1. L’estimateur par maximum de vraisemblance est consistant. En d’autres
termes, si )
θ représente l’estimateur par maximum de vraisemblance du vec-
teur de paramètres θ, alors )
P
θ −→ θ.
2. L’estimateur par maximum de vraisemblance est asymptotiquement normal,
c’est-à-dire :
√ L
n()
θ − θ) −→ N (0, S) . (4.10)

8. Pour un exposé rigoureux de ces conditions, on pourra consulter par exemple Monfort
(1997).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 177

La matrice de variance asymptotique S est déterminée par la forme de la


fonction de vraisemblance. On montre que cette matrice est limite pour n
tendant vers l’infini de la matrice {In (θ)}−1 où
* +
1 ∂ 2 ln L(θ)
In (θ) = −E
n ∂θ∂θ′
c’est-à-dire l’opposé de l’espérance (calculée en utilisant le modèle θ) de la
matrice Hessienne de ln L(θ).
3. On montre également que l’estimateur de maximum de vraisemblance est
efficace dans la classe des estimateurs consistants et asymptotiquement nor-
maux (Théorème de Cramér-Rao).

4.5.2 Estimation par maximum de vraisemblance dans


le modèle de choix discret
La variable aléatoire Y est une variable binaire telle que
P(Y = 1|X) = G(X ′ β)
et
P(Y = 0|X) = 1 − P(Y = 1|X)
= 1 − G(X ′ β)
où, rappelons-le, G est la fonction Φ dans le cas du modèle probit, ou Λ dans le
cas du modèle logit.
La variable aléatoire Y |X peut donc être modélisée comme une variable Ber-
noulli de paramètre π = G(X ′ β). En particulier, la distribution de probabilité de
Y |X s’écrit
P(Y = y|X) = π y {1 − π}
,
1−y
-1−y pour y = 0 ou 1,
= G(X β) 1 − G(X ′ β)
′ y
pour y = 0 ou 1.
Supposons à présent que l’on observe un échantillon iid des variables (Y, X) de
taille n. Notons cet échantillon
Xn = {(Y1 , X 1 ), (Y2 , X 2 ), . . . , (Yn , X n )} .
En utilisant que chaque variable Yi |X i possède la distribution Bernoulli rappelée
ci-dessus, et en notant que ces variables sont indépendantes, la fonction de vrai-
semblance de l’échantillon Xn est alors donnée par
, -1−Y1
L(β|Xn ) = G(X ′1 β)Y1 1 −,G(X ′1 β) -1−Y2
× G(X ′2 β)Y2 1 − G(X ′2 β)
··· , -1−Yn
n
× G(X ′n β)Yn 1 − G(X ′n β)
. , -1−Yi
= G(X ′i β)Yi 1 − G(X ′i β) .
i=1
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 178

Par le principe du maximum de vraisemblance, nous cherchons à calculer la va-


leur du paramètre β qui maximise la fonction L(β|Xn ). Il est équivalent de chercher
le paramètre qui maximise la log-vraisemblance

ℓ(β|Xn ) := ln
n
L(β|Xn )
/ 0 , -1
= Yi ln G(X ′i β) + (1 − Yi ) ln 1 − G(X ′i β) .
i=1

Pour trouver le maximum de cette fonction, il faut résoudre les équations de


log-vraisemblance

∇β ℓ(β|Xn ) = 0

dont il n’existe pas de solution analytique en général. La résolution de ce système


d’équations est réalisée par les logiciels en utilisant des procédures itératives pour
trouver des maxima de fonctions réelles.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 179

Exemple
Reprenons l’exemple de la participation d’un parent isolé au marché du tra-
vail. Un logiciel utilise une procédure itérative pour trouver les paramètres
maximisant la vraisemblance. Dans notre exemple, le logiciel R précise le
nombre d’itérations nécessaires afin de trouver une solution :

Number of Fisher Scoring iterations: 4

Le logiciel a calculé les valeurs suivantes des paramètres :

Estimate Std. Error z value Pr(>|z|)


(Intercept) -0.790191 0.254745 -3.102 0.00192 **
AGE 0.017297 0.005682 3.044 0.00233 **
TEA -0.004361 0.004809 -0.907 0.36444
TOTKIDS -0.241375 0.037768 -6.391 1.65e-10 ***
YOUNGCH 0.066579 0.009276 7.178 7.09e-13 ***
WHITETRUE 0.220789 0.108132 2.042 0.04117 *
MARITALSeparated 0.069997 0.086138 0.813 0.41644
MARITALSingle -0.263126 0.086369 -3.047 0.00232 **
MARITALWidowed -0.312020 0.156283 -1.996 0.04588 *

Comment interprétez-vous les coefficients estimés ? Comme dans le cas de


la régression linéaire avec variables dépendantes continues, le logiciel fournit
également une estimation de l’écart-type pour l’estimation des coefficients, et
donne le résultat d’un test de significativité de ces coefficients estimés. Nous
allons voir dans la suite comment ces valeurs sont calculées.

4.5.3 Estimation de la variance des estimateurs⋆


Estimer la matrice de covariance de l’estimateur par maximum de vraisem-
blance est une tâche plus délicate que pour l’estimateur OLS dans le modèle li-
néaire. Si on considère la matrice donnée par le théorème central limite (4.10), la
matrice de covariance asymptotique est donnée par
! 2 34−1
, -−1 ∂ 2 ℓ(β)
I(β) = −E .
∂β∂β ′

Cette variance dépend du paramètre inconnu β. On pourrait imaginer remplacer


le paramètre par son estimateur β,) mais il résultera à calculer l’espérance d’une
expression nonlinéaire très difficile à manipuler. Pour cette raison, deux autres
solutions sont en général considérées en pratique.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 180

Méthode itérative
Le premier estimateur consiste à calculer
⎧ 5 ⎫−1
⎨ ∂ 2 ℓ(β) 5 ⎬
!−1 = − 5
{I(β)} 5 .
⎩ ∂β∂β ′ 5 ! ⎭
β=β

Cet estimateur calcule la matrice Hessienne en l’estimateur θ) (et non plus l’espé-
rance de la matrice).
Cet estimateur nécessite de calculer des dérives secondes. C’est pourquoi dans
la pratique, on a à nouveau recourt à des méthodes itératives pour calculer cette
matrice.

L’estimateur BHHH
Cet estimateur tient son nom des travaux de Berndt, Hall, Hall, and Hausman
(1974). Ces auteurs se basent sur le fait que l’espérance des dérivées secondes de la
matrice est égale à la covariance du vecteur des premières dérivées 9 . L’estimateur
proposé est donné par
! n 4−1
/
!−1 =
{I(β)} )
g)g′ .
i i
i=1

où )
g i est le vecteur des premières dérivées
)
∂ ln G(X ′i β)
ĝ i := .
)
∂β
Cet estimateur a l’avantage d’être très simple à calculer, car il n’utilise que
les premières dérivées déjà calculées dans le travail de maximisation de la log-
vraisemblance. De plus, la matrice ainsi estimée a l’avantage d’être automatique-
ment non-définie négative, comme doit l’être une matrice de covariance.
En utilisant la forme particulière des modèles probit et logit, ces deux esti-
mateurs se simplifient en des formules pouvant être consultées, par exemple, dans
Amemiya (1985).

4.6 Tests
4.6.1 Tests de restriction linéaire
Le test de restriction linéaire, dont le test de significativité est un cas particulier,
peut être construit à partir des estimateurs de maximum de vraisemblance des
9. Ce résultat n’est pas trivial. Pour un approfondissement sur la méthode du maximum
de vraisemblance, voir Monfort (1997) ou le cours ECON2651 (Advanced Econometrics)
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 181

paramètres du modèle non linéaire. L’ingrédient de base de cette construction est


le théorème central limite (4.10). Cette propriété permet de trouver la distribution
asymptotique des estimateurs β ) et de toute combinaison linéaire Rβ, ) où la R est
la matrice exprimant la restriction à tester, cf section 2.6 ci-dessus.
À titre d’exemple, supposons que nous souhaitions éprouver l’hypothèse

H0 : β1 = 0 contre H1 : β1 ̸= 0

Le théorème central limite (4.10) permet de conclure que l’estimateur du maximum


de vraisemblance de β1 est tel que

n(β̂1 − β1 )

suit approximativement une loi normale N (0, S11 ) où S1 1 est l’élément (1, 1) de
la matrice d’information I(β). Cette matrice étant inconnue en pratique, elle est
estimée comme expliqué à la section 4.5.3. Notons Ŝ11
9 l’estimateur de la variance

ainsi obtenu. La statistique de test est donc nβ̂1 / Ŝ 1 1 qui, sous H0 , suit ap-
proximativement une loi de student tn−K .

Exemple
Dans la sortie de l’exemple de la page 179, la statistique de test t est auto-
matiquement fournie pour le test de significativité (c’est-à-dire H0 : βj = 0).
La p-valeur est également donnée.

4.6.2 Test du rapport de vraisemblances


Le calcul de la vraisemblance permet de construire d’autres tests de restriction
souvent utiles. Supposons que nous souhaitions tester une série de contraintes sur
les paramètres β du modèle. A titre d’exemple, considérons le test suivant :

H0 : tous les coefficients sauf celui de l’éventuelle constante sont nuls.

(Le résultat de ce test est en réalité fourni par défaut dans la sortie de nombreux
logiciels.)
L’idée du test basé sur la vraisemblance est la suivante : Si la restriction pro-
posée par l’hypothèse H0 est vraie, alors en recalculant la vraisemblance sous la
contrainte que les coefficients considérés sont nuls, nous ne devrions pas obser-
ver une grande différence avec la vraisemblance calculée sans cette restriction. La
construction du test se base donc sur une comparaison entre la vraisemblance maxi-
misée dans le modèle complet
: ; & '
L)U = L (β̂1 , β̂2 , . . . , β̂K )′ |Xn = max L (β1 , . . . , βK )′ |Xn
β1 ,...,βK
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 182

et la vraisemblance maximisée sous H0 , c’est-à-dire en ignorant tous les para-


mètres sauf β1 (nous supposons ici que la première variable explicative modélise la
constante, donc X1 = 1) :
& '
L)R = max L (β1 , 0, . . . , 0)′ |Xn .
β1

Afin de comparer ces deux valeurs, nous constuisons le rapport de vraisem-


blances 10

L)R
LR = .
L)U
Si ce rapport est proche de 1, alors les deux vraisemblances sont similaires, et
cette situation est donc compatible avec l’hypothèse H0 . Au contraire, lorsque le
rapport de vraisemblance n’est pas proche de 1, les deux vraisemblances diffèrent
et l’hypothèse H0 sera remise en question. Le test du rapport de vraisemblances se
base sur la distribution suivante :

−2 ln LR = 2(ln L)U − ln L)R ) ∼ χ2r sous H0

où r est le nombre de restrictions (dans notre exemple, r = K − 1).

Exemple
1. Dans l’exemple de la page 179 :

LR (zero slopes) = 383.435 [.000]

Quelle est votre conclusion ?


2. Dans le même exemple, on teste la significativité jointe des paramètres
de EDU et LOC (test de restriction, avec 2 restrictions). Les résultats du
test sont

CHISQ(2) = 1.2171808 ; P-value = 0.54412

Quelle est votre conclusion ?

Il existe d’autres tests basés sur la vraisemblance que nous ne voyons pas dans le
cadre de ce cours. Une étude plus approfondie des tests basés sur la vraisemblance
est en général comprise dans un second cours d’économétrie 11 . Un bon point de
départ dans la littérature sur le sujet est l’ouvrage de Godfrey (1988).

10. LR est l’abbréviation de l’anglais Likelihood Ratio signifiant «Rapport de vraisem-


blances».
11. Par exemple l’actuel ECON3503 (Advanced Econometrics).
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 183

4.7 Mesures d’ajustement


Dans le but de juger de la précision d’un modèle calibré aux données, un cer-
tain nombre de mesures ont été proposées suivant le principe du coefficient de
détermination R2 étudié au chapitre 1.

4.7.1 Pseudos R2
Une possibilité pour construire un indice d’ajustement est de comparer la valeur
de la vraisemblance avec la valeur de la vraisemblance si le modèle est seulement
estimé avec un coefficient constant β1 sans aucune variable explicative. En utilisant
les notations de la section 4.6.2, il s’agit de comparer L)U et L)R , où L)U représente le
maximum de la fonction de vraisemblance sans contrainte, et L)R est le maximum
de la fonction de vraisemblance calculée avec un seul paramètre β1 .
Une mesure d’ajustement proposée par McFadden (1974) est définie par

ln L)U
Pseudo-R2 de McFadden = 1 − .
ln L)R
La justification mathématique de cette mesure d’ajustement n’est pas identique à
la définition du R2 , c’est pourquoi on parle de pseudo-R2 . L’idée de cette mesure
est la suivante. Par construction de la vraisemblance dans le modèle binaire, la
vraisemblance est toujours plus petite ou égale à 1. Pour un modèle bien ajusté, la
vraisemblance non restreinte L)U doit être proche de 1, donc ln L)U est proche de 0,
et le pseudo-R2 est proche de 1. Au contraire, pour un modèle mal ajusté, L)U sera
proche de L)R et le pseudo-R2 est proche de zéro.
D’autres mesures ont été proposées dans la littérature. Une mesure récente
régulièrement utilisée a été proposée par Estrella (1998) et est définie comme suit :
2 3− 2 ln L̂R
ln L)U n

Pseudo-R2 d’Estrella = 1 − .
ln L)R

4.7.2 Mesure de prévision


Une autre façon de mesurer la qualité de l’ajustement est d’examiner la capacité
prédictive du modèle estimé. L’idée ici est de calculer la proportion de prédictions
correctes du modèle.
Afin de construire cette mesure, il faut tout d’abord construire une règle à
partir de laquelle la prévision des probabilités P(Y = 1|X) peut conduire à un
prédicteur discret de l’état Y = 0 ou Y = 1. L’approche la plus simple est la
suivante : définissons le prédicteur
)
P)i = G(X ′i β) pour tout i
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 184

où G est la transformation probit ou logit, et β) est l’estimateur par maximum de


vraisemblance. Le prédicteur P)i représente notre estimateur de la probabilité que
l’individu i choisisse Yi = 1. Comme règle de prévision du choix Yi , on considère
!
1 si P)i > 0.5
Y)i :=
0 si P)i ! 0.5

On peut à présent comparer notre prédiction du choix de chaque individu (Y)i ) avec
le choix réellement observé (Yi ). Cette comparaison peut prendre la forme d’une
table de contingence :
Valeurs prédites
0 1
Valeurs 0 n00 n01
Observées 1 n10 n11
Dans cette table n00 représente le nombre d’individus choisissant Y = 0 pour
lequel notre modèle a bien prédit Y = 0. De même n11 représente le nombre
d’individus choisissant Y = 1 pour lequel nous avons prédit Y = 1. Au contraire,
les nombres n01 et n10 mesurent les erreurs de classification. Un modèle bien ajusté
aura donc des valeurs n00 et n11 maximales.
Dans les sorties de logiciels, cette mesure d’ajustement est donnée par la pro-
portion de prédictions correctes :
n00 + n11
n
où n est la taille de l’échantillon. Un rapport proche de 1 signifie que le modèle a
une capacité de prévision presque parfaite. Si ce rapport est proche de 0, alors le
modèle a une mauvaise qualité prédictive.

Exemple
Dans l’exemple de la page 179, :

Scaled R-squared = .196935


Fraction of Correct Predictions = 0.677419

Dans l’échantillon, le modèle a donc prédit correctement le choix de 67,7 %


individus.

4.8 Exercices sur le chapitre 4


Modèles de choix binaire
Exercice 47. On cherche à expliquer par un modèle à réponse binaire la probabi-
lité de vote pour le candidat démocrate Jimmy Carter aux éléctions présidentielles
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 185

américaines de 1976 en fonction de caractéristiques propres aux Etats. La variable


expliquée Yi = 1 prend la valeur 1 si dans l’état indicé i, les votes ont été majori-
taires pour le candidat démocrate Jimmy Carter, et 0 si au contraire le candidat
républicain Gerry Ford a obtenu la majorité des voix dans cet état. Les variables
explicatives sont les suivantes : Inc désigne le revenu médian de l’état en 1975,
School désigne la médiane du nombre d’années de scolarité suivies par les habi-
tants de l’état âgés de plus de 18 ans, Urban désigne le pourcentage de la population
vivant en zone urbaine et la variable Region est une variable dummy prenant la
valeur 1 pour la région Nord Est, 2 pour le Sud Est, 3 pour le Sud et le Middle
West et 4 pour l’Ouest. Les données couvrent les 51 états américains.
On reporte dans le tableau suivant les résultats d’estimation d’un modèle Pro-
bit :

Coefficient Écart-type t de Student p valeur


Inc -0.0004 0.00016 -2.60 0.009
School 0.269 0.140 1.93 0.053
Urban 0.036 0.012 2.87 0.04
Log vraisemblance : -28.65252
Proportion de prédictions correctes : 0.745

1. Sur base des informations fournies, que pouvez-vous dire de influence du


revenu médian par état sur le vote démocrate aux élections de 1976 ? Même
question pour le niveau de scolarité médian et l’importance de la population
urbaine.
2. A partir des estimations du modèle probit, donnez la probabilité qu’un Etat
comme le Texas, ayant un revenu médian de 12672 dollars, un niveau médian
d’étude de 12.4, et un taux d’urbanisation de 71.4 ait voté démocrate aux
éléctions de 1976.
3. Quelle utilisation pourrait on envisager pour ce modèle probit dans le cadre
de nouvelles éléctions présidentielles ? Précisez les limites d’un tel exercice.
4. Calculez l’élasticité pour l’état du Texas de la probabilité du vote démocrate
par rapport au revenu médian. D’après ce modèle et votre calcul, quel se-
rait l’impact d’une augmentation de 2% du revenu médian dans cet état en
matière de vote aux présidentielles ?
5. L’estimation d’un probit avec pour seule variable explicative la variable
Urban donne comme valeur pour la log vraisemblance : - 35.28. Testez la
nullité des coefficients des variables de revenu Inc et de scolarité School au
niveau α = 5 % et concluez en termes économiques.
Exercice 48. Dans le cadre de la mise en place d’une nouvelle ligne RER reliant
Ottignies à Bruxelles, les autorités de tutelle sont intéressées de prédire la pro-
portion de navetteurs qui emprunteront ce nouveau mode de transport. Pour ce
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 186

faire, vous recoltez un échantillon de 640 navetteurs pour lesquels vous mesurez les
variables suivantes :
– Y = choix actuel du mode de transport (1 = transport en commun, 0 =
voiture)
– T = une mesure comparant le temps de parcours en transport en commun
et celui en voiture. Cette mesure est donnée par
< =
Temps de parcours en transport en commun
T = ln
Temps de parcours en voiture

Un modèle logit est utilisé pour modéliser la probabilité du choix du mode de


transport. Les résultats de l’estimation par maximum de vraisemblance sont résu-
més dans la table ci-dessous :
Coefficients : constante 0.953 p-valeur : 0.002
T -1.823 p-valeur : 0.000
− ln L -206.83
Pseudo-R2 0.449
(a) Justifiez l’utilisation d’un modèle logit dans cette étude.
(b) Interprétez les estimations obtenues.
(c) Le 72e navetteur de l’échantillon emprunte régulièrement sa voiture et possède
les variables explicatives suivantes, selon le mode de transport choisi :

Transport en commun Voiture


Temps de parcours 60’ 30’

A partir des estimations données ci-dessus, prédisez la probabilité que cet


individu emprunte un transport en commun ou un bus pour aller travailler.
(d) Après la mise en place du RER, on estime que le temps de parcours que le
72e navetteur prendrait pour aller au travail en RER s’élève à 40 minutes.
Quel sera l’effet attendu de ce changement sur le choix du mode de transport
de ce navetteur ? (Indication : pour répondre à cette question, fondez votre
calcul sur l’effet marginal de cet individu dans le modèle logit)

4.9 Solution aux principaux exercices du cha-


pitre 4
Solution de l’Exercice 47
1. Inc : Le coefficient de cette variable est significatif au niveau α = 5% (puisque la
p-valeur du test de significativité est 0.009 < 0.05). De plus son signe est positif,
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 187

signifiant que l’impact du revenu médian sur la probabilité de voter démocrate est
négatif. En d’autres termes, un accroissement du revenu médian se traduit dans le
modèle estimé par une diminution de la probabilité de voter pour Jimmy Carter.
School : Ce coefficient n’est pas significatif au niveau α = 5% (puisque la p-valeur
du test de significativité est 0.053 > 0.05). Ceci suggère que la médiane du niveau
d’éducation n’a pas d’influence sur le choix de l’électeur dans cet échantillon.
Urban : Ce coefficient est significatif au niveau α = 5% (puisque la p-valeur du
test de significativité est 0.04 < 0.05). Au contraire de Inc, son signe est positif.
La proportion d’urbanisation est donc significative, et a un impact positif sur la
probabilité de voter démocrate.
2. La question posée revient à calculer

P(Y = 1|Inc = 12672, School = 12.4, Urban = 71.4).

Par définition du modèle probit, et vu le tableau présentant les résultats d’estima-


tion, cette probabilité se calcule comme suit :

P(Y = 1|Inc = 12672, School = 12.4, Urban = 71.4)


= Φ(−0.0004 × 12672 + 0.269 × 12.4 + 0.036 × 71.4)
(Φ est la CDF d’une v.a. Normale standardisée)
= Φ(0.8372)
= 0.80
(en consultant une table statistique)

3. Une utilisation possible pourrait être de vérifier sur quel état la probabilité de voté
démocrate est proche de 0.5. Un candidat pourrait utiliser cette information afin
de savoir où concentrer ses efforts de campagne afin de faire pencher le vote en sa
faveur.
Une limite de cet exercice réside dans le choix des variables prises en compte dans
le modèle. Tout d’abord, ces variables sont des quantités médianes et ne reflètent
pas l’hétérogénéité de revenus ou d’éducation pouvant exister dans certains États.
De plus, d’autres variables pourraient être pertinentes dans le modèle (par exemple
la taille de la population par État ou la proportion de votants de couleur noire).
Enfin, le modèle probit considéré ne considère pas d’intercept. Cela signifie que, sans
les variables explicatives du modèle, le choix des électeurs est équiprobablement
démocrate ou républicain. Des circonstances particulières à la politique américaine
en 1976 auraient pu contredire cette hypothèse de travail.
4. Le syllabus, page 44, a dérivé la formule de l’élasticité. Dans le cas d’un modèle
binaire, l’espérance conditionnelle de la variable dépendante se confond avec sa
probabilité conditionnelle. L’élasticité prend donc la forme suivante :
∂P(Y |Inc, School, Urban) Inc
ν := ×
∂Inc P(Y |Inc, School, Urban)
Remarquons que le premier facteur est l’effet marginal du modèle probit. Celui-ci
est calculé dans le syllabus, page 91. Nous référant à cette formule, l’élasticité s’écrit
finalement
& ' Inc
ν = φ (Inc, School, Urban)′ β × βInc ×
P(Y |Inc, School, Urban)
où φ est la densité d’une variable aléatoire Normale standardisée, et le vecteur β
représente les paramètres du modèle probit.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 188

Nous calculons à présent l’élasticité dans le cas particulier de l’État du Texas, pour
lequel le revenu médiant Inc est égal à 12672 dollars US. Nous avons déjà obtenu
la probabilité conditionnelle à la question 2. L’élasticité est donc :
12672
ν = φ (0.8372) × (−0.0004) × = −1.780434
0.80

Une augmentation de 2% du revenu médian dans cet État aura donc pour consé-
quence une décroissance de 2 × 1.78% ≈ 3.5% de la probabilité de voter démocrate.
5. On utilise un test de vraisemblance tel qu’expliqué à la section 4.6.2 du syllabus.
L’hypothèse nulle H0 est la nullité des coefficients des variables Inc et School. La
log-vraisemblance maximisée sous le modèles complet est fournie dans le tableau de
>U = −28.65. Dans le modèle réduit, cette log-vraisemblance est égale
données : ln L
à lnˆLR = −35.28 d’après l’énoncé. On calcule la statistique de test énoncée à la
page 102 :
>U − ln L>
2(ln L R ) = 13.26

La loi de la statistique de test sous H0 est celle d’une variable aléatoire χ22 . La
région critique du test au niveau α = 5% est [5.99, ∞), où la valeur 5.99 est trouvée
dans une table χ22 . Comme la statistique de test appartient à la région critique,
nous rejetons l’hypothèse nulle.
Le niveau médian de revenu et d’éducation a donc un impact sur le choix de l’élec-
teur.

Solution de l’exercice 48
(a) Le modèle logit se justifie par la nature binaire de la variable dépendante, Y . Dans ce
cas, l’espérance conditionnelle de Y sachant les variables explicatives est en réalité
une probabilité conditionnelle. Le modèle logit est conçu pour modéliser une
probabilité conditionnelle.

(b) Les deux coefficients estimés sont significatifs car leur p-valeur est proche de zéro.

La constante vaut 0.953. Cela signifie que, si T = 0, la probabilité d’emprunter


un transport en commun est supérieure à 0.5 :

P (Y = 1 | T = 0) = Λ(0.953)
e0.953
= 0.953
= 1 + e>
0.72 0.5
Notons que l’évènement T = 0 représente, par définition de T , la situation dans
laquelle le temps de parcours en transport en commun égale le temps de parcours
en voiture (car, dans ce cas, T = ln(1) = 0). La valeur de la constante signifie donc
ceci : Si le temps de parcours est le même pour les deux modes de transport, la
probabilité d’emprunter un transport en commun est 0.72. Cette valeur est assez
élevée, et indique que l’échantillon considéré contient des individus plutôt enclins à
voyager en transport en commun.
ULB 2014 – STATS308 – Économétrie (Dehon-Van Bellegem) 189

Le coefficient de T est négatif. Ceci implique qu’une augmentation de T induira


une diminution de la probabilité d’usage d’un transport en commun. Que signifie
une augmentation de T ? Le logarithme étant une fonction monotone croissant en
son argument, cela signifie que le temps de parcours augmente ou, inversément,
que le temps de parcours en voiture diminue (plus précisément : l’augmentation
du temps de parcours en transport en commun est plus importante que pour la
voiture). Le signe du coefficient de T est donc logique : Si le temps de parcours
en voiture diminue, les individus de l’échantillon auront tendance à abandonner le
transport public.

(c) Pour ce navetteur,


< =
60
T = ln = ln(2) ≈ 0.69
30
Par conséquent, la probabilité demandée est :

P (Y = 1 | T = ln(2)) = Λ(0.953 − 1.823 ln(2))


≈ 0.42

(d) L’effet marginal dans ce modèle logit (voir syllabus) est :

∂P (Y = 1|T ) exp(0.953 − 1.823T )


= −1.823 ×
∂T {1 + exp(0.953 − 1.823T )}2
qui, pour le navetteur pour lequel T = ln(2), vaut approximativement -0.45.
Avec l’arrivée du RER, la variable T du navetteur passe de ln(2) à ln(40/30) =
ln(4/3). L’écart est donc de
< = < =
4 2
ln − ln(2) = ln ≈ −0.40
3 3
En se référant au calcul ci-dessus de l’effet marginal, une diminution de 0.4 de la
variable T induira une augmentation de 0.45 d’emprunter le transport en commun.
L’effet attendu est donc de passer de la probabilité 0.42 (calculée au point précédent)
à la probabilité 0.42 + 0.45 = 0.87. Il y a donc des raisons de penser que ce navetteur,
s’il se déplaçait en voiture, emprunterait le RER avec grande probabilité.
Bibliographie
Amemiya, T. (1985) : Advanced Econometrics. Harvard University Press, Cam-
bridge.
Berndt, E., B. Hall, R. Hall, and J. Hausman (1974) : “Estimation and
Inference in nonlinear structural models,” Annals of Economic and Social Mea-
surement, 3/4, 653–665.
Blundell, R., A. Duncan, and K. Pendakur (1998) : “Semiparametric esti-
mation and Consumer Demand,” Journal of Applied Econometrics, 13, 435–462.
Bourbonnais, R. (2004) : Économétrie. Dunod, Paris, 5e edn.
Breusch, T., and A. Pagan (1979) : “A simple test for heteroscedasticity and
random coefficient variation,” Econometrica, 47, 1287–1294.
Duncan, A. (2005) : A short course in microeconometric methods. University of
Nottingham.
Durbin, J., and G. Watson (1950) : “Testing for Serial Correlation in Least
Square Regression I,” Biometrika, 37, 409–428.
(1951) : “Testing for Serial Correlation in Least Square Regression II,”
Biometrika, 38, 159–179.
Estrella, A. (1998) : “A New Measure of Fit for Equations with Dichotomous
Dependent Variables,” Journal of Business and Economic Statistics, 16, 198–205.
Farrar, D., and R. Glauber (1968) : “Multicolinearity in regression analysis,”
Review of Economics and Statistics, 49, 92–107.
Godfrey, L. (1988) : Misspecification Tests in Econometrics. Cambridge Univer-
sity Press, Cambridge.
Goldfeld, S., and R. Quandt (1965) : “Some tests for homoskedasticity,” Jour-
nal of the American Statistical Association, 60, 539–547.
Greene, W. H. (2003) : Econometric analysis. Pearson Education, Upper Saddle
River, 5th edn.
Hayashi, F. (2000) : Econometrics. Princeton University Press, Princeton.
Jarque, C., and A. Bera (1987) : “A test for Normality of observations and
regression residuals,” International Statistical Review, 55, 163–172.
Judge, G., W. Griffiths, C. Hill, and T. Lee (1985) : The Theory and
Practice of Econometrics. John Wiley and Sons, New York.
Keynes, J. (1936) : The General Theory of Employment, Interest, and Money.
Harcourt, Brace, and Jovanovich, New York.
Leser, C. (1963) : “Forms of Engle functions,” Econometrica, 31, 694–703.
Maddala, G. (2001) : Introduction to econometrics. John Wiley & Sons, Chiches-
ter, 3rd edn.
BIBLIOGRAPHIE 191

McFadden, D. (1974) : “The Measurement of Urban Travel Demand,” Journal of


Public Economics, 3, 303–328.
Monfort, A. (1997) : Cours de statistique mathématique. Economica, Paris.
Ruud, P. A. (2000) : An Introduction to Classical Econometric Theory. Oxford
University Press, New York.
Serfling, R. J. (1980) : Approximation Theorems of Mathematical Statistics.
John Wiley & Sons, New York.
van der Vaart, A. (1998) : Asymptotic Statistics. Cambridge University Press.
Vinod, H. D., and A. Ullah (1981) : Recent advances in regression methods.
Dekker.
Wackerly, D. D., W. Mendenhall III, and R. L. Scheaffer (2002) : Ma-
thematical Statistics with Applications. Duxbury, Pacific Grove, 6th edition.
White, H. (1980) : “A Heteroscedasticity-Consistent Covariance Matrix Estimator
and a Direct Test for Heteroscedasticity,” Econometrica, 48, 817–838.
Working, H. (1943) : “Statistical laws of family expenditure,” Journal of the
American Statistical Association, 38, 43–56.

Vous aimerez peut-être aussi