Econométrie Des Variables Qualitatives: Chapitre 1: Modèles À Variable Dépendante Dichotomique

Econométrie des variables qualitatives
Chapitre 1: Modèles à variable dépendante dichotomique
Johannes FONTON
Ingénieur Statisticien Economiste
Avril 2023
1
Introduction
• Dans le modèle de régression linéaire classique, la variable

dépendante y avait une interprétation quantitative et était supposée
continue.
• Souvent, la variable à expliquer se présente néanmoins sous la forme d’une

réponse qualitative discrète (situation matrimoniale, obtention d’un prêt,
situation sur le marché du travail,. . . ).
◦ l’utilisation de variables explicatives de ce type ne pose pas de problème

particulier pour l’estimation.
◦ en revanche, les choses se compliquent lorsqu’il s’agit de la variable

expliquée.
❖ le modèle linéaire classique peut se révéler inadapté.
❖ on a alors recours à des modèles dits probabilistes.
2
Introduction
• Dans ce chapitre, nous nous intéresserons plus spécifiquement aux

modèles à variable dépendante dichotomique (binaire).
• Nous étudierons les modèles de probabilité suivants :
◦ le modèle à probabilités linéaires
◦ le modèle probit
◦ le modèle logit
3
Modèle à probabilités linéaires
Le modèle à probabilités linéaires
• Soit un échantillon d’observations i.i.d. de la forme :
S= { (y , x ) ∈{0, 1} ×R
i i
K , i = 1, . . . , n }
où les évènements y = 0 et y = 1 sont respectivement qualifiés
d’“échec” et de “succès”.
• Considérons en premier examen un modèle de régression linéaire

classique de la forme :
y i = β0 + β 1 x i1 + β 2 x i2 + ... + β K x i K + ε i
= x′iβ + ε i
Sous l’hypothèse E(ε i | xi ) = 0 ( condition d’exogénéité), nous

savons que : E(y i | xi ) = x ′ i β.
4
• Comme y i ∈{ 0, 1}, nous savons par ailleurs que :
E(y i |x i ) = 0 ×Pr(y i = 0|x i ) + 1 ×Pr(y i = 1|x i )

= Pr(y i = 1|x i )
• Dans un modèle de régression linéaire à variable dépendente y i

dichotomique, nous avons donc :
E(y i | x i ) = Pr(y i = 1|x i ) = x ′ i β
ce qui revient à modéliser la probabilité de succès P (y i = 1 | x i )

comme une fonction linéaire des variables explicatives x i k et des
paramètres β k (d’où son appellation de modèle à probabilités
linéaires).
5
• Dans le modèle à probabilités linéaires, β k mesure l’effet marginal d’une

variation de x i k sur la probabilité de succès Pr(y i = 1|x i ), toutes choses
égales par ailleurs.
• Ce modèle peut être estimé par la méthode des MCO.

◦ la constante s’interprète comme la probabilité de succès
estimée lorsque l’ensemble des variables de contrôle prennent des valeurs
nulles.
◦ le coefficient mesure le changement prédit dans la probabilité

de succès lorsque x k augmente d’une unité.
• En présence d’endogénéité, ce modèle peut alternativement être estimé

par la méthode des variables instrumentales.
6
• Le modèle à probabilité linéaire présente toutefois deux limites

importantes.
1. les probabilités prédites p i = x β peuvent
′ ^ prendre des valeurs
^ i
inférieures à 0 ou supérieures à 1.
1
2. le modèle est intrinsèquement hétéroscédastique.
εi =
{ −x ′i β
′
1 − x iβ
avec la probabilité 1 − x ′ i β
′
avec la probabilité x i β
(quand y = 0)
(quand y = 1)
si bien que V (ε i | xi ) = x ′ i β(1 − x′ i β)
1 En présence d’hétéroscédasticité, les estimateurs MCO restent non biaisés mais ne sont
plus de variance minimale. Ce problème peut être aisément contourné en utilisant la matrice de
variance-covariance de White robuste à l’hétéroscédasticité (ou en appliquant les MCG).
7
• Notons également que le R 2 possède une valeur limitée dans les

modèles à probabilités linéaires.
Y
• Pour un x donné, y vaut 0 ou 1 : toutes les valeurs
1
de y se situeront le long de l’axe des abscisses (y = 0)
ou sur la droite d’équation y = 1.
0
X • Les modèles de probabilité linéaire se caractèrisent
donc, en règle générale, par une faible qualité
(a) d’ajustement aux données (R 2 compris le plus
souvent entre 0.2 et 0.6).
Y
• Le R 2 d’un modèle à probabilité linéaire ne sera élevé
1 (supérieur à 0.8) que lorsque les observations sont
faiblement dispersées (graphique (b)). Les probabilités
prédites seront alors proches de 0 ou 1.
X
0
(b)
8
Application
• A titre d’illustration, intéressons-nous aux déterminants de l’offre de

travail des femmes en examinant les données de Mroz [1987].2
◦ données US issues du Panel Study of Income Dynamics (PSID).
◦ données relatives à l’année 1975 pour un échantillon de femmes mariées

blanches agées de 30 à 60 ans.
◦ 753 femmes parmi lesquelles 428 travaillent et 325 sont sans activité
professionnelle
2Mroz, T.A. (1987) “The Sensitivity of an Empirical Model of Married Women’s Hours of
Work to Economic and Statistical Assumptions”, Econometrica, 55, pp.765-799.
9
Application
• Nous considérons pour ce faire le modèle à probabilités linéaires

suivant :
2
I N L F i = β0 + β 1 E D U C i + β 2 E X P E R i + β 3 E X P E R i + β 4 AGE i
+ β 5 N W I F E I N C i + β 6 K I D S L T 6i + β 7 K I D S G E 6 i + ε i
◦ I N L F : = 1 si en emploi en 1975, 0 sinon
◦ E D U C : nombre d’années d’étude
◦ E X P E R : nombre d’années d’expérience professionnelle
◦ A G E : âge en années
◦ N W I F E I N C : revenu non salarial en milliers de dollars
◦ K I D S L T 6 : nombre d’enfants de moins de 6 ans dans le ménage
◦ KIDSGE6 : nombre d’enfants de 6 à 18 ans dans le

ménage
10
Application
• Le modèle est estimé par la méthode des MCO en utilisant la matrice

de variance-covariance de White robuste à l’hétéroscédasticité.
◦ en l’absence de correction, les écarts-types ^σβ^ estimés sous

l’hypothèse d’homoscédasticité ne sont plus valides.
◦ leur utilisation pour la construction des intervalles de confiance ou la

réalisation de tests statistiques peut conduire à des conclusions erronées
en matière d’inférence.
◦ pour que l’estimation d’un modèle à probabilités linéaires reste

informative, il est donc indispensable de traiter le problème
d’hétéroscédasticité et de corriger les écarts-types estimés.3
3Concernant les probabilités prédites, le modèle à probabilités linéaires fonctionne en général
assez bien pour des valeurs des variables explicatives proches des moyennes d’échantillon.
11
Application
Dependent Variable: In labor force (1=yes, 0=no)

Model: (1)
Variables
Constant 0.586∗∗∗
(0.152)
Years of schooling 0.038∗∗∗
(0.007)
Labor market experience 0.040∗∗∗
(0.006)
Squared labor marketexperience -0.0006∗∗∗
(0.0002)
Woman’s age -0.016∗∗∗
(0.002)
Non-wife family income (thousands of dollars) -0.003∗∗
(0.002)
Number of kids < 6 years -0.262∗∗∗
(0.032)
Number of kids 6-18 0.013
(0.013)
Fit statistics
Observations 753
R2 0.26422
AdjustedR2 0.25730
Heteroskedasticity-robust standard-errors in parentheses

Signif. Codes: ***: 0.01, **: 0.05, *: 0.1
12
Application
• Lecture de quelques résultats :
◦ chaque année d’étude supplémentaire est associée à une hausse de la

probabilité prédite d’être en emploi de 0.038 (soit 3.8 points de
pourcentage), toutes choses égales par ailleurs.
◦ l’effet de l’expérience passée sur la participation au marché du travail diminue

avec le nombre d’années (variation de probabilité estimée évaluée à 0.039 − (2
× 0.0006)EXP ER); le retournement s’opère néanmoins
tardivement (0.039/0.0012 = 32.5 ans).
◦ avoir un enfant de moins de 6 ans de plus au sein du ménage réduit la

probabilité prédite d’être en emploi de 0.262 (soit 26.2 points de
pourcentage), quelle que soit la composition du ménage.
13
Modèles probit et logit
Modèles à fonction indice
• Le modèle à probabilités linéaires est simple à estimer et fournit des

résultats interprétables si les écarts-types estimés sont corrigés de
l’hétéroscédasticité.
• Il souffre néanmoins d’un problème de cohérence majeur puisqu’il ne

contraint pas P (y i = 1 | xi ) = x ′ i β à prendre ses valeurs dans l’intervalle
[0, 1].
• D’autres modèles probabilistes plus sophistiqués (non linéaires) ont été

développés pour prédire la probabilité de succès
P (y i = 1 | xi ) s o u s l e s c o n t r a i n t e s l o g i q u e s i m p o s é e s
par la modélisation d’une telle quantité.
14
• Les modèles probabilistes les plus couramment utilisés sont des

modèles reposant sur une fonction indice dans lesquels la probabilité
conditionnelle de succès est définie par :
Pr[ y i = 1 | xi ] = F (x ′ i β) où
F (.) : R → [0, 1] est une fonction croissante.4
• Dans ces modèles, l’espérance conditionnelle de y i est une

transformation non linéaire F (.) d’une combinaison linéaire des
variables explicatives x i .
• Les paramètres β apparaissent uniquement dans la fonction indice

x ′ i β qui est transformée afin de satisfaire l’ensemble de définition de
la variable dépendante dichotomique y i .
4Le modèle à probabilités linéaires est construit autour de la fonction identité
F (.) : R → R où F (x ′ i β) = x ′ i β.
15
• Afin que 0 ≤ Pr[ y i = 1 | x i ] ≤ 1, un choix naturel consisteà

spécifier F (.) sous la forme d’une fonction de répartition.5
P
X
– 0
5La fonction de répartition F (.) d’une variable aléatoire réelle continue X est :
x
F (x) = P r [ X ≤ x] = ∫− ∞ f (t)dt
où f (x) = dF (x)/dx est la fonction de densité de probabilité, F (−∞) = 0 et F (+∞) = 1.

16
17
Modèles Logit et Probit
• En pratique, on retient deux lois de probabilité particulières, chacune

donnant lieu à un modèle spécifique :
◦ Logit : F (.) est la fonction de répartition de la loi logistique
standard Λ(.) d’espérance nulle et de variance π2/3 :
p i = P r ( y i = 1|x i ) = F (x ′ i β) = Λ(x ′iβ)
exp(x ′iβ)
= 1 +exp(x ′iβ)
◦ Probit : F (.) est la fonction de répartition de la loi normale

centrée réduite Φ(.) :
p i = P r ( y i = 1|x i ) = F (x ′ i β) = Φ(x ′iβ)
x i′ β
=
∫ −∞
ϕ(z )dz
x ′i β
=
∫ −∞
18
• Les modèles Probit et Logit reposent sur des transformations non linéaires
(Φ(.) ou Λ(.)) destinées à s’assurer que les probabilités prédites soient
comprises entre 0 et 1.
Probit
Logit
19
20
• Au-delà de considérations purement statistiques, il est possible de justifier

“économiquement” le recours aux modèles probit et logit.
• Pour ce faire, on peut recourir aussi bien à un modèle à utilité aléatoire qu’à
un modèle latent.
• En dépit de leurs différences conceptuelles, ces deux classes de modèles

aboutissent à des prescriptions semblables pour l’analyse empirique des
variables dépendantes dichotomiques.
21
Modèle à utilité aléatoire
• Supposons qu’un individu i soit confronté à un choix entre deux

alternatives A (être locataire) et B (être propriétaire) auxquelles sont
associées les utilités U i A et U i B .
• Le choix observé révèle la décision qui lui procure la plus grande utilité,
mais pas les utilités elles-mêmes qui sont inobservables.
◦ si l’on s’intéresse à la décision d’être locataire, la variable y i
observée vaudra 1 si U i A > U i B , 0 sinon.
◦ on retient habituellement pour les utilités U i A et U i B

inobservables une spécification linéaire générale de la forme :
.
où w i désigne le vecteur de caractéristiques observables propres aux

individus, z A et z B les attributs des alternatives A et B, ε i A et ε i B des
termes aléatoires inobservés.
22
• L’écriture du modèle en termes de choix observés révèle le

classement des préférences individuelles :
P (y i = 1 | w i , z A , z B ) = P (U A > U B )
= P (wi′ β A + zA′ γ + ε i A > wi′ β B + zB′ γ + ε i B | w i , z A , z B )
= P (wi′ ( β A − β B ) + ( z A − z B ) ′ γ > ε i B − ε i A | w i , z A , z B )
= P (−(ε iA − ε i B ) < wi′( β A − β B ) + ( z A − z B ) ′ γ | w i , z A , z B )
= P (−ε < x ′ i β | x i )
où la fonction indice x ′ i β = wi′ (β A − β B ) + (z A − z B )′γ recueille tous les

élements observables de la différence des deux fonctions d’utilité et ε
désigne la différence entre les élements aléatoires.
23
• L’identification des paramètres requiert certaines normalisations.

◦ seules la différence β = β A − βB peut être estimée.
◦ si ε A et ε B suivent une loi normale bivariée d’espérances nulles,
2 2
de variances σ A et σ B , de covariance σA B , on doit imposer
2 2
σA − 2 σA B + σB = 1 (car σA, σ B , β et γ ne sont identifiés qu’à un
facteur d’échelle près). On peut alors estimer un modèle probit incluant
deux types de régresseurs : les différences d’attributs, d’une part, et les
caractéristiques individuelles, d’autre part.
◦ si ε A et ε B sont indépendamment distribués suivant une loi de Gumbel,
on retrouve le modèle logit simple.6
◦ dans les deux cas, l’estimation de γ requiert que la différence z A − zB varie
entre individus. Dans le cas contraire, β B et γ ne sont pas séparement
identifiables.
6Lafonction de répartition et la fonction de densité d’une loi de Gumbel sont

données par : F (u) = exp(− exp(−u)) et f (u) = exp(−u − exp(−u))
24
• Les modèles à utilité aléatoire sont souvent utilisés pour estimer la

disposition à payer pour des biens publics.
◦ un échantillon de répondants est confronté à un choix

hypothétique entre différentes alternatives.
◦ dans le cadre de ce choix, on leur demande s’ils sont disposés à payer un

montant t pour la réalisation d’un projet particulier, en faisant varier ce
montant de référence entre répondants.7
7Une autre possibilité consisterait à leur demander directement le montant de la
contribution qu’ils seraient prêts à payer pour la réalisation du projet.

25
• Notons respectivement U i1 = β1 + γt + ε i1 et U i0 = β0 + ε i0
l’utilité d’un individu i en présence et en l’absence de bien public.
• Un individu est indifférent entre les deux alternatives dès lors que
γt = β0 − β1 + ε i0 − εi1 . La disposition à payer espérée est alors : 8
β1 − 0β
E(t) =− γ
• Si l’on suppose que les erreurs sont normalement distribuées, les

paramètres β = β1 − β0 et γ peuvent être estimés à partir d’un modèle
probit standard où P (y = 1 | t) = Φ(β + γt).9
8 On s’attend vraisemblablement à observer β 1 > β 0 et γ < 0.

9 Ce modèle peut naturellement être étendu afin d’intégrer d’autres variables de
contrôle. Dans ce cas, la disposition à payer ne sera plus constante mais dépendra de ces autres
facteurs et l’on pourra alors évaluer la disposition à payer moyenne.
26
Modèle latent
• Supposons que les valeurs de la variable observée y i (e.g. présence au

travail) dépendent d’une variable latente yi∗ inobservée (e.g. l’état de
santé) de telle sorte que:
y i = 1{ y∗ >
i 0} =
{ 1 si yi∗ > 0
0 si y∗ ≤ 0
i
et yi∗ = x ′ i β + ε i
• Alors :
Pr [ y i = 1 | x i ] = Pr [yi∗ > 0 | x i ] = Pr [−ε i < x ′ i β | x i ]

= F (x ′ i β)
où F (.) est la fonction de répartition de −ε, qui est identique à celle de ε

lorsque la densité est symétrique par rapport à 0 (c’est le cas des modèles
logit et probit).
27
Modèle latent
• Le vecteur de paramètre de la fonction indice β est seulement identifié

à un facteur d’échelle près :
o on observe uniquement si x ′ i β + ε i > 0 ce qui est formellement
équivalent à x ′ i (σβ) + σ ε i > 0, pour tout σ > 0.
◦ V (ε i ) doit donc être fixée à des fins d’identification : elle est
normalisée à 1 dans le probit et à π2/3 dans le logit.
• Il n’est pas nécessaire de normaliser le seuil à 0. Soit le modèle, plus

général, Pr[ y i = 1 | x i ] = Pr[yi∗ > z i ′ α | x i ] = F (x ′ i β −z i ′ α) :
◦ β et α peuvent être séparemment identifiés si et seulement si toutes les
composantes de x i diffèrent de celles dez i .
◦ si x i et z i incluent tous deux une constante, celles-ci ne peuvent être
séparemment identifiées (seule leur différence l’est).
◦ c’est pourquoi il est nécessaire de fixer également E(ε i ) pour l’identification.
Dans les modèles logit et probit, elle est égale à0.
28
Interprétation des paramètres
• Dans les modèles logit et probit, le paramètre β k ne permet plus d’évaluer

l’effet partiel de x i k sur Pr(y i = 1|x i). 10
◦ pour une variable x i k continue :11
◦ pour une variable x i k discrète :
où x i ( k ) correspond à x i privé de x i k et β (k) à β privé de β k .

10 On pourrait également étudier l’effet partiel de x i k sur P r ( y i = 0|x i ) mais cela ne présente
pas grand intérêt dans le cas dichotomique où il se définit comme l’opposé de l’effet partiel de
x i k sur P r ( y i = 1|x i ).
11 Cet effet est maximal pour x ′ β = 0. Pour le modèle probit f (0) ≈ 0.4, pour le
i
modèle logit f (0) = 0.25.
29
• L’effet partiel de la variable x k sur Pr(y i = 1|x i ) est de même signe que
β k (car F (.) est strictement croissante).
• En revanche, la valeur de cet effet dépend de :
◦ la loi supposée du terme d’erreur ε i (et la fonction de répartition

F (.) qui lui est associée).
◦ la valeur du vecteur de paramètres β (pas uniquement β k ).
◦ la valeur du vecteur de variables explicatives x i .

• contrairement au modèle à probabilités linéaires, la valeur des effets partiels
n’est donc pas constante au sein de la population.
• seul l’effet relatif de deux variables explicatives continues ne dépend pas de x i :

le rapport des effets partiels de x k ( P E k ) et x l ( P E l ) e st é g al au
rapport des coefficients β k et β l .
30
• Pour un modèle donné, il existe plusieurs manières de calculer un effet

partiel moyen :
◦ Effet partiel moyen pour une variable x k :
n
• x i k continue : A P E k = 1 Σ f (x ′ i β)β k
n
i =1
n
• x i k discrète : A P E k = 1 Σ F (x ′ i(k) β (k) + β k ) − F (x ′ i(k) β (k) )
i=1
n
◦ Effet partiel au point moyen x i = x¯pourunevariablex k :
• x i k continue : P E M k = f (x¯′β)βk
• x i k discrète : P E M k = F (x ′ i(k) β (k) + β k ) − F (x ′ i(k) β (k) )
31
• Remarque : l’effet d’une variation discrète ∆ x i k sur la probabilité

P (y i = 1 | x i ) e s t d é f i n i p a r : 12
(y i = 1 | x i ) = P (y i = 1 | x i , ∆ x i k ) − P (y i = 1 | x i )
= F (x ′ i β + ∆ x i k β k ) − F (x ′ i β)
̸= [f ( x ′ i β ) β k ] ∆ x i k
πi = G(xjiβ)
G(xjiβ + Δxilβl)
−G(xji β) [g(xjiβ)βl]Δxil
xjiβ
xjiβ xijβ + Δxilβl
12En réalité,
[f (x ′ i β)β k ] ∆ x reste une approximation linéaire valide uniquement pour de
i k
“petites” variations de x i k .
32
• On peut également varier les spécifications de façon à introduire un

certain nombre de transformations usuelles des variables explicatives x i .
• Considérons le modèle suivant pour une population donnée :
P (y i= 1 | x ) i= F ( β0 + β1 xi1+ β2 xi1+ β 23 log(x i2)

+ β 4 x i3 + β 5 x i4 + β 6 x i 3 x i 4 )
= F (x ′ i β)
◦ l’effet partiel de x i 1 sur P (y i = 1 | xi ) :
∂P (y i = 1 | xi )/∂x i1 = f (x ′iβ)(β 1 + 2β 2 x i1 )
◦ l’effet marginal de x i 2 sur P (y i = 1 | xi ) :
∂P (y i = 1 | xi )/∂x i2 = f (x ′ i β)(β 3 /x i2 )
en conséquence, f (x′iβ)(β3/100) est une approximation de l’effet d’une
augmentation de x i 2 de 1% sur la probabilité de succès.
33
• L’interprétation des effets d’intéraction se révèle légèrement plus

compliquée.
◦ les effets partiels de x i 3 et x i 4 sur P (y i = 1 | x i ) sont donnés par :
∂P (y i = 1 | x i )/∂x i3 = f (x ′iβ)(β 4 + β 6 x i4 )
∂P (y i = 1 | x i )/∂x i4 = f (x ′iβ)(β 5 + β 6 x i3 )
◦ l’effet partiel du terme d’intéraction x i 3 x i 4 est donné par : A faire.
Observer les conclusions suivantes :

• en raison de la non linéarité du modèle, ce terme peut être non nul y
compris lorsque β 6 = 0.
• le signe de β 6 ne correspond pas nécessairement au signe de l’effet
d’intéraction.
• la significativité statistique de β 6 ne renseigne aucunement sur la
significativité éventuelle de l’effet d’intéraction.
34
• Les paramètres d’un modèle logit s’interprètent de façon

particulière.
• La cote (odds) d’un évènement est définie par le rapport des

probabilités conditionnelles :
◦ ex : si la probabilité d’obtenir un CDI est de 0.25, la cote associée est de

0.25/0.75 = 1/3.13
◦ dans un modèle logit : odds(x) = exp(x ′ β)
13Dans le domaines des paris sportifs ou hippiques, on dirait que la cote associée à l’obtention d’un
CDD est de “3 contre 1”. Une cote de “3 contre 1” signifie qu’un individu a 1 chance sur 4
d’obtenir un CDI.
35
• Supposons qu’il existe dans la population deux groupes (e.g “H” et “F”)
caractérisés par un vecteur de variables explicatives x et une indicatrice
d’appartenance (G = 1 si “H”, 0 sinon)
• Dans ce cas, on peut définir l’odds-ratio de l’évènement d’intérêt comme le

rapport des chances (odds) pour les deux groupes.
odds(x, H) exp(x ′ β + β G )
OR = =
odds(x, F ) exp(x ′ β)
exp(x ′ β) × exp(βG)
=
exp(x ′ β)
= exp(βG)
Quand le rapport de cote est égal à 1, la cote de l’événement d’intérêt est

la même dans les deux groupes (il n’y a alors aucun lien particulier entre
le genre et l’obtention d’un CDI).
36
• On peut traiter de façon analogue l’effet d’un changement d’une variable

quantitative x j . Supposons que x j augmente d’une unité: exp(x ′ β)
devient exp(x ′ β + β j ) = exp(x ′ β) ×exp(β j ).
• On peut définir le rapport de côtes correspondant (odds ratio) comme suit :15
odds(x- j , x j + 1) exp(x ′β) × exp( β j )

OR = = = exp(βj )
odds(x −j , x j ) exp(x ′ β)
• Interprétation des paramètres :
◦ dans un modèle logit, le paramètre β j donne le log-odds ratio de la variable
correspondante.
◦ l’exponentielle du coefficient indique de combien les chances (odds) sont
multipliées lorsqu’on augmente cette variable d’une unité.
◦ les coefficients d’un modèle probit n’ont pas d’interprétation
équivalente.
15Pour
37
• Lorsque x j varie d’une unité, les odds varient d’un facteur

multiplicatif exp(β j ), toutes choses égales par ailleurs.
◦ lorsque exp(βj ) > 1, on dit que les odds sont “exp(βj ) fois plus
importants”.
◦ lorsque exp(βj ) < 1, on dit que les odds sont “exp(βj ) fois plus faibles”.
◦ pour déterminer l’effet sur la probabilité relative d’échec, il suffit de prendre
l’inverse de l’effet sur la probabilité relative de succès.
• Il est également possible d’exprimer ce changement en

pourcentage :
◦ si ^β j < 0, cela correspond à une diminution de 100 × (1 − e β j )%.

^
◦ si β^j > 0, cela correspond à une augmentation 100 × (e^β j − 1)%.
38
Estimation par maximum de vraisemblance
• La variable y i suit une loi de Bernoulli conditionnellement à x i :

.
1 avec la probabilité p(x i ) = P (y i = 1 | xi )
y i | xi =
0 avec la probabilité 1 − p(x i ) = 1 − P (y i = 1 | xi )
• Son espérance et sa variance conditionnelles sont données par :15

E(y i | x i ) = P [y i = 1 | x i ] = F (x ′ i β)
V (y i | x i ) = P [y i = 1 | x i ] ×P [y i = 0 | x i ] = F (x ′ i β) ×[1−F (x ′ i β)]
• Sa fonction de probabilité est donnée par :

f (y i | x i ) = P (y i = 1 | x i ) y i [1 −P (y i = 1 | x i )] 1−y i
= F (x ′ i β) y i [1 −F (x ′ i β)] 1−y i
15V (y | x ) = E ( y 2| x ) − [E(y | x )] 2
i i i i i i = E(yi |xi ) − [E(yi|xi)]2 [car y i ∈ {0, 1} ⇒ yi 2 = yi ]
= E ( y i | x i ) × [1− E ( y i | x i ) ]
= P (y i = 1 | xi ) × [1 − P (y i = 1 | xi ) ]
39
• La fonction de vraisemblance de l’échantillon a donc pour

expression :
• La fonction de log-vraisemblance de l’échantillon s’écrit :
• L’estimateur du maximum de vraisemblance de β est donné par :
β^M L = arg max Ln ( β ; y, x)

β
40
• Les équations de vraisemblance sont données par les conditions du

premier ordre :
41
• Dans le cas du modèle logit, les conditions du premier ordre se

simplifient comme suit :
Il n’existe pas de simplification comparable pour le modèle probit.

• Si le vecteur de variables explicatives x i inclut une constante, on a
également :
La moyenne des probabilités prédites est égale à la proportion de

y i = 1 dans l’échantillon.16
16Le même résultat s’applique pour le modèle à probabilités linéaires mais pas pour le probit.
42
• L’espérance de la matrice des dérivées secondes de la log

vraisemblance est donnée par :
• Pour le modèle logit, les écritures se simplifient car la matrice

hessienne ne dépend pas de y ; on obtient ainsi:
43
• Il n’existe pas de solution explicite.17
◦ les équations de vraisemblance étant non linéaires, leur résolution nécessite

la mise en oeuvre de méthodes numériques itératives.
◦ il s’agit d’algorithmes qui essaient différentes valeurs du vecteur β jusqu’à en

trouver un qui annule le score (tels que les algorithmes de Newton-Raphson
ou de Berndt-Hall-Hall-Hausman).
• L’unicité de la solution est assurée lorsque la log-vraisemblance est

concave (ce qui est le cas pour les modèles logit et probit).
17 En d’autres termes, il n’existe pas de formules donnant les estimateurs du maximum de

vraisemblance d’un logit ou d’un probit.
44
• Pour qu’une solution existe :
◦ il ne peut y avoir de colinéarité parfaite entre variables

explicatives.
◦ une variable de contrôle dichotomique d i ne doit pas prédire

parfaitement la variable de résultat y i au sein de l’échantillon.
• cela peut être le cas lorsque y i = 1 dès que d i = 1, ou y i = 0 dès que d i = 1,

ou y i = 1 dès que d i = 0, ou y i = 0 dès que d i = 0.
• dans de telles configurations, il est impossible d’estimer l’effet de

d i sur P (y i | x i , d i ).
• en pratique, le modèle sera “faiblement” identifié si y i ne varie pas suffisamment

dans les sous-échantillons définis par d i = 0 ou
d i = 1.
45
Propriétés asymptotiques
• Si le modèle est identifié et correctement spécifié, on montre que

l’estimateur du maximum de vraisemblance de β est :
◦ convergent : p l i m β^M L = β
n → +∞
◦ asymptotiquement normal :
où I ( β ) d é s i g n e l a m a t r i c e d ’ i n f o r m a t i o n d e
Fisher.
◦ asymptotiquement efficace, il atteint la borne de Cramér-Rao.
19 On retient comme estimateur de la variance asymptotique de β M L :
46
Propriétés asymptotiques
• Au-delà de la validité de la spécification choisie20, ces propriétés

supposent que deux hypothèses fortes soient vérifiées :
◦ l’exogénéité des variables explicatives x i : en cas d’endogénéité, l’estimateur
du maximum de vraisemblance sera non convergent.
◦ l’homoscédasticité des erreurs ε i : en cas d’hétéroscédasticité liée aux

variables explicatives (e.g. σ2 = exp(γ1 + γ 2 x 1 )), l’estimateur du maximum de
vraisemblance ne sera pas non plus convergent.
• si la forme de l’hétéroscédasticité est connue, on peut obtenir un estimateur
convergent des paramètres d’intérêt en adaptant la log-vraisemblance et en
adoptant les normalisations nécessaires (les effets partiels seront un peu plus
compliqués).
• on pourra procéder dès lors à un test du score de H 0 : γ2 = 0
(homoscédasticité) contre H 1 : γ2 ̸= 0 (hétéroscédasticité).
20SiF (.) n’est pas correctement spécifiée alors l’estimateur du maximum de vraisemblance
ne sera pas convergent. Toutefois, si P (y1 = 1 | xi ) = F (x ′ i β), choisir une fonction F
inadaptée affectera tous les coefficients de la même façon, si bien que le ratio des coefficients
restera constant entre différents modèles.
47
Tests d’hypothèses
• En raison de la normalité asymptotique de l’estimateur du

maximum de vraisemblance, les tests statistiques construits
autour de ne seront valides qu’asymptotiquement.
◦ test de significativité d’un coefficient H 0 : β k = 0 (z-test)
β^kM L H 0
Z = ∼ N (0, 1)
^σ β^M L
k
◦ test d’un ensemble de restrictions linéaires H 0 : Rθ = q
• test du rapport de vraisemblance (Likelihood ratio test)
• test de Wald (Wald test)
• test du score ou test Multiplicateur de Lagrange (Score test ou

Lagrange Multiplier test)
48
Interpréter les résultats
^
• Les coefficients estimés βk (k = 1, ...K) permettent
uniquement
de déterminer le signe et l’ampleur relative , variables
continues) des effets partiels estimés.
• On peut dériver une borne supérieure de ces effets :
◦ Logit :
◦ probit :
◦ on en déduit les approximations suivantes :
Les coefficients β^ logit , β^probit et β^MPL ne sont pas comparables, seuls

les effets partiels estimés le sont.
^
49
Application
• A titre d’illustration, nous poursuivons notre examen des déterminants de

l’offre de travail des femmes à partir des données de Mroz [1987].
• En complément du modèle à probabilités linéaires, nous considérons

des modèles probabilistes non linéaires de type logit et probit.
• Nous reportons les coefficients et effets partiels moyens (APE et PEM)

estimés à partir de ces trois modèles pour permettre la comparaison des
résultats.
53
Application
Dependent Variable: Model: In labor force (1=yes, 0=no)

(1) (2) (3)
OLS Probit Logit
Variables
Constant 0.586∗∗∗ 0.270 0.425
(0.152) (0.510) (0.864)
Years of schooling 0.038∗∗∗ 0.131∗∗∗ 0.221∗∗∗
(0.007) (0.025) (0.044)
Labor market experience 0.040∗∗∗ 0.123∗∗∗ 0.206∗∗∗
(0.006) (0.019) (0.032)
Squared labor market experience -0.0006∗∗∗ -0.002∗∗∗ -0.003∗∗∗
(0.0002) (0.0006) (0.001)
Woman’sage -0.016∗∗∗ -0.053∗∗∗ -0.088∗∗∗
(0.002) (0.008) (0.015)
Non-wife family income (thousands of dollars) -0.003∗∗ -0.012∗∗ -0.021∗∗
(0.002) (0.005) (0.008)
Number of kids < 6 years -0.262∗∗∗ -0.868∗∗∗ -1.44∗∗∗
(0.032) (0.119) (0.205)
Number of kids 6-18 0.013 0.036 0.060
(0.013) (0.044) (0.075)
Fit statistics
Observations Log- 753 753 753
Likelihood -423.89 -401.30 -401.77
Signif. Codes: ***: 0.01, **: 0.05, *: 0.1
54
Application
• Les résultats des trois modèles convergent en terme

d’interprétation.
◦ les signes des coefficients sont identiques dans les trois modèles.
◦ les variables statistiquement significatives sont les mêmes.
• En revanche, la valeur des coefficients estimés n’est pas

directement comparable entre modèles.
• Les coefficients estimés du modèle logit offrent une interprétation en
terme d’odds ratio.
^kidslt6
◦ exp(β logit
) = exp(−1.44) = 0.24 : suite à l’arrivée d’un enfant de
moins de 6 ans en plus dans le ménage, les chances d’être en emploi des
mères décroîssent d’un facteur de 0.24 (ou diminuent de 76%).
◦ en retour, leurs chances de ne pas être en emploi sont multipliées par
1/0.24 = 4.2, toutes choses égales par ailleurs.
55
Application
MPL Probit APE Logit APE Probit PEM Logit PEM

(1) (2) (3) (4) (5)
Years of schooling 0.038∗∗∗ 0.039∗∗∗ 0.039∗∗∗ 0.051∗∗∗ 0.054∗∗∗

(0.007) (0.007) (0.007) (0.010) (0.011)
Labor marketexperience 0.039∗∗∗ 0.037∗∗∗ 0.037∗∗∗ 0.048∗∗∗ 0.050∗∗∗

(0.006) (0.005) (0.005) (0.007) (0.008)
Squared labor market experience −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗

(0.0002) (0.0002) (0.0002) (0.0002) (0.0002)
Woman’sage −0.016∗∗∗ −0.016∗∗∗ −0.016∗∗∗ −0.021∗∗∗ −0.021∗∗∗

(0.002) (0.002) (0.002) (0.003) (0.004)
Non-wife family income (thousands of dollars) −0.003∗∗ −0.004∗∗ −0.004∗∗ −0.005∗∗ −0.005∗∗
(0.002) (0.001) (0.001) (0.002) (0.002)
Number of kids < 6 years −0.262∗∗∗ −0.261∗∗∗ −0.258∗∗∗ −0.339∗∗∗ −0.351∗∗∗

(0.032) (0.032) (0.032) (0.046) (0.050)
Number of kids 6-18 0.013 0.011 0.011 0.014 0.015

(0.014) (0.013) (0.013) (0.017) (0.018)
Observations 753 753 753 753 753

∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
Note:
56
Application
• Les effets partiels estimés dans ces trois modèles sont très
proches. Dans cet exemple |AP E| < |PEM| pour les modèles logit
et probit (AP E = P E M dans le modèle à probabilités linéaires.).
• La principale différence réside dans la constance supposée des effets
partiels du MPL alors que les modèles probit et logit se caractérisent
par des effets partiels décroissants.
◦ dans le MPL, un enfant de moins de 6 ans en plus réduit la probabilité
prédite d’être en emploi de 0.262, quelle que soit la composition du
ménage (et les caractéristiques des mères).
◦ dans le modèle probit, la probabilité prédite est plus faible de
-0.336 pour une femme ayant un enfant de moins de 6 ans que pour une
femme qui n’en a pas, toutes choses égales par ailleurs.24 L’arrivée d’un
second enfant de moins de 6 ans réduit encore davantage cette probabilité
mais l’effet partiel associé est plus faible (-0.230).
24Effets évalués à la moyenne des variables educ, exper, expersq, age, nwifeinc et pour kidsge 6=1
57
Qualité d’ajustement du modèle : Le R2 de McFadden
• Dans le modèle de régression linéaire, le R 2 permet de mesurer la qualité

d’ajustement du modèle aux données.
• Plusieurs indicateurs équivalents ont été construits à partir de la log-

vraisemblance dans les modèles non linéaires.
• McFadden (1974) a ainsi défini le pseudo − R 2 :

2
R = 1 − ln Lf i t
lnL 0
◦ ln L f it = log-vraisemblance du modèle estimé
◦ ln L 0 = log-vraisemblance du modèle réduit au terme constant (i.e. sans

variables explicatives)
58
Qualité d’ajustement du modèle : Le R2 de McFadden
• Ce R 2 devrait seulement être utilisé dans les modèles de choix discret.
◦ dans d’autres modèles non-linéaires, il est préférable d’utiliser :
où ln L m a x désigne la valeur admissible maximale de la log-

vraisemblance.
◦ dans les modèles à variable dépendante binaire ln L m a x = 0 ⇒

équivalent au R 2 de McFadden.
59
Qualité d’ajustement du modèle : prédictions correctes
• On peut aussi comparer les valeurs^ prédites aux valeurs observées, sous réserve de
définir une règle permettant de conclure que
• Une solution habituellement retenue est :
◦ la qualité d’ajustement s’apprécie au regard du pourcentage de prédictions

correctes :
◦ on peut calculer le pourcentage de prédictions correctes pour chaque éventualité :
◦ le pourcentage global est une moyenne pondérée des pourcentages de prédictions

correctes des deux éventualités (les poids correspondant à la part relative de 0 et
de 1 dans l’échantillon) :
60
Qualité d’ajustement du modèle : prédictions correctes
• Bien que le seuil soit habituellement fixé à 0.5, ce choix peut ne pas être
optimal.
◦ si l’échantillon n’est pas équilibré (i.e. davantage de 1 que de 0 ou vice versa),

la règle retenue pourrait conduire à ne jamais prédire de 0 ou de 1 ; il est alors
préférable de choisir un autre seuil.
◦ on peut par exemple utiliser y¯comme seuil, i.e. prédire 1 lorsque la

probabilité conditionnelle de succès prédite est supérieure à la probabilité
non conditionnelle.
◦ naturellement, changer de seuil accroît le pourcentage de prédictions

correctes d’une éventualité mais détériore celui de l’autre.
61
Qualité d’ajustement du modèle : prédictionscorrectes
• Le tracé de la courbe ROC (Receiver Operating Characteristic) généralise

l’approche précédante en faisant varier la valeur du seuil s entre 0 et 1 :
• Pour chaque seuil s, on peut définir une matrice de confusion sur le

modèle suivant :25
y =0 y =1
y^s= 0 TNs FNs TNs+FNs
y^s= 1 FPs TPs FPs+TPs
TNs+FPs FNs+TPs n
25Lecture : T P (true positive) sont les vrais positifs, correspondant aux 1 prédits en 1, T N (true
negative) sont les vrais négatifs, correspondant aux 0 prédits en 0, F P (false positive) sont les faux
positifs, correspondant aux 0 prédits en 1, et enfin F N (false negative) sont les faux négatifs,
correspondant aux 1 prédits en 0).
62
• Plusieurs quantités peuvent être dérivées de ce tableau.

◦ la sensibilité correspond à la probabilité de prédire 1 dans la population
des 1 (taux de vrais positifs).
◦ la spécificité correspond à la probabilité de prédire 0 dans la population des 0
(taux de vrais négatifs). On s’intéresse toutefois davantage au taux de faux
positifs, à savoir la probabilité de prédire 1 dans la population des 0.
• La représentation de ces deux valeurs lorsque s ∈[0, 1] varie

donne la courbe ROC :26
ROC s = (1 − spécificités , sensibilités)
26Autrement dit, la courbe ROC est obtenue en faisant varier le seuil de 1 à 0 et en reportant le
taux de faux positifs en abscisses et le taux de vrais positifs en ordonnée.
63
• Le modèle sera “bon” si les positifs sont prédits

positifs, et les négatifs sont prédits négatifs. Le
choix du seuil s permet de minimiser soit les faux
positifs, soit les faux négatifs.
• L’aire sous la courbe ROC (Area Under the Curve)

permet de mesurer la qualité d’ajustement du
modèle aux données.
• Elle peut s’interpréter comme la probabilité qu’une

observation soit mieux prédite par le modèle que par
le hasard (la bissectrice représente une prédiction
purement aléatoire, i.e. une qualité d’ajustement
nulle, associée à une AU C =0.5).
64

Econométrie Des Variables Qualitatives: Chapitre 1: Modèles À Variable Dépendante Dichotomique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Econométrie Des Variables Qualitatives: Chapitre 1: Modèles À Variable Dépendante Dichotomique

Transféré par

Droits d'auteur :

Formats disponibles

Econométrie des variables qualitatives

Chapitre 1: Modèles à variable dépendante dichotomique

• Dans le modèle de régression linéaire classique, la variable

• Souvent, la variable à expliquer se présente néanmoins sous la forme d’une

◦ l’utilisation de variables explicatives de ce type ne pose pas de problème

◦ en revanche, les choses se compliquent lorsqu’il s’agit de la variable

• Dans ce chapitre, nous nous intéresserons plus spécifiquement aux

• Nous étudierons les modèles de probabilité suivants :

◦ le modèle à probabilités linéaires

• Soit un échantillon d’observations i.i.d. de la forme :

• Considérons en premier examen un modèle de régression linéaire

Sous l’hypothèse E(ε i | xi ) = 0 ( condition d’exogénéité), nous

• Comme y i ∈{ 0, 1}, nous savons par ailleurs que :

E(y i |x i ) = 0 ×Pr(y i = 0|x i ) + 1 ×Pr(y i = 1|x i )

• Dans un modèle de régression linéaire à variable dépendente y i

E(y i | x i ) = Pr(y i = 1|x i ) = x ′ i β

ce qui revient à modéliser la probabilité de succès P (y i = 1 | x i )

• Dans le modèle à probabilités linéaires, β k mesure l’effet marginal d’une

• Ce modèle peut être estimé par la méthode des MCO.

◦ le coefficient mesure le changement prédit dans la probabilité

• En présence d’endogénéité, ce modèle peut alternativement être estimé

• Le modèle à probabilité linéaire présente toutefois deux limites

si bien que V (ε i | xi ) = x ′ i β(1 − x′ i β)

• Notons également que le R 2 possède une valeur limitée dans les

• A titre d’illustration, intéressons-nous aux déterminants de l’offre de

◦ données US issues du Panel Study of Income Dynamics (PSID).

◦ données relatives à l’année 1975 pour un échantillon de femmes mariées

• Nous considérons pour ce faire le modèle à probabilités linéaires

◦ I N L F : = 1 si en emploi en 1975, 0 sinon

◦ E D U C : nombre d’années d’étude

◦ E X P E R : nombre d’années d’expérience professionnelle

◦ N W I F E I N C : revenu non salarial en milliers de dollars

◦ K I D S L T 6 : nombre d’enfants de moins de 6 ans dans le ménage

◦ KIDSGE6 : nombre d’enfants de 6 à 18 ans dans le

• Le modèle est estimé par la méthode des MCO en utilisant la matrice

◦ en l’absence de correction, les écarts-types ^σβ^ estimés sous

◦ leur utilisation pour la construction des intervalles de confiance ou la

◦ pour que l’estimation d’un modèle à probabilités linéaires reste

3Concernant les probabilités prédites, le modèle à probabilités linéaires fonctionne en général

Dependent Variable: In labor force (1=yes, 0=no)

Heteroskedasticity-robust standard-errors in parentheses

• Lecture de quelques résultats :

◦ chaque année d’étude supplémentaire est associée à une hausse de la

◦ l’effet de l’expérience passée sur la participation au marché du travail diminue

◦ avoir un enfant de moins de 6 ans de plus au sein du ménage réduit la

• Le modèle à probabilités linéaires est simple à estimer et fournit des

• Il souffre néanmoins d’un problème de cohérence majeur puisqu’il ne

• D’autres modèles probabilistes plus sophistiqués (non linéaires) ont été

• Les modèles probabilistes les plus couramment utilisés sont des

F (.) : R → [0, 1] est une fonction croissante.4

• Dans ces modèles, l’espérance conditionnelle de y i est une

• Les paramètres β apparaissent uniquement dans la fonction indice

• Afin que 0 ≤ Pr[ y i = 1 | x i ] ≤ 1, un choix naturel consisteà

où f (x) = dF (x)/dx est la fonction de densité de probabilité, F (−∞) = 0 et F (+∞) = 1.

• En pratique, on retient deux lois de probabilité particulières, chacune

◦ Probit : F (.) est la fonction de répartition de la loi normale

• Au-delà de considérations purement statistiques, il est possible de justifier

• En dépit de leurs différences conceptuelles, ces deux classes de modèles

• Supposons qu’un individu i soit confronté à un choix entre deux

◦ on retient habituellement pour les utilités U i A et U i B

où w i désigne le vecteur de caractéristiques observables propres aux

• L’écriture du modèle en termes de choix observés révèle le

= P (wi′ β A + zA′ γ + ε i A > wi′ β B + zB′ γ + ε i B | w i , z A , z B )