Vous êtes sur la page 1sur 63

Econométrie des variables qualitatives

Chapitre 1: Modèles à variable dépendante dichotomique

Johannes FONTON
Ingénieur Statisticien Economiste
Avril 2023
1
Introduction

• Dans le modèle de régression linéaire classique, la variable


dépendante y avait une interprétation quantitative et était supposée
continue.

• Souvent, la variable à expliquer se présente néanmoins sous la forme d’une


réponse qualitative discrète (situation matrimoniale, obtention d’un prêt,
situation sur le marché du travail,. . . ).

◦ l’utilisation de variables explicatives de ce type ne pose pas de problème


particulier pour l’estimation.

◦ en revanche, les choses se compliquent lorsqu’il s’agit de la variable


expliquée.
❖ le modèle linéaire classique peut se révéler inadapté.
❖ on a alors recours à des modèles dits probabilistes.

2
Introduction

• Dans ce chapitre, nous nous intéresserons plus spécifiquement aux


modèles à variable dépendante dichotomique (binaire).

• Nous étudierons les modèles de probabilité suivants :

◦ le modèle à probabilités linéaires

◦ le modèle probit

◦ le modèle logit

3
Modèle à probabilités linéaires
Le modèle à probabilités linéaires

• Soit un échantillon d’observations i.i.d. de la forme :

S= { (y , x ) ∈{0, 1} ×R
i i
K , i = 1, . . . , n }
où les évènements y = 0 et y = 1 sont respectivement qualifiés
d’“échec” et de “succès”.

• Considérons en premier examen un modèle de régression linéaire


classique de la forme :

y i = β0 + β 1 x i1 + β 2 x i2 + ... + β K x i K + ε i

= x′iβ + ε i

Sous l’hypothèse E(ε i | xi ) = 0 ( condition d’exogénéité), nous


savons que : E(y i | xi ) = x ′ i β.
4
Le modèle à probabilités linéaires

• Comme y i ∈{ 0, 1}, nous savons par ailleurs que :

E(y i |x i ) = 0 ×Pr(y i = 0|x i ) + 1 ×Pr(y i = 1|x i )


= Pr(y i = 1|x i )

• Dans un modèle de régression linéaire à variable dépendente y i


dichotomique, nous avons donc :

E(y i | x i ) = Pr(y i = 1|x i ) = x ′ i β

ce qui revient à modéliser la probabilité de succès P (y i = 1 | x i )


comme une fonction linéaire des variables explicatives x i k et des
paramètres β k (d’où son appellation de modèle à probabilités
linéaires).

5
Le modèle à probabilités linéaires

• Dans le modèle à probabilités linéaires, β k mesure l’effet marginal d’une


variation de x i k sur la probabilité de succès Pr(y i = 1|x i ), toutes choses
égales par ailleurs.

• Ce modèle peut être estimé par la méthode des MCO.


◦ la constante s’interprète comme la probabilité de succès
estimée lorsque l’ensemble des variables de contrôle prennent des valeurs
nulles.

◦ le coefficient mesure le changement prédit dans la probabilité


de succès lorsque x k augmente d’une unité.

• En présence d’endogénéité, ce modèle peut alternativement être estimé


par la méthode des variables instrumentales.

6
Le modèle à probabilités linéaires

• Le modèle à probabilité linéaire présente toutefois deux limites


importantes.
1. les probabilités prédites p i = x β peuvent
′ ^ prendre des valeurs
^ i
inférieures à 0 ou supérieures à 1.
1
2. le modèle est intrinsèquement hétéroscédastique.

εi =
{ −x ′i β

1 − x iβ
avec la probabilité 1 − x ′ i β

avec la probabilité x i β
(quand y = 0)
(quand y = 1)

si bien que V (ε i | xi ) = x ′ i β(1 − x′ i β)

1 En présence d’hétéroscédasticité, les estimateurs MCO restent non biaisés mais ne sont

plus de variance minimale. Ce problème peut être aisément contourné en utilisant la matrice de
variance-covariance de White robuste à l’hétéroscédasticité (ou en appliquant les MCG).
7
Le modèle à probabilités linéaires

• Notons également que le R 2 possède une valeur limitée dans les


modèles à probabilités linéaires.

Y
• Pour un x donné, y vaut 0 ou 1 : toutes les valeurs
1
de y se situeront le long de l’axe des abscisses (y = 0)
ou sur la droite d’équation y = 1.

0
X • Les modèles de probabilité linéaire se caractèrisent
donc, en règle générale, par une faible qualité
(a) d’ajustement aux données (R 2 compris le plus
souvent entre 0.2 et 0.6).
Y
• Le R 2 d’un modèle à probabilité linéaire ne sera élevé
1 (supérieur à 0.8) que lorsque les observations sont
faiblement dispersées (graphique (b)). Les probabilités
prédites seront alors proches de 0 ou 1.

X
0

(b)
8
Application

• A titre d’illustration, intéressons-nous aux déterminants de l’offre de


travail des femmes en examinant les données de Mroz [1987].2

◦ données US issues du Panel Study of Income Dynamics (PSID).

◦ données relatives à l’année 1975 pour un échantillon de femmes mariées


blanches agées de 30 à 60 ans.

◦ 753 femmes parmi lesquelles 428 travaillent et 325 sont sans activité
professionnelle

2Mroz, T.A. (1987) “The Sensitivity of an Empirical Model of Married Women’s Hours of
Work to Economic and Statistical Assumptions”, Econometrica, 55, pp.765-799.

9
Application

• Nous considérons pour ce faire le modèle à probabilités linéaires


suivant :
2
I N L F i = β0 + β 1 E D U C i + β 2 E X P E R i + β 3 E X P E R i + β 4 AGE i
+ β 5 N W I F E I N C i + β 6 K I D S L T 6i + β 7 K I D S G E 6 i + ε i

◦ I N L F : = 1 si en emploi en 1975, 0 sinon

◦ E D U C : nombre d’années d’étude

◦ E X P E R : nombre d’années d’expérience professionnelle

◦ A G E : âge en années

◦ N W I F E I N C : revenu non salarial en milliers de dollars

◦ K I D S L T 6 : nombre d’enfants de moins de 6 ans dans le ménage

◦ KIDSGE6 : nombre d’enfants de 6 à 18 ans dans le


ménage
10
Application

• Le modèle est estimé par la méthode des MCO en utilisant la matrice


de variance-covariance de White robuste à l’hétéroscédasticité.

◦ en l’absence de correction, les écarts-types ^σβ^ estimés sous


l’hypothèse d’homoscédasticité ne sont plus valides.

◦ leur utilisation pour la construction des intervalles de confiance ou la


réalisation de tests statistiques peut conduire à des conclusions erronées
en matière d’inférence.

◦ pour que l’estimation d’un modèle à probabilités linéaires reste


informative, il est donc indispensable de traiter le problème
d’hétéroscédasticité et de corriger les écarts-types estimés.3

3Concernant les probabilités prédites, le modèle à probabilités linéaires fonctionne en général

assez bien pour des valeurs des variables explicatives proches des moyennes d’échantillon.

11
Application

Dependent Variable: In labor force (1=yes, 0=no)


Model: (1)

Variables
Constant 0.586∗∗∗
(0.152)
Years of schooling 0.038∗∗∗
(0.007)
Labor market experience 0.040∗∗∗
(0.006)
Squared labor marketexperience -0.0006∗∗∗
(0.0002)
Woman’s age -0.016∗∗∗
(0.002)
Non-wife family income (thousands of dollars) -0.003∗∗
(0.002)
Number of kids < 6 years -0.262∗∗∗
(0.032)
Number of kids 6-18 0.013
(0.013)

Fit statistics
Observations 753
R2 0.26422
AdjustedR2 0.25730

Heteroskedasticity-robust standard-errors in parentheses


Signif. Codes: ***: 0.01, **: 0.05, *: 0.1

12
Application

• Lecture de quelques résultats :

◦ chaque année d’étude supplémentaire est associée à une hausse de la


probabilité prédite d’être en emploi de 0.038 (soit 3.8 points de
pourcentage), toutes choses égales par ailleurs.

◦ l’effet de l’expérience passée sur la participation au marché du travail diminue


avec le nombre d’années (variation de probabilité estimée évaluée à 0.039 − (2
× 0.0006)EXP ER); le retournement s’opère néanmoins
tardivement (0.039/0.0012 = 32.5 ans).

◦ avoir un enfant de moins de 6 ans de plus au sein du ménage réduit la


probabilité prédite d’être en emploi de 0.262 (soit 26.2 points de
pourcentage), quelle que soit la composition du ménage.

13
Modèles probit et logit
Modèles à fonction indice

• Le modèle à probabilités linéaires est simple à estimer et fournit des


résultats interprétables si les écarts-types estimés sont corrigés de
l’hétéroscédasticité.

• Il souffre néanmoins d’un problème de cohérence majeur puisqu’il ne


contraint pas P (y i = 1 | xi ) = x ′ i β à prendre ses valeurs dans l’intervalle
[0, 1].

• D’autres modèles probabilistes plus sophistiqués (non linéaires) ont été


développés pour prédire la probabilité de succès
P (y i = 1 | xi ) s o u s l e s c o n t r a i n t e s l o g i q u e s i m p o s é e s
par la modélisation d’une telle quantité.

14
Modèles à fonction indice

• Les modèles probabilistes les plus couramment utilisés sont des


modèles reposant sur une fonction indice dans lesquels la probabilité
conditionnelle de succès est définie par :

Pr[ y i = 1 | xi ] = F (x ′ i β) où

F (.) : R → [0, 1] est une fonction croissante.4

• Dans ces modèles, l’espérance conditionnelle de y i est une


transformation non linéaire F (.) d’une combinaison linéaire des
variables explicatives x i .

• Les paramètres β apparaissent uniquement dans la fonction indice


x ′ i β qui est transformée afin de satisfaire l’ensemble de définition de
la variable dépendante dichotomique y i .
4Le modèle à probabilités linéaires est construit autour de la fonction identité

F (.) : R → R où F (x ′ i β) = x ′ i β.
15
Modèles à fonction indice

• Afin que 0 ≤ Pr[ y i = 1 | x i ] ≤ 1, un choix naturel consisteà


spécifier F (.) sous la forme d’une fonction de répartition.5
P

X
– 0

5La fonction de répartition F (.) d’une variable aléatoire réelle continue X est :

x
F (x) = P r [ X ≤ x] = ∫− ∞ f (t)dt

où f (x) = dF (x)/dx est la fonction de densité de probabilité, F (−∞) = 0 et F (+∞) = 1.


16
Modèles à fonction indice

17
Modèles Logit et Probit

• En pratique, on retient deux lois de probabilité particulières, chacune


donnant lieu à un modèle spécifique :
◦ Logit : F (.) est la fonction de répartition de la loi logistique
standard Λ(.) d’espérance nulle et de variance π2/3 :
p i = P r ( y i = 1|x i ) = F (x ′ i β) = Λ(x ′iβ)
exp(x ′iβ)
= 1 +exp(x ′iβ)

◦ Probit : F (.) est la fonction de répartition de la loi normale


centrée réduite Φ(.) :
p i = P r ( y i = 1|x i ) = F (x ′ i β) = Φ(x ′iβ)
x i′ β
=
∫ −∞
ϕ(z )dz

x ′i β
=
∫ −∞

18
Modèles Logit et Probit

• Les modèles Probit et Logit reposent sur des transformations non linéaires
(Φ(.) ou Λ(.)) destinées à s’assurer que les probabilités prédites soient
comprises entre 0 et 1.

Probit
Logit

19
Modèles Logit et Probit

20
Modèles Logit et Probit

• Au-delà de considérations purement statistiques, il est possible de justifier


“économiquement” le recours aux modèles probit et logit.

• Pour ce faire, on peut recourir aussi bien à un modèle à utilité aléatoire qu’à
un modèle latent.

• En dépit de leurs différences conceptuelles, ces deux classes de modèles


aboutissent à des prescriptions semblables pour l’analyse empirique des
variables dépendantes dichotomiques.

21
Modèle à utilité aléatoire

• Supposons qu’un individu i soit confronté à un choix entre deux


alternatives A (être locataire) et B (être propriétaire) auxquelles sont
associées les utilités U i A et U i B .
• Le choix observé révèle la décision qui lui procure la plus grande utilité,
mais pas les utilités elles-mêmes qui sont inobservables.
◦ si l’on s’intéresse à la décision d’être locataire, la variable y i
observée vaudra 1 si U i A > U i B , 0 sinon.

◦ on retient habituellement pour les utilités U i A et U i B


inobservables une spécification linéaire générale de la forme :
.

où w i désigne le vecteur de caractéristiques observables propres aux


individus, z A et z B les attributs des alternatives A et B, ε i A et ε i B des
termes aléatoires inobservés.

22
Modèle à utilité aléatoire

• L’écriture du modèle en termes de choix observés révèle le


classement des préférences individuelles :

P (y i = 1 | w i , z A , z B ) = P (U A > U B )

= P (wi′ β A + zA′ γ + ε i A > wi′ β B + zB′ γ + ε i B | w i , z A , z B )

= P (wi′ ( β A − β B ) + ( z A − z B ) ′ γ > ε i B − ε i A | w i , z A , z B )

= P (−(ε iA − ε i B ) < wi′( β A − β B ) + ( z A − z B ) ′ γ | w i , z A , z B )

= P (−ε < x ′ i β | x i )

où la fonction indice x ′ i β = wi′ (β A − β B ) + (z A − z B )′γ recueille tous les


élements observables de la différence des deux fonctions d’utilité et ε
désigne la différence entre les élements aléatoires.

23
Modèle à utilité aléatoire

• L’identification des paramètres requiert certaines normalisations.


◦ seules la différence β = β A − βB peut être estimée.
◦ si ε A et ε B suivent une loi normale bivariée d’espérances nulles,
2 2
de variances σ A et σ B , de covariance σA B , on doit imposer
2 2
σA − 2 σA B + σB = 1 (car σA, σ B , β et γ ne sont identifiés qu’à un
facteur d’échelle près). On peut alors estimer un modèle probit incluant
deux types de régresseurs : les différences d’attributs, d’une part, et les
caractéristiques individuelles, d’autre part.
◦ si ε A et ε B sont indépendamment distribués suivant une loi de Gumbel,
on retrouve le modèle logit simple.6
◦ dans les deux cas, l’estimation de γ requiert que la différence z A − zB varie
entre individus. Dans le cas contraire, β B et γ ne sont pas séparement
identifiables.

6Lafonction de répartition et la fonction de densité d’une loi de Gumbel sont


données par : F (u) = exp(− exp(−u)) et f (u) = exp(−u − exp(−u))
24
Modèle à utilité aléatoire

• Les modèles à utilité aléatoire sont souvent utilisés pour estimer la


disposition à payer pour des biens publics.

◦ un échantillon de répondants est confronté à un choix


hypothétique entre différentes alternatives.

◦ dans le cadre de ce choix, on leur demande s’ils sont disposés à payer un


montant t pour la réalisation d’un projet particulier, en faisant varier ce
montant de référence entre répondants.7

7Une autre possibilité consisterait à leur demander directement le montant de la

contribution qu’ils seraient prêts à payer pour la réalisation du projet.


25
Modèle à utilité aléatoire

• Notons respectivement U i1 = β1 + γt + ε i1 et U i0 = β0 + ε i0
l’utilité d’un individu i en présence et en l’absence de bien public.

• Un individu est indifférent entre les deux alternatives dès lors que
γt = β0 − β1 + ε i0 − εi1 . La disposition à payer espérée est alors : 8

β1 − 0β
E(t) =− γ

• Si l’on suppose que les erreurs sont normalement distribuées, les


paramètres β = β1 − β0 et γ peuvent être estimés à partir d’un modèle
probit standard où P (y = 1 | t) = Φ(β + γt).9

8 On s’attend vraisemblablement à observer β 1 > β 0 et γ < 0.


9 Ce modèle peut naturellement être étendu afin d’intégrer d’autres variables de
contrôle. Dans ce cas, la disposition à payer ne sera plus constante mais dépendra de ces autres
facteurs et l’on pourra alors évaluer la disposition à payer moyenne.
26
Modèle latent

• Supposons que les valeurs de la variable observée y i (e.g. présence au


travail) dépendent d’une variable latente yi∗ inobservée (e.g. l’état de
santé) de telle sorte que:

y i = 1{ y∗ >
i 0} =
{ 1 si yi∗ > 0

0 si y∗ ≤ 0
i
et yi∗ = x ′ i β + ε i

• Alors :

Pr [ y i = 1 | x i ] = Pr [yi∗ > 0 | x i ] = Pr [−ε i < x ′ i β | x i ]


= F (x ′ i β)

où F (.) est la fonction de répartition de −ε, qui est identique à celle de ε


lorsque la densité est symétrique par rapport à 0 (c’est le cas des modèles
logit et probit).

27
Modèle latent

• Le vecteur de paramètre de la fonction indice β est seulement identifié


à un facteur d’échelle près :
o on observe uniquement si x ′ i β + ε i > 0 ce qui est formellement
équivalent à x ′ i (σβ) + σ ε i > 0, pour tout σ > 0.
◦ V (ε i ) doit donc être fixée à des fins d’identification : elle est
normalisée à 1 dans le probit et à π2/3 dans le logit.

• Il n’est pas nécessaire de normaliser le seuil à 0. Soit le modèle, plus


général, Pr[ y i = 1 | x i ] = Pr[yi∗ > z i ′ α | x i ] = F (x ′ i β −z i ′ α) :
◦ β et α peuvent être séparemment identifiés si et seulement si toutes les
composantes de x i diffèrent de celles dez i .
◦ si x i et z i incluent tous deux une constante, celles-ci ne peuvent être
séparemment identifiées (seule leur différence l’est).
◦ c’est pourquoi il est nécessaire de fixer également E(ε i ) pour l’identification.
Dans les modèles logit et probit, elle est égale à0.

28
Interprétation des paramètres

• Dans les modèles logit et probit, le paramètre β k ne permet plus d’évaluer


l’effet partiel de x i k sur Pr(y i = 1|x i). 10

◦ pour une variable x i k continue :11

◦ pour une variable x i k discrète :

où x i ( k ) correspond à x i privé de x i k et β (k) à β privé de β k .


10 On pourrait également étudier l’effet partiel de x i k sur P r ( y i = 0|x i ) mais cela ne présente
pas grand intérêt dans le cas dichotomique où il se définit comme l’opposé de l’effet partiel de
x i k sur P r ( y i = 1|x i ).
11 Cet effet est maximal pour x ′ β = 0. Pour le modèle probit f (0) ≈ 0.4, pour le
i
modèle logit f (0) = 0.25.
29
Interprétation des paramètres

• L’effet partiel de la variable x k sur Pr(y i = 1|x i ) est de même signe que
β k (car F (.) est strictement croissante).

• En revanche, la valeur de cet effet dépend de :

◦ la loi supposée du terme d’erreur ε i (et la fonction de répartition


F (.) qui lui est associée).
◦ la valeur du vecteur de paramètres β (pas uniquement β k ).

◦ la valeur du vecteur de variables explicatives x i .


• contrairement au modèle à probabilités linéaires, la valeur des effets partiels
n’est donc pas constante au sein de la population.

• seul l’effet relatif de deux variables explicatives continues ne dépend pas de x i :


le rapport des effets partiels de x k ( P E k ) et x l ( P E l ) e st é g al au
rapport des coefficients β k et β l .

30
Interprétation des paramètres

• Pour un modèle donné, il existe plusieurs manières de calculer un effet


partiel moyen :

◦ Effet partiel moyen pour une variable x k :

n
• x i k continue : A P E k = 1 Σ f (x ′ i β)β k
n
i =1

n
• x i k discrète : A P E k = 1 Σ F (x ′ i(k) β (k) + β k ) − F (x ′ i(k) β (k) )
i=1
n

◦ Effet partiel au point moyen x i = x¯pourunevariablex k :

• x i k continue : P E M k = f (x¯′β)βk

• x i k discrète : P E M k = F (x ′ i(k) β (k) + β k ) − F (x ′ i(k) β (k) )

31
Interprétation des paramètres

• Remarque : l’effet d’une variation discrète ∆ x i k sur la probabilité


P (y i = 1 | x i ) e s t d é f i n i p a r : 12
(y i = 1 | x i ) = P (y i = 1 | x i , ∆ x i k ) − P (y i = 1 | x i )
= F (x ′ i β + ∆ x i k β k ) − F (x ′ i β)

̸= [f ( x ′ i β ) β k ] ∆ x i k
πi = G(xjiβ)

G(xjiβ + Δxilβl)
−G(xji β) [g(xjiβ)βl]Δxil

xjiβ
xjiβ xijβ + Δxilβl

12En réalité,
[f (x ′ i β)β k ] ∆ x reste une approximation linéaire valide uniquement pour de
i k
“petites” variations de x i k .
32
Interprétation des paramètres

• On peut également varier les spécifications de façon à introduire un


certain nombre de transformations usuelles des variables explicatives x i .
• Considérons le modèle suivant pour une population donnée :

P (y i= 1 | x ) i= F ( β0 + β1 xi1+ β2 xi1+ β 23 log(x i2)


+ β 4 x i3 + β 5 x i4 + β 6 x i 3 x i 4 )
= F (x ′ i β)
◦ l’effet partiel de x i 1 sur P (y i = 1 | xi ) :
∂P (y i = 1 | xi )/∂x i1 = f (x ′iβ)(β 1 + 2β 2 x i1 )
◦ l’effet marginal de x i 2 sur P (y i = 1 | xi ) :
∂P (y i = 1 | xi )/∂x i2 = f (x ′ i β)(β 3 /x i2 )
en conséquence, f (x′iβ)(β3/100) est une approximation de l’effet d’une
augmentation de x i 2 de 1% sur la probabilité de succès.

33
Interprétation des paramètres

• L’interprétation des effets d’intéraction se révèle légèrement plus


compliquée.

◦ les effets partiels de x i 3 et x i 4 sur P (y i = 1 | x i ) sont donnés par :

∂P (y i = 1 | x i )/∂x i3 = f (x ′iβ)(β 4 + β 6 x i4 )

∂P (y i = 1 | x i )/∂x i4 = f (x ′iβ)(β 5 + β 6 x i3 )
◦ l’effet partiel du terme d’intéraction x i 3 x i 4 est donné par : A faire.

Observer les conclusions suivantes :


• en raison de la non linéarité du modèle, ce terme peut être non nul y
compris lorsque β 6 = 0.
• le signe de β 6 ne correspond pas nécessairement au signe de l’effet
d’intéraction.
• la significativité statistique de β 6 ne renseigne aucunement sur la
significativité éventuelle de l’effet d’intéraction.

34
Interprétation des paramètres

• Les paramètres d’un modèle logit s’interprètent de façon


particulière.

• La cote (odds) d’un évènement est définie par le rapport des


probabilités conditionnelles :

◦ ex : si la probabilité d’obtenir un CDI est de 0.25, la cote associée est de


0.25/0.75 = 1/3.13

◦ dans un modèle logit : odds(x) = exp(x ′ β)

13Dans le domaines des paris sportifs ou hippiques, on dirait que la cote associée à l’obtention d’un
CDD est de “3 contre 1”. Une cote de “3 contre 1” signifie qu’un individu a 1 chance sur 4
d’obtenir un CDI.
35
Interprétation des paramètres

• Supposons qu’il existe dans la population deux groupes (e.g “H” et “F”)
caractérisés par un vecteur de variables explicatives x et une indicatrice
d’appartenance (G = 1 si “H”, 0 sinon)

• Dans ce cas, on peut définir l’odds-ratio de l’évènement d’intérêt comme le


rapport des chances (odds) pour les deux groupes.

odds(x, H) exp(x ′ β + β G )
OR = =
odds(x, F ) exp(x ′ β)
exp(x ′ β) × exp(βG)
=
exp(x ′ β)
= exp(βG)

Quand le rapport de cote est égal à 1, la cote de l’événement d’intérêt est


la même dans les deux groupes (il n’y a alors aucun lien particulier entre
le genre et l’obtention d’un CDI).

36
Interprétation des paramètres

• On peut traiter de façon analogue l’effet d’un changement d’une variable


quantitative x j . Supposons que x j augmente d’une unité: exp(x ′ β)
devient exp(x ′ β + β j ) = exp(x ′ β) ×exp(β j ).
• On peut définir le rapport de côtes correspondant (odds ratio) comme suit :15

odds(x- j , x j + 1) exp(x ′β) × exp( β j )


OR = = = exp(βj )
odds(x −j , x j ) exp(x ′ β)
• Interprétation des paramètres :
◦ dans un modèle logit, le paramètre β j donne le log-odds ratio de la variable
correspondante.
◦ l’exponentielle du coefficient indique de combien les chances (odds) sont
multipliées lorsqu’on augmente cette variable d’une unité.
◦ les coefficients d’un modèle probit n’ont pas d’interprétation
équivalente.

15Pour
37
Interprétation des paramètres

• Lorsque x j varie d’une unité, les odds varient d’un facteur


multiplicatif exp(β j ), toutes choses égales par ailleurs.
◦ lorsque exp(βj ) > 1, on dit que les odds sont “exp(βj ) fois plus
importants”.
◦ lorsque exp(βj ) < 1, on dit que les odds sont “exp(βj ) fois plus faibles”.
◦ pour déterminer l’effet sur la probabilité relative d’échec, il suffit de prendre
l’inverse de l’effet sur la probabilité relative de succès.

• Il est également possible d’exprimer ce changement en


pourcentage :

◦ si ^β j < 0, cela correspond à une diminution de 100 × (1 − e β j )%.


^

◦ si β^j > 0, cela correspond à une augmentation 100 × (e^β j − 1)%.

38
Estimation par maximum de vraisemblance

• La variable y i suit une loi de Bernoulli conditionnellement à x i :


.
1 avec la probabilité p(x i ) = P (y i = 1 | xi )
y i | xi =
0 avec la probabilité 1 − p(x i ) = 1 − P (y i = 1 | xi )

• Son espérance et sa variance conditionnelles sont données par :15


E(y i | x i ) = P [y i = 1 | x i ] = F (x ′ i β)
V (y i | x i ) = P [y i = 1 | x i ] ×P [y i = 0 | x i ] = F (x ′ i β) ×[1−F (x ′ i β)]

• Sa fonction de probabilité est donnée par :


f (y i | x i ) = P (y i = 1 | x i ) y i [1 −P (y i = 1 | x i )] 1−y i

= F (x ′ i β) y i [1 −F (x ′ i β)] 1−y i
15V (y | x ) = E ( y 2| x ) − [E(y | x )] 2
i i i i i i = E(yi |xi ) − [E(yi|xi)]2 [car y i ∈ {0, 1} ⇒ yi 2 = yi ]
= E ( y i | x i ) × [1− E ( y i | x i ) ]
= P (y i = 1 | xi ) × [1 − P (y i = 1 | xi ) ]
39
Estimation par maximum de vraisemblance

• La fonction de vraisemblance de l’échantillon a donc pour


expression :

• La fonction de log-vraisemblance de l’échantillon s’écrit :

• L’estimateur du maximum de vraisemblance de β est donné par :

β^M L = arg max Ln ( β ; y, x)


β

40
Estimation par maximum de vraisemblance

• Les équations de vraisemblance sont données par les conditions du


premier ordre :

41
Estimation par maximum de vraisemblance

• Dans le cas du modèle logit, les conditions du premier ordre se


simplifient comme suit :

Il n’existe pas de simplification comparable pour le modèle probit.


• Si le vecteur de variables explicatives x i inclut une constante, on a
également :

La moyenne des probabilités prédites est égale à la proportion de


y i = 1 dans l’échantillon.16
16Le même résultat s’applique pour le modèle à probabilités linéaires mais pas pour le probit.

42
Estimation par maximum de vraisemblance

• L’espérance de la matrice des dérivées secondes de la log


vraisemblance est donnée par :

• Pour le modèle logit, les écritures se simplifient car la matrice


hessienne ne dépend pas de y ; on obtient ainsi:

43
Estimation par maximum de vraisemblance

• Il n’existe pas de solution explicite.17

◦ les équations de vraisemblance étant non linéaires, leur résolution nécessite


la mise en oeuvre de méthodes numériques itératives.

◦ il s’agit d’algorithmes qui essaient différentes valeurs du vecteur β jusqu’à en


trouver un qui annule le score (tels que les algorithmes de Newton-Raphson
ou de Berndt-Hall-Hall-Hausman).

• L’unicité de la solution est assurée lorsque la log-vraisemblance est


concave (ce qui est le cas pour les modèles logit et probit).

17 En d’autres termes, il n’existe pas de formules donnant les estimateurs du maximum de


vraisemblance d’un logit ou d’un probit.
44
Estimation par maximum de vraisemblance

• Pour qu’une solution existe :

◦ il ne peut y avoir de colinéarité parfaite entre variables


explicatives.

◦ une variable de contrôle dichotomique d i ne doit pas prédire


parfaitement la variable de résultat y i au sein de l’échantillon.

• cela peut être le cas lorsque y i = 1 dès que d i = 1, ou y i = 0 dès que d i = 1,


ou y i = 1 dès que d i = 0, ou y i = 0 dès que d i = 0.

• dans de telles configurations, il est impossible d’estimer l’effet de


d i sur P (y i | x i , d i ).

• en pratique, le modèle sera “faiblement” identifié si y i ne varie pas suffisamment


dans les sous-échantillons définis par d i = 0 ou
d i = 1.

45
Propriétés asymptotiques

• Si le modèle est identifié et correctement spécifié, on montre que


l’estimateur du maximum de vraisemblance de β est :
◦ convergent : p l i m β^M L = β
n → +∞

◦ asymptotiquement normal :
où I ( β ) d é s i g n e l a m a t r i c e d ’ i n f o r m a t i o n d e
Fisher.

◦ asymptotiquement efficace, il atteint la borne de Cramér-Rao.

19 On retient comme estimateur de la variance asymptotique de β M L :

46
Propriétés asymptotiques

• Au-delà de la validité de la spécification choisie20, ces propriétés


supposent que deux hypothèses fortes soient vérifiées :
◦ l’exogénéité des variables explicatives x i : en cas d’endogénéité, l’estimateur
du maximum de vraisemblance sera non convergent.

◦ l’homoscédasticité des erreurs ε i : en cas d’hétéroscédasticité liée aux


variables explicatives (e.g. σ2 = exp(γ1 + γ 2 x 1 )), l’estimateur du maximum de
vraisemblance ne sera pas non plus convergent.
• si la forme de l’hétéroscédasticité est connue, on peut obtenir un estimateur
convergent des paramètres d’intérêt en adaptant la log-vraisemblance et en
adoptant les normalisations nécessaires (les effets partiels seront un peu plus
compliqués).
• on pourra procéder dès lors à un test du score de H 0 : γ2 = 0
(homoscédasticité) contre H 1 : γ2 ̸= 0 (hétéroscédasticité).
20SiF (.) n’est pas correctement spécifiée alors l’estimateur du maximum de vraisemblance
ne sera pas convergent. Toutefois, si P (y1 = 1 | xi ) = F (x ′ i β), choisir une fonction F
inadaptée affectera tous les coefficients de la même façon, si bien que le ratio des coefficients
restera constant entre différents modèles.
47
Tests d’hypothèses

• En raison de la normalité asymptotique de l’estimateur du


maximum de vraisemblance, les tests statistiques construits
autour de ne seront valides qu’asymptotiquement.

◦ test de significativité d’un coefficient H 0 : β k = 0 (z-test)

β^kM L H 0
Z = ∼ N (0, 1)
^σ β^M L
k

◦ test d’un ensemble de restrictions linéaires H 0 : Rθ = q

• test du rapport de vraisemblance (Likelihood ratio test)

• test de Wald (Wald test)

• test du score ou test Multiplicateur de Lagrange (Score test ou


Lagrange Multiplier test)

48
Interpréter les résultats
^
• Les coefficients estimés βk (k = 1, ...K) permettent
uniquement
de déterminer le signe et l’ampleur relative , variables
continues) des effets partiels estimés.
• On peut dériver une borne supérieure de ces effets :
◦ Logit :

◦ probit :

◦ on en déduit les approximations suivantes :

Les coefficients β^ logit , β^probit et β^MPL ne sont pas comparables, seuls


les effets partiels estimés le sont.

^
49
Application

• A titre d’illustration, nous poursuivons notre examen des déterminants de


l’offre de travail des femmes à partir des données de Mroz [1987].

• En complément du modèle à probabilités linéaires, nous considérons


des modèles probabilistes non linéaires de type logit et probit.

• Nous reportons les coefficients et effets partiels moyens (APE et PEM)


estimés à partir de ces trois modèles pour permettre la comparaison des
résultats.

53
Application

Dependent Variable: Model: In labor force (1=yes, 0=no)


(1) (2) (3)
OLS Probit Logit

Variables
Constant 0.586∗∗∗ 0.270 0.425
(0.152) (0.510) (0.864)
Years of schooling 0.038∗∗∗ 0.131∗∗∗ 0.221∗∗∗
(0.007) (0.025) (0.044)
Labor market experience 0.040∗∗∗ 0.123∗∗∗ 0.206∗∗∗
(0.006) (0.019) (0.032)
Squared labor market experience -0.0006∗∗∗ -0.002∗∗∗ -0.003∗∗∗
(0.0002) (0.0006) (0.001)
Woman’sage -0.016∗∗∗ -0.053∗∗∗ -0.088∗∗∗
(0.002) (0.008) (0.015)
Non-wife family income (thousands of dollars) -0.003∗∗ -0.012∗∗ -0.021∗∗
(0.002) (0.005) (0.008)
Number of kids < 6 years -0.262∗∗∗ -0.868∗∗∗ -1.44∗∗∗
(0.032) (0.119) (0.205)
Number of kids 6-18 0.013 0.036 0.060
(0.013) (0.044) (0.075)

Fit statistics
Observations Log- 753 753 753
Likelihood -423.89 -401.30 -401.77

Signif. Codes: ***: 0.01, **: 0.05, *: 0.1

54
Application

• Les résultats des trois modèles convergent en terme


d’interprétation.
◦ les signes des coefficients sont identiques dans les trois modèles.
◦ les variables statistiquement significatives sont les mêmes.

• En revanche, la valeur des coefficients estimés n’est pas


directement comparable entre modèles.
• Les coefficients estimés du modèle logit offrent une interprétation en
terme d’odds ratio.
^kidslt6
◦ exp(β logit
) = exp(−1.44) = 0.24 : suite à l’arrivée d’un enfant de
moins de 6 ans en plus dans le ménage, les chances d’être en emploi des
mères décroîssent d’un facteur de 0.24 (ou diminuent de 76%).
◦ en retour, leurs chances de ne pas être en emploi sont multipliées par
1/0.24 = 4.2, toutes choses égales par ailleurs.

55
Application

MPL Probit APE Logit APE Probit PEM Logit PEM


(1) (2) (3) (4) (5)

Years of schooling 0.038∗∗∗ 0.039∗∗∗ 0.039∗∗∗ 0.051∗∗∗ 0.054∗∗∗


(0.007) (0.007) (0.007) (0.010) (0.011)

Labor marketexperience 0.039∗∗∗ 0.037∗∗∗ 0.037∗∗∗ 0.048∗∗∗ 0.050∗∗∗


(0.006) (0.005) (0.005) (0.007) (0.008)

Squared labor market experience −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗ −0.001∗∗∗


(0.0002) (0.0002) (0.0002) (0.0002) (0.0002)

Woman’sage −0.016∗∗∗ −0.016∗∗∗ −0.016∗∗∗ −0.021∗∗∗ −0.021∗∗∗


(0.002) (0.002) (0.002) (0.003) (0.004)

Non-wife family income (thousands of dollars) −0.003∗∗ −0.004∗∗ −0.004∗∗ −0.005∗∗ −0.005∗∗
(0.002) (0.001) (0.001) (0.002) (0.002)

Number of kids < 6 years −0.262∗∗∗ −0.261∗∗∗ −0.258∗∗∗ −0.339∗∗∗ −0.351∗∗∗


(0.032) (0.032) (0.032) (0.046) (0.050)

Number of kids 6-18 0.013 0.011 0.011 0.014 0.015


(0.014) (0.013) (0.013) (0.017) (0.018)

Observations 753 753 753 753 753


∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
Note:

56
Application

• Les effets partiels estimés dans ces trois modèles sont très
proches. Dans cet exemple |AP E| < |PEM| pour les modèles logit
et probit (AP E = P E M dans le modèle à probabilités linéaires.).
• La principale différence réside dans la constance supposée des effets
partiels du MPL alors que les modèles probit et logit se caractérisent
par des effets partiels décroissants.
◦ dans le MPL, un enfant de moins de 6 ans en plus réduit la probabilité
prédite d’être en emploi de 0.262, quelle que soit la composition du
ménage (et les caractéristiques des mères).
◦ dans le modèle probit, la probabilité prédite est plus faible de
-0.336 pour une femme ayant un enfant de moins de 6 ans que pour une
femme qui n’en a pas, toutes choses égales par ailleurs.24 L’arrivée d’un
second enfant de moins de 6 ans réduit encore davantage cette probabilité
mais l’effet partiel associé est plus faible (-0.230).

24Effets évalués à la moyenne des variables educ, exper, expersq, age, nwifeinc et pour kidsge 6=1
57
Qualité d’ajustement du modèle : Le R2 de McFadden

• Dans le modèle de régression linéaire, le R 2 permet de mesurer la qualité


d’ajustement du modèle aux données.

• Plusieurs indicateurs équivalents ont été construits à partir de la log-


vraisemblance dans les modèles non linéaires.

• McFadden (1974) a ainsi défini le pseudo − R 2 :


2
R = 1 − ln Lf i t
lnL 0

◦ ln L f it = log-vraisemblance du modèle estimé

◦ ln L 0 = log-vraisemblance du modèle réduit au terme constant (i.e. sans


variables explicatives)

58
Qualité d’ajustement du modèle : Le R2 de McFadden

• Ce R 2 devrait seulement être utilisé dans les modèles de choix discret.

◦ dans d’autres modèles non-linéaires, il est préférable d’utiliser :

où ln L m a x désigne la valeur admissible maximale de la log-


vraisemblance.

◦ dans les modèles à variable dépendante binaire ln L m a x = 0 ⇒


équivalent au R 2 de McFadden.

59
Qualité d’ajustement du modèle : prédictions correctes

• On peut aussi comparer les valeurs^ prédites aux valeurs observées, sous réserve de
définir une règle permettant de conclure que

• Une solution habituellement retenue est :

◦ la qualité d’ajustement s’apprécie au regard du pourcentage de prédictions


correctes :

◦ on peut calculer le pourcentage de prédictions correctes pour chaque éventualité :

◦ le pourcentage global est une moyenne pondérée des pourcentages de prédictions


correctes des deux éventualités (les poids correspondant à la part relative de 0 et
de 1 dans l’échantillon) :

60
Qualité d’ajustement du modèle : prédictions correctes

• Bien que le seuil soit habituellement fixé à 0.5, ce choix peut ne pas être
optimal.

◦ si l’échantillon n’est pas équilibré (i.e. davantage de 1 que de 0 ou vice versa),


la règle retenue pourrait conduire à ne jamais prédire de 0 ou de 1 ; il est alors
préférable de choisir un autre seuil.

◦ on peut par exemple utiliser y¯comme seuil, i.e. prédire 1 lorsque la


probabilité conditionnelle de succès prédite est supérieure à la probabilité
non conditionnelle.

◦ naturellement, changer de seuil accroît le pourcentage de prédictions


correctes d’une éventualité mais détériore celui de l’autre.

61
Qualité d’ajustement du modèle : prédictionscorrectes

• Le tracé de la courbe ROC (Receiver Operating Characteristic) généralise


l’approche précédante en faisant varier la valeur du seuil s entre 0 et 1 :

• Pour chaque seuil s, on peut définir une matrice de confusion sur le


modèle suivant :25

y =0 y =1
y^s= 0 TNs FNs TNs+FNs
y^s= 1 FPs TPs FPs+TPs
TNs+FPs FNs+TPs n

25Lecture : T P (true positive) sont les vrais positifs, correspondant aux 1 prédits en 1, T N (true
negative) sont les vrais négatifs, correspondant aux 0 prédits en 0, F P (false positive) sont les faux
positifs, correspondant aux 0 prédits en 1, et enfin F N (false negative) sont les faux négatifs,
correspondant aux 1 prédits en 0).
62
Qualité d’ajustement du modèle : prédictionscorrectes

• Plusieurs quantités peuvent être dérivées de ce tableau.


◦ la sensibilité correspond à la probabilité de prédire 1 dans la population
des 1 (taux de vrais positifs).
◦ la spécificité correspond à la probabilité de prédire 0 dans la population des 0
(taux de vrais négatifs). On s’intéresse toutefois davantage au taux de faux
positifs, à savoir la probabilité de prédire 1 dans la population des 0.

• La représentation de ces deux valeurs lorsque s ∈[0, 1] varie


donne la courbe ROC :26
ROC s = (1 − spécificités , sensibilités)

26Autrement dit, la courbe ROC est obtenue en faisant varier le seuil de 1 à 0 et en reportant le
taux de faux positifs en abscisses et le taux de vrais positifs en ordonnée.
63
Qualité d’ajustement du modèle : prédictionscorrectes

• Le modèle sera “bon” si les positifs sont prédits


positifs, et les négatifs sont prédits négatifs. Le
choix du seuil s permet de minimiser soit les faux
positifs, soit les faux négatifs.

• L’aire sous la courbe ROC (Area Under the Curve)


permet de mesurer la qualité d’ajustement du
modèle aux données.

• Elle peut s’interpréter comme la probabilité qu’une


observation soit mieux prédite par le modèle que par
le hasard (la bissectrice représente une prédiction
purement aléatoire, i.e. une qualité d’ajustement
nulle, associée à une AU C =0.5).

64

Vous aimerez peut-être aussi