Académique Documents
Professionnel Documents
Culture Documents
Johannes FONTON
Ingénieur Statisticien Economiste
Avril 2023
1
Introduction
2
Introduction
◦ le modèle probit
◦ le modèle logit
3
Modèle à probabilités linéaires
Le modèle à probabilités linéaires
S= { (y , x ) ∈{0, 1} ×R
i i
K , i = 1, . . . , n }
où les évènements y = 0 et y = 1 sont respectivement qualifiés
d’“échec” et de “succès”.
y i = β0 + β 1 x i1 + β 2 x i2 + ... + β K x i K + ε i
= x′iβ + ε i
5
Le modèle à probabilités linéaires
6
Le modèle à probabilités linéaires
εi =
{ −x ′i β
′
1 − x iβ
avec la probabilité 1 − x ′ i β
′
avec la probabilité x i β
(quand y = 0)
(quand y = 1)
1 En présence d’hétéroscédasticité, les estimateurs MCO restent non biaisés mais ne sont
plus de variance minimale. Ce problème peut être aisément contourné en utilisant la matrice de
variance-covariance de White robuste à l’hétéroscédasticité (ou en appliquant les MCG).
7
Le modèle à probabilités linéaires
Y
• Pour un x donné, y vaut 0 ou 1 : toutes les valeurs
1
de y se situeront le long de l’axe des abscisses (y = 0)
ou sur la droite d’équation y = 1.
0
X • Les modèles de probabilité linéaire se caractèrisent
donc, en règle générale, par une faible qualité
(a) d’ajustement aux données (R 2 compris le plus
souvent entre 0.2 et 0.6).
Y
• Le R 2 d’un modèle à probabilité linéaire ne sera élevé
1 (supérieur à 0.8) que lorsque les observations sont
faiblement dispersées (graphique (b)). Les probabilités
prédites seront alors proches de 0 ou 1.
X
0
(b)
8
Application
◦ 753 femmes parmi lesquelles 428 travaillent et 325 sont sans activité
professionnelle
2Mroz, T.A. (1987) “The Sensitivity of an Empirical Model of Married Women’s Hours of
Work to Economic and Statistical Assumptions”, Econometrica, 55, pp.765-799.
9
Application
◦ A G E : âge en années
assez bien pour des valeurs des variables explicatives proches des moyennes d’échantillon.
11
Application
Variables
Constant 0.586∗∗∗
(0.152)
Years of schooling 0.038∗∗∗
(0.007)
Labor market experience 0.040∗∗∗
(0.006)
Squared labor marketexperience -0.0006∗∗∗
(0.0002)
Woman’s age -0.016∗∗∗
(0.002)
Non-wife family income (thousands of dollars) -0.003∗∗
(0.002)
Number of kids < 6 years -0.262∗∗∗
(0.032)
Number of kids 6-18 0.013
(0.013)
Fit statistics
Observations 753
R2 0.26422
AdjustedR2 0.25730
12
Application
13
Modèles probit et logit
Modèles à fonction indice
14
Modèles à fonction indice
Pr[ y i = 1 | xi ] = F (x ′ i β) où
F (.) : R → R où F (x ′ i β) = x ′ i β.
15
Modèles à fonction indice
X
– 0
5La fonction de répartition F (.) d’une variable aléatoire réelle continue X est :
x
F (x) = P r [ X ≤ x] = ∫− ∞ f (t)dt
17
Modèles Logit et Probit
x ′i β
=
∫ −∞
18
Modèles Logit et Probit
• Les modèles Probit et Logit reposent sur des transformations non linéaires
(Φ(.) ou Λ(.)) destinées à s’assurer que les probabilités prédites soient
comprises entre 0 et 1.
Probit
Logit
19
Modèles Logit et Probit
20
Modèles Logit et Probit
• Pour ce faire, on peut recourir aussi bien à un modèle à utilité aléatoire qu’à
un modèle latent.
21
Modèle à utilité aléatoire
22
Modèle à utilité aléatoire
P (y i = 1 | w i , z A , z B ) = P (U A > U B )
= P (wi′ ( β A − β B ) + ( z A − z B ) ′ γ > ε i B − ε i A | w i , z A , z B )
= P (−ε < x ′ i β | x i )
23
Modèle à utilité aléatoire
• Notons respectivement U i1 = β1 + γt + ε i1 et U i0 = β0 + ε i0
l’utilité d’un individu i en présence et en l’absence de bien public.
• Un individu est indifférent entre les deux alternatives dès lors que
γt = β0 − β1 + ε i0 − εi1 . La disposition à payer espérée est alors : 8
β1 − 0β
E(t) =− γ
y i = 1{ y∗ >
i 0} =
{ 1 si yi∗ > 0
0 si y∗ ≤ 0
i
et yi∗ = x ′ i β + ε i
• Alors :
27
Modèle latent
28
Interprétation des paramètres
• L’effet partiel de la variable x k sur Pr(y i = 1|x i ) est de même signe que
β k (car F (.) est strictement croissante).
30
Interprétation des paramètres
n
• x i k continue : A P E k = 1 Σ f (x ′ i β)β k
n
i =1
n
• x i k discrète : A P E k = 1 Σ F (x ′ i(k) β (k) + β k ) − F (x ′ i(k) β (k) )
i=1
n
• x i k continue : P E M k = f (x¯′β)βk
31
Interprétation des paramètres
̸= [f ( x ′ i β ) β k ] ∆ x i k
πi = G(xjiβ)
G(xjiβ + Δxilβl)
−G(xji β) [g(xjiβ)βl]Δxil
xjiβ
xjiβ xijβ + Δxilβl
12En réalité,
[f (x ′ i β)β k ] ∆ x reste une approximation linéaire valide uniquement pour de
i k
“petites” variations de x i k .
32
Interprétation des paramètres
33
Interprétation des paramètres
∂P (y i = 1 | x i )/∂x i3 = f (x ′iβ)(β 4 + β 6 x i4 )
∂P (y i = 1 | x i )/∂x i4 = f (x ′iβ)(β 5 + β 6 x i3 )
◦ l’effet partiel du terme d’intéraction x i 3 x i 4 est donné par : A faire.
34
Interprétation des paramètres
13Dans le domaines des paris sportifs ou hippiques, on dirait que la cote associée à l’obtention d’un
CDD est de “3 contre 1”. Une cote de “3 contre 1” signifie qu’un individu a 1 chance sur 4
d’obtenir un CDI.
35
Interprétation des paramètres
• Supposons qu’il existe dans la population deux groupes (e.g “H” et “F”)
caractérisés par un vecteur de variables explicatives x et une indicatrice
d’appartenance (G = 1 si “H”, 0 sinon)
odds(x, H) exp(x ′ β + β G )
OR = =
odds(x, F ) exp(x ′ β)
exp(x ′ β) × exp(βG)
=
exp(x ′ β)
= exp(βG)
36
Interprétation des paramètres
15Pour
37
Interprétation des paramètres
38
Estimation par maximum de vraisemblance
= F (x ′ i β) y i [1 −F (x ′ i β)] 1−y i
15V (y | x ) = E ( y 2| x ) − [E(y | x )] 2
i i i i i i = E(yi |xi ) − [E(yi|xi)]2 [car y i ∈ {0, 1} ⇒ yi 2 = yi ]
= E ( y i | x i ) × [1− E ( y i | x i ) ]
= P (y i = 1 | xi ) × [1 − P (y i = 1 | xi ) ]
39
Estimation par maximum de vraisemblance
40
Estimation par maximum de vraisemblance
41
Estimation par maximum de vraisemblance
42
Estimation par maximum de vraisemblance
43
Estimation par maximum de vraisemblance
45
Propriétés asymptotiques
◦ asymptotiquement normal :
où I ( β ) d é s i g n e l a m a t r i c e d ’ i n f o r m a t i o n d e
Fisher.
46
Propriétés asymptotiques
β^kM L H 0
Z = ∼ N (0, 1)
^σ β^M L
k
48
Interpréter les résultats
^
• Les coefficients estimés βk (k = 1, ...K) permettent
uniquement
de déterminer le signe et l’ampleur relative , variables
continues) des effets partiels estimés.
• On peut dériver une borne supérieure de ces effets :
◦ Logit :
◦ probit :
^
49
Application
53
Application
Variables
Constant 0.586∗∗∗ 0.270 0.425
(0.152) (0.510) (0.864)
Years of schooling 0.038∗∗∗ 0.131∗∗∗ 0.221∗∗∗
(0.007) (0.025) (0.044)
Labor market experience 0.040∗∗∗ 0.123∗∗∗ 0.206∗∗∗
(0.006) (0.019) (0.032)
Squared labor market experience -0.0006∗∗∗ -0.002∗∗∗ -0.003∗∗∗
(0.0002) (0.0006) (0.001)
Woman’sage -0.016∗∗∗ -0.053∗∗∗ -0.088∗∗∗
(0.002) (0.008) (0.015)
Non-wife family income (thousands of dollars) -0.003∗∗ -0.012∗∗ -0.021∗∗
(0.002) (0.005) (0.008)
Number of kids < 6 years -0.262∗∗∗ -0.868∗∗∗ -1.44∗∗∗
(0.032) (0.119) (0.205)
Number of kids 6-18 0.013 0.036 0.060
(0.013) (0.044) (0.075)
Fit statistics
Observations Log- 753 753 753
Likelihood -423.89 -401.30 -401.77
54
Application
55
Application
Non-wife family income (thousands of dollars) −0.003∗∗ −0.004∗∗ −0.004∗∗ −0.005∗∗ −0.005∗∗
(0.002) (0.001) (0.001) (0.002) (0.002)
56
Application
• Les effets partiels estimés dans ces trois modèles sont très
proches. Dans cet exemple |AP E| < |PEM| pour les modèles logit
et probit (AP E = P E M dans le modèle à probabilités linéaires.).
• La principale différence réside dans la constance supposée des effets
partiels du MPL alors que les modèles probit et logit se caractérisent
par des effets partiels décroissants.
◦ dans le MPL, un enfant de moins de 6 ans en plus réduit la probabilité
prédite d’être en emploi de 0.262, quelle que soit la composition du
ménage (et les caractéristiques des mères).
◦ dans le modèle probit, la probabilité prédite est plus faible de
-0.336 pour une femme ayant un enfant de moins de 6 ans que pour une
femme qui n’en a pas, toutes choses égales par ailleurs.24 L’arrivée d’un
second enfant de moins de 6 ans réduit encore davantage cette probabilité
mais l’effet partiel associé est plus faible (-0.230).
24Effets évalués à la moyenne des variables educ, exper, expersq, age, nwifeinc et pour kidsge 6=1
57
Qualité d’ajustement du modèle : Le R2 de McFadden
58
Qualité d’ajustement du modèle : Le R2 de McFadden
59
Qualité d’ajustement du modèle : prédictions correctes
• On peut aussi comparer les valeurs^ prédites aux valeurs observées, sous réserve de
définir une règle permettant de conclure que
60
Qualité d’ajustement du modèle : prédictions correctes
• Bien que le seuil soit habituellement fixé à 0.5, ce choix peut ne pas être
optimal.
61
Qualité d’ajustement du modèle : prédictionscorrectes
y =0 y =1
y^s= 0 TNs FNs TNs+FNs
y^s= 1 FPs TPs FPs+TPs
TNs+FPs FNs+TPs n
25Lecture : T P (true positive) sont les vrais positifs, correspondant aux 1 prédits en 1, T N (true
negative) sont les vrais négatifs, correspondant aux 0 prédits en 0, F P (false positive) sont les faux
positifs, correspondant aux 0 prédits en 1, et enfin F N (false negative) sont les faux négatifs,
correspondant aux 1 prédits en 0).
62
Qualité d’ajustement du modèle : prédictionscorrectes
26Autrement dit, la courbe ROC est obtenue en faisant varier le seuil de 1 à 0 et en reportant le
taux de faux positifs en abscisses et le taux de vrais positifs en ordonnée.
63
Qualité d’ajustement du modèle : prédictionscorrectes
64