Académique Documents
Professionnel Documents
Culture Documents
4.1
Exemples et dfinitions
de la Communaut franaise
3. Lorsquon sintresse aux salaires dans une population donne, il nest pas
toujours ncessaire dexpliquer cette variable dpendante leuro prs. On
est parfois amen considrer des catgories de salaire, comme par exemple :
... ...
Dans cet exemple, une variables discrte multiple a t construire partir
de la variable continue de salaire. La variable Yi ainsi dfinie sappelle une
variable catgorielle.
4. On peut galement faire une distinction dans les variables de choix multiple.
Dans lexemple prcdent, la variable dpendante prsente un ordre logique
pour prsenter les catgories : Y = 1 reprsente les plus bas revenus, Y = 2
reprsente la catgorie de revenu juste suprieure etc.
Dans certaines situations, il ny a pas dordre logique dans lencodage de la
variable Y . titre dexemple, considrons nouveau le choix du mode de
transport et affinons notre analyse en prcisant si un individu qui choisit le
transport en commun utilise le bus ou le train. Dans ce cas, on peut encoder
la variable dpendante comme suit :
(4.1)
4.2
(4.2)
(4.3)
Y0 = X 0
2. Linear Probability Model.
4.3
4.3.1
Lide des modles probit et logit est de modifier le modle linaire (4.2) en
imposant que lesprance E(Y |X) soit comprise entre 0 et 1. Pour ce faire, on
remplace le modle (4.2) par le modle
E(Y |X) = G (1 X1 + 2 X2 + . . . + K XK )
=G X
(4.4)
4.3.2
Le modle probit
Dans le cas du modle probit, on choisit comme fonction G la fonction de distribution de la variable alatoire Normale standardise. Rappelons que la fonction
de densit de la loi Normale standardise est
1
2
(u) = eu /2 ,
2
uR.
Cette fonction est reprsente la Figure 4.1(a). La fonction de distribution correspondante est
Z z
(u)du, z R
(z) =
0.0
0.0
0.2
0.1
0.4
0.2
0.6
0.3
0.8
1.0
0.4
4.3.3
Le modle logit
ez
1 + ez
qui est, elle aussi, comprise entre 0 et 1. Cette fonction est reprsente la figure
4.2.
Le modle logit (ou logistique) scrit alors
(4.6)
E(Y |X) = P(Y = 1|X) = X .
4.3.4
0.0
0.2
0.4
0.6
0.8
1.0
4.4
Nous developpons une autre interprtation usuelle des modles de choix discret.
Il ne sagit pas vraiment dun nouveau modle, mais plutt dun autre point de
vue sur les modles introduits ci-dessus.
Dans cette approche, on suppose quil existe une variable continue Y qui nest
pas observe, mais qui mesure la propension dun individu faire son choix. Bien
que nous nobservions pas cette propension Y directement, nous constatons le
choix qui en rsulte, modlise par la variable binaire Y que nous relions Y par
1 si Y > 0
0 si Y 6 0
(4.7)
Exemple
Dans lexemple ci-dessus du march du travail pour les familles monoparentales, Y pourrait modliser lintensit avec laquelle un individu souhaite
travailler (il sagit dun exemple simpliste du phnomne, mais qui illustre
la notion de propension). Plus leve est cette intensit, plus il est probable
dobserver un individu qui travaille.
Une variable comme Y qui est inobserve mais qui explique le phnomne
analys est appele une variable latente. Dans cette stratgie de modlisation, il
faut alors imposer des conditions sur la variable latente elle-mme. La condition
la plus simple consite modliser Y comme un modle de rgression linaire des
variables exognes :
Y = 1X1 + . . . + K XK +
=X +.
(4.8)
4.5
Estimation
4.5.1
si zi = 1
P(Zi = zi ) =
1 si zi = 0
= zi (1 )1zi
Puisque les observations Zi sont indpendantes, la probabilit jointe est gale
au produit des probabilits :
P(Z1 = 1, Z2 = 0, , Z10 = 0)
= P(Z
1 = 1) P(Z2 = 0) P(Z10 = 0)
= 31 (1 )70 0 (1 )1 0 (1 )1
= (1 ) .
Cette dernire probabilit sinterprte comme suit : en supposant que les donnes
ont t gnres par une loi de Bernoulli de paramtre , la probabilit dobserver
lchantillon (4.9) est gale 3 (1 )7 .
Le principe du maximum de vraisemblance consiste choisir la valeur de
qui rende lobservation de cet chantillon la plus probable. La figure 4.3 reprsente
la probabilit 3 (1 )7 en fonction des diffrentes valeurs possibles de . Cette
fonction possde un mode, et son maximum est atteint en 3/10. Lide est que
la valeur = 3/10 correspond au paramtre le plus vraisemblable tant donn
lchantillon observ.
La fonction de la figure 4.3 est la fonction de vraisemblance. Cette fonction est
dfinie dans notre exemple par
L(|Z1 , Z2 , . . . , Z10 ) := P(Z
1 = 1, Z2 = 0, , Z10 = 0)
= 3 (1 )7 .
Notez quil sagit dune fonction du paramtre conditionnellement lchantillon
observ. En pratique, on remplace souvent cette fonction par la fonction de logvraisemblance
(|Z1 , Z2 , . . . , Z10 ) := ln L(|Z1 , Z2 , . . . , Z10 ) .
7. Rappelons quune variable alatoire discrte Z suit une loi de Bernoulli de paramtre
si Z prend les deux valeurs 0 et 1 avec les probabilits repectives 1 et (0 6 6 1).
Sa fonction de distribution est donc P(Z = z) = z (1 )z o le nombre z ne prend que
les valeurs 0 ou 1. Il sagit dun cas particulier de la variable Binomiale (Voir cours de
probabilit de 1re anne).
0.0000
0.0005
0.0010
0.0015
0.0020
0.0
0.2
0.4
0.6
0.8
1.0
qui est simplement le logarithme de la fonction de vraisemblance. La valeur du paramtre qui minimise est bien entendu la mme valeur du paramtre qui minimise
L. On peut donc baser linfrence sur la maximisation de , qui est souvent plus
facile traiter en pratique. Dans notre exemple, la fonction de log-vraisemblance
est
(|Z1 , Z2 , . . . , Z10 ) = 3 ln + 7 ln(1 ) .
Ce principe destimation se gnralise toutes les situations o un ou plusieurs
paramtres doivent tre estims. Dans bien des situations, lexpression de la fonction de vraisemblance est complique, et son maximum est impossible trouver
analytiquement. On a alors recours des mthodes numriques comme par exemple
la mthode de Newton.
Terminons ce rappel en nonant quelques proprits importantes de lestimateur de maximum de vraisemblance. Tout dabord, ce principe se gnralise naturellement lestimation dun vecteur de plusieurs paramtres = (1 , . . . , K ) . De
plus, sous des conditions de rgularit assez gnrales 8
1. Lestimateur par maximum de vraisemblance est consistant. En dautres
termes, si b
reprsente lestimateur par maximum de vraisemblance du vecP
teur de paramtres , alors b
.
L
n(b
) N (0, S) .
(4.10)
8. Pour un expos rigoureux de ces conditions, on pourra consulter par exemple Monfort
(1997).
4.5.2
pour y = 0 ou 1,
pour y = 0 ou 1.
Supposons prsent que lon observe un chantillon iid des variables (Y, X) de
taille n. Notons cet chantillon
Xn = {(Y1 , X 1 ), (Y2 , X 2 ), . . . , (Yn , X n )} .
En utilisant que chaque variable Yi |X i possde la distribution Bernoulli rappele
ci-dessus, et en notant que ces variables sont indpendantes, la fonction de vraisemblance de lchantillon Xn est alors donne par
1Y1
L(|Xn ) = G(X 1 )Y1 1 G(X 1 )
1Y2
G(X 2 )Y2 1 G(X 2 )
1Yn
G(X n )Yn 1 G(X n )
n
Y
1Yi
G(X i )Yi 1 G(X i )
.
=
i=1
Exemple
Reprenons lexemple de la participation dun parent isol au march du travail. Un logiciel utilise une procdure itrative pour trouver les paramtres
maximisant la vraisemblance. Dans notre exemple, le logiciel R prcise le
nombre ditrations ncessaires afin de trouver une solution :
Number of Fisher Scoring iterations: 4
Le logiciel a calcul les valeurs suivantes des paramtres :
(Intercept)
AGE
TEA
TOTKIDS
YOUNGCH
WHITETRUE
MARITALSeparated
MARITALSingle
MARITALWidowed
4.5.3
Estimer la matrice de covariance de lestimateur par maximum de vraisemblance est une tche plus dlicate que pour lestimateur OLS dans le modle linaire. Si on considre la matrice donne par le thorme central limite (4.10), la
matrice de covariance asymptotique est donne par
1
=
I()
"
2 ()
E
#)1
2 ()
\1 =
{I()}
.
b
=
Cet estimateur calcule la matrice Hessienne en lestimateur b (et non plus lesprance de la matrice).
Cet estimateur ncessite de calculer des drives secondes. Cest pourquoi dans
la pratique, on a nouveau recourt des mthodes itratives pour calculer cette
matrice.
Lestimateur BHHH
Cet estimateur tient son nom des travaux de Berndt, Hall, Hall, and Hausman
(1974). Ces auteurs se basent sur le fait que lesprance des drives secondes de la
matrice est gale la covariance du vecteur des premires drives 9 . Lestimateur
propos est donn par
( n
)1
X
\1 =
b
gb
g
.
{I()}
i i
i=1
o b
g i est le vecteur des premires drives
gi :=
b
ln G(X i )
.
b
Cet estimateur a lavantage dtre trs simple calculer, car il nutilise que
les premires drives dj calcules dans le travail de maximisation de la logvraisemblance. De plus, la matrice ainsi estime a lavantage dtre automatiquement non-dfinie ngative, comme doit ltre une matrice de covariance.
En utilisant la forme particulire des modles probit et logit, ces deux estimateurs se simplifient en des formules pouvant tre consultes, par exemple, dans
Amemiya (1985).
4.6
4.6.1
Tests
Tests de restriction linaire
contre
H1 : 1 6= 0
n(1 1 )
suit approximativement une loi normale N (0, S11 ) o S1 1 est llment (1, 1) de
la matrice dinformation I(). Cette matrice tant inconnue en pratique, elle est
estime comme expliqu la section 4.5.3. Notons S11
lestimateur de la variance
p
ainsi obtenu. La statistique de test est donc n1 / S 1 1 qui, sous H0 , suit approximativement une loi de student tnK .
Exemple
Dans la sortie de lexemple de la page 179, la statistique de test t est automatiquement fournie pour le test de significativit (cest--dire H0 : j = 0).
La p-valeur est galement donne.
4.6.2
LbR
.
LbU
sous H0
1.2171808
; P-value = 0.54412
Il existe dautres tests bass sur la vraisemblance que nous ne voyons pas dans le
cadre de ce cours. Une tude plus approfondie des tests bass sur la vraisemblance
est en gnral comprise dans un second cours dconomtrie 11 . Un bon point de
dpart dans la littrature sur le sujet est louvrage de Godfrey (1988).
10. LR est labbrviation de langlais Likelihood Ratio signifiant Rapport de vraisemblances.
11. Par exemple lactuel ECON3503 (Advanced Econometrics).
4.7
Mesures dajustement
Dans le but de juger de la prcision dun modle calibr aux donnes, un certain nombre de mesures ont t proposes suivant le principe du coefficient de
dtermination R2 tudi au chapitre 1.
4.7.1
Pseudos R2
ln LbU
.
ln LbR
ln LbU
Pseudo-R2 dEstrella = 1
ln LbR
4.7.2
# 2 ln LR
n
Mesure de prvision
pour tout i
Valeurs
Observes
0
1
Valeurs prdites
0
1
n00
n01
n10
n11
0.677419
4.8
Inc
School
Urban
Coefficient
-0.0004
0.269
0.036
cart-type
0.00016
0.140
0.012
t de Student
-2.60
1.93
2.87
p valeur
0.009
0.053
0.04
constante
T
ln L
Pseudo-R2
0.953
-1.823
-206.83
0.449
p-valeur : 0.002
p-valeur : 0.000
Temps de parcours
Transport en commun
60
Voiture
30
4.9
Solution de lExercice 47
1. Inc : Le coefficient de cette variable est significatif au niveau = 5% (puisque la
p-valeur du test de significativit est 0.009 < 0.05). De plus son signe est positif,
Inc
P(Y |Inc, School, Urban)
Inc
P(Y |Inc, School, Urban)
Remarquons que le premier facteur est leffet marginal du modle probit. Celui-ci
est calcul dans le syllabus, page 91. Nous rfrant cette formule, llasticit scrit
finalement
Inc
= (Inc, School, Urban) Inc
P(Y |Inc, School, Urban)
o est la densit dune variable alatoire Normale standardise, et le vecteur
reprsente les paramtres du modle probit.
12672
= 1.780434
0.80
Une augmentation de 2% du revenu mdian dans cet tat aura donc pour consquence une dcroissance de 2 1.78% 3.5% de la probabilit de voter dmocrate.
Solution de lexercice 48
(a) Le modle logit se justifie par la nature binaire de la variable dpendante, Y . Dans ce
cas, lesprance conditionnelle de Y sachant les variables explicatives est en ralit
une probabilit conditionnelle. Le modle logit est conu pour modliser une
probabilit conditionnelle.
(b) Les deux coefficients estims sont significatifs car leur p-valeur est proche de zro.
La constante vaut 0.953. Cela signifie que, si T = 0, la probabilit demprunter
un transport en commun est suprieure 0.5 :
P (Y = 1 | T = 0) =
=
=
(0.953)
e0.953
0.953
1 + e>
0.72
0.5
60
30
= ln(2) 0.69
2
4
ln(2) = ln
0.40
3
3
Bibliographie
Amemiya, T. (1985) : Advanced Econometrics. Harvard University Press, Cambridge.
Berndt, E., B. Hall, R. Hall, and J. Hausman (1974) : Estimation and
Inference in nonlinear structural models, Annals of Economic and Social Measurement, 3/4, 653665.
Blundell, R., A. Duncan, and K. Pendakur (1998) : Semiparametric estimation and Consumer Demand, Journal of Applied Econometrics, 13, 435462.
Bourbonnais, R. (2004) : conomtrie. Dunod, Paris, 5e edn.
Breusch, T., and A. Pagan (1979) : A simple test for heteroscedasticity and
random coefficient variation, Econometrica, 47, 12871294.
Duncan, A. (2005) : A short course in microeconometric methods. University of
Nottingham.
Durbin, J., and G. Watson (1950) : Testing for Serial Correlation in Least
Square Regression I, Biometrika, 37, 409428.
(1951) : Testing for Serial Correlation in Least Square Regression II,
Biometrika, 38, 159179.
Estrella, A. (1998) : A New Measure of Fit for Equations with Dichotomous
Dependent Variables, Journal of Business and Economic Statistics, 16, 198205.
Farrar, D., and R. Glauber (1968) : Multicolinearity in regression analysis,
Review of Economics and Statistics, 49, 92107.
Godfrey, L. (1988) : Misspecification Tests in Econometrics. Cambridge University Press, Cambridge.
Goldfeld, S., and R. Quandt (1965) : Some tests for homoskedasticity, Journal of the American Statistical Association, 60, 539547.
Greene, W. H. (2003) : Econometric analysis. Pearson Education, Upper Saddle
River, 5th edn.
Hayashi, F. (2000) : Econometrics. Princeton University Press, Princeton.
Jarque, C., and A. Bera (1987) : A test for Normality of observations and
regression residuals, International Statistical Review, 55, 163172.
Judge, G., W. Griffiths, C. Hill, and T. Lee (1985) : The Theory and
Practice of Econometrics. John Wiley and Sons, New York.
Keynes, J. (1936) : The General Theory of Employment, Interest, and Money.
Harcourt, Brace, and Jovanovich, New York.
Leser, C. (1963) : Forms of Engle functions, Econometrica, 31, 694703.
Maddala, G. (2001) : Introduction to econometrics. John Wiley & Sons, Chichester, 3rd edn.
BIBLIOGRAPHIE
191