PDF Probit PDF

URCA 2008-2009
Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr
Economtrie 2 : donnes qualitatives, probit et logit e e
Un mod`le pour donnes qualitatives e e
Cette section est fortement inspire du cours de Christophe Hurlin. e On est confront ` des donnes qualitatives en micro-conomie et en marketing, lorsque lon tudie des choix ea e e e (dachat, de consommation, de comportement, de licenciement) ou des risques de dfaillance (prt). On peut e e prendre un exemple : pour une population dtudiants en L3, on sintresse ` lvnement sinscrire dans un e e a e e master.
I.1
Le mod`le dichotomique e
Par mod`le dichotomique, on entend un mod`le statistique dans lequel la variable explique ne peut prendre e e e que deux modalits (variable dichotomique). Il sagit alors gnralement dexpliquer la survenue ou non dun e e e v`nement, ou dun choix. Dans notre exemple, ltudiant sinscrit ou non en master. e e e On consid`re un chantillon de n individus dindices i = 1, .., n. Pour chaque individu, on observe si un certain e e v`nement sest ralis et lon pose : e e e e Yi = 1 0 si lv`nement sest ralis (ltudiant sinscrit) e e e e e si lv`nement ne sest pas ralis (pas dinscription) e e e e
On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les mod`les dichotomique. En e eet, celui-ci permet de dnir la probabilit de survenue de lv`nement comme lesprance de la variable Y , e e e e e puisque : E[Yi ] = Pr(Yi = 1) 1 + Pr(Yi = 0) 0 = Pr(Yi = 1). Lesprance de Yi donne donc la probabilit que ltudiant sinscrive en master. e e e Lobjectif des mod`les dichotomiques consiste alors ` expliquer la survenue de lvnement considr en fonce a e e ee tion de K caractristiques observes (Xi1 , . . . , XiK ) pour un individu i de lchantillon, par exemple lage de e e e ltudiant, son statut marital, sil a des enfants, le niveau de vie des parents... e
I.2
Un mod`le linaire ? e e
De mani`re gnrale, comme pour le mod`le linaire, on crit pour les variables explicatives Xi = (1, Xi1 , . . . , XiK ) e e e e e e et pour les param`tres = (0 , 1 , . . . , K ) , de sorte que 0 + 1 Xi1 + + K XiK = X. e Lusage direct dun mod`le linaire est vou ` lchec : crire Yi = Xi + impose ` Xi + de ne prendre e e e a e e a que les valeurs 0 et 1. Dans notre exemple, a reviendrait ` vouloir exprimer linscription en master comme une c a fonction linaire de lage et des autres variables explicatives. e Graphiquement, les valeurs de Y ne sont pas distribues autour dune droite, mais sur deux droites parall`les, e e Y = 0 et Y = 1.
Figure 1 Rgression linaire pour donnes qualitatives, avec K = 1. e e e En fait, par rapport au cadre dusage du mod`le linaire, on observe beaucoup moins dinformation. Ceci va e e appara grce ` lintroduction dune variable latente Y : tre a a Yi = cest-`-dire a Yi = 1 Xi +i 0 . l Pour utiliser les outils du mod`le linaire, il faudrait observer Y , ce qui nest pas le cas. Il faut donc se rsoudre e e e ae ` tre moins ambitieux et ` faire des hypoth`ses bien plus importantes. a e 1 0 Yi 0 Yi 0. o` Yi = Xi + i , u
I.3
Identication
N (0, 1).
Dans le cas gaussien, on va tre amen ` faire lhypoth`se tr`s forte que les rsidus sont rduits : e ea e e e e
En eet, si lon ne spcie pas la variance de , on a un probl`me didentication : les mod`les e e e Yi = 1 0.2+3Xi1 +i 0 avec N (0, 1) l Yi = 1 0.4+6Xi1 +i 0 avec N (0, 4) l donnent exactement les mmes observations. En supposant seulement que les rsidus sont gaussiens, on est donc e e impossible destimer les param`tres 0 et 1 . e On peut aussi choisir de spcier que les rsidus suivent la loi logistique, comme on va le voir au paragraphe e e suivant, limportant tant que la loi doit tre totalement spcie. e e e e
Figure 2 La densit de la loi logistique. e 2
I.4
Les mod`les probit et logit e
On cherche ` expliquer les valeurs de Y grce ` X, cest-`-dire ` estimer la probabilit que Yi = 1 sachant Xi a a a a a e (ou que Yi = 0, ce qui revient au mme). On remarque alors que : e Pr(Yi = 1|Xi ) = Pr(Xi + i 0|Xi ) = Pr(Xi i |Xi ) = F (Xi ). La seule dirence entre les mod`les probit et logit est la spcication de F . Dans ces deux cas, la loi des rsidus e e e e est symtrique, on peut donc remplacer F par F . e Probit Le mod`le probit correspond ` la spcication gaussienne introduite ` la section prcdente. F est e a e a e e donc la fonction de rpartition dun gaussienne centre rduite, usuellement note : e e e e
Xi
F (Xi ) = (Xi ) =
et /2 dt, 2
la densit correspondante, usuellement note , est : e e e(Xi ) f (Xi ) = (Xi ) = 2

2
/2
Logit Le mod`le Logit correspond ` la loi logistique, introduite spcialement pour ce type de mod`le, de e a e e fonction de rpartition : e 1 eXi = , F (Xi ) = (Xi ) = Xi 1+e 1 + eXi la densit correspondante, usuellement note , est : e e f (Xi ) = (Xi ) = eXi = (Xi )(1 (Xi )). (1 + eXi )2
Il ny a pratiquement pas de dirence entre ces deux lois, lintroduction de la loi logistique tant simplement e e motive par sa simplicit dans ce cadre. e e
I.5
Interprtation e
Une fois le mod`le estim, on obtient des valeurs pour les param`tres () quil faut interprter. Laspect essentiel e e e e est leet marginal de la j-`me variable Xij , sur la probabilit de lvnement Y = 1 pour lindividu i. Cette e e e e eet scrit pour une variable Xij continue (pour une variable explicative qualitative, il faut considrer un taux e e daccroissement) : F (Xi ) = f (Xi )j . Xij On a vu prcdemment que les probl`mes didentication laisse peu de crdit ` la valeur quantitative de j , e e e e a cest donc surtout son signe que lon va commenter. On peut donc tirer de ce mod`le le signe de leet de Xij . e Si j > 0, Xij a un eet positif sur lvnement considr. e e e e Si j < 0, Xij a un eet ngatif sur lvnement considr. e e e e e
II
II.1
Analyse statistique
Estimation par Maximum de Vraisemblance
N
On utilise la mthode du maximum de vraisemblance pour estimer nos param`tres. La vraisemblance scrit : e e e L() =
i=n
F (Xi )Yi (1 F (Xi ))1Yi .
et donc la log-vraisemblance vaut :

N N
log L() =
i=1
Yi log F (Xi ) +
i=1
(1 Yi ) log (1 F (Xi )) log (1 F (Xi )) .

i:Yi =0
=
i:Yi =1
log F (Xi ) +
Pour chaque mod`le, on remplace F par sa valeur et lon estime en rsolvant la condition au premier ordre e e (la nullit du gradient de la log-vraisemblance). Lintrt technique du mod`le logit appara ici. En pratique, e ee e t cest bien sr SAS qui soccupe de cette tape. u e Sous certaines conditions, lestimateur du maximum de vraisemblance est convergent et suit asymptotiquement une loi normale centre sur la vraie valeur des param`tres et de matrice de variance covariance gale ` linverse e e e a de la matrice dinformation de Fisher I() (loppose de lesprance de la Hessienne de la log-vraisemblance). e e Cest la connaissance de cette loi asymptotique qui permet destimer les variances asymptotiques des estimateurs j .
II.2
Tests
On peut obtenir des statistiques pivotales, cest-`-dire des statistiques dont on conna la loi asymptotique, qui a t permettent de tester des contraintes sur les coecients, en particulier leur nullit. On obtient ` chaque fois une e a statistique asymptotiquement 2 , on compare donc les valeurs obtenues aux quantiles du 2 . Rapport de vraisemblance Dans le cadre de lestimation par maximum de vraisemblance, le test le plus naturel consiste ` construire un rapport de vraisemblance. Pour tester une contrainte de rang p r sur de a dimension p, on utilise le rsultat suivant : e LR = 2 log L() log L(c ) 2 , r
N L
o` c est lestimateur du maximum de vraisemblance sous la contrainte. u Score On peut aussi utiliser la nullit du score (aussi appel test du multiplicateur de Lagrange), en mesurant e e la norme || ||2 du score valu en c : e e log L() I(c )1
= c
log L()
N = c
2 . r
test de Wald Le test de Wald, proche du test de score, sert spciquement ` tester la nullit dun ou plusieurs e a e coecients, en particuliers de tous sauf la constante : 2 j Ijj ()
K
2 et 1
n
2 k
I () k=1 kk
2 . K
n
II.3
Taux dexplication
On peut prendre du recul sur la modlisation et se demander simplement si notre mod`le estim est capable e e e dexpliquer les observations. On se demande alors quelle valeur le mod`le prdirait pour Y , sachant X. On e e calcule alors F (Xi ) et on prdit Yi = 1 si la probabilit prdite pour loccurrence de lvnement est suprieure e e e e e e i = 0 sinon : a ` 1/2, Y Yi = 1 F (Xi )>1/2 . l On peut alors calculer le taux de prdictions justes (Yi = Yi ). e
III
La procdure LOGISTIC e
Les mots en majuscule sont des commandes SAS. Les mots en minuscule sont des noms donns par lutilisateur. e On suppose disposer dun table donnes dans la librairie WORK (qui est la librairie par dfaut). e e donnes contient les variables Y, X1, X2, sexe et poids. On suppose avoir ordonn la table par sexe. e e On veut estimer le mod`le expliquant Y par X1 et X2, pour chaque valeur de sexe sparment et avec les e e e pondrations poids. e Pr(Y = 1|X1, X2) = F (0 + 1 X1 + 2 X2).
III.1
Entre e
PROC LOGISTIC DATA=donnes1 ; e BY sexe 2 ; MODEL Y = X1 X2 / LINK= LOGIT3 ALPHA= 0.054 ; OUTPUT OUT=sortie PROB=prdictions5 XBETA=modliss6 ; e e e test1 : TEST INTERCEPT7 + .5*X2 = 0 ; test2 : TEST X1=X2 ; WEIGHT poids ; RUN ;
1 2
3 4 5 6 7
Nom de la table a utiliser. BY sexe : lance la proc sur les sous populations dnies par les valeurs de la variable sexe. Il faut avoir e ordonner la table avant, avec : PROC SORT DATA=donnes ; BY sexe ; run ; e LINK= LOGIT (par dfaut) ou PROBIT : linverse de F (1 ou 1 ). e ALPHA= 0.05 (par dfaut) ou 0.1 ou 0.01 : cest le niveau de conance des IC. e Pour sauver dans une table sortie les donnes et les rsultats, par exemple les valeurs de Yi . e e Sous SAS, le vecteur des param`tres est not , do` le nom. Calcule et sauve les valeurs de X . e e u INTERCEPT est la constante.
III.2
Sortie
On veut expliquer le ronement par lage, le sexe et la consommation rguli`re dalcool. On tape donc : e e Proc LOGISTIC DATA=donnees ; MODEL rone=age sexe alcool/ LINK=PROBIT ; RUN ; On obtient :
Le Syst`me SAS e 10:54 Wednesday, January 17, 2007 The LOGISTIC Procedure Informations sur le mod`le e Data Set Response Variable Number of Response Levels Model Optimization Technique WORK.DONNEES RONFLE 2 binary probit Fishers scoring 100 100 31
RONFLE
Number of Observations Read Number of Observations Used
Valeur ordonne e 1 2
Profil de rponse e Frquence e RONFLE totale 0 65 1 35
Probability modeled is RONFLE=0. tat de convergence du mod`le E e Convergence criterion (GCONV=1E-8) satisfied. Statistiques dajustement du mod`le e Coordonne a lorigine e ` uniquement 131.489 134.094 129.489
Crit`re e AIC SC -2 Log L
Coordonne a lorigine e ` et covariables 122.209 132.629 114.209
Test de lhypoth`se nulle globale : BETA=0 e Test Khi 2 DF Pr > Khi 2 Likelihood Ratio 15.2806 3 0.0016 Score 13.7844 3 0.0032 Wald 13.6723 3 0.0034 Analyse des estimations de la vraisemblance maximum Erreur Khi 2 Param`tre e DF Estimation std de Wald Pr > Khi 2 Intercept 1 2.7487 0.8057 11.6373 0.0006 AGE 1 -0.0385 0.0132 8.4432 0.0037 SEXE 1 0.1824 0.3740 0.2377 0.6258 ALCOOL 1 -0.1118 0.0468 5.7027 0.0169 Association des probabilits prdites e e Percent Concordant 72.2 Percent Discordant 27.7 Percent Tied 0.1 Pairs 2275 et des rponses observes e e Somers D 0.445 Gamma 0.446 Tau-a 0.205 c 0.723
SAS commence par donner quelques informations descriptives sur les donnes et le mod`le. On explique cie e dessous les principaux rsultats. e
Statistiques dajustement du mod`le e

Permet de comparer plusieurs mod`les pour les mmes donnes. Le meilleur mod`le est celui pour lequel e e e e les crit`res sont les plus petits. e La premi`re colonne donne les valeurs obtenues avec 0 uniquement, la seconde avec le mod`le complet. e e On esp`re donc que les valeurs diminuent. e AIC Akaike Information Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de e variables explicatives. SC Schwarz Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de variables e explicatives et le nombre de donnes. e 2 log L 2 log du maximum de la vraisemblance.
Test de lhypoth`se nulle globale : = 0 e

Propose 3 tests pour la nullit de tous les coecients. La premi`re colonne la valeur de la statistique de e e test (asymptotiquement 2 ), la deuxi`me colonne rappelle p et la troisi`me donne la p-value, cest-`-dire e e a p le quantile du 2 correspondant (on accepte la nullit si la p-value est grande). e Likelihood Ratio Le test bas sur le rapport de vraisemblance. e Score Le test bas sur le score. e Wald Le test de Wald.
Analyse des estimations de la vraisemblance maximum

Donne les valeurs estimes pour les j et des indications de leur signicativit. La premi`re ligne donne e e e 0 . Les autres lignes donnent les coecients de variables explicatives. la constante DF Rappelle la dimension du param`tre. e Estimation Donne j . Erreur std Donne lestimation de lcart-type : e I()jj .
Khi 2 de Wald Donne la valeur du test de Wald pour la nullit du coecient j . e Pr > Khi 2 Donne la p-value de ce test.
Association des probabilits prdites et des rponses observes e e e e

Donne des statistiques sur la justesse des prdictions Yi . Une paire est forme par deux individus ayant e e une rponse dirente : Yi1 = Yi2 . Il y a concordance si les Yi sont dans le mme ordre que les Yi . Si les e e e ordres sont dirents, la paire est discordante. e Percent Concordant Le pourcentage de paires concordantes. Percent Discordant Le pourcentage de paires discordantes. Percent Tied Le pourcentage de paires indtermines. e e Pairs Le nombre de paires. Somers D D de Somers : indice de la justesse des prdictions. Les 3 indices suivants jouent le mme rle. cest e e o indices sont compris entre 0 et 1, et lon veut une mesure proche de 1. Gamma de Goodman-Kruskal. 6
Tau-a a de Kendall. c c de Hanley and McNeil 1982.
IV
TP SAS
En tapant harari et reims dans google, vous devriez trouver ma page web vous concernant. Sinon, ladresse est http://www.crest.fr/ckfinder/userfiles/files/Pageperso/hharari/harari_fichiers/reims.htm On va sattaquer au jeu de donne tl-achat. Lobjectif est dexpliquer si la vente est nulle ou non. e ee 1. Mise en jambe (a) Importez les donnes et faites en une copie de sauvegarde. e (b) Faire une analyse descriptive de la table. 2. Analyse statistique globale (a) Chercher le meilleur mod`le possible pour expliquer le sil y a eu vente ou non. Vous pouvez amliorer e e le mod`le en choisissant au mieux les variables explicatives et la loi des rsidus (gaussienne ou e e logistique). (b) Conjecturer un lien entre les coecients de ce mod`le et tester cette conjecture. e 3. Analyse statistique direncie e e (a) Reprendre ltude sparment pour les jours de semaine et pour le week-end. e e e (b) Trouve-t-on une dirence avec lanalyse globale ? e

PDF Probit PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PDF Probit PDF

Transféré par

Droits d'auteur :

Formats disponibles

URCA 2008-2009

Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr

Economtrie 2 : donnes qualitatives, probit et logit e e

Un mod`le pour donnes qualitatives e e

Figure 2 La densit de la loi logistique. e 2

Les mod`les probit et logit e

la densit correspondante, usuellement note , est : e e e(Xi ) f (Xi ) = (Xi ) = 2

F (Xi )Yi (1 F (Xi ))1Yi .

et donc la log-vraisemblance vaut :

(1 Yi ) log (1 F (Xi )) log (1 F (Xi )) .

Number of Observations Read Number of Observations Used

Profil de rponse e Frquence e RONFLE totale 0 65 1 35

Crit`re e AIC SC -2 Log L

Coordonne a lorigine e ` et covariables 122.209 132.629 114.209

Statistiques dajustement du mod`le e

Test de lhypoth`se nulle globale : = 0 e

Analyse des estimations de la vraisemblance maximum

Association des probabilits prdites et des rponses observes e e e e

Tau-a a de Kendall. c c de Hanley and McNeil 1982.

Vous aimerez peut-être aussi