Vous êtes sur la page 1sur 7

URCA 2008-2009

Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr

Economtrie 2 : donnes qualitatives, probit et logit e e

Un mod`le pour donnes qualitatives e e

Cette section est fortement inspire du cours de Christophe Hurlin. e On est confront ` des donnes qualitatives en micro-conomie et en marketing, lorsque lon tudie des choix ea e e e (dachat, de consommation, de comportement, de licenciement) ou des risques de dfaillance (prt). On peut e e prendre un exemple : pour une population dtudiants en L3, on sintresse ` lvnement sinscrire dans un e e a e e master.

I.1

Le mod`le dichotomique e

Par mod`le dichotomique, on entend un mod`le statistique dans lequel la variable explique ne peut prendre e e e que deux modalits (variable dichotomique). Il sagit alors gnralement dexpliquer la survenue ou non dun e e e v`nement, ou dun choix. Dans notre exemple, ltudiant sinscrit ou non en master. e e e On consid`re un chantillon de n individus dindices i = 1, .., n. Pour chaque individu, on observe si un certain e e v`nement sest ralis et lon pose : e e e e Yi = 1 0 si lv`nement sest ralis (ltudiant sinscrit) e e e e e si lv`nement ne sest pas ralis (pas dinscription) e e e e

On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les mod`les dichotomique. En e eet, celui-ci permet de dnir la probabilit de survenue de lv`nement comme lesprance de la variable Y , e e e e e puisque : E[Yi ] = Pr(Yi = 1) 1 + Pr(Yi = 0) 0 = Pr(Yi = 1). Lesprance de Yi donne donc la probabilit que ltudiant sinscrive en master. e e e Lobjectif des mod`les dichotomiques consiste alors ` expliquer la survenue de lvnement considr en fonce a e e ee tion de K caractristiques observes (Xi1 , . . . , XiK ) pour un individu i de lchantillon, par exemple lage de e e e ltudiant, son statut marital, sil a des enfants, le niveau de vie des parents... e

I.2

Un mod`le linaire ? e e

De mani`re gnrale, comme pour le mod`le linaire, on crit pour les variables explicatives Xi = (1, Xi1 , . . . , XiK ) e e e e e e et pour les param`tres = (0 , 1 , . . . , K ) , de sorte que 0 + 1 Xi1 + + K XiK = X. e Lusage direct dun mod`le linaire est vou ` lchec : crire Yi = Xi + impose ` Xi + de ne prendre e e e a e e a que les valeurs 0 et 1. Dans notre exemple, a reviendrait ` vouloir exprimer linscription en master comme une c a fonction linaire de lage et des autres variables explicatives. e Graphiquement, les valeurs de Y ne sont pas distribues autour dune droite, mais sur deux droites parall`les, e e Y = 0 et Y = 1.

Figure 1 Rgression linaire pour donnes qualitatives, avec K = 1. e e e En fait, par rapport au cadre dusage du mod`le linaire, on observe beaucoup moins dinformation. Ceci va e e appara grce ` lintroduction dune variable latente Y : tre a a Yi = cest-`-dire a Yi = 1 Xi +i 0 . l Pour utiliser les outils du mod`le linaire, il faudrait observer Y , ce qui nest pas le cas. Il faut donc se rsoudre e e e ae ` tre moins ambitieux et ` faire des hypoth`ses bien plus importantes. a e 1 0 Yi 0 Yi 0. o` Yi = Xi + i , u

I.3

Identication
N (0, 1).

Dans le cas gaussien, on va tre amen ` faire lhypoth`se tr`s forte que les rsidus sont rduits : e ea e e e e

En eet, si lon ne spcie pas la variance de , on a un probl`me didentication : les mod`les e e e Yi = 1 0.2+3Xi1 +i 0 avec N (0, 1) l Yi = 1 0.4+6Xi1 +i 0 avec N (0, 4) l donnent exactement les mmes observations. En supposant seulement que les rsidus sont gaussiens, on est donc e e impossible destimer les param`tres 0 et 1 . e On peut aussi choisir de spcier que les rsidus suivent la loi logistique, comme on va le voir au paragraphe e e suivant, limportant tant que la loi doit tre totalement spcie. e e e e

Figure 2 La densit de la loi logistique. e 2

I.4

Les mod`les probit et logit e

On cherche ` expliquer les valeurs de Y grce ` X, cest-`-dire ` estimer la probabilit que Yi = 1 sachant Xi a a a a a e (ou que Yi = 0, ce qui revient au mme). On remarque alors que : e Pr(Yi = 1|Xi ) = Pr(Xi + i 0|Xi ) = Pr(Xi i |Xi ) = F (Xi ). La seule dirence entre les mod`les probit et logit est la spcication de F . Dans ces deux cas, la loi des rsidus e e e e est symtrique, on peut donc remplacer F par F . e Probit Le mod`le probit correspond ` la spcication gaussienne introduite ` la section prcdente. F est e a e a e e donc la fonction de rpartition dun gaussienne centre rduite, usuellement note : e e e e
Xi

F (Xi ) = (Xi ) =

et /2 dt, 2

la densit correspondante, usuellement note , est : e e e(Xi ) f (Xi ) = (Xi ) = 2


2

/2

Logit Le mod`le Logit correspond ` la loi logistique, introduite spcialement pour ce type de mod`le, de e a e e fonction de rpartition : e 1 eXi = , F (Xi ) = (Xi ) = Xi 1+e 1 + eXi la densit correspondante, usuellement note , est : e e f (Xi ) = (Xi ) = eXi = (Xi )(1 (Xi )). (1 + eXi )2

Il ny a pratiquement pas de dirence entre ces deux lois, lintroduction de la loi logistique tant simplement e e motive par sa simplicit dans ce cadre. e e

I.5

Interprtation e

Une fois le mod`le estim, on obtient des valeurs pour les param`tres () quil faut interprter. Laspect essentiel e e e e est leet marginal de la j-`me variable Xij , sur la probabilit de lvnement Y = 1 pour lindividu i. Cette e e e e eet scrit pour une variable Xij continue (pour une variable explicative qualitative, il faut considrer un taux e e daccroissement) : F (Xi ) = f (Xi )j . Xij On a vu prcdemment que les probl`mes didentication laisse peu de crdit ` la valeur quantitative de j , e e e e a cest donc surtout son signe que lon va commenter. On peut donc tirer de ce mod`le le signe de leet de Xij . e Si j > 0, Xij a un eet positif sur lvnement considr. e e e e Si j < 0, Xij a un eet ngatif sur lvnement considr. e e e e e

II
II.1

Analyse statistique
Estimation par Maximum de Vraisemblance
N

On utilise la mthode du maximum de vraisemblance pour estimer nos param`tres. La vraisemblance scrit : e e e L() =
i=n

F (Xi )Yi (1 F (Xi ))1Yi .

et donc la log-vraisemblance vaut :


N N

log L() =
i=1

Yi log F (Xi ) +
i=1

(1 Yi ) log (1 F (Xi )) log (1 F (Xi )) .


i:Yi =0

=
i:Yi =1

log F (Xi ) +

Pour chaque mod`le, on remplace F par sa valeur et lon estime en rsolvant la condition au premier ordre e e (la nullit du gradient de la log-vraisemblance). Lintrt technique du mod`le logit appara ici. En pratique, e ee e t cest bien sr SAS qui soccupe de cette tape. u e Sous certaines conditions, lestimateur du maximum de vraisemblance est convergent et suit asymptotiquement une loi normale centre sur la vraie valeur des param`tres et de matrice de variance covariance gale ` linverse e e e a de la matrice dinformation de Fisher I() (loppose de lesprance de la Hessienne de la log-vraisemblance). e e Cest la connaissance de cette loi asymptotique qui permet destimer les variances asymptotiques des estimateurs j .

II.2

Tests

On peut obtenir des statistiques pivotales, cest-`-dire des statistiques dont on conna la loi asymptotique, qui a t permettent de tester des contraintes sur les coecients, en particulier leur nullit. On obtient ` chaque fois une e a statistique asymptotiquement 2 , on compare donc les valeurs obtenues aux quantiles du 2 . Rapport de vraisemblance Dans le cadre de lestimation par maximum de vraisemblance, le test le plus naturel consiste ` construire un rapport de vraisemblance. Pour tester une contrainte de rang p r sur de a dimension p, on utilise le rsultat suivant : e LR = 2 log L() log L(c ) 2 , r
N L

o` c est lestimateur du maximum de vraisemblance sous la contrainte. u Score On peut aussi utiliser la nullit du score (aussi appel test du multiplicateur de Lagrange), en mesurant e e la norme || ||2 du score valu en c : e e log L() I(c )1
= c

log L()

N = c

2 . r

test de Wald Le test de Wald, proche du test de score, sert spciquement ` tester la nullit dun ou plusieurs e a e coecients, en particuliers de tous sauf la constante : 2 j Ijj ()
K

2 et 1
n

2 k

I () k=1 kk

2 . K
n

II.3

Taux dexplication

On peut prendre du recul sur la modlisation et se demander simplement si notre mod`le estim est capable e e e dexpliquer les observations. On se demande alors quelle valeur le mod`le prdirait pour Y , sachant X. On e e calcule alors F (Xi ) et on prdit Yi = 1 si la probabilit prdite pour loccurrence de lvnement est suprieure e e e e e e i = 0 sinon : a ` 1/2, Y Yi = 1 F (Xi )>1/2 . l On peut alors calculer le taux de prdictions justes (Yi = Yi ). e

III

La procdure LOGISTIC e

Les mots en majuscule sont des commandes SAS. Les mots en minuscule sont des noms donns par lutilisateur. e On suppose disposer dun table donnes dans la librairie WORK (qui est la librairie par dfaut). e e donnes contient les variables Y, X1, X2, sexe et poids. On suppose avoir ordonn la table par sexe. e e On veut estimer le mod`le expliquant Y par X1 et X2, pour chaque valeur de sexe sparment et avec les e e e pondrations poids. e Pr(Y = 1|X1, X2) = F (0 + 1 X1 + 2 X2).

III.1

Entre e

PROC LOGISTIC DATA=donnes1 ; e BY sexe 2 ; MODEL Y = X1 X2 / LINK= LOGIT3 ALPHA= 0.054 ; OUTPUT OUT=sortie PROB=prdictions5 XBETA=modliss6 ; e e e test1 : TEST INTERCEPT7 + .5*X2 = 0 ; test2 : TEST X1=X2 ; WEIGHT poids ; RUN ;
1 2

3 4 5 6 7

Nom de la table a utiliser. BY sexe : lance la proc sur les sous populations dnies par les valeurs de la variable sexe. Il faut avoir e ordonner la table avant, avec : PROC SORT DATA=donnes ; BY sexe ; run ; e LINK= LOGIT (par dfaut) ou PROBIT : linverse de F (1 ou 1 ). e ALPHA= 0.05 (par dfaut) ou 0.1 ou 0.01 : cest le niveau de conance des IC. e Pour sauver dans une table sortie les donnes et les rsultats, par exemple les valeurs de Yi . e e Sous SAS, le vecteur des param`tres est not , do` le nom. Calcule et sauve les valeurs de X . e e u INTERCEPT est la constante.

III.2

Sortie

On veut expliquer le ronement par lage, le sexe et la consommation rguli`re dalcool. On tape donc : e e Proc LOGISTIC DATA=donnees ; MODEL rone=age sexe alcool/ LINK=PROBIT ; RUN ; On obtient :
Le Syst`me SAS e 10:54 Wednesday, January 17, 2007 The LOGISTIC Procedure Informations sur le mod`le e Data Set Response Variable Number of Response Levels Model Optimization Technique WORK.DONNEES RONFLE 2 binary probit Fishers scoring 100 100 31

RONFLE

Number of Observations Read Number of Observations Used

Valeur ordonne e 1 2

Profil de rponse e Frquence e RONFLE totale 0 65 1 35

Probability modeled is RONFLE=0. tat de convergence du mod`le E e Convergence criterion (GCONV=1E-8) satisfied. Statistiques dajustement du mod`le e Coordonne a lorigine e ` uniquement 131.489 134.094 129.489

Crit`re e AIC SC -2 Log L

Coordonne a lorigine e ` et covariables 122.209 132.629 114.209

Test de lhypoth`se nulle globale : BETA=0 e Test Khi 2 DF Pr > Khi 2 Likelihood Ratio 15.2806 3 0.0016 Score 13.7844 3 0.0032 Wald 13.6723 3 0.0034 Analyse des estimations de la vraisemblance maximum Erreur Khi 2 Param`tre e DF Estimation std de Wald Pr > Khi 2 Intercept 1 2.7487 0.8057 11.6373 0.0006 AGE 1 -0.0385 0.0132 8.4432 0.0037 SEXE 1 0.1824 0.3740 0.2377 0.6258 ALCOOL 1 -0.1118 0.0468 5.7027 0.0169 Association des probabilits prdites e e Percent Concordant 72.2 Percent Discordant 27.7 Percent Tied 0.1 Pairs 2275 et des rponses observes e e Somers D 0.445 Gamma 0.446 Tau-a 0.205 c 0.723

SAS commence par donner quelques informations descriptives sur les donnes et le mod`le. On explique cie e dessous les principaux rsultats. e

Statistiques dajustement du mod`le e


Permet de comparer plusieurs mod`les pour les mmes donnes. Le meilleur mod`le est celui pour lequel e e e e les crit`res sont les plus petits. e La premi`re colonne donne les valeurs obtenues avec 0 uniquement, la seconde avec le mod`le complet. e e On esp`re donc que les valeurs diminuent. e AIC Akaike Information Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de e variables explicatives. SC Schwarz Criterion : pnalisation de la log vraisemblance prenant en compte le nombre de variables e explicatives et le nombre de donnes. e 2 log L 2 log du maximum de la vraisemblance.

Test de lhypoth`se nulle globale : = 0 e


Propose 3 tests pour la nullit de tous les coecients. La premi`re colonne la valeur de la statistique de e e test (asymptotiquement 2 ), la deuxi`me colonne rappelle p et la troisi`me donne la p-value, cest-`-dire e e a p le quantile du 2 correspondant (on accepte la nullit si la p-value est grande). e Likelihood Ratio Le test bas sur le rapport de vraisemblance. e Score Le test bas sur le score. e Wald Le test de Wald.

Analyse des estimations de la vraisemblance maximum


Donne les valeurs estimes pour les j et des indications de leur signicativit. La premi`re ligne donne e e e 0 . Les autres lignes donnent les coecients de variables explicatives. la constante DF Rappelle la dimension du param`tre. e Estimation Donne j . Erreur std Donne lestimation de lcart-type : e I()jj .

Khi 2 de Wald Donne la valeur du test de Wald pour la nullit du coecient j . e Pr > Khi 2 Donne la p-value de ce test.

Association des probabilits prdites et des rponses observes e e e e


Donne des statistiques sur la justesse des prdictions Yi . Une paire est forme par deux individus ayant e e une rponse dirente : Yi1 = Yi2 . Il y a concordance si les Yi sont dans le mme ordre que les Yi . Si les e e e ordres sont dirents, la paire est discordante. e Percent Concordant Le pourcentage de paires concordantes. Percent Discordant Le pourcentage de paires discordantes. Percent Tied Le pourcentage de paires indtermines. e e Pairs Le nombre de paires. Somers D D de Somers : indice de la justesse des prdictions. Les 3 indices suivants jouent le mme rle. cest e e o indices sont compris entre 0 et 1, et lon veut une mesure proche de 1. Gamma de Goodman-Kruskal. 6

Tau-a a de Kendall. c c de Hanley and McNeil 1982.

IV

TP SAS

En tapant harari et reims dans google, vous devriez trouver ma page web vous concernant. Sinon, ladresse est http://www.crest.fr/ckfinder/userfiles/files/Pageperso/hharari/harari_fichiers/reims.htm On va sattaquer au jeu de donne tl-achat. Lobjectif est dexpliquer si la vente est nulle ou non. e ee 1. Mise en jambe (a) Importez les donnes et faites en une copie de sauvegarde. e (b) Faire une analyse descriptive de la table. 2. Analyse statistique globale (a) Chercher le meilleur mod`le possible pour expliquer le sil y a eu vente ou non. Vous pouvez amliorer e e le mod`le en choisissant au mieux les variables explicatives et la loi des rsidus (gaussienne ou e e logistique). (b) Conjecturer un lien entre les coecients de ce mod`le et tester cette conjecture. e 3. Analyse statistique direncie e e (a) Reprendre ltude sparment pour les jours de semaine et pour le week-end. e e e (b) Trouve-t-on une dirence avec lanalyse globale ? e