Vous êtes sur la page 1sur 7

URCA 2008-2009

Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr

Econom etrie 2 : donn ees qualitatives, probit et logit

Un mod` ele pour donn ees qualitatives

Cette section est fortement inspir ee du cours de Christophe Hurlin. On est confront e` a des donn ees qualitatives en micro- economie et en marketing, lorsque lon etudie des choix (dachat, de consommation, de comportement, de licenciement) ou des risques de d efaillance (pr et). On peut prendre un exemple : pour une population d etudiants en L3, on sint eresse ` a l ev enement sinscrire dans un master.

I.1

Le mod` ele dichotomique

Par mod` ele dichotomique, on entend un mod` ele statistique dans lequel la variable expliqu ee ne peut prendre que deux modalit es (variable dichotomique). Il sagit alors g en eralement dexpliquer la survenue ou non dun ev` enement, ou dun choix. Dans notre exemple, l etudiant sinscrit ou non en master. On consid` ere un echantillon de n individus dindices i = 1, .., n. Pour chaque individu, on observe si un certain ev` enement sest r ealis e et lon pose : Yi = 1 0 si l ev` enement sest r ealis e (l etudiant sinscrit) si l ev` enement ne sest pas r ealis e (pas dinscription)

On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les mod` eles dichotomique. En eet, celui-ci permet de d enir la probabilit e de survenue de l ev` enement comme lesp erance de la variable Y , puisque : E [Yi ] = Pr(Yi = 1) 1 + Pr(Yi = 0) 0 = Pr(Yi = 1). Lesp erance de Yi donne donc la probabilit e que l etudiant sinscrive en master. Lobjectif des mod` eles dichotomiques consiste alors ` a expliquer la survenue de l ev enement consid er e en fonction de K caract eristiques observ ees (Xi1 , . . . , XiK ) pour un individu i de l echantillon, par exemple lage de l etudiant, son statut marital, sil a des enfants, le niveau de vie des parents...

I.2

Un mod` ele lin eaire ?

De mani` ere g en erale, comme pour le mod` ele lin eaire, on ecrit pour les variables explicatives Xi = (1, Xi1 , . . . , XiK ) et pour les param` etres = (0 , 1 , . . . , K ) , de sorte que 0 + 1 Xi1 + + K XiK = X. Lusage direct dun mod` ele lin eaire est vou e ` a l echec : ecrire Yi = Xi + impose ` a Xi + de ne prendre que les valeurs 0 et 1. Dans notre exemple, ca reviendrait ` a vouloir exprimer linscription en master comme une fonction lin eaire de lage et des autres variables explicatives. Graphiquement, les valeurs de Y ne sont pas distribu ees autour dune droite, mais sur deux droites parall` eles, Y = 0 et Y = 1.

Figure 1 R egression lin eaire pour donn ees qualitatives, avec K = 1. En fait, par rapport au cadre dusage du mod` ele lin eaire, on observe beaucoup moins dinformation. Ceci va appara tre gr ace ` a lintroduction dune variable latente Y : Yi = cest-` a-dire Yi = 1 lXi +i 0 . Pour utiliser les outils du mod` ele lin eaire, il faudrait observer Y , ce qui nest pas le cas. Il faut donc se r esoudre a ` etre moins ambitieux et ` a faire des hypoth` eses bien plus importantes. 1 0 Yi 0 Yi 0. o` u Yi = Xi + i ,

I.3

Identication
N (0, 1).

Dans le cas gaussien, on va etre amen e` a faire lhypoth` ese tr` es forte que les r esidus sont r eduits :

En eet, si lon ne sp ecie pas la variance de , on a un probl` eme didentication : les mod` eles Yi = 1 l0.2+3Xi1 +i 0 avec N (0, 1) Yi = 1 l0.4+6Xi1 +i 0 avec N (0, 4) donnent exactement les m emes observations. En supposant seulement que les r esidus sont gaussiens, on est donc impossible destimer les param` etres 0 et 1 . On peut aussi choisir de sp ecier que les r esidus suivent la loi logistique, comme on va le voir au paragraphe suivant, limportant etant que la loi doit etre totalement sp eci ee.

Figure 2 La densit e de la loi logistique. 2

I.4

Les mod` eles probit et logit

On cherche ` a expliquer les valeurs de Y gr ace ` a X , cest-` a-dire ` a estimer la probabilit e que Yi = 1 sachant Xi (ou que Yi = 0, ce qui revient au m eme). On remarque alors que : Pr(Yi = 1|Xi ) = Pr(Xi + i 0|Xi ) = Pr(Xi i |Xi ) = F (Xi ). La seule di erence entre les mod` eles probit et logit est la sp ecication de F . Dans ces deux cas, la loi des r esidus est sym etrique, on peut donc remplacer F par F . Probit Le mod` ele probit correspond ` a la sp ecication gaussienne introduite ` a la section pr ec edente. F est donc la fonction de r epartition dun gaussienne centr ee r eduite, usuellement not ee :
Xi

F (Xi ) = (Xi ) =

e t / 2 dt, 2

la densit e correspondante, usuellement not ee , est : e(Xi ) f (Xi ) = (Xi ) = 2


2

/2

Logit Le mod` ele Logit correspond ` a la loi logistique, introduite sp ecialement pour ce type de mod` ele, de fonction de r epartition : 1 eXi = , F (Xi ) = (Xi ) = X i 1+e 1 + eXi la densit e correspondante, usuellement not ee , est : f (Xi ) = (Xi ) = eXi = (Xi )(1 (Xi )). (1 + eXi )2

Il ny a pratiquement pas de di erence entre ces deux lois, lintroduction de la loi logistique etant simplement motiv ee par sa simplicit e dans ce cadre.

I.5

Interpr etation

Une fois le mod` ele estim e, on obtient des valeurs pour les param` etres () quil faut interpr eter. Laspect essentiel est leet marginal de la j -` eme variable Xij , sur la probabilit e de l ev enement Y = 1 pour lindividu i. Cette eet s ecrit pour une variable Xij continue (pour une variable explicative qualitative, il faut consid erer un taux daccroissement) : F (Xi ) = f (Xi )j . Xij On a vu pr ec edemment que les probl` emes didentication laisse peu de cr edit ` a la valeur quantitative de j , cest donc surtout son signe que lon va commenter. On peut donc tirer de ce mod` ele le signe de leet de Xij . Si j > 0, Xij a un eet positif sur l ev enement consid er e. Si j < 0, Xij a un eet n egatif sur l ev enement consid er e.

II
II.1

Analyse statistique
Estimation par Maximum de Vraisemblance
N

On utilise la m ethode du maximum de vraisemblance pour estimer nos param` etres. La vraisemblance s ecrit : L() =
i=n

F (Xi )Yi (1 F (Xi ))1Yi .

et donc la log-vraisemblance vaut :


N N

log L() =
i=1

Yi log F (Xi ) +
i=1

(1 Yi ) log (1 F (Xi )) log (1 F (Xi )) .


i:Yi =0

=
i:Yi =1

log F (Xi ) +

Pour chaque mod` ele, on remplace F par sa valeur et lon estime en r esolvant la condition au premier ordre (la nullit e du gradient de la log-vraisemblance). Lint er et technique du mod` ele logit appara t ici. En pratique, cest bien s ur SAS qui soccupe de cette etape. est convergent et suit asymptotiquement Sous certaines conditions, lestimateur du maximum de vraisemblance une loi normale centr ee sur la vraie valeur des param` etres et de matrice de variance covariance egale ` a linverse de la matrice dinformation de Fisher I () (loppos ee de lesp erance de la Hessienne de la log-vraisemblance). Cest la connaissance de cette loi asymptotique qui permet destimer les variances asymptotiques des estimateurs j .

II.2

Tests

On peut obtenir des statistiques pivotales, cest-` a-dire des statistiques dont on conna t la loi asymptotique, qui permettent de tester des contraintes sur les coecients, en particulier leur nullit e. On obtient ` a chaque fois une statistique asymptotiquement 2 , on compare donc les valeurs obtenues aux quantiles du 2 . Rapport de vraisemblance Dans le cadre de lestimation par maximum de vraisemblance, le test le plus naturel consiste ` a construire un rapport de vraisemblance. Pour tester une contrainte de rang p r sur de dimension p, on utilise le r esultat suivant : ) log L( c ) LR = 2 log L( 2 r,
N L

c est lestimateur du maximum de vraisemblance sous la contrainte. o` u Score On peut aussi utiliser la nullit e du score (aussi appel e test du multiplicateur de Lagrange), en mesurant c : la norme || ||2 du score evalu e en log L() c )1 I (
c =

log L()

c N =

2 r.

test de Wald Le test de Wald, proche du test de score, sert sp eciquement ` a tester la nullit e dun ou plusieurs coecients, en particuliers de tous sauf la constante : 2 j ) Ijj (
K

2 1 et
n

2 k

) I ( k=1 kk

2 K.
n

II.3

Taux dexplication

On peut prendre du recul sur la mod elisation et se demander simplement si notre mod` ele estim e est capable dexpliquer les observations. On se demande alors quelle valeur le mod` ele pr edirait pour Y , sachant X . On ) et on pr i = 1 si la probabilit calcule alors F (Xi edit Y e pr edite pour loccurrence de l ev enement est sup erieure a 1/2, Yi = 0 sinon : ` i = 1 Y lF (Xi )>1/2 . i ). On peut alors calculer le taux de pr edictions justes (Yi = Y

III

La proc edure LOGISTIC

Les mots en majuscule sont des commandes SAS. Les mots en minuscule sont des noms donn es par lutilisateur. On suppose disposer dun table donn ees dans la librairie WORK (qui est la librairie par d efaut). donn ees contient les variables Y, X1, X2, sexe et poids. On suppose avoir ordonn e la table par sexe. On veut estimer le mod` ele expliquant Y par X1 et X2, pour chaque valeur de sexe s epar ement et avec les pond erations poids. Pr(Y = 1|X 1, X 2) = F (0 + 1 X 1 + 2 X 2).

III.1

Entr ee

PROC LOGISTIC DATA=donn ees1 ; 2 BY sexe ; MODEL Y = X1 X2 / LINK= LOGIT3 ALPHA= 0.054 ; OUTPUT OUT=sortie PROB=pr edictions5 XBETA=mod elis es6 ; 7 test1 : TEST INTERCEPT + .5*X2 = 0 ; test2 : TEST X1=X2 ; WEIGHT poids ; RUN ;
1 2

3 4 5 6 7

Nom de la table a utiliser. BY sexe : lance la proc sur les sous populations d enies par les valeurs de la variable sexe. Il faut avoir ordonner la table avant, avec : PROC SORT DATA=donn ees ; BY sexe ; run ; LINK= LOGIT (par d efaut) ou PROBIT : linverse de F (1 ou 1 ). ALPHA= 0.05 (par d efaut) ou 0.1 ou 0.01 : cest le niveau de conance des IC. i . Pour sauver dans une table sortie les donn ees et les r esultats, par exemple les valeurs de Y Calcule et sauve les valeurs de X . Sous SAS, le vecteur des param` etres est not e , do` u le nom. INTERCEPT est la constante.

III.2

Sortie

On veut expliquer le ronement par lage, le sexe et la consommation r eguli` ere dalcool. On tape donc : Proc LOGISTIC DATA=donnees ; MODEL rone=age sexe alcool/ LINK=PROBIT ; RUN ; On obtient :
Le Syst` eme SAS 10:54 Wednesday, January 17, 2007 The LOGISTIC Procedure Informations sur le mod` ele Data Set Response Variable Number of Response Levels Model Optimization Technique WORK.DONNEES RONFLE 2 binary probit Fishers scoring 100 100 31

RONFLE

Number of Observations Read Number of Observations Used

Valeur ordonn ee 1 2

Profil de r eponse Fr equence RONFLE totale 0 65 1 35

Probability modeled is RONFLE=0. Etat de convergence du mod` ele Convergence criterion (GCONV=1E-8) satisfied. Statistiques dajustement du mod` ele Coordonn ee a ` lorigine uniquement 131.489 134.094 129.489

Crit` ere AIC SC -2 Log L

Coordonn ee a ` lorigine et covariables 122.209 132.629 114.209

Test de lhypoth` ese nulle globale : BETA=0 Test Khi 2 DF Pr > Khi 2 Likelihood Ratio 15.2806 3 0.0016 Score 13.7844 3 0.0032 Wald 13.6723 3 0.0034 Analyse des estimations de la vraisemblance maximum Erreur Khi 2 Param` etre DF Estimation std de Wald Pr > Khi 2 Intercept 1 2.7487 0.8057 11.6373 0.0006 AGE 1 -0.0385 0.0132 8.4432 0.0037 SEXE 1 0.1824 0.3740 0.2377 0.6258 ALCOOL 1 -0.1118 0.0468 5.7027 0.0169 Association des probabilit es pr edites Percent Concordant 72.2 Percent Discordant 27.7 Percent Tied 0.1 Pairs 2275 et des r eponses observ ees Somers D 0.445 Gamma 0.446 Tau-a 0.205 c 0.723

SAS commence par donner quelques informations descriptives sur les donn ees et le mod` ele. On explique cidessous les principaux r esultats.

Statistiques dajustement du mod` ele


Permet de comparer plusieurs mod` eles pour les m emes donn ees. Le meilleur mod` ele est celui pour lequel les crit` eres sont les plus petits. La premi` ere colonne donne les valeurs obtenues avec 0 uniquement, la seconde avec le mod` ele complet. On esp` ere donc que les valeurs diminuent. AIC Akaike Information Criterion : p enalisation de la log vraisemblance prenant en compte le nombre de variables explicatives. SC Schwarz Criterion : p enalisation de la log vraisemblance prenant en compte le nombre de variables explicatives et le nombre de donn ees. 2 log L 2 log du maximum de la vraisemblance.

Test de lhypoth` ese nulle globale : = 0


Propose 3 tests pour la nullit e de tous les coecients. La premi` ere colonne la valeur de la statistique de test (asymptotiquement 2 ), la deuxi` e me colonne rappelle p et la troisi` eme donne la p-value, cest-` a-dire p le quantile du 2 correspondant (on accepte la nullit e si la p-value est grande). Likelihood Ratio Le test bas e sur le rapport de vraisemblance. Score Le test bas e sur le score. Wald Le test de Wald.

Analyse des estimations de la vraisemblance maximum


j et des indications de leur signicativit Donne les valeurs estim ees pour les e. La premi` ere ligne donne la constante 0 . Les autres lignes donnent les coecients de variables explicatives. DF Rappelle la dimension du param` etre. Estimation j . Donne Erreur std Donne lestimation de l ecart-type : )jj . I (

Khi 2 de Wald Donne la valeur du test de Wald pour la nullit e du coecient j . Pr > Khi 2 Donne la p-value de ce test.

Association des probabilit es pr edites et des r eponses observ ees


i . Une paire est form Donne des statistiques sur la justesse des pr edictions Y ee par deux individus ayant i sont dans le m une r eponse di erente : Yi1 = Yi2 . Il y a concordance si les Y eme ordre que les Yi . Si les ordres sont di erents, la paire est discordante. Percent Concordant Le pourcentage de paires concordantes. Percent Discordant Le pourcentage de paires discordantes. Percent Tied Le pourcentage de paires ind etermin ees. Pairs Le nombre de paires. Somers D D de Somers : indice de la justesse des pr edictions. Les 3 indices suivants jouent le m eme r ole. cest indices sont compris entre 0 et 1, et lon veut une mesure proche de 1. Gamma de Goodman-Kruskal. 6

Tau-a a de Kendall. c c de Hanley and McNeil 1982.

IV

TP SAS

En tapant harari et reims dans google, vous devriez trouver ma page web vous concernant. Sinon, ladresse est http://www.crest.fr/ckfinder/userfiles/files/Pageperso/hharari/harari_fichiers/reims.htm On va sattaquer au jeu de donn ee t el e-achat. Lobjectif est dexpliquer si la vente est nulle ou non. 1. Mise en jambe (a) Importez les donn ees et faites en une copie de sauvegarde. (b) Faire une analyse descriptive de la table. 2. Analyse statistique globale (a) Chercher le meilleur mod` ele possible pour expliquer le sil y a eu vente ou non. Vous pouvez am eliorer le mod` ele en choisissant au mieux les variables explicatives et la loi des r esidus (gaussienne ou logistique). (b) Conjecturer un lien entre les coecients de ce mod` ele et tester cette conjecture. 3. Analyse statistique di erenci ee (a) Reprendre l etude s epar ement pour les jours de semaine et pour le week-end. (b) Trouve-t-on une di erence avec lanalyse globale ?

Vous aimerez peut-être aussi