INSEE Cours Ecotrie Var Quali

Mthodologie statistique
0001 L'ECONOMETRIE ET l'ETUDE DES COMPORTEMENTS

Prsentation et mise en oeuvre de modles de rgression qualitatifs Les modles univaris rsidus logistiques ou normaux (LOGIT, PROBIT )
Document de travail
Institut National de la Statistique et des Etudes Economiques
INSTITUT NATIONAL DE LA STATISTIQUE ET DES TUDES CONOMIQUES Srie des Documents de Travail de la DIRECTION DES STATISTIQUES DEMOGRAPHIQUES ET SOCIALES Unit Mthodes Statistiques Srie des Documents de Travail Mthodologie Statistique
0001 L'ECONOMETRIE ET l'ETUDE DES COMPORTEMENTS Prsentation et mise en oeuvre de modles de rgression qualitatifs Les modles univaris rsidus logistiques ou normaux (LOGIT, PROBIT)
Janvier 2000
Cette note est le fruit d'un travail collectif auquel ont particip G. GRIMLER, D. LE BLANC, S. LOLLIVIER, M. MARPSAT, H. ROUSSE, A. TROGNON, D. VERGER. Ce travail a bnfici des remarques de A. JACQUOT et L. TOULEMON. Les rdacteurs en sont D. LE BLANC, S. LOLLIVIER, M. MARPSAT et D. VERGER. Leur adresser vos remarques, suggestions, corrections, critiques, afin d'amliorer cette version.
Ces documents de travail ne refltent pas la position de l'INSEE et n'engagent que leurs auteurs. Working papers do not reflect the position of INSEE but only their authors views.
LCONOMTRIE ET LTUDE DES COMPORTEMENTS Prsentation et mise en uvre de modles de rgression qualitatifs Les modles univaris rsidus logistiques ou normaux (LOGIT, PROBIT) D. LEBLANC INSEE - Direction des Statistiques Dmographiques et Sociales Dpartement des prix la consommation, des ressources et des conditions de vie des mnages S. LOLLIVIER GENES - ENSAE M. MARPSAT INED D. VERGER INSEE - Direction des Statisiques Dmographiques et Sociales Unit de Mthodologie Statistique
RSUM : Ce document prsente certaines mthodes conomtriques de rgression sur variables qualitatives. Il est essentiellement consacr ltude des modles variable dpendante dichotomique (logit ou probit selon les hypothses sur les rsidus). Le cas des modles polytomiques ordonns est aussi abord, mais plus sommairement. Dans un premier temps, nous prcisons les particularits des modles rponses qualitatives par rapport aux modles traditionnels danalyse de variance. Nous montrons ensuite que, bien que relevant dune mme logique, la modlisation est plus complexe puisquelle fait intervenir une variable latente. Cest sur cette dernire quest postul le modle linaire habituel. Nous expliquons enfin les mthodes de rsolution de ces modles, ainsi que les tests pouvant tre mis en uvre. Dans un second temps, nous expliquons comment ces modles peuvent tre estims par le logiciel SAS. Sont fournis en particulier quelques suggestions sur le choix des variables explicatives, certaines mises en garde sur les difficults lies linterprtation, et des conseils sur la lecture des rsultats. Le texte se termine par lexpos de quelques problmes conomtriques frquemment ignors. MOTS CLS : Variables qualitatives ; modles Logit et Probit ; conomtrie sur variables latentes.
Modles Logit et Probit
L'ECONOMETRIE ET L'ETUDE DES COMPORTEMENTS Prsentation et mise en oeuvre de modles de rgression qualitatifs Les modles rsidus logistiques ou normaux (dits LOGIT, PROBIT)
SOMMAIRE
Les variables qualitatives .................................................................................................... 9 1. Les variables dichotomiques ............................................................................................. 9 2. Les variables polytomiques ............................................................................................... 9 a . Les variables polytomiques ordonnes .................................................................. 9 b. Les variables non ordonnes .................................................................................. 9
II III IV V
Pourquoi des modles particuliers ?................................................................................... 10 Niveau d'utilit, variables latentes ....................................................................................... 11 Le (s) modle (s) thorique (s) ............................................................................................. .12 Les modles PROBIT et LOGIT............................................................................................ 13 1. Le modle PROBIT ........................................................................................................... 13 2. Le modle LOGIT .............................................................................................................. 13 3. Comparaison des deux modles....................................................................................... 13
VI
L'estimation : formules, prcisions techniques ............................................................... 15 1. Le principe de la mthode ................................................................................................. 15 2. L'algorithme utilis ............................................................................................................. 15 3. Quelques proprits asymptotiques de l'estimateur du maximum de vraisemblance ...... 17
VII
Les tests ............................................................................................................................... 19 1. Test de la nullit d'un coefficient ....................................................................................... 19 2. Test d'une liaison de la forme :
I
k =1
k = C ................................................................... 19
3. Test de la nullit d'une ensemble de coefficients .............................................................. 20 - test de Wald .............................................................................................................. 20 - test du rapport de vraisemblance.............................................................................. 21 4. Cas plus gnral : test d'une hypothse linaire de la forme Q ' = C ............................ 22 5. Test de la validit gnrale du modle.............................................................................. 22 VIII Mise en oeuvre de la procdure LOGISTIC de la version 6 de SAS ................................ 29 1. Quelques remarques et mises en garde pralables.......................................................... 29 2. Quelques rappels de syntaxe ............................................................................................ 32 3. Quelques prcisions sur les procdures de slection pas pas des variables ................ 33 4. Un exemple de sortie interprte ...................................................................................... 38 5. Le fichier en sortie ............................................................................................................. 42 6. Modle LOGIT, modle PROBIT....................................................................................... 43 IX Mise en oeuvre du modle LOGIT ...................................................................................... 47 1. La spcification du modle ................................................................................................ 47 a. retenir ou non une dimension explicative ................................................................ 47 b. reprsentation d'une dimension explicative retenue ............................................... 48 - quelles variables pour une dimension ? ......................................................... 48 - la situation de rfrence : quoi sert-elle ? Comment la choisir ?................. 51 c. introduction simultane de plusieurs dimensions explicatives : problmes spcifiques viter ................................................................................................ 52 - les problmes de colinarit ........................................................................... 52 - les dfauts d'additivit..................................................................................... 57 d. les variables omises ................................................................................................ 58 e. pondrer ou ne pas pondrer : that's the question ! ............................................... 58 f. lendognt............................................................................................................ 64 2. La lecture des rsultats ..................................................................................................... 64 a. significativit des coefficients .................................................................................. 64 b. l'interprtation des coefficients en termes de probabilit ........................................ 65 c. significativit globale d'une dimension explicative................................................... 70 d. peut-on classer les diverses dimensions explicatives par ordre d'importance (puissance explicative) ? .......................................................................................... 71 e. les coefficients gaux ................................................................................... 72 f. derniers problmes .................................................................................................. 73 3. La publication des rsultats ............................................................................................... 73
Quelques problmes conomtriques souvent ignors .................................................. 83 1. L'htroscdasticit ........................................................................................................... 83 2. L'asymtrie de la distribution des perturbations ................................................................ 83 3. Test de mauvaise spcification ......................................................................................... 84
XI
Extension au cas d'une variable dpendante polytomique ordonne ............................ 86
Conclusion .................................................................................................................................... 88 Bibliographie.................................................................................................................................. 89
Prambule
Une analyse des comportements court le risque de rester incomplte si on se limite l'observation de tableaux croiss ventilant une pratique selon un ou plusieurs critres. En effet, divers effets de structure peuvent conduire des interprtations errones ; il est alors ncessaire d'isoler les effets propres de telle ou telle variable. Pour ce faire, les tabulations croises son en gnral insuffisantes : mme pour des enqutes dont l'chantillon est grand, on se heurte trs vite aux problmes que pose le grand nombre de cases qui ne regroupent qu'un effectif trs faible de mnages. Pour aller plus loin, et tenter d'isoler l'effet spcifique d'un facteur toutes choses gales par ailleurs , il faut faire des hypothses et postuler des rgularits statistiques. Quand le phnomne tudi est continu (exemple : le revenu ou son logarithme, la consommation ou son logarithme), la mthode approprie est l'analyse de la variance. Cette mthode est une extension naturelle du modle de rgression par les moindres carrs ordinaires, ou MCO. Toutefois, dans une tude sur le comportement des mnages ou des individus, les pratiques tudies sont le plus souvent de nature discrte, qualitative. Le recours une analyse conomtrique d'un type particulier est alors ncessaire pour isoler les effets propres (on parlera aussi de sparation des effets , d effet d'une variable toutes choses gales par ailleurs , ou d' effet d'une variable conditionnellement aux variables introduites dans le modle ). La procdure SAS dcrite dans ce document correspond celle de la version 6.12 sous Windows. Elle est appele voluer dans les versions ultrieures.
I Les variables qualitatives Diffrents types de variables qualitatives se rencontrent frquemment dans nos enqutes auprs des mnages : 1. Les variables dichotomiques Ce sont des variables qui prennent deux valeurs, on dira aussi qui ont deux modalits, souvent notes 0 et 1. Exemples : - la possession d'un bien durable : - la pratique d'une activit : 1 si le mnage possde le bien 0 s'il ne le possde pas 1 si l'individu pratique l'activit 0 s'il ne la pratique pas
2. Les variables polytomiques Ce sont des variables qui prennent plus de deux valeurs ou modalits. On distingue deux sortes de variables polytomiques, qui seront traites diffremment dans les modles : a. les variables polytomiques ordonnes Les diffrentes modalits sont ordonnes dans un ordre naturel , quelles proviennent dun classement selon une intensit (frquence dactivit, nombre de biens durables,..), ou quelles rsultent du dcoupage en tranches dune variable numrique (revenu,...). Exemple : faire du sport 1. Tous les jours 2. Une ou plusieurs fois par semaine 3. Plus rarement
b. les variables non ordonnes Exemple : parmi les distractions possibles le samedi soir, la personne interroge prfre : 1. La tlvision 2. Le thtre 3. Le cinma Dans cette note, on traitera essentiellement des variables deux modalits, que l'on notera 0 et 1. Quelques indications seront donnes sur les autres cas, qui correspondent aux rponses plusieurs modalits.
II Pourquoi des modles particuliers ? On ne peut pas utiliser la mme mthode que dans le cas continu puisqu'en particulier, la variable explique Y ne prenant que deux valeurs, la perturbation u suivrait obligatoirement une loi discrte, ce qui est incompatible avec les hypothses habituelles de continuit et de normalit des rsidus (voir Gouriroux, 1989). En effet, si on crivait :
Yi = X i b + u i
alors on aurait:
pour l'individu i avec la probabilit pi avec la probabilit 1 p i soit une loi discrte pour u i
ui = 1 X i ui = X i
pi = P[Yi = 1]
10
III Niveau d'utilit, variables latentes Les mthodes utilises partent du principe que le phnomne observ est la manifestation visible d'une variable latente Z inobservable qui, elle, est continue. On se ramne alors conceptuellement un modle d'analyse de la variance sur cette variable latente, le problme rsoudre tant celui de l'estimation de ce modle. Exemple de cette variable latente : dans le cas de la possession d'un bien durable, la variable latente peut tre l'intensit du dsir de possder le bien : tant que cette intensit reste infrieure un certain seuil, on observe Yi = 0 (le mnage i ne possde pas le bien), quand elle le dpasse on observe Yi = 1 (le mnage i possde le bien). On peut aussi formuler le problme en terme de fonction d'utilit : pour le mnage i de caractristiques X i (ge, sexe de la personne de rfrence, revenu etc.), la possession du bien procure un niveau d'utilit U (1, X i ) , alors que la non possession procure un niveau U (0, X i ) . On a alors :
Yi = 1 U (1, X i ) > U (0, X i )

et
Yi = 0 U (0, X i ) > U (1, X i )
le mnage choisissant la situation qui lui procure le plus haut niveau d'utilit. On se ramne au cas de la variable latente en posant :
Z i = U (1, X i ) U (0, X i )
On a alors :
Yi = 1 Z i > 0
et
Yi = 0 Z i < 0
Il y a possession du bien lorsque la variable latente Z i dpasse le seuil 0.
11
IV Le (s) modle (s) thorique (s) Notons Y la variable dichotomique expliquer, dite aussi variable dpendante, dont on supposera qu'elle prend les valeurs 0 et 1. On observe les valeurs que prend Y sur un ensemble d'individus (ou de mnages) indics par i, i = 1, ..., I. I est la taille de l'chantillon. Soit Z la variable latente sous-jacente au phnomne. Le modle postule une relation du type :
Z = Xb + u
o X est un ensemble de variables dites exognes ou explicatives, qui peuvent tre : des variables continues: le revenu, l'ge (dont l'effet est alors linaire, voir plus loin dans les spcifications du modle) des variables discrtises : le revenu en tranches, l'ge dcennal (ce qui permet de mettre en vidence des effets non linaires) des variables qualitatives : la CSP, la catgorie de commune Dans le cas de variables discrtises ou qualitatives, il convient de choisir une situation de rfrence (voir ci-aprs). La probabilit que l'individu i soit dans l'tat
Yi = 1 est alors :
= P[ X i > u ] = F(X i )
pi
= P[Yi = 1] = P[Z i > 0]
si on note F la fonction de rpartition de
u , c'est--dire la fonction dfinie par : F ( w) = P[ u < w] .
Le choix du modle porte sur le choix de F . Deux fonctions sont couramment utilises et seront traites ici : F = fonction de rpartition de la loi normale (modle PROBIT) F = fonction de rpartition de la loi logistique (modle LOGIT) Toutefois, d'autres fonctions peuvent tre choisies. Ainsi, la procdure LOGISTIC de SAS, dont on traitera plus loin, permet galement de prendre pour F la fonction de rpartition de la loi de Gompertz.
12
V Les modles PROBIT et LOGIT 1. Le modle PROBIT est celui pour lequel F est la fonction de rpartition de la loi normale centre rduite :
F ( w) = ( w) =
ce qui donne:
1 2
exp(
t2 )dt 2
P[Y = 1] = ( X ) =
1 2
exp(
t2 )dt 2
2. Le modle LOGIT est celui pour lequel F est la fonction de rpartition de la loi logistique:
F ( w) = L( w) =
ce qui donne :
exp( w) 1 = 1 + exp( w) 1 + exp( w)
P[Y = 1] = L( X ) =
3. Comparaison des deux modles
1 1 + exp( X )
L (fonction de rpartition de la loi logistique) et (fonction de rpartition de la loi normale) sont toutes les deux symtriques par rapport au point (0,1/2), et comprises entre 0 et 1 (ce qui convient pour reprsenter une probabilit).
La loi logistique de fonction de rpartition L a pour moyenne 0, pour variance naturel de comparer ( w ) , fonction de rpartition de N ( 0, 1) , la fonction L1 ( w ) o
2 / 3
; il est donc
L1 ( w) =
La figure ci-dessous donne en fonction de
1 1 + exp(w / 3 )
x , la diffrence L1 ( x) ( x) des fonctions de rpartition :
L1
0,025 0,02 0,015 0,01 0,005 0 -0,005 0,00 0,40 0,80 1,20 1,60 2,00 x
(rfrence : Gouriroux [1989]).
13
Ces lois tant proches, dans la plupart des cas pratiques on peut indiffremment choisir l'un ou l'autre modle. Le modle LOGIT a l'avantage d'une plus grande simplicit numrique, le modle PROBIT est en revanche plus proche du modle habituel de rgression par les moindres carrs ordinaires. Attention toutefois lorsque vous voudrez comparer les estimateurs obtenus partir des diffrents modles. La Proc Logistic utilise et L (non pas L1 ) : les estimateurs obtenus avec le modle LOGIT seront donc
/ 3
fois plus grands environ que ceux obtenus par le modle PROBIT.
14
VI L'estimation : formules, prcisions techniques 1. le principe de la mthode La mthode d'estimation adopte est celle du maximum de vraisemblance. L'enqute fournit I observations indpendantes (Yi , X i ) . Les Yi sont des variables de Bernoulli (1, pi ) o : La vraisemblance scrit alors : pour une observation : pour I observations : soit :
pi = P[Yi = 1]
p iYi (1 p i )1Yi = l i ( )
I ( ) = li ( )
i =1
I ( ) = [F ( X i )] [1 F ( X i )]
Yi i =1
1Yi
La log-vraisemblance scrit :
L I ( ) = log( I ( )) = log(l i ( ))
i =1
soit :
l = L I ( ) = Yi log( F ( X i )) + (1 Yi ) log(1 F ( X i ))
i =1 i =1
On en dduit la drive :
I Yi F ( X i ) l f (X i )X i = i =1 F ( X i )(1 F ( X i ))
f est la drive de F , et la matrice des drives secondes, ou Hessien :

I I 2 Yi 1 Yi Yi F ( X i ) 2l ' f ' ( X i ) X i X i' = + + f ( X ) X X 2 i i i ' 2 F ( X )( 1 F ( X )) F ( X ) ( 1 F ( X )) i =1 i =1 i i i i
ainsi que la matrice dinformation de Fisher :
I F ( ) = ( E
2l ) '
La procdure d'estimation consiste rechercher la valeur plus prcisment son logarithme LI ( ) , not l . 2. L'algorithme utilis
de
qui maximise la vraisemblance ou
$ est alors la solution de l'quation : concave.
Dans le cas des modles LOGIT ou PROBIT, on montre aisment que la log-vraisemblance
l est
C'est--dire :
l =0
I Yi F ( X i ) l f ( X i ) X i =0 = i =1 F ( X i )(1 F ( X i ))
15
Cette solution est unique dans les cas usuels de non-dgnrescence. Donc toute procdure itrative convergente (dont l'emploi pour rsoudre l'quation diffrentielle est ncessaire car l'quation est non-
. La procdure employe dans la plupart des cas est base sur l'algorithme de linaire) converge vers Newton-Raphson.
Dans le cas des GLM, on utilise souvent une autre procdure, celle de lalgorithme de Fisher (Fisher scoring). Cet algorithme ressemble celui de Newton-Raphson, la diffrence tant que le Fisher scoring utilise lesprance de la matrice des drives secondes au lieu de la matrice elle-mme. Soit
. Dans la mthode de Newton-Raphson, on a : ( k ) la k-ime approximation pour lEMV
( k +1) = ( k ) ( H ( k ) ) 1 q ( k )
o H est la matrice hessienne ayant pour lments lments
2 L( ) , q est le vecteur des drives ayant pour h i
L ( ) ; H ( k ) et q ( k ) sont values en = ( k ) . j
La formule du Fisher scoring scrit :
( k +1) = ( k ) + ( I F ( ( k ) )) 1 q ( k )
o I F ( ( k ) ) est la k-ime approximation de la matrice dinformation de Fisher estime. Autrement dit,
I F ( ( k ) ) a pour lments ( E
2 L( ) ) , value en = ( k ) . h i
On montre que la mthode du Fisher scoring peut sinterprter comme une succession de moindres carrs, pondrs par des poids qui changent chaque itration. Lestimation de la matrice de variancecovariance est un sous-produit de la mthode. Pour cette raison, lalgorithme employ est appel moindres carrs repondrs itratifs (Iteratively Reweighted Least Squares ou IRLS).
( 0 ) , on corrige l'estimation selon une formule du type : repondrs. A partir d'une valeur initiale (i +1) = ( i ) + c (i )
La procdure employe par la Proc Logistic de SAS utilise cette mthode itrative de moindres carrs
jusqu' obtenir la stabilit, en l'occurrence jusqu'au moment o la valeur absolue de la diffrence entre les valeurs calcules pour le logarithme de la vraisemblance deux tapes successives soit en de d'un seuil fix l'avance. Pour la Proc Logistic, toutefois, on considre que les itrations ont converg lorsque la diffrence maximale entre les estimateurs des diffrents paramtres est infrieure un seuil, par dfaut 104. Pour plus de dtails sur la mthode IRLS voir SAS/STAT User's guide, vol.2. Pour plus de dtails sur la mthode de Newton-Raphson, voir AGRESTI [1990] ou GOURIEROUX [1989].
3. Quelques proprits asymptotiques de l'estimateur du maximum de vraisemblance Sous des hypothses trs gnrales, l'estimateur du maximum de vraisemblance a de bonnes proprits. Il est asymptotiquement (i.e. lorsque I est grand) normal :
1 asymp. ) I ( N (0, I F ( ))
o I F ( ) dsigne la matrice dinformation de Fisher. La matrice de variance-covariance asymptotique de lestimateur du maximum de vraisemblance scrit donc : Modles Logit et Probit 16
= ( E V
Or , conditionnellement aux
2 l 1 ) '
X i , on a :
E(
I f 2 (Xi ) 2l / ) = X X i X i' i ' i =1 F ( X i )(1 F ( X i ))
vaut donc : La matrice de variance-covariance asymptotique (conditionnelle) de

I f 2 (X i ) = V X i X i' i =1 F ( X i )(1 F ( X i )) 1
On en obtient un estimateur en calculant la valeur prcdente au point Cas particulier du modle LOGIT Dans ce cas, on a :
$.
F ( w) =
1 1 + exp( w)
f ( w) = F ' ( w) =
exp( w) 1 exp( w) = 2 1 + exp( w) 1 + exp( w) (1 + exp( w)) f ( w) = F ( w)(1 F ( w))
avec :
pi = P[Yi = 1] =
I
1 1 + exp( X i )
I
l = log( I ( )) = (1 Yi )( X i ) log(1 + exp( X i ))

i =1 i =1
I I Yi F ( X i ) l = f ( X i ) X i = (Yi F ( X i )) X i i =1 F ( X i )(1 F ( X i )) i =1
et donc la drive seconde de la log-vraisemblance se simplifie en :

I I I 2l ' ' = f ( X ) X X = F ( X )( 1 F ( X )) X X = pi (1 pi )) X i X i' i i i i i i i ' i =1 i =1 i =1
Il en rsulte que le Hessien ne dpend pas des observations de Yi . Il est alors gal son esprance conditionnelle aux X i . De ce fait, le Fisher scoring et la mthode de Newton-Raphson sont quivalents. En
peut scrire: particulier, lestimateur de la matrice de variance-covariance de

I = X 'X p i ) V i i i (1 p i =1 1
o : Modles Logit et Probit 17
i = p
1 ) 1 + exp( X i
reprsente lestimation de la probabilit de choix (par exemple de choisir de possder un bien) pour l'individu i de caractristiques individuelles X i . Cas particulier du modle PROBIT
f est la densit de la loi normale centre rduite et F son intgrale.
18
VII Les tests 1. Test de la nullit d'un coefficient On veut tester la nullit du coefficient
. j
j , c'est dire de la jme composante du vecteur de paramtres

variable explicative (jme colonne de la matrice X).
est le coefficient correspondant la j
me
On considre la statistique de Student :
j V j
est la jme composante de l'estimateur j est le j V j

me
coefficient de la diagonale de la matrice de
variance-covariance estime de
en est l'cart-type estim (standard deviation) V j
On compare habituellement cette statistique au seuil de significativit 5% d'une loi normale (environ 2). Dans la procdure Logistic de SAS, la significativit de chaque coefficient statistique de Wald :
$ j
est teste partir de la
W=
soit le carr de la statistique de Student.
2 j V
Cette statistique suit asymptotiquement une loi du
$ j
%.
2 1 degr de libert. l'hypothse de la nullit de
est rejete lorsque la statistique de Wald dpasse un certain seuil, environ 4 pour une significativit 5
2. Test d'une liaison de la forme

k k =1
=C
$ la matrice de variance-covariance estime de l'estimateur $ Si on note V (1 ,..., I ) , on a le rsultat asymptotique suivant :

C Q' asymp. N (0,1) Q' (V )Q
si l'hypothse Q' = C est vraie
et
Q' le vecteur ligne
Si l'hypothse alternative du test est Q' C , l'hypothse nulle est rejete si la valeur absolue de la statistique prcdente dpasse un certain seuil de significativit. Le cas 1 est bien sr un cas particulier de 2, lorsque seul Modles Logit et Probit 19
est non nul et
C = 0.
3. Test de la nullit d'un ensemble de coefficients On peut souhaiter tester la nullit d'un ensemble de q coefficients (par exemple tous ceux concernant les diffrentes variables introduites pour reprsenter une dimension explicative (cf infra) telle que la CSP, ou bien le revenu en tranches, ou bien l'ge quinquennal etc.). On peut souhaiter tester galement la nullit de l'ensemble des coefficients.
Q' = 0 , o Q' est une matrice diagonale o seuls les coefficients correspondant aux j dont on veut tester
la nullit sont gaux 1, les autres tants nuls. Par exemple, dans le cas o:
L'hypothse de la nullit d'un ensemble de q coefficients s'crit sous la forme
1 = 2 3
et o on veut tester 1 = 0 et 2 = 0 , on aura:
1 0 0 Q = 0 1 0 0 0 0
On dispose de plusieurs tests, par exemple : - le test de Wald - le test du rapport de vraisemblance * Test de Wald
$ )' Q' (V $ )Q $ W = (Q'
. $ ) asymp (Q' 2 q
W tend asymptotiquement vers un 2 q degrs de libert. Rappelons que dans le cas d'une
variable catgorielle p modalits, comme les CSP, l'une des modalits est prise comme niveau de rfrence et son coefficient est donc nul. La statistique de Wald sur les coefficients des modalits qui restent sera donc convergente asymptotiquement vers un Ici encore, l'hypothse nulle dpassera un seuil critique.
p-1 degrs de libert.
Q' = 0 sera rejete lorsque la valeur de la statistique de Wald
20
* Test du rapport de vraisemblance Si l dsigne la log-vraisemblance,
l'estimateur du maximum de vraisemblance,
maximum de vraisemblance sous la contrainte
Q' = 0 on a :
$ 0
l'estimateur du
2 asymp . ) l( )) LRT = 2(l ( q 0
Ici aussi, l'hypothse de nullit simultane des coefficients considrs doit tre rejete si la valeur de la statistique dpasse un seuil critique. Application : choix entre 2 modles dont l'un est une version rduite de l'autre. Modle 1 : les variables explicatives sont X 1 ,..., X p Modle 2 : X 1 ,..., X p , X p +1 ,..., X p + k Prfrer 1 2, c'est accepter l'hypothse que, dans le second modle, les k coefficients sont nuls. Cette hypothse s'crit sous la forme On choisira le modle 2 si :
Q' = 0 comme on l'a dj vu.
p +1 ,..., p+ k
) l( )) LRT = 2(l ( 0
est suprieur la valeur critique au seuil de a % du
k degrs de libert.
* Attention : ce type de choix entre 2 modles dont l'un est une version rduite de l'autre se prsente en particulier dans le cas d'estimations BACKWARD (on retire des variables au modle selon certains critres de choix), FORWARD (on en ajoute), ou STEPWISE (alternativement, on retire et on ajoute des variables au modle). Toutefois, la Proc Logistic de SAS choisit entre les modles en utilisant la statistique du score pour la procdure FORWARD et la statistique de Wald pour la procdure BACKWARD.. La statistique du score est une forme quadratique construite partir du vecteur des drives partielles de la log-vraisemblance par rapport au vecteur de paramtres , et value en 0 (c'est dire sous l'hypothse nulle). On a alors :
S =(
l l ( 0 ))' I F ( 0 ) 1 ( ) 0
(o I F ( ) est la matrice d'information de Fischer), qui suit asymptotiquement une loi du libert.
k degrs de
On choisira alors le modle 2 (c'est dire celui qui comporte le plus de variables explicatives) lorsque S sera suprieur la valeur critique au seuil de a % du
2
k degrs de libert. SAS dite la p-value de
la statistique S dite aussi statistique du rsiduel , c'est dire la probabilit que sous l'hypothse nulle (modle 1) la statistique S dpasse la valeur observe. Cette p-value doit tre faible pour choisir le modle 2. 4. Cas plus gnral : test d'une hypothse linaire de la forme Q' = C
21
o : Q' est une matrice de coefficients constants connus de dimension q x K (K nombre de variables dans le modle estim, y compris la constante), et C est un vecteur de constantes connues, dtermines par l'utilisateur. Les q lignes de Q sont linairement indpendantes. On voit que les cas traits prcdemment sont tous des cas particuliers de celui-ci. On peut ici encore utiliser le test de Wald :
$ )Q $ C )' Q' (V $ W = (Q'

ou celui du rapport de vraisemblance :
. 2 $ C ) asymp (Q' q
. 2 $ ) l ( $ )) asymp LRT = 2(l ( q 0
$ est l'estimateur obtenu en maximisant la vraisemblance sous la contrainte o 0
Q' = C
Comme prcdemment, l'hypothse Q' = C doit tre rejete si la valeur de la statistique dpasse un certain seuil. 5. Tests de la validit gnrale du modle Existe-t-il des statistiques permettant de juger de la bonne adquation du modle, en jouant un rle analogue celui du R classique ? Les auteurs en ont propos plusieurs, souvent critiquables un titre ou un autre. Il est en particulier difficile d'apporter les corrections adquates pour comparer des modles ayant des nombres de degrs de libert diffrents. Voici celles fournies par la Proc Logistic : Le rapport de vraisemblance (l'hypothse nulle tant celle o le modle contient la seule constante) ; la statistique du score (ou du le critre d'Akaike
2
rsiduel) dj dfinie plus haut ;
AIC = 2 log L + 2 K
o K est le nombre de paramtres estimer ; le critre de Schwartz
SC = 2 log L + K log I
o I est le nombre total d'observations. Les critres de Schwartz et d'Akaike sont utiles pour comparer des modles diffrents portant sur les mmes donnes. On prfrera le modle pour lequel ces statistiques ont la valeur la plus faible. D'autres approches permettent d'valuer la capacit prdictive du modle : Les prdictions et observations concordantes On considre toutes les paires d'observations ayant des valeurs observes de Y diffrentes, soient 1 et 0. Parmi ces paires, on compte celles pour lesquelles l'observation o Y = 1 a une probabilit estime que Y = 1 plus grande que l'observation o Y = 0 . On dit alors que la paire est concordante. Elle est discordante Modles Logit et Probit 22
nombre de paires concordantes, nd le nombre des paires discordantes, t nc lies , SAS calcule quatre indices de corrlation du rang (rank correlation) : C Somer's D Kendall's Tau - a = (nc + 0,5(t nc n d )) / t = (nc nd ) / t = (nc nd ) /(0,5 I ( I 1))
lorsque la probabilit que Y = 1 est plus faible pour l'observation o Y = 1 que pour celle o Y = 0 . Les paires qui ne sont ni concordantes ni discordantes sont dites lies (tied) ou ex-aequo . Si I est le nombre total d'observations, t le nombre de paires ayant des valeurs observes de Y diffrentes, nc le
nd le nombre de paires
Goodman - Kruskal Gamma = (nc n d ) /( nc + n d )
dcroissants lorsque nd crot et varient entre les bornes suivantes : C: entre 0 et 1 Somer's D : entre - 1 et + 1 Gamma : entre - 1 et + 1 Kendall's Tau-a : entre - 1 et + 1
Ces quatre indices sont en quelque sorte des mesures d'association entre la probabilit prdite et la valeur de la variable explicative. Cette association est d'autant plus forte (et on est d'autant plus satisfait) que les indices sont levs, c'est--dire proches de 1. En effet tous ces indices sont croissants lorsque nc crot,
Y = 0 et pour l'autre Y = 1 sont concordantes (c'est--dire que la probabilit estime que Y = 1 est plus forte pour l'observation telle que Y = 1 ) : la prvision correspond au mieux la ralit.
les tables de classification (voir l'option Ctable Pprob= dans l'instruction Model) Lide de base de ces tables est de prdire
Le cas extrme o l'indice prend la valeur + 1 est celui o la totalit des paires ayant pour un lment
$ de la faon suivante : Yi par Y i
=1 Y i Yi = 0
si la probabilit estime de valoir 1 dpasse un certain seuil sinon.
SAS fait varier le seuil de 0 1 et donne, pour chaque valeur, quatre ratios dfinis comme suit : La sensibilit (sensitivity) est la proportion de vraies valeurs 1 qui sont prdites valoir 1. La spcificit (specificity) rpond la dfinition analogue pour les valeurs 0. Le taux d'erreur par excs (false positive rate) est la proportion de prdictions 1 qui valent en ralit 0. Le taux d'erreur par dfaut (false negative rate) la proportion de prdictions 0 qui valent en ralit 1. Lorsque le seuil est trs bas, la prdiction vaut toujours 1. Le modle ne se trompe jamais pour prdire lvnement, mais il se trompe toujours pour prdire le non vnement. La sensibilit est de 100, et la spcificit de 0. Le taux derreur par excs correspond la frquence des observations pour lesquelles Y = 0 . A loppos, lorsque le seuil est trop lev, la prdiction est toujours de 0. La sensibilit est nulle, et la spcificit de 100. Le taux derreur par dfaut correspond alors la frquence des observations pour lesquelles Y = 1 . Les seuils compris entre ces deux extrmes balaient la plage des situations intermdiaires. Il faut se garder dutiliser cette table de classification pour juger de la capacit prdictive du modle. En effet, si le modle est vrai dans la population, quel que soit le seuil choisi, il y aura toujours des observations pour lesquelles F ( X i ) > et Yi = 0 . Autrement dit, le critre implicite de bon modle qui est derrire les tables de classifications, savoir si le modle tait parfait, tout serait prdit parfaitement nest quune illusion. Exemple : supposons la population compose de deux groupes de 1000 individus ayant les mmes
X i mais pas ncessairement les mmes ui , de sorte que certains recourent la pratique et dautres non. La population est telle que F ( X i ) = 0.8 pour les individus du premier groupe, et F ( X i ) = 0.2 pour les
individus du deuxime groupe. Ce que le modle dit, cest quenviron 800 personnes du premier groupe et Modles Logit et Probit 23
) , qui a la mme valeur pour tous les individus du mme groupe. Quelque soit le seuil, la calculer F ( X i procdure affecte donc la mme valeur tous des individus de chaque groupe. Ceci nest pas cohrent avec lhypothse alatoire justifiant le modle.
Pour formaliser ceci, notons que si le modle est vrai, le nombre dobservations valant 1 dans lchantillon est, sous ce modle:
environ 200 personnes du deuxime groupe auront Y = 1 . Or, la construction de la CTABLE conduit
C = {Yi = 1} .
i =1
Cest une variable alatoire dont on observe la ralisation. Son esprance et sa variance sont :
E (C ) = F ( X i ) ,
i =1
V (C ) = pi (1 pi ) .
i =1
Un estimateur raisonnable de C serait :
$). $= C F( Xi
i =1
Or, les quantits dcrites dans les tables de classificiation proviennent destimateurs asymptotiquement du type C =
{F ( X
I i =1
~ I $ . Plus ) > . Dans le cas o = 1 / 2 , C > 0 , qui diffre de C = Xi

i =1
gnralement, et quelque soit , ce type de validation de modle ne sapplique gure aux problmes de nature statistique. Il est davantage destin aux applications mdicales, qui cherchent contrler le niveau ou la puissance des tests. Les ODD RATIOS Lors de lestimation des modles Logit (et deux seulement), la Proc Logistic fournit ct de chaque coefficient une statistique dODD RATIO, qui prsente certaines proprits. Celles-ci proviennent de la gnralisation de pratiques lorigine destines lanalyse de tableaux croiss. Analyse de tableaux croiss Admettons que lon souhaite rpondre la question : les femmes font-elles plus de sport que les hommes ? Comment dcrire lcart entre les deux pratiques ? On dispose de deux variables : - une variable explique Y valant 1 pour les individus faisant du sport, 0 pour les autres. - une variable explicative X, valant 0 pour les hommes et 1 pour les femmes. On suppose que les femmes sont en proportion 54 % dans la population, que 30 % des hommes et 50 % des femmes font du sport ; la proportion de personnes faisant du sport dans la population est donc de 40,8%. Pour comparer les hommes et les femmes, on dfinit : a) le risque relatif :
r= Probabilit de faire du sport quand on est un homme 30 = = 0,6 probabilit de faire du sport quand on est une femme 50
b) la diffrence des taux de pratique au sein des deux sous-populations : d=50 %-30 %=20 points en faveur des femmes. c) les chances (ODDS) pour chaque sexe.
24
Probabilit de faire du sport p = probabilit de ne pas faire de sport 1 p
Pour se reprsenter la signification des chances on peut imaginer que lon prend un pari sur le fait de faire du sport ou pas. Si lvnement ne pas faire de sport est par hypothse la cote 1, alors faire du sport est la cote ODDS On peut calculer autant de ODDS que de modalits de la variable explicative. Pour les hommes Pour les femmes
n 11 30 = = 0.43 n 12 70 n 50 F = 21 = =1 n 22 50 H =
Le logarithme de la ime chance est appel le ime logit (i=H ou F ici). d) Enfin, on dfinit le rapport des chances (ODDS RATIO)
OR H/F =
H n11n22 = F n21n12
Ici
OR H/F =
0.43 = 0.43 1
Si on prend comme catgorie de rfrence les hommes au lieu des femmes, le ODDS RATIO est transform en son inverse.
OR H/F =
1 ORF / H
et donc
log(OR H / F ) = -log(OR F/ H )
Le ODDS RATIO a comme proprit dtre inchang si lon multiplie tous les effectifs dune ligne ou dune colonne par une constante strictement positive. Sport Pas de sport total hommes n11 n12 n1+ xC femmes n21 n22 n2+ xD total n+1 n+2 n xA xB Le nouveau ODDS RATIO vaut alors :
OR H/F =
H ACn11 BDn22 n11n22 = = F ADn21 BCn12 n21n12
En outre, le ODDS RATIO ne dpend pas des marges : il est robuste par rapport la reprsentativit de lchantillon. Supposons que pour connatre ces chiffres, on dcide de raliser une enqute. Pour la commodit du raisonnement, on suppose que lon peut identifier exactement les sportifs et les non sportifs (par exemple, on dcide quest sportif celui qui possde une licence dans un sport, ce qui permet davoir une base de sondage). On suppose galement que les enqutes donnent toutes les proportions exactes. Premire enqute On tire 5000 personnes dans la population, et on les classe suivant le sexe et la pratique du sport (chantillonnage binomial) Sport 690 (n11) 1350 (n21) 2040 (n+1) Pas de sport 1610(n12) 1350 (n22) 2960 (n+2) total 2300 (n1+) 2700 (n2+) 5000 (n, fix)
hommes femmes total
25
A partir de cette enqute, on peut estimer toutes les proportions dsires. Par exemple en ligne hommes femmes total Sport 30 % 50 % 40,8 % Pas de sport 70 % 50 % 59,2 % total 100 % 100 % 100 %
On vrifie que tous les indicateurs de disparit entre hommes et femmes que nous avons considrs sont gaux leur vraie valeur dans la population. Supposons par exemple que notre enqute soit maintenant mene de la manire suivante : Deuxime enqute : On enqute 1000 sportifs et 1000 non sportifs (on conditionne lchantillonnage sur la variable explique). Le tableau croisant le sexe et la pratique du sport devient : Sport hommes femmes 338 662 1000=n+1 fix Pas de sport 544 456 1000=n+2 fix total 882 1118 2000
A partir de cette enqute, on ne peut pas estimer correctement la part des hommes ou des femmes qui font du sport. On obtiendrait : 338 / 882=38,3 % pour les hommes 662 / 1118=59,2 % pour les femmes. On ne peut plus estimer correctement le risque relatif :
r=
n11n2+ 3381118 . = = 0,65 n1+ n21 882.662
ni la diffrence des taux de pratique au sein des deux sous-populations = 20,9 points ni les ODDS pour les hommes et les femmes
H =
n11 338 = = 0 ,62 n12 544
En revanche, on peut toujours estimer correctement le ODDS RATIO (OR). Celui-ci est gal :
OR H/F =
H n11n22 338.456 = = = 0,43 F n21n12 544.662
Le ODDS RATIO est donc adapt diffrents modes dchantillonnage : - lchantillonnage binomial (celui des enqutes mnages lINSEE, en gnral) - celui o on tire indpendamment dans les catgories de la variable explicative (appel tirage binomial indpendant ) - celui o on tire indpendamment dans les catgories de la variable explique (appel tude rtrospective , terme provenant du vocabulaire mdical, car les tudes de maladies adoptent souvent ce mode dchantillonnage). Gnralisation plusieurs variables Sil y a plusieurs variables explicatives (sexe, tranche dge, CSP), on peut encore dfinir les ODDS RATIO, par rapport une situation de rfrence (une case du tableau crois de toutes les variables explicatives). Par exemple : tre un homme, de plus de 40 ans, employ. La chance (ODDS) dans la catgorie de rfrence est alors :
26
R =
nombre de personnes qui font du sport dans cette cat gorie nombre de personnes qui ne font pas de sport dans cette catgorie
Si maintenant on sintresse une catgorie i de la population (par exemple, Femme, de 30 40 ans, cadre), on peut dfinir la chance (ODDS) dans cette catgorie :
i = nombre de personnes qui font du sport dans cette cat gorie nombre de personnes qui ne font pas de sport dans cette catgorie
i , ou, par dfinition du logit (dfini, R rappelons-le, comme le logarithme de la chance): log(OR i/R ) = logit(p i ) logit(p R ) . Selon les valeurs des probabilits de faire du sport dans chaque case du tableau crois des variables explicatives, log(OR i/R ) peut
L ODDS RATIO pour cette catgorie est dfini par OR i/R = varier de moins linfini plus linfini. On peut songer le modliser comme une fonction linaire des diffrentes variables explicatives:
log(OR i/R ) = 1 .(appartenance la tranche d' age i) + 2 .( appartenance la CSP j) + 3 .(appartenance au sexe masculin ou f minin )
Sous cette forme, les coefficients ne dpendent pas du mode dchantillonnage, parmi les trois modes envisags, car lODDS RATIO est le mme dans les trois cas.
logit(p i ) = logit(p R ) + i X i
i =1
Le modle scrit de manire quivalente
p log( i ) = + i X i 1 pi i =1 ODDS RATIO = exp ( i X i )

i =1 p
(1)
Cest le principe du modle LOGIT. La troisime formule est celle que lon retrouve en sortie de la Proc Logistic lorsque seul un Xi est non nul. A partir de la formule (1), seule la constante (qui reprsente le logit de la catgorie de rfrence) est affecte par le mode dchantillonnage. (Pour un expos thorique complet et intuitif sur lanalyse des tableaux croiss et les modlisations possibles, voir Agresti [1990]).
27
VIII Mise en oeuvre de la procdure LOGISTIC de SAS 1. Quelques remarques et mises en garde pralables La procdure Logistic , dcrite dans ce manuel, ajuste des modles rsidus logistiques (LOGIT) ou normaux (PROBIT) ou encore correspondant la loi de Gompertz (voir plus haut). Dans la procdure, la variable dpendante doit tre soit dichotomique (ce qui est le cas trait dans cette note), soit polytomique ordonne. La procdure Probit a sensiblement les mmes proprits que la procdure Logistic. Ses fonctionnalits, assez rduites dans les premires versions de SAS, sont aujourdhui analogues. La procdure Probit prsente cependant lavantage, grce lune de ses options, de pouvoir prendre en compte des comportements pour lesquels le taux de saturation dans la population sont infrieurs 100 % (pour en savoir plus, se rfrer la brochure SAS). Les syntaxes tant lgrement diffrentes, le choix entre la Proc Logistic et la Proc Probit est dabord affaire dhabitude. La procdure Catmod traite elle aussi les modles dichotomiques et polytomiques ordonns. Mais elle est avant tout destine estimer les modles polytomiques non ordonns, ou les modles de transition markoviens en temps discret. De ce fait, elle est plus complexe et les procdures Logistic ou Probit sont vivement conseilles pour les modles dichotomiques et polytomiques ordonns. La procdure Logistic traite les variables explicatives comme si elles taient continues. Il convient donc de dichotomiser les variables explicatives qualitatives, telles que CSP, sexe, mais aussi tranches de revenu ou d'ge. La procdure Probit dispense dune telle opration, car elle comporte une option Class comme la Proc GLM. Mais lusage dune telle option interdit de rcuprer dans un data spar les estimateurs correspondant aux variables explicatives. En outre, les choix par dfaut de loption Class (modalit de rfrence pouvant tre vide ou presque,...) sont parfois gnants, et obligent recourir des recodifications parfois plus lourdes que la fabrication des variables muettes. Il est maintenant utile de formuler quelques remarques gnrales concernant la dichotomisation des variables explicatives qualitatives. La variable explicative X est dj deux modalits, 0 et 1 : on ne change rien. On fera figurer X dans la liste des variables explicatives et la procdure considrera que 0 est la modalit de rfrence. La variable explicative X est deux modalits quelconques (par exemple : 8 et 9). si on choisit 8 pour modalit de rfrence, on fera figurer dans la liste des variables explicatives X1 dfini au pralable par : X1 = (X = 9) ; La variable explicative X a n modalits prenant les valeurs 1, ..., n. On utilisera l'instruction Array. Exemple : la catgorie socio-professionnelle est la variable PPCS qui vaut de 1 8. On crira : Array P (J) PPCS1 - PPCS8; Do J = 1 TO 8; P = (PPCS = J); End;
28
La variable explicative X a n + 1 modalits prenant les valeurs 0, 1, ..., n. Premire solution : on recodifie au pralable par X=X+1 et on se ramne au cas prcdent. Deuxime solution : prenons l'exemple du diplme de la personne de rfrence, DIPLOPR, qui varie de 0 5. On crira Array D(M) DIPR0-DIPR5 ; Do M = 1 To 6 ; D = (DIPLOPR = M-1); End; On veut la fois dichotomiser et regrouper des modalits. Exemple : le revenu du mnage est indiqu par la variable REVENU qui prend des valeurs de 1 8 (8 tranches). On veut oprer les regroupements suivants : 1 et 2, 3 et 4, 5 7, 8 On crira : REV1 = (REVENU = 1 ! REVENU = 2) ; REV2 = (REVENU = 3 ! REVENU = 4) ; REV3 = (5 < = REVENU < = 7) ; REV4 = (REVENU = 8) ; Ne pas oublier qu'il faut une modalit de rfrence (sinon Proc Logistic prend la dernire). Cette modalit est celle qui est omise dans la liste des variables de l'instruction Model. La procdure Logistic ajuste le modle sur la probabilit de la modalit la plus faible. Si donc vous avez cod :
0 je ne possde pas un bien Y= 1 je le possde

SAS modlise la probabilit de ne pas avoir le bien. Les coefficients de la rgression seront positifs pour les modalits explicatives correspondant une plus forte probabilit de ne pas possder le bien. Les vrais coefficients modlisant la probabilit inverse sont tout simplement loppos des coefficients obtenus. En effet , si on pose Zi = 1 Yi , on a pour le modle LOGIT:
Pr( Z i = 0) = Pr(Yi = 1)
1 1 + exp( X (Y ) ) 1 = 1 Pr( Z i = 1) = 1 1 + exp( X ( Z ) )
1 1 + exp( X ( Z ) )
Donc : (Y ) = ( Z ) . Par le principe dinvariance fonctionnelle, les estimateurs du MV vrifient aussi la relation
= dans le cas des modles LOGIT et PROBIT On peut galement sen persuader directement en (Y ) (Z )
remarquant que la symtrie de la fonction F permet dcrire F ( X i ) = 1 F ( X i ) , de sorte que la logvraisemblance vrifie :
l = LI (Yi , ) = Yi log( F ( X i )) + (1 Yi ) log(1 F ( X i )) =LI (1 Yi , )

i =1 i =1
29
Concrtement, vous avez la possibilit, soit de changer le signe de vos coefficients lorsque vous donnez vos rsultats, soit dutiliser loption Descending de la Proc Logistic, soit enfin de recodifier au dbut du programme :
1 je possde le bien Y = 2 je ne le possde pas

Cest cette seconde solution qui est prsente dans les exemples. Linterprtation de la constante Par ailleurs, linterprtation de la constante est dlicate et ncessite de revenir sur les fondements de la mthode. En matire danalyse des comportements, on fait habituellement lhypothse que le choix du consommateur est rgi par une variable latente, qui reprsente la propension quil a raliser la pratique (section III). Cest sur cette propension que lon postule le modle linaire. De fait, si elle tait directement observe, on se trouverait dans le cas usuel de lanalyse de variance sur variable explique quantitative. Mais ce que lon observe pratiquement correspond au fait que la propension dpasse un certain seuil. Le consommateur choisit donc de pratiquer si sa propension est au-del du seuil s, de ne pas pratiquer sinon : Or,
Z > s Y =1 Z = a + Xb + u
si lon isole la constante parmi les variables explicatives. De ce fait,
Z > s a s + Xb + u > 0
Le modle ainsi spcifi nest donc pas identifiable. Seul lcart entre la constante et le seuil lest. Il correspond la variable INTERCPT dans lestimation, qui est donc difficilement interprtable en soi. Dans la lecture des rsultats, plus la pratique est rare (modalit 2 frquente), plus le seuil est lev, et donc plus le coefficient de la variable INTERCPT est ngatif. Inversement, plus la pratique est frquente, plus ce coefficient est positif. Cette difficult ne pose quun problme dinterprtation de la constante. Elle est sans consquence lorsque lon cherche recalculer les probabilits estimes selon les caractristiques individuelles, et notamment celle qui correspond la situation de rfrence. Dans le cas de donnes de dpart trs nombreuses, il est possible de travailler sur une table croise au lieu de travailler sur la table complte des observations, en utilisant la syntaxe dite vnements/expriences (events/trials) de la Proc Logistic. En effet, lexhaustivit des statistiques ( X i Yi , N i ) , (voir la vraisemblance) permet de travailler sur le tableau issu dune Proc Summary de la variable explique, trie selon les variables explicatives. Cela na dintrt que si toutes les variables explicatives sont discrtes : dans ce cas, on a un nombre fini (et relativement limit) de croisements des variables explicatives, et _FREQ_ est alors pris comme nombre dessais (trials) SUM est pris comme le nombre dvnements (events). La procdure tourne alors beaucoup plus rapidement que sur la table des observations.
30
2. Quelques rappels de syntaxe Pour plus de dtails, voir la brochure SAS intitule SAS/STAT User's Guide volume 2 version 6. La syntaxe est la suivante :
Proc Logistic < options 1>; Model Y = X 1 X 2...< /options 2 >; By variables; Test quation <, quation, quation >;
instructions obligatoires
instructions Output < Out = table sas > < mot cl = nom1 mot cl = nom2 > < /Alpha = valeur >; facultativ es Weight variable;
> sont optionnelles.
Les parties entre <
Parmi les options 1 : Data = pour prciser la table SAS o sont les donnes de dpart (par dfaut le dernier cr) des options pour modifier les impressions automatiques Outest = cre une table SAS qui contient les estimateurs dfinitifs des paramtres et en option leur covariance estime. Dans le cas d'un modle dichotomique, les noms des variables dans cette table sont les mmes que ceux des variables explicatives de MODEL plus le nom INTERCEP pour l'estimateur de la constante. Parmi les options 2 : Link = permet de traiter le modle PROBIT (Link = Normit) est celui li la loi de Gompertz (Link = Cloglog). Par dfaut, Link = Logit. Noint ajuste un modle sans terme constant Selection = pour slectionner la mthode de construction du modle. Par dfaut Selection = None (l'ajustement se fait sur toutes les variables explicatives indiques). On peut adopter Selection = Backward, Selection = Forward, Selection = Stepwise. D'autres options prcisent les impressions dsires quand Selection = est prcis (tat de dpart, niveaux de significativit dsirs pour qu'une variable soit retenue...) Ctable imprime une table de classification (voir plus haut), pour diffrentes valeurs du seuil dfinies par SAS. Cette option par dfaut peut tre modifie par l'option Pprob = . Divers diagnostics sur la rgression. En particulier, Iplots donne des graphiques reprsentant pour chaque observation la valeur d'un certain nombre de statistiques. Attention quand vous avez beaucoup d'observations ! Maxiter = permet de modifier le nombre d'itrations (cf infra). Le nombre par dfaut est 25. Linstruction TEST : Cette instruction permet de raliser des tests de Wald pour toutes les contraintes linaires, en particulier : - la nullit dun coefficient - la nullit dun ensemble de coefficients - lgalit de deux coefficients - une ou plusieurs relations linaires entre coefficients. Ainsi, aprs une instruction du style : Proc Logistic Data=TOTO; Modles Logit et Probit 31
Model Y=a1-a5 b2-b6 c1 c2 d1-d4; on peut programmer : TEST a1=0; (ou TEST a1;) TEST a1=0, a2=0,a3=0; TEST a2=a4; TEST a1-2*a3=d1-b4, a5=4*b3 ; test de la nullit du coefficient de a1. test de nullit conjointe des coefficients de a1, a2 et a3. test dgalit des coefficients de a2 et a4 test dun systme de relations linaires entre coefficients
3. Quelques prcisions sur les procdures de slection pas pas des variables Procdure FORWARD Cette procdure entre les variables une une dans le modle. On peut partir dun modle avec constante seulement (cest ce qui est fait par dfaut) ou spcifier des variables incluses obligatoirement dans le modle, par les instructions START et INCLUDE. SAS procde alors laide de lalgorithme suivant : La procdure LOGISTIC estime dabord les paramtres pour les variables prsentes dans le modle. La procdure calcule ensuite pour chaque variable non prsente dans le modle, la statistique du Khideux rsiduel , cest--dire la statistique du score pour le test : Ho : modle comprenant toutes les variables entres jusqu cette tape. H1 : modle comprenant toutes les variables entres jusqu cette tape plus la variable examine. - Si une de ces statistiques est significative au niveau indiqu en entre par SLENTRY = (par dfaut, 0.05), la variable pour laquelle la statistique est la plus grande est entre dans le modle. On revient ltape destimation pour le modle augment. - Sinon, la procdure est termine, et le modle retenu est celui de la dernire tape. Exemple de mise en oeuvre avec comme variable de dpart la seule constante. On notera que la procdure fournit diffrents tests (rapport de vraisemblance,...), mais que le seul utilis pour retenir les variables est le tests du score entre la constante et les variables introduire ( (3) et (7) dans lexemple) : Forward Selection Procedure Step 0. Intercept entered: Residual Chi-Square = 4526.9889 with 29 DF (p=0.0001) (1) (1) Test du score pour contre Ho : modle avec la constante seule H1 : modle avec toutes les variables explicatives (29 degrs de libert)
Step 1. Variable PROP entered: Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 33334.145 31323.487 . SC 33342.422 31340.040 . -2 LOG L 33332.145 31319.487 2012.658 with 1 DF (p=0.0001) (2) Score . . 1999.200 with 1 DF (p=0.0001) (3) Residual Chi-Square = 2637.4985 with 28 DF (p=0.0001) (4)
32
(2) Test du rapport de vraisemblance pour Ho : modle avec la constante seule contre H1 : modle avec la constante et la variable PROP (1 degr de libert) (3) Test du score pour les mmes hypothses (4) Test du score pour contre Ho : modle avec la constante et la variable PROP H1 : modle avec toutes les variables explicatives.
Si Ho est vraie, la statistique du score doit suivre asymptotiquement un Khi-deux (29-1=28) degrs de libert Step 2. Variable IAAT9 entered: Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 33334.145 30741.466 . SC 33342.422 30766.295 . -2 LOG L 33332.145 30735.466 2596.679 with 2 DF (p=0.0001) (5) Score . . 2498.556 with 2 DF (p=0.0001) (6) Residual Chi-Square = 2085.9259 with 27 DF (p=0.0001) (7) (5) Test du rapport de vraisemblance pour Ho : modle avec la constante seule contre H1 : modle avec la constante et les variables PROP et IAAT9 (2 degrs de libert). Cest un test de significativit des deux variables prises en mme temps. (6) Test du score pour les mmes hypothses (7) Test du score pour contre Ho : modle avec la constante et les variables PROP et IAAT9 H1 : modle avec toutes les variables explicatives.
Si Ho est vraie, la statistique du score doit suivre asymptotiquement un Khi-deux (29-2=27) degrs de libert ETC. la squence se poursuit jusqu ce quon ne trouve plus de variable au seuil de significativit donn dans la procdure (ici, 0.01). SAS indique alors ceci : NOTE: No (additional) variables met the 0.01 significance level for entry into the model.
33
Summary of Forward Selection Procedure Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Variable Entered PROP IAAT9 CONF1 SURPEUP CONF3 CONF2 AUTRE RUC10 IAAT8 IAAT7 RUC9 TUR8 RUC8 RUC7 RUC6 INDIVID IAAT2 IAAT1 IAAT3 IAAT4 IAAT5 TUR0 Number In 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Score Chi-Square (8) 1999.2 522.6 332.9 254.0 214.3 222.0 240.0 154.8 149.7 159.0 85.7378 46.1685 53.8453 69.2643 23.9621 15.8364 13.6342 14.1768 20.6976 9.9836 11.9465 7.4535 Pr > Chi-Square 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0001 0.0016 0.0005 0.0063
Les statistiques du score indiques dans le tableau ne correspondent pas (sauf la premire) celles apparues dans les tapes prcdentes, car elles ne correspondent pas aux mmes hypothses nulles et alternatives. Pour la mme raison, les scores ne sont pas systmatiquement dcroissants dans le tableau. (8) Test du score pour Ho : modle avec la constante et les variables rentres jusqu ltape prcdente contre H1 : modle avec la constante et les variables rentres jusqu ltape courante. Si Ho tait vraie, la statistique du score aurait d suivre asymptotiquement un Khi-deux 1 degr de libert. La PROC LOGISTIC se base sur ces statistiques pour retenir les variables. La valeur critique au seuil rentr ici (1%) est de 6,63. Pour toutes les variables retenues, la statistique du score dpasse cette valeur. Procdure BACKWARD Cette procdure part du modle complet (ou du modle comprenant les variables spcifies dans linstruction START ou INCLUDE) et limine les variables 1 1 du modle. Par dfaut, le modle de dpart est le modle complet. SAS procde alors laide de lalgorithme suivant : (1) La procdure LOGISTIC estime les paramtres pour les variables encore prsentes dans le modle. On passe en (2). (2) - Si toutes les variables sont significatives individuellement (au sens du test de Wald), au niveau indiqu par SLSTAY = (par dfaut, 0.05), la procdure sarrte. - Si une des variables nest pas significative individuellement, la moins significative est limine du modle. On passe en (1). Le test de suppression des variables nest donc pas le mme que pour la procdure FORWARD. De mme, il ny a aucune raison pour que les variables enleves in fine soient exactement celles qui ne sont pas significatives dans le modle complet, puisque les statistiques de Wald qui entrent en jeu sont celles du modle de ltape courante. (voir infra le tableau de comparaison des effets des diffrentes procdures).
34
Backward Elimination Procedure Step 0. The following variables were entered: INTERCPT TUR0 TUR1 TUR4 TUR8 INDIVID PROP AUTRE IAAT1 IAAT2 IAAT3 IAAT4 IAAT5 IAAT7 IAAT8 IAAT9 RUC1 RUC2 RUC3 RUC4 RUC6 RUC7 RUC8 RUC9 RUC10 SURPEUP SOUPEUP CONF1 CONF2 CONF3 Step 1. Variable SOUPEUP is removed: Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates
Chi-Square for Covariates
AIC 33334.145 28669.719 . SC 33342.422 28909.739 . -2 LOG L 33332.145 28611.719 4720.426 with 28 DF (p=0.0001) Score . . 4526.249 with 28 DF (p=0.0001) Residual Chi-Square = 0.6026 with 1 DF (p=0.4376) (9) (9) Test du score pour contre Ho : modle avec la constante et toutes les variables sauf SOUPEUP H1 : modle avec toutes les variables explicatives .
Si Ho est vraie, la statistique du score doit suivre asymptotiquement un Khi-deux 1 degr de libert. Ici, la valeur 0.6026 a 43,76 % de chance dtre dpasse. On accepte donc la validit de Ho au seuil de 1%. (ATTENTION : ce nest pas ce test qui est utilis par SAS dans la procdure BACKWARD. Ce test est seulement un moyen de contrle !). ....... Step 5. Variable TUR0 is removed: Residual Chi-Square = 13.7857 with 5 DF (p=0.0170) NOTE: No (additional) variables met the 0.01 significance level for removal from the model. Summary of Backward Elimination Procedure Step 1 2 3 4 5 Variable Number Removed In SOUPEUP RUC6 TUR1 TUR4 TUR0 Wald Pr > Chi-Square Chi-Square (1) 28 0.6026 0.4376 27 0.7696 0.3803 26 0.9986 0.3176 25 4.8727 0.0273 24 6.5954 0.0102
(1) Valeur de la statistique de Wald pour la variable enleve, dans le modle de ltape courante. Cest le critre dlimination utilis par SAS.
35
Procdure STEPWISE Cest une combinaison des deux procdures prcdentes. A chaque tape, SAS regarde sil peut ajouter une variable (comme dans FORWARD): si cest le cas, il calcule les paramtres et leurs carts-types. Si une ou plusieurs variables ne sont pas significatives individuellement, une limination suivant les principes de la procdure BACKWARD intervient (une ou plusieurs variables sont limines). Et ainsi de suite. Dans cette procdure, deux seuils interviennent : le seuil dacceptation dune variable (SLENTRY= ) et le seuil dlimination (SLSTAY= ). Par dfaut, ces deux seuils sont fixs 0.05. Summary of Stepwise Procedure Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Variable Number Score Wald Pr > Entered Removed In Chi-Square Chi-Square PROP IAAT9 CONF1 SURPEUP CONF3 CONF2 AUTRE RUC10 IAAT8 IAAT7 RUC9 TUR8 RUC8 RUC7 RUC6 INDIVID IAAT2 IAAT1 IAAT3 IAAT4 IAAT5 TUR0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 1999.2 522.6 332.9 254.0 214.3 222.0 240.0 154.8 149.7 159.0 85.7378 46.1685 53.8453 69.2643 23.9621 15.8364 13.6342 14.1768 20.6976 9.9836 11.9465 7.4535 . . . . . . . . . . . . . . . . . . . . . . 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0001 0.0016 0.0005 0.0063 Chi-Square
Dans ce cas, il ny a pas eu de variable enleve. Les variables retenues sont donc les mmes (et elles sont rentres dans le mme ordre) que dans la procdure FORWARD. Comparaison des variables retenues par les options FORWARD et BACKWARD Le tableau suivant montre pour les mmes donnes les variables retenues par les options FORWARD et BACKWARD. En gris, sont indiqus les variables dont les coefficients ne sont pas significatifs dans le modle initial. Modle complet TUR0 TUR1 TUR4 TUR8 INDIVID PROP AUTRE IAAT1 IAAT2 IAAT3 IAAT4 BACKWARD FORWARD X
X X X X X X X X
X X X X X X X X
36
IAAT5 IAAT7 IAAT8 IAAT9 RUC1 RUC2 RUC3 RUC4 RUC6 RUC7 RUC8 RUC9 RUC10 SURPEUP SOUPEUP CONF1 CONF2 CONF3
X X X X X X X X X X X X X X X X
X X X X
X X X X X X X X X
On observe des diffrences entre les variables retenues laide du modle complet, des options FORWARD et BACKWARD. De toute faon, les procdures de slection automatique ne dispensent pas de rflchir : par exemple, il faut prendre garde au fait que les variables retenues dpendront crucialement du choix de la situtation de rfrence. 4. un exemple de sortie interprte La variable dpendante est IPOLLU, o : IPOLLU = 1 IPOLLU = 2 Les variables explicatives sont : DIP2 DIP5 STR2 STR5 STL1,STL3 AGE1 AGE3, AGE5, AGE6 REV1 REV4, REV6 : Diplme de la personne de rfrence du mnage : catgorie de commune : statut d'occupation du logement : ge de la personne de rfrence : tranche de revenu du mnage si le mnage souffre de la pollution s'il n'en souffre pas
Auxquelles s'ajoute la constante (intercept) reprsent par INTERCPT. La situation de rfrence est donc dfinie par la nullit des coefficients des variables DIP1, STR1, STL2, AGE4, REV5. Nous n'avons pas demand dans la sortie quelques statistiques descriptives lmentaires portant sur les variables explicatives, peu intressantes quand il s'agit de variables dichotomiques. Pour cela, il aurait fallu utiliser l'option Simple. La moyenne -mean- combine avec le nombre d'observations du fichier dans un modle non pondr permet toutefois de retrouver les effectifs de chaque modalit des variables explicatives. Il parat plus simple de faire toujours prcder le modle d'une Proc Freq sur les modalits des variables explicatives. Bien qu'il n'y ait pas de limite infrieure respecter sur ces effectifs, il conviendra d'tre prudent quant l'interprtation des coefficients estims sur des strates d'effectif rduit (de l'ordre de moins de 20). Le programme tait donc : Proc Logistic Data = codif ; Model IPOLLU = DIP2-DIP5 STR2-STR5 STL1 STL3 AGE1-AGE3 AGE5 AGE6 Modles Logit et Probit 37
REV1-REV4 REV6 / Ctable ;
38
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Link Function: Logit Response Profile Ordered Value IPOLLU 1 2 1 2 1161 6171 Count
1 Exemple 1a :Logit Variable Dpendante Modle Logit
Criteria for Assessing Model Fit Critres permettant de juger de l'ajustement du modle Intercept Intercept and 1 Modle avec constante seule Criterion Only Covariates Chi-Square for Covariates 1 2 2 Modle avec constante et variables X AIC 6408.974 6291.197 . SC 6415.874 6436.097 . -2 LOG L 6406.974 6249.197 157.777 with 20 DF (p=0.0001) 3 Score . . 150.077 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 4 0.098 1.092 1.024 0.859 0.985 1.712 1.807 2.703 2.622 1.175 1.183 0.933 1.020 1.014 0.868 0.720 0.851 0.880 0.864 0.945 0.955 5
INTERCPT 1 -2.3262 0.1453 256.3715 0.0001 . DIP2 1 0.0884 0.1070 0.6830 0.4085 0.019039 DIP3 1 0.0236 0.1095 0.0463 0.8297 0.005061 DIP4 1 -0.1521 0.1315 1.3386 0.2473 -0.026394 DIP5 1 -0.0156 0.1062 0.0215 0.8835 -0.003918 STR2 1 0.5374 0.1162 21.3720 0.0001 0.110465 STR3 1 0.5918 0.1216 23.6987 0.0001 0.112738 STR4 1 0.9945 0.1011 96.6763 0.0001 0.249008 STR5 1 0.9641 0.1181 66.6684 0.0001 0.186275 STL1 1 0.1612 0.0897 3.2334 0.0721 0.043923 STL3 1 0.1680 0.1021 2.7058 0.1000 0.042613 AGE1 1 -0.0688 0.1260 0.2987 0.5847 -0.012528 AGE2 1 0.0193 0.1073 0.0325 0.8570 0.004227 AGE3 1 0.0139 0.1016 0.0188 0.8910 0.003132 AGE5 1 -0.1417 0.1119 1.6037 0.2054 -0.027505 AGE6 1 -0.3287 0.1391 5.5810 0.0182 -0.052184 REV1 1 -0.1619 0.1383 1.3694 0.2419 -0.024539 REV2 1 -0.1278 0.1105 1.3362 0.2477 -0.025827 REV3 1 -0.1462 0.1196 1.4922 0.2219 -0.025890 REV4 1 -0.0569 0.1048 0.2952 0.5869 -0.011459 REV6 1 -0.0465 0.0946 0.2413 0.6233 -0.010947 Association of Predicted Probabilities and Observed Responses Concordant = 60.7% Somers' D = 0.228 Discordant = 37.9% Gamma = 0.231 Tied = 1.4% Tau-a = 0.061 (7164531 pairs) c = 0.614
39
The SAS System The LOGISTIC Procedure Classification Table
Correct Incorrect Percentages ____________ ____________ _____________________________________ Prob NonNonSensi- Speci- False False Level Event Event Event Event Correct tivity ficity POS NEG ________________________________________________________________________ 0.060 1161 0 6171 0 15.8 100.0 0.0 84.2 . 0.080 1111 433 5738 50 21.1 95.7 7.0 83.8 10.4 0.100 1011 1533 4638 150 34.7 87.1 24.8 82.1 8.9 0.120 973 1857 4314 188 38.6 83.8 30.1 81.6 9.2 0.140 885 2378 3793 276 44.5 76.2 38.5 81.1 10.4 0.160 728 3317 2854 433 55.2 62.7 53.8 79.7 11.5 0.180 607 3843 2328 554 60.7 52.3 62.3 79.3 12.6 0.200 453 4425 1746 708 66.5 39.0 71.7 79.4 13.8 0.220 197 5377 794 964 76.0 17.0 87.1 80.1 15.2 0.240 31 6048 123 1130 82.9 2.7 98.0 79.9 15.7 0.260 0 6171 0 1161 84.2 0.0 100.0 . 15.8 Exemple avec un seuil de 0.140: 885 observations ont une valeur 1 pour ipollu relle et prdite 2378 ont la valeur relle 2 et la valeur prdite 2 3793 ont la valeur relle 2 et la valeur prdite 1 276 ont la valeur relle 1 et la valeur prdite 2 Correct = (885+2378)/(885+2378+3793+276) Sensisivity = 885/(885+276) Spcificity = 2378/(2378+3793) False POS = 3793/(3793+885) False NEG = 276/(276+2378) 3: Valeur de 2(log( L1 ) log( L2 )) La probabilit que le 20 degrs de libert dpasse cette valeur est de p=0.0001. Lhypothse nulle (les variables explicatives autres que la constante nexpliquent pas les disparits) est donc rejete.
2
4: Parameter Estimate: estimateur du paramtre j

Standard Error: cart-type du paramtre
Wald Chi-Square: statistique de Wald ; si
$j $
$j
> 2 2 = 4 , le paramtre est non nul.
Pr > Chi-Square: le coefficient est significativement non nul si cette probabilit est infrieure 0.05 Standardized estimate: estimateur standardis o
$ j rj
rj est le rapport entre lcart-type de la fonction de rpartition de la loi logistique (normale si
Link=Normit) et lcart-type de la jme variable explicative dans lchantillon. Lestimateur normalis permet notamment de comparer les estimateurs des modles logit et probit.
) dans le cas du modle dichotomique Odds Ratio: correspond exp( j

5: proportion des paires concordantes et discordantes (voir le texte sur les tests et autres indicateurs de validit du modle).
40
5. Le fichier en sortie Pour obtenir un fichier (une table SAS) en sortie, il faut faire appel une instruction facultative, l'instruction Output. On crira alors : Proc Logistic ; Model Variable dpendante = variables explicatives ; Output Out = nom de la table SAS en sortie <mot-cl = nom ... mot-cl = nom> ;
En option, l'instruction Output cre l'estimateur
cette probabilit, et des statistiques d'aide au diagnostic sur la rgression.
$ de la partie linaire du modle, son cart-type estim, la X probabilit estime pour chaque individu d'avoir la modalit la plus faible Y = 1 , l'intervalle de confiance pour
Pour obtenir en sortie, par exemple, la probabilit estime (que l'individu ait pour Y la valeur la plus faible) on emploiera le mot-cl Predicted, ou P. Si on veut lui donner le nom EQUIP, on crira : Proc Logistic ; Model ... ; Output Out = ... P = EQUIP ; Toutefois pour obtenir la probabilit
Le fichier en sortie est une nouvelle table SAS qui contient toutes les variables de la table en entre.
$ estime, il est plus simple d'utiliser l'option Outest de p
l'instruction Proc Logistic et de calculer
$ pour les modalits qui nous intressent. p

si le mnage souffre de la pollution s'il n'en souffre pas
Exemple : si on a :
IPOLLU = 1 IPOLLU = 2
Proc Logistic Data = codif Outest = TAB; Model IPOLLU = DIP2-DIP5 STR2-STR5 STL1 STL3 AGE1-AGE3 AGE5 AGE6 REV1-REV4 REV6 / Ctable ; Output Out = POLLU1 P = PHAT; On veut obtenir la probabilit estime de souffrir de la pollution des mnages pour lesquels les variables DIP2, STR5, STL1, AGE2 et REV3 valent 1. 1. Data A ; Set TAB ; X1 = -(INTERCEP+DIP2+STR5+STL1+AGE2+REV3) ; PHAT1 = 1/ (1 + Exp (X1)) ; Proc Print Data = A ; Var PHAT1 ; 2. Data B ; Set POLLU1 ; If DIP2 = 1 & STR5 = 1 & STL1 = 1 & AGE2 = 1 & REV3 = 1; Proc Print Data = B (Obs = 1) ; Var PHAT ;
41
$ . Une mise en garde Les valeurs qu'on obtient par PHAT et PHAT1 sont gales et reprsentent p toutefois : dans POLLU1, comme dans CODIF, les variables DIP2 REV6 sont les variables explicatives (0 ou 1) du modle ; dans TAB, il sagit des coefficients estims. La solution 2 nest en outre pas applicable lorsque la situation dfinie par la conjonction des conditions nexiste pas dans lchantillon, ce qui peut parfois se produire. Mme si les calculs sont analytiquement corrects dans la solution 1, on peut sinterroger sur la pertinence dun cas de figure aussi rare ( dromadaires sur la banquise , cf infra.). Lhypothse dadditivit atteint l ses limites, comme le statisticien utilisateur.
Pour la question de l'utilisation des pondrations lors du calcul de probabilits estimes, voir Pondrer ou ne pas pondrer , dans la partie IX. 6. Modle LOGIT, modle PROBIT Le modle PROBIT est trait dans SAS, on l'a vu, en ajoutant l'option Link = Normit l'instruction Model. Les rsultats obtenus ne sont pas directement comparables. Il faut comparer les estimateurs standardiss (standardized estimates) qui tiennent compte de la diffrence de variance entre les deux distributions. Le programme tait ici : Proc Logistic Data = codif ; Model IPOLLU = les mmes variables / Ctable Link = Normit ; Le lecteur se convaincra aisment que mme si certains coefficients standardiss diffrent lgrement, les conclusions qu'ils permettent de tirer sont identiques.
42
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Link Function: Normit Modle PROBIT Response Profile Ordered Value IPOLLU 1 2 1 2 1161 6171 Count Exemple 1b Probit
Criteria for Assessing Model Fit Intercept Intercept and Criterion Only Covariates
AIC 6408.974 6291.565 . SC 6415.874 6436.465 . -2 LOG L 6406.974 6249.565 157.409 with 20 DF (p=0.0001) Score . . 150.077 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Variable Parameter Standard DF Estimate Error Wald Pr > Standardized Chi-Square Chi-Square Estimate
INTERCPT 1 -1.3408 0.0779 296.5953 0.0001 . DIP2 1 0.0429 0.0586 0.5364 0.4639 0.016762 DIP3 1 0.0171 0.0602 0.0804 0.7767 0.006650 DIP4 1 -0.0854 0.0720 1.4095 0.2351 -0.026886 DIP5 1 -0.00832 0.0587 0.0201 0.8872 -0.003801 STR2 1 0.2806 0.0609 21.2386 0.0001 0.104600 STR3 1 0.3091 0.0642 23.1760 0.0001 0.106784 STR4 1 0.5367 0.0534 101.0471 0.0001 0.243723 STR5 1 0.5189 0.0637 66.3664 0.0001 0.181842 STL1 1 0.0857 0.0495 3.0024 0.0831 0.042362 STL3 1 0.0908 0.0560 2.6246 0.1052 0.041762 AGE1 1 -0.0434 0.0702 0.3830 0.5360 -0.014340 AGE2 1 0.00657 0.0596 0.0122 0.9122 0.002605 AGE3 1 0.000818 0.0564 0.0002 0.9884 0.000334 AGE5 1 -0.0770 0.0617 1.5538 0.2126 -0.027087 AGE6 1 -0.1770 0.0749 5.5778 0.0182 -0.050968 REV1 1 -0.0917 0.0759 1.4568 0.2274 -0.025204 REV2 1 -0.0682 0.0606 1.2643 0.2608 -0.025001 REV3 1 -0.0803 0.0656 1.4977 0.2210 -0.025811 REV4 1 -0.0328 0.0581 0.3182 0.5727 -0.011958 REV6 1 -0.0260 0.0528 0.2424 0.6225 -0.011111 Association of Predicted Probabilities and Observed Responses Concordant = 60.7% Somers' D = 0.227 Discordant = 38.0% Gamma = 0.230 Tied = 1.4% Tau-a = 0.060 (7164531 pairs) c = 0.613
43
The SAS System The LOGISTIC Procedure Classification Table Correct Incorrect Percentages _____________ ____________ ____________________________________ Prob NonNonSensi- Speci- False False Level Event Event Event Event Correct tivity ficity POS NEG ________________________________________________________________________ 0.040 1161 0 6171 0 15.8 100.0 0.0 84.2 . 0.060 1161 1 6170 0 15.8 100.0 0.0 84.2 0.0 0.080 1118 457 5714 43 21.5 96.3 7.4 83.6 8.6 0.100 1015 1514 4657 146 34.5 87.4 24.5 82.1 8.8 0.120 975 1866 4305 186 38.7 84.0 30.2 81.5 9.1 0.140 888 2368 3803 273 44.4 76.5 38.4 81.1 10.3 0.160 737 3318 2853 424 55.3 63.5 53.8 79.5 11.3 0.180 620 3828 2343 541 60.7 53.4 62.0 79.1 12.4 0.200 470 4369 1802 691 66.0 40.5 70.8 79.3 13.7 0.220 195 5384 787 966 76.1 16.8 87.2 80.1 15.2 0.240 26 6076 95 1135 83.2 2.2 98.5 78.5 15.7 0.260 0 6171 0 1161 84.2 0.0 100.0 . 15.8
44
45
IX Mise en oeuvre du modle LOGIT Cette partie vise prsenter une sorte de check list recensant les questions successives que doit se poser le statisticien qui, disposant d'un fichier de donnes individuelles, dsire tudier un phnomne l'aide du modle Logit. En fait la plupart des remarques prsentes s'appliquent tout autant aux modles d'analyse de variance classiques qu'au modle Logit et forment un mode d'emploi assez gnral pour qui veut se lancer dans la voie de la sparation des effets, de l'analyse toutes choses gales par ailleurs. Contrairement au reste de la note, beaucoup plus objectif , cette partie est nourrie des expriences personnelles de quelques statisticiens : elle reflte donc des prises de position qui peuvent ne pas tre partages par tous ... libre chacun de s'en dmarquer si le sujet tudi le ncessite. De plus, on peut distinguer deux types d'usage d'un tel modle : on peut se contenter d'expliquer la variance du phnomne, afin par exemple de le prvoir au mieux ; on peut aussi tre plus ambitieux et souhaiter utiliser le modle pour dgager des processus explicatifs, des relations causales. Certaines difficults voques ci-dessous (en particulier colinarit, non exognit) ne sont rellement gnantes que dans la seconde optique (celle que nous privilgions ici) ; dans la premire optique elles peuvent tre quasiment ngliges. Un peu de vocabulaire prliminaire : dans la prsentation thorique toutes les variables
X j introduites
sont places sur le mme plan : le fait d'avoir un revenu situ dans la deuxime tranche et le fait d'avoir un revenu situ dans la cinquime tranche sont traits comme deux variables diffrentes, au mme titre que le fait d'avoir 2 enfants et le fait d'habiter une commune rurale. Or bien videmment toutes les variables obtenues par discrtisation d'une mme variable continue ou les variables correspondant aux diverses modalits d'une variable qualitative ont entre elles des liens organiques troits tout fait spcifiques. Il est utile pour la clart de l'expos de tenir compte de ce phnomne au niveau du vocabulaire utilis : on parlera donc de dimensions explicatives, reprsentes chacune par diverses variables explicatives : ainsi le milieu socioprofessionnel sera une dimension explicative. Son introduction dans le modle se traduira par l'introduction de plusieurs variables explicatives issues directement ou non des variables prsentes dans le fichier : tre agriculteur , tre ouvrier , tre cadre suprieur etc ... Dans le cas des dimensions explicatives correspondant une reprsentation continue, comme le revenu ou l'ge, plusieurs modlisations sont envisageables. Certaines utilisent une seule variable explicative, dautres plusieurs (cf infra). 1. La spcification du modle Assurment la rflexion pralable autour de la spcification du modle est le point le plus important pour garantir la qualit des rsultats : les choix doivent tre raisonns, en faisant par exemple rfrence aux analyses sociologiques ou conomiques disponibles sur le sujet. a. retenir ou non une dimension explicative. Quand on introduit une dimension explicative, on doit tre capable de dcrire les mcanismes par lesquels elle est susceptible d'agir sur le phnomne tudi, voire de prvoir le signe des coefficients. Une dmarche purement heuristique du type j'introduis dans le modle comme dimensions explicatives tout ce dont je dispose dans mon fichier et je laisse une procdure automatique du type BACKWARD par exemple, le soin de choisir est proscrire. la dmarche doit rester une dmarche de vrification d'hypothses bien spcifies. Pour pouvoir tre introduite dans le modle, une dimension explicative doit prsenter un caractre d'exognit par rapport au phnomne tudi. Parfois -mais rarement- cela va de soi : l'ge de l'individu, son sexe peuvent sans difficult tre considrs comme exognes pour une tude de comportement ! Le revenu, la catgorie socioprofessionnelle, le diplme, l'activit, le type d'habitat posent davantage de problmes. On peut certes supposer qu'il s'agit bien de variables exognes : court terme elle s'imposent l'individu et ne sauraient tre modifies. Pour l'tude de comportements quotidiens l'hypothse semble raisonnable, mme si on peut faire quelques objections : est-il, par exemple, licite de supposer que l'activit professionnelle de la femme est exogne quand on tudie des pratiques comme la couture et le tricot. Le fait de ne pas travailler l'extrieur et de faire du tricot sont peut-tre deux manifestations conjointes d'une Modles Logit et Probit 46
mme variable latente, que l'on peut qualifier pour faire bref de got pour la vie au foyer . C'est peut-tre pour pouvoir tre en mesure de faire du tricot tous le jours que la femme tudie a choisi de ne pas avoir d'activit professionnelle. Dans ce cas, la procdure correcte consisterait recourir des quations simultanes : deux variables expliques (activit professionnelle, tricot) et des variables explicatives ne contenant pas l'activit professionnelle. Toutefois le traitement conomtrique des quations simultanes avec variables qualitatives est souvent difficile mettre en oeuvre. Cependant, quelques techniques sont disponibles, qui ralisent l'analogue des tests d'Hausmann sur les modles quantitatifs (voir infra). Concrtement, il faut souligner que la plupart du temps il n'est gure possible d'affirmer ou de vrifier qu'une dimension explicative est ou n'est pas exogne. Une raison est souvent le manque de variables utilisables pour mettre en place ces tests. Ainsi, en coupe instantane. on ne dispose gnralement pas dinstrument, cest dire de variables elles-mmes exognes, non utilises dans la rgression, mais raisonnablement corrles avec les variables suspectes dendognit. Sans pouvoir le vrifier, le statisticien est alors conduit postuler l'exognit ou l'endognit. Introduire la dimension revient en fait admettre une exognit de faon implicite. Il faut en tre conscient, et de prfrence, discuter explicitement le problme et ne pas luder la difficult : spcifier un modle, c'est toujours mettre des hypothses. Ce qui est condamnable, c'est de ne pas donner au lecteur le moyen de les percevoir et de les discuter. Dans le cas de l'tude de pratiques dont l'horizon temporel est long (achat d'un logement par exemple), supposer que le revenu ou la profession sont exognes devient cependant trs hardi : on peut raisonnablement penser que le comportement de l'agent est conditionn par des variables caches, comme avoir un but dans la vie (dont l'achat de logement fait partie) et qu'il choisit son intensit de travail ou sa profession de faon pouvoir raliser ce but. Il n'y aurait donc pas alors existence d'un revenu exogne venant contraindre les choix sans effet de retour . b. reprsentation d'une dimension explicative retenue. Lorsqu'une dimension explicative a t retenue (elle est susceptible d'avoir une influence sur le phnomne tudi et peut raisonnablement tre considre comme exogne), il reste dfinir comment la reprsenter . Quelles variables pour une dimension ? Dimension qualitative Dans le cas d'une dimension explicative de nature qualitative, aucun problme particulier ne se pose. La variable disponible dans le fichier est en gnral un code plusieurs modalits. On introduit autant de variables dichotomiques ( dummies ) qu'il y a de modalits. On procde de mme avec des variables quantitatives disponibles en tranches. On verra ultrieurement (cf problmes de non convergence) que l'on peut tre amen effectuer des regroupements de modalits.
47
Dimension quantitative Dans le cas d'une dimension explicative de nature continue, diffrentes possibilits se prsentent. Il convient alors de s'interroger sur la faon dont elle intervient. La premire solution revient faire l'hypothse de la linarit de l'influence de la dimension explicative sur le phnomne latent tudi, d'un extrme l'autre de son domaine de variation. La variable peut aussi tre introduite sous forme de logarithme pour estimer une sorte d'lasticit. Le modle s'crit alors:
Z = + R +
o
R est la variable Revenu introduite sous sa forme continue.
Un variante consiste prendre en compte une dpendance quadratique de faon tudier des sortes de rendement d'chelle. Cette spcification est frquemment utilise dans les tudes acadmiques et les publications scientifiques. Son avantage est de limiter le nombre de coefficients estims ; son inconvnient est de contraindre assez fortement la dpendance a priori.
Z = + R + R 2 +
La deuxime solution consiste se ramener au cas d'une variable qualitative en fabriquant une variable en tranches, et introduire dans lestimation autant de variables logiques que de tranches (moins une pour assurer l'identification). La dpendance est moins contrainte que prcdemment, mais elle est approxime au moyen d'une fonction en escalier, ce qui peut tre gnant si l'on a en tte une reprsentation continue. Le modle s'crit alors:
Z = + 1 R1 + 2 R2 + ... + k R k +
o R1 ,..., Rk dsignent les k variables dichotomiques issues de la discrtisation de revenu).
R (i. e les k tranches de
Dans le premier cas, un cart infinitsimale de revenu dR entre deux mnages aura, quel que soit le niveau de dpart, un effet dZ = dR . Dans le second cas, un cart infinitsimal de revenu (pour deux mnages dune mme tranche) a un effet nul. Un cart de revenu correspondant un changement de tranche entrane une variation de Z gale la diffrence entre les coefficients. Si lon exploite une enqute en coupe instantane, on se gardera nanmoins dinterprter un constat tabli en termes de statique comparative comme une projection dynamique. A moins de postuler explicitement que les prfrences des mnages sont rigoureusement identiques, rien ne permet dassurer quun mnage donn confront une variation de revenu se comportera conformment lestimation en coupe. En gnral, quand on exploite des enqutes, on dispose d'chantillons de taille suffisante, et il semble prfrable de ne pas postuler d'emble l'existence d'une dpendance linaire. Il est indispensable de tester l'hypothse quadratique quitte la rejeter si le coefficient du terme quadratique nest pas significatif, ou si lintroduction de la variable au carr rend le modle instable. La discrtisation est une solution alternative intressante puisqu'aucune forme fonctionnelle n'est suppose a priori. Cependant, elle ne permet pas de tester la linarit de la dpendance puisque l'on est face une fonction linaire dans le premier cas et une fonction en escalier dans le second. C'est pourquoi on prconise une troisime solution, plus complexe mais plus satisfaisante, qui consiste approximer la dpendance au moyen d'une fonction linaire par morceaux. La construction des variables explicatives est plus complexe, mais la modlisation est plus souple et sans doute mieux adapte la reprsentation d'un phnomne continu. Elle est en outre plus aisment interprtable et permet de tester la sous-hypothse linaire. Le problme se prsente de faon assez analogue la discrtisation dune variable en tranches. En effet, on dfinit partir de la variable de revenu un certain nombre dintervalles ( [ R0 , R1 ],[ R1 , R2 ],...,[ Rk , Rk +1 ],...[ RK 1 , RK ] ) avec le cas chant R0 = ou RK = + . La diffrence est que sur ces intervalles la fonction qui relie la variable latente au revenu est continue et linaire par morceaux au lieu dtre constante par morceaux :
R [ Rk , Rk +1 ]
Modles Logit et Probit 48
Z =k + k R
o k est dfini par continuit entre deux intervalles. On a alors:
R [ R0 , R1 ] R [ R1 , R2 ] R [ R 2 , R3 ] R [ Rk , Rk +1 ]
Z = Z = Z = Z =
+ 0 ( R R1 ) + 1 ( R R1 ) + 1 ( R 2 R1 ) + 2 ( R R2 ) + 1 ( R 2 R1 ) + 2 ( R3 R2 ) + ... + k ( R Rk )
Ceci conduit ajuster un modle de la forme:
Z = + 0V0 + 1V1 + ... + K 1V K 1 +

qui se prsente de faon analogue au modle issu de la discrtisation dune variable en tranche. Au lieu dtre des variables dichotomiques, les fonctions V sont dfinies de la faon suivante:
V0 = ( R R1 ) * ( R < R1 ) V1 = ( R R1 ) * ( R1 R < R 2 ) + ( R2 R1 ) * ( R R 2 ) V2 = ( R R2 ) * ( R2 R < R3 ) + ( R3 R 2 ) * ( R R3 ) Vk = ( R R k ) * ( Rk R < Rk +1 ) + ( Rk +1 Rk ) * ( R R k +1 ) V K 1 = ( R R K 1 ) * ( R R K 1 )

Dans ces expressions en langage SAS, les parenthses ont une double signification. Elles assurent le rle habituel de factorisation pour les produits. Elles permettent galement de fabriquer des variables indicatrices (voir supra). Dans lexemple, la situation de rfrence correspond un revenu gal R1 . Un changement dorigine (par exemple R2 ) modifierait lcriture de la faon suivante :
V0 = ( R R1 ) * ( R < R1 ) V1 = ( R R2 ) * ( R1 R < R 2 ) + ( R1 R2 ) * ( R R1 ) V2 = ( R R2 ) * ( R2 R < R3 ) + ( R3 R 2 ) * ( R R3 ) Vk = ( R R k ) * ( Rk R < Rk +1 ) + ( Rk +1 Rk ) * ( R R k +1 ) V K 1 = ( R R K 1 ) * ( R R K 1 )

Les deux situations ne diffrent que par une translation de la constante. Dans les deux cas, l'hypothse de linarit ( Z = + R ) correspond au cas o les coefficients 0 , 1 ,..., K 1 ne sont pas significativement diffrents les uns des autres. Cette hypothse peut tre teste au moyen de la statistique de Wald disponible dans linstruction TEST.
La situation de rfrence : quoi sert-elle ? Comment la choisir ? Que la dimension explicative soit qualitative ( k modalits), ou continue discrtise (avec k tranches), se pose le problme suivant : les k variables introduites pour la reprsenter ne sont pas indpendantes, puisque leur somme vaut 1 quel que soit l'individu i. En effet chaque individu a une CS et une seule, a un revenu qui est dans une tranche et dans une seule. On ne saurait donc estimer les k coefficients, pas plus qu'on ne saurait projeter un vecteur sur deux vecteurs colinaires. Le remde consiste liminer une des variables. Cette variable non introduite dans le modle a donc un coefficient gal 0 par convention et on considre qu'elle reprsente une situation de rfrence, par rapport laquelle on mesure des dviations, des diffrences. Mathmatiquement, le choix de cette situation de rfrence n'a gnralement que peu dimportance. Un changement a pour seuls effets une translation des Modles Logit et Probit 49
coefficients et une lgre modification des carts-types mesurant la significativit des estimations. Cette dernire nest gnante que si leffectif dune modalit entrant dans la dfinition de la situation de rfrence est trs faible (quelques units), ce qui doit tre vit. Les effets de la translation des coefficients sont simples : les coefficients changent mais le profil qu'ils dessinent est inchang ; en particulier l'cart entre le coefficient le plus faible et le plus fort est invariant. En revanche, le nombre de coefficients significativement positifs, ngatifs ou de coefficients nuls peut changer, ce qui indique bien que l'on ne peut juger du caractre significatif d'une dimension explicative par le nombre de coefficients non nuls qui apparaissent. Le graphique suivant permet de visualiser la situation :
Si on choisit la modalit 2 ou (3-4) comme rfrence, on aura:
1 = 2 = 3 = 4 = 0 = + * 5
Si on choisit la modalit 1, on aura:
1 = 0 2 = 3 = 4 = = + * 5
Si on choisit la modalit 5, on aura:
1 = * 2 = 3 = 4 = * = 0 5
Dans tous les cas, l'cart maximum vaut + * mais le nombre de coefficients non nuls varie de 2 (1 positif, 1 ngatif) 4 (tous positifs ou tous ngatifs) ! Comme aucun critre mathmatique ne vient dicter le choix de la situation de rfrence, on se laissera guider par des impratifs esthtiques : il est plus simple de choisir comme situation de rfrence une situation courante. Chaque lecteur ainsi acceptera comme naturel le choix qui lui est propos et le commentaire sera facilit par le fait que l'on opposera des minorits bien caractrises la population plus standard . le prcepte conduira souvent prendre comme rfrence la situation modale (modalit rassemblant le plus d'effectifs) mais il ne s'agit en aucun cas d'une obligation. Rappelons toutefois quil est dangereux de choisir une modalit de rfrence ayant des effectifs trop faibles. Outre la perte de prcision dj mentionne, cela peut entraner un dfaut de convergence. Ceci tant, une rfrence ainsi choisie pour chacun des critres peut conduire une intersection des situations modales trs minoritaire dans lchantillon. Dans les commentaires, il faudra prendre garde ne pas tomber dans cette illusion du franais moyen ... c. introduction simultane de plusieurs dimensions explicatives : problmes spcifiques viter.
50
Le cas o le modle se rduit une seule dimension explicative est trs rare. La plupart du temps, la rflexion thorique conduit le statisticien introduire de trs nombreuses dimensions explicatives. Deux difficults supplmentaires surgissent, lies aux problmes de colinarit et au dfaut d'additivit. Les problmes de colinarit : Les diffrentes variables introduites pour reprsenter une mme dimension ne sont pas les seules tre corrles : en rgle gnrale deux variables quelconques ne sont pas strictement indpendantes. Mais cela ne pose pas forcment de problmes au niveau de l'estimation des coefficients. S'il y a corrlation parfaite (une variable est combinaison linaire de plusieurs autres) l'identification est impossible, la matrice des variances-covariances n'tant pas inversible. Ceci se prsente rarement, et seulement dans des cas o il y a une dpendance logique mcanique entre les variables. On peut citer parmi les cas qui droutent le plus le novice : - la corrlation entre le dpartement et un type de commune d'habitat isolant la ville de Paris au sein de l'agglomration parisienne : le dpartement 75 et la ville de Paris intra muros concident en effet exactement. Mme si elle n'est pas en toute rigueur vrifie, l'identit entre la rgion de programme Ile de France et l'ensemble de l'agglomration parisienne peut se produire sur certains chantillons et poser le mme type de problmes. - la corrlation entre ge et CS, lorsqu'une modalit de ce code isole les retraits : il y a une corrlation mcanique entre retraits et individus trs gs, qui souffre certes des exceptions mais qui peut tre parfaite sur des chantillons de taille rduite. - cas o une dimension explicative est filtre par une autre dimension, elle aussi introduite dans le modle. Par exemple, considrons le cas o l'on introduit dans une explication des fortes dures de travail, le type de mnage (pas de couple, couple seul, couple avec autres personnes) et l'existence d'un conjoint exerant une profession d'indpendant (sans objet ; pas de conjoint ; conjoint salari ; conjoint indpendant). Les variables sans objet et pas de couple sont mcaniquement parfaitement corrles. Ces exemples paraissent triviaux : ceci traduit bien le fait que les corrlations mcaniques peuvent toujours tre repres avec un minimum de rflexion pralable. Dailleurs, la Proc Logistic dtecte ce type de corrlation et propose une estimation contrainte. S'il y a corrlation forte mais non parfaite, non mcanique entre deux variables, il n'y aura pas de problme en gnral, les chantillons tudis tant nombreux. Ainsi revenu et diplme prsentent un certain degr de liaison, revenu et diplme variant plutt dans le mme sens, mais on pourra gnralement sparer leurs effets, car il est peu probable qu'il n'y ait pas dans l'chantillon un riche non diplm ou un diplm pauvre, ce qui permet l'identification. De mme, on pourra gnralement sparer l'effet propre de la PCS, des effets de revenu ou de diplme, malgr les corrlations entre ces variables. Si la liaison est trs forte, il est toutefois possible que l'estimation globale du modle puisse se faire, mais que les coefficients d'une (voire des deux) variables corrles ne soient pas significativement diffrents de 0 cause de ce problme de colinarit. D'ailleurs mme si l'estimation russit, la colinarit pose des problmes au niveau de l'interprtation des rsultats : on ne peut plus parler d'une modification de la situation de rfrence sur une seule dimension explicative ; il faut grer des modifications conjointes des dimensions corrles. Supposons ainsi que l'on ait une variable tre retrait et une variable avoir plus de 80 ans et que ces deux variables ne soient pas suffisamment corrles pour qu'on ne puisse isoler les deux coefficients (il y a un centenaire actif et un militaire de 45 ans la retraite), on risquera des erreurs d'interprtation si on oublie qu'en rgle gnrale avoir plus de 80 ans entrane le fait d'tre la retraite et que l'on commente la dimension ge indpendamment du reste. La partie de l'effet ge lev , qui est retrace au travers de la variable tre la retraite sera omise, et l'effet de l'ge globalement sous-estim. on ne saurait donc trop recommander d'liminer au moment de la conception du modle les colinarits mcaniques ou quasi mcaniques. Les solutions mettre en oeuvre sont simples dfinir.
51
S'il y a redondance pure et simple, on supprime une des deux variables. Dans les exemples prcits, ce n'est pas le cas. Dans les 2 premiers cas, le remde consistera diluer la corrlation, soit en n'isolant pas la ville de Paris du reste de son agglomration ou en reclassant les inactifs dans leur ancienne profession, soit en fusionnant la variable Ile de France et la variable Bassin Parisien. Dans le dernier cas, on choisira de faire des rgressions diffrentes sur chaque sous-population (une rgression pour les temps de travail des couples, une autre pour les non couples, la variable avoir un conjoint exerant une profession d'indpendant n'tant introduite que dans la premire rgression). Dans certains cas de corrlation statistique forte mais non parfaite, on peut songer introduire un code crois isolant les cas correspondant des incohrences de statut plutt que les deux codes en additif. Ainsi supposons que l'on ait introduit deux variables explicatives tre agriculteur , et tre fils d'agriculteur qui sont statistiquement assez fortement corrles. On peut souhaiter liminer les effets nocifs de cette corrlation en crant le code crois : agriculteur fils d'agriculteur ; agriculteur non fils d'agriculteur, non agriculteur fils d'agriculteur, non agriculteur fils de non agriculteur. Les coefficients seront d'estimation et d'interprtation plus simples. L'exemple n 2 montre un exemple de sortie SAS, dans le cas d'un modle mal spcifi, prsentant une corrlation mcanique, ainsi que la sortie aprs correction par dilution de la maladresse de spcification.
52
The SAS System The LOGISTIC Procedure Exemple 2a: Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Link Function: Logit Response Profile Ordered Value IPOLLU Count 1 2 1 2 1161 6171 modle mal spcifi STR6=DEP75 (Ville de Paris)
AIC 6408.974 6288.742 . SC 6415.874 6440.542 . -2 LOG L 6406.974 6244.742 162.232 with 21 DF (p=0.0001) Score . . 155.685 with 21 DF (p=0.0001) NOTE: The following parameters have been set to 0, since the variables are a linear combination of other variables as shown. DEP75 = 1 * STR6 Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 0.099 1.095 1.026 0.858 0.971 1.716 1.815 2.721 2.378 3.380 1.162 1.179 0.928 1.022 1.017 0.862 0.719 0.850 0.874 0.859 0.940 0.949
INTERCPT 1 -2.3164 0.1453 254.0946 0.0001 . DIP2 1 0.0911 0.1070 0.7247 0.3946 0.019617 DIP3 1 0.0256 0.1095 0.0546 0.8153 0.005497 DIP4 1 -0.1527 0.1315 1.3484 0.2456 -0.026494 DIP5 1 -0.0294 0.1065 0.0763 0.7824 -0.007406 STR2 1 0.5403 0.1163 21.5955 0.0001 0.111049 STR3 1 0.5960 0.1216 24.0269 0.0001 0.113534 STR4 1 1.0012 0.1012 97.8644 0.0001 0.250680 STR5 1 0.8663 0.1281 45.7125 0.0001 0.145174 STR6 1 1.2180 0.1657 54.0260 0.0001 0.132185 STL1 1 0.1500 0.0899 2.7866 0.0951 0.040872 STL3 1 0.1646 0.1022 2.5962 0.1071 0.041759 AGE1 1 -0.0751 0.1261 0.3551 0.5512 -0.013669 AGE2 1 0.0213 0.1073 0.0394 0.8426 0.004657 AGE3 1 0.0167 0.1016 0.0271 0.8693 0.003762 AGE5 1 -0.1480 0.1120 1.7451 0.1865 -0.028719 AGE6 1 -0.3306 0.1392 5.6431 0.0175 -0.052484 REV1 1 -0.1624 0.1383 1.3785 0.2404 -0.024617 REV2 1 -0.1341 0.1106 1.4710 0.2252 -0.027112 REV3 1 -0.1518 0.1197 1.6095 0.2046 -0.026899 REV4 1 -0.0620 0.1048 0.3499 0.5542 -0.012481 REV6 1 -0.0528 0.0948 0.3098 0.5778 -0.012423 DEP75 0 0 . . . . .
53
The SAS System The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Concordant = 60.9% Somers' D = 0.231 Discordant = 37.8% Gamma = 0.234 Tied = 1.2% Tau-a = 0.062 (7164531 pairs) c = 0.615
54
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Link Function: Logit Response Profile Ordered Value IPOLLU 1 2 1 2 1161 6171 Count Exemple 2b: Correction par dilution STR5 regroupe STR5 et STR6
AIC 6408.974 6288.742 . SC 6415.874 6440.542 . -2 LOG L 6406.974 6244.742 162.232 with 21 DF (p=0.0001) Score . . 155.685 with 21 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 0.099 1.095 1.026 0.858 0.971 1.716 1.815 2.721 2.378 1.162 1.179 0.928 1.022 1.017 0.862 0.719 0.850 0.874 0.859 0.940 0.949 1.421
INTERCPT 1 -2.3164 0.1453 254.0946 0.0001 . DIP2 1 0.0911 0.1070 0.7247 0.3946 0.019617 DIP3 1 0.0256 0.1095 0.0546 0.8153 0.005497 DIP4 1 -0.1527 0.1315 1.3484 0.2456 -0.026494 DIP5 1 -0.0294 0.1065 0.0763 0.7824 -0.007406 STR2 1 0.5403 0.1163 21.5955 0.0001 0.111049 STR3 1 0.5960 0.1216 24.0269 0.0001 0.113534 STR4 1 1.0012 0.1012 97.8644 0.0001 0.250680 STR5 1 0.8663 0.1281 45.7125 0.0001 0.167385 STL1 1 0.1500 0.0899 2.7866 0.0951 0.040872 STL3 1 0.1646 0.1022 2.5962 0.1071 0.041759 AGE1 1 -0.0751 0.1261 0.3551 0.5512 -0.013669 AGE2 1 0.0213 0.1073 0.0394 0.8426 0.004657 AGE3 1 0.0167 0.1016 0.0271 0.8693 0.003762 AGE5 1 -0.1480 0.1120 1.7451 0.1865 -0.028719 AGE6 1 -0.3306 0.1392 5.6431 0.0175 -0.052484 REV1 1 -0.1624 0.1383 1.3785 0.2404 -0.024617 REV2 1 -0.1341 0.1106 1.4710 0.2252 -0.027112 REV3 1 -0.1518 0.1197 1.6095 0.2046 -0.026899 REV4 1 -0.0620 0.1048 0.3499 0.5542 -0.012481 REV6 1 -0.0528 0.0948 0.3098 0.5778 -0.012423 DEP75 1 0.3517 0.1649 4.5488 0.0329 0.038167 Association of Predicted Probabilities and Observed Responses Concordant = 60.9% Somers' D = 0.231 Discordant = 37.8% Gamma = 0.234 Tied = 1.2% Tau-a = 0.062 (7164531 pairs) c = 0.615
55
Les dfauts d'additivit : Le modle latent spcifi sous la forme Z =
X
j
j + est un modle additif : l'unicit du
coefficient j signifie que l'on suppose que la variable X j agit de la mme faon quelles que soient les configurations prises par les variables X k , k j . Exemple : on tudie le fait de faire de la couture. Si l'on crit le modle sous la forme:
Y = a + bI femme + c1 I ge< 40 + c3 I ge >60 +

cela revient supposer que l'on a des effets ayant la forme suivante :
Or on sait que les hommes ne font jamais de couture, quel que soit leur ge. On aurait donc d chercher mesurer des profils ayant l'allure suivante :
Ceci ne peut se faire qu'en introduisant de nouvelles variables et en postulant un modle avec interaction entre l'ge et le sexe soit un modle de la forme :
Y = a + c1 I < 40 I H + c3 I > 60 I H + d 1 I < 40 I F + d 2 I 40 60 I F + d 3 I > 60 I F +

o la produit des variables indicatrices correspond la conjonction dune tranche dge et dun genre donn. Le modle comporte alors 6 coefficients estimer au lieu de 4. La tentation est grande de rejeter a priori tout modle spcifi additivement sous le prtexte que la ralit, complexe, ne saurait tre approche d'une faon aussi schmatique. Le danger est alors de multiplier les effets d'interaction. Mme avec des effectifs importants, on arrive vite faire crotre de faon rdhibitoire le nombre des coefficients estimer. Il semble plus adapt de se contenter d'une approximation additive, sauf dans le cas o il est manifeste que le phnomne est diffrent d'une strate l'autre (comme dans l'exemple de la couture). Le remde, dans ce cas, sera plus frquemment de faire deux rgressions
56
indpendantes, une sur chacune des strates, plutt que d'introduire un effet d'interaction limit un endroit bien particulier du modle : on tudiera alors de faon indpendante la couture chez les hommes et la couture chez les femmes, en permettant tous les coefficients de toutes les variables d'tre diffrents dans les 2 rgressions. Le choix de la situation de rfrence : les mmes conseils peuvent tre donns que dans le cas une seule dimension. On ajoutera seulement que le souci esthtique conduit ici privilgier un choix cohrent des caractristiques de la situation de rfrence, afin de reconstituer les diverses facettes du portrait robot d'un parfois hypothtique franais moyen . d. les variables omises Il arrive (et c'est d'ailleurs sans doute le cas pour chaque tude) que les donnes dont on dispose ne permettent pas d'introduire toutes les dimensions thoriquement pertinentes, mme sous forme d'indicateurs indirects. On est alors dans le cas d'un modle mal spcifi, avec variables omises. On sait que ceci, par le jeu des corrlations entre la variable omise et les variables prsentes, est susceptible de biaiser l'estimation des coefficients relatifs ces variables prsentes. Les considrations prcdentes sur les corrlations entre variables prsentes peuvent tre tendues, avec le mme constat rassurant : l'exprience montre que ce n'est que lorsque la variable omise est trs corrle avec une variable prsente, ce qui se repre aisment lors de la phase pralable de rflexion sur la spcification du modle, que l'on court un risque de mauvaise estimation. Dans la plupart des cas, l'estimation des coefficients des variables prsentes est suffisamment robuste pour que ces problmes de variables omises ne fassent pas courir le danger d'un commentaire erron. e. Pondrer ou ne pas pondrer : that's the question ! Quelle que soit l'enqute tudie, se pose le problme de la pondration, au minimum correction de structure, de faible ampleur, destine corriger l'chantillon des non rponses diffrentielles et extrapolation la population globale, au maximum correction en structure de trs forte ampleur, destine corriger des non rponses et de taux de sondage initiaux trs fortement ingaux, et extrapolation. Les avis divergent sur l'opportunit de pondrer. Traditionnellement les conomistes recommandent de ne pas pondrer car on tudie des comportements et le fait que M. Dupont ait un poids gal 2 ne lui accorde pas d'importance plus grande qu' M. Durand dont le poids vaut 1. Cette recommandation est justifie par le fait qu'en rgle gnrale il n'y aurait pas de relation entre la faon dont les poids sont dtermins et le phnomne analys, ce qui est loin d'tre le cas lorsqu'on surpondre les riches dans une enqute sur le patrimoine ou les grosses firmes dans une enqute salariale. Cependant, la plupart des discours (parfois enflamms) se rfrent plus frquemment des propos de circonstance ou des positions de principe qu une vritable rflexion mthodologique. Avant de poursuivre, deux remarques permettent dy voir plus clair :
57
Le modle LOGIT (mais pas le PROBIT) possde la proprit que les estimateurs des paramtres de pente (cest--dire, des paramtres relatifs aux variables explicatives) sont invariants une surreprsentation fonde sur la variable explique. Seule la constante du modle est affecte par la surreprsentation. Cest typiquement le cas des tudes mdicales : lorsque Y reprsente le fait dtre atteint dune maladie, les hpitaux peuvent slectionner indpendamment dans deux populations : une population atteinte (Y=1) et une population non atteinte (Y=0). Si la maladie est rare, cela correspond un fort surchantillonnage des sujets malades. Plus prcisment, on a le thorme suivant : Thorme : Soit D lvnement {un membre de la population est malade}. Soit ( x) = P ( D / x) la probabilit dtre malade conditionnellement x dans la population. On suppose que
( x ) suit un modle logistique dans la population, i.e. ( x) =
Soit S lvnement {lindividu est chantillonn} Soit 0 = P ( S / D ) et 1 = P ( S / D c )
1 1 + exp( x)
Alors P ( D / S , x) suit galement une loi logistique, avec le mme paramtre deffet ordonne lorigine * = + log(
mais avec une
0 ) 1 ( x) = P( D / S , x) =
P ( S / D, x ) P ( D / x ) P ( S / x)
En effet, par la formule de Bayes Mais
P ( S / D, x) = 0 , P ( D / x) = ( x), P ( S / x) = P( S / D, x) P ( D / x) + P ( S / D c , x) P ( D c / x) = 0 ( x) + 1 (1 ( x))
Do
( x) =
0 ( x ) 0 exp( + x) = = 0 ( x) + 1 (1 ( x)) 0 exp( + x) + 1 0 exp( + x) + 1 1
0 exp( + x) 1
Ce qui achve la dmonstration. Autrement dit, dans ce cas prcis, il nest pas ncessaire davoir un chantillon bien pondr pour estimer correctement les paramtres relatifs aux variables explicatives.. Finalement, si le modle logistique est vrai dans la population, peu importe que lon surreprsente ou sous-reprsente dans le tirage certaines modalits de la variable explique. Surreprsentation de certaines modalits de la variable explicative Dans ce cas, les estimateurs du maximum de vraisemblance pondr et non pondr sont diffrents, car la vraisemblance dpend des effectifs des cases, mais on peut vrifier que dans le cas o on na quune seule dimension explicative discrte, les estimateurs du MV sont les mmes que lon pondre ou pas. Il faut alors voir lestimateur pondr et lestimateur non pondr comme deux versions, qui diffrent en chantillon fini, mais reprsentent asymptotiquement les mmes coefficients des variables explicatives. Quelques conseils : Ces deux remarques rendent les considrations sur la pondration ou non des modles assez relatives. Cependant, les cas concrets peuvent ne pas concider exactement avec la situation prcdente. En particulier, la slection des chantillons se fait rarement, voire jamais, dans les enqutes courantes de lINSEE, sur la variable explique uniquement. Les procdures de redressement de la non-rponse Modles Logit et Probit 58
conduisent toujours, en pratique, des poids qui dpendent de nombreuses variables explicatives ; ces variables nont aucune raison dtre toutes prsentes dans les modles que lon cherche estimer. Dans un autre ordre dide, les praticiens qui utilisent les rsultats du modle pour estimer des probabilits d'mergence du phnomne tudi au sein des diverses strates de population (cf. infra) souhaitent en gnral retomber au plus prs sur les probabilits effectivement constates dans les strates. Pour cela, ils prfrent pondrer. Lorsque les poids sont peu disperss, les rsultats des rgressions pondres et non pondres au niveau des coefficients sont peu diffrents et le choix est donc nouveau de peu d'importance. Il n'en va pas de mme lorsque les poids sont trs disperss mme conditionnellement aux variables explicatives (poids allant par exemple de 1 40, de 1 100 .... Pondrer conduit la limite n'estimer le modle que sur les observations dotes d'un poids lev, les autres ne jouant plus aucun rle. Si les comportements des units poids lev sont diffrents des units poids faible, les rsultats varient beaucoup entre la version pondre et la version non pondre (coefficient changeant de signe par exemple). Une solution peut tre de crer des sous-populations au sein desquelles les poids sont peu disperss et de faire des rgressions indpendantes sur chacune des sous-populations, rgressions lmentaires pour lesquelles on se trouve ramen au cas prcdent, o le choix de pondrer on non a peu d'importance. Un autre type de difficult, trs pratique cette fois, surgit quand on pondre, au niveau des cartstypes des coefficients et donc des tests de significativit. Il suffit pour s'en convaincre de raliser deux estimations de la mme quation, la premire sans pondrer, la seconde en utilisant une pondration uniforme gale 10 000. les carts-types sont diviss par 100, alors mme que la prcision de l'estimation n'a en rien volu entre les deux variantes. Du point de vue informatique, toutse passe, lorsqu'on pondre, comme si on crait un fichier fictif o chaque individu se verrait dot d'un nombre de jumeaux gal son poids. Le nuage des points fictifs tudier est donc constitu par un trs grand nombre de points agrgs en petits tas. On conoit bien que si cette situation tait effectivement observe dans la ralit, cela se traduirait par une estimation trs prcise, d'autant plus prcise que le nombre de sosies est grand. On conoit tout aussi bien que lorsque l'existence de ces classes est le rsultat artificiel d'une opration de pondration, le gain de prcision n'est qu'un mirage, contre lequel il faut se prmunir. Pour cela, il importe de toujours utiliser des pondrations normalises de moyenne 1, en divisant la variable de pondration par sa moyenne calcule sur l'ensemble du fichier. Les tests obtenus sont alors utilisables, du moins en premire approximation. A l'exemple n 3, le lecteur trouvera lexemple tir de l'exploitation de la premire vague du panel europen des mnages. La rgression non pondre est celle de lexemple 1, elle nest donc pas reprise. La rgression 3a utilise la pondration brute prsente dans le fichier (redressement en structure et extrapolation), la rgression 3b utilise la pondration normalise ramene une variable de moyenne gale 1.
59
60
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Weight Variable: PONDM Sum of Weights: 22804144.184 Link Function: Logit Response Profile Ordered Value IPOLLU 1 2 1 2 1161 6171 Total Count Weight 3688498 19115646 Exemple 3a Pondration non normalise
AIC 20184188 19833424 . SC 20184195 19833569 . -2 LOG L 20184186 19833382 350804.56 with 20 DF (p=0.0001) Score . . 347947.94 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 0.128 1.021 0.951 0.827 1.044 1.195 1.273 1.888 1.596 1.364 1.222 1.001 1.035 1.037 0.884 0.706 0.751 0.841 0.857 0.943 1.023
INTERCPT 1 -2.0546 0.00249 683170.282 0.0001 . DIP2 1 0.0212 0.00189 125.5123 0.0001 0.255771 DIP3 1 -0.0498 0.00197 639.6019 0.0001 -0.587310 DIP4 1 -0.1903 0.00235 6562.2578 0.0001 -1.831404 DIP5 1 0.0429 0.00187 527.3661 0.0001 0.606142 STR2 1 0.1778 0.00194 8382.6693 0.0001 1.985481 STR3 1 0.2416 0.00199 14698.7915 0.0001 2.561458 STR4 1 0.6354 0.00156 166229.685 0.0001 8.846158 STR5 1 0.4672 0.00200 54362.3762 0.0001 4.638090 STL1 1 0.3107 0.00158 38645.5117 0.0001 4.734686 STL3 1 0.2002 0.00184 11859.9869 0.0001 2.838159 AGE1 1 0.00142 0.00223 0.4061 0.5240 0.014368 AGE2 1 0.0340 0.00192 312.1219 0.0001 0.412655 AGE3 1 0.0366 0.00183 398.2221 0.0001 0.454191 AGE5 1 -0.1231 0.00201 3734.4483 0.0001 -1.321614 AGE6 1 -0.3482 0.00230 22950.1225 0.0001 -3.395872 REV1 1 -0.2858 0.00254 12704.8548 0.0001 -2.356063 REV2 1 -0.1726 0.00198 7618.2953 0.0001 -1.918919 REV3 1 -0.1546 0.00214 5222.3580 0.0001 -1.503295 REV4 1 -0.0584 0.00186 985.0882 0.0001 -0.652953 REV6 1 0.0231 0.00165 197.2463 0.0001 0.309412 Association of Predicted Probabilities and Observed Responses Concordant = 59.0% Somers' D = 0.193 Discordant = 39.7% Gamma = 0.196 Tied = 1.3% Tau-a = 0.051
61
(7164531 pairs)
= 0.596
62
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IPOLLU Pollution Response Levels: 2 Number of Observations: 7332 Weight Variable: PONDMC Sum of Weights: 7356.1755433 Link Function: Logit Response Profile Ordered Value IPOLLU 1 2 1 2 1161 6171 Total Count Weight 1189.8382 6166.3374 Exemple 3b Pondration normalise
AIC 6513.028 6439.865 . SC 6519.928 6584.765 . -2 LOG L 6511.028 6397.865 113.163 with 20 DF (p=0.0001) Score . . 112.241 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -2.0546 0.1384 220.3775 0.0001 . 0.128 DIP2 1 0.0212 0.1052 0.0405 0.8405 0.004594 1.021 DIP3 1 -0.0498 0.1097 0.2063 0.6497 -0.010548 0.951 DIP4 1 -0.1903 0.1308 2.1169 0.1457 -0.032893 0.827 DIP5 1 0.0429 0.1040 0.1701 0.6800 0.010887 1.044 STR2 1 0.1778 0.1081 2.7041 0.1001 0.035660 1.195 STR3 1 0.2416 0.1109 4.7415 0.0294 0.046005 1.273 STR4 1 0.6354 0.0868 53.6225 0.0001 0.158882 1.888 STR5 1 0.4672 0.1116 17.5363 0.0001 0.083303 1.596 STL1 1 0.3107 0.0880 12.4663 0.0004 0.085037 1.364 STL3 1 0.2002 0.1024 3.8258 0.0505 0.050975 1.222 AGE1 1 0.00142 0.1243 0.0001 0.9909 0.000258 1.001 AGE2 1 0.0340 0.1070 0.1007 0.7510 0.007411 1.035 AGE3 1 0.0366 0.1020 0.1285 0.7200 0.008158 1.037 AGE5 1 -0.1231 0.1122 1.2047 0.2724 -0.023737 0.884 AGE6 1 -0.3482 0.1280 7.4033 0.0065 -0.060992 0.706 REV1 1 -0.2858 0.1412 4.0983 0.0429 -0.042316 0.751 REV2 1 -0.1726 0.1101 2.4575 0.1170 -0.034465 0.841 REV3 1 -0.1546 0.1191 1.6846 0.1943 -0.027000 0.857 REV4 1 -0.0584 0.1036 0.3178 0.5730 -0.011727 0.943 REV6 1 0.0231 0.0917 0.0636 0.8009 0.005557 1.023 Association of Predicted Probabilities and Observed Responses Concordant = 59.0% Somers' D = 0.193 Discordant = 39.7% Gamma = 0.196 Tied = 1.3% Tau-a = 0.051
63
(7164531 pairs)
= 0.596
64
f. L'endognit Les problmes lis l'endognit ou la simultanit se produisent, comme dans le cas des modles variables quantitatives, ds lors que l'on cherche estimer sparment l'une des quations d'un modle quations simultanes se prsentant sous forme structurelle. Dans ce cas, la variable explique dpend des variables explicatives exognes X1 mais aussi de la variable Y2 suspecte dendognit:
Y1* = Y2 1 + X 1 1 + u1
La rsolution du systme dquations simultanes permet de mettre en vidence la forme rduite du systme bivari. Supposons que celle-ci s'crive :
Y1* = X 1 1 + v1 Y2 = X 2 2 + v 2
avec (v1 , v 2 ) suivant une loi normale bidimensionnelle.
(1) (2)
Y2 est quantitative. Moyennant une redfinition des paramtres, on * peut monter que conditionnellement Y2 , Y1 peut s'crire:
On suppose ici que la variable
* Y1* = Y2 + X 1 + v 2 + u1
* u1 suit une loi normale conditionnellement v2 .
Une approche en termes de maximisation de la vraisemblance conditionnelle permet de tester l'endognit. Elle consiste estimer l'quation (2) par les moindres carrs ordinaires. Les variables explicatives peuvent ou non comporter les variables de l'quation (1) mais il doit y avoir au moins une $2 qu'il suffit d'introduire dans l'quation variable instrumentale supplmentaire. On dispose d'un estimateur v prcdente pour obtenir des valeurs non biaises de et . Si le coefficient n'est pas significatif, alors on rejette l'hypothse d'endognit. Notons que cette procdure ne sapplique que dans le cas dun modle PROBIT, puisque les rsidus doivent tre normaux. 2. La lecture des rsultats Ici encore les faons de faire divergent d'un statisticien l'autre, en particulier sur la place accorder la notion de significativit globale d'une dimension explicative, et sur la faon de classer par ordre d'importance les diverses dimensions introduites et donc de rpondre une question du type : si on devait ne garder que deux ou trois dimensions explicatives, lesquelles garderait-on ? Il nous semble que la faon de procder la plus simple consiste accorder le maximum d'importance la significativit des coefficients, pour chacune des variables prise individuellement. a. significativit des coefficients
$2 V $ = $2 $ j j j $ Si
Le test le plus ais utiliser est la statistique de Student (ou son carr, la statistique de Wald
$2 j ) (cf partie test ) $ j > 2 , le coefficient j
est significativement positif au seuil de 5 % : on a en effet la
configuration suivante:
2 j j
+ 2 j j
2 + 2 j et j , intervalle entirement situ dans le vrai j ayant 95 % de chances d'tre entre j j

l'ensemble des nombres rels positifs.
65
j < 2 , le coefficient Si j
est significativement ngatif :
a 95 % de chances d'tre entre
$ 2 $j j
et
$ + 2 $ j, j
intervalle situ dans l'ensemble des nombres rels ngatifs puisqu'on a la
configuration suivante :
2 j j
$ j
+ 2 j j
Rq 1 : On peut tre moins ambitieux et accepter une notion de significativit des seuils suprieurs 5 %. On acceptera alors d'interprter des coefficients pour lesquels le Student, en valeur absolue est de d'ordre de 1,8, 1,6 voire moins. Ceci sera souvent ncessaire dans les tudes bases sur des enqutes petit chantillon. Rq 2 : La proc logistic imprime la statistique de Wald, pour la publication il peut tre souhaitable de transformer le fichier de sortie pour imprimer la statistique de Student. b. L'interprtation des coefficients en termes de probabilit Cas o toutes les variables explicatives sont des variables 0,1 A partir du taux de pntration de la pratique dans la situation de rfrence et des coefficients des diverses variables, on peut donner une interprtation quantitative des rsultats obtenus. Le taux de pntration de la pratique dans la situation de rfrence vaut:
0 =
o 0 est la constante estime par le modle.
1 = F ( 0 ) 1 + exp( 0 )
Pour un individu qui ne dvie de la situation de rfrence que par la variable
X j le taux de pratique vaut :
1 = F ( 0 + j ) 1 + exp( 0 j )
Pour un individu qui est affect de plusieurs dviations rfrence, le taux de pratique vaut:
X j , j J par rapport la situation de
1 = F ( 0 + j ) 1 + exp( 0 j ) jJ
j J
La variation de probabilit entrane par l'ensemble de dviations est donc:
1 1 1 + exp( 0 j ) 1 + exp( 0 )
j J
On voit donc qu'il n' a pas additivit des effets de dviations dans l'espace des probabilits, alors qu'il y a additivit dans l'espace des paramtres, et ce cause de la non linarit de la fonction:
F ( x) =
1 1 + exp( x)
Sous les hypothses ici retenues , les dviations par rapport la situation de rfrence ne sont pas de petites variations : on saute de tranche d'ge, de tranche de revenu, de CS etc...
66
On ne peut donc utiliser de formules approches. Cas d'une variable explicative continue. On peut alors envisager le cas d'une petite dviation par rapport la situation initiale. Supposons ainsi que l'on s'carte du revenu initial premier ordre :
R0 de dR . La variation de probabilit s'crit au
d = 0 (1 0 )dR
o
est le coefficient de la variable revenu et 0 la probabilit d'observer la pratique dans la situation initiale.
Rq 1 : Lorsqu'il y a suffisamment d'effectif dans la situation de rfrence, on peut calculer le vrai taux de pratique observ au lieu de l'estimer comme on vient de le faire, et utiliser cette valeur dans les formules prcdentes. Certains y voient quelques avantages, en particulier celui d'viter une discordance entre le taux estim et le vrai taux, qu'un utilisateur des donnes peut tre tent de calculer, pour cette situation de rfrence, partir de tabulations classiques. On peut cependant sinterroger sur laspect bricol dune telle pratique. Rq 2 : Lorsqu'on compare des rgressions ayant les mmes variables explicatives mais portant sur deux (ou plusieurs) pratiques diffrentes (diverses pratiques de loisir, divers biens durables etc...) on peut tre tent de comparer les rsultats entre eux. Une comparaison directe serait trompeuse si on la conduisait partir des variations de probabilit : une mme variation de probabilit n'a pas le mme sens selon qu'elle s'applique une pratique trs, trs peu rpandue ou adopte par environ la moiti de la population. Le recours aurait des inconvnients symtriques. Au total, les deux mthodes conduiraient des rsultats radicalement diffrents. (voir exemple n4) La loi logistique fournit une normalisation qui permet de comparer directement les coefficients de chaque variable d'une rgression l'autre, mme si les taux de pratique dans la situation de rfrence sont trs diffrents. Des coefficients estims la mme valeur par le modle correspondent une intensit quivalente de la disparit tudie pour les deux pratiques. En termes de probabilit, cette mme disparit se traduit par un cart faible lorsque la pratique est rpandue dans la moiti de la population, et par des carts plus forts pour des pratiques peu ou trs rpandues (il y a symtrie aux deux extrmits de la population). De fait, la diffrence logistique est proche dune chelle multiplicative sur si est petit, dune chelle additive si est proche de 0,5, et dune chelle multiplicative sur 1 si est voisin de 1. Ceci renvoie lintuition correspondant lobservation des phnomnes de diffusion. Le dmarrage et la saturation sont difficiles obtenir, alors que la diffusion dans les zones mdianes est plus aise. Deux exemples tirs du panel europen des mnages permettent d'illustrer cette remarque. Etre priv de lave-vaisselle pour des raisons financires (et non par got) est assez peu frquent (10 % des mnages sont concerns), alors qu'tre priv de rsidence secondaire pour les mmes raisons est plus rpandu (prs de 40 % des mnages). Estimons le mme modle logit pour ces deux pratiques. Si on considre la dimension explicative ge de la personne de rfrence , l'effet le plus fort est li la variable AG6 (avoir plus de 75 ans) ; les mnages les plus gs se dclarent les moins privs dans les deux cas. Les valeurs des coefficients indiquent que l'effet est particulirement marqu dans le cas du lave-vaisselle (- 1,15 au lieu de - 0,89 dans le cas de la rsidence secondaire). Si on calcule les diffrences de probabilit, entre une situation qui diffre de la rfrence uniquement sous l'aspect ge (AG6 au lieu de AG4), et la situation de rfrence, on obtient : pour le lave-vaisselle
= - 6,66 points (on passe de 10,09 % 3,43 %) = - 18,97 points (on passe de 41,77 % 22,80 %)
pour la rsidence secondaire
Si on se fiait ces valeurs, on conclurait la plus forte importance de l'effet de l'ge dans le cas de la rsidence secondaire. Si on se rfrait enfin 0 , on aurait :
67
pour le lave-vaisselle
0 = -0,66 % 0 = - 0,45 %
pour la rsidence secondaire
et donc un constat en sens inverse. Rq 3 : Juger de la force d'un effet doit galement se faire partir du coefficient, et non pas des diffrences de probabilit. On est alors tributaire du choix de la situation de rfrence ; il suffit de choisir soigneusement une situation de rfrence pour laquelle le taux de pratique est trs faible pour obtenir des impressionnants et mettre en pleine lumire (artificielle) un effet en ralit assez secondaire. Rq 4 : Quand on combine des dviations de la situation de rfrence, rien n'empche mathmatiquement de calculer des probabilits correspondant des situations impossibles ou loufoques. Le problme se pose donc de savoir si on a le droit de sortir de l'chantillon et de reconstituer des probabilits fictives pour des solutions non reprsentes dans l'chantillon. Ici encore, on se contentera d'une rponse pragmatique : un modle n'est jamais presse-bouton , sa mise en oeuvre ncessite toujours un minimum (maximum ?) de bon sens. Ce qui empchera le statisticien d'utiliser ces combinaisons monstrueuses .
68
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IVAIS Lave vaiss. Response Levels: 2 Number of Observations: 7344 Link Function: Logit Response Profile Ordered Value IVAIS 1 2 1 2 Count Exemple 4a: Lave-vaisselle
758 6586
AIC 4879.693 4459.646 . SC 4886.595 4604.580 . -2 LOG L 4877.693 4417.646 460.047 with 20 DF (p=0.0001) Score . . 453.731 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 0.112 0.733 0.753 0.710 0.707 0.802 0.983 1.086 1.047 1.385 0.700 0.962 0.954 0.945 0.543 0.317 3.261 2.851 1.633 1.394 0.434
INTERCPT 1 -2.1873 0.1632 179.5674 0.0001 . DIP2 1 -0.3103 0.1254 6.1250 0.0133 -0.066863 DIP3 1 -0.2842 0.1207 5.5416 0.0186 -0.061031 DIP4 1 -0.3428 0.1497 5.2472 0.0220 -0.059533 DIP5 1 -0.3463 0.1261 7.5391 0.0060 -0.087156 STR2 1 -0.2201 0.1281 2.9543 0.0857 -0.045277 STR3 1 -0.0174 0.1289 0.0181 0.8929 -0.003306 STR4 1 0.0823 0.1066 0.5965 0.4399 0.020605 STR5 1 0.0461 0.1556 0.0879 0.7668 0.007735 STL1 1 0.3258 0.1069 9.2938 0.0023 0.088767 STL3 1 -0.3572 0.1385 6.6560 0.0099 -0.090618 AGE1 1 -0.0386 0.1434 0.0723 0.7881 -0.007020 AGE2 1 -0.0469 0.1265 0.1375 0.7107 -0.010248 AGE3 1 -0.0564 0.1237 0.2080 0.6484 -0.012684 AGE5 1 -0.6107 0.1584 14.8596 0.0001 -0.118568 AGE6 1 -1.1483 0.2039 31.7114 0.0001 -0.182299 REV1 1 1.1821 0.1408 70.4817 0.0001 0.179467 REV2 1 1.0477 0.1245 70.7670 0.0001 0.211768 REV3 1 0.4907 0.1439 11.6339 0.0006 0.086865 REV4 1 0.3322 0.1372 5.8647 0.0154 0.066850 REV6 1 -0.8350 0.1697 24.1961 0.0001 -0.196638 Association of Predicted Probabilities and Observed Responses Concordant = 72.3% Somers' D = 0.455 Discordant = 26.9% Gamma = 0.458 Tied = 0.8% Tau-a = 0.084 (4992188 pairs) c = 0.727
69
The SAS System The LOGISTIC Procedure Data Set: WORK.CODIF Response Variable: IRS Resid. second. Response Levels: 2 Number of Observations: 7344 Link Function: Logit Response Profile Ordered Value IRS 1 2 1 2 Count 2837 4507 Exemple 4b: Rsidence secondaire
AIC 9799.851 9194.478 . SC 9806.753 9339.412 . -2 LOG L 9797.851 9152.478 645.373 with 20 DF (p=0.0001) Score . . 606.987 with 20 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Variable DF Estimate Error Wald Pr > Standardized Odds Chi-Square Chi-Square Estimate Ratio 0.718 0.860 0.926 0.825 0.709 1.145 1.070 1.583 1.378 1.024 0.622 1.454 1.660 1.376 0.648 0.412 0.821 1.004 0.906 1.033 0.576
INTERCPT 1 -0.3319 0.1025 10.4947 0.0012 . DIP2 1 -0.1503 0.0825 3.3223 0.0683 -0.032380 DIP3 1 -0.0765 0.0820 0.8691 0.3512 -0.016427 DIP4 1 -0.1926 0.0971 3.9350 0.0473 -0.033440 DIP5 1 -0.3444 0.0822 17.5720 0.0001 -0.086687 STR2 1 0.1357 0.0776 3.0582 0.0803 0.027904 STR3 1 0.0673 0.0830 0.6568 0.4177 0.012804 STR4 1 0.4591 0.0674 46.3801 0.0001 0.114908 STR5 1 0.3204 0.0931 11.8548 0.0006 0.053721 STL1 1 0.0237 0.0658 0.1298 0.7186 0.006457 STL3 1 -0.4751 0.0784 36.7676 0.0001 -0.120513 AGE1 1 0.3744 0.0967 14.9933 0.0001 0.068174 AGE2 1 0.5066 0.0820 38.2125 0.0001 0.110667 AGE3 1 0.3193 0.0778 16.8368 0.0001 0.071817 AGE5 1 -0.4338 0.0918 22.3493 0.0001 -0.084217 AGE6 1 -0.8875 0.1172 57.3647 0.0001 -0.140897 REV1 1 -0.1978 0.1034 3.6578 0.0558 -0.030026 REV2 1 0.00376 0.0826 0.0021 0.9637 0.000760 REV3 1 -0.0984 0.0895 1.2104 0.2713 -0.017427 REV4 1 0.0325 0.0801 0.1647 0.6849 0.006540 REV6 1 -0.5514 0.0761 52.5060 0.0001 -0.129864 Association of Predicted Probabilities and Observed Responses Concordant = 66.5% Somers' D = 0.335 Discordant = 33.0% Gamma = 0.337 Tied = 0.5% Tau-a = 0.159 (12786359 pairs) c = 0.667
70
c. significativit globale d'une dimension explicative. Diffrents moyens se prsentent pour juger de la significativit globale d'une dimension explicative, sans qu'aucun n'apparaisse suprieur l'autre: Une premire mthode fonde sur le pouvoir discriminant de la dimension dans la population considre consiste raliser un test sur le caractre explicatif de toutes les variables introduites pour reprsenter cette dimension. On teste ainsi l'galit zro de tous les coefficients introduits. Le test du rapport de vraisemblance se conduit aisment : on estime dans un premier temps le modle avec les variables reprsentant la dimension et dans un deuxime temps le modle sans ces variables. L'oppos du double des carts des logarithmes des vraisemblances suit alors un autant de degrs de libert que l'on a introduit de variables pour reprsenter la dimension. Plus la statistique obtenue s'loigne du seuil de significativit, plus on considre que la dimension apporte de l'information. Un moyen plus ais en termes de programmation consiste utiliser linstruction Test de la Proc Logistic, afin de tester la nullit de tous les coefficients correspondant aux variables reprsentant la dimension. La procdure fournit alors un test de Wald, asymptotiquement quivalent au test du rapport de vraisemblance. Notons qu linstar de la Proc GLM, la Proc Probit fournit directement la statistique de Wald correspondant la dimension ds lors que linstruction Class est utilise.
2
Une seconde mthode consiste examiner les diffrents coefficients eux-mmes et en valuer la significativit indpendamment de celle des autres coefficients de la mme dimension. Aucune solution n'est en soi prfrable l'autre, et les deux techniques apparaissent comme complmentaires lors de llaboration de linterprtation. Le test de Wald peut refuser la non significativit de la dimension alors mme quaucun coefficient pris individuellement nest significatif. De mme, la significativit de la dimension peut tre rejete alors quun ou plusieurs coefficients sont significatifs pris individuellement. Ce dernier cas est beaucoup plus rare. Par exemple, dans le cas de deux coefficients, on peut montrer que le rectangle correspondant au produit des intervalles de confiance au niveau pour les deux paramtres est une rgion de confiance (1-2 ) % pour le paramtre bidimensionnel. Cela signifie que si un des deux paramtres est significatif 5 %, il y a moins de 10 % de chances que le paramtre bidimensionnel ne soit pas significatif.
2
$ + 2 $2 2 $ 2 $ 2 $2 2
$ 2 $1 1
$ 1
$ + 2 $1 1
La figure montre les intervalles de confiance associs aux deux paramtres ainsi que lellipsode de confiance (pour le mme niveau de confiance) associ au paramtre bidimensionnel. Les croix reprsentent diverses positions alternatives du point (0,0). On a illustr trois cas : Cas 1 : les deux paramtres sont significatifs, la dimension aussi. Cas 2 : les paramtres sont significatifs, la dimension ne lest pas.. Modles Logit et Probit 71
Cas 3 : les deux paramtres ne sont pas significatifs, mais la dimension globale lest. Dans le commentaire du rle jou par la dimension, il convient donc dutiliser les deux approches, notamment lorsque les coefficients sont peu significatifs. Les tests de coefficients isols peuvent parfois apparaitre pessimistes ! Ainsi, dans le cas o la dimension explicative est continue ordonne et que l'on obtient des coefficients qui dessinent un profil rgulier conforme ce que la thorie permet de prvoir, on peut prendre argument dune significativit de la dimension au sens du test de Wald et risquer de commenter le signe dun coefficient alors mme que le Student correspondant est faible (de l'ordre de 1 par exemple). d. peut-on classer les diverses dimensions explicatives par ordre d'importance ( puissance explicative ) ? Plutt que de juger de la seule significativit dune dimension explicative, on peut souhaiter aller plus loin et tablir un ordre entre les dimensions, des plus explicatives aux moins informatives. Les problmes rencontrs sont de mme nature que prcdemment, les diffrences de classement entre les mthodes provenant du traitement diffrent des strates peu nombreuses mais trs atypiques. A nouveau, le classement est affaire de point de vue : On peut envisager de comparer les variations de pouvoir explicatif global du modle entranes par l'adjonction de chaque dimension explicative prise une une (on introduit toutes les variables correspondantes et on calcule le gain de pouvoir explicatif). La variable la plus explicative serait celle qui entrane la plus forte variation. Cette solution prsente l'inconvnient d'un cot informatique lev. En outre, on peut trouver peu judicieux d'estimer des modles dont on sait pertinemment qu'ils sont mal spcifis. On peut aussi pour chaque dimension, calculer la valeur absolue de l'cart entre le plus fort coefficient significativement positif (ou 0 s'il n'y en a pas) et le plus fort coefficient significativement ngatif (ou 0 s'il n'y en a pas) et classer les diverses dimensions explicatives selon ces valeurs. La rigueur scientifique de cette pratique n'est pas absolue : en particulier si on change la codification de la dimension explicative (tranches plus fines par exemple), on peut modifier le classement. Toutefois, ici encore, si le modle est convenablement spcifi, cette mthode fournit un moyen fiable de sparer les dimensions de 1re importance de celles de 2me niveau. Il ne faut toutefois pas en attendre un vritable classement. Afin de pallier les insuffisances de ces mthodes, on peut conseiller : de faire un grand usage de variantes (tester la robustesse du classement face des changements dans la faon dont les dimensions explicatives sont reprsentes). D'une faon gnrale l'usage de variantes est un bon moyen de se rendre compte du degr auquel on peut ajouter foi aux rsultats du modle : on peut recourir des variantes sur la dfinition de l'chantillon, sur le degr auquel on introduit de l'interactivit, sur la codification etc... de comparer avec d'autres mthodes statistiques. Comme toute mthode d'analyse statistique, l'analyse Logit repose sur des hypothses plus ou moins implicites (en particulier celle dj discute concernant l'additivit). D'autres mthodes comme l'analyse de correspondances ou la segmentation reposent sur d'autres combinaisons d'hypothses. Si ces mthodes confirment les rsultats du Logit (ou du moins ne les infirment pas), on sera tout fait l'aise pour commenter les rsultats, sans tat d'me particulier. C'est ainsi que les expriences antrieures ont montr que le classement des dimensions explicatives effectu comme on vient de le dcrire, recoupait presque systmatiquement les conclusions que fournissent des analyses de segmentation ralises partir des mmes variables. e. les coefficients gaux Ceci se produira chaque fois que pour une strate dfinie par une variable personne ou tout le monde est concern par la pratique tudie. La probabilit j estimer vaut alors 0 ou 1. Vu la forme de la fonction exponentielle,
1 1 + exp( 0 j )
cette probabilit ne peut valoir 0 que si j
= (alors exp( 0 j ) = + ).
72
De mme, elle ne peut valoir 1 que si
j = + . Ceci risque de se produire ds que l'on a une strate
d'effectif faible et que l'on tudie une pratique trs peu ou trs rpandue. Les algorithmes utiliss dans la procdure d'estimation ont des conditions d'arrt qui empchent de partir l'infini. La proc logistic, face une telle occurrence se comporte de la faon suivante : 1er cas : cest le cas le plus frquent ; le listing ne comporte que la page simple statistics for Explanatory variables et la mention Convergence was not attained in 25 iterations (voir exemple n 2 pour un fac simil de la sortie d'un message de ce type, obtenu dans le cadre de l'analyse des problmes de colinarit). Le nombre d'itrations prvu par dfaut (ie 25) ne suffit pas. Il faut relancer en modifiant ce nombre d'itrations en rajoutant dans la carte spcifiant le modle, l'instruction Maxiter = n (n > 25) indiquant le nombre maximum d'itrations raliser. Afin de rduire la frquence des cas o il faut relancer, on peut conseiller de procder l'estimation, ds le dbut, en introduisant l'instruction Maxiter = 50 : si le modle converge rapidement cela n'a aucune influence, dans le cas contraire on vitera la plupart du temps d'avoir relancer, et on se retrouvera ds le premier passage dans le 2me cas. 2me cas : celui-ci ne se produit plus que trs rarement partir de la version 6.08 de SAS ; le modle a converg, mais la page de rsultats prsente des coefficients estims trs forts. On est alors dans le cas d'un j = . Il conviendra donc, dans la publication, de remplacer le coefficient apparaissant dans le listing par + ou - selon le cas. Les autres coefficients sont estims correctement : tout se passe comme si l'on travaillait sur le sous-fichier obtenu en supprimant les observations correspondant la strate pour laquelle le coefficient est infini ; ce n'est que pour le calcul des statistiques de test global que des diffrences apparaissent. La situation se prsente de faon analogue, mais un peu plus complexe lorsque c'est dans une des strates composant la situation de rfrence que la pratique tudie est absente (ou au contraire omniprsente). Deux possibilits sont utilisables pour dtecter ce type de situation. La premire consiste raliser une analyse des frquences respectives des deux modalits de la variable explique pour lensemble des variables explicatives. Une frquence nulle ou gale 100 % pour lune des variables entrane une absence de convergence. De fait, une telle analyse devrait tre ralise systmatiquement avant de mettre en oeuvre une Proc Logistic, afin de mieux comprendre les rsultats. Un autre moyen consiste utiliser loption Itprint de linstruction Model. La valeur de tous les coefficients sera imprime chaque itration. Il est alors ais de dtecter les coefficients qui tendent vers linfini. Dans le cas de coefficients infinis, deux solutions se prsentent: - soit exclure la sous-population concerne. On travaille sur un sous-chantillon. - soit regrouper cette sous-population avec une strate voisine, de sorte que la frquence de la pratique cesse dtre nulle ou gale 100 %. On conserve alors lchantillon complet, mais lanalyse perd en finesse. f. derniers problmes Une fois tous les problmes prcdents rsolus, une fois obtenu un modle convergent, sans aucune anomalie visible, il se peut qu'un dernier pige guette le statisticien imprudent. L'estimation peut tre en fait fragile, car ne reposant que sur des effectifs trs rduits. Un signe rvlateur peut veiller les soupons : c'est l'existence parmi les carts-types estims de valeurs trs fortes (de l'ordre de 100 par exemple, alors que les autres sont de l'ordre de 1 ou infrieurs). Cest par exemple le cas lorsque la population de rfrence est trop peu nombreuse dans lune de ses dimensions. On peut facilement reprer ce type de situation en croisant pralablement la variable explique avec les variables explicatives. La prudence conseille alors de s'assurer de la robustesse des rsultats, en modifiant, sur le point douteux, la spcification du modle. Une fois encore on ne saurait trop recommander l'usage systmatique de variantes (de spcification, d'chantillon, de population de rfrence ...). 3 - La publication des rsultats Un bref survol des publications rcentes comportant des modles logit suffit prouver qu'il n'y a pas encore de standards de prsentation. De l'information minimale, ne faisant apparatre que les signes des coefficients significativement diffrents de 0 avec ventuellement indication des coefficients les plus
73
marqus la prsentation complte de tous les coefficients avec les carts-types correspondant, qui seule peut donner satisfaction aux conomtres, la gamme des solutions choisies est assez tendue (voir exemples 7). Les responsables de publications grand public rpugnent souvent noyer le lecteur sous un torrent de chiffres, surtout s'il s'agit de coefficients dont le caractre abstrait ne peut tre lev sans un important effort de la part du lecteur pour assimiler la thorie conomtrique. Ils conseilleront alors, soit de publier uniquement un tableau de + et -, soit de publier les probabilits ou les diffrences de probabilit (en absolu ou relatif) entranes par les dviations de la situation de rfrence. La premire solution a l'inconvnient de rduire trs fortement la quantit d'information transmise, puisqu'on perd toute indication de l'intensit des effets. Les efforts pour tourner cette difficult ne sont que des palliatifs, car les solutions disponibles ne sont pas irrprochables : on peut choisir de faire apparatre par un graphisme spcial (en gras, avec +++, ...) les effets pour lesquels la statistique de Student est la plus forte (mais ne confond-on pas alors dans un seul chiffre importance de l'effet proprement parler et prcision de son estimation ?) ou ceux pour lesquels les coefficients sont les plus forts (en tant significativement diffrents de 0 videmment). Le choix soulve alors le mme type de difficults que celles voques pour la dtermination de la puissance explicative. De plus, o s'arrter : doit-on observer une rgle de conduite du type on attire l'attention sur les 3 (ou 4 ou 2) coefficients les plus forts systmatiquement, ou doit-on se laisser guider par les ruptures dans la distribution des coefficients et avoir un nombre variable, dtermin au cas par cas, d'effets mis en vidence ? On voit que la place laisse la subjectivit de l'auteur est grande (trop ?). La seconde solution, comme on l'a vu plus haut, risque d'induire le lecteur en erreur en l'incitant effectuer d'une rgression l'autre des comparaisons illicites. Elles est particulirement dangereuse lorsque l'on tudie dans le mme article plusieurs pratiques trs diversement rpandues. Les impratifs techniques, d'autre part, peuvent rendre difficile la publication d'un modle ayant une centaine de variables explicatives. Peut-on, ou non, publier un extrait du modle centr sur un effet particulier ? On ne peut qu'tre rticent l'ide d'une telle pratique : les rsultats sont conditionnels la spcification du modle et il importe que le lecteur puisse se faire une ide des qualits et limites de l'ensemble des variables retenues. D'autre part ce n'est que face l'ensemble des coefficients que le lecteur peut talonner son regard et juger par lui-mme s'il s'agit d'un effet de premire importance ou non. Il faut donc publier le modle intgralement. Quand cela est vraiment impossible, il faut au moins donner la liste des variables introduites et viter toute publication o n'apparatraient que les coefficients relatifs une seule dimension explicative. A plusieurs reprises, dans le cours de cette note, on a distingu les dimensions explicatives de nature continues de celles plus qualitatives . Dans le cas des variables continues ordonnes, on ne saurait trop recommander la publication des profils dessins par les divers coefficients relatifs cette dimension (voir exemple n 8).
74
Exemples n7
75
L'INFORMATION MINIMALE ... Effets des caractristiques du mnage sur le statut doccupation* Locataire Accdant Accdant Proprircent ancien taire Chef de mnage : de 30 ans ou moins........................... de 30 45 ans de 46 65 ans .................................. de 66 75 ans .................................. de plus de 75 ans.............................. Mnage compos : dun individu ...................................... dun couple seul ................................ dun couple avec un enfant dun couple avec deux enfants......... dun couple avec trois enfants ou plus ........................................................ Mari depuis plus de deux ans mari depuis moins de deux ans ........... Revenu du mnage infrieur 35 000 F ........................... de 35 000 55 000 F ........................ de 55 000 80 000 F de 80 000 110 000 F ...................... suprieur 110 000 F ....................... Chef de mnage : inactif................................................. agriculteur ......................................... patron ................................................ ouvrier ............................................... employ cadre moyen ..................................... cadre suprieur ................................ Lieu de rsidence : commune rurale ................................ commune urgaine hors agglomration parisienne agglomration parisienne.................. ville de Paris ......................................
+ +
+ + +
+ + + +
+ + + + + +
+ + +
Type dhabitat : habitat collectif habitat individuel................................ + + + * Ces effets sont tudis toutes choses gales par ailleurs (annexe p.30). Pour chaque caractristique, la situation de rfrence par rapport laquelle sont tudis les effets est indique en italique. Labsence de signe indique que leffet nest pas statistiquement significatif ; le signe renforc (+ ou -) souligne les effets les plus marqus. Source : Economie et Statistique, n 161, dcembre 1983, p. 24
76
Tableau 1 : effets des caractristiques socio-dmographiques sur la proprit du logement principal Proprit du Caractristiques socio-dmongraphiques logement principal Statut matrimonial x ge de lhomme Cohabitation juvnile x moins de 30 ans 30-35 ans () Union libre avant mariage x moins de 30 ans 30 ans et plus Mariage x moins de 30 ans 30-35 ans * 35-45 ans + 45 ans et plus +++ Cohabitation non juvnile x moins de 35 ans 35 ans et plus () Union libre aprs mariage x moins de 45 ans 45 ans et plus Urbanisation Communes rurales +++ Units urbaines de moins de 100 000 h * Units urbaines de 100 000 h et plus Banlieue parisienne Paris Revenu du couple Moins de 75 000 F De 75 000 F 100 000 F * De 100 000 F 130 000 F De 130 000 F 200 000 F +++ 200 000 F et plus +++ Profession de lhomme Agriculteur Commerant artisan (+) Cadre Profession intermdiaire Employ Ouvrier * Inactif Profession du pre de lhomme Agriculteur (+) Indpendant Cadre Employ Ouvrier * Inactif Niveau dducation de lhomme Sans diplme Niveau intermdiaire * Niveau Bac ou tudes suprieures La situation de rfrence par rapport laquelle sont tudis les effets est repre par un *, labsence de signe indique que leffet nest pas statistiquement significatif, les signes entre parenthses, simples, doubles ou triples, indiquent les effets, des moins marqus aux plus marqus.
Source : Economie et Prvision, n 91, 1989, p. 109
77
POUR UN PUBLIC UN PEU PLUS LARGE Les facteurs explicatifs de la production domestique : rsultats dun modle "toutes choses gales" Etre Faire un Faire des Faire des Faire Semer, S'occuper multivtement conserves rparations des planter des pratiquant en sur des petites des plantes couture app. mn. trvx de lgumes d'appart. ou la bricol. voiture ds le log. 0,7 0,3 -1,7 -1,8 -3,2 -3,0 -0,4 0,3 0,6 0,9 -0,4 -1,3 -2,1 -0,3 -,03 -0,5 -,02 0,7 0,5 0,3 -0,5 -1,8 -0,8 0,2 0,4 0,5 0,7 0,3 -0,4 -1,2 -1,5 -0,5 -2,7 -0,2 0,2 0,5 0,3 -0,5 -1,3 -1,7 -0,6 -1,6 0,2 -0,7 -0,4 0,4 0,6 0,3 -0,5 -0,5 -1,4 -0,3 -0,2
Variables introduites dans le modle
Age du chef de mnage 1- moins de 30 ans 2- de 30 39 ans 3- de 40 49 ans* 4- fr 50 59 ans 5- de 60 69 ans 6- de 70 79 ans 7- 80 ans et plus Taille du mnage 0- un homme seul 1- femme seule 2- 2 personnes 3- 3 personnes* 4- 4 personnes 5- 5 personnes 6- 6 personnes et plus Catgorie socioprofessionnelle du chef de mnage 1- agriculteur 2- artisan, com., chef d'entr. 3- cadre suprieur 4- profession intermdiaire 5- employ 6- ouvrier* Diplme du chef de mnage 0- aucun diplme 1- CEP ou assimilable 2- CAP* 3- BEPC 4- Bac technique ou BP 5- Bac gnral 6- niveau suprieur au bac Catgorie de commune 1- commune rurale 2- UU de moins de 20 000 hab* 3- UU de 20 000 100 000 hab 4- UU de plusd e 100 000 hab 5- "grande couronne" 6- "petite couronne" 7- Paris Statut d'occupation du logt 1- propritaire ou accdant 2- locataire* 3- log gratuitement Type d'immeuble 1- maison individuelle 2- immeuble de 2 logements 3- immeuble plus de 2 logts* Modles Logit et Probit
-0,4 -0,7 -2,0
0,3 0,4 0,7
0,5
-0,4 -0,5 0,3
0,6 -0,3 -0,3 -0,2 -0,4 -0,2
-0,7 -0,5 -0,3 -0,3 -0,4 -0,3
-0,7 -0,4 0,3 -0,3 -0,4 -0,3
0,9 -0,5 -0,8 -0,5 -0,4
0,4 0,4
-0,6 -0,7
-0,4 -0,2
-0,3 -0,3 0,4 -0,2 -0,6 -1,5 -0,7 -1,5 -1,1 -0,8 0,5 0,3 2,2 1,8 0,2 0,8 0,5 0,5 0,6 0,5 0,2 -0,3 0,5 -0,3 -0,4 -0,7 -0,5 -0,9 0,6 0,3 1,7 1,1 0,2 -0,2
0,2 0,6 0,4
-0,4 -0,8 0,4
0,6
78
Aide mnagre 0- aucune aide 1- employ de maison* 2- autre type d'aide Ressources du mnage 1- moins de 30 000 F 2- de 30 000 49 999 F 3- de 50 000 74 999 F 4- de 75 000 99 999 F* 5- de 100 000 129 999 F 6- de 130 000 199 999 F 7- de 200 000 299 999 F 8- 300 000 F et plus 9- revenus non dclars
0,4 -0,6 -2,0 -1,2 -0,6 -0,7 -0,6
0,4
0,7
0,5
-1,0 -0,8 -0,3
-0,6 -0,6 -0,3 0,3
-0,5
-0,8 -0,6 -0,2 0,3 0,5
-0,2 -1,2 -1,0 -0,5 -0,6 -0,5 -0,6 -0,7 -0,4 -0,5 -0,3 -0,4 -0,6
-0,4
* Modalit choisie pour la situation de rfrence Lecture : Pour une modalit donne d'une variable donne, et pour chacune des activits (y.c. la multi-pratique), le coefficient est d'autant plus lev que les mnages dans cette situation ont une pratique de cette activit plus frquente que ceux qui sont dans une situation choisie comme rfrence. Par exemple, les foyers de 6 personnes et plus, toutes choses gales d'ailleurs, une plus grande chance d'tre "multi-pratiquant" (coefficient +0,9) que ne l'ont les foyers de 3 personnes, pris ici comme situation de rfrence. Source : Insee - Enqute "modes de vie" 1988-1999
Source : INSEE-Premire, n 109, octobre 1990
79
Toutes Ouvriers Ouvriers Techniciens catgories non qualifis qualifis et cadres Coeff Stud EPro Coeff Stud EPro Coeff Stud EPro Coeff Stud EPro Constante Goulots de maind'uvre Ni goulot, ni gne, possibilit de produire davantage Avec plus de personnel Ni goulot, ni gne, pas de possibilit de produire Davantage Gne (avec ou sans possibilit de produire davantage Avec plus de personnel) Goulot possibilit de produire davantage Avec plus de personnel Goulot, pas de possibilit de produire davantage Capacits de production Plus que suffisantes Normales, pas de goulot d'quipement Normales, existence de goulots d'quipement Insuffisantes, pas de goulot d'quipement Insuffisantes, existence de goulots d'quipement Evolutions des effectifs Augmentation passe, augmentation prvue Augmentation passe, stabilit prvue Augmentation passe, diminution prvue Stabilit passe, augmentation prvue Stabilit passe, stabilit prvue Stabilit passe, diminution prvue Diminution passe (augmentation, stabilit ou diminution prvue) Evolutions de la demande Augmentation passe, augmentation prvue Augmentation passe, stabilit prvue Augmentation passe, diminution prvue Stabilit passe, (augmentation, stabilit ou Modles Logit et Probit -1,11 6,10 0 -3,51 9,90 0 -1,67 8,09 0 -1,87 8,98 0
0,40 Rf
2,68 0,08 0
ns Rf 0
Ns Rf 0
0,36 2,08 0,05 Rf 0
3,03 11,24 0,62 2,06 2,36 8,47 0,47 5,49 0,5
1,72 5,32 0,100 1,16 3,45 1,94 4,20 0,06 0,14
2,28 10,57 0,49 1,94 1,62 8,76 0,41 4,80 0,33
1,29 5,93 0,22 0,56 2,43 0,08 1,13 3,28 0,19
ns Rf ns 0,72 0,53
0,66 2,16 Rf ns
0,03 0
ns Rf ns
ns Rf ns
3,60 0,16 2,50 0,11
1,04 4,21 ns
0,05
0,39 0,56
2,04 0,06 2,58 0,09
0,49 2,59 0,07 0,42 1,88 0,06
1,01 0,43 1,00 0,49 Rf ns
4,02 0,23 2,33 0,09 1,90 0,22 1,75 0,10 0
1,19 4,14 ns ns ns Rf ns
0,06
0,42 0,32 1,16 ns
1,82 0,06 1,73 0,05 2,29 0,22
0,85 3,99 0,13 0,33 1,78 0,04 ns ns
Rf ns
Rf ns
ns
ns
ns
ns
0,52 0,51 ns
2,04 0,11 2,70 0,11
0,78 2,32 0,60 2,13 ns
0,03 0,02
ns ns ns
ns ns ns
80
diminution prvue) Diminution passe (augmentation, stabilit ou diminution prvue) Evolutions de la production Augmentation passe, augmentation prvue Augmentation passe, stabilit prve Augmentation passe, diminution prvue Stabilit passe (augmentation, stabilit ou diminution prvue) Diminution passe (augmentation, stabilit ou diminution prvue) Opration sur le stocks Suprieur la normale Normaux Infrieurs la nromale Jamais de stocks Taille De 10 100 salaris De 100 500 salaris Plus de 500 salaris
Rf ns
Rf ns
Rf ns
Rf ns
ns ns ns
ns ns ns
ns ns ns
ns ns ns
Rf ns 0,50 Rf ns 0,39 -0,29 Rf ns
Rf
Rf ns ns Rf ns 0,31
Rf ns
-1,17 2,30 -0,02 2,80 0,11 0 2,52 0,08 2,19 0,05 0 ns Rf ns ns 0,80 4,00
0 1,90 0,05 2,30
0,57 3,05 0,08 Rf 0 ns ns
0,03 -0,32
Rf 0 Rf -,67 3,43 -0,02 -0,66
- -0,88 5,89 0,04 0,07 0 Rf 0 3,55 ns 0,07 0 Rf 0 0,35 2,29 0,05 ns
Secteur Biens intermdiaires Rf Biens d'quipement ns professionnel Automobile, matriel de ns transport terrestre Biens de consommation et -0,68 d'quipement mnager
Rf 0 -0,50 2,11 -0,01 ns
Rf ns ns -0,49 3,26
5,04
0,10
ns
- -0,45 2,96 0,06 0,04
Champs : entreprises de l'industrie manufacturire. Source : enqute trimestrielle de conjoncture sur la situation et les perspectives dans l'industrie d'octobre 1989. Source : Economie et Statistique, n 234, juillet-aot 1990, p. 9
81
LA PRESENTATION DES ECONOMETRES Modle PROBIT de la dtention d'actifs Variables explicatives Constante.................................. Patrimoine (10E-7).................... (Patrimoine) (00E-14) .............. Revenu (10E-6) Age (10E-1)............................... (Age) (10E-2)........................... Hritage (hritier=1).................. Donation verse........................ Sit. Matr. (Mari=1) ................... Nombre d'enfants ..................... Femme active ........................... Entrepreneur Individuel............. Exploitant agricole..................... Niveau d'ducation 1 ................ Niveau d'ducation 2 ................ Niveau d'ducation 3 ................ Niveau d'ducation 4 ................ Niveau d'ducation 5 ................ Nombre de dtenteurs .............. Khi2 (17) ...................................
2 2
1 0,045 (0,348) 8,079 1,990) -0,768 (12,372) 6,179 (0,955) 0,336 (0,136) -0,040 (0,012) 0,121 (0,094) 0,102 (0,147) 0,048 (0,102) 0,001 (0,019) 0,230 (0,099) 0,023 (0,122) 0,308 (0,135) 0,295 (0,082) 0,872 (0,172) 1,046 (0,246) 1,318 (0,333) 1,320 (0,418) 5 373 495,50
2 0,435 (0,168) 0,151 (0,264) 0,004 (0,143) 0,468 (0,183) -0,062 (0,068) 0,009 (0,006) 0,111 (0,045) 0,107 (0,088) 0,116 (0,053) -0,017 (0,012) 0,157 (0,051) -0,177 (0,059) -0,217 (0,070) 0,315 (0,052) 0,352 (0,069) 0,320 (0,082) 0,335 (0,076) 0,343 (0,082) 4 455 148,82
3 -1,706 (0,215) 1,053 (0,225) -0,342 (0,076) 0,633 (0,209) 0,042 (0,087) 0,005 (0,008) 0,184 (0,047) -0,175 (0,092) -0,157 (0,060) -0,025 (0,014) 0,086 (0,057) 0,045 (0,064) 0,499 (0,072) 0,077 (0,061) 0,168 (0,078) 0,824 (0,095) 0,237 (0,085) 0,217 (0,085) 791 212,33
4 -1,870 (0,118) 0,270 (0,120) -0,027 (0,017) 1,301 (0,183) 0,445 (0,037) -0,054 (0,004) 0,155 (0,041) -0,044 (0,090) 0,171 (0,051) -0,047 (0,013) 0,106 (0,049) 0,201 (0,054) 0,341 (0,071) 0,235 (0,055) 0,341 (0,067) 0,421 (0,079) 0,526 (0,073) 0,708 (0,073) 1 896 655,99
5 -2,801 (0,249) 1,032 (0,248) -0,253 (0,086) 0,477 (0,199) 0,274 (0,093) -0,017 (0,009) 0,161 (0,055) 0,124 (0,103) 0,021 (0,073) -0,065 (0,018) 0,198 (0,068) -0,076 (0,079) 0,270 (0,089) 0,0245 (0,080) 0,356 (0,098) 0,302 (0,115) 0,111 (0,120) 0,353 (0,102) 442 175,96
6 -2,201 (0,106) 0,372 (0,121) -0,036 (0,017) 0,960 (0,104) 0,608 (0,030) -0,073 (0,003) 0,071 (0,042) 0,111 (0,094) 0,289 (0,050) 0,008 (0,013) 0,268 (0,047) 0,203 (0,056) -0,077 (0,075) 0,145 (0,054) 0,242 (0,065) 0,126 (0,077) 0,072 (0,074) 0,198 (0,070) 1 881 721,70
7 -2,851 (0,111) 2,019 (0,068) -0,213 (0,011) 0,871 (0,177) 0,680 (0,029) -0,049 (0,002 6) 0,371 (0,040) -0,052 (0,076) 0,579 (0,052) -0,011 (0,012) 0,125 (0,050) 0,056 (0,054) 0,312 (0,073) 0,239 (0,052) 0,288 (0,067) 0,119 (0,081) 0,045 (0,074) 0,104 (0,075) 3 083 1 384,42
Source : Annales dEconomie et de Statistique, n 17, janvier/mars 1990, p. 26 (ce tableau nest quun extrait dun tableau plus grand)
82
Exemple n8
83
LA PRESENTATION GRAPHIQUE
Source : Economie et Statistique, n 176, avril 1985, p. 17
84
X Quelques problmes conomtriques souvent ignors 1. L'htroscdasticit Dans le cas du modle logit, on a vu qu'on pouvait supposer l'existence d'une variable latente forme Yn* = X n + u n o
Yn* de la
Eun = 0 et Vun = 2 (indpendante de n). un n'est plus indpendante de n, c'est--dire si l'on a :
Il y a htroscdasticit si la variance du rsidu
2 Yn* = Xn + un avec Eun = 0 et Vun = n
Dans ce cas la mthode de l'estimation par le maximum de vraisemblance n'est pas convergente. Davidson et Mac Kinnon (1984) ont propos un test dans le cas particulier o
2 n =
2 n serait de la forme :
2 exp(2 Z n ) 3
o Zn est un vecteur de k1 variables supposes avoir de l'influence sur
2 n
et un vecteur de paramtres.
2 2
On teste alors l'hypothse nulle d'homoscdasticit, H0 : = 0 qui correspond = (cas du logit) contre l'hypothse alternative de ce cas particulier d'htroscdasticit Ha : 0 . On voit, en divisant
3 pour tout n
Yn* = Xn + un par exp( Zn ) , qu'on se ramne dans le cas de l'hypothse
alternative une sorte de modle logit plus gnral, non linaire par rapport aux paramtres et , et tel que :
pn =
1 1 + exp( X n / exp( Z n ))
Davidson et Mac Kinnon utilisent le test du score. La statistique du score suit asymptotiquement dans l'hypothse nulle la loi d'un 2 k1 degrs de liberts (o k1 est le nombre de variables de Z) et vaut :
)Z ' n )( X n o S1 = (Yn p n et I
11
Score = S1' I 11 S1
n
) 2 Z ' Z n )( X n = (Yn p n n
n
$ sont les estimateurs de p et dans le cas de l'hypothse nulle. $ n et p n

On accepte l'hypothse nulle (cas du logit homoscdastique habituel) si la statistique du score est infrieure un certain seuil. 2 . L'asymtrie de la distribution des perturbations Dans le cas du modle LOGIT, les perturbations ont pour distribution la loi logistique. La loi logistique est un cas particulier de la loi de Burr pour laquelle :
p n = P[Yn = 1] =
[1 + exp( X n )]
85
Dans le cas de = 1, on retrouve le modle logit. Pour gauche, pour > 1 elle est plus paisse sur la droite.
< 1 la distribution est plus paisse sur la = 1 contre l'hypothse alternative :
1.
On effectue le test du score, pour tester l'hypothse nulle Ho :
La statistique du score suit asymptotiquement dans l'hypothse nulle la loi du 2 un degr de libert. Elle est de la forme :
n )(Yn p n ) (1 p n) o S1 = (log p n )(Yn p n ) (1 p n )]2 et I 11 = [(log p

n n
Score = S1' I 11 S1
$ n est l'estimateur de pn dans l'hypothse nulle (logit). p
On conclura la validit de l'hypothse nulle lorsque la statistique du score sera infrieure 4. 3 Test de mauvaise spcification Le test dit de la matrice d'information peut tre utile la fois pour tester les cas de mauvaise spcification du modle (htroscdasticit, erreur sur la distribution etc...) et le cas de variation alatoire des coefficients encore appel de manire gnrale htrognit. Ce dernier terme signifie que certains coefficients j ne sont pas constants pour toutes les observations mais qu'ils varient d'une observation l'autre. Le principe de ce test est le suivant : Si Ln est la log-vraisemblance du modle, alors :
L n 2 Ln = E '
Si cette galit n'est pas vrifie, alors le modle n'est pas bien spcifi ; la distribution la base du calcul de Ln n'est pas celle ayant engendr les donnes. Michael Lechner (1989) donne quatre statistiques asymptotiquement quivalentes permettant d'effectuer le test dans le cas du logit. La premire est due White (1982), la deuxime Chesher et Lancaster (1984), les deux dernires Orme (1988). Ces statistiques sont d'un calcul un peu complexe. (voir tableau joint). Les statistiques de ORME, plus simples, semblent prfrables.
86
Le test de la matrice d'information Ce tableau prsente quatre statistiques permettant d'effectuer le test de la matrice d'information. On notera : IM (White) la statistique propose par White (1982) IM (Ch-La) la statistique propose par Chesher et Lancaster IM (Orme 1) la premire statistique propose par Orme (1988) IM (Orme 2) la deuxime statistique propose par Orme
IM White IM Ch La IM Orme1 IM
Orme 2
)V ( ) 1 D ( ) = D(
) Y ( )' Y ( ) Y ( )' i = i' Y ( )'W ( ) W ( )'W ( ) 1W ( )' a( ) = a( )' a ( ) = n a(

' ) n)p n Xn = vech rn2 (1 p X n (
$) Y ( $) D( $) dD( $) V ( $) W ( $) a ( $) Q( $) Z (
$) dn ( $) g (
n
{{
IM Orme1
qx1 kx1 n=1,...,N N x (q+k) qx1 qxk qxq N x (q+k) n=1,...,N n=1,...,N Nx1 Nxk Nxq
' = rn Xn ' ' = ( dn , gn ) = dn
2 3 2 ' n n) 4p n n n vech( X n = 2Yn ( p p + 5p p X n )X n
dD( I I ) 1 g n d n dD( I I ) 1 g n $ ), Z ( $) = Q (
n
{[ ={ [d
][
]}
'
$n ) p $n = ( rn (1 p
1 2
n)p n ]1 2 X n = [(1 p
' n)p n ]1 2 (1 2 p n )( X n = (vech [(1 p Xn) ) '
n=1,...,N
N est le nombre d'observations ; k le nombre de variables explicatives. i est le vecteur N x 1 compos de 1 ;
$n rn = Yn p
vech dsigne l'empilement sur une colonne des lments distincts d'une matrice symtrique
$ n est l'estimateur de pn par le modle qu'on cherche tester p

I I = E
2 Ln ' n )p n Xn = (1 p X n (estimation) '
Rfrence : ce tableau est repris de Michael Lechner (1989)
87
XI Extension au cas d'une variable dpendante polytomique ordonne Exemples : Faire du sport 1. tous les jours 2. une ou plusieurs fois par semaine 3. plus rarement Partir en vacances 1. chaque anne (y compris plusieurs fois) ou presque 2. plus rarement 3. jamais ou presque jamais
La procdure Logistic permet de traiter ce cas mais sous une hypothse assez restrictive dite d' galit des pentes . Supposons que soient
1,..., i,..., k + 1.
Y , la variable expliquer, puisse prendre un (petit) nombre de valeurs ordonnes,
Le modle ajust par la procdure Logistic est bas sur les probabilits de distribution cumules, soit celles de ralisation de Y i , plutt que sur les probabilits de ralisation de Y = i . (cf brochure SAS) La forme du modle est :
P (Y i ) = F ( i + X )
1< i < k
o 1 ,..., k sont les k constantes et le vecteur des autres paramtres, ceux correspondant aux variables explicatives, qu'on peut appeler paramtres de pente (slope parameters). Linterprtation des constantes soulve les mmes difficults que dans le cas dichotomique. Si lanalyse du comportement se rfre une variable latente, tre dans tel ou tel tat dpend de la position de cette dernire par rapport diffrents seuils. Les contraintes didentification ne permettent pas de calculer la constante de la variable latente et les diffrents seuils. Seul lcart est identifiable. La consquence est que les paramtres i ont un signe oppos aux seuils, et se prsentent donc en sortie dans un ordre invers. La constante i seule changeant avec i, restant le mme, il s'agit d'un modle de rgression selon des parallles, autrement dit avec galit des pentes quand i varie, ce qui est une hypothse assez forte. La syntaxe La syntaxe de la procdure est la mme. Une option prcisant l'ordre de tri pour les valeurs prises par la variable dpendante peut tre indique dans l'instruction Proc Logistic: Proc Logistic Order = DATA ou Formatted ou Internal
Order = Data signifie que les valeurs de Y sont tries selon leur ordre d'apparition dans la table SAS en entre. Order = Formatted si le tri se fait selon la valeur formate.
Order = Internal s'il se fait selon la valeur non formate Par dfaut, Order = Formatted s'il il y a un format prcis par l'utilisateur ; sinon l'option par dfaut est Order = Internal. Le test de l'hypothse d'galit des pentes Dans les sorties, ce test s'appelle Score test for the equal slopes assumption quand Link = Normit (modle PROBIT) ou Cloglog (loi de Gompertz). Quand Link = Logit, le test s'appelle Score test for the proportional odds assumption . Le mode de calcul de ce test est le suivant : Modles Logit et Probit 88
On fait l'hypothse que le nombre de valeurs prises par la variable dpendante, k + 1, est plus grand que 2. On suppose qu'il y a s variables explicatives dans le modle. Soit le modle :
P(Y i ) = F( i + X i )
o et
i = 1,... k , Y est la variable dpendante, i = ( i1 , i 2 ,..., is ) le vecteur des s paramtres de pente ,

la constante correspondant la modalit i.
Dans l'hypothse d'galit des pentes, on a :
1m = 2 m =... = km
pour tous m=1, ...,s
$ 1 ,..., $ k et $ 1 ,..., $ s les estimateurs du maximum de vraisemblance des constantes et des Soient paramtres de pente dans l'hypothse de l'galit des pentes. Alors pour tout i, on a :
$ = ( $ i, $ 1 ,..., $ s )' i
U () dsigne le vecteur des drives partielles de la log-vraisemblance par rapport , et I () = ( ,..., )' . l'information de Fisher, on estime alors la statistique du score U ' ( ) I 1 ( )U ( ) au point 0 1 k
Si Sous l'hypothse = 0 , la statistique du score tend asymptotiquement vers une distribution du s (k-1) degrs de libert. elle permet de tester l'hypothse de l'galit des pentes, qui peut tre considre comme vrifie si la statistique du score ne dpasse pas un seuil .
2
89
Conclusion Comme dans tous les modes d'emploi, la liste des prcautions prendre est longue, le catalogue des pannes ou du moins des incidents qui peuvent survenir impressionnant. Mais comme pour la plupart des appareils, l'usage quotidien est en ralit des plus simples. Les modles logit sont la fois simples mettre en oeuvre et trs performants ; l'exprience nous n'avons jamais rencontr de cas o les traditionnels tableaux croiss dmentaient les rsultats conomtriques ou permettaient d'aller plus loin. Bien au contraire un seul passage d'un modle logit suffit conomiser des dizaines (voire centaines) de tableaux croiss. Le travail de rdaction d'un article n'en est pas vraiment simplifi pour autant ; finis les paragraphes pour expliquer longuement qu'un effet peut en cacher un autre, que ce que l'on croit tre un effet du revenu est peut-tre celui du nombre d'enfants. Ds le dbut les rsultats sont toutes choses gales par ailleurs. L'auteur doit trouver ailleurs matire copie ..., et il doit tre vigilant ; il est facile au dtour d'un raisonnement, d'avancer une explication qui pour tre sduisante n'en est pas moins hors de propos car elle oublie que l'on est toutes choses gales par ailleurs. La bibliographie jointe dmontre, par son volume, que les modles logit et assimils ont ces dernires annes su sduire un nombre grandissant de statisticiens ... n'en dplaise ceux pour qui la dmarche mme consistant vouloir sparer des effets est un non sens. Mais, sur ce dernier point, le dbat idologique reste ouvert.
90
Bibliographie Quelques articles assez anciens mais donnant des lments d'explication sur la modlisation : Daniel VERGER; L'achat d'un logement ne va pas sans achats d'quipements , Economie et Statistique, N 161 dcembre 1983. Alain TROGNON, Modle de diffusion d'une innovation : l'exemple de la tlvision couleur , Annales de l'INSEE, n 29, janvier 1978. Daniel DEPARDIEU, Stfan LOLLIVIER, Les facteurs de l'absentisme , Economie et Statistique, n 176, avril 1985. Stfan LOLLIVIER, Daniel VERGER, Les comportements en matire d'pargne et de patrimoine , Economie et Statistique, n 202, septembre 1987. (logit polytomique univari ordonn). Quelques articles rcents : Luc Arrondel, Patrimoine des mnages : toujours le logement, mais aussi les actifs de prcaution , Economie et Statistique, n 296-297, 1996-6/7. Luc Arrondel, Andr MASSON, Gestion du risque et comportements patrimoniaux , Statistique, n 296-297, 1996-6/7. Economie et
Didier BALSAN, Sad HANCHANE, Patrick WERQUIN, Salaire defficience et thorie de la recherche demploi : la mobilit de lemploi vers un autre emploi , Economie et Statistique, n 290, 1995-10. Alice BARTHEZ, Anne LAFFERRE, Contrats de mariage et rgimes matrimoniaux , Economie et Statistique, n 296-297, 1996-6/7. Pascal BOUYAUX, Une difficult d'interprtation de l'approche LOGIT : l'exemple de l'conomie des transports , Economie et Prvision, n 91, 1989. Franois CLANCHE, Le confort des logements dessine aussi lespace social , Economie et n 288-289, 1995-8/9. Statistique,
Olivier CHOQUET, Franois HERAN, Quand les lves jugent les lves et les lyces , Economie et Statistique, n 293, 1996-3. Danielle DELLERA, Mireille FLOREMONT, Olivier LEFEVRE, Dominique ROUSSEL, Le dfi de lemploi Metz et Nancy , Economie et Statistique, n 294-295, 1996-4/5. Olivier GALLAND, Une entre de plus en plus tardive dans la vie adulte , Economie et Statistique, n 283284, 1995-3/4. Pascal GARRIGUES, Une France un peu plus sportive qu'il y a vingt ans ... grce aux femmes , Economie et Statistique, n 224, septembre 1989. Bendicte GALTIER, Grer la main doeuvre dans renouvellement , Economie et Statistique, n 298, 1996-8. la dure : des pratiques diffrencies en
Louis LEVY-GARBOIS, Claude MONTMARQUETTE, Une tude conomtrique de la demande de thtre sur donnes individuelles , Economie et Prvision, 121, 1995-5. Stfan LOLLIVIER, Activit et arrt d'activit fminine , Economie et Statistique, n 212, juillet-aot 1988.
91
Stfan LOLLIVIER, Activit des femmes maries et htrognit : estimation sur donnes de panel , Annales dEconomie et de Statistique, n 39, juillet/aot 1995, 93-106. Sergio PERELMAN,Pierre PESTIEAU, Les legs volontaires en France : valuation et explication , Economie et Prvision, 100-101, 1991-4/5. Laurent TOULEMON, H. LERIDON, Maitrise de la fcondit et appartenance sociale , Population, 1, 1992, 1-46. Louis Andr VALLET, Lassimilation scolaire des enfants issus de limmigration et son interprtation : un examen sur donnes franaises , Revue Franaise de Pdagogie, 1996. Pour des rfrences thoriques compltes : Christian GOURIEROUX, Economtrie des variables qualitatives, Economica, 1989, 2me dition. Alain AGRESTI, Categorical data Analysis, John Wiley & Sons, 1990. et un survey un peu ancien : T. AMEMIYA, Qualitative response models : a survey , Journal of economic litterature, vol. XIX, pp. 1483-1536, dcembre 1981. Sur la partie Quelques problmes conomtriques souvent ignors : Michael LECHNER, Testing logit models in practice , Document de travail, universit d'Heidelberg (se le procurer auprs des auteurs de cette note). H. WHITE, Maximum Likelihood Estimation of Misspecified Models , Econometrica 50 : 1-25, 1982. A. CHESHER, Testing for Neglected Heterogeneity , Econometrica 52, 865-872, 1984. T. LANCASTER, The Covariance Matrix of the Information Matrix Test , Econometrica 52 : 1051-1053, 1984. C. ORME, The Calculation of the Information Matrix Test for Binary Data Models , The Manchestel School 56, 370-376.
92

INSEE Cours Ecotrie Var Quali

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

INSEE Cours Ecotrie Var Quali

Transféré par

Droits d'auteur :

Formats disponibles

Mthodologie statistique

0001 L'ECONOMETRIE ET l'ETUDE DES COMPORTEMENTS

Institut National de la Statistique et des Etudes Economiques

Modles Logit et Probit

Modles Logit et Probit

Modles Logit et Probit

Extension au cas d'une variable dpendante polytomique ordonne ............................ 86

Conclusion .................................................................................................................................... 88 Bibliographie.................................................................................................................................. 89

Modles Logit et Probit

Modles Logit et Probit

Modles Logit et Probit

Modles Logit et Probit

Modles Logit et Probit

Modles Logit et Probit

Yi = 1 U (1, X i ) > U (0, X i )

Yi = 0 U (0, X i ) > U (1, X i )

Il y a possession du bien lorsque la variable latente Z i dpasse le seuil 0.

Modles Logit et Probit

= P[Yi = 1] = P[Z i > 0]

si on note F la fonction de rpartition de

u , c'est--dire la fonction dfinie par : F ( w) = P[ u < w] .

Modles Logit et Probit

exp( w) 1 = 1 + exp( w) 1 + exp( w)

x , la diffrence L1 ( x) ( x) des fonctions de rpartition :

(rfrence : Gouriroux [1989]).

Modles Logit et Probit

Modles Logit et Probit

f est la drive de F , et la matrice des drives secondes, ou Hessien :

ainsi que la matrice dinformation de Fisher :

qui maximise la vraisemblance ou

$ est alors la solution de l'quation : concave.

Modles Logit et Probit

. Dans la mthode de Newton-Raphson, on a : ( k ) la k-ime approximation pour lEMV

2 L( ) , q est le vecteur des drives ayant pour h i

La formule du Fisher scoring scrit :

vaut donc : La matrice de variance-covariance asymptotique (conditionnelle) de

exp( w) 1 exp( w) = 2 1 + exp( w) 1 + exp( w) (1 + exp( w)) f ( w) = F ( w)(1 F ( w))

l = log( I ( )) = (1 Yi )( X i ) log(1 + exp( X i ))

et donc la drive seconde de la log-vraisemblance se simplifie en :

peut scrire: particulier, lestimateur de la matrice de variance-covariance de

o : Modles Logit et Probit 17

f est la densit de la loi normale centre rduite et F son intgrale.

Modles Logit et Probit

j , c'est dire de la jme composante du vecteur de paramtres

est le coefficient correspondant la j

On considre la statistique de Student :

est la jme composante de l'estimateur j est le j V j

coefficient de la diagonale de la matrice de

en est l'cart-type estim (standard deviation) V j

est teste partir de la

Cette statistique suit asymptotiquement une loi du

2 1 degr de libert. l'hypothse de la nullit de

2. Test d'une liaison de la forme

$ la matrice de variance-covariance estime de l'estimateur $ Si on note V (1 ,..., I ) , on a le rsultat asymptotique suivant :

Q' le vecteur ligne

est non nul et

L'hypothse de la nullit d'un ensemble de q coefficients s'crit sous la forme

$ )' Q' (V $ )Q $ W = (Q'

p-1 degrs de libert.

Q' = 0 sera rejete lorsque la valeur de la statistique de Wald

Modles Logit et Probit

* Test du rapport de vraisemblance Si l dsigne la log-vraisemblance,

l'estimateur du maximum de vraisemblance,

maximum de vraisemblance sous la contrainte