Vous êtes sur la page 1sur 4

URCA 2008-2009

Hugo Harari-Kermadec harari@ecogest.ens-cachan.fr

conomtrie 2 : donnes en strates et modles de dure

Ce cours est fortement inspir d'un document de travail de l'INSEE de S. Lollivier,

http://www.insee.fr/fr/publications-et-services/docs_doc_travail/u9702.pdf .

Introduction
Nous avons vu que les mthodes usuelles ne sont pas adaptes aux cas o la variable dpendante n'est connue que sous forme discrte. Il n'est alors plus question d'utiliser l'estimateur des moindres carrs ordinaires, sous peine d'introduire des biais dans les estimations. La solution consiste postuler l'existence d'une variable latente continue, dont une discrtisation partir d'un ensemble de seuils permet d'obtenir la variable observe. C'est cette variable latente que l'on applique un modle linaire. Deux cas de gure peuvent alors se produire selon la nature du phnomne observ : soit les seuils qui permettent la discrtisation de la variable latente sont connus (donnes en strates), soit ils ne le sont pas (modles de dure). Comme on le verra, cette distinction apparemment anodine modie radicalement la nature du problme et les contraintes lies l'estimation. La premire situation se rencontre par exemple lorsqu'une variable continue n'est observe que sous la forme de tranches (notamment pour des impratifs de collecte, ou an de limiter des problmes de non rponse sur la variable continue,...) ou encore dans le cas du modle Tobit simple. Dans ce dernier modle, la variable est connue soit en clair si elle est en de d'un certain seuil , soit sous forme discrte (dpassement du seuil) dans le cas contraire. Les modles de dures usuels appartiennent la mme famille que les prcdents. Seule la loi du rsidu dire. Dans les cas prcdents, ils taient gnralement supposs normaux voire logistiques alors que dans les modles de dures, les familles sont plus larges. Cette dirence d'approche tient au fait que les paramtres des variables explicatives sont dans la pratique assez peu sensibles au choix des rsidus. Mais dans les modles de dure, c'est prcisment la loi
des rsidus qui nous intresse puisqu'elle dtermine la loi du hasard de base, et par consquent les caractristiques

de la loi de la dure (esprance, existence d'un mode dans les taux de sortie). Il faut donc apporter un soin tout particulier au choix de ce rsidu. Lorsque les observations ne sont pas soumises des phnomnes de censure, l'estimation de des modles de dure par les moindres carrs ordinaires est licite, sous rserve que l'on postule un hasard de base log-normal. En prsence de censure, la situation est analogue celle du modle Tobit simple puisqu'une partie des donnes est connue exactement et une autre au travers de l'appartenance un intervalle (une demi-droite en l'occurrence). Seule l'optique change puisque frquemment cet intervalle est variable avec les individus : toutes les dates de censure ne sont pas identiques. Mais cette situation est en fait peu frquente pour les variables collectes par questionnaire. On propose en gnral aux individus un systme de tranches dans lequel on l'invite se placer, de sorte que la variable est toujours connue sous la forme de l'appartenance un intervalle, dont les limites sont le plus souvent nies.

I
I.1

Donnes en strates : une gnralisation du modle Tobit


Observation d'une variable en tranches

An de faciliter la collecte de l'information, par exemple lors d'un entretien, on peut recueillir la variable Y sous une forme qualitative. On demande l'individu de se placer dans un systme de tranches (ou strates, ou classes) pralablement dnies, dont les limites

C1 , C2 . . .

sont les mmes pour tous les individus interrogs.

Lorsque la taille de l'chantillon est grande, la perte d'information par rapport l'observation d'une variable continue est minime, ds lors que le nombre de tranches est susant (6 ou 7, voir Lollivier S. et Verger D.). Ceci tient au fait que l'information fournie par les limites de tranches est riche, surtout si l'on tient compte du fait que les dclarations en clair sont frquemment arrondies. Lorsque le nombre de tranches est grand (une vingtaine), la dernire contient en gnral une faible proportion des observations. Si la taille de l'chantillon est susante, l'utilisation des moindres carrs ordinaires sur les centres de

tranches fournit alors des rsultats proches de ceux obtenus par l'estimation du maximum de vraisemblance avec rsidus normaux. En particulier, la sensibilit la convention adopte pour la dernire tranche, peu remplie, inuence peu les rsultats.

I.2

Modle mixte

Si la variable explique est connue en clair dans un sous chantillon et disponible sous formes de tranches sur le complment, la vraisemblance est compose de deux morceaux, l'un correspondant la fraction des rponses exactes et l'autre celle des rponses en tranches. Le premier morceau correspond un produit de densits, le second un produit de probabilits. Cette situation se produit par exemple lorsque l'on cherche interroger les individus sur leurs revenus, mais en restant volontairement discret sur les plus levs. On demande alors le revenu de faon quantitative en de d'un certain seuil dpasse

C1 ,

mais seulement une rponse qualitative au del du seuil (du style oui, mon revenu

C1 ).

On est alors dans la situation du modle Tobit simple. Les modles mixtes se rencontrent galement lorsque les non-rponses la question quantitative sont repches au moyen d'une question en tranches. Dans tous les cas, l'estimation par la mthode du maximum de vraisemblance fournit les valeurs de et comme prcdemment, en 2 utilisant nouveau la PROC LIFEREG.

I.3

Formalisme gnral

On considre un chantillon d'individus dont les caractristiques observables sont notes comme toujours expliquer une variables Y au moyen d'un modle linaire :

X . On cherche

Y = X +
o

est un rsidu centr de densit

et de fonction de rpartition

F.

Comme dans le modle Tobit, on distingue

plusieurs rgimes, ici trois :

Yi Yi = [C1 ; C2 ] [C2 ; C3 ]

si si si

Yi [C1 ; C3 ] / Yi [C1 ; C2 ] Yi [C2 ; C3 ]

 Dans un premier cas, la variable expliqu Yi est observable directement sous forme continue. Comme dans le modle linaire simple, la probabilit est alors donne par la densit :

Yi Xi

=f

Yi Xi

. [Cj ; Cj+1 ].
L'une des limite peut tre

 Dans les deux cas suivants, on n'observe que l'appartenance un intervalle innie (comme pour Tobit). La probabilit d'tre dans l'intervalle est alors :

Cj+1 Xi

Cj Xi

Pour un chantillon non-mixte, il n'y pas de premier cas, on n'observe que des appartenances des intervalles.

I.4

Estimation par maximum de vraisemblance

Il reste donc construire la vraisemblance et la maximiser. On donne ici l'criture pour

strates :

L(, ) =
j,Yi [Cj ;Cj+1 ] /

Yi Xi

F
j=1 Yi [Cj ;Cj+1 ]

Cj+1 Xi

Cj Xi

I.5

Implmentation sous SAS

On suit le formalisme utilis pour Tobit avec la variable LOWER. On construit ainsi deux variables, LOWER et UPPER, donnant les bornes des strates pour chaque individu. L'implmentation de Tobit, (LOWER, Y) vu au cours prcdent, se rinterprte comme une strate PROC LIFEREG DATA=donnees ; BY sexe ; MODEL (LOWER, UPPER)=X1 RUN ;

[Y, Y ]pour Y > 0

et

] ; Y ]

pour

Y =0

(et donc LOWER manquante),

et c'est sur ce modle que l'on gre les donnes mixtes :

X2 X3

/ D=NORMAL NOLOG NOINT ;

D=

Cette option spcie la loi des rsidus, avec comme possibilits entre autres NORMAL, LOGISTIC, WEIBULL. En fonction de la distribution des rsidus, SAS passe tout seul au log les variables LOWER etUPPER. On

NOLOG

verra par la suite la raison de ce comportement. Il faut donc forcer SAS ne pas passer au log, en spciant l'option NOLOG. On peut comme toujours retirer la constante avec l'option NOINT.

NOINT

II

Modles de dure

A priori, on pourrait traiter une variable de dure comme n'importe quelle variable alatoire quantitative continue, ceci prs qu'elle prend ncessairement une valeur relle positive. Ce n'est pas une caractristique trs discriminante, puisqu'on la retrouve dans d'autres thmes de l'analyse conomique, comme par exemple celle des salaires. La rfrence habituelle la loi normale ncessite alors une transformation sur les donnes, en en prenant par exemple le logarithme. Ainsi, une des lois de base en conomtrie des salaires est la loi log-normale, qui revient faire une hypothse de normalit sur le log de la variable tudie. Cette distribution est, on le verra, beaucoup moins centrale en conomtrie des dures. La particularit des donnes de dures provient du fait qu'elles peuvent s'interprter facilement comme rsultant d'un processus stochastique sous-jacent, c'est dire d'un cheminement alatoire qui fait passer un individu entre dirents tats. Ce processus rend ainsi compte des dates de changements d'tat de l'individu (vie et mort, emploi et chmage, tre parent d'un enfant ou de deux enfants. . .). La dure d'un tat est alors simplement l'cart entre date de dbut et date de n d'un tat. Les caractristiques de ce processus conduisent alors dnir de grandes classes de lois de probabilit pour les dures. De plus, certains outils probabilistes particuliers, comme la fonction de survie ou la fonction de hasard, prendront une place plus dterminante dans l'analyse que l'habituelle densit de probabilit, car ils ont l'avantage de s'interprter trs simplement.

II.1

Outils probabilistes

La variable de dure densit

prsente la particularit de prendre ncessairement des valeurs relles positives. En plus de la

et de la fonction de rpartition

F,

on introduit habituellement deux autres notations :

 La fonction de survie

S(t)

correspond la probabilit que la dure soit plus grande que

t,

soit :

S(t) = 1 F (t).
 La fonction de hasard grande que

h(t)

fournit la probabilit que la dure soit comprise entre

et

t + dt

sachant qu'elle est plus

h(t) = h(t)

f (t) . S(t)

reprsente le taux instantan de sortie de l'tat que l'on observe. Si l'on s'intresse par exemple la dure de

vie des individus, il reprsente le risque de dcs un ge donn sachant que l'on a dj survcu jusqu' cet ge. C'est en gnral cette fonction que chercheront estimer les modles conomtriques les plus simples. Elle permet de caractriser la probabilit immdiate de changer d'tat en On a :

t.
t

h(t) =

log S(t) t

et

S(t) = exp
0

h(u)du .

Selon les cas tudis, les fonctions de hasard, ou taux de sortie instantans, peuvent avoir des formes trs direntes. Si l'on considre la dure de vie des hommes en France, le hasard reprsente simplement le taux de mortalit. Sa forme est en U, avec deux petites  bosses , l'une vers 18-22 ans, l'autre vers 48 ans. La partie dcroissante aux tous premiers ges de la vie s'explique par la n de la priode de mortalit no-natale et infantile, le premier pic par les accidents de la circulation, le second par les maladies cardio-vasculaires. Enn, le taux de mortalit recommence augmenter rgulirement aux ges levs. La reprsentation d'un tel type de fonction par une loi paramtre simple n'est, a priori, pas vidente. Pour d'autres phnomnes tudis, comme la dure de chmage, cette modlisation peut tre plus simple. Ainsi les fonctions de hasard utilises dans ce cas sont parfois supposes croissantes, puis dcroissantes (en raison, par exemple, d'une intensit variable de recherche d'emploi), ou bien simplement dcroissantes (en raison, par exemple, d'une rticence des employeurs embaucher des chmeurs de longue dure).

II.2

Modles de dure de vie acclre

Ces modles font intervenir les variables explicatives, d'une loi de rfrence de la dure phnomne tudi s'crit alors :

X,

comme acclrateurs du temps. Ils postulent l'existence

T0 .

Pour un individu dont les caractristiques observables sont

Zi ,

la dure

Ti

du

Ti = T0 eXi
Tout se passe comme si l'eet des variables observables tait d'allonger ou de rtrcir l'unit du temps. L'intrt principal de ces modles est en eet de permettre d'interprter l'eet des variables explicatives comme un changement d'chelle de l'axe du temps. L'galit prcdente conduit une criture sous la forme :

log(Ti ) = Zi + log(T0 ).
L'esprance de

log(T0 )

s'interprte alors comme la constance

0 .

En posant

Xi = (1, Zi )

et

= (0 , ) ,

on retrouve

alors le modle proche du modle linaire :

log(Ti ) = Xi + log(i ).
Les rsidus

sont alors supposs d'esprance gale 1.

Dans le cas trs particulier o

T0

suit une loi log-normale, et que toutes les dures sont observables, le modle de dure

peut s'estimer par les moindres carrs ordinaires au moyen de la PROC REG. Une des particularits les plus frquentes des modles de dure est qu'elles sont rarement parfaitement observes. La priode d'observation est en eet souvent trop courte pour mesurer les dures les plus longues. On parle alors d'observations censures. Par exemple, si on suit un chantillon de chmeurs, certains auront quitt cet tat la date de la n d'observation, d'autres y seront demeurs et la dure totale restera inconnue. En prsence de censure, l'ajustement par un modle linaire n'est pas envisageable, mme si la dure de base suit une loi log-normale.

II.3

Vraisemblance

Si l'on note tranche

f et F [C1 ; [ :

la densit et la fonction de rpartition de

log(),

la vraisemblance s'crit, pour une censure sur la

L() =
Ti C1

f (log(Ti ) Xi )
Ti >C1

(1 F (log(Ci ) Xi )). C1
pour les donnes censures ? Il est

Ce modle est quivalent celui dcrit dans la premire partie, avec un seuil en utilisant cette fois (Y,UPPPER).

proche du modle Tobit, mais avec censure droite. L'estimation ne peut s'oprer qu'au moyen de la proc LIFEREG,

II.4

LIFEREG pour les donnes de survie

On applique la procdure LIFEREG comme prcdemment, mais sans l'option NOLOG, et avec l'une des distribution suivantes : option D=EXPONENTIAL D=WEIBULL D=LLOGISTIC D=LNORMAL loi choisie exponentielle Weibull log logistique log normal

La loi exponentielle est une loi de Weibull dont les paramtres sont contraints 1. SAS propose alors un test (multiplicateur de Lagrange) pour vrier cette contrainte.