Vous êtes sur la page 1sur 97

SOFTWARE

UNA BREVE INTRODUCCIN AL SISTEMA SAS


Magdalena Rodrguez Coma Instituto de Estudios Fiscales S.G. de Estudios Presupuestarios y Gasto Pblico magdalena.rodriguez@ief.meh.es
I CURSO DE EVALUACIN DE POLTICAS PBLICAS Y PROGRAMAS PRESUPUESTARIOS
Madrid, del 13 al 30 de octubre de 2009

Contenido de este mdulo del curso

Visin general del sistema SAS muy rpida


Historia. Principales mdulos de SAS Acceso a documentacin e informacin Libreras de ejemplos. Bsqueda de cdigo y cursos en Internet Entorno de SAS. Principales ventanas. Libreras temporales y permanentes Formas de crear un fichero de datos SAS Ejercicios

Los datos: anlisis descriptivo y exploratorio


Estructura de los datos econmicos Tipo de variables Estadstica descriptiva con SAS Algunos procedimientos de SAS (PROC PRINT, PROC FREQ, PROC UNIVARIATE, PROC TABULATE, PROC CHART, PROC BOXPLOT) Ejercicios

-2-

Contenido de este mdulo del curso

Regresin. Modelos de eleccin discreta


Construccin de modelos de regresin Estrategias de regresin Diagnosis y validacin del modelo Algunos procedimientos de SAS (PROC REG, PROC GLM, PROC LOGISTIC, PROC PROBIT) Ejercicios Principales conceptos y definiciones Interpretacin de la funcin de riesgo (HF) Estimacin de modelos de duracin no paramtricos, parmtricos y semi-paramtricos. Modelos con heterogeneidad inobservada Algunos procedimientos de SAS (PROC LIFETEST, PROC LIFEREG, PROC PHREG, PROC GENMOD) Ejercicios

Modelos de duracin. Anlisis de supervivencia


Algunas recomendaciones para el trabajo emprico con SAS

-3-

I. El Sistema SAS: Visin general

-4-

Que es SAS? Un poco de historia


Nace para ser ejecutado en sistemas mainframe IBM, adaptado para VM/CMS en 1979, en 1980 se comercializa SAS/GRAPH y SAS/ETS y al ao siguiente el mdulo full-screen SAS/FSP En 1983 se realiza la primera reunin internacional de usuarios europeos de SAS (SEUGI). Ahora se llama SAS FORUM INTERNACIONAL En 1984 se expande de ordenadores mainframe a minicomputadoras En 1985 se comercializa para PC/DOS con posibilidades de conexin micromainframe (compilacin SAS/C). Aparece SAS/AF y SAS/IML En 1986 se comercializa SAS/IML y SAS/STAT para PC En 1988 se anuncia el soporte para UNIX, se comercializa SAS/ASSIST (aprendizaje por men) y SAS/CPE (evaluacin de rendimiento y prestaciones de los sistemas informticos) En 1989 Se introduce JMP para Macintosh

-5-

Que es SAS? Un poco de historia


Las siglas significan Statistical Analysis System/Sistema de Anlisis Estadstico SAS Institute fue creado en 1976, estableciendo su sede en Cary, Carolina del Norte, EEUU, pero el origen est a principio de los aos 70 como una serie de programas informticos desarrollados por dos estudiantes que necesitaban hacer su tesis doctoral (embrin del PROC GLM). El xito del producto entre sus compaeros les llev a comercializarlo y a crear la empresa poco despus En 1976 se celebra la primera reunin internacional de usuarios de SAS (SUGI). Ahora se denomina SAS GLOBAL FORUM Este origen define muy bien lo que ser la filosofa del producto y posterior evolucin. La adaptacin constante a las necesidades de analizar la informacin, sin despegarse del marco de la investigacin terica, pero con gran vocacin comercial e inters en llegar a todos los mbitos en los que se precisa convertir los datos en informacin Programado en origen en un lenguaje de bajo nivel, probablemente FORTRAN, para funcionar en entorno mainframe, reprogramado en lenguaje C en 1987 para ser interpretado en todos los sistemas operativos SAS utiliza su propio compilador de C (SAS/C compiler)

-6-

Que es SAS? Un poco de historia


En 1990 nace SAS/6.06 para MVS,CMS y OpenVMS. Tambien SAS/CONNECT y SAS/ACCESS. SAS Institute se instala en Espaa. En 1991 SAS/INSIGHT, herramienta de visualizacin y soporte a la decisin A partir de 1992, comienzan con una poltica de creacin de productos de software vertical, con destino a la industria farmacutica: SAS/PH-Clinical y SAS/LAB En 1993 SAS 6.08 para MVS,CMS,VMS,OS/2 y WINDOWS En 1994 JMP para Windows y Apple A partir de 1995 comienzan con la filosofa EIS (Sistemas de Informacin para la Direccin) y Wharehousing Program En 1997 se lanza SAS / Warehouse Administrator y en 1998 soluciones OLE-DB para OLAP y HOLAP En 2000 migra el software para LINUX y lanza soluciones DATA-MINING En el 2004 lanza la versin SAS9, ltima hasta el momento. La versin de que disponemos en el IEF es la 9.2

-7-

Que es SAS? Un poco de historia


Puede resumirse la filosofa de SAS Institute como:
Vocacin de convertir los datos en informacin Adoptar estndares Dirigirse a todas las plataformas Mantener el mismo aspecto y funcionalidad en todas las plataformas soportadas Incorporar las opiniones de los usuarios expresadas en SASware Ballot en la poltica I+D de la empresa Comercializacin modular para adaptarse a las necesidades concretas del cliente

-8-

Principales mdulos de SAS

SAS/BASE (*) AF: Desarrollo de aplicaciones ACCESS (*): Acceso datos ASSIST CONNECT: PC-Host EIS

IML: Clculo matricial QC (*): Control de calidad SHARE: Compartir libreras SAS STAT (*) intrNET: Aplicaciones WEB Enterprise Miner (*): Data Mining. Modelos Predictivos ETS (*): Series temporales Enterprise Guide FSP (**) OLAP Server (On Line Analytical Process) GIS: Sistema Inf. Geogrfica Warehouse Administrator GRAPH (*) OR: Control de proyectos, Optimizacin Modelos de Frontera (*) Mdulos que se ven en el curso (**) Se ven en la documentacin

-9-

Formacin en SAS
SAS 9: Introduccin Nuevas caractersticas Administracin del sistema SAS Gestin de datos: Introduccin Tratamiento de datos Tcnicas avanzadas de programacin Macro lenguaje SAS Macro lenguaje SAS avanzado Data-Warehouse: Utilizacin de SQL con SAS Gestin de un D-W (SAS ETL Studio) Desarrollo de aplicaciones: Desarrollo de aplicaciones (SAS/AF) Desarrollo de aplicaciones WEB (SAS/IntrNet) Data Mining: Tcnicas de D-M utilizando SAS/Enterprise Miner Modelos Predictivos Arboles de Decisin Anlisis estadstico: Estadstica con SAS (Anova, Regresin y Regresin Logstica) Estadstica con SAS Enterprise Guide (Anova, Regresin y Regresin Logstica) Modelos Predictivos utilizando Regresin Logstica Modelos Lineales Generalizados Series Temporales con SAS/ETS Mtodos de Estadstica Multivariante Tcnicas de Clustering con SAS/STAT Soluciones de Negocio SAS: Gestin Financiera, Gestin de Recursos Humanos, Diseo y Ejecucin de Campaas de Marketing, Anlisis de riesgo de crditos de mercado

- 10 -

Manuales esenciales de SAS

SAS 9.1 Companion for Windows. SAS 9.1.3 Language Reference: Concepts SAS 9.1.3 Language Reference: Dictionary SAS 9.1 Macro Language Reference Base SAS 9.1.3 Procedures Guide SAS/ETS 9.1 Users Guide SAS/STAT 9.1 Users Guide

- 11 -

SAS en Internet Direcciones tiles http://www.sas.com/ http://support.sas.com/ http://support.sas.com/documentation/onlinedoc/ind ex.html http://www.sas.com/offices/europe/spain/sas/sasespan a.html http://support.sas.com/documentation/onlinedoc/sas 9doc.html http://www.lexjansen.com/sugi/ http://support.sas.com/events/sasglobalforum/previo us/online.html
- 12 -

SAS en Internet Direcciones tiles


http://www2.sas.com/proceedings/sugi29/toc.html http://www2.sas.com/proceedings/sugi29/toc.html#stat http://www2.sas.com/proceedings/sugi29/toc.html#ad http://www.sas.com/apps/whitepapers/whitepaper.jsp http://support.sas.com/documentation/onlinedoc/91pd f/index.html

- 13 -

SAS en Internet Direcciones tiles

http://support.sas.com/documentation/onlinedoc/91pdf/sasdo c_91/em_gs_7281.pdf http://www.sas.com/apps/pubscat/welcome.jsp http://www.sas.com/apps/pubscat/bbu.jsp http://www.sas.com/apps/pubscat/booklist.jsp?attr=product& val=SAS%2FSTAT&area=bbu

- 14 -

SAS en Internet Direcciones tiles

http://support.sas.com/sitemap.html http://support.sas.com/index.html http://support.sas.com/resources/ http://support.sas.com/techsup/ http://support.sas.com/learn/ http://support.sas.com/community/

- 15 -

Principales ventanas

- 16 -

Ayuda y documentacin de SAS

17

SAS en castellano?

Existe muy poca documentacin en castellano (referencias en la bibliografa) En la versin 9 estn traducidas al castellano la mayor parte de las ventanas, iconos, los mensajes del LOG con las incidencias de la ejecucin de los programas etc. Tanto la sintaxis del lenguaje, que es muy rgida, como toda la documentacin necesaria est en ingls Los trabajos presentados en el SUGI y SEUGI estn en ingls Una gran cantidad de libros especficos escritos por usuarios con gran experiencia, estn en ingls Los documentos tcnicos White papers etc estn en ingls Que cada uno decida.

- 18 -

Sintaxis del lenguaje de programacin


Un programa SAS combina PASOS DATA Y PASOS PROC El PASO DATA prepara los datos, el PASO PROC los analiza Todas las sentencias finalizan con ; Pueden escribirse varias sentencias en la misma lnea La mayor parte de los errores al principio provienen de olvidar el ; Es muy importante acostumbrarse a mirar el LOG para ver las incidencias de la ejecucin Cuando se utilizan macros, los errores son mas difciles de identificar Hay muchas sentencias comunes a todos los procedimientos La estructura de todos los procedimientos, a nivel de sintaxis, es muy parecida Cuando los programas son muy complejos es conveniente probarlos por partes para poder identificar claramente los problemas No olvidar nunca la frase todos los programas hacen algo, lo dificil es que hagan lo que uno quiere (no solo es til para SAS)

- 19 -

Libreras temporales y permanentes

SASUSER: Librera permanente que define SAS por defecto al arrancar la sesin WORK : Librera temporal que define SAS por defecto al arrancar la sesin Libreras que define el usuario en cualquier momento de la sesin de trabajo. Se definen con la sentencia LIBNAME Los ficheros de datos temporales que se almacenan en la librera temporal WORK tienen un nombre sin ninguna extensin

- 20 -

Libreras definidas por el usuario


Ejemplo: libname DATO e:\Curso-SAS-2009\IEFDSAS ;
run;

IEFDSAS es una carpeta de Windows que ya existe Si no existiese, SAS escribe un mensaje en el LOG La librera DATO no existe A partir de la ejecucin de la sentencia LIBNAME queda asociada el rea de trabajo DATO de SAS con el rea de almacenamiento del PC e:\Curso-SAS-2009\IEFDSAS"

- 21 -

Ficheros de datos temporales y permanentes


Un fichero de datos permanente tiene un nombre que consta de dos partes: NOMBRE.EXTENSION El primer nombre indica la librera en la que est almacenado, la extensin es el nombre que tiene el fichero dentro de esa librera Ejemplo SASUSER.BEVERAGE indica un fichero de datos almacenado en la librera SASUSER, creado por SAS al realizar la instalacin Ejemplo DATO.RELOG indica un fichero de datos almacenado por el usuario en la librera DATO creada por el usuario
- 22 -

Ficheros de datos temporales y permanentes

Un fichero de datos temporal tiene un nombre sin ninguna extensin y se almacena en la librera temporal WORK. Ejemplo IMILOG es equivalente a WORK.IMILOG Todos los ficheros almacenados en esa librera se pierden al cerrar la sesin Es muy til almacenar ficheros intermedios en el rea temporal. Lo importante es almacenar en libreras permanentes los ficheros de datos originales y los programas que los transforman
- 23 -

Ficheros de datos y ficheros de programas

Los ficheros de datos SAS se crean y modifican con SAS. Son ficheros especficos de SAS. Tanto los temporales como los permanentes. Para Windows tienen extensin sas7bdat. Los ficheros de programa no son ficheros SAS, pueden escribirse con cualquier editor o procesador de texto e incluirlos en el editor del DMS de SAS. Para Windows tienen extensin sas.

- 24 -

Formas de crear un fichero de datos SAS


Al instalar SAS, se crean una serie de ficheros de datos en la librera SASUSER Mediante el procedimiento FSEDIT del mdulo FSP. Se define una pantalla de entrada de datos que permite programar validacin de campos directa y cruzada (ejemplos en la documentacin del curso). Importando ficheros de datos existentes en otros formatos a travs del men de importacin de SAS (Excel, Access, Dbase, Lotus, JMP, ficheros delimitados) Mediante un PASO DATA. Caso mas general

- 25 -

Importar ficheros externos a travs de men

- 26 -

Importar ficheros externos a travs de men

- 27 -

Incorporar ficheros externos a travs de un PASO DATA


Es el caso mas general. Se pueden incluir ficheros de diferentes formatos y procedencias. Puede combinarse con cualquiera de los mtodos anteriores, permitiendo mezclar informacin de distintos soportes Es el sistema que permite utilizar el lenguaje de programacin de SAS con todas sus funcionalidades (ejemplos en la documentacin del curso) Las sentencias bsicas son: INFILE cual es el fichero a incorporar INPUT define la estructura del registro

- 28 -

Exportar ficheros SAS a travs de men

- 29 -

Ejercicios apartado I
Comprobar el contenido de la librera SASUSER Crear una carpeta para los ficheros de datos SAS que se creen durante el curso y definirla como librera permanente SAS con la sentencia LIBNAME Incluir el programa de la librera de ejemplos de SAS BIORYHTM en la ventana PGM, ejecutarlo y ver los resultados en la ventana OUTPUT y las incidencias de la ejecucin en la ventana LOG Ejecutar todos los programas de ejemplo de las transparencias anteriores que crean ficheros de datos temporales Comprobar que se han creado correctamente los ficheros de datos anteriores y almacenarlos de forma permanente en la librera definida en el apartado 2 Importar ficheros externos a travs del men y almacenarlos de forma permanente en la librera definida por cada usuario con la sentencia LIBNAME
- 30 -

II. Los Datos: Anlisis Descriptivo y Exploratorio de Datos

- 31 -

Las Variables. Estadstica descriptiva


Dado un conjunto de datos de una variable X , la estadstica descriptiva estudia procedimientos para sintetizar la informacin que contienen . Medidas de posicin, centralizacin, dispersin, asimetra, apuntamiento, diagramas Tambin debemos identificar los errores de los datos. Valores imposibles de las variables Identificar los valores extremos y decidir si son posibles o son errores. Si deben ser incluidos o excluidos del anlisis Formatos fecha, PROC PRINT, PROC FREQ, PROC UNIVARIATE, PROC TABULATE
- 32 -

Estadstica descriptiva con SAS


Imprimir, ordenar , poner etiquetas y dar formato a los datos (PROC PRINT, PROC SORT, PROC FORMAT) Sintetizar la informacin de variables y grupos emparejados (PROC MEANS, PROC UNIVARIATE, PROC FREQ, PROC CHART) Sintetizar la informacin de dos o mas grupos independientes (PROC SORT; BY; PROC MEANS, PROC UNIVARIATE, PROC FREQ, PROC CHART; BY;) Test de normalidad y grficos de normalidad (PROC UNIVARIATE) Comparar dos grupos independientes (PROC TTEST, PROC NPAR1WAY) Comparar varios grupos. Anlisis de la varianza (PROC ANOVA) Test Kruskal-Wallis (PROC NPAR1WAY)

- 33 -

Ejemplo de PROC FREQ


/* Ejemplo 7 */ options obs=max; /* Incluye todos los datos en los clculos */ /* PROC FREQ calcula la distribucin de frecuencias */ /* DE LAS VARIABLES ORIGIN NKIDS Y MARITAL */ proc freq order=freq data=sasuser.CARS; tables origin nkids marital; run; /* HACER DOS TABLAS 2*2 NKIDS MARITAL Y NKIDS ORIGIN */ proc freq order=freq data=sasuser.CARS; tables origin nkids*marital nkids*origin; run;

- 34 -

Ejemplo de PROC TTEST


/* Ejemplo8 */

title1 'Compara la tension sistolica antes y despues de un estimulo'; title2 'Muestras emparejadas de tamao 12. Se asume distribucin normal'; data tension; input Tantes Tdespues @@; datalines; 120 128 124 131 130 131 118 127 140 132 128 125 140 141 135 137 126 118 130 132 126 129 127 135 ; run; proc ttest; /* Test el cambio medio en la tension es significativamente distinto de cero */ paired Tantes*Tdespues; /* Se rechaza la hiptesis nula */ run;

- 35 -

Ejemplo de PROC TABULATE

/* Ejemplo 11 */ PROC TABULATE DATA=SASUSER.CARS; var nkids; class origin; table origin, nkids*(max='Maximo' min='Minimo' mean std)/ box="Numero de hijos"; label origin="Lugar de origen"; /* Etiqueta */ /* Etiqueta para palablas clave */ keylabel mean="Media aritmtica" std="Desviacin tipica"; RUN;

- 36 -

SAS Enterprise Guide

Aplicacin cliente de Microsoft Windows Proporciona un sistema guiado para explotar el poder analtico de SAS Es un interface de SAS para analistas , estadsticos y programadores Puede ser una ayuda para comenzar a programar en SAS Grande posibilidades para realizar grficos y tareas analticas complejas Acceso visual a todo tipo de datos soportados por SAS via ODBC , OLE DB para OLAP, y de servidores MS Exchange

37

SAS/GRAPH V.9: Graph-N-Go (I)

- 38 -

SAS/GRAPH V.9: Graph-N-Go (II)

- 39 -

SAS/GRAPH V.9: Graph-N-Ggo (III)

- 40 -

SAS/GRAPH V.9: Graph-N-Ggo (IV)

- 41 -

Graph-N-Ggo: Generar cdigo (I)

- 42 -

Graph-N-Ggo: Generar cdigo (II)

- 43 -

Graph-N-Ggo: Generar cdigo (III)

- 44 -

Ejercicios apartado II
Utilizando los ficheros de datos creados y definidos en el apartado I, en particular ARTRITIS y BEVERAGE : - Estudiar el contenido, tipos de variables cualitativas, cuantitativas, categricas, dummies - Utilizar alguno de los procedimientos citados para estudiar la distribucin de frecuencias, ver los valores extremos, calcular las medidas de posicin y dispersin. Hacer un grfico descriptivo - Utilizar PROC TABULATE para disear tablas de resultados relevantes para describir los datos - Utilizar Graph-N-Go para hacer algn grfico. Ver el cdigo SAS generado

- 45 -

BIBLIOGRAFA
Schlotzhauer, Sandra D. and Littell, Ramon C. (1991), SAS System for Elementary Statistical Analysis, Second Edition, Cary, NC:SAS Institute Inc. Stokes, Maura E., Davis, Charles S., and Koch, Gary G. (1995), Categorical Data Analysis Using the SAS System, Cary, NC: SAS Institute Inc. SAS Institute Inc. (2004), SAS Procedures Guide, Version 9-1-3, Cary, NC: SAS Institute Inc. SAS Institute Inc. (2004), SAS/STAT Users Guide, Version 9-1-3, Cary, NC: SAS Institute Inc. U.S. Bureau of the Census (1995), Statistical Abstract of the United States, Washington SAS Institute Inc. (1990), SAS Programming Tips: A Guide to Efficient SAS Processing, Cary, NC: SAS Institute Inc. Ayala Can, L., Rodrguez Coma, M. "La utilizacin de registros administrativos como base para la investigacin de polticas sociales. Seminario Internacional de Estadstica: "El papel de los registros administrativos en relacin con el anlisis econmico y el desarrollo del Sistema Estadstico Nacional. Madrid 30 y 31 de enero de 2006. Instituto de Estudios Fiscales

- 46 -

III. Regresin. Modelos de Eleccin Discreta

- 47 -

Regresin lineal por mnimos cuadrados ordinarios (MCO) PROC REG


PROC REG es uno de los procedimientos de regresin por MCO que incorpora estimacin del modelo, diagnosis, contraste de hiptesis, clculo de intervalos de confianza etc. Para estimar un modelo de regresin por MCO bastara con las siguientes sentencias
proc reg data=datos; model q=p t; run; /* especifica el conjunto de datos y arranca el procedimiento /* especifica el modelo que va a ser estimado

Cuando se especifica el modelo, a continuacin de la sentencia MODEL se coloca la variable dependiente seguida por un signo = y a continuacin todas las variables que se incluyen como regresores. Las variables incluidas deben ser numricas. Si se quiere especificar un trmino cuadrtico para la variable p en el modelo se debe definir previamente en un PASO DATA en lugar de incluir en la sentencia MODEL p*p El nivel de significacin para la estimacin de los parmetros por defecto es del 95%. Puede modificarse mediante opciones de la sentencia PROC REG

- 48 -

Diagnosis del modelo con PROC REG


La opcin COLLIN permite realizar la diagnosis de colinealidad entre los regresores del modelo. Calcula eingenvalues, indices de condicin y descomposicin de la varianza de las estimaciones con respecto a cada eingenvalue Para no incluir el factor constante en los clculos de las estadsticas de colinealidad, que suele ser lo habitual, se puede utilizar la opcin COLLINOINT en lugar de COLLIN La opcin SPEC permite realizar la dignosis de heteroscedasticidad del modelo. Realiza el test de White La opcin DW realiza el test de autocorrelacin. Calcula el estadstico de Durbin-Watson Todas estas opciones se especifican como opciones de la sentencia MODEL
proc reg data=diagno; model q = p q / collin; run;

- 49 -

Creacin de grficos con PROC REG


La sentencia PLOT permite dibujar diagramas de dispersin en los ejes Y-X
PROC REG DATA=GRAFICO; MODEL Q=P T; PLOT Q*P; RUN;

Se pueden dibujar varios grficos en los mismos ejes


PLOT P*Q P*T Q*T;

Se pueden dibujar los residuos frente a una variable en particular o frente a los valores que predice el modelo
PLOT residual.*Q; PLOT predicted.*residual.; residual es una palabra clave de SAS debe ir seguida de punto (.) predicted es una palabra clave de SAS debe ir seguida de punto (.)

Otras palabras clave que pueden utilizarse en la sentencia PLOT


stdi. ucl. uclm. desviacin tpica del valor individual que predice el modelo valor superior del intervalo de confianza 100(1-)% para una prediccin individual valor superior del intervalo de confianza 100(1-)% para la media de las variables dependientes

- 50 -

Estimacin por mnimos cuadrados ponderados (WLS) con PROC REG


Debe aadirse la variable de ponderacin en la sentencia PROC REG Una sentencia WEIGHT identifica la variable de ponderacin en el fichero de datos de anlisis. Toma valores que son los pesos relativos para el ajuste por mnimos cuadrados ponderados. Si el valor del peso es proporcional al recproco de la varianza (nmero por el que se debe multiplicar la varianza para obtener el valor 1) para cada observacin, el estimador WLS es el mejor estimador de la familia de los estimadores lineales insesgados (estimador BLUE) Los valores de la variable de ponderacin deben ser no negativos. Si el peso de una observacin es cero, la observacin se borra del anlisis. Si el peso es negativo o missing , se considera cero y la observacin se elimina del anlisis
PROC REG DATA=PONDERA; MODEL Q=P T; WEIGHT P; RUN;

- 51 -

Contraste de hiptesis estadsticas con PROC REG


Despus de finalizar la estimacin del modelo mediante PROC REG, es fcil realizar un contraste de hiptesis para los coeficientes Para contrastar la hiptesis nula simple de que el coeficiente de la variable p es 1.5 (p=1.5) se escribe el cdigo
proc reg data=test; model q=p t; test p=1.5; run;

Para contrastar la hiptesis nula conjunta de que el coeficiente de la variable p es 1.5 (p=1.5) y la de la variable t es 0.8 (t=1.5) se escribe el cdigo
proc reg data=test; model q=p t; test p=1.5, t=0.8;; run;

- 52 -

Ejemplo con PROC GLM


/* Ejemplo 12*/ title 'Experimento de consumo de gasolina'; data mileage; input mph mpg @@; /* velocidad y consumo */ datalines; 20 15.4 30 20.2 40 25.7 50 26.2 50 26.6 50 27.4 55 . 60 24.8 ;

proc glm; /* Estimar un modelo cuadrtico */ model mpg=mph mph*mph / p clm; /* Por el mtodo de MCO */ output out=pp p=mpgpred r=resid; /* OPCIONES GRFICAS */ axis1 minor=none major=(number=5); axis2 minor=none major=(number=8); symbol1 c=black i=none v=plus; symbol2 c=black i=spline v=none; proc gplot data=pp; /* Dibujar el modelo estimado y los datos originales */ plot mpg*mph=1 mpgpred*mph=2 / overlay haxis=axis1 vaxis=axis2; /* EL GRAFICO MUESTRA LA EVIDENTE RELACIN CUADRTICA */ run; - 53 -

Ejemplo de PROC PROBIT


/* Ejemplo 13 */ libname datos "c:\datos"; data news; set datos.news; proc format; value subscrib 1 = acepta' 0 = 'rechaza'; run; proc probit; /* Estimar un modelo de regresion logistica */ class subs sex; /* Por el mtodo de mxima verosimilitud */ model subs=sex age / d=logistic itprint; format subs subscrib.; title 'Personas dispuestas a suscribirse a un nuevo peridico'; run; /* Las mujeres y los jvenes tienen menor probabilidad de suscribirse */ /* Ambas variables tienen un efecto significativo sobre la prob. de suscrip. */

- 54 -

Ejercicios apartado III Utilizando el sistema de ayuda on line de SAS, buscar el procedimiento GLM (mtodo MCO) Ver que tipos de anlisis pueden realizarse con PROC GLM Ver otros procedimientos de SAS que permiten lograr los mismos o parecidos objetivos y cuales son mas eficientes para cada tema Elegir el ejemplo 32.2 y estudiar los resultados Repetir los mismos pasos para el procedimiento PROBIT (mtodo de mxima verosimilitud)
- 55 -

Regresin. Bibliografa
Freund, Rudolf J. and Littell, Ramon C. (1991), SAS System for Regression, Second Edition, Cary, NC: SAS Institute Inc. Stokes, Maura E., Davis, Charles S., and Koch, Gary G. (1995), Categorical Data Analysis Using the SAS System, Cary, NC: SAS
Allison, Paul D.(1999) Logistic Regression Using the SAS System: Theory and Application Cary, NC:SAS Institute Inc.

Littell, Ramon C. and Freund, Rudolf J. and Spector, Philip C.(1993), SAS System for Lineal models, Second Edition, Cary, NC: SAS Institute Inc. Allison, Paul D. (2005), Fixed Effects Regression Methods for Longitudinal Data Using SAS,Cary, NC: SAS Institute Inc. Allison, Paul D. (2006), Fixed Effects Regression Methods In SAS. SUGI 31. S. Francisco.California

- 56 -

IV. Modelos de Duracin. Anlisis de Supervivencia

- 57 -

Modelos de duracin
Junto a los modelos de datos de panel es una de las reas de ms amplio desarrollo en microeconometra en los ltimos tiempos. La metodologa y terminologa se han importado de otras disciplinas cientficas (ciencias biomdicas, epidemiologa, control de calidad, ingeniera) que llevaban mucho tiempo utilizndolos. Las tablas de vida han sido utilizadas habitualmente por los demgrafos y los actuarios de seguros A partir de finales de los setenta es cuando se incorporan a las ciencias econmicas y sociales fundamentalmente en estudios de mercado de trabajo, evaluacin de tratamientos y polticas. La literatura economtrica sobre datos de duracin es reciente. Entre las referencias de mayor utilidad se encuentran Kalbfleisch y Prentice (1980), Heckman y Singer (1984a), Kiefer (1988) y Lancaster (1991).

- 58 -

Conceptos fundamentales
Variable a explicar en el modelo: Tiempo transcurrido hasta que ocurre un evento Evento: resultado de cualquier acontecimiento que ocurre en la biografa de un individuo, empresa. Sinnimos: suceso, acontecimiento. Duracin de un suceso: duracin del intervalo temporal entre los instantes en que empieza la observacin y ocurre el evento Datos de duracin: aquellos que suministran informacin sobre la duracin de un suceso. Los datos de duracin se obtienen de un seguimiento longitudinal de los individuos o colectivos y se extraen, generalmente, bien de encuestas de panel, bien de registros administrativos (caso del IMI, seguro de desempleo)

- 59 -

Conceptos fundamentales
Datos de supervivencia: miden el tiempo que transcurre hasta que se produce un determinado evento (datos de duracin, tiempo de vida) Fenmenos en los que el tiempo no es slo su rasgo distintivo sino el que suscita el inters de los investigadores. Ej. tiempo transcurrido en desempleo, en bsqueda de un primer empleo, en un programa de asistencia social (IMI), mientras se percibe el seguro de desempleo La variable tiempo no suele tener una distribucin normal, tiene una distribucin asimtrica (ver distribuciones empricas de la siguiente transparencia) Estudio de los fenmenos de dependencia de los programas asistenciales

- 60 -

DISTINTOS TIPOS DE BENEFICIARIOS CCLICOS

- 61 -

DURACIN EN EL PROGRAMA IMI: DISTINTOS TIPOS DE BENEFICIARIOS

- 62 -

Grficos funcin de riesgo Comparacin diferentes modelos ajustados

Modelos paramtricos log-normales

- 63 -

Grficos funcin de riesgo Comparacin diferentes modelos ajustados

Modelos paramtricos Weibull

- 64 -

La Estimacin de los Modelos de Duracin


1. Enfoque continuo. El tiempo es una variable continua pero no siempre es posible ni deseable tratarla como tal. Este enfoque incluye Modelos no paramtricos (PROC LIFETEST) Modelos semi-paramtricos tambin denominados Modelos de Cox (PROC PHREG) Modelos parametricos (PROC LIFEREG) Enfoque discreto. A pesar de que el tiempo es una variable continua un observador solo tiene acceso a valores discretos de la misma. Los eventos pueden ocurrir en un mismo momento de tiempo (discreto) pero tambin la imprecisin en la forma de medir puede llevar a una discretizacin del mismo: controles diarios, semanales, mensuales, semestrales (PROC LOGISTIC, PROC PROBIT, PROC GENMOD) Anlisis de datos en los que muchos eventos ocurren en el mismo momento de tiempo (OPTION TIES=EXACT) Anlisis de datos en los que la falta de precisin al medirlos hace que se produzcan de hecho en el mismo momento de tiempo (OPTION TIES=EXACT)

2.

- 65 -

Estimacin de la duracin por mtodos no paramtricos


Estimacin de la distribucin del tiempo de supervivencia Mtodo actuarial de Berkson y Gage. Tablas de vida (PROC LIFETEST) Mtodo del producto de Kaplan-Meier (PROC LIFETEST) Representacin grfica del tiempo de supervivencia estimado por el mtodo de Kaplan-Meier. Distribucin emprica (PROC LIFETEST, Macros definidas por Allison, faciles de adaptar)

- 66 -

Kernel Smoothed Hazard Function for IMI Recipients

- 67 -

Ejemplo de PROC LIFETEST


/* Ejemplo 14 */ /* Estimaciones no paramtricas con PROC LIFETEST */ /* Mtodo de Kaplan-Meier*/

libname dato "e:\datos-curso";


PROC LIFETEST NOTABLE DATA=MODELO;
TIME TOTALM*CENSURA(1);

TEST ED EMPLEA PROBLEMAS ESTUDIOS /* CONTINUAS */ SEXO MONOPA PESOLA MINOET PROBLEM2 PROBLEM3 PROBLEM6 PROBLEM9 PROBLEM12 TOTAL; /* Utilizacin de la sentencia TEST */ /* Exploracion de los posibles regresores para modelos paramtricos */ TITLE1 "COVARIANZAS CON EL TIEMPO DE SUPERVIVENCIA DE DISTINTAS VARIABLES"; title2 "ESTIMACIONES NO PARAMTRICAS MTODO DE KAPLAN-MEIER"; RUN;

- 68 -

FUNCIONES DE REENTRADA SUAVIZADAS. DISTINTOS TIPOS DE BENEFICIARIOS CCLICOS

Comparacin de diferentes parmetros de suavizado (bandwidth)

- 69 -

FUNCIONES DE REENTRADA SUAVIZADAS. DISTINTOS TIPOS DE BENEFICIARIOS CCLICOS

- 70 -

La Estimacin de los Modelos de Duracin Modelo de riesgo proporcional de COX


Entre las ventajas de este modelo es la no exigencia de asumir una distribucin de probabilidad concreta para representar los tiempos de supervivencia (mas robusto) Flexibilidad para poder incorporar variables que dependen del tiempo entre las variables explicativas Permite un tipo de anlisis estratificado que es muy efectivo para controlar variables conflictivas Facilita el ajuste para perodos en los que el individuo no est en riesgo de que se produzca el evento Permite acomodarse perfectamente a las medidas de tiempo discretas o continuas, a variables dinmicas y a diferentes tipos de variables explicativas (categricas, dicotmicas, continuas..). Implementacin de algortmos exactos para tiempo discreto (opcin EXACT)

- 71 -

La Estimacin de los Modelos de Duracin Modelo de riesgo proporcional de COX


Modelo de riesgos proporcionales, es un nombre engaoso. El modelo puede ser generalizado para permitir riesgos no proporcionales (ver Ayala y Rodrguez 2004) El nuevo mtodo de estimacin que propuso COX, fue denominado mas tarde mtodo de verosimilitud parcial Regresin de Cox se refiere a la combinacin del modelo de riesgos proporcionales y del mtodo de estimacin por verosimilitud parcial Este estimador es en cierta forma similar al de Chamberlain (1980) para estimar un modelo logit con datos de panel

- 72 -

Ejemplo de PROC PHREG


/* Ejemplo 16 */ /* Ejemplo 54.1 PHREG PROCEDURE */ /* Ajustar un modelo semiparamtrico de COX */ /* Mtodo de regresin paso a paso (stepwise) */ proc phreg data=Myeloma; model Time*VStatus(0)=LogBUN HGB Platelet Age LogWBC Frac LogPBM Protein SCalc / selection=stepwise slentry=0.25 slstay=0.15 details; run; /* Utiliza los datos del PASO DATA del ejemplo */

- 73 -

La Estimacin de los Modelos de Duracin Modelos Paramtricos


Anlisis del tiempo de supervivencia. La variable de inters es el tiempo que transcurre desde que un fenmeno comienza hasta que finaliza Modelos de regresin censurada (modelos TOBIT) se basan en una variable censurada. Problemas heterocedasticidad y ausencia de normalidad La hiptesis de normalidad en este contexto no resulta aceptable, ya que el tiempo es una variable positiva, mientras que una variable aleatoria con distribucin normal puede tomar valores negativos La hiptesis de log-normalidad es una alternativa mas atractiva En la prctica las funciones de supervivencia suelen ser: Exponencial, Weibull, log-normal, log-logstica

- 74 -

La Estimacin de los Modelos de Duracin Modelos Paramtricos


Funcin de riesgo (HF) que no vara con el tiempo. Da la funcin de supervivencia de la distribucin exponencial. Se ha utilizado mucho para modelizar el tiempo que transcurre hasta que falla un componente electrnico. Propiedad caracterstica de los procesos sin memoria Funcin de riesgo (HF) como una funcin lineal, con pendiente positiva o negativa Funcin de riesgo (HF) log-normal, gaussiana inversa, Weibull, loglogstica. Todas estas distribuciones modelizan variables aleatorias no negativas, pero el comportamiento de la funcin de riesgo es muy diferente (constante, montona creciente o decreciente, creciente al principio y decreciente a continuacin)

- 75 -

La Estimacin de los Modelos de Duracin Modelos Paramtricos


Las aproximaciones no paramtricas y semiparamtricas permiten una gran flexibilidad en el anlisis porque la funcin de riesgo no necesita ser especificada. Si los datos responden efectivamente a una determinada distribucin de probabilidad, las inferencias basadas en esa distribucin sern mas eficientes y precisas. Si la distribucin de probabilidad asumida es correcta los errores estndar de los estimadores en las aproximaciones paramtricas son menores La conversin del parmetro fijo en una funcin de los regresores es un cambio en las unidades de medida en el eje del tiempo por lo que estos modelos se llaman tambin modelos de tiempo de riesgo acelerado (accelerated failure time AFT) frente a los denominados modelos de riesgo proporcional (COX) Adems permiten realizar inferencias poblacionales, no limitndose a la muestra analizada. Prediccin de tiempos en funcin de los valores de las variables incluidas en la modelizacin Puede verse un ejemplo en el estudio de Ayala y Rodrguez (Papeles de trabajo del IEF n 13 2004)

- 76 -

Ejemplo de PROC LIFEREG


/* Ejemplo 17 */ /* Ajustar un modelo paramtrico con especificacin log-normal */ /* Generar un fichero de resultados para posterior tratamiento grfico */ PROC LIFEREG DATA=DATO.MODELO OUTEST=SALIDA1; MODEL TOTALM*CENSURA(1)= ed emplea problemas estu sexo monopa pesola minoet total menores maxre / dist=lnormal; output out=salida2 xbeta=lp; TITLE1 "Modelo parametrico. Distribucion Log-normal"; TITLE2 "Modelo con 10 variables explicativas (covariates) y reincorporaciones"; run;

- 77 -

La Estimacin de los Modelos de Duracin Modelos Paramtricos. Frailty Models


Es posible realizar la inclusin de un trmino de heterogeneidad no observada o de efectos aleatorios especfico de cada individuo. Suele realizarse como una distribucin aleatoria conocida, por ejemplo, la distribucin gamma.(Frailty Models) Si esto se realiza as, surge un problema de identificacin en el modelo que ha sido estudiado ampliamente en la literatura. Entre otros Elbers y Ridder (1982), Heckman y Singer (1984b), Ridder (1990) y Honor (1993). La distribucin a considerar en este caso es una mezcla de las distribuciones para el riesgo bsico y la heterogeneidad. La interpretacin no es sencilla Heckman y Singer (1984b) proponen estimar el modelo con una especificacin no paramtrica del trmino de heterogeneidad inobservada, ya que consideran que la especificacin de una distribucin de probabilidad concreta para el trmino de heterogeneidad inobservada sobreparametriza el modelo y puede llevar a grandes inconsistencias en la inferencia

- 78 -

Grficos competing risks. Distintos tipos de salida del programa IMI

Funciones de riesgo . Suavizado kernel

- 79 -

GRAPHICAL METHODS FOR EVALUATING MODEL FIT COX-SNELL RESIDUALS

- 80 -

Estudio de los residuos de los modelos de Cox

Comparacin de residuos con diferentes modelos

- 81 -

Estudio de los residuos de los modelos de Cox

- 82 -

Estudio de los residuos de los modelos de Cox

- 83 -

Modelos de duracin en tiempo discreto

Exigen un cambio en la estructura del fichero de datos Identificacin del hogar (variable EXPE en el ejemplo ) Cada hogar tendr tantos registros como semestres est en el estudio (en el caso de controles semestrales) Debe identificarse la secuencia de semestre en el estudio (variable PERIODO en el ejemplo) Debe identificarse la continuidad o censura semestral (Variable QUIT en el ejemplo) En el caso de las variables dinmicas, en el ejemplo la tasa de paro, identificar el valor que toma cada semestre (variable FECHAT para hacer el MERGE con el fichero de paro trimestral)

- 84 -

Ejemplo de programa SAS para cambiar la estructura del fichero


/* CREACION DEL FICHERO PARA TRATAMIENTO DISCRETO */ /* 23 MOMENTOS DE TIEMPO DIFERENTES */ /* UN REGISTRO PARA CADA MOMENTO EN QUE EL HOGAR ES OBSERVADO */ /* SE INCLUYE LA TASA DE PARO COMO VARIABLE DINMICA */ data discre;
set modelo;/* Variable para el merge */

fechat=compress(aent)||compress(trim); if tparo=. then tparo=11.94; /* Tasa de paro el 4 trim. de 1990 */ sem=sum(of s1-s23); /* nmero de semestres en el programa */ do periodo=1 to sem; if periodo=sem and censura=0 then quit=1; /* Sale */ else quit=2; /* No sale */ output; end; run; proc sort data=discre; by fechat; run;

- 85 -

Ejemplo de programa SAS para estimar el modelo de duracin discreto


/*Modelo Probit-Logstica */ /* Todas las interacciones del paro con el tiempo */ PROC Probit DATA=modelos; /* Probabilidad de salir del programa */ class quit; model quit= p01-p23 sexo estu pesola monopa minoet emplea ed gtotal gmenor problemas tparo3*p01 tparo3*p02 tparo3*p03 tparo3*p04 tparo3*p05 tparo3*p06 tparo3*p07 tparo3*p08 tparo3*p09 tparo3*p10 tparo3*p11 tparo3*p12 tparo3*p13 tparo3*p14 tparo3*p15 tparo3*p16 tparo3*p17 tparo3*p18 tparo3*p19 tparo3*p20 tparo3*p21 tparo3*p22 tparo3*p23 / d=logistic noint; /* sin factor constante */ output out=salida1 prob=proba xbeta=estima; TITLE1 "Modelo discreto funcin de riesgo base. Logstica"; run;
- 86 -

Influencia de la tasa de paro a medida que aumenta la duracin en el programa IMI

- 87 -

Orientaciones para el trabajo emprico


Los mtodos de anlisis de supervivencia utilizan correctamente las observaciones censuradas y no censuradas. Un primer paso suele ser la estimacin de la distribucin del tiempo de supervivencia (tablas de vida) . Puede estimarse por el mtodo actuarial de Berkson y Gage y por el mtodo del producto de Kaplan-Meier (PROC LIFETEST) Ambos mtodos estiman la funcin de riesgo (HF) y la de supervivencia desde un punto de vista estrictamente emprico. Es una forma muy aconsejable de descripcin de los datos disponibles PROC LIFETEST, permite tambin realizar un test (rank test) de asociacin del tiempo de supervivencia con otras variables Los modelos de COX (PROC PHREG) y los modelos paramtricos (PROC LIFEREG) son procedimientos de regresin para modelizar el tiempo de supervivencia en funcin de un conjunto de variables explicativas (covariates) Es interesante disponer de una orientacin sobre la magnitud y el signo del efecto de las variables explicativas mediante un modelo semiparmtrico (PROC PHREG) antes de estimar un modelo paramtrico (PROC LIFEREG)

- 88 -

Modelos de Duracin. Bibliografa


Allison, P. D. (1995): Survival Analysis Using the SAS System: A Practical Guide, Cary, NC: SAS Institute Inc. Ayala, L., and Rodrguez, M. (2003): La duracin de los programas de lucha contra la pobreza. Madrid: Instituto de Estudios Fiscales. Ayala, L. and Rodrguez, M (2004): Multiple Ocurrence of Welfare Recipiency: Determinants and Policy Implications, Instituto de Estudios Fiscales, Working Paper 13/2004. Cox, D.R. (1972), Regression models and life-tables. Journal of Royal Statistical Society, B, 34, pgs. 187-220. Cox, D.R. (1975), Partial likelihood. Biometrika, 62, pgs. 269- 276. Heckman, J. and B. Singer (1984a), Econometric duration analysis Journal of Econometrics, 24, pgs. 63-132. Honor, B.E. (1990): Simple Estimation of a Duration Model with Unobserved Heterogeneity, Econometrica, 58:453-473.

- 89 -

Modelos de Duracin. Bibliografa


Heckman, J. and B. Singer (1984b), A method for minimizing the impact of distributional assumptions in econometric models for duration data, Econometrica, 52, pgs. 271-320. Kiefer, N. (1988), Economic duration data and hazard functions. Journal of Economic Literature, 26, pgs. 646-679. Kaplan, E.L. y P. Meier (1958), Nonparametric estimation from incomplete observations. Journal of American Statistical Association, 53, pgs. 457-481. Kalbfleisch, J. y R. Prentice (1980). The Statistical Analysis of failure time data. John Wiley and sons. Nueva York. Lancaster, T. (1991). The econometric analysis of transition data. Cambridge University Press. Nueva York. Ridder, G. (1990), The non-parametric identification of generalized hazard models. Review of Economics Studies, 57, pgs. 167-182. Rivas Lpez, M.J. y Lpez Fidalgo, J. (2000) Anlisis de Supervivencia. Editorial La Muralla,S.A.; Hesprides, S.L.

- 90 -

Ejercicios apartado IV
Utilizando el sistema de ayuda on line de SAS, buscar el procedimiento PHREG Elegir el ejemplo 54.1, para estimar un modelo semiparamtrico de COX por el mtodo de verosimilitud parcial, realizando una regresin paso a paso (STEPWISE) Ejecutarlo y estudiar los resultados Ver la interpretacin en el propio sistema de ayuda de SAS

- 91 -

V. Algunas recomendaciones para la investigacin emprica con SAS

- 92 -

Orientaciones para el trabajo emprico con SAS


En el trabajo La duracin en los programas de lucha contra la pobreza de Ayala, L., y Rodrguez, M. (2003), el tratamiento cuantitativo ha sido realizado con SAS. Se han comprobado los resultados de los modelos de duracin con los obtenidos con STATA sin que se observasen diferencias. Conversin de los registros administrativos en una base de datos para la investigacin: matching and cleaning, validacin de campos individual, validacin de campos cruzada: PASO DATA, PROC SORT, PROC FREQ, PROC PRINT, PROC SUMMARY Anlisis descriptivo y exploratorio de datos: PASO DATA, PROC CONTENTS, PROC SORT, PROC TABULATE, PROC MEANS, PROC UNIVARIATE, PROC GCHART, PROC GPLOT, PROC BOXPLOT Imputacin de valores missing. Definicin y aplicacin de reglas de imputacin: PASO DATA, FORMATOS, PROC FORMAT Anlisis de modelos de duracin: PROC LIFETEST, PROC LIFEREG, PROC PHREG,PROC GPLOT, PROC LOGISTIC, PROC PROBIT, PROC GENMOD

- 93 -

Orientaciones para el trabajo emprico con SAS


Cualquier estudio debe empezar por un anlisis exploratorio de los datos y una depuracin de los mismos. Si proceden de fuentes externas es muy til leer con formato fechas, variables cuantitativas y cualitativas para identificar valores imposibles. La distribucin de frecuencias ayuda a identificar valores missing para decidir criterios de imputacin posibles Hacer validacin de campos cruzada siempre es muy aconsejable Cuando se trata de recoger la informacin por cuestionario con SAS/FSP interesa siempre hacer validacin en entrada de variables y campos cruzados, para asegurar la calidad desde la recogida. Todo el cdigo de validacin es reutilizable con facilidad Definir un buen diseo de tablas para los datos ayuda en la depuracin e interpretacin de los resultados La utilizacin de ficheros administrativos en la investigacin precisa de un tratamiento profundo previo al anlisis. Los registros administrativos son resultado de la gestin y no suele disearse su recogida con otros objetivos

- 94 -

Orientaciones para el trabajo emprico con SAS


De cuidarse la eleccin del procedimiento o procedimientos adecuados para el anlisis Es posible utilizar varios procedimientos para conseguir los mismos objetivos. La eleccin puede realizarse en funcin de la experiencia anterior con cada uno de ellos, incluso en base al inters por investigar alguno menos conocido. Tambin teniendo en cuenta la limitacin de los recursos, exigencias de memoria, tiempo Ver la documentacin completa del procedimiento, librera de ejemplos de SAS para consultar cdigo disponible y libros especficos de los usuarios si es que existen. Tambin documentos del SUGI Aproximarse a este ideal lo mas posible en la medida que la situacin lo permita

- 95 -

Orientaciones para el trabajo emprico con SAS


La metodologa de moda, el ltimo descubrimiento terico, no siempre son adecuados para nuestros datos. Cuando no se cumplen las hiptesis y requisitos exigibles para su aplicacin, nuestros resultados no sern mejores, incluso pueden ser inservibles Ningn producto de software sustituye las ideas, el conocimiento profesional de los temas. Si se utiliza bien hace avanzar en el estudio, en la investigacin cientfica y tcnica Cualquier herramienta que nos ayude a realizar mejor nuestro trabajo es adecuada Tambin puede serlo SAS

- 96 -

NOTAS

- 97 -

Vous aimerez peut-être aussi