Vous êtes sur la page 1sur 159

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262897328

Software de Anlisis Estadstico SAS

Article July 2013

CITATIONS READS

0 3,805

3 authors, including:

Cindy Carolina Lugo Rozo Felipe Patio


Banco de la Repblica de Colombia National University of Colombia
1 PUBLICATION 0 CITATIONS 1 PUBLICATION 0 CITATIONS

SEE PROFILE SEE PROFILE

All content following this page was uploaded by Cindy Carolina Lugo Rozo on 06 June 2014.

The user has requested enhancement of the downloaded file.


Software de Anlisis Estadstico SAS

Jessica Paola Vargas Castro1


Luis Felipe Patio Oquendo2
Cindy Carolina Lugo Rozo3
Viviana Oquendo
julio de 2013

Resumen:

El uso de los software economtricos en la ltima dcada han trascendido para


los profesionales como una herramienta til para el anlisis estadstico y
econmico, as, tareas que tomaban horas se trabajan en segundos y el
profesional en su disciplina puede emitir un anlisis ms rpidamente y con
una clara visin de lo que ocurre con los datos que trabaja. Este documento
pretende guiar en el manejo del software SAS (Statistical Analysis Software)
tanto en la parte tcnica como en la parte aplicativa.

Palabras Clave:

Software, econometra, series de tiempo, anlisis grfico, pronstico, datos panel,


regresin.

JEL:

Statistical Analysis Software SAS

Abstract:

The use of econometric software in the last decade have transcended for
professionals as a useful tool for statistical analysis and economic, as well,
tasks that took hours are worked in seconds and the professional in their

1 Estudiante de economa de la Facultad de Ciencias Econmicas de la Universidad


Nacional de Colombia, y monitor junior del grupo capacitaciones de la Unidad de
Informtica y Comunicaciones de la Facultad de Ciencias Econmicas durante. Correo
Electrnico: jepvargasca@unal.edu.co
2 Estudiante de ingeniera elctrica de la Facultad de Ingeniera de la Universidad

Nacional de Colombia, y monitor junior del grupo capacitaciones de la unidad de


informtica y comunicaciones de la Facultad de Ciencias Econmicas durante. Correo
Electrnico: lfpatinoo@unal.edu.co
3 Estudiante de economa de la Facultad de Ciencias Econmicas de la Universidad

Nacional de Colombia, y monitor junior del grupo mejor gestin de la Unidad de


Informtica y Comunicaciones de la Facultad de Ciencias Econmicas durante. Correo
Electrnico: cclugor@unal.edu.co
INV- Software de Anlisis Estadstico SAS /2013-I

discipline can issue further analysis quickly and a clear vision of what happens
to the data that works. This document is intended to guide the management of
SAS software (Statistic Analysis Software) in both the technical and on the
applicative.

Keywords:

Software, econometrics, time series, graphic analysis, quality control, forecast

2
INV- Software de Anlisis Estadstico SAS /2013-I

Estudiantes Auxiliares:

Ahumada Avendao Fredy Esteban


Alvarado Castillo Paola Alejandra
Alzate Gaitn Paola Andrea
Andrade Martnez David Ricardo
Caldern Espitia Walter Helberth
Director Unidad Informtica: Cano Daz Alberto
Henry Martnez Sarmiento vila Ibez Diego Fernando
Enciso Castao Julin David
Tutor Investigacin: Gonzlez Mayorga Cesar Felipe
Viviana Mara Patio Oquendo Gisa Daz Carlos Eduardo
Hernndez Carvajal Miguel ngel
Coordinadores: Hurtado Casas Andrs Felipe
Jasmin Guerra Crdenas Leyva Daz Daniel Felipe
Juan Carlos Tarapuez Roa Lugo Rozo Cindy Carolina
Malangn Carvajal Laura Juliana
Coordinador Servicios Web: Martnez Cortes Nicols
John Jairo Vargas Miranda Hernndez Ncolas
Montes Parra Mayerli Andrea
Analista de Infraestructura y Moreno Urin Germn Yesid
Comunicaciones: Oquendo Patio Viviana Mara
Diego Alejandro Jimnez Arvalo Patio Oquendo Luis Felipe
Pineda Estupian Andrs Javier
Analista de Sistemas de Informacin: Rojas Martn Daniel Francisco
Vctor Hugo Ramos Ramos Rubiano Rojas Mario Andrs
Vargas Castro Jessica Paola

Este documento es resultado de un trabajo


conjunto y coordinado de los integrantes de
la Unidad de Informtica y Comunicaciones
de la Facultad de Ciencias Econmicas de la
Universidad Nacional de Colombia.

Esta obra est bajo una licencia reconocimiento no comercial 2.5


Colombia de CreativeCommons. Para ver una copia de esta licencia,
visite http://creativecommons.org/licenses/by/2.5/co/ o enve una carta a
CreativeCommons, 171second street, suite 30 San Francisco, California
94105, USA.

3
INV- Software de Anlisis Estadstico SAS /2013-I

Software de Anlisis Estadstico SAS

1. Contenido
2. Introduccin............................................................................................................... 6
2.1. Caractersticas generales del software .............................................................. 6
2.1.1. Requerimientos del sistema para Linux(Official Page, Statistical Analysis
Software SAS, 2013) .................................................................................................. 6
2.1.2. Requerimientos del sistema para Windows(Official Page, Statistical
Analysis Software SAS, 2013) ................................................................................... 6
2.1.3. Comparacin del software con otros software estadsticos ........................ 7
2.1.4. Listado de funciones del programa SAS(Universidad Complutense de
Madrid, 2013) ............................................................................................................ 7
2.1.5. Aplicabilidad de SAS ................................................................................... 8
2.2. Lenguaje de programacin ................................................................................. 8
2.2.1. Acerca del lenguaje de programacin(N/A, 2013) ....................................... 8
2.2.2. Uso del software segn la pgina oficial de SAS(Official Page, Statistical
Analysis Software, 2013) ........................................................................................... 8
2.3. Manual SAS ....................................................................................................... 9
2.3.1. Crear una librera ....................................................................................... 9
2.3.2. Leer data sets de SAS ............................................................................... 13
2.3.3. Leer archivos de bases de datos para pc ................................................... 15
2.3.4. Presentar programas de sas para hosts remotos...................................... 18
2.3.5. Crear y definir variables ........................................................................... 21
2.3.6. Usar declaraciones condicionales ............................................................. 21
2.3.7. Subconjunto de datos ................................................................................ 22
2.3.8. Trabajo con Fechas y Horas de SAS ......................................................... 23
2.3.9. Impresin de Datos ................................................................................... 24
2.3.10. Conteo de datos ...................................................................................... 24
2.3.11. Tabular datos ......................................................................................... 25
2.3.12. Consulta de datos .................................................................................. 26
2.3.13. Unir tablas ............................................................................................. 27
2.3.14. Crear grficos......................................................................................... 28
2.3.15. Crear grficos (2) ................................................................................... 29

4
INV- Software de Anlisis Estadstico SAS /2013-I

2.3.16. Regresin simple y mltiple .................................................................. 31


2.3.17. ARIMA ................................................................................................... 36
2.3.18. Datos Panel ............................................................................................ 44
2.3.19. ODS Graphics Designer......................................................................... 65
2.4. Clases ............................................................................................................... 71
2.4.1. Primera Clase............................................................................................ 71
2.4.2. Segunda clase Definiciones bsicas para la insercin de variables ...... 72
2.4.3. Tercera Clase Lgica condicional, fechas y horas, subconjuntos .......... 77
2.4.3.1. Lgica condicional.................................................................................. 77
2.4.3.2. Subconjuntos de datos ........................................................................... 81
2.4.3.3. Fechas y horas con SAS ......................................................................... 83
2.4.3.6. SAS DATATIME VALUE ...................................................................... 84
2.4.4. Cuarta clase Regresin simple............................................................... 86
2.4.5. Quinta Clase Regresin multiple ........................................................... 90
2.4.6. Sexta clase - Modelos ARIMA ................................................................. 103
2.4.7. Sptima clase Datos Panel ................................................................... 119
2.4.8. Octava clase ODS Graphics Designer.................................................. 140
3. Conclusiones .......................................................................................................... 155
4. Referencias ............................................................................................................ 157

5
INV- Software de Anlisis Estadstico SAS /2013-I

2. Introduccin

La empresa SAS crea el Statistical Analysis Software (SAS) principalmente como un mtodo
para la organizacin y control de grandes bases de datos. SAS fue diseado de manera tal que
respondiera a una recoleccin, transformacin, anlisis y reporte de datos; de manera adecuada
y eficiente para la organizacin que disponga del software. Sin embargo, pronto el software
comenz a formarse como uno de los paquetes economtricos ms poderosos del mercado.

Adems, el software puede generar muchas soluciones de negocio que permiten soluciones de
software a gran escala para reas como administracin, gestin de recursos humanos, gestin
financiera, inteligencia de negocios y ms. La ltima versin de SAS fue SAS 9.3 y sali al
mercado en diciembre de 2011.

2.1. Caractersticas generales del software

2.1.1. Requerimientos del sistema para Linux(Official Page, Statistical


Analysis Software SAS, 2013)

Sistemas operativos de LINUX:

Red Hat Enterprise Linux 4 y 5

SuSE Linux Enterprise Server 9 y 10

Linux x 64 (siempre y cuando sea por la va de compatibilidad de 32 bits.

Para esta versin de SAS, los requerimientos del hardware son:

Intel Pentium 4 o superior o Procesadores XeonClass

64 Mb de memoria

Soporte de pantalla de mnimo 256 colores

2.1.2. Requerimientos del sistema para Windows(Official Page, Statistical


Analysis Software SAS, 2013)

SAS 9.1 se puede instalar en prcticamente cualquier sistema operativo de


Windows:

Windows 7, Windows Vista, Windows XP, Windows 2000, Windows NT Family.

Requerimientos mnimos del Hardware

6
INV- Software de Anlisis Estadstico SAS /2013-I

Intel Pentium II

Memoria de 256 Mb

Resolucin de pantalla de 800 * 600 o superior

Acceso a internet

2.1.3. Comparacin del software con otros software estadsticos

En la siguiente pgina se muestra unas amplias tablas de comparacin de gran


cantidad de Software de anlisis estadstico:

http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

Las caractersticas de SAS muestran que el software no es Libre y es de


licencia propietaria, adems de usar una interfaz grfica CLI/GUI. El software
como ya se mencion trabaja en los sistemas operativos de Linux y Windows,
adems de UNIX. No trabaja en BSD y en Mac OS fue terminado.
En las diferentes tablas tambin aparecen los programas que utilizan varios
mtodos ANOVA (ANOVA son los diferentes modelos estadsticos que existen)
en el cual SAS maneja todos los mtodos:
One way, Two Way, MANOVA, GLM, Mixed Model, Post-host, Latin squares.
Tambin muestra los diferentes modelos de regresin que existen y los software
que los manejan. De nuevo SAS es capaz de aplicar todos los mtodos:
OLS, WLS, 2SLS, NLLS, Logistic, GLM, LAD, Stepwise, Quantitle, Probit, Cox,
Poisson, MLR.
La siguiente tabla en la pgina muestra los software que utilizan diferentes
anlisis de series temporales. SAS maneja todos:
ARIMA, GARCH, Unit root test, Cointegration test, VAR, Multivariable
GARCH
SAS emplea todos los grficos y diagramas que manejan los software
estadsticos. En estas diferentes tablas se puede concluir que SAS es uno de los
programas ms completos en el mercado.

2.1.4. Listado de funciones del programa SAS(Universidad Complutense de


Madrid, 2013)

SASAnalytics es la marca registrada que maneja la empresa para integrar


todo lo que involucra el modelado predictivo y analtico. Entre las funciones del
programa SAS encontramos:

Las utilidades de entorno grfico:

Creacin y manipulacin de libreras de datos SAS (llamados SAS-FILES)


Importacin/exportacin de datos externos en ficheros ASCII
Importacin/exportacin de datos externos en ficheros en otros formatos, por
ejemplo, EXCEL.

7
INV- Software de Anlisis Estadstico SAS /2013-I

Exportacin de grficos a otros formatos.

Para estadstica y econometra encontramos:

Estadstica descriptiva simple


Regresin y anlisis de varianza y covarianza
Anlisis de datos cualitativos
Anlisis discriminante
Anlisis cluster
Anlisis de supervivencia
Scoring (estandarizacin y construccin de variables)
Imputacin de datos perdidos
Anlisis de potencia
Clculo de medidas de distancia

2.1.5. Aplicabilidad de SAS

El programa SAS est pensado como un software para el anlisis y manejo de


datos que busca mejorar la gestin empresarial, por su capacidad de organizacin y
anlisis. SAS desea que los usuarios del software puedan facilitar su proceso de
toma de decisiones utilizando modelos predictivos, descriptivos, de simulacin y
optimizacin. Con ello se busca llegar a la solucin de los problemas cotidianos del
entorno econmico y fomentar el desarrollo interno de los agentes que usen el
software. En esa medida, en la Universidad Nacional, son las carreras afines al
entorno econmico y en general carreras que trabajan con bases de datos, las que
pueden aprovechar las opciones que ofrece SAS; especialmente las carreras de la
Facultad de Ciencias Econmicas.

2.2. Lenguaje de programacin

2.2.1. Acerca del lenguaje de programacin(N/A, 2013)

El lenguaje de programacin que utiliza SAS fue diseado por el mismo SAS. Su
sintaxis est inspirada en la de PL/I (lenguaje propuesto por IBM en 1970), este
opera en primera instancia sobre tablas de datos. Estas tablas de datos las puede
leer, transformarlas, combinarlas, resumirlas, crear informes, entre otras cosas. El
ncleo del lenguaje incluye Pasos data que permiten realizar operaciones sobre las
filas de un conjunto de datos, procedimientos de manipulacin de datos que
permiten ordenar tablas, enlazarlas, etc., un intrprete de SQL, un superlenguaje
de macros.

2.2.2. Uso del software segn la pgina oficial de SAS(Official Page, Statistical
Analysis Software, 2013)

8
INV- Software de Anlisis Estadstico SAS /2013-I

Cualquier software informtico que pueda descargarse o que de cualquier otra


forma est disponible en esta pgina Web se encuentra sujeto a una licencia que
puede ser la del contrato escrito de licencia suscrito entre usted y SAS o la licencia
click-on que usted acepta en el momento de descarga o uso. El software al que
cualquiera de estas dos licencias le sea de aplicacin se encuentra, salvo pacto en
contrario, sujeto nicamente a los trminos de su contrato de licencia asociado.

En cualquier caso, si ni una licencia escrita o una click-on estn disponibles, el


uso que usted haga del software se encontrar sujeto a las siguientes condiciones:

1) No podr usar, reproducir, grabar, modificar, publicar, comunicar pblicamente


o distribuir ningn software disponible a travs de esta pgina Web sin el previo
consentimiento expreso y por escrito de SAS

2) Se le reconoce una licencia personal, no exclusiva, para usar dicho software


sujeto a las restricciones indicadas ms arriba

3) Dicho software se encuentra sujeto a todas las Garantas y Limitaciones de


responsabilidad que se establecen a continuacin

4) Salvo expresamente garantizado en otro lugar, SAS Institute Inc. y sus


otorgantes de licencias se reservan todos los derechos, ttulos e intereses en
relacin a dicho software.

2.3. Manual SAS

Como mtodo de autoexploracin del software SAS se estableci que a partir del
software y su respectivo manual, se iran encontrando las diferentes funciones del
programa y con base en estas se realizara la estructura del curso de acuerdo a los
diferentes tems encontrados y a la experiencia en la unidad sobre estos tipos de
software y el mejor procedimiento para dictar un curso libre. A continuacin se
presenta la primera parte del manual de SAS con los siguientes tems:

o Crear una Librera


o Leer data sets de SAS
o Leer archives de bases de datos para PC
o Presentar programas de SAS para host remotos.

2.3.1. Crear una librera

Antes de iniciar con SAS file, generalmente se debe definir primero una librera de
SAS, esto con el fin de mostrarle a SAS donde se encuentra el archivo. Usted ha
creado ya una biblioteca SAS interactivamente mediante la ventana de la nueva
biblioteca. Otra forma de definir una biblioteca SAS es utilizando una instruccin
LIBNAME. Esta declaracin LIBNAME permite 4 cosas:

9
INV- Software de Anlisis Estadstico SAS /2013-I

Identifica una Librera SAS a SAS.

Asocia un motor con la librera

Permite asociar especificaciones con la librera

Asigna un libref (nombre de referencia de la librera) a ella misma.

A gran ventaja del comando LIBNAME es que puede almacenarla en un programa


de SAS, as, se puede referenciar la librera automticamente cuando se enve el
programa. Una vez que se asigna a la libref, usted puede leer, crear o actualizar
archivos en una biblioteca SAS:

libref.filename

En el nombre de dos niveles, libref es el nombre de la biblioteca SAS que contiene


el archivo y nombre_de_archivo es el nombre del mismo archivo. Un perodo separa
la libref y el nombre de archivo. En el nombre de dos niveles, libref es el nombre de
la biblioteca SAS que contiene el archivo y filename es el nombre del mismo
archivo. Un perodo separa la libref y el filename.

Si se tienen las licencias de 1 o ms productos de SAS diferentes, es posible crear una


librera SAS que referencie relaciones de DBMS database, schema, server, o grupos de
tablas y vistas.

Mtodo de Point and Click

Se puede crear una librera mediante:

1. Clic en View > Explorer.


2. Clic en File > New.

10
INV- Software de Anlisis Estadstico SAS /2013-I

3. En la ventana de New Library, especifique la informacin para la nueva


librera. Si usted quiere sea creada en el comienzo de cualquier sesin de SAS, haga
clic en Enable at startup.
4. Clic OK.

EJEMPLO 1

Asignacin de un libref a archivos de referencia SAS

Suponga que usted quiere definir una librera SAS para referenciar una carpeta en el
entorno operativo de Windows que contiene algunos SAS data sets. Luego usted
quiere crear un nuevo data set, imprimirlo e imprimir un data set existente en la
misma librera. El siguiente programa define la librera Sales y referencia los
archivos SAS con esta librera.

Usted puede copiar y enviar este programa en SAS. Sin embargo, es necesario
editar el directorio en el estado LIBNAME (est en rojo) para referenciar un directorio
existente en su entorno operativo.

/*************************************/
/* define SAS library */
/*************************************/
libname sales 'c:\salesdata\sas\2002';
/*************************************/
/* create new data set from raw data */
/*************************************/
data sales.quarter1;
length Department $ 7 Site $ 8;
input Department Site Quarter Sales;
datalines;
Parts Sydney 1 4043.97
Parts Atlanta 1 6225.26
Parts Paris 1 3543.97
Repairs Sydney 1 5592.82
Repairs Atlanta 1 9210.21
Repairs Paris 1 8591.98
Tools Sydney 1 1775.74
Tools Atlanta 1 2424.19
Tools Paris 1 5914.25
;
run;
/*************************************/
/* print new data set */
/*************************************/
proc print data=sales.quarter1;
run;

/*************************************/
/* print existing data set */
/*************************************/
proc print data=mylib.productsales;
run;

11
INV- Software de Anlisis Estadstico SAS /2013-I

EJEMPLO 2

Ahora suponga que usted quiere imprimir tambin una tabla Oracle y una tabla DB2.
El siguiente programa muestra cmo puede especificar declaraciones LIBNAME con
los motores de SAS/ACESS y opciones apropiadas. Despus de asignar un libref a
DBMS, es posible referenciar estas tablas y vistas como SAS data sets, usando los
nombres estndar two-level SAS.

Mientras usted pueda definir cualquier nmero de librefs in SAS, usted puede
procesar datos desde mltiples recursos DBMS en el mismo programa de SAS.

Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo es posible modificarlo para trabajar con
tablas DBMS que usted pueda acceder.

/*************************************/
/* define SAS library for Oracle */
/*************************************/
libname myorlib oracle user=scott password=tiger
path="blunzer:v7" schema=hrdept;
/*************************************/
/* define SAS library for DB2 */
/*************************************/
libname mydblib db2
noprompt="user=testuser;
password=testpass;database=testdb";
/*************************************/
/* print Oracle table */
/*************************************/
proc print data=myorlib.all_employees;
where state='CA';
run;

/*************************************/
/* print DB2 table */
/*************************************/
proc print data=mydblib.customers;
where state='CA';
run;

/*************************************/
/* clear librefs */
/*************************************/
libname myorlib clear;
libname mydblib clear;

12
INV- Software de Anlisis Estadstico SAS /2013-I

REFERENCIAS

Ac puede encontrar ms informacin acerca de crear libreras.

Documentacin en Help SAS:

1. En SAS, click Help SAS Help and Documentation.


2. Expanda SAS Products Base SAS.
3. Expanda SAS Language Concepts SAS Files Concepts SAS Data
Libraries y mire los tpicos de inters
4. Expand SAS Language Dictionary Dictionary of Language Elements
Statements y click LIBNAME statement y LIBNAME Statement,
SAS/ACCESS.
5. Expanda Using SAS Software in Your Operating Environment, luego en la
seccin de su entorno operativo. Expanda Using SAS Files y vea los tpicos
relacionados con las libreras de SAS

Preguntas en el soporte tcnico Frequently Asked Questions

Programas in SAS help:

1. En SAS, click Help SAS Help and Documentation.


2. Expand Learning to Use SAS y click Sample SAS Programs.
3. Clic Base SAS y mire los programas de inters

2.3.2. Leer data sets de SAS

Tal vez quiera crear un nuevo data set desde un data set existente. En Create an run
SAS programas, haya visto ejemplos de DATA step que lee existiendo data sets usando
una declaracin SET. Leyendo un data set en un DATA step es ms simple que leyendo
los datos en bruto debido a que el trabajo de describir y convertir los datos ya se han
hecho.

Ahora, cuando usted usa un data sets existente o subsets creados desde SAS data sets,
usted puede hacer ms eficiente el uso de los recursos del computador que si usara los
datos en bruto (raw data) o si est trabajando con data sets largos. Leer menos
variables significa que SAS crea un program data vector ms pequeo, y leyendo menos
observaciones significa que existen menos iteraciones para el DATA step que se crean.

Usted puede leer desde uno o ms data set, combinar y modificar datos en diferentes
maneras, por ejemplo usted puede:

Combinar 2 o ms input data sets para crear un output data ser


Fusionar datos desde 2 o ms data sets para crear un output data set
Actualizar un archivo master basado en las grabaciones de transaccin.

En el caso ms simple usted lee datos desde un solo SAS data set:

13
INV- Software de Anlisis Estadstico SAS /2013-I

Como las principales herramientas para leer, combinar y modificar data sets, usted
puede usar cuatro declaraciones: SET, MERGE, MODIFICY y UPDATE. Para procesar
los datos y crear un data set de salida, puede usar una programacin adicional de
declaraciones SAS en el paso DATA.

Esta tarea se centra en la lectura de un nico conjunto de datos SAS utilizando la


sentencia SET.

EJEMPLO

Cuando usted lee data sets de SAS, el gran poder del paso de programacin DATA est
disponible para usted. Los siguientes ejemplos muestran algunos caminos fciles para
usar la declaracin SET para leer una existente data set.

Usted puede copiar y enviar estos programas en SAS. En los datos de


Mylib.ProductSales fue creado por Work with SAS data sets . Si no se cre, vuelva
a la tarea definir la librera y crear un data set antes de cargar estos
programas que aparecen a continuacin

/*************************************/
/* read a data set and subset */
/*************************************/
data canada;
set mylib.productsales;
if country='CANADA';
run;

/*************************************/
/* read a data set, subset, and */
/* create new variables */
/*************************************/

14
INV- Software de Anlisis Estadstico SAS /2013-I

data canada2;
set mylib.productsales;
if country='CANADA';
Total_Variance=actual-predict;
Forecast=actual*1.15;
run;
/*************************************/
/* read a subset using direct access */
/*************************************/
data product_sample;
do obsnum=1 to 100 by 2;
set mylib.productsales point=obsnum;
if _error_ then abort;
output;
end;
stop;
run;

REFERENCIAS

Documentation, publications, and FAQs

Documentacin en SAS help:

1. En SAS, click Help< SAS Help and Documentation.


2. Expanda SAS Products< Base SAS< SAS Language Concepts.
3. Expand DATA Step Concepts< Reading, Combining, and Modifying SAS Data
Sets y mire los tpicos de interes
4. Expand SAS System Concepts< Rules for Words and Names in the SAS
Language y mire los tpicos de interes.
5. Expand SAS Products< Base SAS< SAS Language Dictionary< Dictionary of
Language Elements< SAS Data Set Options y mire los topicos de interes

Preguntas en working with SAS data sets en SAS Technical Support's Frequently
Asked Questions

Ejemplos de programas

programs in SAS help:

1. En SAS, click Help< SAS Help and Documentation.


2. Expand Learning to Use SAS y click Sample SAS Programs.
3. Click Base SAS y vea Starting with SAS Data Sets, Chapter 4.

2.3.3. Leer archivos de bases de datos para pc

15
INV- Software de Anlisis Estadstico SAS /2013-I

Si usted tiene un archivo de base de datos ya sea en hojas de clculo de Microsoft Excel,
Lotus o archivos de Microsoft Access, puede usar SAS para importar estos archivos y
crear data sets de SAS. Una vez haya obtenido el archivo en SAS, es posible procesarlos
como usted lo necesite en SAS. Tambin es posible exportar archivos de SAS a un
nmero de formatos diferentes para PC.

Para leer bases de datos de PC, puede usar el procedimiento IMPORT. PROC IMPORT
lee el archivo de entrada y los convierte a un data set de SAS, con las variables SAS
definidas en base a los registros de entrada. Usted puede controlar los resultados con
opciones y declaraciones que estn especificadas en el recurso de entrada de datos
(input data).

PROC IMPORT slo est disponible en Windows, OS/2, OpenVMS, and UNIX
Usted debe tener la interfaz SAS/ACCESS para archivos de PC licenciados para leer
archivos de datos de la PC. Sin embargo, an sin la interfaz SAS/ACCESS para
archivos de PC puede importar y exportar archivos externos limitados (archivos que
contienen columnas de valores de datos que estn separados por un delimitador como
un espacio en blanco o una coma).

Mtodo de Click and Point

Si usted tiene la interfaz SAS/ACCESS para archives de PC licensiados, puede


importar bases de datos usando Import Wizard:

1. En SAS, click File< Import Data.


2. Cuando el Import Wizard se abre, siga las instrucciones para importar datos.

Usted puede ver y salvar el cdigo PROC IMPORT que el Import Wizard genera

EJEMPLO

Suponga que usted quiere importar 2 archivos, a ua hoja de clculo de Microsoft Excel y
a una tabla de Access. El siguiente programa le muestra cmo leer datos usando
opciones especficas para el archivo dado, crea data sets e imprime el nuevo data sets.

Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con
bases de datos de PC a las que pueda acceder.

/*************************************/
/* import the Excel file */
/*************************************/
proc import datafile="c:\myfiles\Accounts.xls"
out=sasuser.accounts sheet="Prices";
getnames=no;
run;

/*************************************/

16
INV- Software de Anlisis Estadstico SAS /2013-I

/* print part of the new data set */


/*************************************/
proc print data=sasuser.accounts(obs=10);
run;
/*************************************/
/* import the Access file */
/*************************************/
proc import table="customers"
out=sasuser.cust dbms=access;
uid="userid";
pwd="mypassword";
database="c:\myfiles\east.mdb";
wgdb="c:\winnt\system32\security.mdb";
run;
/*************************************/
/* print part of the new data set */
/*************************************/
proc print data=sasuser.cust(obs=5);
run;
REFERENCIAS

Mire estos recursos online para aprender ms a cerca de como leer bases de datos de
PC.

Documentacin, publicaciones y FAQs

Documentacin en SAS help

1. En SAS, click Help< SAS Help and Documentation.


2. ExpandA SAS Products< Base SAS< SAS Procedures< Procedures.
3. Click The IMPORT Procedure y vea los tpicos de interes
4. Si usted est interesado en exporter datos a bases de datos de PC, click The
EXPORT Procedure.

PROC IMPORT documents desde SAS Technical Support Documents

product-specific documentacin para PC File Formats en SAS Online Product


Documentation

Otras publicaciones en SAS Documentation, incluyendo Your SAS Technology Report

Preguntas sobre on PROC IMPORT en SAS Technical Support's Frequently Asked


Questions

Ejemplos de programas

17
INV- Software de Anlisis Estadstico SAS /2013-I

programs in SAS help:

1. En SAS, click Help< SAS Help and Documentation.


2. Expanda SAS Products< Base SAS< SAS Procedures.
3. Clic The IMPORT Procedure.
4. Clic Examples: IMPORT Procedure.

2.3.4. Presentar programas de sas para hosts remotos

El servicio de cmputo de SAS le da un fcil acceso a muchas de los recursos remotos en


su red desde una sola sesin local de SAS. SAS/CONNECT ofrece acceso a recursos
remotos en 2 formas, sincrnicos y asincrnicos. Con el proceso sincrnico, usted espera
los resultados del proceso remoto antes de estar disponibles para continuar el proceso
local. Con el proceso asincrnico, usted inmediatamente recupera el control para
continuar el proceso local mientras el trabajo remoto se ejecuta, y usted puede obtener
los resultados despus.

El acceso remoto le ayuda eficazmente usando todos los recursos informticos de la


organizacin. Los servicios informticos tambin le permiten tener ventaja en el
Output Delivery System (ODS) en SAS para cambiar el formato y la apariencia en la
salida de SAS que es generada en un host remoto.

Las declaraciones de SAS/CONNECT GIGNON, SIGNOGG, RSUBMIT, y


ENDRSUBMIT lo conectan para presentar declaraciones a un host remoto desde una
sesin en un host local. Usted puede incluir estas declaraciones en un programa de SAS
y hacer al mismo tiempo los procesos locales y remotos en un solo programa de SAS.

Usted debe tener la licencia de SAS/CONNECT para presentar programas de SAS en


host remotos.

18
INV- Software de Anlisis Estadstico SAS /2013-I

EJEMPLO

Suponga que usted quiere llevar a cabo algn tipo de procesamiento en un host remoto,
descargue lo resultante del data set, cree un data set permanente en el host local, e
imprima un reporte sobre el host local. El siguiente ejemplo ilustra cmo poner todas
estas caractersticas en un solo programa.

Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con
archivos remotos a los cuales pueda acceder
/*************************************/
/* prepare to sign on */
/*************************************/
options comamid=netbios remote=netpc;
libname lhost 'c:\sales\reg1';
/*************************************/
/* sign on and download data set */
/*************************************/
signon;
rsubmit;
libname rhost 'd:\dept12';
proc sort data=rhost.master
out=rhost.sales;
where gross > 5000;
by lastname dept;
run;
proc download data=rhost.sales
out=lhost.sales;
run;
endrsubmit;
/*************************************/
/* print data set in local session */
/*************************************/
proc print data=lhost.sales;
run;

REFERENCIAS

Vea estor recursos online para aprender ms acerca de cmo presentar programas
remotos de SAS

Documentacin, publicaciones y FAQs

Documentacin en SAS help:

1. En SAS, click Help< SAS Help and Documentation.


2. Expand SAS Products< SAS/CONNECT< Communications Access Methods.
3. Expanda los tpicos de interes en SAS/CONNECT.

19
INV- Software de Anlisis Estadstico SAS /2013-I

SAS/CONNECT and SAS/SHARE documents desde SAS Technical Support


Documents

product-specific documentation SAS/CONNECT in SAS Online Product


Documentation

Otras publicaciones en SAS para Documentation, incluyendo Your SAS Technology


Report

Preguntas sobre SAS/CONNECT wn SAS Technical Support's Frequently Asked


Questions

Ejemplos de programas


programas en SAS help:

1. En SAS, click Help< SAS Help and Documentation.


2. Expand Learning to Use SAS< Sample SAS Programs.
3. Click SAS/CONNECT y mire los programas de interes

Programas en SAS Online Samples:

SAS/CONNECT Software: Usage and Reference, Version 6, Second Edition

Siguiendo lo estipulado, se continu con el mtodo de autoexploracin del software SAS. Se


estableci que a partir del software y su respectivo manual, se iran encontrando las diferentes
funciones del programa y con base en estas se realizara la estructura del curso de acuerdo a
los diferentes tems encontrados y a la experiencia en la unidad sobre estos tipos de software y
el mejor procedimiento para dictar un curso libre. A continuacin se encuentra la ltima parte
de este manual introductorio de SAS.

o Crear y Definir variables


o Usar declaraciones condicionales
o Subconjunto de Datos
o Trabajo con Fechas y Horas de SAS
o Impresin de datos
o Conteo de Datos
o Tabular Datos
o Consulta de Datos
o Unir Tablas
o Crear Grficos
o Crear Grficos (2)

Adjunto a este informe se encuentra el manual completo. No se archiva ac debido a que es


muy extenso, simplemente se pondr la explicacin de cada tema omitiendo los ejemplos y sus
respectivas referencias

20
INV- Software de Anlisis Estadstico SAS /2013-I

2.3.5. Crear y definir variables

A menudo, cuando usted trabaja con data sets, es muy til crear nuevas variables o
variables que estn basadas en los valores de otras variables existentes. Estas nuevas
variables pueden contener los resultados de las funciones de SAS, valores
condicionalmente asignados, o valores totales de valores de otra variable.

Usted puede crear variables en un paso DATA mediante las siguientes maneras:

Usando una declaracin asignada


Leyendo datos con la declaracin INPUT en un paso DATA
Especificando una nueva variable en una declaracin FORMAT o
ONFORMAT
Especificando una nueva variable en una declaracin LENGHT
Especificando una nueva variable en una declaracin ATTRIB

Cuando usted crea variables usando declaraciones asignada, usted puede tomar
ventaja de SAS functions y SAS expressions.

2.3.6. Usar declaraciones condicionales

En los pasos DATA de los programas, usted probablemente querr usar lgica
condicional para procesar algunas observaciones pero otras no.

21
INV- Software de Anlisis Estadstico SAS /2013-I

Para ejecutar una declaracin SAS para observaciones que cumplan condiciones
especificas, usted puede usar:

Declaraciones IF-THEN/ELSE para programas con algunas declaraciones


condicionales
Un grupo SELECT cuando usted tiene una serie larga de condiciones que son
mutuamente exclusivas
Subconjuntos de declaraciones IF, sin una clausula THEN, para continuar el
procesamiento solo de las observaciones o registros que cumplan la condicin
que es especificada en la clausula IF.

Para construir expresiones en declaraciones, usted puede utilizar los siguientes


operadores comparativos:

Tambin puede utilizar estos operadores lgicos

2.3.7. Subconjunto de datos

A menudo usted necesita trabajar slo con subconjuntos de un data set de SAS. Por lo
que necesita seleccionar observaciones, variables o inclusive ambas.

En el paso DATA, usted tiene un nmero de herramientas para subconjuntos de


datos. Usted puede usar:

22
INV- Software de Anlisis Estadstico SAS /2013-I

Subconjuntos de declaraciones IF para seleccionar slo aquellas observaciones


que cumplan una condicin especfica
Construcciones IF-THEN/ELSE con declaraciones DELETE y OUTPUT para
borrar o seleccionar observaciones que permitan una condicin,
respectivamente
DROP= y KEEP= opciones de data set y DROP y KEEp declaraciones para
bajar o mantener determinadas variables
Declaraciones WHERE para seleccionar slo las observaciones que cumplan
una condicin especfica (en determinadas condiciones).

EN los pasos PROC, las declaraciones WHERE son la herramienta ms comn para
seleccionar observaciones que cumplan una condicin especfica.

sta tarea se enfoca en la escritura de los pasos DATA usando subconjuntos de


declaraciones IF, las opciones DROP= y KEEP= de data set y las declaraciones DROP
y KEEP.

2.3.8. Trabajo con Fechas y Horas de SAS

SAS almacena las fechas y horas como nmeros nicos, exclusivos para que pueda
utilizarlas en programas como cualquier otra variable numrica:

Un SAS date value es un valor que representa el nmero de das entre enero 1 de
1960 y una fecha especificada. SAS puede realizar clculos con fechas que van desde
el ao 1582 a 19.900 AD. Fechas antes de Enero 1 de 1960, son nmeros negativos,
despus de las fechas son nmeros positivos.

Un SAS time value es un valor que representa el nmero de segundos transcurridos


desde la medianoche del da actual. Los valores SAS time value son entre 0 y 86400.

Un SAS datetime value es un valor que representa el nmero de segundos entre enero
1 de 1960 y una hora / minuto / segundo dentro de un plazo determinado.

23
INV- Software de Anlisis Estadstico SAS /2013-I

Para trabajar con valores date, time y datetime usted puede utilizar las siguientes
herramientas:

Informats lee un valor, tal como un reloj de tiempo o un calendaro, el cual


puede ser de varias longitudes, y luego convierte los datos o un valor data,
time datetime.

Formats presenta un valor reconocido por SAS, tal como un valor time o date,
como un dato del calendario o un tiempo de reloj de varias longitudes.

Functions realize operaciones sobre valores date, time, y datetime de SAS.

2.3.9. Impresin de Datos

Para listar la informacin en un data set, usted puede crear un reporte usando el
procedimiento PRINT. Luego, usted puede mejorar el reporte con declaraciones
adicionales y opciones para crear reportes como se muestra ms abajo. Usted puede
crear una variedad de reportes que van desde una simple lista a un gran reporte de
datos completamente personalizado adems de clculos totales y subtotales de una
variable numrica.

Metodo Point-and-Click

Si usted tiene licensia de SAS/STAT, usted puede crear listas de reportes usando una
interfaz point-and-click.

Usted puede ver y guardar el cdigo PROC PRINT que genera Analyst.

2.3.10. Conteo de datos

Cuando usted analiza sus datos, es posible que usted necesite determinar qu valores
de una variable estn distribuidos a travs de los datos. Para ello, usted puede crear
tablas de frecuencia, la cual muestra la distribucin de los valores de la variable,
tanto con los porcentajes de un total como el conteo de data.

24
INV- Software de Anlisis Estadstico SAS /2013-I

El procedimiento FREQ en Base SAS crea un solo sentido de la tabla de frecuencias,


dos sentidos y n sentidos de tablas de contingencia. Tambin puede calcular medidas
de asociacin y de acuerdo, organiza la salida por variables de estratificacin.

Esta tarea estar enfocada en usar PROC FREQ para realizar anlisis bsicos de
datos.

Mtodo de Point-and-Click

Si usted tiene licencia de SAS/STAT, usted puede crear tablas de frecuencias usando
una interfaz point-and-click.

1. En SAS, click Solutions< Analysis< Analyst.


2. Cuando Analyst se abra, click File< Open by SAS Name para agregar al
proyecto
3. Luego click Statistics< Descriptive< Frequency Counts para crear tablas de
frecuencias.

Usted puede ver y salvar el cdigo PROC FREQ que genera Analyst.

2.3.11. Tabular datos

El procedimiento TABULATE le da el poder y la flexibilidad para resumir los datos en


forma de tabla. Usted puede crear una variedad de tablas que van desde simples a
muy personalizados, incluyendo tablas de una, dos, y tres dimensiones que muestran
cualquier de los nmeros de una estadstica descriptiva. Usted puede:

25
INV- Software de Anlisis Estadstico SAS /2013-I

Modificar virtualmente cualquier caracterstica de una tabla


Calcular porcentajes
Producir reportes integrados sin clasificar datos
Resumir datos y producir un reporte en un paso
Generar tablas mltiples en un paso

PROC TABULATE calcula muchas de las mismas estadsticas que son calculadas por
otros procedimientos estadsticos descriptivos tales como MEANS, FREQ, y REPORT

Mtodo de Click-and-Point

Si usted tiene licencia de SAS/STAT, usted puede crear reportes tabulares usando una
interfaz point-and-click.

1. En SAS, click Solutions< Analysis< Analyst.


2. Cuando Analyst se abre, click File< Open by SAS Name para agregar datos al
proyecto.
3. Luego click Reports< Tables para crear un reporte tabular

Usted puede ver y salvar el cdigo PROC TABULATE que genera Analyst.

2.3.12. Consulta de datos


Structured Query Language (SQL) o Lenguaje de Consulta Estructurado es un
lenguaje estandarizado, ampliamente utilizado que recupera y actaliza datos en
tablas y grficas basadas en estas tablas. Si usted est familiarizado con SQL, usted
puede crear rpidamente consultas en SAS usando el procedimiento SQL en Base
SAS.

PROC SQL es la implementacin SAS de SQL. Cuando usted quiere examinar


relaciones entre valores de datos, un subconjunto de datos o calcular valores el
procedimiento SQL provee un camino fcil flexible para analizar sus datos. Usando
PROC SQL, usted puede:

Recuperar y manipular datos que estn almacenados en tablas o grficas.


Crear tablas, vistas e ndices en las columnas de las tablas.
Crear variables macro de SAS que contienen valores de las filas de los
resultados de una consulta

26
INV- Software de Anlisis Estadstico SAS /2013-I

Agregar o modificar los valores de datos en la columna de una tabla o


instertas y borrar filas. Usted tambin puede modificar la tabla misma
aadiendo, modificando o degradando columnas.
Mandar declaraciones DBMS-SQL a un sistema de administracin de base de
datos (DBMS) y recuperar datos DBMS

Usted puede usar elementos del lenguaje SAS como declaraciones globales, opciones
del data set, funciones, y formatos con PROC SQL slo si usted puede con otros
procedimientos SAS. De todas maneras, ya que PROC AQL implementa Lenguaje de
consulta estructurado, funciona de forma diferente a otros procedimientos BASE SAS.

Esta tarea se enfoca en recuperar datos desde una sola tabla (data set).

Mtodo de Point-and-Click

Usted puede unir tablas usando una interfaz point-and-click.

1. En SAS, click Tools< Query.


2. Use la ventana SQL Query para realizar uniones.

Usted puede ver y salvar el cdigo PROC SQL que la ventana de Consulta SQL
genera

Mtodo Point-and-Click

Usted puede crear consultas SQL usando una interfaz point-and-click

1. En SAS, click Tools< Query.


2. Use la ventana SQL Query para crear consultas.

Usted puede ver y salvar el cdigo PROC SQL que la ventana SQL Query genera

2.3.13. Unir tablas

Si usted ley CONSULTA DE DATOS, usted observ maneras para consultar una
sola tabla usando PROC SQL. Sin embargo, usted necesita datos a menudo desde
tablas separadas. Cuando usted especifica mltiples tablas, vistas, o expresiones de
consulta en la clausula FROM, PROC SQL, las procesa para formar una tabla. La
tabla resultante contiene datos de cada una de las tablas contribuyentes. Estas
consultas se les llaman como JOINS.

Conceptualmente, cuando usted especifica dos tablas, PROC SQL compara cada fila
de la tabla A con todas las filas de la tabla B para producir una tabla interna o
intermedia conocida como el CARTESIAN PRODUCT. El producto cartesiano
(CARTESIAN PRODUCT) de tablas largas puede ser enrome, por lo que usted quiere
enviar datos declarando el tipo de unin. A continuacin se muestran dos tipos de
uniones.

27
INV- Software de Anlisis Estadstico SAS /2013-I

Inner joins retorna una tabla resultante por todas las filas en una tabla que
tiene una o mas filas que coincidan en la otra tabla o las otras tablas.

Outer Joins son inner joins que son aumentadas con filas que no
coinciden con cualquier fila de la otra tabla en la unin. ExistenEst 3
tipos de outer joins: left, right, and full.

Esta tarea se enfoca principalmente en unir tablas.

2.3.14. Crear grficos

Una manera efectiva para examinar las relaciones entre variables es graficando sus
valores. Para producir grficos nicos o superpuestos, usted puede usar:

El procedimiento PLOT en Base SAS para visualizar datos rpidamente


El procedimiento GPLOT en el software SAS/GRAPH para producir con
calidad grficos de presentacin que incluyen colores y varias fuentes.

En adicin, usted puede crear una salida PROC GPLOT usando el SAS/GRAPH
Control for ActiveX, el cual que le permite incrustar grficos interactivos en pginas
web y documentos OLE.

La sintaxis para los dos procedimientos es muy similar, aunque PROC GPLOT ofrece
un nmero adicional de funciones de formato. Esta tarea le muestra ambos caminos
para crear varios tipos de grficos.

Usted debe tener la licencia de SAS/GRAPH para crear grficos usando PROC
GPLOT.

28
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de Point-and-Click

a) Si usted tiene licenciado SAS/GRAPH, puede crear grficos con calidad de


presentacin usando una interfaz point-and-click

1. En SAS, click Solutions< Reporting< Graph-N-Go.


2. Click en el icono New SAS Data Set y seleccione datos para el grfico
3. Haga clic en el cono para escoger el grfico que desee y colquelo en el rea de
trabajo. Luego haga docle clic en el objeto del grfico, seleccione los datos y
especifique las variables y las opciones del grfico.

Usted puede ver y salvar el cdigo de PROC GPLOT que genera Graph-N-Go

b) Si usted tiene licenciado SAS/GRAPH y SAS/GRAPH, tambin puede crear


grficos usando Analyst Application

1. En SAS, click Solutions< Analysis< Analyst.


2. Cuando Analyst se abra, click File< Open by SAS Name para agregar los
datos al proyecto.
3. Luego haga clic en Graphs y escoja el tipo de grfico que quiere crear

Usted puede ver y salvar el cdigo PROC GPLOT que Analyst genera

2.3.15. Crear grficos (2)

Usted puede usar el procedimiento CHART en Base SAS para producir

Barras grficas horizontales y verticales


Grficos de bloques
Grficos circulares
Mapas estelares

Estos tipos de graficos muestran valores de una variable estadstica asociada con
sus valores. La variable graficada puede ser numerada o caracterizada.

29
INV- Software de Anlisis Estadstico SAS /2013-I

PROC CHART es una buena herramienta para visualizar datos rpidamente, pero si
usted necesita producir grficos de presentacin con calidad que incluyan varios
colores y fuentes, usted puede usar el software SAS/GRAPH. El procedimiento
GCHART en SAS/GRAPH produce los mismos tipos de grficos que PROC CHART
hace, As como un grfico de dona. En adicin, usted puede crear salidas PROC
GCHART usando el SAS/GRAPH Control for ActiveX, el cual lo conecta con grficos
interactivos en pginas web y documentos OLE.

Como usted puede ver, la sintaxis para PROC CHART y PROC GCHART es muy
similar. Esta tarea le muestra ambos caminos para crear varios tipos de grficos.

Usted debe tener la licencia de SAS/GRAPH para crear grficos usando PROC
GCHART.

Mtodo de Click-and-Point

Si usted tiene licenciado SAS/GRAPH, usted puede crear grficos de presentacin con
calidad usando una interfaz point-and-click.

1. En SAS, click Solutions< Reporting< Graph-N-Go.


2. Click en el cono New SAS Data Set o en New MDDB y seleccione los datos
para el grfico.
3. Haga clic en el cono del grfico que desee y colquelo en el rea de trabajo.
Luego haga clic en el objeto del grfico, seleccione los datos y especifique las
variables y las opciones del grfico..

Usted puede ver y salvar el cdigo PROC GCHART que genera Graph-N-Gos.

Si usted tiene licenciado SAS/GRAPH y SAS/STAT, tambien puede crear grficos


ustando Analys Application

30
INV- Software de Anlisis Estadstico SAS /2013-I

1. En SAS, click Solutions< Analysis< Analyst.


2. Cuando Analyst se abra, click File< Open by SAS Name para agregar datos al
proyecto
3. Luego haga clic en Graphs< Bar Chart o Graphs< Pie Chart para crear un
grfico

Usted puede ver y salvar el cdigo PROC GCHART que genera Analyst.

Siguiendo lo estipulado, se continu con el mtodo de autoexploracin del software SAS. Ya que
en este punto ya no era muy til seguir el manual de SAS (que es bastante extenso) se decidi
proseguir con regresiones simples, mltiples y series de tiempo. Con respecto a series de
tiempo, aun no se ha completado la revisin de literatura puesto que es muy extensa e inclusive
posee ms de un captulo dedicado a esto. A continuacin se encuentra lo referente a Regresin
(Declaracin REG) y lo encontrado de series de tiempo (Declaracin ARIMA

2.3.16. Regresin simple y mltiple

Considere una variable respuesta Y que puede ser predicha por una funcin polinomial
de una variable regresiva X. Usted puede estimarB0, el intercepto B1, la pendiente
debida a X y X2, la pendiente debida a X2 en:

Esto para las observaciones

Considere el siguiente ejemplo de las tendencias de crecimiento de la poblacin. La


poblacin de USA desde 1970 a 2000 se ajusta a funciones de tiempo lineales y
cuadrticas. Debe tener en cuenta que el trmino cuadrtico YearSq es creado en el
paso DATA, esto se debe hacer ya que los efectos polinmicos como Year*Year no
pueden ser especificados en la declaracin MODEL en PROC REG. Los datos son los
siguientes:

dataUSPopulation;
inputPopulation @@;
retainYear 1780;
Year = Year+10;
YearSq = Year*Year;
Population = Population/1000;
datalines;
3929 5308 7239 9638 12866 17069 23191 31443 39818 50155
62947 75994 91972 105710 122775 131669 151325 179323 203211
226542 248710 281422
;
ods graphics on;
procreg data=USPopulation plots=ResidualByPredicted;
varYearSq;
model Population=Year / r clm cli;
run;

31
INV- Software de Anlisis Estadstico SAS /2013-I

La opcin de datos garantiza que el procedimiento utiliza el conjunto de datos deseado.


Cualquier variable que se puede agregar al modelo pero que no est incluido en el
primer modelo de declaracin debe aparecer en la declaracin VAR.

A continuacin se muestra el anlisis de varianza y los parmetros estimados:

El modelo estadstico F es significante (F=228.92, p<0.0001), indicando que el modelo


da cuenta de una porcin significativa de variacin en los datos. El R cuadrado indica
que el modelo representa el 92% de la variacin en el crecimiento de la poblacin. La
ecuacin que se ajusta al modelo es:

En la declaracin MODEL, 3 opciones son especficas: R solicita un anlisis residual


para ser completado, CLI solicita lmites de confianza del 95% para un valor individual,
y CLM requiere estos lmites para el valor esperado de la variable dependiente. Usted
puede solicitar lmites de 100(1-) % con la opcin ALPHA= en PROC REG o en la
declaracin MODEL.

La siguiente tabla muestra las Estadsticas de salida. El residuo, el valor estndar, y


los residuos estudentizados se muestran para cada observacin. El residuo
estudentizado es el residual dividido por su valor estndar. La magnitud de cada

32
INV- Software de Anlisis Estadstico SAS /2013-I

residuo se muestra en un grfico impreso. Los residuos estudentizados siguen una


distribucin T y pueden ser usados para identificar observaciones de salida o extremas.
Los asteriscos (*) que se extienden ms all de las lneas de trazos indican que el
residuo es ms de 3 errores estndar desde 0. Muchas observaciones tienen residuos
estudentizados que son absolutos y son ms que 2, podran indicar un modelo
inadecuado. Cooks D es una medida del cambio en los valores predichos a la supresin
de esa observacin desde el data set, por lo que se mide la influencia de la observacin
de los coeficientes de regresin estimados.

33
INV- Software de Anlisis Estadstico SAS /2013-I

La siguiente tabla muestra las estadsticas residuales. Un acuerdo bastante estrecho


entre la estadstica PRESS y la Suma de Cuadrados Residuales indica que el MSE es
una medida razonable de la exactitud predictiva del modelo ajustable (Neter,
Wasserman, and Kutner 1990).

Las representaciones grficas son de gran ayuda en la interpolar la informacin en la


tabla de Estadstica de Salida. Cuando usted habilita los grficos ODS, el
procedimiento REG produce un set por defecto de los grficos de diagnstico que son
apropiados para el anlisis solicitado.

34
INV- Software de Anlisis Estadstico SAS /2013-I

Estos son los grficos que se muestran:

Las graficas residual y studentized residual versus el valor predicho muestra


un patrn cuadrtico.
La grafica studentized versus leverage parece indicar que existen 2 puntos de
datos alejados. Sin embargo, el grfico de la distancia Cooks D versus el
numero de observaciones revela que estos 2 puntos estn en los puntos finales
de los aos 1790 y 2000. Estos puntos se muestran con una aparente lejana
porque la salida del modelo lineal desde la lnea por debajo del comportamiento
cuadrtico en los datos se muestran ms fuertes en esos puntos finales.
El grfico del cuantil normal de los residuos y el histograma residual nos son
consistentes con la asuncin de los errores Gaussianos. Esto ocurre ya que
como los propios residuos todava contienen el comportamiento cuadrtico, este
no es capturado por el modelo lineal.
El grfico de la variable dependiente contra el valor predicho exhibe una forma
cuadrtica alrededor del grado 45 en la lnea que representa un ajuste perfecto
El grfico Residual-Fit (RF) consiste en un grfico de cuantiles lado-a-lado de
los ajustes centrales y los residuos muestran que la dispersin en los residuales
no es mejor que la dispersin de los ajustes centrado. Para modelos

35
INV- Software de Anlisis Estadstico SAS /2013-I

inapropiados, la dispersin de los residuos es a menudo mejor que la dispersin


del ajuste centrado. En este caso, el grfico RF muestra que el modelo linear en
efecto, captura la tendencia creciente de los datos, y por lo tanto cuenta con
gran parte de la variacin en la respuesta.

2.3.17. ARIMA

Introduccin
ARIMA es referenciado normalmente como modelos BOX and Jenkins

La declaracin ARIMA provee un set de herramientas para la identificacin de modelos


de series de tiempo univariadas, estimacin de variables, pronsticos, por ultimo ofrece
una gran flexibilidad en los tipos de modelos ARIMA y ARIMAX que pueden ser
analizados.

El diseo de PROC ARIMA sigue muy de cerca la estrategia de Box-Jenkins para el


modelamiento de series de tiempo con caractersticas para la identificacin, estimacin
y chequeo de diagnsticos, y pasos de pronosticacin del mtodo Box-Jenkins

LAS 3 ETAPAS DEL MODELAMIENTO ARIMA


El anlisis realizado por PROC ARIMA est dividido en 3 etapas, que corresponden a
las etapas descritas en Box y Jenkins

1) En la etapa de Identificacin, se utiliza la declaracin IDENTIFY para


especificar la serie respuesta e identificar el modelo candidato ARIMA para
ello. La declaracin IDENTIFY lee series de tiempo que son usadas en
declaraciones despus, posiblemente diferencindolas y computando auto
correlaciones, auto correlaciones inversas, auto correlaciones parciales y
correlaciones cruzadas. Los test estacionarios pueden ser realizados para
determinar si es necesario diferenciar es necesario. El anlisis de la declaracin
de salida IDENTIFY usualmente sugiere uno o ms modelos ARIMA que
pueden ser ajustados. Las opciones le permiten activar test para la
identificacin estacionaria y tentativa de los ordenes ARIMA.
2) En la etapa de estimacin y chequeo de diagnsticos, se usa la declaracin
ESTIMATE para el modelo ARIMA para ajustar la variable especificada en la
declaracin IDENTIFY y estima los parmetros de ese modelo. La declaracin
ESTIMATE tambin produce estadsticas de diagnstico para ayudar a juzgar
el modelo adecuado. Los test de significancia para parmetros estimados estima
indica si algunos trminos en el modelo pueden ser innecesarios. ayudaen la
comparacin deeste modelo paralos dems. Estadsticas de Goodness-of-fit
ayuda en la comparando estos modelos con otros. Los tests de residuos de ruido
blanco indican si las series de residuos contiene informacin adicional que
puede ser usada por un modelo ms complejo. La declaracin OUTLIER provee
otra herramienta muy til para chequear si el modelo actualmente estimado
tiene en cuenta todas las variaciones en las series. Si los tests de diagnstico
indica problemas con el modelo, puede tratar de implementar otro modelo y
luego repetir las etapas de estimacin y de chequeo de diagnsticos.

36
INV- Software de Anlisis Estadstico SAS /2013-I

3) En la etapa de pronstico, se usa la declaracin FORECAST para pronosticar


valores futuros de las series de tiempo y tambin para generar intervalos de
confianza para estos pronsticos desde el modelo ARIMA producido por la
declaracin ESTIMATE.

Estas tres etapas son explicadas e ilustradas a travs de un ejemplo extendido en las
siguientes secciones.

ETAPA DE IDENTIFICACIN

Suponga que usted tiene una variable llamada SALES que quiere pronosticar. El
siguiente ejemplo ilustra el modelamiento ARIMA y su pronosticacin utilizando un
data set simulado TEST que contiene una serie de tiempo SALES generada por el
modelo ARIMA (1,1,1). La salida produce este ejemplo que est explicado en las
prximas secciones. A continuacin se muestra las series de SALES en la figura.

procsgplot data=test;
scatter y=sales x=date;
run;

USANDO LA DECLARACIN IDENTIFY

Primero debe especificar el data set de entrada en la declaracin PROC ARIMA. Luego
debe usar una declaracin IDENTIFY para leer y analizar en las series SALES las
propiedades de correlacin. Para hacer esto se utilizan las siguientes declaraciones.

37
INV- Software de Anlisis Estadstico SAS /2013-I

procarima data=test ;
identifyvar=sales nlag=24;
run;

Estadstica Descriptiva
La declaracin IDENTIFY primero imprime estadsticas descriptivas para las series
SALES. Esta parte de la declaracin IDENTIFY muestra lo siguiente:

The ARIMA Procedure


Name of Variable = sales
Mean of Working Series 137.3662
Standard Deviation 17.36385
Number of Observations 100

Grficos de funciones de Autocorrelacin

La declaracin IDENTIFY despus produce un panel de grficos usados para el


anlisis de auto-correlacin y de tendencia. El panel contiene los siguientes grficos:

El grfico de series de tiempo de las series de SALES


El grfico de muestra de la funcin de auto-correlacin (ACF)
El grfico de muestra de la funcin inversa de autocorrelacin (IACF)
El grfico de la muestra de la funcin parcial de auto-correlacin (PACF)

Este anlisis de correlacin se muestra a continuacin.

Estos grficos de funciones de auto-correlacin muestra el grado de correlacin con los


valores pasados de las series como una funcin de nmeros de periodos en el pasado
(que es el lag) en el que se calcula la correlacin.

38
INV- Software de Anlisis Estadstico SAS /2013-I

La opcin NLAG= controla el numero de lags para los que se muestran las auto-
correlaciones. Por defecto, las funciones de auto-correlacin son graficadas para lag 24.

Existe otra seccin que habla de la funcin inversa de correlacin:


TheInverseAutocorrelationFunction en la pgina 234.

Para examinar estos grficos, usted puede determinar si las series son estacionarias o
no estacionarias. En este caso una inspeccin visual del grfico de la funcin de auto-
correlacin indica que las series SALES no es estacionaria, desde que ACF decae muy
despacio. Para un test ms formal, use la opcin STATIONARITY= (pgina 207).

Test White Noise (Ruido Blanco)

La ltima parte de la declaracin de salida IDENTIFY es el chequeo del ruido blanco.


Esto es un test estadstico aproximado de las hiptesis que no son auto-correlacionadas
en las series hasta un desfase dado y que son significativamente diferentes a 0. Si esto
es verdad para todos los lags, entonces no hay informacin en las series para el modelo,
y ningn modelo ARIMA se necesita para las series.

Las auto-correlaciones son chequeadas en grupos de 6, y el nmero de lagas chequeados


dependen de la opcin NLAG=. Esto se muestra en lo siguiente:

En este caso, la hiptesis de ruido blanco es rechazada de manera fuerte, donde se


espera que las series no sean estacionarias. El valor p para el test de las primeras seis
auto-correlaciones es impreso como <0.0001m, lo que quiere decir que el valor p es
menor a 0.0001.

Desde que las series no son estacionarias, el siguiente paso es transformarlas a unas
series estacionarias por diferenciacin. Esto quiere decir que en lugar de modelar la
serie SALES a s mismo, se modela el cambio en SALES desde un periodo al siguiente.
Para diferenciar las series SALES, use otra declaracin IDENTIFY y especifique que la
primera diferencia de SALES sea analizada, como se muestra en las siguientes
declaraciones:

procarima data=test;
identifyvar=sales(1);
run;

39
INV- Software de Anlisis Estadstico SAS /2013-I

La segunda declaracin produce la misma informacin que la primera, pero con el


cambio que en SALES va desde un periodo al otro, en lugar del total de SALES en cada
periodo. Las estadsticas sumatorias de salida de esta declaracin IDENTIFY se
muestra a continuacin. Note que el periodo de diferenciacin se da como 1. Y una
observacin se pierde a travs de la operacin de diferenciacin:

Los grficos de auto-correlacin se muestran a continuacin.

El grado de auto-correlacin decae rpidamente en este grfico, indicando que el cambio


en SALES es una serie de tiempo estacionaria.

40
INV- Software de Anlisis Estadstico SAS /2013-I

EJEMPLOS DE ARIMA

PRIMER EJEMPLO: Modelo IMA simulado

Este ejemplo ilustra los resultados de un procedimiento ARIMA para un caso donde los
modelos reales son conocidos. UN modelo de promedio mvil integrado se utiliza para
esta ilustracin.

Los siguientes DATA step generan una muestra pseudo-aleatoria de 100 periodos del
procedimiento ARIMA(0.1.1); :

title1 'Simulated IMA (1, 1) Series';


data a;
u1 = 0.9; a1 = 0;
do i = -50 to 100;
a = rannor( 32565 );
u = u1 + a - .8 * a1;
if i > 0 then output;
a1 = a;
u1 = u;
end;
run;

El siguiente procedimiento de declaraciones ARIMA identifica y estima el modelo:

/*-- Simulated IMA Model --*/


procarima data=a;
identifyvar=u;
run;
identifyvar=u(1);
run;
estimate q=1 ;
run;
quit;

El grfico de anlisis de correlacin de series de salida en la primera declaracin se


muestra a continuacin. La salida muestra el comportamiento de la muestra de la
funcin de auto-correlacin cuando el proceso no es estacionario. Note que en este caso
las auto-correlaciones estimadas no son muy altas, incluso en pequeos lags. La no
estacionalidad es reflejada en un patrn de auto-correlaciones significativas que no
declinan rpidamente con el lag creciente, no en el tamao de las auto-correlaciones.

41
INV- Software de Anlisis Estadstico SAS /2013-I

La segunda declaracin de IDENTIFY diferencia las series. Los resultados se muestran


a continuacin. Esta salida muestra la auto correlacin, su inversa y la funciones
parciales de auto-correlacin tpicas del proceso MA(1)

42
INV- Software de Anlisis Estadstico SAS /2013-I

La declaracin ESTIMATE ajusta un modelo ARIMA (0,1,1) a los datos simulados. Note
que en este caso, el parmetro estimado es razonablemente cercano a los valores usados
para generar la base de datos simulada.
. El grfico de anlisis de los residuos no muestra un modelo inadecuado (son los
correspondientes a lo seguido de lo que aparece a continuacin).

Los resultados de la declaracin ESTIMATE son:

Y los grficos son:

43
INV- Software de Anlisis Estadstico SAS /2013-I

2.3.18. Datos Panel

El procedimiento PANEL analiza una clase de modelos lineales economtricos que


comnmente surgen cuando se combinan series de tiempo y datos transversales. Este
tipo de datos agrupados en series de tiempo con datos transversales son normalmente
referidos como DATOS PANEL. Ejemplos tpicos de datos panel incluyen observaciones
a travs del tiempo en hogares, pases, empresas comercio entre otras. Por ejemplo, en
el caso del caso de los datos de las encuestas sobre los ingresos familiares, el panel se
crea mediante una encuesta en varias ocasiones a los mismos hogares en diferentes
perodos de tiempo (aos).

Los modelos de datos panel pueden ser agrupados en diferentes categoras dependiendo
de la estructura del trmino de error. El procedimiento PANEL utiliza las siguientes
estructuras de error y los mtodos correspondientes para analizar datos:

Modelos de un camino y de dos caminos (one-way y two-way)


Modelos de Efectos Fijos y Efectos Aleatorios
Modelos auto-regresivos
Modelos de media mvil

Un modelo de un-camino depende slo de la seccin transversal a la que pertenece la


observacin. El modelo de dos-caminos depende tanto de la seccin transversal como del
periodo de tiempo a la que pertenece la observacin.

Los modelos son referidos como Modelos de efectos fijos si los efectos no son aleatorios o
modelos de efectos aleatorios si son lo contrario.

Si los efectos son fijos, los modelos son esencialmente modelos de regresiones con
variables Dummy que corresponden a los efectos especficos. Para modelos de efectos
aleatorios, la estimacin por mnimos cuadrados ordinarios es el mejor estimador lineal
(OLS). Los modelos EA (efectos aleatorios) usan un enfoque de dos etapas. En la
primera etapa, los componentes de varianza son calculados usando mtodos descritos
por Fuller y Batteste (1974), Wansbeek and Kapteyn (1984), Wallace and Hussain
(1969), or Nerlove (1971). En la segunda etapa los componentes de varianza son usados
para estandarizar los datos, y se realiza una regresin de mnimos cuadrados ordinarios
(OLS).
Dos tipos de modelos en el procedimiento PANEL se acomodan en una estructura auto-
regresiva: El mtodo Parks estima un modelo auto-regresivo de primer orden con
correlaciones contemporneas, y el estimador panel dinmico estima un modelo auto-
regresivo con variables dependientes retrasadas.
El mtodo Da Silva estima un proceso de error de media mvil de la varianza del
componente mixto. Los parmetros de regresin son estimados usando un estimador de
ltimos cuadrados de dos pasos genralizados (GLS)

PRIMER EJEMPLO: Analizano la demanda para bienes liquidos

En este ejemplo, las ecuaciones para bienes lquidos son estimadas. La funcin de
demanda para los depsitos de demanda es estimada bajo tres estructuras de error

44
INV- Software de Anlisis Estadstico SAS /2013-I

mientras las ecuaciones de demanda para los depsitos de tiempo y acciones de ahorro y
prstamo (S&L) se calculan utilizando el mtodo de Parks. El data para siete estados
(CA, DC, FL, IL, NY, TX, Y WA) son seleccionados de 49 estados. Busque Feige (1964)
para la descripcin de los datos. Todas las variables son transformadas por un
logaritmo natural. El data set A se muestra acontinuacin:

data a;
length state $ 2;
input state $ year d t s y rd rt rs;
label d = 'Per Capita Demand Deposits'
t = 'Per Capita Time Deposits'
s = 'Per Capita S & L Association Shares'
y = 'Permanent Per Capita Personal Income'
rd = 'Service Charge on Demand Deposits'
rt = 'Interest on Time Deposits'
rs = 'Interest on S & L Association Shares';
datalines;
CA 1949 6.2785 6.1924 4.4998 7.2056 -1.0700 0.1080 1.0664
CA 1950 6.4019 6.2106 4.6821 7.2889 -1.0106 0.1501 1.0767
CA 1951 6.5058 6.2729 4.8598 7.3827 -1.0024 0.4008 1.1291
CA 1952 6.4785 6.2729 5.0039 7.4000 -0.9970 0.4492 1.1227
CA 1953 6.4118 6.2538 5.1761 7.4200 -0.8916 0.4662 1.2110
CA 1954 6.4520 6.2971 5.3613 7.4478 -0.6951 0.4756 1.1924
DC 1949 6.6587 6.1879 4.4893 7.1570 -0.9999 0.4545 1.1234
DC 1950 6.6666 6.5555 4.9999 7.2222 -1.0000 0.4897 1.0054
DC 1951 6.5058 6.2729 4.8598 7.3827 -1.0024 0.4008 1.1291
DC 1952 6.4785 6.2729 5.0039 7.4000 -0.9970 0.4492 1.1227
DC 1953 6.4118 6.2538 5.1761 7.4200 -0.8916 0.4662 1.2110
DC 1954 6.4520 6.2971 5.3613 7.4478 -0.6951 0.4756 1.1924
Los ltimos datos me los invent para qu la simulacin corriera

Como se muestra en las siguientes declaraciones, el Procedimiento SORT es usado para


ordenar los datos en el formato requerido para las series de tiempo cruzadas
transversalmente, luego el Procedimiento PANEL analiza los datos:

proc sort data=a;


by state year;
run;
proc panel data=a;
model d = y rd rt rs / fuller parks dasilva m=7;
model t = y rd rt rs / parks;
model s = y rd rt rs / parks;
id state year;
run;

Las elasticidades de ingreso de los activos liquidos son mejores que 1 excepto para el
depsito de la elasticidad de ingreso de la demanda (0,692757) estimada por el mtodo
Da Silva. En las tres primeras salidas, el coeficiente estimado (-0.29094, -0.43591 y -
0.27736) del depsito de demanda (RD) implica que los depsitos de demanda
aumentan significativamente a medida que se reduce el cargo de servicio es reducido.

45
INV- Software de Anlisis Estadstico SAS /2013-I

LA elasticidad del precio (0.227152 y 0.408066) para los depsitos de tiempo (RT) y las
acciones de asociacin S&L tienen el signo esperado Por lo tanto un aumento en la tasa
de inters de los depsitos a plazo o de acciones de S & L incrementar la demanda de
activos lquidos correspondientes. Los depsitos de demanda y las acciones S&L
aparece para ser sustitutos (observe las salidas 2, 3 y 5). Los depsitos a plazo son
tambin sustitutos de acciones S & L en la ecuacin de demanda de depsitos a plazo
(salida 4), mientras estos activos liquidos son independientes el uno al otro en la salida
5 (el coeficiente estimado en RT -0.02705). Los depsitos de demanda y los depsitos a
plazo parecen ser dbiles complementos en la salida 3 y 4, mientras las elasticidades
cruzadas entre depsitos a la vista y depsitos a plazo no son significativos en las
salidas 2 y 5

46
INV- Software de Anlisis Estadstico SAS /2013-I

SALIDA 1. La demanda de depsitos a la vista, Mtodo de Fuller-Battese

47
INV- Software de Anlisis Estadstico SAS /2013-I

SALIDA 2. La demanda de depsitos a la vista, el mtodo deParks

48
INV- Software de Anlisis Estadstico SAS /2013-I

SALIDA 3. La demanda de depsitos a la vista, el mtodo de DaSilva

49
INV- Software de Anlisis Estadstico SAS /2013-I

SALIDA 4. La demanda de depsitos a plazo, Mtodo de Parks

50
INV- Software de Anlisis Estadstico SAS /2013-I

SALIDA 5. La demanda de Ahorro y Prstamo Acciones, Mtodo de Parks

EJEMPLO 2. Datos de costos de una Aerolnea: Modelo

Esta base de datos es citada constantemente, ya que mide costos, precios de entrada y
las tasas de utilizacin de seis aerolneas por un periodo de 14 aos (1970-1984). Este
ejemplo analiza las transformaciones logartmicas del costo, precio y cantidad, y la
medida de utilizacin de la capacidad en bruto (sin ligaritmo). Se especula el siguiente
modelo:

Donde son los efectos transversales puros y son los efectos de tiempo. El modelo
actual especulado no es lineal en las variables originales. Se podra ver como la
siguiente forma:

51
INV- Software de Anlisis Estadstico SAS /2013-I

La data y las declaraciones preliminares de SAS son:

data airline;
input Obs I T C Q PF LF;
label obs = "Observation number";
label I = "Firm Number (CSID)";
label T = "Time period (TSID)";
label Q = "Output in revenue passenger miles (index)";
label C = "Total cost, in thousands";
label PF = "Fuel price";
label LF = "Load Factor (utilization index)";
datalines;
1 1 1 1140640 .952757 106650 .534487
2 1 2 1215690 .986757 110307 .532328
3 1 3 1309570 1.091980 110574 .547736
4 1 4 1511530 1.175780 121974 .540846
5 1 5 1676730 1.160170 196606 .591167
6 1 6 1823740 1.173760 265609 .575417
7 1 7 2022890 1.290510 263451 .594495
8 1 8 2314760 1.390670 316411 .597409
9 1 9 2639160 1.612730 384110 .638522
10 1 10 3247620 1.825440 569251 .676287
11 1 11 3787750 1.546040 871636 .605735
12 1 12 3867750 1.527900 997239 .614360
13 1 13 3996020 1.660200 938002 .633366
14 1 14 4282880 1.822310 859572 .650117
15 1 15 4748320 1.936460 823411 .625603
16 2 1 569292 .520635 103795 .490851
17 2 2 640614 .534627 111477 .473449
18 2 3 777655 .655192 118664 .503013
19 2 4 999294 .791575 114797 .512501
20 2 5 1203970 .842945 215322 .566782
21 2 6 1358100 .852892 281704 .558133
22 2 7 1501350 .922843 304818 .558799
23 2 8 1709270 1.000000 348609 .572070
24 2 9 2025400 1.198450 374579 .624763
25 2 10 2548370 1.340670 544109 .628706
26 2 11 3137740 1.326240 853356 .589150
27 2 12 3557700 1.248520 1003200 .532612
28 2 13 3717740 1.254320 941977 .526652
29 2 14 3962370 1.371770 856533 .540163
30 2 15 4209390 1.389740 821361 .528775
31 3 1 286298 .262424 118788 .524334
32 3 2 309290 .266433 123798 .537185
33 3 3 342056 .306043 122882 .582119
34 3 4 374595 .325586 131274 .579489
35 3 5 450037 .345706 222037 .606592
36 3 6 510412 .367517 278721 .607270
37 3 7 575347 .409937 306564 .582425
38 3 8 669331 .448023 356073 .573972
39 3 9 783799 .539595 378311 .654256

52
INV- Software de Anlisis Estadstico SAS /2013-I

40 3 10 913883 .539382 555267 .631055


41 3 11 1041520 .467967 850322 .569240
42 3 12 1125800 .450544 1015610 .589682
43 3 13 1096070 .468793 954508 .587953
44 3 14 1198930 .494397 886999 .565388
45 3 15 1170470 .493317 844079 .577078
46 4 1 145167 .086393 114987 .432066
47 4 2 170192 .096740 120501 .439669
48 4 3 247506 .141500 121908 .488932
49 4 4 309391 .169715 127220 .484181
50 4 5 354338 .173805 209405 .529925
51 4 6 373941 .164272 263148 .532723
52 4 7 420915 .170906 316724 .549067
53 4 8 474017 .177840 363598 .557140
54 4 9 532590 .192248 389436 .611377
55 4 10 676771 .242469 547376 .645319
56 4 11 880438 .256505 850418 .611734
57 4 12 1052020 .249657 1011170 .580884
58 4 13 1193680 .273923 951934 .572047
59 4 14 1303390 .371131 881323 .594570
60 4 15 1436970 .421411 831374 .585525
61 5 1 91361 .051028 118222 .442875
62 5 2 95428 .052646 116223 .462473
63 5 3 98187 .056348 115853 .519118
64 5 4 115967 .066953 129372 .529331
65 5 5 138382 .070308 243266 .557797
66 5 6 156228 .073961 277930 .556181
67 5 7 183169 .084946 317273 .569327
68 5 8 210212 .095474 358794 .583465
69 5 9 274024 .119814 397667 .631818
70 5 10 356915 .150046 566672 .604723
71 5 11 432344 .144014 848393 .587921
72 5 12 524294 .169300 1005740 .616159
73 5 13 530924 .172761 958231 .605868
74 5 14 581447 .186670 872924 .594688
75 5 15 610257 .213279 844622 .635545
76 6 1 68978 .037682 117112 .448539
77 6 2 74904 .039784 119420 .475889
78 6 3 83829 .044331 116087 .500562
79 6 4 98148 .050245 122997 .500344
80 6 5 118449 .055046 194309 .528897
81 6 6 133161 .052462 307923 .495361
82 6 7 145062 .056977 323595 .510342
83 6 8 170711 .061490 363081 .518296
84 6 9 199775 .069027 386422 .546723
85 6 10 276797 .092749 564867 .554276
86 6 11 381478 .112640 874818 .517766
87 6 12 506969 .154154 1013170 .580049
88 6 13 633388 .186461 930477 .556024
89 6 14 804388 .246847 851676 .537791
90 6 15 1009500 .304013 819476 .525775
;

53
INV- Software de Anlisis Estadstico SAS /2013-I

data airline;
set airline;
lC = log(C);
lQ = log(Q);
lPF = log(PF);
label lC = "Log transformation of costs";
label lQ = "Log transformation of quantity";
label lPF= "Log transformation of price of fuel";
run;

Las siguientes declaraciones ajustan el modelo

proc panel data=airline printfixed;


id i t;
model lC = lQ lPF LF / fixtwo;
run;

Primero, se puede ver la descripcin del modelo en la primera salida. Es un modelo de


efectos ajustados two-way. Ac existen 6 observaciones transversales y quince
observaciones de tiempo

Base de datos de costos de Aerolneas-Descripcin del Modelo

El R cuadrado y los grados de libertad se pueden ver en la siguiente tabla. En el hueco,


se ve un largo R cuadrado, por lo que es un ajuste razonable. Los grados de libertad
para la estimacin son 90 menos 14 variables dummy menos 5 variables dummy
transversales y 4 regresores:

Estadsticas Ajustadas de Los costos de la Aerolnea

El test F para efectos ajustados se muestra en la siguiente tabla. Evaluando la


hiptesis que dice que no hay efectos no ajustados, usted puede rechazar fcilmente la

54
INV- Software de Anlisis Estadstico SAS /2013-I

nulidad da las agrupaciones. Hay efectos de grupo, o efectos de tiempo, o ambas. El


test es altamente significativo. OLS no darn resultados razonables

Test para Efectos Ajustados

Observando los parmetros, se ve un patrn ms complicado. La mayora de los efectos


transversales son altamente significativos (con excepcin de CS2). Esto quiere decir que
las secciones transversales son significativamente diferentes de la sexta seccin
transversal. Muchos de los efectos de tiempo muestran significancia, pero este no es
uniforme. Se ve como que la significancia puede ser impulsada por un largo efecto en el
periodo 16, desde los primeros seis efectos de tiempo son negativos y de una magnitud
similar. Las variables dummy de tiempo disminuyen en tamano y pierden
significancia desde el periodo 12. Existen muchas causas a las cuales se le puede
atribuir esta decada de los efectos del tiempo. El perodo de tiempo de los datos se
extiende por los embargos de petrleo OPEP y la disolucin de la Junta de Aeronutica
Civil (CAB). Estas tos fuerzas son dos posibles razones para observar la decada y la
inestabilidad de los parmetros. Para los parmetros de regresin, se puede observar
que la cantidad afecta a los costos positivamente, y el precio del combustible es un
efecto positivo, pero cargar factores negativamente afecto los costos de las aerolneas en
esta muestra. El resultado que es algo preocupante es que el costo del combustible no es
significativo. Si los efectos de tiempo se apoderan de los efectos de los embargos de
petrleo, puede que un insignificante parmetro del costo del combustible tenga algn
sentido. Si las variables dummy se apoderan de la disolucin de CAB, entonces el efecto
de los factores de carga es tampoco se est estimando precisamente.

55
INV- Software de Anlisis Estadstico SAS /2013-I

Parmetros Estimados

56
INV- Software de Anlisis Estadstico SAS /2013-I

GRFICOS ODS

Los grficos ODS pueden obtener un anlisis grfico y tener resultados. Las siguientes
declaraciones muestran cmo se generan estos grficos. Si la opcin PLOTS=ALL es
especificada, todas las grficas disponibles son producidas en dos paneles. Para una
completa lista de opciones consulte la seccin Creating ODS Graphics en la pgina
1413 del manual de SAS.

proc panel data=airline;


id i t;
model lC = lQ lPF LF / fixtwo plots = all;
run;

Las declaraciones anteriores dan como resultado las siguientes grficas

Panel 1 de Diagnstico

Panel 2 de diagnstico

57
INV- Software de Anlisis Estadstico SAS /2013-I

Las opciones UNPACK y ONLY producen imgenes detalladas individuales de los


grficos de paneles. El grfico mostrado a continuacin muestra un grfico detallado de
los residuos de la seccin transversal. La versin empaquetada siempre pone todas las
secciones transversales en un grfico, mientras que la desempaquetada muestra las
secciones transversales en grupos de 10 para evitar la prdida de detalles.

proc panel data=airline;


id i t;
model lC = lQ lPF LF / fixtwo plots(unpack only) = residsurface;
run;

58
INV- Software de Anlisis Estadstico SAS /2013-I

Grfico Superficial de los Residuos

EJEMPLO 3.

Usando la misma base de datos que el ejemplo anterior, se puede adems investigar el
efecto real de los precios de combustible. Se puede especificar las siguientes
declaraciones en PROC PANEL para correr este modelo:

proc panel data=airline;


id i t;
model lC = lQ lPF LF / fixone;
run;

Estas declaraciones dan como resultado la siguiente salida. El ajuste parece tener un
deterioramiento preocupante. El SSE aumenta desde 0.1768 a 0.2926

59
INV- Software de Anlisis Estadstico SAS /2013-I

Estadsticas Ajustadas

Aun se rechaza la agrupacin basada en el test F en la siguiente salida en todos los


niveles aceptados de significancia.

Test para los efectos Ajustados

Los parmetros cambian de una manera algo drstica como se muestra en la siguiente
salida. Los efectos de los costos del combustible se vuelven muy fuertes y significantes.
El Coeficiente del factor de carga crece, aunque no es drstico. Esto siguiere que el
efecto de tiempo ajustado puede ser dominado por la crisis de petrleo y la
desregulacin.

Parmetros Estimados.

60
INV- Software de Anlisis Estadstico SAS /2013-I

EJEMPLO 4. Modelos de efectos Random


Este ejemplo continua con la misma base de datos de las aerolneas. Aca se examina las
diferentes estimaciones generadas por modelos de efectos random de one-way y two-
way, usando 4 mtodos diferentes para estimar los componentes de varianza: Fuller y
Battese, Wansbeek y Kapteyn, Wallace y Hussain y Nerlove.

Los datos para este ejemplo se crean en las declaraciones de PROC PANEL mostrados
en el segundo ejemplo. Las declaraciones PROC PANEL necesarias para generar las
estimaciones son las siguientes:

proc panel data=airline outest=estimates;


id I T;
RANONE: model lC = lQ lPF lF / ranone vcomp=fb;
RANONEwk: model lC = lQ lPF lF / ranone vcomp=wk;
RANONEwh: model lC = lQ lPF lF / ranone vcomp=wh;
RANONEnl: model lC = lQ lPF lF / ranone vcomp=nl;
RANTWO: model lC = lQ lPF lF / rantwo vcomp=fb;
RANTWOwk: model lC = lQ lPF lF / rantwo vcomp=wk;
RANTWOwh: model lC = lQ lPF lF / rantwo vcomp=wh;
RANTWOnl: model lC = lQ lPF lF / rantwo vcomp=nl;
POOLED: model lC = lQ lPF lF / pooled;
BTWNG: model lC = lQ lPF lF / btwng;
BTWNT: model lC = lQ lPF lF / btwnt;
run;
data table;
set estimates;
VarCS = round(_VARCS_,.00001);
VarTS = round(_VARTS_,.00001);
VarErr = round(_VARERR_,.00001);
Int = round(Intercept,.0001);
lQ2 = round(lQ,.0001);
lPF2 = round(lPF,.0001);
lF2 = round(lF,.0001);
if _n_ >= 9 then do;
VarCS = . ;
VarTS = . ;
end;
keep _MODEL_ _METHOD_ VarCS VarTS VarErr Int lQ2 lPF2 lF2;
run;

Los parmetros estimados y los componentes de varianza para ambos modelos son
reportados en las siguientes salidas.

61
INV- Software de Anlisis Estadstico SAS /2013-I

Estimaciones de Parmetros

Estimacin de componentes de Varianza

En el modelo de efectos Random, Los trminos constantes individuales son vistos como
distribuidos al azar en todas las unidades de corte transversal y no como cambios
paramtricos de la funcin de regresin, como en los modelos de efectos mixtos. Esta es
apropiada cuando las unidades de secciones transversales de la muestra son estiradas
por una poblacin grande. Claramente, en este ejemplo, seis Aerolneas son una
muestra de todas las aerolneas en la industria y no una exhaustiva lista.

Hay 4 maneras de calcular los componentes de varianza en el modelo de efectos random


de one-way. El mtodo de Fuller y Battese (1974), usa un mtodo de constantes
ajustadaspara estimar los componentes. El mtodo de Wansbeek y Kapteyn (1989)

62
INV- Software de Anlisis Estadstico SAS /2013-I

(WK) usa los verdaderos disturbios, mientras que el mtodo de Wallace y Hussain (WH)
utiliza residuos mnimos cuadrados ordinarios.

En cuanto a las estimaciones de los componentes de la varianza de la seccin


transversal y el error en la salida anterior, se puede ver que los componentes de
varianza igual para el error son calculados ambos FB y WK, mientras WH y NL son
necesariamente iguales.

Las cuatro tcnicas producen diferentes componentes devarianzas para las secciones
cruzadas. Estas estimaciones son luego usadas para estimar los valores de los
parmetros en la penltima salida anterior. Todos los parmetros aparentar tener
estimaciones similares e igualmente pausibles. Tanto el ndice de la produccin en
millas-pasajero (CL) como el precio del combustible (LPF) tienen efectos pequeos y
positivos en los costos totales que se pueden esperar. El factor de carga (LF) tiene un
efecto algo ms grande y negativo en los costos totales, lo que sugiere que a medida que
aumenta la utilizacin, los costos disminuyen.

Al igual que en modelo de efectos random de un camino, los componentes de varianza


de error producidos por los mtodos FB y WK son iguales. De igual manera, en este
caso, Los mtodos WH y NL producen estimaciones de varianza que son diferentes. Las
estimaciones de los componentes de varianza para las secciones cruzadas son todas
diferentes, pero en un rango ms cerrado. El mismo no puede decirse para los
componentes de varianza de las series de tiempo. Por diferentes que sean cada una de
las estimaciones que la varianza pueda ser, producen estimaciones de parmetros que
son similares y plausibles. As con las estimaciones de un camino son todas negativas y,
con la excepcin de las estimaciones producidas por el mtodo WH, algunas son ms
pequeas que las estimaciones producidas en el modelo de un camino. Durante el
tiempo los datos fueron recolectados, La tabla de Aeronutica Civil se disolvi, entonces
es posible que las variables Dummy son dominadas por esta disolucin. Esto puede
conducir a la decada de los efectos de tiempo y una estimacin imprecisa de los efectos
de los factores de cargar, a pesar de que las estimaciones son estadsticamente
significativas.

Las estimaciones agrupadas dieron algo para comparar las estimaciones de efectos
random. Se puede ver que los signos y las magnitudes de salida y el precio del
combustible son similares, pero con la magnitud del coeficiente de factor de carga es un
poco ms grande debajo de la agrupacin. Mientras el modelo aparece para tener
efectos de tiempo y efectos de secciones cruzadas, los modelos agrupados no deberan
ser usados.

Finalmente, se examina entre los estimadores de grupos. Para la estimacin entre


grupos, usted est buscando en los datos de cada aerolnea promedio a travs del
tiempo. En la salida de los parmetros de estimaciones (penltima salida) puede ver
que los estimados de los parmetros entre los grupos son radicalmente diferentes de
todas las otras estimaciones de parmetros. Esto puede indicar que el componente de
tiempo no est siendo utilizado adecuadamente en esta tcnica. Para la estimacin
entre tiempo, usted est buscando en la media de todas las compaas areas en cada

63
INV- Software de Anlisis Estadstico SAS /2013-I

perodo de tiempo. En este caso, la estimacin de parmetros son del mismo signo y
cercanos en la magnitud en comparacin con las previas estimaciones calculadas. Tanto
la produccin como los efectos de los factores de carga parecen tener ms que ver con los
costos totales.

EJEMPLO 5. Usando la declaracin FLATDATA


Algunas veces los datos pueden se encuentran en una forma comprimida, donde cada
lnea tiene todas las observaciones para las variables dependientes e independientes de
la seccin cruzada. Para ilustrar esto, suponga que usted tiene un data set con 20
secciones cruzadas sonde cada seccin consiste en observaciones de tiempo de 6
periodos. Cada periodo de tiempo tiene valores para cada variable dependiente e
independiente y . Las variables cs y num representan otras variables de
caracteres y numricas que son constantes en cada seccin cruzada.

Las observaciones las primeras 5 secciones cruzadas a lo largo de de otras variables se


muestran el siguiente salida. En este ejemplo, i representa la seccin cruzada. El
periodo de tiempo es identificado por el subndice de las variables Y y X; con rangos
desde el 1 al 6.

Data Set comprimido

Mientras el proceso PANEL no puede trabajar directamente con datos en forma


comprimida, la declaracin FLATDATA puede ser usada para trasformar los datos. La
opcin OUT=option puede ser usada para las salida transformada del data set.

proc panel data=flattest;


flatdata indid=i tsname="t" base=(X Y)
keep=( cs num seed ) / out=flat_out;
id i t;
model y = x / fixone noint;
run;

64
INV- Software de Anlisis Estadstico SAS /2013-I

Primero, las 6 observaciones del data set descomprimido y los resultados del modelo de
efectos mixtos de un camino ajustados se muestran en la segunda salida.

Data Set descomprimido

Estimacin con la declaracin FLATDATA

2.3.19. ODS Graphics Designer

INTERFAZ SAS ODS

A continuacin se muestra la interfaz del diseador de grficos ODS de SAS. Para


acceder al diseador de grficos en SAS se dirige a herramientas y dar clic en ODS
Graphics Designer:

65
INV- Software de Anlisis Estadstico SAS /2013-I

Al abrir el programa aparece la siguiente interfaz:

Como se puede ver la interfaz est divida en dos partes: EL grfico los Elementos.
Existe una parte adicional que se llama Cdigo que genera el grfico, sin embargo esta
no es tan importante como las dems. A continuacin se muestra un ejemplo de un
grfico con su cdigo.

66
INV- Software de Anlisis Estadstico SAS /2013-I

A continuacin se indicara una funcin abreviada de cada pestaa del software

Fichero: Se pueden encontrar las funciones bsicas de todo software como Nuevo, Abrir,
Guardar, Imprimir, etc.

Editar: Al igual que fichero, esta pestaa contiene las funciones bsicas de edicin de
cualquier software: Deshacer, Rehacer, Seleccionar todo

67
INV- Software de Anlisis Estadstico SAS /2013-I

Ver: permite las opciones de ver o no la galera de grficos, los elementos y el cdigo

Insertar: Permite insertar en un grfico un ttulo, una nota a pie, una leyenda. Adems
de insertar filas y columnas

Formato: En esta pestaa se permite editar cualquier propiedad de cada elemento del
grfico. Tambin se permite cambiar el estilo del grfico

68
INV- Software de Anlisis Estadstico SAS /2013-I

Herramientas: en esta pestaa se puede editar el estilo y ver las preferencias del
grfico

Ayuda: Muestra la informacin sobre el diseador de grficos ODS de SAS

Por ltimo se indicaran en el orden que aparecen en la barra de los botones del
diseador de grficos ODS:

Nuevo grfico en blanco: crea un grfico completamente en blanco

Ver galera de Grficos: muestra toda la galera de grficos que posee


ODS

69
INV- Software de Anlisis Estadstico SAS /2013-I

Abrir

Guardar

Guardar como

Imprimir

Vista preliminar

Deshacer y Rehacer

Copiar en portapapeles: copia lo seleccionado del programa al


portapapeles de Windows

Ttulo: inserta un ttulo nuevo al grfico

Nota a pie: Inserta una nota al pie del grfico

Leyenda global: inserta una leyenda global:

Aadir una fila: aade una nueva fila de grficos

Aadir una nueva columna de grficos

70
INV- Software de Anlisis Estadstico SAS /2013-I

2.4. Clases

A continuacin se muestran los documentos escritos relacionados con cada clase preparada
para el curso libre de SAS.

2.4.1. Primera Clase


En la primera clase de un curso libre dictado por la Unidad de Informtica y
Comunicaciones (UIFCE) es importante el contacto con los asistentes y la evaluacin de
las competencias de los estudiantes (por ejemplo, si estn en condiciones de tratar los
temas que aborda el software, si han tenido contacto con programa similares en otra
oportunidad, etctera), es por esto que la primera clase del curso se enfoca en un primer
acercamiento al software a trabajar.

Presentacin

a) Se da la bienvenida a los asistentes al curso de SAS, presentndose primero el


conferencista. Se realiza la aclaracin que es preferible que los asistentes hayan
tomado cursos de estadstica y/o tenido contacto con software que manejen lenguaje de
programacin.
b) Se explica el reglamento de los cursos libres de la Unidad de Informtica y
Comunicaciones de la Facultad de Ciencias Econmicas (UIFCE) de la Universidad
Nacional de Colombia.
c) Se realiza la charla acerca de software libre como opcin para la comunidad
informtica, esto hace parte de la misin de la UIFCE en su labor.

2.4.2 Qu es SAS? (Official Page, Statistical Analysis Software SAS, 2013)

SAS (Statistical Analysis System) es un software estadstico usado principalmente


como un mtodo para la organizacin y control de grandes bases de datos. SAS fue
diseado de manera tal que respondiera a una recoleccin, transformacin, anlisis y
reporte de datos; de manera adecuada y eficiente para la organizacin que disponga del
software. Este software es de carcter privativo.

El lenguaje de programacin que utiliza SAS fue diseado por el mismo SAS. Su
sintaxis est inspirada en la de PL/I (lenguaje propuesto por IBM en 1970), este opera
en primera instancia sobre tablas de datos. Estas tablas de datos las puede leer,
transformarlas, combinarlas, resumirlas, crear informes, entre otras cosas. El ncleo
del lenguaje incluye Pasos data que permiten realizar operaciones sobre las filas de un
conjunto de datos, procedimientos de manipulacin de datos que permiten ordenar
tablas, enlazarlas, etc., un intrprete de SQL, un superlenguaje de macros.(Official
Page, Statistical Analysis Software, 2013)

- Se explican adems los requerimientos para el uso del software en Linux y Windows
- Se fomenta el uso del software libre como poltica de la UIFCE

SAS vs. Otros software

71
INV- Software de Anlisis Estadstico SAS /2013-I

SAS como software, a pesar de su carcter privativo, cuenta con muchas ms opciones
en comparacin con los software estadsticos ms utilizados, y que son enunciados a
continuacin en la tabla 1:

Tabla 1: Cuadro comparativo de los software estadsticos de uso ms comn.


Aspectos Generales.3 (N/A, 2013)

Finalmente se hace una explicacin bsica de la interfaz de SAS siguiendo el orden


explicado en el tem 2.2.3 de sta investigacin. Que incluye un primer panorama del
men y las ventanas que ofrece SAS y los principales botones de ejecucin.

2.4.2. Segunda clase Definiciones bsicas para la insercin de variables


Con ayuda de las diapositivas localizadas en el repositorio, se inicia con explicaciones
de conceptos como:

- Qu es una variable?: Un patrn que nombra una serie de observaciones que


representan una caracterstica en comn.
- Variables cuantitativas: Representan valores numricos (IPC, PIB, ingreso,
edad, etc.)
- Variables cualitativas: Representan una caracterstica en particular (sexo,
gnero, estrato, etc.)

3Elaboracin propia. Tomado de


http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

72
INV- Software de Anlisis Estadstico SAS /2013-I

- Variables endgenas: Variables que dependen del cambio de otra u otras


variables.
- Variables exgenas: Variables independientes que al cambiar generan una
variacin en la variable endgena. 45

Luego de ello, se contina con el primer ejemplo enunciado para la insercin de


variables directamente en el Editor de SAS, hay que aclarar que estas bases de datos
deben ser pequeas, y que toda lnea de comandos debe terminarse con un punto y
coma (;) para que corra adecuadamente ya que este es uno de los errores ms comunes a
la hora de programar en SAS.

Ejemplo: Suponga usted que desea comenzar a trabajar con una base de datos
de 10 observaciones que contempla el sexo de la persona, el ingreso que recibe
mensualmente en miles de pesos, la edad, y el estrato.

Programacin:

/*INSERCION DE VARIABLES*/
DATA variables; /*NOMBRE DE LA NUEVA BASE DE DATOS SAS*/
INPUT sexo $ ingreso edad estrato; /*VARIABLES*/
CARDS; /*COMANDO PARA INSERTAR DATOS*/
H 1500 20 3
H 3000 40 4
M 2000 30 4
H 800 25 2
M 500 18 3
H 9000 45 6
M 4000 30 3
M 5000 32 4
H 700 18 3
H 1000 23 3
;
RUN; /*CORRER PROCEDIMIENTO*/

En cuanto a la programacin se hace la claridad que los comentarios estn en rojo y


separados por /* () */ como se haba explicado en la clase anterior, y que el comando
INPUT es el que nos permite insertar el nombre de las variables y en ese orden
debemos insertar los datos. As, la primera columna pertenece a sexo, la segunda a
ingreso, etc.
Tambin se aclara que el smbolo $ define cuando una variable es cualitativa (en este
caso es sexo).

4Hacer la claridad de que existen ms tipos de variables (dummys, dicotmicas, etc.) que se
tratarn ms adelante.
5 Exgenas lleva comillas porque hay variables que si bien son exgenas en un modelo,

dependen de otras variables en otro modelo.

73
INV- Software de Anlisis Estadstico SAS /2013-I

Finalmente se observa que en la ventana LOG hay una confirmacin donde nos
muestra que efectivamente se ha creado un archivo SAS de 10 observaciones y 4
variables que se llama variables y est dentro de la librera WORK.

- Debe aclararse que si se desea cambiar el nombre de la librera se aade en la


primera parte de la programacin DATA nombredelalibrera.variables
- Si se desea ver los datos, en el explorador de SAS se dirige a Libreras > Work
(por defecto) > Variables, y se abre una ventana adicional con una tabla que
presenta los datos.

El segundo ejemplo consiste en aadir un archivo externo, para ello SAS admite:

- Archivos ASCII de texto


- Bases de datos de Access
- Archivos delimitados por comas (.csv los que comnmente usamos para trabajar
con R)
- Archivos de dBase
- JMT
- Lotus
- Archivos de Excel de diferentes versiones

El conferencista apoyado por las diapositivas del repositorio (si as lo desea) sigue el
procedimiento ah descrito y crea una nueva librera con un archivo (en el manual de
SAS y el ejemplo de Power Point se usa un archivo llamado Libro2 ubicado en el
repositorio).

Estadstica descriptiva

Ahora se enfoca la clase en dos procedimientos que generan estadstica descriptiva


MEAN y FREQ:

Programacin:

74
INV- Software de Anlisis Estadstico SAS /2013-I

MEANS incluye observar la media muestral, la desviacin estndar, el mnimo y el


mximo. En ste caso este procedimiento se le aplica solo a las variables ingreso y
edad, la orden se da por medio del comando Var. Finalmente se ejecuta RUN.

1. Si es necesario apyese de las siguientes definiciones para explicar lo que se


est haciendo:

Media muestral (Universidad, 2013): Esun estimador centrado del valor


medio de una variable aleatoria X, cuya varianza decrece a medida de que
se disponga de "mayor informacin" de la poblacin.

Desviacin estndar (Eduteka, 2013): La desviacin estndar nos dice qu


tanto se apartan los nmeros del promedio, y se calcula tomando la raz
cuadrada del promedio aritmtico de los cuadrados de las desviaciones con
respecto a la media en una distribucin de frecuencia.

Mnimo: Dato ms pequeo de la variable.

Mximo: Dato ms grande de la variable.

2. Aclare que este procedimiento es para realizar con variables cuantitativas,


pues es ilgico hacerlo con variables cualitativas.

Se muestran los siguientes resultados, se hace un breve anlisis de lo arrojado en


Output:

Observamos que en el caso de la variable sexo hay 6 observaciones que


corresponden a hombres que representan el 60% de la muestra, y 4 observaciones
que representan el 40% de la muestra. Para la variable estrato encontramos que
hay 1 observacin que corresponde al estrato 2, 5 que corresponden al estrato 3, 3
que corresponden al estrato 4 y 1 que corresponde al estrato 6; en trminos

75
INV- Software de Anlisis Estadstico SAS /2013-I

porcentuales el estrato 2 representa el 10% de la muestra, el estrato 3 el 50%, el


estrato 4 el 30% y el estrato 6 el 10%.

FREQ ofrece una tabla de frecuencias que incluye la frecuencia de la variable, el


porcentaje que representa esa frecuencia, la frecuencia acumulada y el porcentaje de la
frecuencia acumulada. De la misma forma con el comando Var se le indica a SAS que
se realice el procedimiento para sexo y estrato, ejecutamos RUN.

1. Si es necesario, apyese de las siguientes definiciones para explicar lo que


se est haciendo:

Frecuencia (absoluta) (Vitutor, 2013): La frecuencia absoluta es el nmero


de veces que aparece un determinado valor en un estudio estadstico.

Frecuencia acumulada (Vitutor, 2013): La frecuencia acumulada es la suma


de las frecuencias absolutas de todos los valores inferiores o iguales al valor
considerado.

2. Aclare que este procedimiento puede realizarse tanto para las variables
cuantitativas como las cualitativas y que en el caso del ejemplo se realiza
para las variables cualitativas del ejemplo.

Se muestran los siguientes resu ltados y se realiza un breve anlisis de lo


encontrado:

Observamos que en el caso de la variable sexo hay 6 observaciones que


corresponden a hombres que representan el 60% de la muestra, y 4
observaciones que representan el 40% de la muestra. Para la variable estrato
encontramos que hay 1 observacin que corresponde al estrato 2, 5 que
corresponden al estrato 3, 3 que corresponden al estrato 4 y 1 que corresponde
al estrato 6; en trminos porcentuales el estrato 2 representa el 10% de la
muestra, el estrato 3 el 50%, el estrato 4 el 30% y el estrato 6 el 10%.

76
INV- Software de Anlisis Estadstico SAS /2013-I

2.4.3. Tercera Clase Lgica condicional, fechas y horas, subconjuntos

2.4.3.1. Lgica condicional

La clase inicia con un breve repaso de qu es la lgica condicional y en qu mbitos


hemos tenido contacto con el mismo (recuerde por ejemplo clases de deduccin de
filosofa, clases de estadstica funamental, etc.) Recuerde que bsicamente, son una
serie de condiciones impuestas sobre una base de datos para que se realice un
procedimiento solamente sobre los datos que cumplan dicha condicin.
En Excel observamos estos condicionales en frmulas propias del programa o con el
anlisis Y si.

Luego, se muestran las siguientes tablas con los principales operadores lgicos, todos
manejados por SAS:

Tabla 1. Operadores de SAS

Tabla 2. Condicionales de SAS por smbolos

Es importante resaltar que los procedimientos sobre los que se programa la lgica
condicional en SAS, son los mismos usados cuando comnmente se impone una
condicin (si esto ocurre y adems esto ocurre entonces pasar esto) es importante
inculcar en los estudiantes que SAS aunque tenga lenguaje de programacin, no es ms
que un software con un mtodo de redaccin.

Condicionales:

77
INV- Software de Anlisis Estadstico SAS /2013-I

IF: Comando para iniciar, que en espaol significa si condicional, no afirmativo.


ELSE: Es el comando usado para imponer varias condiciones, en espaol significa
adems.
THEN: Es el comando que explica que ocurre cuando se cumple la condicin impuesta
por IF, se encuentra en todas las condiciones.

Luego de ello se pasa al ejemplo, es importante aclarar que ste ser el ltimo ejercicio
realizado con importacin directa de datos pues los prximos ejercicios deben contener una base
de datos amplia, si el conferencista lo desea en la evaluacin de los estudiantes puede incluir
ms ejercicios de importacin directa de datos.

Ejemplo:

Suponga usted que cuenta con una base de datos de 10 observaciones que contempla
una nmina de trabajadores del Aeropuerto Internacional ElDorado. La base contiene
la identificacin del trabajador, el sexo, el cargo, el nombre, el salario (en miles de
pesos) y la fecha de nacimiento.

Sin embargo se desea clasificar los trabajadores segn el cargo en grupos, as que segn
el cdigo del cargo que maneja el Aeropuerto, los trabajadores pueden clasificarse en
Mecnicos, Pilotos, Tcnicos de aviacin, Tecnlogos de aviacin y Contadores.
Ahora haciendo uso de SAS se crearn estos grupos.

Programacin6:

data nomina;
input Identificacion $ 1-4 Sexo $ 6 Cargo $ 8-10 Nombre $ 12-20 Salario 22-26
7
@28 Cumple date7. ;
if cargo='ME2'then
Grupo='Mecanicos';
elseif cargo='PT1'then
Grupo='Pilotos';
elseif cargo='TA1'then
Grupo='Tecnicos de aviacin';
elseif cargo='TA3'then
Grupo='Tecnlogos de aviacin';
elseif cargo='CON'then
Grupo='Contadores';
format cumple mmddyy8.;
CARDS;
1009 F TA1 AndreaVar 01000 12JUL59
1017 F TA3 DanielaMu 00800 23JAN57
1036 F TA3 Alejandra 05000 27MAY65
1037 M TA1 Jhonathan 07000 27AUG64
1038 M TA1 DavidAndr 08000 28DEC69
1050 M ME2 RicardoCa 01000 20FEB63

6 Debe mencionar que todas las condiciones deben importarse antes de importar los datos para
as los resultados sean efectivos.
7 Si resultan dudas respecto a estos formatos anuncie que durante la clase se solucionar la

duda, ya que este formato corresponde a la seccin fecha/hora SAS.

78
INV- Software de Anlisis Estadstico SAS /2013-I

1065 F ME2 CamilaFra 04000 29JAN44


1076 M PT1 CarlosDa 15000 14OCT55
1094 M PT1 OrlandoNu 00900 02APR70
1100 F CON JohannaGa 01300 05MAR60
;
run;

Antes de correr la programacin se aclarar los nuevos elementos de la programacin:

Identificacion $ 1-4 por ejemplo, tiene despus del signo $ (que identifica a la variable
como una caracterstica) la indicacin 1-4, esto se puede interpretar como una especie
de organizacin de la tabla que se pretende introducir con los datos, la primera variable
es Identificacin que es un nmero de 4 dgitos para cada trabajador, es decir cada
carcter ocupa desde la columna 1 hasta la columna 4 de la tabla que formaremos con
los datos. Asimismo, por ejemplo, Sexo $ 6 ocupa solo la columna 6 de la futura tabla (el
5 no se cuenta porque es el espacio que divide la tabla).8
Algunos nombres tienen caracteres adicionales, y ahora hay ceros a la izquierda de los
salarios. Esto tiene que ver con el tem anterior para la organizacin de los datos, como
todos los espacios que se establezcan deben ser ocupados, para que los salarios se ajusten se
colocan uno o dos ceros a la izquierda, y los nombres simplemente se complementan con los
caracteres del apellido, hasta que se ajusten al nombre ms largo de la base de datos (en este caso
Alejandra o Jhonathan que tienen 8 caracteres)
@28 Cumple date7. es un comando de indicacin nuevo, el @ indica que es la ltima variable de la
base de datos y el 28 indica la columna en la que inician, Cumple es el nombre de la variable (no se
puede poner cumpleaos ya que la letra no es leda por SAS) y date7. es el formato que se desea
para la fecha, ste comando debe ser completado con el comandoformat cumple mmddyy8. al final de
las indicaciones de los condicionales, de lo contrario la fecha no ser leda.

Se muestra entonces la confirmacin de la ventana LOG que muestra que los datos han sido subidos
correctamente:

8 Pueden insertarse hasta 322 caracteres de forma manual.

79
INV- Software de Anlisis Estadstico SAS /2013-I

Y los resultados, para ello nos dirigimos al explorador, buscamos la librera WORK y abrimos la database
nomina donde los datos ya estn organizados por grupos:

Contina el ejemplo:

el Aeropuerto desea analizar si sus trabajadores ganan un sueldo Alto, Medio o Bajo, para ello
establecen unos rangos de salario: Si el empleado gana igual o ms de 6000.000 de pesos mensuales
entonces tiene un salario alto, si gana entre 1500.000 pesos y 5999.999 pesos entonces tiene un
salario Medio y si gana menos o igual de 1.499.999 pesos, entonces el empleado tiene un salario
Bajo usando los condicionales para las variables numricas programamos adicionalmente:

Programacin:

data salarios;
set nomina (drop=Identificacion Sexo Cargo Cumple);
if salario>=06000then
Categoria="Alto";
elseif salario<=05999&salario>=01500then
Categoria="Medio";
elseif salario<=01499then
Categoria="Bajo";
run;

Nuevamente se explican los elementos nuevos:

DROP: Es un comando usado para suprimir filas de una nueva base de datos a partir de una base de
datos anterior. En este caso deseamos quitar las filas identificacin, sexo, cargo y cumple para
as crear una nueva database llamada salarios a partir de la base de datos nomina.

SET: Comando usado para crear una nueva base de datos a partir de otra ya existente, el comando set
recoge la base de datos ya creada.

Y se muestran la confirmacin de la ventana LOG y los resultados, sta vez buscando en WORK.salarios:

80
INV- Software de Anlisis Estadstico SAS /2013-I

2.4.3.2. Subconjuntos de datos

Esta seccin se inicia explicando un poco ms el uso de subconjuntos de datos, sobre todo cuando se
desea trabajar con solo una parte de una gran base de datos. Recuerde adems que los subconjuntos
de datos se crearn con base en lo anteriormente explicado de lgica condicional as que es prioritario
que los estudiantes hayan entendido bien la primera parte.

Ejemplo:

Suponga usted que tiene una lista de pases con su respectivo PIB y tasa de inters, sin
embargo como usted desea solo realizar un modelo con pases que tengan una tasa de inters
y un PIB por encima de la tasa de inters de Colombia para el primer trimestre del 2013
(3,75%) y el PIB del ao 2011 (333.371937.902,966), entonces desea separar estos datos de
la lista completa.

Siguiendo el procedimiento de la importacion de datos tenemos en WORK.interes:

81
INV- Software de Anlisis Estadstico SAS /2013-I

Se programa con base a la lgica condicional anteriormente explicada y se tienen los


siguientes resultados:

Programacin:

data subconjunto1;
set interes;
if PIB>=333371937902.966&Tasa>=3.75;
keep Pais Codigo PIB Tasa;
run;

Resultados WORK.subconjunto1

Contina el ejemplo:

Suponga ahora que no desea ser tan estricto y solo quiere separar de la lista los pases con una
tasa de inters estrictamente mayor a Colombia (3,75%), adems, ya no le interesa observar el
cdigo del pas.

82
INV- Software de Anlisis Estadstico SAS /2013-I

Programacin:

data subconjunto2;
set interes (drop= Codigo);
if Tasa>3.75;
keep Pais PIB;
9
run;

Resultados:

Luego de esto es importante otorgarle una interpretacin econmica al ejercicio, ya que el objetivo del
curso es encaminar el uso de SAS a las ciencias econmicas. Este es un ejemplo de un rpido anlisis
econmico dispuesto en el Manual de SAS:
por ejemplo la ausencia de los pases europeos y de Estados Unidos debido a la crisis
financiera de 2008, pues los pases que se muestran son de Amrica Latina y frica, tambin
se puede observar la notoria diferencia del PIB de Brasil respecto a los otros pases,
posicionando a ste pas como uno de los pases emergentes del siglo XXI.

2.4.3.3. Fechas y horas con SAS

Fechar los documentos que se trabajen con SAS puede llegar a ser sumamente importante en toda
base de datos. Recuerde mencionar en primera medida que SAS inicia su fecha y hora en enero 1 de
1960 a las 00:00:00 a.m. lo cual numricamente corresponde al nmero cero; esto no quiere decir que
no se puedan programar fechas anteriores, si desea hacerlo solo debe insertar nmeros negativos. Esto
se puede explicar ms profundamente mencionando los tres tipos de procedimientos con datos de
fecha:

2.4.3.4. SAS DATA VALUE

9 Tasa no se incluye en el comando DROP ya que es necesario usarla para imponer la


condicin.

83
INV- Software de Anlisis Estadstico SAS /2013-I

Un SAS date value es un valor que representa el nmero de das entre enero 1 de 1960 y una
fecha especificada. SAS puede realizar clculos con fechas que van desde el ao 1582 a 19.900
AD. Fechas antes de enero 1 de 1960, son nmeros negativos, despus de las fechas son nmeros
positivos.

2.4.3.5. SAS TIME VALUE

Un SAS time value es un valor que representa el nmero de segundos transcurridos desde la
medianoche del da actual. Los valores SAS time value son entre 0 y 86400.

2.4.3.6. SAS DATATIME VALUE

Un SAS datetime value es un valor que representa el nmero de segundos entre enero 1 de 1960
y una hora / minuto / segundo dentro de un plazo determinado.

Se mencionan adems las herramientas que tiene SAS en sus formatos de fecha y hora. Formatos
como mmddyy8. date9. y otros que se han presentado a menudo en las programaciones anteriores,
sirven para mostrar la fecha como se desee, si se muestran ciertos dgitos del ao, en que orden se
muestra la fecha, etctera.

Informats lee un valor, tal como un reloj de tiempo o un calendario, el cual puede ser de
varias longitudes, y luego convierte los datos o un valor data, time datetime.
Formats presenta un valor reconocido por SAS, tal como un valor time o date, como un dato
del calendario o un tiempo de reloj de varias longitudes.
Functions realize operaciones sobre valores date, time, y datetime de SAS.

Los ejemplos son realmente sencillos y pueden ser bastante improvisados:

Ejemplo:

Suponga primero que usted quiere probar los formatos de fecha en SAS y elige una serie de
nmeros aleatorios para distintos formatos de SAS, as que programa lo siguiente en la
ventana Editor:

Programacin:

84
INV- Software de Anlisis Estadstico SAS /2013-I

data test;
Time1=80009;
format Time1 datetime.;
Date1=86399;
format Date1 date.;
Time2=1500;
format Time2 timeampm.;
Date1Month=month(Date1);
run;
/*************************************/
/* Pie de pagina */
/*************************************/
procprintdata=test noobs;
title'Same Number, Different SAS Values';
footnote1'Time1 is a SAS DATETIME value.';
footnote2'Date1 is a SAS DATE value.';
footnote3'Time2 is a SAS TIME value.';
footnote4'Date1Month is the numeric month for Date1.';
run;
/*************************************/
/* mostrar titulo y pie de pagina */
/*************************************/
title;
footnote;

Note por ejemplo que a cada nmero se le ha asignado un ejemplo para observar rpidamente los
casos, tambin que se ha includo un nuevo comando footnote para insertar notas al pie de pgina,
los resultados en el output son:

Same Number, Different SAS Values

Time1 Date1 Time2 Date1Month

01JAN60:22:13:29 20JUL96 12:25:00 AM 7

Time1 is a SAS DATETIME value.


Date1 is a SAS DATE value.
Time2 is a SAS TIME value.
Date1Month is the numeric month for Date1.

Ejemplo 2:

Suponemos que tenemos una serie de pases que de acuerdo a la fecha en que enviaron unos
documentos, se les enviar la respuesta. Tenemos entonces en la base de datos, el cdigo del
pas, la fecha del envo y la que sera la fecha de respuesta (que por polticas de la
organizacin ser 30 das despus de la fecha del envo del correo.

Programacin:

/*************************************/
/* Opciones de reporte */
/*************************************/

85
INV- Software de Anlisis Estadstico SAS /2013-I

options nodate nonumber;

/*************************************/
/* Crear Data Set */
/*************************************/
data correos;
input codigo $ fecha : mmddyy10.;
respuesta=fecha+30;
datalines;
N 11-24-10
S 12-28-11
E 12-03-12
W 10-04-12
;
run;
/*************************************/
/* print data set */
/*************************************/

proc print data=correos noobs;


format fecha respuesta date9.;
title 'Programa fechas de respuesta';
run;

title;

Los resultados finalmente son:

Programa fechas de respuesta

codigo fecha respuesta

N 24NOV2010 24DEC2010
S 28DEC2011 27JAN2012
E 03DEC2012 02JAN2013
W 04OCT2012 03NOV2012

2.4.4. Cuarta clase Regresin simple

La regresin constituye uno de las principales herramientas de la economa para la


explicacin de modelos por medio de la estadstica. El programa SAS, al ser
economtrico, aborda especialmente este tipo de herramientas para el uso del
profesional, se comenzar con la nocin ms bsica, la regresin simple.

Comandos:

PROC: Comando que llama a un procedimiento.

86
INV- Software de Anlisis Estadstico SAS /2013-I

REG: Comando que llama la regresin.


MODEL: Comando que indica cul es la variable endgena del modelo y
cual(es) la(s) exgena(s).
Noint: Comando usado para eliminar el trmino de intercepto de la regresin.

Ejemplo

Suponga usted que desea crear un modelo de regresin simple en el cual que explica el
Producto Interno Bruto (PIB) de Colombia a travs del cambio en su Gasto Pblico en
el perodo de 1970-2009. Ante el aumento de una unidad en el Gasto Pblico como
cambian las unidades del PIB?

Luego de importar los datos 10 por medio de importacin externa, se incluye la


programacin solicitada:

PROC PRINT DATA=regresion;


TITLE1 ' RECTA DE REGRESION ENTRE LAS VARIABLES:';
TITLE2 ' PIB y GASTO PUBLICO;
RUN;
PROC REG DATA=regresion;
MODEL PIB=Gasto;
RUN;

Los resultados arrojados por la ventana output son:

Se puede observar que SAS ha asignado al modelo de regresin el nombre de


MODEL1 y que, como se ha especificado, la variable dependiente es el PIB, se han

10 Ver datos en Anexo 1.

87
INV- Software de Anlisis Estadstico SAS /2013-I

usado 40 observaciones para el modelo. Primero se observa un anlisis de varianza


simple que nos muestra los grados de libertad del modelo, de los errores, y el total
corregido. Luego nos muestra la suma de cuadrados y la media cuadrada (dos
elementos de la ecuacin para las varianzas), tambin se muestra el valor de la
Prueba F y el p-valor de la misma11; esta prueba al tener un valor de 3772,22 con un
nivel de significancia menor al 0,0001 nos permite determinar que el modelo en su
totalidad logra ser significativo al momento de explicar el PIB.

Luego se encuentra la media de los errores al cuadrado que nos permite estimar que
tan grandes son los errores dentro del modelo, se observa que son bastante grandes,
esto debido a que el comportamiento del gasto por s solo no logra explicar el
comportamiento del PIB; encontramos adems la media de la variable dependiente
(en este caso del PIB) y el coeficiente de varianza que es 14,36, lo que indica que tanto
varan los datos con respecto a la media. Una varianza baja como sta nos indica que
aunque tiene grandes errores hay una prediccin cercana del valor real.

Los siguientes indicadores son el R-cuadrado y el R-cuadrado ajustado, los cuales


indican que tanto el modelo responde a la explicacin del comportamiento de la
variable endgena. El R-cuadrado ajustado es usado cuando hay un gran nmero de
variables, sin embargo, como este es un modelo de regresin simple se usar para la
interpretacin el R-cuadrado. Con un R-cuadrado de 0,99 SAS nos indica que el
modelo logra explicar en un 99% el comportamiento del PIB.

Un segundo recuadro aparece en la ventana Output y es la estimacin de los


parmetros, en ste encontramos la variable intercepto (que corresponde a ) y la
variable Gasto; igualmente encontramos los grados de libertad y el valor de
estimacin del parmetro, que para el intercepto corresponde a -3,4291E11 y para el
Gasto a 6,22089, as mismo muestra el error de estndar y el valor de la prueba t de
significancia individual junto con su p-valor: para el intercepto tenemos un valor de t
de -0,11 con un p-valor de 0,9091, mientras que para el gasto un valor calculado de
61,42 con un p-valor menor al 0,001.

Sin embargo, segn la prueba de significancia individual el intercepto no es


significativo, ya que el p-valor de una variable debe ser menor o igual a 0,05, ste es
un criterio usado en econometra, teniendo en cuenta lo anterior debemos eliminar el
trmino de intercepto del modelo para lo cual usaremos el comando noint.
Programamos nuevamente:

PROC REG DATA=regresion;


MODEL pib=gasto /
noint;
RUN;

Y se obtienen los siguientes resultados en la ventana Output:

11Ms abajo se encuentra que significa la prueba F y el p-valor, el conferencista si desea puede
explicarlo en el momento o seguir el orden de la clase aqu expuesta.

88
INV- Software de Anlisis Estadstico SAS /2013-I

Aparecen diferencias en lo estimado, por ejemplo el aumento de errores en el modelo,


dado que ahora este modelo est siendo explicado por solo una variable independiente,
el R-cuadrado y el R-cuadrado ajustado tambin han aumentado lo cual indica que el
modelo explica mejor que antes el comportamiento del PIB y finalmente la estimacin
del parmetro del gasto con un coeficiente de 6,21409 y un nivel de significancia
menor al 0,0001. Teniendo esto, ya se tiene el modelo definitivo con los parmetros
estimados:

El modelo nos indica entonces que ante un cambio de una unidad en el Gasto Pblico
de la nacin, habr un aumento de 6,21409 unidades en el PIB , interpretaciones de
este tipo sugieren que aumentar el gasto pblico a largo plazo implica una mayor
acumulacin de riqueza para la nacin lo cual es bastante positivo.

Hay que resaltar tambin que si se ha puesto desde el principio una relacin positiva
del gasto pblico con el PIB en el modelo, es porque para plantear un modelo es
necesario tener un soporte terico. En el caso del ejemplo, la ecuacin keynesiana del
ingreso a nivel macroeconmico es un soporte para plantear una forma funcional para
el modelo en el que el aumento del gasto pblico evidentemente aumentar el PIB.

Donde Y es el ingreso nacional,

C es el consumo de la sociedad

89
INV- Software de Anlisis Estadstico SAS /2013-I

I es la inversin y

G el gasto pblico

As mismo se realiza el anlisis estadstico: Observando los resultados entonces


tenemos, que por una unidad que aumente el gasto pblico el PIB aumentar 6,21
pesos como lo indica el parmetro beta. Analizando este resultado brevemente puede
decirse que desde la dcada de los 70 hasta los aos recientes, un aumento del gasto
pblico puede potenciar hasta 6 veces el crecimiento del PIB, y as mismo reducirlo
puede contraer el PIB a mediano y largo plazo; esto se debe a que el gasto pblico
tiene la funcin de incentivar a la economa y sostener el sector pblico sobre el que
producen muchos colombianos, as que puede pensarse que el gasto pblico es una
inversin que resulta con ms produccin y mayor riqueza para la nacin.

2.4.5. Quinta Clase Regresin multiple

La regresin mltiple nos permite ampliar los anlisis realizados en regresin simple,
entendiendo que un modelo de regresin mltiple es simplemente una ampliacin del
modelo simple, con la inclusin de ms variables exgenas y ms parmetros. Algunos
comandos nuevos surgen para poder hacer la regresin:

ODSGRAPHICS: Comando para la activacin de grficos de anlisis de


residuales y variables.
AUTOREG: Procedimiento que nos permite incluir diferentes pruebas a la
regresin.
ARCHTEST: Test de autocorrelacin.
DWPROB: Comando para arrojar el estadstico Durbin Watson de correlacin

Ejemplo:

Suponga usted que desea predecir el comportamiento del PIB de Brasil por medio del
consumo, las exportaciones, la Inversin Extranjera Directa (IED) neta, importaciones
e impuestos de bienes y servicios. Los datos se han tomado con periodicidad anual de
1975 al 2011.

Primero, establecemos la estructura del modelo y se explica que dado que el gasto y el
PIB estn expresados en pesos, es decir unidades monetarias, por eso los cambios que
los parmetros reflejarn sern interpretados en pesos tambin.

Acto seguido insertamos las variables en SAS mediante el procedimiento de insercin


desde el ordenador e insertamos la programacin en la ventana Log:

odsgraphicson;
procregdata=regmul;
model PIB = Consumo XporIEDMporImpu;
run;

90
INV- Software de Anlisis Estadstico SAS /2013-I

Los resultados del procedimiento se muestran, no en la ventana output, sino en una


ventana adicional arrojada por el procedimiento ODS:

Observamos entonces, que tenemos 37 observaciones, donde el F-value nos arroja un


ndice de 9177.28 con un p-value menor al 0.0001 lo que indica que globalmente, las
variables exgenas explican el comportamiento de la variable endgena. En cuanto a la
estimacin de parmetros encontramos que el p-value nos muestra que el intercepto,
las importaciones y los impuestos no son significativos, pero dado que no es conveniente
retirar todas las variables al mismo tiempo del modelo (porque puede que solo una
variable est causando este sesgo), entonces intentaremos formular modelos alternos
retirando una variable a la vez para corregir el modelo como tal.

Grficamente, el procedimiento ODS nos arroja un anlisis de los residuales, en cuanto


a las oscilaciones, los cuantiles, los valores predichos, la distribucin y las observaciones
en general; adems agrega un anlisis grfico de los residuales por variable:

91
INV- Software de Anlisis Estadstico SAS /2013-I

12

12Es bueno que el conferencista aclare que estos grficos sirven para el anlisis visual. Por
ejemplo que los residuales por variable nos permiten observar sobre qu valores oscila ms una
variable.

92
INV- Software de Anlisis Estadstico SAS /2013-I

Primero se retirarn las exportaciones del modelo, as que eliminaremos el Mpor de la


programacin:

model PIB = Consumo XporIEDImpu;


run;

Los resultados que arroja el programa son:

El F-value con un p-value menor a 0.0001 nos permite afirmar que las variables
exgenas en su conjunto logran explicar el comportamiento de la variable endgena,
adems el R-cuadrado es bastante alto, por lo que podramos decir que es un buen
modelo.

93
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a la estimacin por parmetros SAS nos muestra que el intercepto, la


inversin extranjera directa (IED) y los impuestos no son significativos para el modelo.
Grficamente de nuevo se muestra el comportamiento de los residuales que esta vez se
alejan un poco ms de la media que en la ocasin anterior.

94
INV- Software de Anlisis Estadstico SAS /2013-I

Dado que al retirar las importaciones del modelo, ste no sigui respondiendo como
nosotros deseamos, retiraremos esta vez los impuestos que era la otra variable no
significativa, sin antes incorporar de nuevo Mpor, ya que puede que solo sean los
impuestos los causantes del problema:

model PIB = Consumo XporIEDMpor;


run;

Los resultados que arroja el procedimiento son:

95
INV- Software de Anlisis Estadstico SAS /2013-I

El F-value con un p-value menor a 0.0001 nos permite afirmar que las variables
exgenas en su conjunto logran explicar el comportamiento de la variable endgena,
adems el R-cuadrado es bastante alto, por lo que podramos decir que es un buen
modelo.

En cuanto a la estimacin por parmetros SAS nos muestra que las importaciones y las
exportaciones no son significativas para el modelo. Grficamente de nuevo se muestra
el comportamiento de los residuales que esta vez son ms cercanos a la media, segn el
grfico de distribucin.

96
INV- Software de Anlisis Estadstico SAS /2013-I

97
INV- Software de Anlisis Estadstico SAS /2013-I

Ya que al eliminar las variables por separado no se lleg a ninguna solucin del modelo,
se retirarn las importaciones y los impuestos, acto seguido se correr la regresin
nuevamente:

model PIB = Consumo XporIED;


run;

Los resultados que arroja el programa son:

98
INV- Software de Anlisis Estadstico SAS /2013-I

Observamos por ejemplo, que el modelo (segn la prueba F) sigue siento


estadsticamente significativo en su conjunto, el R-cuadrado oscila alrededor del 0,99 y
un coeficiente de varianza de 2,432 muy similar al que tenemos con los anteriores
modelos.

Luego de eliminar las dos variables, encontramos que la significancia individual de los
parmetros ha sido corregida, aunque el intercepto tiene un p-value de 0,0496 no
seremos tan estrictos y aceptaremos este parmetro.

Econmicamente esto implica que:

Al aumentar un peso el consumo en Brasil, el PIB aumentar 1,15513 pesos


Al aumentar un peso las exportaciones, el PIB aumentar 0,60249
Al aumentar un peso la IED en Brasil, su PIB disminuir 0,66374

Grficamente los residuales muestran un comportamiento ms regular y prximo a la


media:

99
INV- Software de Anlisis Estadstico SAS /2013-I

Ya que este es el modelo escogido, se pasarn a comprobar algunos supuestos, para


comprobar que el modelo es correcto, para ello ejecutaremos dos nuevos comandos.
Insertamos la programacin en la ventana Log de nuevo repitiendo el procedimiento
AUTOREG e incluyendo luego del modelo los comandos archtest y dwprob:

procautoregdata = regmul;
model PIB = ConsumoXporIED /archtestdwprob;
run;

A partir de esta regresin se obtienen los siguientes datos:

100
INV- Software de Anlisis Estadstico SAS /2013-I

Adems de los estadsticos que ya hemos visto con anterioridad, aparecen otros nuevo que sirven para
la comparacin de modelos, pero dado que en esta clase se trabaja con un solo modelo, no se usarn.
Estos estadsticos tienen el mismo criterio. S al comparar el estadstico que se arroja en un modelo
con el que se arroja en otro existe una diferencia menor a uno, no hay gran diferencia entre los
modelos, caso contrario hay que evaluar cual de los dos modelos es el mejor. Los estadsticos son:

AIC: Akaiked Information Criterion


AICC: The corrected Akaikeds information Criterion
HQC: Hannah-Quinn Information Criterion
SBC: Schwarzs Bayesian Information Criterion

Por otro lado, las siglas MAE y MAPE corresponden a media absoluta de los errores y porcentaje
de la media absoluta de los errores que son dos criterios que igualmente nos permiten evaluar que
tanto los errores se alejan de la media, es decir, tienen una mayor varianza.

Puede notar que aqu aparece ya el coeficiente del estadstico Durbin Watson, sin embargo se ejecut
el comando de dicha prueba en la programacin para tener informacin ms detallada al respecto.

101
INV- Software de Anlisis Estadstico SAS /2013-I

Aparecen nuevos grficos tambin, por ejemplo los grficos ACF y PACF que corresponden a los
grficos de correlacin simple y parcial de los rdenes MA y AR respectivamente, estos grficon
surgen en el caso que estemos trabajando con series de tiempo, tema que se ver ms adelante; pero
como no es el caso no sern tomados en cuenta.

102
INV- Software de Anlisis Estadstico SAS /2013-I

El procedimiento dwprob vuelve a arrojar la tabla de los estadsticos que ya


observamos con anterioridad y adems arroja otra tabla especialmente para el
estadstico Durbin Watson que permite detectar la autocorrelacin de primer orden
AR(1). Si el estadstico Durbin Watson se encuentra entre -1,96 y 1,96 podemos aceptar
la hiptesis nula y concluir que no hay autocorrelacin de primer orden, para nuestro
caso el DW= 0,8314, luego conclumos que no hay autocorrelacin de primer orden y el
modelo es adecuado.

2.4.6. Sexta clase - Modelos ARIMA

Se tienen los datos de la poblacin total de Colombia desde enero del 2001 hasta abril
del 2008 en una periodicidad mensual. Se quiere analizar el comportamiento de la
variable en estas fechas.

Se procede a insertar los datos que usted encuentra en el repositorio (recuerde que SAS
admite formatos de Excel solo hasta .xls) por el mtodo de importacin y llamaremos a
los datos pob.

Se procede a insertar la programacin:

103
INV- Software de Anlisis Estadstico SAS /2013-I

proc sgplot data=pob;

scatter y=poblacion x=fecha;

run;

A continuacin aparece el siguiente grfico que presenta, en primera medida, el


crecimiento de la poblacin colombiana del 2001 al primer trimestre del 2008.

Se puede observar que la poblacin a lo largo del tiempo ha aumentado de forma lineal
del 2001 al 2008 y no hay mayor variacin.

Despus de esto se inserta la programacin correspondiente para calcular el modelo


ARIMA de la serie:

proc arima data=pob ;

identify var=poblacion nlag=24;

run;

Se obtendr la siguiente informacin:

104
INV- Software de Anlisis Estadstico SAS /2013-I

En esta primera parte se puede ver la autocorrelacin en el ruido blanco, primero se


realiza una introduccin que indica la media, desviacin estndar y nmero de
observaciones de la serie. Se puede observar que para cada retardo, la autocorrelacin
del ruido blanco es contrastada con una prueba Chi-cuadrado, donde la hiptesis nula
es que no existe autocorrelacin; con un p-valor < 0,001 en todos los retardos podemos
rechazar la hiptesis nula y concluir que existe autocorrelacin del ruido blanco, luego
la serie de la Poblacin no es estacionaria. Grficamente se observa:

105
INV- Software de Anlisis Estadstico SAS /2013-I

Es decir que, grficamente, se corrobora que la serie de la poblacin no es estacionaria,


el primer grfico representa nuevamente la serie graficada contra el tiempo y
observamos que efectivamente la media no es constante en el tiempo. El segundo
grfico corresponde al grfico de autocorrelacin simple que corresponde a la parte MA
del modelo, se puede observar que las barras del grfico caen suavemente lo que indica
que existe autocorrelacin en los errores tambin. El tercer grfico muestra la
autocorrelacin parcial (es decir la parte AR) y ste no presenta ningn inconveniente;
el cuarto y ltimo grfico representa el coeficiente de cointegracin de la serie de
tiempo, que para este caso ser igual a 1.

Dado que la serie no es estacionaria, se debe aplicar una diferencia para que esta se
vuelva estacionaria. La razn de la caminata aleatoria de la variable es porque esta es
una variable en constante crecimiento que jams lograr mantener su media constante,
por ello hay que diferenciarla. Se aplica la siguiente programacin:

proc arima data=pob ;

identify var=poblacion(1);

run;

Los resultados que muestra SAS ahora son:

106
INV- Software de Anlisis Estadstico SAS /2013-I

Al diferenciar la serie (es decir, al incluir (1) en la programacin) se encuentra que


grficamente la serie tiene una media constante, sin embargo por los picos que se
observan no se puede afirmar que se tenga una varianza constante, es decir, se deben
agregar rdenes AR y MA para solucionar el problema, para ello se usan los grficos de
ACF (para MA) y PACF (para AR).

Teniendo en cuenta lo anterior, por el mtodo grfico (es decir, observando las columnas
azules que salen del intervalo de confianza que est en azul claro) se determina qu
rdenes de AR y MA son convenientes y modelarlos. Se puede observar que basta con
agregar un orden en MA y uno en AR para corregir la serie, as que la programacin se
plantea:

proc arima data=pob;

identify var=poblacion(1);

estimate q=(1) noint method=ml;

estimate p=(1) noint method=ml;

forecast id=fecha interval=month printall out=b;

run;

Los resultados son:

107
INV- Software de Anlisis Estadstico SAS /2013-I

Se observan, en primera medida, algunos datos como el mtodo de estimacin, la


cantidad de estimadores, algunos valores mximos y coeficientes que no tocaremos en
este curso, note, por ejemplo, que el cuadro inicial avisa que las estimaciones no han
convergido a un valor.

108
INV- Software de Anlisis Estadstico SAS /2013-I

Se observa que las correlaciones para el orden MA an son altas y efectivamente el


problema no se ha corregido como se puede observar grficamente.

109
INV- Software de Anlisis Estadstico SAS /2013-I

Sin embargo puede notarse que los residuos siguen una distribucin normal y los
residuales oscilan alrededor de la media.

110
INV- Software de Anlisis Estadstico SAS /2013-I

En cambio AR muestra bajas correlaciones al aplicar estos rezagos, lo cual quiere decir
que se est solucionando el problema.

111
INV- Software de Anlisis Estadstico SAS /2013-I

Observe entonces que se hacen necesarios otros rdenes de AR y MA para modelar la


serie de tiempo.

112
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a los residuales, se observa que estos tienden ms a la media igual a cero, sin
embargo se desvan ms de la media de los datos.

En cuanto al procedimiento FORECAST que se observa en la programacin que se


insert, encontramos que se encarga de realizar el pronstico de los datos hasta 112
pasos adelante (es decir, ms de 11 aos de pronstico para la periodicidad que se est
manejando. Primero se visualiza la tabla de datos del pronstico.
El grfico del pronstico en cambio muestra grandes intervalos de confianza lo que
muestra que el modelo no es confiable para la prediccin, ste es un grave error ya que
el principal objetivo de una serie de tiempo es la prediccin:

Para corregir esto entonces, existe la opcin de diferenciar de nuevo la variable an


arriesgando la estabilidad de la media y varianza de los datos, sin embargo se realiza y
se incluyen los rdenes de AR y MA que se consideran pertinentes:

proc arima data=pob;

identify var=poblacion(2);

estimate q=(1,2,12) noint method=ml;

estimate p=(1,3,7,8) noint method=ml;

forecast id=fecha interval=month printall out=b;

run;

113
INV- Software de Anlisis Estadstico SAS /2013-I

Los resultados son los siguientes:

Note, entonces, que an se necesitan ms rdenes que ya fueron agregados a la


programacin con anterioridad, a nivel general parece que el problema se ha
solucionado, observamos entonces lo que ocurri con los grados AR y MA:

114
INV- Software de Anlisis Estadstico SAS /2013-I

Observe que las correlaciones han bajado un poco, aunque se siguen manteniendo altas,
en comparacin, por ejemplo, con las correlaciones que muestra la parte autorregresiva
del modelo.

115
INV- Software de Anlisis Estadstico SAS /2013-I

Como se puede ver, grficos nos sugieren por ejemplo agregar el orden 2 a MA, cuando
ste ya est agregado, as que este tipo de avisos del modelo no son tenidos en cuenta.

116
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a los residuos, stos se han ajustado ms a la prueba de normalidad y cada


vez oscilan ms cerca de la media, por lo cual podemos concluir que es el rden
adecuado para el modelo. Ahora observamos la parte AR:

Vease que el grado de autocorrelacin ha disminudo en una gran cantidad frente a los
rezagos.

117
INV- Software de Anlisis Estadstico SAS /2013-I

Como se puede observar, al ejecutar el grado MA y AR el problema se ha solucionado y


se han agregado los rdenes pertinentes.

En cuanto a los residuales, observe que siguen una distribucin normal y que el 75% de
los datos oscila alrededor de la media.

118
INV- Software de Anlisis Estadstico SAS /2013-I

Finalmente, el procedimiento FORECAST nos arroja la senda de prontico para la


variable que es eminentemente lineal, sin embargo, a diferencia de lo anterior, tiene
unos intervalos de confianza ms bajos, lo que le da mayor credibilidad al modelo.

2.4.7. Sptima clase Datos Panel

2.4.7.1. Definicin:

Los Datos Panel son un mtodo de estimacin economtrica que recopilan las series de
tiempo con una combinacin de datos de corte transversal, es decir, permite analizar el
comportamiento de diferentes variables exgenas en diferentes perodos de tiempo.

Ejemplo
Se tienen datos de diferentes indicadores para los aos 1990-1997 en periodicidad
anual. Los datos son: PIB per cpita en pesos colombianos, nmero de habitantes en
millones, porcentaje de inflacin e ndice de alfabetizacin (ndice que va de cero a uno,
donde cero es poblacin analfabeta y uno poblacin completamente alfabetizada). El
estudio se realiz para los siguientes pases: Colombia, Brasil, Ecuador, Venezuela,
Argentina, Bolivia, Per, Uruguay, Paraguay y Chile. Se desea simplemente realizar
una visin conjunta de estos indicadores en estos pases de Latinoamrica para as
mismo observar factores comunes a lo largo del tiempo, teniendo en cuenta que se
supone que el PIB pr capita es explicado por el nmero de habitantes, la inflacin y el
ndice de alfabetizacin.13

Programacin
Proc panel data=datos;
Id c y;
Model PIBper= NumHab Infl Alfab / fixonefixtworanonerantwo pooled;
Run;

13Estos datos, a diferencia de las dems clases, son datos aleatorios creados por los
desarrolladores de sta investigacin, y no corresponden a los datos reales de los pases.

119
INV- Software de Anlisis Estadstico SAS /2013-I

120
INV- Software de Anlisis Estadstico SAS /2013-I

Se encontrarn los resultados en el siguiente orden:

Mtodo de efectos fijos de una diferencia

En el primer cuadro se muestra el mtodo de estimacin usado, el nmero de secciones


cruzadas (que corresponde al nmero de pases dentro de la muestra en nuestro caso) y
el nmero de series temporales que corresponde al nmero de aos en la muestra. En el
segundo cuadro se muestran los estadsticos de ajuste que corresponde a la varianza
(SSE), la media de los errores (MSE), los grados de libertad (DFE), la raz de la media
de los errores (Raz MSE) y el R cuadrado, que nos muestra que las variables exgenas
logran explicar en un 87% el comportamiento de la variable endgena.

En cuanto a la significancia global de parmetros (test de F para efectos no fijos), el


modelo se contrasta con una prueba F que nos muestra que los parmetros incluidos
tienen un grado de importancia sobre el modelo globalmente; en la estimacin por
parmetros observamos que si bien todos los interceptos tienen significancia dentro del
modelo, slo el ndice de alfabetizacin resulta significativo para el modelo. Por tanto se
deciden explorar los otros mtodos de estimacin.

121
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a la interpretacin de los grficos, se observa un comportamiento normal


donde los errores no se desvan mucho de la media, y siguen una distribucin normal de
los mismos.

Se puede apreciar un comportamiento aleatorio de los errores, es decir que no sigue


ningn tipo de forma, se observa, adems, que el valor predicho por el modelo no
coincide con el comportamiento real de las variables lo cual es otro motivo para
descartar el mtodo.

122
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos aleatorios de dos diferencias:

Teniendo en cuenta las descripciones de los cuadros anteriores se observa que el R cuadrado es
apenas de 5,26%, lo cual nos dice que las variables no logran explicar el comportamiento de la
variable endgena.

Aparecen dos cuadros adicionales para el mtodo de efectos aleatorios, uno que nos indica la
varianza de las variables cruzadas, temporales (es decir las dummys que representan cada pas
y cada ao) y la varianza de los errores de estas variables; y otro que nos arroja el Test de
Hausman. Contrastado con una prueba , el Test de Hausman arroja un nivel de significancia
de 0.0138 lo cual rechaza la hiptesis nula, es decir, existe correlacin entre los efectos
aleatorios y las variables regresoras, luego no es recomendable hacer uso del mtodo de
efectos aleatorios para estimar el modelo.

En cuanto a la significancia individual de los parmetros ahora todas las variables resultan
insignificantes, a un nivel de significancia del 10% el nmero de habitantes resultara
significativo.

123
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a la parte grfica observamos que los errores no tienen un comportamiento


normal, su varianza sobrepasa los lmites de la distribucin normal y en definitiva no
tienden a la media.

En cuanto a los grficos de la variable endgena encontramos que los valores predichos
rondan el valor real de la variable y esta vez s se not el punto de quiebre en 1994.

124
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos aleatorios de una diferencia:

La presentacin del cuadro es idntica a la presentada anteriormente, salvo que en este


caso tenemos el mtodo de efectos aleatorios de una diferencia. Observamos entonces
por ejemplo que el R cuadrado nos muestra que el modelo slo logra explicar el 26% de
la variable endgena, solo el ndice de alfabetizacin es significativo para el modelo, y el
Test de Hausman esta vez nos arroja un p-valor de 0.72 al 5% de significancia, lo cual
nos indica que no hay gran diferencia entre escoger mtodos fijos o aleatorios para
realizar la estimacin.

125
INV- Software de Anlisis Estadstico SAS /2013-I

En los grficos se observa nuevamente una gran variabilidad de los errores, esta vez un
poco menos que en el mtodo de estimacin aleatoria con dos diferencias.

En cuanto a los grficos de la variable endgena se observa que se logr captar el punto
de quiebre de 1994 y el aumento a partir de 1996.

126
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos fijos de 2 diferencias:

En ste mtodo observamos por ejemplo que el R cuadrado nos indica que las variables
exgenas logran explicar en un 93% el comportamiento de la variable endgena, esto se
complementa con el resultado de la prueba F que nos indica que el modelo es
globalmente significativo. Sin embargo en la estimacin de parmetros individual
encontramos que si bien casi todas las dummys que corresponden a las series cruzadas
y temporales son significativas, nuevamente los parmetros del modelo no lo son, en
este caso solo el intercepto es significativo.

127
INV- Software de Anlisis Estadstico SAS /2013-I

Grficamente observamos que aunque los errores sobrepasan los lmites de la


distribucin normal, si se logra observar una tendencia de los mismos.

En cuanto a la variable endgena se observa de una forma mucho ms clara que se


logr predecir la cada de 1994 y el crecimiento sostenido a partir de 1996, finalmente
los residuales presentan un comportamiento aleatorio.

128
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo Pooled:

El mtodo Pooled nos muestra una desviacin de la media menos a los anteriores
mtodos utilizados, un R cuadrado de 0.42 que implica que las variables endgenas
explican en un 42% el comportamiento de la variable exgena. En cuanto a la
estimacin individual de los parmetros encontramos que sta vez es solo el intercepto
la variable poco significativa en el modelo.

129
INV- Software de Anlisis Estadstico SAS /2013-I

La grfica nos permite observar que los errores tienen una gran variabilidad y aunque
siguen una distribucin normal, superan los lineamientos de la misma.

En cuanto a la grfica de prediccin del PIB per cpita, no se predice el punto de


quiebre ya mencionado anteriormente, y el crecimiento no logra ser tan grande como el
real.

130
INV- Software de Anlisis Estadstico SAS /2013-I

Se ha observado hasta el momento que ningn mtodo ha logrado reunir todas las
caractersticas propias para ser el mtodo escogido, el principal problema observado es
la estimacin individual de parmetros, as que como primera medida se retirar el
intercepto del modelo, buscando que ste se ajuste ms y podamos elegir algn mtodo,
teniendo en cuenta que no podemos determinar entre todos los mtodos cual es la peor
variable exgena para retirar, ya que los resultados son muy variables.

Mtodo de efectos fijos de una diferencia sin intercepto:

Sin el intercepto observamos entonces que segn el R cuadrado las variables exgenas
explican en un 87% el comportamiento de la endgena y se corrobora con la
significancia de la prueba F. Sin embargo esta vez las dummys que los efectos fijos
agregan para las series cruzadas y las series temporales no resultan significativas en
su mayora, as mismo solo el ndice de alfabetizacin resulta significativo en este caso.

131
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a los grficos de los errores, se muestra una distribucin normal de los
errores que rondan alrededor de la media.

En cuanto a los grficos del PIB per cpita si bien se acerca ms el crecimiento predicho
al real, no se muestra el punto de quiebre de 1994.

132
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos aleatorios con una diferencia sin intercepto:

Al usar el mtodo de efectos fijos, observamos que segn el R cuadrado las variables
exgenas explican en un 53,86% el comportamiento de la variable endgena, el Test de
Hausman, a un nivel de significancia del 5% nos arroja un p-valor de 0.30 con lo que
podemos asumir que elegir entre efectos fijos y aleatorios no representa una mayor
diferencia. En cuanto a la significancia individual de los parmetros encontramos que
aunque ahora son un poco ms significativos no se encuentran dentro del nivel de
aceptacin, salvo nuevamente por el ndice de alfabetizacin.

133
INV- Software de Anlisis Estadstico SAS /2013-I

Respecto a los grficos de los errores, observamos que los errores tienen una gran
variabilidad respecto a la observacin de la variable, y aunque sobrepasan un poco los
lmites de la distribucin, sta es normal.

En cuanto a los grficos que corresponden a la variable endgena, se encuentra que se


identifica el punto de quiebre, sin embargo no se alcanza el mximo crecimiento que
alcanza la variable realmente.

134
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos fijos de dos diferencias sin intercepto:

Al realizar el mtodo de efectos fijos con dos diferencias se tiene que el modelo explica
en un 93% el comportamiento de la variable endgena, adicional a ello para
corroborarlo se observa con la prueba F que el modelo es globalmente significativo. En
cuanto a la estimacin de parmetros individual observamos que todas las series
cruzadas y casi todas las series temporales son significativas, aun as las variables no
resultan ser significativas.

135
INV- Software de Anlisis Estadstico SAS /2013-I

Observando los grficos de los errores se tiene que estos no se desvan mucho de lo
observado con el PIB per cpita y aunque sobrepasan un poco los lmites de la
distribucin que siguen, estos se comportan de forma normal.

Observando los grficos que corresponden a lo estimado sobre la variable endgena, se


encuentra que los residuales del modelo presentan un comportamiento aleatorio, y lo
predicho a partir del modelo logra asimilarse a lo real en la economa.

136
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo de efectos aleatorios de dos diferencias sin intercepto:

Bajo este mtodo, se observa que las variables endgenas del modelo logran explicar en
un 40% el comportamiento de la variable endgena segn el R cuadrado, adems de ello
el Test de Hausman arroja un p-valor de 0,03 al 5% de significancia con lo que no se
rechaza la hiptesis nula y se tiene que estimar el modelo por efectos fijos o por efectos
aleatorios de dos diferencias no afecta mucho la estimacin como tal. En la significancia
individual se observa que el ndice de alfabetizacin es la nica variable significativa,
ya que el nmero de habitantes apenas alcanza un nivel de aceptacin.

137
INV- Software de Anlisis Estadstico SAS /2013-I

En cuanto a los residuales se observa una gran variabilidad alrededor de lo observado


del PIB per cpita y un comportamiento normal de los errores en cuanto a la
distribucin.

Respecto a los grficos del PIB per cpita s se observa que los residuales siguen el
comportamiento de la variable, aunque no se logr percatar completamente el punto de
quiebre que hay en el modelo.

138
INV- Software de Anlisis Estadstico SAS /2013-I

Mtodo Pooled sin intercepto:

En cuanto a este mtodo se observa que la desviacin de los errores de la media es


mucho menor que en otros modelos, el R cuadrado nos indica que las variables
exgenas explican en un 88,7% el comportamiento de la variable endgena, y adems es
el nico modelo donde individualmente los parmetros han resultado significativos (es
decir, todos tienen un p-valor menor al 0,0001).

139
INV- Software de Anlisis Estadstico SAS /2013-I

Grficamente se observa que los residuos no oscilan alrededor de la media, aunque


siguen una distribucin normal.

En cuanto a los grficos que le corresponden al PIB per cpita, se observa que los
residuales logran seguir el mismo patrn que los datos observados, en el valor predicho
de la variable se tiene que se reconoce el punto del 94, pero no se reconoce el
crecimiento que en realidad presentan los pases.

A modo de conclusin, el mejor mtodo para estimar este modelo es el mtodo Pooled
sin intercepto, pues el modelo logr reunir todas las caractersticas para estimar datos
panel como la base de datos del ejemplo, aunque segn lo visto en la ltima grfica, el
modelo no es muy adecuado para la prediccin; sin embargo, si se fuera un poco ms
flexible con el nivel de aceptacin, al 10% de significancia puede escogerse adems de
los Datos Pooled, el mtodo de efectos aleatorios en dos diferencias.

2.4.8. Octava clase ODS Graphics Designer

Ejercicio 1

Se tienen datos aleatorios de dos variables X y Y. Se desea observar la relacin


entre las dos variables.

En primera medida, se importa el archivo por medio del asistente de importacin,


observamos que la ventana LOG indica que los datos han sido subidos:

140
INV- Software de Anlisis Estadstico SAS /2013-I

En el panel izquierdo del programa, se busca la librera WORK y el nombre de los datos
que en este caso es grafico1, haciendo doble clic sobre l se desplegar una ventana
aparte que permitir observar los datos del archivo de Excel, es recomendable hacer
esto para saber qu tipo de grfico usar.

Luego de ver los datos, se hace clic en Herramientas y vamos a ODS Graphics
Designer:

141
INV- Software de Anlisis Estadstico SAS /2013-I

Esta es la interfaz inicial del diseador de grficos, dado que queremos realizar un
grfico comparativo entre dos variables, se opt por usar el grfico de Trazado de
dispersin.

Luego de ello aparece la ventana que permite asignar los datos y las variables para
graficar:

142
INV- Software de Anlisis Estadstico SAS /2013-I

Se selecciona la librera de los datos (en este caso WORK), el conjunto de datos a
utilizar (GRAFICO1) y las variables a utilizar, en este caso como los ttulos de cada
conjunto de datos son X y Y, las seleccionaremos as. Los dems parmetros ya estn
seleccionados por defecto para el propsito de este primer ejercicio sencillo, as que
finalmente se hace clic en Aceptar.

143
INV- Software de Anlisis Estadstico SAS /2013-I

El grfico fcilmente fue realizado por el diseador, en el panel izquierdo se encuentran


las opciones para insertar un nuevo grfico o combinarlos, adems opciones de diseo
adicional. Estas opciones pueden colocarse sobre el grfico arrastrndolas con el mouse
sobre el grfico. Por ejemplo, al arrastrar la opcin Leyenda gradiente aparecer un
recuadro como el de la imagen anterior que nos permitir poner una nota a pie, esto es
til para establecer la fuente de la que provienen los datos del grfico por ejemplo.

Con Leyenda discreta aparecer una pequea leyenda sobre el eje X, se aplica si se
quiere hacer un comentario sobre el grfico.

En cabecera celda se habilitan los contenidos para agregar ttulo y subttulo:

144
INV- Software de Anlisis Estadstico SAS /2013-I

Si se desea cambiar el estilo del grfico, se hace clic en Formato > Estilo > Ms estilos...
Con esto aparecer la ventana que se observa en el grfico de abajo, existen diferentes
estilos personalizados, en este caso se elegir Science para este primer grfico.

Si se desea editar los estilos predeterminados del paquete, se hace clic en Herramientas
> Editor de Estilos, as al hacer clic sobre el grfico que se encuentra en la parte
derecha del editor se mostrarn las opciones para cada componente de los grficos:

145
INV- Software de Anlisis Estadstico SAS /2013-I

Luego de hacer los ajustes que el conferencista desee en la clase, en este caso no se
realizaron cambios en los colores, as que el grfico finalmente queda:

Ejemplo 2:

Se tienen datos de una regresin mltiple, donde el empleo (Emp) busca ser
explicado por el PIB (GNP), el PIB per cpita (GNPdf), el ndice de desempleo
(Unemp), cantidad de fuerzas armadas disponibles (ArmFor) y Poblacin en
miles (Pop).

146
INV- Software de Anlisis Estadstico SAS /2013-I

Nuevamente importamos los datos que llamaremos GRAFICO2 y observaremos los


datos para saber qu tipo de grficos usar para el anlisis.

Dado que el Diseador de Grficos ODS ya se encuentra abierto, minimizaremos la


pestaa y nos dirigiremos a Fichero > Nuevo > Nuevo grfico en blanco.

147
INV- Software de Anlisis Estadstico SAS /2013-I

Luego de ello fcilmente puede arrastrarse del panel izquierdo el grfico que
necesitemos para comenzar a trabajar, en este caso se dividir el panel de grficos en 4
con los botones Aadir Fila y Aadir columna, sealados en el siguiente recuadro con
los crculos rojo y azul.

En el primer grfico, se us el grfico de barras y el grfico de series para contrastar el


Empleo contra el PIB per cpita, para combinar grficos simplemente se arrastra un
grfico sobre otro, o al hacer clic derecho se selecciona Aadir un elemento...,
asimismo para agregar un grfico sobre un recuadro que no tenga un cuadro previo se
puede usar sta opcin.

148
INV- Software de Anlisis Estadstico SAS /2013-I

As, se realiz el mismo procedimiento por cada cuadro, en el recuadro 2 se us el


grfico de agujas, en el recuadro 3 el de regresin con las opciones que por defecto tiene
este grfico, y para el cuadro 4 se us el grfico PBSpline que permite suavizar la
tendencia de la variable endgena.

149
INV- Software de Anlisis Estadstico SAS /2013-I

Ejemplo 3:

Se desea desarrollar un modelo bsico de Solow, teniendo en cuenta los datos de


Luxemburgo, pero primero se observar grficamente el comportamiento de los
mismos. En el modelo planteado se supone que el logaritmo natural del ingreso
es igual al logaritmo natural del capital ms el logaritmo natural del empleo.

Nuevamente se importan los datos y la ventana LOG nos indica que se han cargado
correctamente:

Y estos son los datos desde el Visor de Tablas de SAS:

Se siguen los pasos anteriores, y se arrastra un grfico de pasos, que aunque no es el


correcto para analizar este tipo de variables, observaremos su forma, como eje X se
tendr la variable dependiente LnY y como variable independiente LnK:

Se le aplica el estilo Money y hacemos clic en Agregar un elemento... para agregar


otro grfico sobre l, usaremos el grfico de Regresin que es el ms apropiado para
estos datos:

150
INV- Software de Anlisis Estadstico SAS /2013-I

151
INV- Software de Anlisis Estadstico SAS /2013-I

Adems de la opcin para escoger variables se observan dos cuadros CLM que permite
visualizar la lnea de trazado, y CLI que permite visualizar las bandas, en este caso
seleccionaremos los dos para observar el grfico completo.

Luego se agregar otra fila y se har un grfico de regresin para contrastar LnY
contra LnL, esta vez no seleccionaremos ninguna de las dos casillas.

Se observa entonces en la siguiente imagen que aunque no se seleccion ninguna de las


dos casillas se observan un poco degradadas la lnea de trazado y las bandas.

152
INV- Software de Anlisis Estadstico SAS /2013-I

Como aparece tambin en esta imagen, al pasar el mouse sobre la lnea nos
encontraremos con que esta se resalta un poco y arroja el valor de los ejes en el punto
sobre el que est el mouse. Se observa que esto pasa con las dos lneas:

153
INV- Software de Anlisis Estadstico SAS /2013-I

Al hacer clic derecho sobre uno de los grficos, seleccionamos Asignar datos para
modificar en cualquier momento nuestro grfico, se observa por ejemplo que para el
grfico de arriba que tiene aplicado el grfico de regresin 2 regression2 se retirarn
las bandas para poder apreciar mejor este grfico combinado.

154
INV- Software de Anlisis Estadstico SAS /2013-I

Al pasar el mouse sobre las lneas tambin se observan los valores en el punto en que
nos ubiquemos. Se puede observar gracias a esto que por ejemplo, el ingreso aumenta
en una mayor proporcin cuando aumenta el empleo que cuando aumenta la inversin
del capital, esto se observa porque la pendiente de la recta con LnL es ms inclinada
que la recta que corresponde a LnK.

Finalmente este es el grfico resultante, luego de agregar ttulos:

3. Conclusiones

El software estadstico SAS es un potente programa el cual abarca la mayora de


aplicaciones que renen todas las caractersticas de un software estadstico, por lo tanto,
sera muy enriquecedor para toda la unidad de informtica establecer un curso libre sobre
SAS.

La principal desventaja de este programa es que su licencia es costosa, sin embargo la


Unidad de informtica de la facultad de Economa posee esta licencia lo cual facilita en gran
medida su aprendizaje y la posterior ejecucin del curso libre.

A medida que vamos avanzando en el programa, nos damos cuenta que este se vuelve cada
vez ms completo y ms complejo, sin embargo, sus resultados son mejores cada vez por lo
que es muy importante continuar con el proceso de bsqueda de manuales nuevos va
internet.

155
INV- Software de Anlisis Estadstico SAS /2013-I

El mtodo de trabajo en un principio funcion bien, sin embargo al encontrar los nuevos
temas del software, este mtodo no funcion por lo que ahora se trabajar esta investigacin
de otra forma, la cual es una reunin semanal entre los investigadores con el fin de aprender
uno del otro lo que se encuentra en la semana y poder realizar el material de clase del
software.

Debido a que existieron numerosos problemas con la licencia del software de SAS en la
Universidad, no fue posible avanzar como se tena planeado en la investigacin, de hecho,
hasta hace un par de semanas se logr probar algunos cdigos de programas de SAS para
regresiones simples y mltiples. Esperamos que se pueda trabajar en la investigacin y en el
software en la Universidad de aqu en adelante con mayor facilidad que antes.

De acuerdo a lo encontrado en la revisin de literatura de SAS, las regresiones y las series


de tiempo son modelos bastantes completos el cual el sistema logra modelar muy bien. Es de
gran importancia enfocarse ms en estos temas en especial series de tiempo que es un
modelo an ms complejo.

ANEXOS
14
Anexo 1. PIB y Gasto Pblico en Colombia desde 1970 hasta 2009

Ao PIB Gasto
1970 1,3277E+11 1,2E+10
1971 1,5589E+11 1,7E+10
1972 1,8961E+11 1,8E+10
1973 2,4316E+11 2,3E+10
1974 3,2238E+11 2,8E+10
1975 4,0511E+11 3,6E+10
1976 5,3227E+11 4,4E+10
1977 7,1603E+11 5,5E+10
1978 9,0949E+11 7,8E+10
1979 1,1888E+12 1,11E+11
1980 1,5791E+12 1,59E+11
1981 1,9828E+12 2,07E+11
1982 2,4973E+12 2,73E+11
1983 3,0541E+12 3,35E+11
1984 3,8566E+12 4,26E+11
1985 4,9659E+12 5,31E+11
1986 6,788E+12 6,6581E+11
1987 8,8244E+12 7,68E+11
1988 1,1731E+13 1,013E+12
1989 1,5127E+13 1,396E+12
1990 2,0228E+13 1,9E+12

14 Fuente: Banco Mundial.

156
INV- Software de Anlisis Estadstico SAS /2013-I

1991 2,6107E+13 2,414E+12


1992 3,3515E+13 3,2E+12
1993 4,3898E+13 4,424E+12
1994 6,7533E+13 9,9379E+12
1995 8,4439E+13 1,2866E+13
1996 1,0071E+14 1,8596E+13
1997 1,2171E+14 2,4842E+13
1998 1,4048E+14 2,9271E+13
1999 1,5157E+14 3,4457E+13
2000 2,095E+14 3,5E+13
2001 2,2709E+14 3,7791E+13
2002 2,4635E+14 3,9701E+13
2003 2,7312E+14 4,305E+13
2004 3,0776E+14 4,8478E+13
2005 3,4016E+14 5,4427E+13
2006 3,839E+14 6,0145E+13
2007 4,3107E+14 6,6983E+13
2008 4,8104E+14 7,3459E+13
2009 5,0853E+14 8,0486E+13

4. Referencias
N/A. (19 de Febrero de 2013). Wikipedia, enciclopedia libre. Obtenido de
http://es.wikipedia.org/wiki/SAS_%28lenguaje_de_programaci%C3%B3n%29

N/A. (20 de Febrero de 2013). Wikipedia, la enciclopedia libre. Obtenido de


http://en.wikipedia.org/wiki/Comparison_of_statistical_packages

Official Page, S. (18 de Febrero de 2013). Statistical Analysis Software. Obtenido de


http://www.sas.com/offices/europe/spain/copyright.html

Official Page, S. (18 de Febrero de 2013). Statistical Analysis Software SAS. Obtenido de
http://support.sas.com/documentation/installcenter/92/sasinstall/9.2/unx/lnx/sreq.pdf

Official Page, S. (18 de Febrero de 2013). Statistical Analysis Software SAS. Obtenido de
http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecasting/ets/index.html

Universidad Complutense de Madrid. (19 de Febrero de 2013). Servicios Informtico de Apoyo a Docencia e
Investigacin. Obtenido de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/CursoSAS9.pdf

Universidad Nacional de Colombia, sede Medelln (28 de Febrero de 2013). Breve Manual de Induccin al
SAS, uso de la parte interactiva ANALYST. Obtenido de
http://www.unalmed.edu.co/~estadist/INDUCCION%20SAS.pdf

157
INV- Software de Anlisis Estadstico SAS /2013-I

Eduteka. (3 de Marzo de 2013). Obtenido de http://www.eduteka.org/glosario/tiki-


index.php?page=Desviaci%C3%B3n+est%C3%A1ndar+(tipo)

U. C. (3 de Marzo de 2013). Aula virtual de Bioestadstica. Obtenido de http://e-


stadistica.bio.ucm.es/glosario2/def_media_muestral.html

Vitutor. (3 de Marzo de 2013). Vitutor de estadstica. Obtenido de


http://www.vitutor.com/estadistica/descriptiva/a_3.html

Gujarati, D. Econometra. 5 Edicin McGraw Hill. 2010.

http://onlinelibrary.wiley.com/doi/10.1111/j.1540-6261.1964.tb00754.x/abstract (2013)

158

View publication stats

Vous aimerez peut-être aussi