Vous êtes sur la page 1sur 115

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS ECONMICAS


UNIDAD DE INFORMTICA
Director:

Henry Martnez

Coordinadores:

Mauricio Vergara Bravo


Oscar Javier Silva Romero

Analista de Sistemas:

Peter Fonseca Buitrago

Programador:

lvaro Enrique Palacios Villamil

Trabajo presentado por:


LEONARDO ANDRS BAENA LEAL
PEDRO JULIN RAMREZ
Este trabajo es resultado del esfuerzo de todo el equipo perteneciente a la Unidad de Informtica.
Se prohbe la reproduccin parcial o total de este documento, por cualquier tipo de mtodo
fotomecnico y/o electrnico, sin previa autorizacin de la Universidad Nacional de Colombia.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

SPSS 11.5, es un sistema amplio y flexible de anlisis


estadstico y gestin de informacin que es capaz de trabajar
con datos procedentes de distintos formatos, generando desde
sencillos
grficos
de
distribuciones
y
estadsticos
descriptivos hasta anlisis estadsticos complejos que nos
permitirn
descubrir
relaciones
de
dependencia
e
interdependencia, establecer clasificaciones de sujetos y
variables, predecir comportamientos y otras cosas ms. Su
aplicacin
fundamental,
est
orientada
al
anlisis
multivariante de datos experimentales.
En
el
mundo
de
hoy,
los
anlisis
estadsticos
y
economtricos,
son
la
base
fundamental
de
estudios
relacionados con diferentes reas como el mercadeo, las
finanzas, la salud, la economa y otras ciencias aplicadas.
En este sentido, es de vital importancia contar con
herramientas computacionales capaces de soportar estudios
empricos de gran envergadura y que se adapten a las
necesidades del investigador y del tipo de investigacin que
se realiza. SPSS 11.5 es una de esas herramientas, capaz de
cubrir un gran espectro de informacin, y que adems cuenta
con una completa serie de mdulos especializados adaptando su
capacidad a la del investigador.
Como estudiantes de Ciencias Econmicas, es realmente
importante el que no slo conozcamos sino que tambin
aprendamos a utilizar de manera ptima este programa, ya que
en algn momento de nuestra formacin acadmica o de nuestra
vida laboral ser necesario: adems, esto nos pone a la
vanguardia en sistemas informticos y estadsticos que
actualmente se emplean en el mercado, lo que ampla nuestras
posibilidades de empleo. Por esta razn, el presente
documento constituye una gua no slo para los estudiantes de
la Facultad de Ciencias Econmicas sino tambin para aquellos
que estn interesados en aprender ms sobre el programa en su
parte ESTADSTICA Y ECONOMTRICA, constituyendo adems una
importante gua del conferencista en la enseanza de un curso
libre.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

En el presente trabajo, pretendemos abordar desde la parte


terica relacionada a la Estadstica y la Econometra, hasta
la parte operativa del programa en la que se empezar por una
explicacin del mdulo bsico y los conocimientos necesarios
que los usuarios del programa deben adquirir antes de empezar
con el aprendizaje estadstico y economtrico.
Para cumplir con este objetivo, hemos decidido dividir la
investigacin a partir de la creacin de dos modelos
empricos, uno Estadstico y otro Economtrico, a travs de
los cules, se emplearn todas las herramientas analticas
del programa, para posteriormente elaborar una gua de pasos,
con los cules el usuario aprender a emplear el programa en
sus investigaciones. Esperamos pues que este trabajo les sea
de gran utilidad y ayude en parte a su formacin acadmica.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

INTRODUCCIN ......................................................................................................... 2

TABLA DE CONTENIDO ............................................................................................ 4

MARCO TERICO....................................................................................................... 7
ESTADSTICA DESCRIPTIVA............................................................................................. 7
Distribuciones de frecuencias: .................................................................................................................. 8
Medidas de tendencia central:................................................................................................................... 9
Medidas de dispersin............................................................................................................................. 10
Probabilidades......................................................................................................................................... 11
Medicin de la probabilidad............................................................................................................... 13

ESTADSTICA INFERENCIAL ...........................................................................................15


Distribuciones de muestreo..................................................................................................................... 15
Intervalos de confianza ........................................................................................................................... 18

MODELO DE REGRESIN LINEAL..................................................................................23


Tomado de: ............................................................................................................................................. 23
www.uesiglo21.edu.ar/pdfs%20dpto%20economia/ microeconomia_Mirta_Santana/UNIDAD07.pdf 35
Expresin del modelo bsico de regresin lineal:................................................................................... 23
Ejemplos de modelos economtricos ...................................................................................................... 24
Importancia de los parmetros en el modelo bsico de regresin lineal ................................................. 25
Utilidades de los modelos economtricos ............................................................................................... 26
Clasificacin de los modelos economtricos .......................................................................................... 27
En funcin de la aleatoriedad ............................................................................................................. 27
Segn el tipo de datos de las variables utilizadas en el modelo: ........................................................ 28
Segn el momento del tiempo al que hacen referencia se distingue entre: ........................................ 28
Segn el nmero de variables endgenas que se desee explicar: ....................................................... 29
Segn la transformacin de los datos que se realice: ......................................................................... 29
Fases para la elaboracin de un modelo economtrico ........................................................................... 30
Tipologa de variables y datos en la modelacin economtrica .............................................................. 31

REGRESIN LINEAL SIMPLE...........................................................................................33


MODELO DE REGRESIN LINEAL SIMPLE:.................................................................35
Supuestos bsicos para el modelo de regresin lineal simple: ........................................................... 37
Consecuencias:................................................................................................................................... 37
Estimacin puntual de los parmetros .................................................................................................... 38
Mtodo de Mnimos Cuadrados: ........................................................................................................ 39
Propiedades de los estimadores por Mnimos Cuadrados: ............................................................ 41
Mtodo de Mxima Verosimilitud: .................................................................................................... 43
Distribucin de los parmetros y estimados..................................................................................... 44
Intervalos de confianza para los parmetros ........................................................................................... 45
Caso donde la varianza de los errores es desconocida: ...................................................................... 46
Caso en el que la varianza de los errores es conocida:....................................................................... 47
Prediccin de un valor de Y para un valor dado de X............................................................................. 47
Prediccin de un valor esperado......................................................................................................... 48
Descomposicin de la variacin muestral de Y: ..................................................................................... 50
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Error estndar de la estimacin: ......................................................................................................... 51


Coeficiente de determinacin............................................................................................................. 51
Correlacin......................................................................................................................................... 52
Test de hiptesis acerca de los parmetros ............................................................................................. 55
Test acerca de la pendiente................................................................................................................. 55
Caso de varianza conocida: ........................................................................................................... 56
Caso en que la varianza es desconocida: ....................................................................................... 56
Prueba F ............................................................................................................................................. 56

REGRESIN LINEAL MULTIPLE .....................................................................................57


Planteamiento del modelo....................................................................................................................... 58
Estimaciones por Mnimos Cuadrados.................................................................................................... 59
Medidas de Bondad del Ajuste: .............................................................................................................. 62
Error estndar de la estimacin: ......................................................................................................... 62
Coeficiente de determinacin mltiple: ............................................................................................. 62
Coeficiente de correlacin mltiple: .................................................................................................. 62
Coeficiente de correlacin parcial:..................................................................................................... 63
Inferencia acerca de los parmetros del modelo de regresin mltiple................................................... 64
Prediccin ............................................................................................................................................... 66
Incumplimiento de los supuestos ............................................................................................................ 66
Multicolinealidad: .............................................................................................................................. 66
Heterocedasticidad: ............................................................................................................................ 68
Autocorrelacin.................................................................................................................................. 69
Prueba de Durbin-Watson: ................................................................................................................. 71

MODELO ESTADSTICO.......................................................................................... 73

En SPSS, la mayora de los clculos estadsticos que se pueden realizar estn basados en el proceso de
sintaxis. Para especificar los procesos que se pueden realizar mediante el editor de datos, solo
hablaremos de las Pruebas de Hiptesis, las cuales envuelven adems algunos otros temas estadsticos
como los intervalos de confianza y las medidas de tendencia central..................................................... 73
ESTADSTICA DESCRIPTIVA............................................................................................................ 73
Anlisis de Frecuencias...................................................................................................................... 74
Anlisis Exploratorio ......................................................................................................................... 75
Tablas................................................................................................................................................. 78
Tablas bsicas................................................................................................................................ 78
Tablas de Frecuencias ........................................................................................................................ 80
Medias................................................................................................................................................ 80
Comparacin con una Media Emprica. ............................................................................................. 81
Prueba de Levene de Homogeneidad de Varianzas ........................................................................... 83
Comparacin de muestras dependientes............................................................................................. 84
ANLISIS DE VARIANZA .................................................................................................................. 84
Anova de un factor............................................................................................................................. 84

MODELO ECONOMTRICO ................................................................................... 86


Caso 1 ..................................................................................................................................................... 86
Modelo de regresin lineal simple: ......................................................................................................... 87
Regresin Lineal Mltiple: ..................................................................................................................... 89
Caso 2 ..................................................................................................................................................... 92

Proceso de regresin en SPSS11.5 ..........................................................................................98


Correlacin en SPSS:.............................................................................................................................. 98
Regresin: ............................................................................................................................................... 99

GLOSARIO ................................................................................................................ 104

CONCLUSIONES ..................................................................................................... 113


UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

BIBLIOGRAFA ....................................................................................................... 114

WEBGRAFIA ............................................................................................................ 115

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

ESTADSTICA DESCRIPTIVA
En esta parte se pretende hacer un pequeo repaso de algunos
conceptos bsicos desarrollados en los cursos Estadstica I y
II; que son de gran utilidad para la mayor explotacin de la
herramienta en que se constituye SPSS 11.5.
Como base del amplio campo de la Estadstica, se deben
tratar
los
conceptos
ms
bsicos
de
la
estadstica
descriptiva. La estadstica descriptiva una serie de tcnicas
que permite analizar series de datos y trata de extraer
conclusiones sobre el comportamiento de variables, las cuales
pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir
numricamente.
Variables cuantitativas: tienen valor numrico.
Las variables tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin
sobre una caracterstica.
Variables bidimensionales: recogen informacin sobre dos
caractersticas de la poblacin.
Variables pluridimensionales: recogen informacin sobre
tres o ms caractersticas.
Por su parte, las variables cuantitativas se pueden
clasificar en discretas y continuas:
Variables Discretas: slo pueden tomar valores enteros.
Por ejemplo, puede ser 1, 2, 3...., etc., pero nunca
podr ser 3,45 por ejemplo.
Variables Continuas: pueden tomar cualquier valor real
dentro de un intervalo. Por ejemplo, cualquier nmero
decimal o fraccionario, como 80,3; 94,57.
Cuando se estudia el comportamiento de una variable hay que
distinguir los siguientes conceptos:
Individuo: cualquier elemento que porte informacin
sobre el fenmeno que se estudia. As, si estudiamos la
altura de los nios de una clase, cada alumno es un
individuo; si estudiamos el precio de la vivienda, cada
vivienda es un individuo.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Poblacin: conjunto de todos los individuos (personas,


objetos, animales, etc.) que porten informacin sobre el
fenmeno que se estudia. Por ejemplo, si estudiamos el
precio de la vivienda en una ciudad, la poblacin ser
el total de las viviendas de dicha ciudad.
Muestra: subconjunto que seleccionamos de la poblacin.
As, si se estudia el precio de la vivienda de una
ciudad, lo normal ser no recoger informacin sobre
todas las viviendas de la ciudad (sera una labor muy
compleja), sino que se suele seleccionar un subgrupo
(muestra) que se entienda que es suficientemente
representativo.

Distribuciones de frecuencias:
Las distribuciones de frecuencias son una herramienta que
facilita el anlisis de un conjunto de datos y variables de
una muestra, que constituyen un conjunto de informacin.
El anlisis de frecuencias emplea dos aspectos, conocidos
como frecuencias absolutas y relativas, las cules son
simples y acumuladas. Para facilitar la comprensin de estos
conceptos, se puede visualizar la siguiente tabla:
Variable Frecuencias absolutas
(Valor) Simple
Acumulada
x
X
x
X1
X2
...

n1
n2
...

Xn-1

nn-1

Xn

Nn

Frecuencias relativas
Simple
Acumulada
x
X

n1
f1 =
n1 + n2
f2 =
...
...
n1 + n2 +...+ fn-1
nn-1
/ n
S n
fn =

n1 / n f1
n2 / n f1 + f2
...
= nn-1 f1
+
f2
+...+fn-1
nn / n S f

Siendo X los distintos valores que puede tomar la


variable.
Siendo n el nmero de veces que se repite cada valor.
Siendo f el porcentaje que la repeticin de cada valor
supone

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Cuando los datos suelen ser muy dispersos, se utiliza la


agrupacin por intervalos, todo con el fin de inferir con
mayor facilidad.

Medidas de tendencia central:


Estas medidas, tambin conocidas como medidas descriptivas
univariadas informan sobre los valores medios de la serie de
datos y permiten un anlisis ms detallado y resumido de los
datos. La utilizacin de estas medidas es de alta importancia
tambin en la inferencia estadstica, ya que permiten estimar
y deducir aspectos de las estadsticas de manera precisa.
Las medidas de tendencia central de mayor importancia son:
Media: es el valor medio ponderado de la serie de datos.
Se pueden calcular diversos tipos de media, siendo las
ms utilizadas:
a)

Media aritmtica: se calcula multiplicando cada valor por


el nmero de veces que se repite. La suma de todos estos
productos se divide por el total de datos de la muestra:

(X1 * n1)+(X2 * n2)+(X3 * n3)+...+(Xn-1 * nn-1)+(Xn * nn)


Xm = --------------------------------------------------------N
b) Media geomtrica: se eleva cada valor al nmero de veces
que se ha repetido. Se multiplican todo estos resultados y
al producto final se le calcula la raz "n" (siendo "n" el
total de datos de la muestra).

Xn =

n1

n2

n3

nn -1

nn

(X1 ) * (X2 ) * (X3 ) * ... * (Xn -1 ) * (Xn )

Segn el tipo de datos que se analice ser ms apropiado


utilizar la media aritmtica o la media geomtrica.
La media geomtrica se suele utilizar en series de datos como
tipos de inters anuales, inflacin, etc., donde el valor de
cada ao tiene un efecto multiplicativo sobre el de los aos
anteriores. En todo caso, la media aritmtica es la medida de
posicin central ms utilizada.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Lo ms positivo de la media es que en su clculo se utilizan


todos los valores de la serie, por lo que no se pierde
ninguna informacin.
Sin embargo, presenta el problema de que su valor (tanto en
el caso de la media aritmtica como geomtrica) se puede ver
muy influido por valores extremos, que se aparten en exceso
del resto de la serie. Estos valores anmalos podran
condicionar en gran medida el valor de la media, perdiendo
sta representatividad.
Mediana: es el valor de la serie de datos que se sita
justamente en el centro de la muestra (un 50% de valores
son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores
extremos, pero en cambio no utiliza en su clculo toda la
informacin de la serie de datos (no pondera cada valor por
el nmero de veces que se ha repetido).
Moda es el valor que ms se repite en la muestra.

Medidas de dispersin
Estudia la distribucin de los valores de la serie,
analizando si estos se encuentran ms o menos concentrados, o
ms o menos dispersos.
Existen diversas medidas de dispersin, entre las ms
utilizadas estn las siguientes:
Rango: Mide la amplitud de los valores de la muestra y
se calcula por diferencia entre el valor ms elevado y
el valor ms bajo.
Varianza: Mide la distancia existente entre los valores
de la serie y la media. Se calcula como sumatoria de las
diferencias al cuadrado entre cada valor y la media,
multiplicadas por el nmero de veces que se ha repetido
cada valor. La sumatoria obtenido se divide por el
tamao de la muestra.
n

Var ( x ) =

( Xi Xm ) 2

i =1

n 1

La varianza siempre ser mayor que cero. Mientras ms se


aproxima a cero, ms concentrados estn los valores de la
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

10

serie alrededor de la media. Por el contrario, mientras mayor


sea la varianza, ms dispersos estn:
Desviacin estndar: Se calcula como raz cuadrada de la
varianza.
Coeficiente de variacin de Pearson: se calcula como
cociente entre la desviacin tpica y la media.
El inters del coeficiente de variacin es que al ser un
porcentaje permite comparar el nivel de dispersin de dos
muestras. Esto no ocurre con la desviacin tpica, ya que
viene expresada en las mismas unidas que los datos de la
serie.
Por ejemplo, para comparar el nivel de dispersin de una
serie de datos medida en centmetros y otra en kilogramos, no
se puede utilizar las desviaciones estndar (una viene
expresada en cm. y la otra en Kg.). En cambio, sus
coeficientes de variacin son ambos porcentajes, por lo que
s se pueden comparar.

Probabilidades
La probabilidad es un rea muy importante para el anlisis
estadstico, ya que permite calcular la posibilidad de la
ocurrencia de un evento dado, conocido como experimento. Para
su estudio es necesario el conocimiento de la teora de
conjuntos, ya que algunas tcnicas estn basadas en su
conocimiento. Se han logrado desarrollar algunas tcnicas,
apoyadas esencialmente en la teora matemtica, que permiten
deducir la ocurrencia de esos eventos con mayor facilidad.
Una de las condiciones y de gran importancia para el estudio
probabilstico es que El experimento tiene que ser aleatorio,
es decir, que pueden presentarse diversos resultados, dentro
de un conjunto posible de soluciones, y esto an realizando
el experimento en las mismas condiciones. Otros conceptos
necesarios para la probabilidad son:
Suceso elemental: hace referencia a cada una de las
posibles soluciones que se pueden presentar. Ejemplo: al
lanzar una moneda al aire, los sucesos elementales son
la cara y el sello.
Suceso
compuesto:
es
un
subconjunto
de
sucesos
elementales, por ejemplo; lanzamos un dado y queremos
que salga un nmero par. El suceso "numero par" es un
suceso compuesto, integrado por 3 sucesos elementales:
el 2, el 4 y el 6.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

11

Al conjunto de todos los posibles sucesos elementales lo


denominamos espacio muestral. Cada experimento aleatorio
tiene definido su espacio muestral (es decir, un conjunto con
todas las soluciones posibles). Ejemplo: si tiramos una
moneda al aire una sola vez, el espacio muestral ser cara o
sello. Si el experimento consiste en lanzar una moneda al
aire dos veces, entonces el espacio muestral estara formado
por (cara-cara), (cara-sello), (sello-cara) y (sello-sello),
etc.
Relacin
entre
sucesos
(Propiedades
de
las
probabilidades):
Entre los sucesos compuestos se pueden establecer distintas
relaciones:
a) Un suceso puede estar contenido en otro: las posibles
soluciones del primer suceso tambin lo son del segundo, pero
este segundo suceso tiene adems otras soluciones suyas
propias. Ejemplo: lanzamos un dado y analizamos dos sucesos:
a) que salga el nmero 6, y b) que salga un nmero par. Vemos
que el suceso a) est contenido en el suceso b).
Siempre que se da el suceso a) se da el suceso b), pero no al
contrario. Por ejemplo, si el resultado fuera el 2, se
cumplira el suceso b), pero no el a).
b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre
que se cumple uno de ellos se cumple obligatoriamente el otro
y viceversa. Ejemplo: lanzamos un dado al aire y analizamos
dos sucesos: a) que salga nmero par, y b) que salga mltiplo
de 2. Vemos que las soluciones coinciden en ambos casos.
c) Unin de dos o ms sucesos: la unin ser otro suceso
formado por todos los elementos de los sucesos que se unen.
Por ejemplo: lanzamos un dado al aire y analizamos dos
sucesos
a) que salga nmero par y b) que el resultado sea mayor que
3. El suceso unin estara formado por los siguientes
resultados: el 2, el 4, el 5 y el 6.
d) Interseccin de sucesos: es aquel suceso compuesto por los
elementos comunes de dos o ms sucesos que se interceptan.
Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos:
a) que salga nmero par, y b) que sea mayor que 4. La
interseccin de estos dos sucesos tiene un slo elemento, el
nmero 6 (es el nico resultado comn a ambos sucesos: es
mayor que 4 y es nmero par).
e) Sucesos incompatibles: son aquellos que no se pueden dar
al mismo tiempo ya que no tienen elementos comunes (su
interseccin es el conjunto vaco). Ejemplo: lanzamos un dado
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

12

al aire y analizamos dos sucesos: a) que salga un nmero


menor que 3, y b) que salga el nmero 6. Es evidente que
ambos no se pueden dar al mismo tiempo.
f) Sucesos complementarios: son aquellos que si no se da uno,
obligatoriamente se tiene que dar el otro. Ejemplo: lanzamos
un dado al aire y analizamos dos sucesos: a) que salga un
nmero par, y b) que salga un nmero impar. Vemos que si no
se da el primero se tiene que dar el segundo (y viceversa).
g) La probabilidad toma valores entre 0 y 1 (o expresados
porcentualmente, entre 0% y 100%):
El valor cero corresponde al suceso imposible: lanzamos un
dado al aire y la probabilidad de que salga el nmero 7 es
cero, dado que ningn dado (normal) tiene siete lados. El
valor uno corresponde al suceso seguro: lanzamos un dado al
aire y la probabilidad de que salga cualquier nmero del 1 al
6 es igual a uno (100%). El resto de sucesos tendr
probabilidades entre cero y uno: que ser tanto mayor cuanto
ms probable sea que dicho suceso tenga lugar.
Medicin de la probabilidad

Uno de los mtodos ms utilizados es aplicando la Regla de


Laplace: define la probabilidad de un suceso como el cociente
entre casos favorables y casos posibles.
P(A) = Casos favorables / casos posibles
Por ejemplo, calcular la Probabilidad de que al lanzar un
dado salga el nmero 2: el caso favorable es tan slo uno
(que salga el dos), mientras que los casos posibles son seis
(puede salir cualquier nmero del uno al seis). Por lo tanto:
P(A) = 1 / 6 = 0,166 (o lo que es lo mismo, 16,6%)
Para poder aplicar la Regla de Laplace el experimento
aleatorio tiene que cumplir dos requisitos:
a) El nmero de resultados posibles (sucesos) tiene que ser
finito. Si hubiera infinitos resultados, al aplicar la regla
"casos favorables / casos posibles" el cociente siempre sera
cero.
b) Todos los sucesos tienen que tener la misma probabilidad.
Si al lanzar un dado, algunas caras tuvieran mayor
probabilidad de salir que otras, no podramos aplicar esta
regla.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

13

Para aplicar la regla de Laplace hay que conocer antes de


realizar el experimento cuales son los posibles resultados y
saber que todos tienen las mismas probabilidades.
Si el experimento aleatorio no cumple los dos requisitos
indicados podemos acudir a otro modelo de clculo de
probabilidades que se basa en la experiencia (modelo
emprico):
Cuando se realiza un experimento aleatorio un nmero muy
elevado de veces, las probabilidades de los diversos posibles
sucesos empiezan a converger hacia valores determinados, que
son sus respectivas probabilidades, por ejemplo: si se lanza
una vez una moneda al aire y sale "cara", quiere decir que el
suceso "cara" ha aparecido el 100% de las veces y el suceso
"sello" el 0%.Si se lanza diez veces la moneda al aire, es
posible que el suceso "cara" salga 7 veces y el suceso
"sello" las 3 restantes. En este caso, la probabilidad del
suceso "cara" ya no sera del 100%, sino que se habra
reducido al 70%. Si se repite este experimento un nmero
elevado de veces, lo normal es que las probabilidades de los
sucesos "cara" y "sello" se vayan aproximando al 50% cada
una. Este 50% ser la probabilidad de estos sucesos segn el
modelo emprico.
En este modelo ya no ser necesario que el nmero de
soluciones sea finito, ni que todos los sucesos tengan la
misma probabilidad. Por ejemplo; si la moneda que utilizamos
en el ejemplo anterior fuera defectuosa (o estuviera
trucada), es posible que al repetir dicho experimento un
nmero elevado de veces, la "cara" saliera con una
frecuencia, por ejemplo, del 65% y la "sello" del 35%. Estos
valores seran las probabilidades de estos dos sucesos segn
el modelo emprico.
La aplicacin de este modelo es posible tan slo repitiendo
un experimento un nmero elevado de veces podremos saber cual
es la probabilidad de cada suceso.
Probabilidad condicional
Las probabilidades condicionales se calculan una vez que se
ha incorporado informacin adicional a la situacin de
partida Por ejemplo; se tira un dado y sabemos que la
probabilidad de que salga un 2 es 1/6 (probabilidad a
priori). Si incorporamos nueva informacin (por ejemplo,
alguien nos dice que el resultado ha sido un nmero par)
entonces la probabilidad de que el resultado sea el 2 ya no
es 1/6.
Las probabilidades condicionadas se calculan aplicando las
siguientes expresiones:
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

14

P (B/A) es la probabilidad de que se de el suceso B


condicionada a que se haya dado el suceso A.
P (B L A) es la probabilidad del suceso simultneo de A
y de B
P (A) es la probabilidad a priori del suceso A
En el ejemplo que hemos visto:
P (B/A) es la probabilidad de que salga el nmero 2
(suceso B) condicionada a que haya salido un nmero par
(suceso A).
P (B L A) es la probabilidad de que salga el dos y
nmero par.
P (A) es la probabilidad a priori de que salga un nmero
par.
La probabilidad condicionada es superior a la probabilidad a
priori. No siempre esto es as, a veces la probabilidad
condicionada es igual a la probabilidad a priori o menor.

ESTADSTICA INFERENCIAL
La estadstica inferencial consiste en analizar y deducir
resultados obtenidos mediante la aplicacin de tcnicas
estadsticas. Para simplificar el anlisis se incluyen
ciertos conceptos muy utilizados en esta parte de la
estadstica, como parmetro, estimador y estimacin. Esta
parte se subdivide en distribuciones de muestreo, intervalos
de confianza y pruebas de hiptesis.

Distribuciones de muestreo
Las distribuciones de muestreo son herramientas muy tiles
para el anlisis de un conjunto de datos. Permiten, a partir
de una muestra, obtener una aproximacin a una medida
poblacional. Se pueden elaborar distribuciones para medias
muestrales, proporciones muestrales, varianzas muestrales y
poblacionales.
Para hallar distribuciones de muestreo eficientes existen
tcnicas de muestreo que se utilizan para no tener que
trabajar con toda la poblacin. Estas tcnicas pueden ser:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

15

Muestreo no probabilstico: no se usa el azar, sino el


criterio del investigador, suele presentar grandes
sesgos y es poco fiable.
Muestreo probabilstico: se utilizan las leyes del azar.
Puede ser:
Muestreo aleatorio simple (es el ms importante): cada
elemento de la poblacin tiene la misma probabilidad de
ser
elegido,
las
observaciones
se
realizan
con
emplazamiento, de manera que la poblacin es idntica en
todas las extracciones, o sea, que la seleccin de un
individuo no debe afectar a la probabilidad de que sea
seleccionado otro cualquiera aunque ello comporte que
algn individuo pueda ser elegido ms de una vez.
Muestreo sistemtico: es cuando los elementos de la
poblacin estn ordenados por listas. Se elige un
individuo al azar y a continuacin a intervalos
constantes se eligen todos los dems hasta completar la
muestra. Si el orden de los elementos es tal que los
individuos prximos tienden
a ser ms semejantes que
los alejados, el muestreo sistemtico tiende a ser ms
preciso que el aleatorio simple, al cubrir ms
homogneamente toda la poblacin.
Muestreo estratificado: es cuando nos interesa que la
muestra tenga la misma composicin a la de la poblacin
la cual se divide en clases o estratos. Si por ejemplo
en la poblacin el 20% son mujeres y el 80% hombres, se
mantendr la misma proporcin en la muestra.
Las distribuciones de muestreo mas comnmente utilizadas son
asociadas a la distribucin de probabilidad Normal, la
distribucin Chi-cuadrado, la distribucin T-Student y la
distribucin F de Fisher. Para analizar los estimadores y
parmetros con su respectiva distribucin de muestreo, aunque
de manera resumida; proponemos utilizar la siguiente tabla:
ESTIMADOR

PARAMETRO

CONDICIONES

DISTRIBUCION ASOCIADA

x (media
muestral)

(media
poblacion
al)

Si 2
conocida
Si 2
desconocida

Normal N( ,

s2
(varianza
muestral)

(varianza
poblacion
al)

(n-1)

/n)

grados de libertad.

Chi cuadrado:
libertad

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

(n-1)

grados

16

p
(proporci
n
muestral)
x1-x2
(diferenc
ia de
medias
muestrale
s)
s21 y s22
(cociente
de
varianzas
muestrale
s)
p1-p2
(diferenc
ia de
proporcio
nes
muestrale
s)

P
(propor.
poblacion
al)
12
(diferenc
ia de
medias
poblacion
al)
2
2
1/ 2

(cociente
de
varianzas
poblacion
ales)
p1-p2
(diferenc
ia de
proporcio
nes
poblacion
ales)

Normal N(P, (P(1-P)/n))

Si 21 y 22
conocida
Si 21 y 22
desconocidas
(*)

Normal N( 1- 2,
( 21/n1)+( 22/n2))
T(n1-n2-2) grados de libertad

(*) En intervalos de confianza se debe asumir igualdad o


desigualdad de varianzas.

F(n1-1; n2-2) grados de


libertad

N (p1-p2 ; (p1 (1-p1)/n1) +


(p2 (1-p2)/n2)

Tambin podemos emplear otras pruebas para identificar como


se distribuyen los conjuntos de datos, para esto emplearemos
la muestra de Kolmogorov-Smirnov
Prueba de Kolmogorov-Smirnov
La Prueba de Kolomogorov-Smirnov sirve para comprobar si la
distribucin de los datos de la muestra sigue alguna
distribucin terica conocida. La forma de proceder es la
siguiente:
-Sean
FS(x) la funcin de distribucin acumulada de la muestra.
FT(x) la funcin de distribucin acumulada terica.
La funcin de distribucin se define como:
F(x) = P(X <= x)
La muestra es una muestra aleatoria de una poblacin con
funcin de distribucin acumulada F(x).
Entonces se pretende contrastar:
H0: F(x)=FT(x), para todo - < x <
H1: F(x) FT(x), para al menos un x
Y el estadstico que se utiliza es:

D = sup F ( x ) FT ( x )

s
UNIVERSIDAD NACIONAL COLOMBIA
x
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

17

donde los valores de Fs(x) son las frecuencias relativas acumuladas de los valores.

Intervalos de confianza
Los intervalos de confianza son una herramienta muy til en
la estimacin estadstica, esta puede ser de dos tipos:
Puntual: es aquella que se realiza sobre un parmetro
dado, mediante a transformacin de algunos estimadores.
Para evaluar este tipo de estimacin es necesario
conocer las propiedades deseables de los estimadores,
las cuales son:
a) Insesgamiento: Esta propiedad se puede evaluar de la
siguiente manera, si la esperanza del estimador T es igual al
parmetro, es decir:
E(T)=
Aunque tambin
estimador:

se

puede

realizar

E(T)-

empleando

el

sesgo

del

= sesgo(T)

Si el sesgo es = 0 el estimador es insesgado.


b) Eficiencia: Se tienen dos estimadores, llamados T1 y T2,
que cumplen con la propiedad del insesgamiento. Se puede
decir que T1 es mas eficiente que T2 si su varianza es menor
que la de T2, es decir:
V(T1) V(T2)
Tambin se puede medir mediante la eficiencia relativa, la
cual se expresa as:
Eficiencia Relativa = V(T1)
V(T2)
c) Concentracin: Mide la proximidad del estimador al
parmetro. Esta propiedad se evala a travs del Error
Cuadrtico Medio (ECM):
ECM(T)
O lo que es igual:

= E(T- )2

ECM(T) = V(T) + (E(T- ))2


= V(T) + sesgo(T)2

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

18

d) Consistencia: Un estimador de
estimador T se acerca a 0 cuando
aumenta el tamao de la muestra.

es

consistente

si

el

Para esto se emplea un conocido lmite llamado la desigualdad


de Chebyshev. Se expresa como:
Limn--inf P(T- ) )
Si el lmite es igual a uno, el estimador es consistente, o
expresado en trminos estadsticos, T converge a
en
probabilidad.
Existen adems otras propiedades muy importantes de los
estimadores, como Suficiencia y Robustez, los cuales son muy
tediosos y de poca aplicacin a las Ciencias Econmicas.
Podemos mencionar tambin mtodos de encontrar estimadores,
netamente matemticos, como el mtodo de mnimos cuadrados,
el mtodo de mxima verosimilitud, el mtodo de momentos y el
mtodo bayesiano, pero no los explicaremos dado que su
aplicacin en esta investigacin no es tan alta.
Estimacin por intervalo: es aquella estimacin en que,
basados en un estimador, podemos utilizar ciertas tcnicas
estadsticas para aproximarnos al valor de un parmetro o
para estimar con un nivel de confianza dado un suceso
probable.
En la estimacin por intervalo es necesario tener en cuenta
las expresiones escritas en la tabla de distribucin de
muestreo que se halla mas atrs de este documento, ya que,
dependiendo el estimador, debemos utilizar la distribucin
asociada a ese estimador para hallar la aproximacin al
parmetro dado con un nivel de confianza tambin dado. Ese
nivel de confianza, comnmente denominado
, es utilizado
frecuentemente como 0.9 0.95 dado el caso.
Los intervalos de confianza para sus respectivos estimadores
estn construidos de la siguiente manera:
ESTIMADOR
x(media
muestral

PARAMETRO
(media
poblacional
)

INTERVALO DE CONFIANZA
(x

Z1- Si 2 conocida
/2( / n))
(x

Z1- Si 2 desconocida

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

19

s2
(varianza 2
muestral)
(varianza
poblacional
)
p(proporcin
P(proporci
muestral)
n
poblacional
)
x1-x2
1- 2
(diferencia de (diferencia
medias
de
medias
poblacional
muestrales)
)

/2(s/

n))
(((n-1)*s2)/

(p Z1-

/2(

/2);

((n-1)*s2)/

P(1-P)/n))

(x1-x2Z1- /2( 21/n)+(


2
2/n2)
(x1-x2t(n1+n22
2)* s c((1/n1)+(
1/n2)(*)
(x1-x2t(v)* s2c((1/n1)
+ ( 1/n2)(*)

s21
y
s22 21/ 22
(cociente
de (cociente
varianzas
de
muestrales)
varianzas
poblacional
es)

((s21)/((s22)*F(v1-v2)12
2
/2);((s 1)/((s 2)*F(v1v2) /2)

p1-p2
(diferencia de
proporciones
muestrales)

(p1-p2Z1- /2( P1(1P1)/n1)))+( P2(1P2)/n2))

p1-p2
(diferencia
de
proporcione
s
poblacional
es)

1- /2))

Si 21 y 22
conocida
Si 21 y 22
desconocid
y
as
supuestas
iguales.
Si 21 y 22
desconocid
as
y
supuestas
diferentes

Prueba de Hiptesis.
Una hiptesis estadstica es una asuncin relativa a una o
varias poblaciones, que puede ser cierta o no. Las hiptesis
estadsticas se pueden contrastar con la informacin extrada
de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

20

Las pruebas de hipotsis estadsticas estan basadas en la


distribuciones de muestreo y se basan en un criterio de
decisin. La mayoria de los calculos estadsiticos de SPSS
depende en gran parte de las pruebas de hipotsis, con las
cuales se pueden obtener resultados como los vistos
anteriormente en los intervalos de confianza, pero que
desarrollaremos mas ampliamente en el modelo estadstico. Los
tipos de pruebas de hipotsis solo corresponden a los mas
utilizados, pero es neceario que existe una gran variedad de
pruebas, las cuales se pueden clasificar entre paramtricas y
no parametricas.
La hiptesis formulada con intencin de rechazarla se llama
hiptesis nula y se representa por H0. Rechazar H0 implica
aceptar una hiptesis alternativa (H1).
La situacin se puede esquematizar de la siguiente manera:
H0 cierta
H0 rechazada
H0
rechazada

Error
( )

tipo

no Decisin
correcta

H0falsa
I Decisin
correcta
Error
( )

tipo

II

=p(rechazar H0|H0 cierta)


=p(aceptar H0|H0 falsa)
Potencia=1-

=p(rechazar H0|H0 falsa)

Donde
representa la probabilidad de error tipo I, y se
relaciona con los intervalos de confianza en que representa
un nivel de significanca para la prueba, es decir, la
confiabilidad que se tiene en cuenta par no cometer errores;
y
representa la probabilidad de error tipo II, es decir,
la probabilidad de no rechazar una hiptesis nula que es
falsa. Algunos detalles para tener en cuenta son:
1
y
estn inversamente relacionadas.
2 Slo pueden disminuirse las dos, aumentando n = tamao de
muestra.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

21

Generalmente, las hiptesis estn representadas como sigue:


H0:
H1:

donde

representa

=
<
>

la estimacin hecha para la hiptesis.

Procedimiento para la realizacin de pruebas de hiptesis:


1. Establecer la hiptesis nula en trminos de igualdad
H0:

2. Establecer la hiptesis alternativa, que puede hacerse de


tres maneras, dependiendo del resultado que se desea obtener:
H1:
<
>
en el primer caso se habla de contraste de una prueba
bilateral o de dos colas, y en los otros dos de unilateral
(derecho en el 2 caso, o izquierdo en el 3) o prueba de una
cola.
3. Elegir un nivel de significacin: nivel crtico para a
4. Elegir un estadstico de contraste: estadstico cuya
distribucin muestral se conozca en H0 y que est relacionado
con q y establecer, en base a dicha distribucin, la regin
crtica: regin en la que el estadstico tiene una
probabilidad menor que a si H0 fuera cierta y, en
consecuencia, si el estadstico cayera en la misma, se
rechazara H0.
Hay que tener en cuenta que de esta manera se est ms seguro
cuando se rechaza una hiptesis que cuando no. Por eso se
fija como H0 lo que se quiere rechazar. Cuando no se rechaza,
no se ha demostrado nada, simplemente no se ha podido
rechazar. Por otro lado, la decisin se toma en base a la
distribucin muestral en H0, por eso es necesario que tenga
la igualdad.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

22

5. Calcular el estadstico para una muestra aleatoria y


compararlo con la regin crtica, o equivalentemente,
calcular el " p-valor " del estadstico (probabilidad de
obtener ese valor, u otro ms alejado de la H0, si H0 fuera
cierta) y compararlo con a.
El estadstico de contraste sigue exactamente las mismas
formulaciones que
las distribuciones de muestreo, si
necesitamos probar una estimacin basada en la media
muestral, utilizamos la distribucin de muestro asociada para
la media poblacional, la cual puede ser la Normal o la TStudent, segn sea el caso. Para mayor claridad podemos
consultar al tabla que elaboramos unas pginas atrs, en
donde explicamos las distribuciones de muestreo asociadas.
Las pruebas de hiptesis estadsticas no parmetricas
Para una mayor profundidad en estos aspectos, sugerimos
consultar al bibliografa de este documento.
MODELO DE REGRESIN LINEAL
Tomado de:
Medina, Eva: Modelos Economtrico E Informacin
Estadstica, Febrero 2002

Expresin del modelo bsico de regresin lineal:


La expresin formal del modelo bsico de regresin lineal,
que es el modelo bsico en econometra queda formulada como
se expresa a continuacin:

Yi = 1 + 2Xi + + kXki + Ui

Donde:
Y: Es la variable endgena o explicada cuyo comportamiento se
quiere analizar.
X : Es cada una de las variables exgenas o explicativas y
que
son
consideradas
como
las
causas
que
crean
transformaciones en la variable endgena.
B : Son los parmetros cuyo valor desconozco y voy a estimar.
A travs de la estimacin de los parmetros obtengo una
cuantificacin de las relaciones existentes entre la Y y cada
una de las X.
U: Perturbacin aleatoria que recoge el efecto conjunto de
otras variables no directamente explicitadas en el modelo,
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

23

cuyo efecto individual sobre la endgena no resulta


relevante.
i: Es el subndice que hace referencia a las diversas
observaciones para las cuales se establece su validez. Segn
el tipo de valores con los que estemos trabajando, el
subndice har referencia a distintos momentos del tiempo
(series temporales: las cotizaciones en bolsa diarias, los
ndices de predio al consumo mensuales, los datos anuales del
PIB de un pas, etc.) o a distintas unidades econmicas
(series de corte transversal: consumo de diferentes familias,
inversin
de
distintas
empresas,
paro
en
diferentes
provincias, etc.).

Ejemplos de modelos economtricos


Los modelos economtricos se utilizan para la resolucin de
problemas de contenido econmico muy variado. Como ejemplo
supongamos los siguientes casos:
Nivel micro
Una empresa quiere explicar la demanda de sus productos
en funcin del precio de los mismos y los gastos en
publicidad.
A
una
consultora
se
le
encarga
estudiar
el
comportamiento de las horas extraordinarias trabajadas
por las empleadas femeninas de una empresa. Utiliza como
variables
explicativas:
Salario
por
hora
no
extraordinaria, salario por hora extraordinaria, nmero
de hijos.
Se desea analizar el consumo de manzanas en funcin del
precio de las manzanas, del
consumo de peras y de la
renta disponible.
Una agencia inmobiliaria desea estudiar el precio de la
vivienda en funcin de superficie til.
Consumo de caf en funcin de renta, precios del caf,
precios de la leche.
Consumo de tabaco en funcin de ventas de las empresas y
de gastos en publicidad.
Nivel macro
La funcin de consumo de un pas se especific en
funcin de la renta disponible y el nmero de ocupados.
Se quieren analizar las exportaciones de un pas en
funcin de la produccin de bienes, del nivel de renta
de los exportadores y del tipo de cambio real.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

24

Importancia de los parmetros en el modelo bsico de


regresin lineal
La principal utilidad que tienen los parmetros es la de
cuantificar las relaciones que existen entre las variables
explicativas y la variable endgena. As:
El parmetro que corresponde al trmino constante debe
ser interpretado como el valor
que toma la variable
endgena cuando el resto de variables explicativas valen
cero. Por ejemplo, en una funcin de consumo, aunque
ste depende de la renta y de otras variables, cuando
todas ellas valen cero el individuo realiza un consumo
para sobrevivir, lo que es conocido como autoconsumo.
Ese valor queda recogido en el modelo bsico de
regresin lineal a travs del parmetro que corresponde
al trmino constante.
El resto de parmetros que acompaan a las variables
explicativas me miden la relacin entre estas y la
variable endgena a travs de su signo y su cuanta. El
signo me mide si la relacin entre las variables es
directa o inversa (si a medida que la explicativa
incrementa tambin lo hace la endgena o viceversa). La
cuanta sirve para medir que variable explicativa, de
todas las explicitadas en el modelo, es ms importante
para explicar el comportamiento de la endgena, de tal
manera que si todas las variables estn medidas en las
mismas unidades de medida, la variable ms importante
ser la que tenga un mayor valor de su parmetro.
Por tanto, el anlisis de los parmetros estimados me permite
conocer la estructura econmica del fenmeno que estamos
analizando,
entendiendo
por
estructura
el
patrn
de
comportamiento de acuerdo con el cual se desarrolla una
accin. De este modelo, en el que se trata de explicar la
evolucin del consumo en funcin de la renta y de los tipos
de inters, la estructura econmica quedar definida como
incrementos de consumo a medida que incrementa la renta y
reducciones de consumo a medida que incrementan los tipos de
inters.
Ahora bien, una vez estimado el modelo, admitimos que la
estructura permanece constante para todo el periodo de
estimacin. Esto es, que los parmetros son los mismos para
toda la muestra y que las relaciones permanecen constantes
para todo el periodo analizado. Es por ello, que los
parmetros no van acompaados de un subndice en la expresin
matemtica del modelo bsico de regresin lineal.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

25

Sin embargo, la estructura o relaciones entre las variables


pueden variar en el periodo
analizado, lo que implicara
cambios en los valores de los parmetros. Los valores de los
parmetros cambian cuando:
Se incorpora una nueva variable al modelo. Ya que como
en economa todo est relacionado entre s, la inclusin
de
una
nueva
variable
explicativa
modifica
las
relaciones existentes entre las variables explicativas,
y por tanto las relaciones existentes entre stas y la
variable endgena. As, si dos variables explicativas
estn muy relacionadas entre s, estarn explicando lo
mismo del comportamiento de la endgena y al incluirlas
juntas en el modelo su aportacin a la evolucin de la
endgena
se
repartir,
mientras
que
si
slo
incorporsemos
una de ellas toda ella acumulara el
peso importante en el anlisis de la endgena por lo que
el valor de su parmetro sera superior que en el caso
anterior.
Se modifica el periodo muestral. Ya que la inclusin de
nuevos aos en el anlisis implica incluir tambin
nuevos factores explicativos de la variable endgena o
una modificacin en los pesos en que las variables
explicativas participan en el comportamiento de la
endgena.
Se produce un cambio estructural en el sistema econmico
que estoy analizando. As, en un mismo periodo se puede
haber producido un cambio econmico importante que
implique una modificacin radical de las relaciones
existentes
entre
las
variables.
Por
ejemplo:
la
aprobacin del ALCA antes del tiempo inicialmente
programado
puede
implicar
que
el
peso
de
las
exportaciones en el crecimiento del PIB es mayor que
durante los aos anteriores a la aprobacin del tratado
de libre comercio, lo que modificara las cuantas de
los parmetros; en pases que han cambiado de un sistema
econmico socialista a uno capitalista implica un cambio
radical en las relaciones econmicas (antes tena ms
peso el sector pblico y ahora las relaciones de libre
mercado); el cambio que se produce en los hbitos de
consumo con el transcurso de los aos; la aparicin de
las tarjetas como medio de pago supone un cambio tambin
en los hbitos de consumo.

Utilidades de los modelos economtricos


UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

26

Su utilidad se encuentra principalmente en la resolucin de


problemas de economa en general (macro) o de direccin de
empresas (micro).
Anlisis estructural: Cuantificacin de las relaciones
que entre el periodo analizado ha existido entre las
variables implicadas, a travs del conocimiento del
signo y valor de los parmetros estimados. Es decir,
sirve
para
conocer
como
incide
en
la
endgena
variaciones de las variables explicativas.
Prediccin: Dados unos valores a futuro para las
variables explicativas, y conociendo la expresin
matemtica que relaciona las variables explicativas y la
variable endgena, es posible predecir los valores que
tomar a futuro la variable objeto de estudio.
Simulacin o evaluacin de polticas: Efectos que tienen
sobre la endgena diferentes estrategias que se planteen
de las variables explicativas. Por ejemplo si analizamos
las ventas de una empresa en funcin de los precios del
producto y del nivel de gasto realizado en publicidad,
podramos
estar
interesados
en
analizar
cuanto
incrementaran las unidades vendidas si se mantienen los
precios fijos y se incrementa el gasto en publicidad en
un porcentaje determinado.

Clasificacin de los modelos economtricos


En funcin de la aleatoriedad
En primer lugar debemos tener claro lo que entendemos por
variable aleatoria: aquella debida al azar (por ejemplo, una
variable que mida los resultados obtenidos de lanzar una
moneda al
aire) frente a una variable no aleatoria que es
aquella variable conocida que no se debe al azar (por
ejemplo, la medicin de la edad entre un grupo de
individuos).
Todo modelo economtrico se caracteriza por la aleatoriedad
frente a los modelos deterministas.
Mientras que un modelo determinista existen relaciones
exactas entre las variables del modelo, y es por ello que
tienen como principal carencia la de no analizar relaciones
de causalidad. Son modelos de caja negra, en los que se
parte de uno o varios inputs y a travs de ciertas
transformaciones (que no se explicitan en el modelo) se
conoce el comportamiento del output. Sin embargo, los modelos
economtricos son modelos aleatorios o estocsticos, en los
cuales las relaciones no son exactas, ya que siempre existe
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

27

un componente aleatoria que dejo fuera de la explicacin de


la variable endgena, que es lo que se conoce como
perturbacin aleatoria. Ese componente aleatorio se debe a la
propia especificacin del modelo que me impide incluir todas
las variables que afectan a la endgena, errores en la
medicin de las variables, etc.
As, cuando veamos como pasar de un modelo econmico a un
modelo economtrico partamos de:
PIB = CP + GP + I + X M
Y llegbamos a:
PIB = a + b *renta + c *ti + d *renta ALCA + u

Mientras que el primero se trata de una identidad contable,


en el segundo existe un componente aleatorio que queda
expresado a travs de la perturbacin aleatoria que recoge
todos aquellos factores que no quedan explicitados en el
modelo y que se deben al azar. La gran diferencia entre ambos
modelos es que mientras que el primero nicamente analiza
cambios en el PIB como consecuencia de cambios en sus
componentes, en el segundo estoy analizando exactamente las
causas que generan cambios en el comportamiento del PIB, por
lo tanto solo el segundo (el economtrico) sirve para
analizar relaciones de causalidad entre variables econmicas.
Segn el tipo de datos de las variables utilizadas en el
modelo:
Series temporales: Los datos pueden corresponder a los
valores de una variable en el tiempo. Estos pueden tener
frecuencia, diaria, semanal, mensual o anual. As
podemos analizar las cotizaciones en bolsa diarias, los
ndices de predio al consumo mensuales, los datos
anuales del PIB de un pas, etc.
Series de corte transversal: Los valores corresponden a
distintos sujetos para un mismo momento del tiempo. En
este caso se tratara de series del tipo de consumo de
diferentes familias, inversin de distintas empresas,
paro en diferentes provincias, etc.

Segn

el momento del
distingue entre:

tiempo

al

que

hacen

referencia

se

Modelos estticos: Cuando el subndice i hace referencia


al mismo momento del tiempo o al mismo individuo
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

28

econmico tanto para la endgena como para todas las


explicativas.
Modelos
dinmicos:
Cuando
estn
involucradas
las
variables en diferentes puntos del tiempo. As, si
estamos
analizando
la
variable
endgena
consumo,
utilizaremos como variable explicativa la renta de ese
mismo periodo, pero tambin podramos utilizar la renta
del ao pasado, ya que mis decisiones de compra las
tomar en funcin de lo que pude ahorrar el ao pasado.
Al incluir variables en distintos momentos del tiempo
podemos hablar de modelos dinmicos.
Segn el nmero de variables endgenas que se desee explicar:
Modelos uniecuacionales: nicamente existe una variable
endgena.
Modelos multiecuacionales: Existen varias variables
endgenas que deseamos explicar, algunas de las cuales
pueden ser a su vez variables explicativas de otras
ecuaciones.
Segn la transformacin de los datos que se realice:
Modelo en niveles: Las variables aparecen expresadas en
unidades de medida.
Modelo en tasas de variacin: Las variables aparecen
expresadas como incrementos.
Cuando una variable la expreso en vez de en niveles en
incrementos estoy eliminando la tendencia. Al introducir
las variables en niveles puedo encontrar un mayor
nmero de variables explicativas buenas, ya que es ms
fcil encontrar variables explicativas que tengan la
misma tendencia que la endgena. Pero eso no significa
que esas variables sean las que realmente son causas
explicativas de los cambios de la endgena. Por ello, al
eliminar la tendencia de las variables exigimos ms al
modelo, es decir, tenemos en cuenta las variables que
son realmente causa.
Modelo en logaritmos: El modelo bsico de regresin
lineal permite nicamente trabajar con relaciones
lineales. Pero no todas las variables tienen porque
estar expresadas a travs de una relacin lineal. Cuando
estimamos un modelo nicamente con una variable endgena
y una explicativa lo que tratamos es de encontrar la
lnea que mejor nos recoja la informacin suministrada
por ambas variables.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

29

Es por ello que la inclusin de las variables en logaritmos


nos permite linealizar las relaciones para poder estimar el
modelo. La justificacin a esto se encuentra en la siguiente
demostracin:
Y = a * xb
Log (y) = log (a * xb)
Log (y) = log (a) + log (xb)
Log (y) = log (a) + b*log (x)
Y con esta transformacin hemos conseguido linealizar la
estimacin.

Fases para la elaboracin de un modelo economtrico


Las principales etapas que hay que cubrir en un modelo
economtrico se pueden resumir en las cuatro siguientes:
Especificacin:
Seleccin del tema objeto de anlisis: Este puede ser del
campo de la economa, la gestin de empresas e incluso temas
sociales no estrictamente econmicos.
Seleccin de las variables explicativas ms importantes, la
cual se realiza a travs del anlisis de los antecedentes
econmicos.
Empleando
las
teoras
econmicas,
podemos
encontrar aquellas variables que a nivel general influyen de
una manera importante sobre la variable endgena.
Anlisis de los antecedentes economtricos: Bsqueda de
modelos similares a la materia objeto de anlisis en libros y
revistas
sobre
econometra.
Propio
conocimiento
del
investigador.
Bsqueda y depuracin de datos. Es necesaria la obtencin de
datos suficientes, homogneos y actualizados.
Estimacin: Consiste en el clculo del valor de los
parmetros a travs de la ayuda de un programa informtico
(SPSS, Eviews, RATS)
Y = o+
1X1+
2X2+U
^Y = ^
o+^
1X1+^
2X2
En la expresin estimada no existe el componente de la
perturbacin aleatoria, ya que una vez que estimamos el valor
de la endgena estimado se convierte en una combinacin
lineal exacta de las variables explicativas que he utilizado
al realizar la estimacin. La estimacin de la perturbacin
aleatoria ser el error que cometo con mi modelo al estimar,
que incluir precisamente las variables que dejo fuera de la
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

30

explicacin (aquellas que tienen poca importancia sobre la


variable que trato de analizar).
Validacin: A travs de la interpretacin de los resultados
analizaremos la bondad del modelo. De tal manera que si el
modelo no es bueno para explicar a la variable endgena
deberemos perfeccionarlo a travs de:
Una re-especificacin de las variables explicativas, es
decir, es posible que haya olvidado incluir alguna
variable importante por lo cual el modelo me est dando
un grado de error elevado.
Una nueva bsqueda de los datos utilizados, ya que si no
son los correctos pueden estar aadiendo un componente
errtico a la estimacin.
Esta tarea puede repetirse en la prctica un nmero
elevado de veces.
Utilizacin: Para realizar:
Anlisis estructural: cuantificar las relaciones entre las X
y la Y.
Prediccin: anticipar los valores a futuro de la Y
Simulacin: efectos sobre Y de distintas estrategias de las
X.

Tipologa de variables y datos en la modelacin


economtrica
Se entiende por variable al concepto econmico que queremos
analizar.
Normalmente utilizaremos variables cuantitativas, es decir,
aquellas cuyos valores vienen expresados de forma numrica
(escalares).
Sin embargo, tambin existe la posibilidad de incluir en el
modelo economtrico informacin cualitativa, siempre que la
informacin
cualitativa
pueda
expresarse
de
forma
cuantitativa. Dentro de este tipo de variables conviene
conocer las siguientes posibilidades que se le pueden
presentar al econmetra:
Variables proxies: Son variables aproximadas a la
variables objeto de anlisis. Por ejemplo, si quiero
utilizar una variable que mida el nivel cultural de un
pas (variable cualitativa) puedo utilizar como variable
proxy el nmero de bibliotecas existentes en un pas,
que si bien no recoge el concepto exacto que yo quiero
medir, si se aproxima al mismo.
Variables ficticias o dummy: Estas variables toman
nicamente (en principio) dos valores arbitrarios segn
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

31

se de o no cierta cualidad en un fenmeno. Habitualmente


a la variable ficticia se le asigna el valor 1 si ocurre
un determinado fenmeno y 0 en caso contrario. Estas
variables pueden ser de dos tipos:
Ficticia de intervalo: Por ejemplo si estoy analizando
la variable exportaciones en Colombia desde 1970 hasta
el ao 2000, hay un hecho importante que es la cada de
la banda cambiaria que debo recoger a travs de la
utilizacin de la variable ficticia.
Ficticia de escaln: Por ejemplo si est analizando el
crecimiento econmico de un pas en el que en un ao
determinado hubo un acontecimiento meteorolgico que
tuvo una repercusin negativa sobre la economa, al
tratarse ste un dato casual (y no equilibrado con el
resto de valores que toma la serie) debo introducir en
el modelo este tipo de informacin para que la tenga en
cuenta en la estimacin y cometa un menor error.
Las variables ficticias se pueden incluir tanto en
modelos temporales como en modelos de corte transversal.
Por ejemplo, si analizamos la venta de coches a nivel
provincial, podemos incluir una variable ficticia que
valga 0 cuando la provincia no tiene metro y 1 cuando si
que lo tiene.
Variables definidas por su pertenencia o no a un grupo:
Si tenemos una variable cualitativa que nos define la
pertenencia o no de un pas a un grupo (por ejemplo
renta alta, media y baja) podremos introducir esta
variable cualitativa en el modelo codificndola, es
decir expresando sus valores en nmeros de tal forma que
podemos asociar cada nivel de renta con un valor
numrico arbitrario (por ejemplo 1: renta baja; 2: renta
media; y 3: renta alta).
Se entiende por datos, los diferentes valores que toma una
variable.
Los datos pueden corresponder a los valores de una variable
en el tiempo (serie temporal), o a valores para diferentes
sujetos en un momento dado (datos de corte transversal).
Por otro lado, las formas alternativas en que un modelo puede
venir expresado, obliga frecuentemente a transformaciones de
los datos originales (tasas de crecimiento, diferencias,
logaritmos) o incluso a un cierto tratamiento previo de los
mismos (eliminacin de tendencia,
eliminacin de estacionalidad, etc...)

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

32

Con la informacin disponible, el econmetra deber elaborar


una base de datos de tal manera que:
Individuos Variable 1
Aos
Variable 2
Variable 3
Individuos
1990
1991
.
2000

1
2
.
N

Datos
Datos
Datos
Datos

Datos
Datos
Datos
Datos

Datos
Datos
Datos
Datos

Los datos que formen la base de datos han de ser:


Suficientes:
Como
mnimo
para
poder
realizar
la
estimacin, el nmero de observaciones debe ser igual al
nmero de parmetros que queremos estimar. Sin embargo
si no se cumplen unos requisitos mnimos, aunque
tericamente se puede realizar la estimacin, sta no
ser
fiable.
Esos
requisitos
mnimos
requieren
aproximadamente para un modelo en el que se incluyen
cuatro variables explicativas 20 observaciones.
Homogneos: Los datos deben estar expresados de una
forma homognea, esto quiere decir que todos deben ir en
niveles o en tasas de variacin o en logaritmos. Adems,
cuando trabajemos con variables en precios constantes
todos deben referirse al mismo ao base. La homogeneidad
de las variables tambin hace referencia al hecho de que
todas deben o no ir corregidas de determinados efectos
que se dan en la economa como la tendencia o la
estacionalidad.
Con
todos
estos
procesos
nos
aseguraremos una mayor fiabilidad y coherencia en la
estimacin del modelo.
Actuales: La falta de actualidad en los datos impide
realizar un anlisis completo del fenmeno econmico, ya
que ste se referir nicamente al periodo muestral
utilizado en la estimacin.
REGRESIN LINEAL SIMPLE
En este apartado de la investigacin, presentaremos el caso
en el que el valor medio de una variable Y se relaciona con
otra variable X., esto es, con observaciones simultneas
acerca de Y y de X, utilizar la informacin de las mediciones
de X para estimar el valor medio de Y, predecir valores
particulares de Y para valores asignados de X. Esta relacin
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

33

se puede representar por medio de un modelo matemtico que


exprese la relacin funcional entre Y y X, dada por Y= f (X)
.
Ejemplos donde se est interesado en desarrollar un modelo
para expresar la relacin entre dos variables son:
1) Un gerente de ventas puede estar interesado en relacionar
la cantidad demandada de un bien producido (Y) con el precio
del mismo (X).
2) El gerente de produccin de una planta puede estar
interesado en relacionar los costos de produccin de un
producto (Y) con la cantidad producida (X).
En muchas situaciones prcticas una variable Y puede estar
relacionada con una o ms variables predictoras Xs, como por
ejemplo:
3) Un ingeniero qumico puede estar interesado en la cantidad
de hidrgeno que se pierde
de la muestra de un metal en
particular cuando se almacena. En este caso puede haber dos
datos, el tiempo de almacenamiento en horas (X1), y la
temperatura de almacenamiento en grados centgrados (X2).
4) El gerente de una planta manufacturera podra querer
relacionar la produccin de un producto (Y) con cierto nmero
de variables del proceso de elaboracin (Xs).
Algunas causas por las que investigadores o economistas,
entre otros, necesitan especificar una relacin entre dos o
ms variables podran ser:
1) Predecir Y a partir de un conjunto de observaciones dadas
de X
2) Determinar el efecto de la variable independiente X sobre
la variable dependiente Y
3) Confirmar, rechazar o sugerir relaciones tericas.
Recordemos que el trmino modelo de regresin se utiliza
para describir cualquier tipo de modelo cuyos parmetros son
estimados a partir de un conjunto de datos. Estos modelos
tienen una gran variedad de formas y grados de complejidad.
La relacin ms simple que se puede pensar para relacionar
estas variables es la relacin lineal. En el caso de tener
una sola variable predictora el modelo se denomina de
regresin lineal simple y esta dado por Y = + X, donde y
son parmetros desconocidos que indican la ordenada al
origen y la pendiente. En el caso de tener ms variables
predictoras el modelo se denomina modelo de regresin
mltiple y est dado por Y = 0+
1X1++
pXp.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

34

MODELO DE REGRESIN LINEAL SIMPLE:


Adaptado de:

www.uesiglo21.edu.ar/pdfs%20dpto%20economia/
microeconomia_Mirta_Santana/UNIDAD06.pdf

Supngase que en una ciudad determinada se quiere desarrollar


un modelo para predecir el precio de venta de las casas de
esa ciudad, en base al valor estimado de la misma.
En este caso la variable a predecir o independiente Y estra
dada por el Precio de Venta, y la variable predictora o
dependiente X sera el Valor estimado. Para encontrar el
modelo se
toma una muestra de 30 casas de esa ciudad y se
registran el precio de venta y el valor estimado para cada
una de ellas:
OBSERVACIN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

VALOR
ESTIMADO
78.17
80.24
74.03
86.31
75.22
65.54
72.43
85.61
60.8
81.88
79.11
59.93
75.27
85.88
76.64

PRECIO DE
VENTA
94.1
101.9
88.65
115.5
87.5
72
91.5
113.9
69.34
96.9
96
61.9
93
109.5
93.75

OBSERVACIN
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

VALOR
ESTIMADO
84.36
72.94
86.5
66.28
79.74
72.78
77.9
74.31
79.85
84.76
81.61
94.92
79.82
77.96
79.07

PRECIO DE
VENTA
106.7
81.5
94.5
69
96.9
86.5
97.9
83
97.3
100.8
97.9
90.5
97
92
95.9

Con los datos se realiza un diagrama de dispersin (abajo) en


donde se observa que a mayor valor estimado de ventas mayor
es el precio que se vende la casa, por lo que podramos
pensar en un modelo lineal.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

35

Diagrama de dispersin de los valores estimados de venta y


los precios de venta de 30 casas de una localidad.
Los valores de la muestra se pueden representar como ((xj, yj)
j=1,2,..,30), en donde xj representa el valor estimado de la
casa j e yj el precio de venta de la casa j. No se espera que
todas las casas con un valor estimado dado se vendan al mismo
precio, unas sern vendidas a un precio ms alto otras a uno
ms bajo. Esto es, si se tomaran muestras adicionales para
los mismos valores de X se esperara que los valores de Y
varen, es decir, el valor de yj en el par (xj, yj), es un
valor de alguna variable aleatoria Yj . Por conveniencia se
define Y/x como la variable aleatoria Y correspondiente al
valor fijo x. Su media y su varianza estn dados por Y/x y
2Y/x respectivamente. Si X=xj , entonces Y /xi representa la
variable Yi con media Y/xi y varianza 2Y/xi.
Si se piensa en un modelo lineal de la forma
+ X , se
espera que los valores observados estn agrupados alrededor
de esa lnea. Dependiendo de cuan disperso estn los datos
respecto de la media podramos decidir si el modelo planteado
es el adecuado.
El trmino regresin lineal implica que Y/x est linealmente
relacionada con X por la ecuacin de regresin lineal
poblacional

Donde
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

36

Y : variable aleatoria independiente y observable


X : variable no aleatoria dependiente y observable.
Tambin conocida como variable predictora
E: error o perturbacin aleatoria
y son parmetros que deben estimarse a partir de los
datos
Si (xj, yj) con j= 1,2,.,n observaciones de las variables X
e Y
yj= + xj+ j se satisface para cada observacin.
Si y son las estimaciones de y , entonces
modelo de regresin lineal simple estimado.
La estimacin del error est dada por
, se llama
residuo y describe el error del ajuste del modelo en el punto
i de datos.
Supuestos bsicos para el modelo de regresin lineal simple:

El modelo de regresin lineal simple tiene supuestos bsicos


que deben ser verificados, para asegurar que el mecanismo de
obtencin de las estimaciones de los parmetros sea adecuada.
Estos supuestos bsicos estn dados por:

Este supuesto se conoce


con
el
nombre
de
Homocedasticidad.

Consecuencias:

Bajo estos supuestos se tiene que:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

37

Los parmetros del modelo son , , u2, y son desconocidos y


por lo tanto hay que estimarlos. En las secciones siguientes
se presentarn primero una estimacin puntual de los
parmetros, luego una por intervalos de confianza y
finalmente se desarrollar el mtodo de tests de hiptesis.

Estimacin puntual de los parmetros


Hay diferentes mtodos de estimacin puntual; el adoptado
depender de los supuestos que se establezcan a cerca de los
residuos ei. Se busca que la recta de regresin est lo ms
prxima a la nube de puntos representada en un grfico de
dispersin, definiendo lo que se entiende por prximo. Es
decir
especificando
si
se
minimizan
las
distancias
horizontales,
verticales, perpendiculares o la suma de las
distancias absolutas entre el valor observado y el estimado
por la recta, como se puede observar en la Figura de abajo:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

38

Presentaremos el mtodo de mnimos cuadrados y el de mxima


verosimilitud para obtener las estimaciones puntuales de los
parmetros del modelo.
Mtodo de Mnimos Cuadrados:

Es

un

mtodo

que

minimiza

la

suma

de

cuadrados

distancias verticales, es decir,


.
Este mtodo consiste en elegir ^ y ^ como

y tal que

de

las

estimadores de

sea mnima.

Derivando con respecto a los parmetros se tiene:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

39

Estas ecuaciones son conocidas como las ecuaciones normales


mnimo-cuadrticas. Resolviendo este sistema de ecuaciones,
se obtiene:

De la estimacin de se sigue que el punto


, pertenece
a la recta de regresin
estimada.
Los datos de los valores estimados de venta y los precios de
venta de 30 casas que se muestran a continuacin, fueron
procesados en SPSS obteniendo los siguientes resultados:

De donde se sigue que el valor estimado de es 36.866, y el


valor estimado de es 1.679, por lo que el modelo de
regresin
lineal
simple
estimado
est
dado
por

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

40

El diagrama de dispersin con la lnea de regresin se puede


observar en la figura siguiente:

Propiedades de los estimadores por Mnimos Cuadrados:

Los
estimadores
por
mnimos
cuadrados
tienen
ciertas
propiedades interesantes, son funciones lineales, insesgados
y de varianza mnima.
1) Son funciones lineales de las observaciones reales de Y

si

adems

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

41

Anlogamente

2) Valor esperado de los estimadores

trabajando en forma similar se tiene que

Por lo tanto los estimadores por mnimos


insesgados.
3) Varianza de los estimadores:
Para el caso del estimador de se tiene que

cuadrados

son

anlogamente para el estimador de

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

42

Los estimadores tienen la propiedad de ser ptimos, o sea,


son de varianza mnima.
Esto
puede
demostrarse
obteniendo
directamente
los
estimadores lineales insesgados ptimos y ver que coinciden
con los de mnimos cuadrados.
Bajo los tres supuestos los estimadores por mnimos cuadrados
son los mejores estimadores lineales insesgados.
Hasta ahora no se ha dicho nada respecto de la distribucin
de probabilidades de los residuos, salvo que su media es
cero, su varianza constante y sus covarianzas nulas. Si
adems se supone que los residuos tienen una distribucin
Normal, o sea,
entonces:
Podremos obtener estimadores de los parmetros por el
mtodo de mxima verosimilitud.
Podremos construir los intervalos de confianza de los
estimadores.
Podremos realizar test a cerca de los parmetros del
modelo.
Mtodo de Mxima Verosimilitud:

El mtodo de mxima verosimilitud consiste en maximizar la


funcin de verosimilitud.
Esta funcin se obtiene encontrando la distribucin conjunta
de la muestra, que en el caso de tener una muestra aleatoria
e independiente se obtiene multiplicando las distribuciones
marginales.
En el caso de regresin se busca estimar y y se tiene una
muestra aleatoria independiente y con distribucin conocida
bajo los 4 supuestos antes mencionados. Con el fin de
conseguir estos estimadores, debemos obtener la funcin de
verosimilitud
de
las
observaciones
de
la
muestra
y
maximizarlas con respecto a los parmetros desconocidos.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

43

La muestra est compuesta de las observaciones de las n


variables Y j, que se distribuyen normalmente con media + X
2
j y una varianza igual a u, adems son independientes.
Luego de hacer los respectivos pasos algebraicos la funcin L
de verosimilitud est dada por:

en donde aparecen tres parmetros desconocidos , y 2u.


derivando parcialmente respecto a ellos, igualando a cero y
simplificando se obtienen las siguientes ecuaciones:

Las dos primeras ecuaciones son las ecuaciones normales


mnimo-cuadrticas ya obtenidas. Esto significa que los
estimadores mximo-verosmiles de y son iguales a los
estimadores por mnimos cuadrados.
La tercera ecuacin da la estimacin por mxima verosimilitud
da la varianza de los residuos. Reemplazando ~
~ se
obtiene que el estimador de la varianza de los residuos est
. Este es un estimador sesgado de la
dado por
varianza. El estimador insesgado resulta de dividir la suma
de los cuadrados de los errores en (n-2) y se denota por Se2.
Concluyendo entonces, tenemos que bajo los supuestos del
modelo de regresin lineal normal, los estimadores por
mnimos cuadrados de los parmetros de regresin equivalen a
los mejores estimadores lineales insesgados y a los
estimadores por mxima verosimilitud.

Distribucin de los parmetros y estimados


UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

44

Considerando el modelo de regresin lineal simple normal, es


decir considerando los tres supuestos bsicos ms el de
normalidad, las distribuciones de los estimadores estn dadas
por :

1) Cuanto mayor sea la varianza de los errores, sern mayores


las varianzas de los estimadores.
2) Cuanto mayor sea la dispersin de los valores de la
variables explicativa X, menores sern las varianzas de los
estimadores.
3) Si todos los valores de X fuesen iguales ambas varianzas
seran infinitas.
4) La varianza del estimador de es mnimo cuando la media
de la variable explicativa es cero.
Los estimadores de las varianzas estn dados por:

donde

es la estimacin de la varianza de los errores.

Intervalos de confianza para los parmetros


En la construccin de los intervalos de confianza vamos a
considerar dos casos: uno donde la varianza de los errores es
desconocida y otro donde es conocida. Aqu se considera el
modelo de regresin lineal simple normal.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

45

Caso donde la varianza de los errores es desconocida:

Ya sabemos que la distribucin de los estimadores es Normal


con media constante y varianza finita, por lo tanto la forma
estandarizada se distribuye como normal con media 0 y
varianza 1, esto es:

Por otra parte los errores tienen una distribucin normal y


por lo tanto elevados al cuadrado tienen una distribucin
chi- cuadrado, dada por:

se puede mostrar que

tienen una distribucin chi-cuadrado. Como el cociente de una


normal estndar sobre una chi-cuadrado es una t, se tiene que

De

una

manera

As, se pueden
probabilsticas

similar

efectuar

se obtiene:

las

siguientes

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

especificaciones

46

En donde los ts indican los valores del estadstico t con


(n-2) grados de libertad que delimita /2 del rea de la
distribucin t en cada extremo.
A partir de estas afirmaciones se pueden construir los
intervalos de confianza para los estimadores . Estos estn
dados por:

La probabilidad de que el intervalo de confianza as


especificado incluya el verdadero valor del parmetro de
regresin es (1-), y recibe el nombre de nivel de confianza.
Volviendo al ejemplo de los precios de ventas de casa se
tiene que los intervalos de confianza de las estimaciones de
y estn dados por:

Caso en el que la varianza de los errores es conocida:

El procedimiento es el mismo solo que se trabaja con las


varianzas conocidas y por lo tanto no se utiliza la
distribucin t de student sino la distribucin Normal.
Los intervalos vienen dados por:

Prediccin de un valor de Y para un valor dado de X


La ecuacin de regresin estimada
, basada en los
datos observados, se utiliza para predecir el valor de y para
valores determinados de x. En el caso del ejemplo, podramos
estar interesados en predecir un valor de venta de una casa
determinada basada en el valor estimado de la misma. Es decir
queremos utilizar la ecuacin de prediccin, obtenida a
partir de las 30 mediciones en la tabla antes vista, para
predecir el precio de venta de una nueva casa seleccionada de
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

47

la poblacin. Si el valor estimado de esta nueva casa es x0,


entonces se predice el precio correspondiente de venta yo por
medio de:

El verdadero valor de y0 est dado por


donde e0 es el trmino de error. Por lo tanto el error de la
prediccin es

Tomando esperanza en ambos miembros de esta ecuacin , y por


las propiedades de los estimadores de los parmetros se
obtiene
que
, con lo que el estimador de la
prediccin es insesgado.
La varianza del error de la prediccin est dada por:

La varianza es mayor cuando el valor de x0 se aleja de la


media de las n observaciones de X.
Cuando n es muy grande, el segundo y el tercer trmino de la
expresin entre corchetes son pequeos y la varianza del
error de la prediccin se acercar a 2 . Podemos utilizar
estos resultados para establecer un intervalo de confianza de
la prediccin de y0 para un valor dado de x0. El intervalo de
prediccin del 100(1-)% estar dado por:

donde t /2 proviene de una distribucin t con (n-2) grados de


libertad..
Prediccin de un valor esperado

Un problema prctico muy importante puede ser encontrar la


estimacin del valor medio de y para un valor dado de x. Si
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

48

la ganancia de una corporacin, y, est relacionada


linealmente con los gastos de la publicidad, x, la
corporacin deseara estimar la ganancia media para un gasto
dado. De igual forma, en el ejemplo de las casas, se deseara
estimar el precio de venta promedio de una casa para un valor
estimado determinado.
En este caso tenemos que dado x0 el inters se centra en
predecir E(y0) y no y0.
La

estimacin

estar

de

dada

por

que
es
igual
a
y0
que
consideramos
anteriormente. Aunque la prediccin es la misma, el error de
la prediccin no es el mismo, como as tampoco la varianza.
El error de la prediccin en este caso est dado por

idntico al de
varianza est dada por

pero sin el trmino de error. La

Si la varianza de los errores no es conocida, entonces se


estima por S2.
Un intervalo del 100(1-)% de confianza para la prediccin
del valor esperado est dado por:

donde nuevamente t /2 proviene de una distribucin t con (n2) grados de libertad. Obsrvese que el ancho del intervalo
de confianza de E(y/x=x0) es menor que el ancho del intervalo
de prediccin de y0.
Nota: El trmino E(y/x) es una media, un parmetro de una
poblacin de valores y, y y es una variable aleatoria que
oscila alrededor de E(y/x) . El valor medio de y cuando x=x0
es muy diferente de un valor de y escogido al azar del
conjunto de todos los valores y para los cuales x=x0. Siempre
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

49

se estima el valor de un parmetro y se predice el valor de


una variable
aleatoria.

Descomposicin de la variacin muestral de Y:


En esta parte de la investigacin, se presentarn dos medidas
de bondad del ajuste, el error estndar del estimador y el
coeficiente de determinacin. El estudio de estas medidas es
ms fcil si se piensa que la variacin del anlisis de
regresin est compuesta por dos componentes de variabilidad,
uno conocido como la variabilidad explicada por la regresin
y el otro por la variabilidad no explicada.
En la figura abajo se puede observar que la diferencia entre
y
conocida como la desviacin total, se puede escribir
llamada desviacin no explicada;

como la suma de

llamada desviacin explicada.

Resumiendo se tiene que:


O lo que es lo mismo
**
Ya que los dos trminos de la ecuacin ** son independientes
se sigue que:

El primer miembro de esta relacin se llama variacin total o


suma total de cuadrados (STC). El primer trmino de la
derecha es la variacin explicada o suma de cuadrados de la
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

50

regresin (SCR); y el ltimo trmino es la variacin


explicada o la suma de cuadrados de los errores (SCE).
La ventaja de descomponer la variacin total
componentes es que se puede hablar de la bondad
trminos de la magnitud SCE. Por ejemplo, si
ajusta perfectamente a los datos se tendr que
lo general cuando el ajuste de la
recta no es perfecto SCE0.

no

en estas dos
del ajuste en
la recta se
SCE=0, y por

Error estndar de la estimacin:

Es una de las medidas ms tiles del anlisis de regresin y


est definido por:

El estadstico muestral Se es la desviacin de los errores ei


respecto de la regresin muestral. El cuadrado de Se es una
estimador insesgado de la varianza de los errores respecto de
la regresin poblacional.
El valor del error estndar puede interpretarse de manera
anloga a la interpretacin del desvo estndar de los
valores de una variable con respecto a su media. Es decir,
admitiendo los supuestos bsicos ms el de normalidad,
aproximadamente el 68% de las observaciones estarn dentro de
1Se unidades respecto a la recta de regresin, 95% estarn
dentro de 2Se
unidades, y 99% estarn dentro de 3Se
unidades.
Coeficiente de determinacin

La segunda medida de la bondad del ajuste que sirve para


interpretar la cantidad relativa de la variacin que ha sido
explicada por la recta de regresin muestral, se conoce con
el nombre de coeficiente de determinacin y se representa por
r2. Es la proporcin de la varianza de Y que puede atribuirse
a la variacin de X.

o bien
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

51

r2 es una medida que se utiliza corrientemente para


describir hasta que punto la recta de regresin de la
muestra se ajusta a los datos observados.
r2 no puede ser negativo ni mayor que uno, es decir 0
r2 1
r2 = 0 ocurre cuando la suma de los cuadrados de los
errores es igual a la suma total de cuadrados, es decir
cuando la lnea de regresin es la media de la variable
Y, y la variacin explicada es nula. Esto significa que
ninguna parte de la variacin de Y esta explicada por la
variacin en X
r2 = 1ocurre cuando la suma de los cuadrados de los
errores es cero, o sea cuando cada uno de los errores es
cero, de forma que los puntos en un diagrama de
dispersin se encuntran sobre una lne recta. Es decir
si la lnea de regresin se ajusta perfectamente a todos
los puntos muestrales.
valores bajos de r2 pueden deberse a que X es una
variable explicativa deficiente en el sentido de que su
variacin no afecta a la variable Y; o que aunque X es
la variable explicativa relevante su influencia sobre Y
es dbil comparada con la influencia de los errores; o
que la ecuacin de regresin est mal especificada.
Correlacin

En el apartado anterior presentamos la bondad relativa de la


bondad del ajuste r 2 en relacin con la regresin entre Y y
X. La fuerza de la relacin lineal entre las variables se
puede medir sin estimar la recta de regresin poblacional.
Esto es la suma de los productos de las
desviaciones
respecto
de
sus
medias,
es
decir
. Esta medida por lo general no es un buen
indicador de la fuerza relativa de la relacin entre dos
variables, ya que, por un lado se puede incrementar su valor
arbitrariamente aadiendo nuevas observaciones, y por otro
lado resulta influenciada por las unidades de medidas de las
variables. Por consiguiente se define una medida corregida ,
estandarizada, dada por:
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

52

que es el coeficiente de correlacin de Pearson y mide el


grado de asociacin (lineal).
En la primera figura del grfico de la parte inferior,
podemos observar que cuando aumenta el valor de X, tambin
aumenta el valor de Y, mientras que en la figura 2 cuando
aumenta el valor de X, disminuye el de Y. En el primer caso
se dice que hay una correlacin o asociacin positiva y en el
segundo una correlacin o asociacin negativa. Las tres
ltimas figuras muestran casos de ausencia de correlacin,
donde un aumento o disminucin de X no implica un aumento o
disminucin de Y.

Los posibles valores de r oscilan entre 1 y +1, en donde +1


corresponde
a
una
correlacin
positiva
perfecta
y
grficamente corresponde a que todas las observaciones se
encuentran sobre una lnea recta como el grfico 1 de la
Figura a continuacin. Un valor r = -1 corresponde a una
correlacin negativa perfecta y grficamente corresponde a
que todas las observaciones se encuentran sobre una lnea
recta como el grfico 2 de la misma figura.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

53

**Ejemplos de diagramas de dispersin que muestran una correlacin lineal


perfecta.

Una correlacin de 0 (o sea r = 0) significa que no hay


relacin lineal entre las dos variables. Existe una
correspondencia entre la cifra del coeficiente de correlacin
y cun dispersas estn o no las observaciones alrededor de
una lnea recta. Cuando la correlacin se aproxima a 0, la
forma del grfico de dispersin es ms o menos circular, como
se observa en el grfico 3 de la figura inmediatamente
despus a la anterior o tiene la forma de los grfico 4 y 5
de la misma figura. Otra situacin en donde el coeficiente de
correlacin es cero o cercano a cero, es cuando las variables
estn relacionadas pero no de forma lineal sino cuadrtica
como el caso de la figura siguiente, o cbica entre otras.

Conforme el valor de la relacin se aproxima a +1 o 1, la


forma se vuelve ms elptica como los grficos 1 y 2 de la
Figura 3 hacia atrs, hasta que, en +1 o 1, las
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

54

observaciones quedan directamente sobre la lnea recta


(Figura 2 hacia atrs).
Con respecto al ejemplo de las casas se tiene que:
El coeficiente de correlacin de Pearson r=0.938, lo que
indica que el precio de venta de las casas esta
fuertemente asociado y de forma lineal con el valor de
estimacin de las mismas.
El coeficiente de determinacin es r2= 0.88 lo que dice
que el 88% de la variacin que hay en los precios de
venta de las casas esta explicada por la variacin en
los valores estimados de las mismas.

Test de hiptesis acerca de los parmetros


En las secciones anteriores presentamos una forma de estimar
la mejor recta de regresin que expresa la relacin ente Y y
X, y discutimos las medidas de la fuerza de la relacin
lineal.
No
hemos
presentado,
sin
embargo,
ninguna
regla
o
procedimiento para determinar si el conocimiento de la
variable independiente X resulta til para predecir los
valores de Y. Si se supone que =0, entonces la regresin
estimada es una constante y por lo tanto los valores de X no
sirven para predecir Y. Si no es 0 todos los valores de X
son necesarios para la prediccin de Y.
Test acerca de la pendiente

Bajo los supuestos del modelo de regresin lineal Normal, la


relacin entre X e Y viene dada por la dependencia lineal del
valor medio de Yj respecto de Xj, es decir por
.
Por lo tanto la afirmacin de que no existe una relacin
entre estas variables debe interpretarse en el sentido de que
el valor esperado de Yj no es linealmente dependiente de Xj
Pero esto es lo mismo que decir que = 0
La hiptesis nula a testar es:

Para contrastar H0 se usa la prueba t. Es muy parecida a la de


la media poblacional, puesto que en este caso el test
contrasta tambin una media (). El estadstico de prueba se
puede obtener de los estimadores por mnimos cuadrados, que
bajo los supuestos poseen todas las propiedades ptimas.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

55

Caso de varianza conocida:

El estadstico de prueba est dado por

y que

que sigue distribuyendo Normal con


bajo Ho
es
media cero y varianza 1.
La regin de rechazo est dada por

Caso en que la varianza es desconocida:

En

este

caso

el

estadstico

de

prueba

est

dado

por

Bajo Ho el estadstico tiene la forma


La regin de rechazo est dada por

Las regiones de rechazo de los test estn presentadas en


trminos de los puntos crticos, los que deben ser comparados
con los valores de tabla. En muchos casos, el software en sus
salidas entrega los valores de p value, por lo que es ms
fcil comparar los resultados. En esta investigacin, SPSS
nos brindar las herramientas necesarias para la estimacin.
En el caso del ejemplo se tiene que los valores de los
parmetros son significativamente diferentes de 0 ya que el
p-value asociado a cada uno de ellos es p<0.0001.
Prueba F

Existe otra forma de testar la hiptesis de que el parmetro


de linealidad es cero en la recta de regresin, utilizando
una metodologa que involucra las medidas de variacin ya
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

56

planteadas aqu, es decir, la variacin explicada por la


regresin y la no explicada por la regresin.
Recordemos que la variacin total estaba relacionada con la
variacin explicada y no explicada por SCT=SCE+SCR. Si la
hiptesis nula es cierta entonces la variacin de Y entre una
observacin y otra no se ver afectada por los cambios en X,
esto es SCR sera cero en la poblacin, es decir:

Adems esto
si no hay
distinto de
Como bajo
normal, el

significa que STC y SCE son iguales. Por lo tanto


una relacin lineal entre X e Y SCR/SCE sera
cero solamente a consecuencia del muestreo.
los supuestos del modelo de regresin lineal
parmetro de linealidad tiene una distribucin

normal, puede demostrarse que


es el cociente de
dos variables independientes chi-cuadrados, cada una de las
cuales est dividida por sus grados de libertad y por
consiguiente

tiene una distribucin F con 1 y n-2 grados de libertad.


La regin de rechazo est dada por

Esta contrastacin y la proporcionada por la distribucin t


son equivalentes en el sentido en que ambas dan la misma
respuesta siempre que el nivel de significacin y los datos
muestrales sean los mismos.
REGRESIN LINEAL MULTIPLE
En la seccin anterior se plantearon los conceptos de
regresin lineal simple y correlacin, con el fin de estimar
el valor medio de y, o predecir un valor de y utilizando la
informacin contenida en una variable independiente o
predictora x. En esta seccin extenderemos esta idea al caso
en
que
existan
ms
de
una
variable
predictora,
y
presentaremos los conceptos de regresin lineal mltiple cuyo
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

57

objetivo es estimar el valor medio de y y/o predecir valores


particulares de y, basado en la informacin de k variables
independientes o predictoras xs.
Supongamos que se desea relacionar el consumo percpita de
alimentos (y) con el precio de los alimentos (x1) y el
ingreso de los consumidores (x2). As se utilizaran la
informacin obtenida a partir de y, x1, y x2 para obtener la
ecuacin de prediccin, la que a su vez, sera utilizada para
pronosticar el consumo percpita de alimentos, segn un
precio determinado de los alimentos y segn un ingreso de
consumidores determinado.

Planteamiento del modelo


En muchas aplicaciones prcticas generalmente existe ms de
una
variable
independiente
que
ayude
a
explicar
la
variabilidad de una variable dependiente considerada de
inters. Esto es, suponiendo que tenemos k variables
independientes o explicativas, y que el modelo poblacional
que relaciona esta variables est dado por el modelo de
regresin lineal poblacional siguiente:

donde
i: indica uno de los valores de la poblacin para
variable
: es la ordenada al origen
j: es la pendiente de la relacin lineal entre y y xj
j: trmino de error
Los supuestos del modelo estn dados por :

cada

Los cuatro primeros supuestos son necesarios para demostrar


que el mtodo de mnimos cuadrados proporciona estimadores de
los parmetros del modelo insesgados y de varianza mnima
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

58

dentro de la clase de estimadores lineales insesgados. El


supuesto nmero cinco es necesario para realizar pruebas de
significancia y para construir los intervalos de confianza de
los parmetros.
En el modelo de regresin mltiple, adems de los cinco
supuestos ya expuestos, se deben cumplir dos condiciones ms
para obtener los estimadores por mnimos cuadrados, a saber:
Condicin 1: ninguna de las variables independientes es
combinacin lineal exacta de las otras. Esto es, supngase
que se tiene:
**

y que 3x1 + x2=9 de donde x2=9-x1 reemplazando en ** se tiene


que

y por lo tanto se estima


parmetros por separado.

y no los

Condicin 2: El nmero de observaciones (n) debe exceder por


lo menos en dos al numero (k) de variables independientes, es
decir se debe cumplir que n k + 2.
Al igual que en el caso de regresin lineal simple, la media
poblacional de la variable dependiente est dada por la
ecuacin de regresin lineal mltiple poblacional siguiente:

Los coeficientes se llaman coeficientes de regresin parcial,


e
indican
la
influencia
parcial
de
cada
variable
independiente sobre y, cuando se mantiene constante la
influencia de las otras variables independientes.
Para estimar los parmetros del modelo de regresin lineal
poblacional, se utiliza la informacin de una muestra de n
observaciones de las k variables independientes y de y. Se
quiere encontrar la recta de regresin mltiple muestral que
ajuste mejor a esos datos, y usar los coeficientes de esa
ecuacin como estimadores de los parmetros de la lnea de
regresin mltiple poblacional.

Estimaciones por Mnimos Cuadrados


UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

59

Las estimaciones por mnimos cuadrados se obtienen, al igual


que en regresin lineal simple, minimizando la suma de los
cuadrados de los errores, es decir se busca encontrar los
estimadores
de
y
i
con
i
=1,2,...,
k tal
que

sea mnima.
El procedimiento es el mismo que el planteado en el caso de
la regresin lineal simple, slo que aqu se obtiene un
conjunto de (k+1) ecuaciones normales, que se resuelven
simultneamente para obtener las (k+1) estimaciones. La
resolucin de estas ecuaciones no es particularmente difcil
pero requiere de muchas operaciones matemticas que no sern
desarrolladas en este mdulo. En la prctica se emplean
programas computacionales para obtener estas estimaciones.
En el caso de dos variables predictoras 2 1 x y x los
estimadores por mnimos cuadrados del modelo de regresin
lineal mltiple
estn dadas por

donde

Ejemplo: Supongamos
que estamos interesados en explicar o
predecir los cambios en los niveles de inversin conjunta de
un grupo de empresas. Las variables a considerar son X1:
ndice de precio de 500 acciones de las empresas, y X2: es la
utilidad retenida de las empresas (en miles de millones).
Estamos interesados en relacionar el ndice de precios de las
500 acciones y el nivel de inversiones de un trimestre con la
inversin en el trimestre siguiente. El modelo que se plantea
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

60

es
tabla:
INVERSIN
62.3
71.3
70.3
68.5
57.3
68.8
72.2
76
64.3
77.9

y los datos estn en la siguiente

INDICE
398.4
452.6
509.8
485.4
445.7
539.8
662.8
620
632.2
703

NIVEL
16.2
17.4
14.8
14.6
8.2
14.9
15.1
14.3
10.9
16

INVERSION
84.3
85.1
90.8
97.9
108.7
122.4
114
123
126.2
137

INDICE
581.8
707.1
776.6
875.3
873.4
943.7
830.6
907.5
905.3
927.4

NIVEL
16.2
16.4
20.4
20.5
26.1
29
24.6
27.8
23.3
21.6

Procesamos los datos en SPSS, realizando primero una


regresin simple entre los valores de la inversin y la
variable X1, los resultados estn en el siguiente cuadro:

En este caso el valor estimado de la pendiente es 0,123 y el


valor de la variacin no explicada en este caso dio de 1901.
Cuando se introduce en el modelo la variable X2 los resultados
cambian como se observa en el cuadro siguiente:

En esta tabla se puede observar que el valor del coeficiente


de la variable ndice cambio de 0,123 a 0,0786. Esto es un
cambio de 10 puntos en el ndice de precios de las acciones
en el trimestre anterior esta ahora asociado con un
incremento anual de la inversin de solo $0,79 miles de
millones, en vez de un incremento de $1,23 miles de millones.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

61

Este coeficiente mide el efecto parcial que los cambios en


los precios de las acciones en el ltimo trimestre tienen
sobre la inversin, considerando que se hubiese mantenido
constante la utilidad retenida en el trimestre anterior.
De igual modo el valor del coeficiente de la variable
utilidad, 1,798, representa la influencia parcial de las
utilidades retenidas sobre la inversin, cuando se mantiene
constante el ndice de precios de las acciones.
En este caso la variabilidad no explicada result 1264.
Por consiguiente cuando se introducen variables en los
modelos se producen cambios en los coeficientes de las
variables previamente incluidas, queda explicada una mayor
parte de la variabilidad de y, y adems los valores de los
estadsticos t y F tambin cambian.

Medidas de Bondad del Ajuste:


Al igual que en regresin simple aqu se necesita medidas que
indiquen hasta que punto se ajusta la ecuacin de regresin
mltiple a los datos observados. Se presentarn el error
estndar de la estimacin, coeficiente de determinacin
correlacin y de mltiple y parciales.
Error estndar de la estimacin:

El error estndar de la estimacin para la regresin mltiple


est definido por:

Coeficiente de determinacin mltiple:

El coeficiente de determinacin mltiple R2 es el cociente de


la variacin explicada por la regresin respecto de la
variacin total. Se acostumbra usar como notacin para este
coeficiente la siguiente
, donde la variable
dependiente aparece antes del punto y las k independientes
despus de l.

Indica la proporcin de la variacin total en y que ha sido


explicada por la ecuacin de regresin.
Coeficiente de correlacin mltiple:
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

62

Este coeficiente mide el grado de asociacin entre una


variable y y un grupo de variables x1,x2,.......xk , y puede
interpretarse del mismo modo que el coeficiente r ya que r no
es otra cosa que el coeficiente de correlacin simple entre
los valores muestrales de y y las estimaciones de estos
valores proporcionados por la ecuacin de regresin mltiple.
El coeficiente R no toma valores menores que cero.
Los valores de estas medidas de bondad del ajuste para el
ejemplo estn dadas en el siguiente cuadro:

El error estndar en este caso es de $8,68 miles de millones,


que comparado con el encontrado en la regresin simple en
donde no se incluye la utilidad, es menor ya que en ese caso
el error estndar era de $10,3 millones. (este valor se
obtiene de la salida del programa SPSS, esto puede ser
verificado).
Por su parte el coeficiente de determinacin mltiple result
dar 0,89, lo que significa que el 89% de variacin en la
inversin esta explicada por la relacin lineal entre la
inversin, los precios de las acciones y las utilidades
retenidas. El valor de este coeficiente en el caso de la
regresin simple fue de 0,835, por lo que la inclusin de la
variable utilidad nos permite explicar un 5,5% ms de la
variabilidad de las inversiones.
No debemos confundirnos en el hecho de pensar que la variable
ndice sea mejor predictora que la variable utilidad ya que
si se hubiese realizado la regresin simple con la variable
utilidad esta explicara ms la variabilidad de las
inversiones que el ndice.
Coeficiente de correlacin parcial:

El grado de asociacin entre y y una variable explicativa,


eliminando el efecto lineal de todas las otras variables
explicativas est dado por el coeficiente de correlacin
parcial. Mide la fuerza de la relacin entre y y una sola
variable independiente, considerando la cantidad en que se
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

63

reduce la variacin explicada al incluir esta variable en la


ecuacin de regresin. Esta correlacin se denota por
donde la variables antes del punto son aquellas cuya
correlacin est midindose, y la o las variables despus del
punto son aquellas cuya influencia se mantiene constante.
Como antes esta cantidad elevada la cuadrado es el
coeficiente de determinacin parcial que mide la proporcin
adicional de la variable no explicada en y que est explicada
por la variable a la que no se mantiene constante.
En el caso del ejemplo el coeficiente de correlacin parcial
entre la inversin y las utilidades retenidas, manteniendo
constantes los precios de las acciones, fue de 0,579 (Tabla
2 hacia atrs).
Considerando el caso en el que existan tres variables,
tendramos que:
mide la proporcin de la varianza de y que
explicada por xi
mide
explican

la

x1, x2 y x3

proporcin de la
en forma conjunta

varianza

de

que

son
los
coeficientes
de
determinacin
parciales
que
miden
cuanto
de
la
variabilidad de y
est explicada por x i despus de
incluir x j en la regresin.
o

son los coeficientes de


determinacin parciales que miden cuanto de la
variabilidad de y esta explicada por xi despus de
incluir xj y xr en la regresin.

Inferencia acerca de los parmetros del modelo de


regresin mltiple
En el modelo de regresin mltiple estamos interesados en
conocer si los parmetros i son significativamente diferentes
de cero. El procedimiento a utilizar es similar al de
regresin simple por medio de tests de hiptesis.
Aqu la hiptesis nula est dada por

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

64

Significa que la variable xi no tiene una relacin lineal


significativa con y cuando se mantiene constante el efecto de
las otras variables independientes.
Bajo los supuestos de que los errores son independientes e
idnticamente distribuidos con una distribucin normal con
media cero y varianza constante y finita, el estadstico del
test tiene una distribucin t de student con (n-k-1) grados
de libertad. Los programas computacionales entregan los
valores del estadstico t para cada uno de los parmetros
conjuntamente con el p-value. Sobre la base de estos valores
se toma la decisin de rechazar o no la hiptesis nula.
En nuestro ejemplo, podemos ver que los coeficientes de las
variables son significativamente diferentes de cero mientras
que las constantes no.
Al igual que en regresin lineal simple, se puede testar la
hiptesis de que todos los coeficientes sean iguales a cero,
es decir se puede testar la hiptesis nula siguiente:
Contra la alternativa de que al menos uno de los coeficientes
sea diferente de cero.
En otras palabras H0 indica que ninguna de las variables
independientes influye en y, es decir, que el modelo de
regresin planteado no es el adecuado. Rechazar la hiptesis
nula indicara que al menos uno de los parmetros es til
para explicar la variacin de y, pero no se sabe cul.
Para realizar este test usamos la metodologa del anlisis de
la varianza, ya visto en una seccin anterior. Los resultados
para nuestro ejemplo se encuentran en la siguiente tabla:

El valor de F = 68,764 es mayor que el valor crtico de tabla


con 2 y 17 grados de libertad al nivel de 1% (6,11), de modo
que se llega a la conclusin de que hay evidencia suficiente
en los datos para rechazar la hiptesis nula de que no existe
relacin lineal. Es decir que con la evidencia de estos datos
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

65

se puede decir que los precios de las acciones y la


utilidades
retenidas
tienen
una
asociacin
lineal
significativa con la inversin. Este resultado se confirma
con el valor del p-value (ltima columna de la tabla).

Prediccin
Considerando el modelo de regresin que planteamos al inicio
de esta seccin, el inters se centra en predecir el valor de
y0, en base a los valores de x10, x20,........., xk0, y por lo
tanto:

El error de prediccin estar dado por


La esperanza y la varianza de

Para

calcular

la

varianza

estn dadas por

de

necesitamos

conocer

las

varianzas y covarianzas de todos los

Incumplimiento de los supuestos


En esta seccin de la investigacin, presentaremos brevemente
los problemas que surgen cuando los supuestos del modelo de
regresin mltiple no se cumplen. Los problemas que
plantearemos
aqu
son
de
Multicolinealidad,
Heterocedasticidad,
deteccin
de
Correlacin
serial
o
Autocorrelacin de los residuos.
Multicolinealidad:

Este problema surge cuando no se cumple la condicin 1


expuesta al inicio de esta seccin, que seala que ninguna
de las variables independientes
puede ser una combinacin
lineal exacta de las otras variables independientes.
Si
las
variables
independientes
estn
perfectamente
relacionadas entre s en forma lineal, se dice que son
linealmente dependientes . En estos casos no se pueden
obtener estimaciones de los coeficientes de la ecuacin de
regresin
En la prctica rara vez se encuentran casos de dependencia
perfecta ya que los errores de muestreo y de medicin son
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

66

inevitables. Sin embargo, hablamos de un problema de


multicolinealidad cuando dos o mas variables independientes
estn altamente correlacionadas entre s, o cuando hay bajas
correlaciones de a dos pero altas entre tres o ms.
Es posible detectar estas correlaciones con el coeficiente de
correlacin mltiple pero considerando una regresin de una
de las variables independientes respecto de las otras, esto
es Ri que es el coeficiente de correlacin mltiple de xi y
las (k-1) variables independientes restantes. En consecuencia
se
pueden
determinar
k
Ri uno
para
cada
variable
independiente.
Si uno o ms de estos es aproximadamente igual al coeficiente
de correlacin mltiple
, entonces se dice que existe
un problema de multicolinealidad.
Ejemplo:
Supongamos que tenemos una regresin lineal
mltiple de k variables independientes y que el coeficiente
, queremos
de correlacin mltiple result en
corroborar que no hay efecto de multicolinealidad.
Para verificar la multicolinealidad se podran seguir los dos
pasos siguientes:
1) calcular todos los coeficientes de correlacin entre dos
variables independientes, es decir
y observar si
alguno de ellos esta prximo a 1. En este caso se encuentran
estimaciones imprecisas.
2) calcular
, y si alguna de estas correlaciones es
tan grande como 0,8, entonces hay se estara hablando de un
problema de multicolinealidad.
Los efectos de la multicolinealidad llevan a que los errores
estndares de los coeficientes sean elevados, es decir
tienden a ser mayor de lo que seran si no hubiera
multicolinealidad. Como consecuencia el valor del estadstico
t en el test de hiptesis de significacin de los i es ms
pequeo de lo que debera ser, y por lo tanto, es posible
llegar
a
la
conclusin
errnea
de
que
la
variable
independiente xi no es importante en el modelo.
Una manera de corregir la multicolinealidad es eliminando del
modelo la variable independiente que est ms seriamente
involucrada en la multicolinealidad, con el inconveniente de
que el modelo resultante no represente correctamente la
relacin poblacional de inters. Otra manera sera tratar de
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

67

reemplazar la variable multicolineal por otra menos colineal


pero sin alterar el contenido terico del modelo.
Heterocedasticidad:

Cuando el supuesto de que los errores tienen varianza


constante no se cumple, se habla de un problema de
heterocedasticidad. En este caso los estimadores por mnimos
cuadrados no son eficientes dentro de los estimadores
lineales insesgados, es decir que habr otro estimador con
menor varianza.
La heterocedasticidad significa que la varianza de los
errores no es constante, sino que cambia.
Para detectar un problema de heterocedasticidad, conviene
con
sus
realizar un grfico
de
los
errores
de
correspondientes residuos
. En el grfico siguiente
se presentan tres situaciones: En el grfico a) se tiene un
problema de varianza positiva, donde a medida que aumenta
aumenta el error. En el grfico b) se presenta un problema de
varianza variable, en donde para algunos valores de
la
varianza es pequea y para otros es grande. En el grfico c)
se observa que los residuos no varan para los distintos
, entonces se podra decir que en este caso se
valores de
cumple el supuesto de varianza constante.

Representacin de los residuos contra y estimado para detectar


heterocedasticidad.

Si pensamos que la varianza de tiene relacin con la


magnitud de alguna variable independiente particular, tal
como x j =tiempo, entonces podemos representar los errores
observados contra los valores de la variable tiempo y no
contra los valores de y estimado. En el caso de regresin
simple se utiliza el grfico de los valores de los residuos o
los residuos estandarizados (eje vertical), contra los
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

68

valores de la varible predictora (eje horizontal) y observar


si hay diferencias importantes en la variabilidad de los
residuos para diferentes valores de X. Se espera que los
residuos estn equitativamente distribuidos por arriba y por
debajo de 0 (media de los residuos) para diferentes valores
de X. Un caso en donde el supuesto de homocedasticidad no se
cumple, es en el caso en donde a medida que aumenta el valor
de X aumenta la variabilidad de los errores.
Cuando se utilizan datos de economa medidos a lo largo del
tiempo,
casi
siempre
se
cumple
el
supuesto
de
homocedasticidad, salvo en situaciones en donde se producen
cambios
estructurales
importantes
que
afecten
las
observaciones, como por ejemplo, una ley de hiperinflacin o
desastres naturales.
Cuando se utilizan datos de un estudio de corte transversal,
o sea en un dado tiempo, como por ejemplo produccin en
diversas firmas en un ao es donde se encuentra con
frecuencia que los errores estn correlacionados. Una fuente
de variacin podra estar dada por los tamaos de las firmas
consideradas en el estudio.
Existen algunas pruebas para detectar la heterocedasticidad
como la de razn de verosimilitud, la de Goldfield y Quant,
la de Breush y Pogan.
Como consecuencia de la heterosedasticidad se tiene que:
1) los estimadores de mnimos cuadrados siguen siendo
insesgados pero no eficientes
2) los estimadores de las varianzas son sesgados, lo que
invalida las pruebas de significancia
Las soluciones a este problema son tales que dependen de
ciertas suposiciones de la varianza de los errores. La
metodologa para encontrar los estimadores en presencia de
hetereosedasticidad se denomina mtodo de mnimos cuadrados
generalizados y el mtodo de mxima verosimilitud.
Autocorrelacin:

El problema a estudiar ahora es aquel que se presenta cuando


los trminos de error en el modelo de regresin no son
independientes.
La falta de independencia puede presentarse en datos de
estudios de corte transversal o en datos en el tiempo. En el
primer caso supongamos que se tiene inters en estudiar el
consumo
de
familias
en
diferentes
barrios
o
zonas
geogrficas. Se puede pensar que dentro de la misma zona o
barrio los errores en el modelo de estimar el consumo estn
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

69

correlacionados, debido por ejemplo al hecho de que los


vecinos quieren mantener un mismo nivel de consumo. En este
caso se habla de correlacin espacial.
Una manera de considerar las causas que producen correlacin
es por medio de variables indicadoras, tema que no ser
desarrollado en este apartado. Para ayuda adicional, podemos
remitirnos al captulo 8 del libro de Maddala.
En el caso de datos en el tiempo (series de tiempo), la
correlacin
de
los
residuos
recibe
el
nombre
de
autocorrelacin
o
correlacin
serial
y
es
la
que
presentaremos brevemente aqu.
El trmino de error en el tiempo t et est correlacionado con
La
los
trminos
de
error
et+1.et+2,.....,et-1,et-2,...
correlacin entre et y et-k se conoce como autocorrelacin de
orden k, y se denota por k, as la correlacin entre et y et-1
es la autocorrelacin de orden 1 y se denota por 1. En el
caso en que tengamos n observaciones existe (n-1) de estas
autocorrelaciones, que es la que se considera con mayor
frecuencia.
Una medida de la autocorrelacin de primer orden puede estar
dada por el coeficiente de correlacin entre et y et-k denotado
por retet-1, pueden representarse los valores de et y et-k en
un diagrama de dispersin con el fin de visualizar la forma
de la nube de puntos.
En la figura siguiente se presentan tres casos:
a) Autocorrelacin positiva: cuando los puntos se encuentran
predominantemente en el primer y tercer cuadrante, lo que
significa que los residuos sucesivos tienden a tener el mismo
signo.
b) Autocorrelacin negativa: cuando la mayor parte de los
puntos estn en el segundo y cuarto cuadrante, y por lo tanto
los residuos consecutivos tienden a tener signos opuestos.
c) Ausencia de autocorrelacin: cuando los puntos se
extienden sobre los
cuatro cuadrantes.
Adems del diagrama de dispersin, existe una prueba llamada
la prueba de Durbin-Watson, que se utiliza para detectar los
problemas de autocorrelacin en los residuos. Esta prueba
ser presentada en la siguiente seccin.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

70

Representacin de los residuos sucesivos.


Prueba de Durbin-Watson:

Como ya se mencion en la seccin anterior esta prueba es


til para detectar problemas de autocorrelacin de primer
orden en los residuos. El modelo ms sencillo que relaciona
los errores es el modelo lineal, en el que los errores
poblacionales t y t1 tienen una correlacin . Una
estimacin de esta correlacin estar dada por la correlacin
entre los residuos de mnimos cuadrados e t y e t1.
Las hiptesis nula y alternativa que se plantean en esta
prueba son
H0: los residuos no estn correlacionados
H1: existe autocorrelacin de primer orden entre los
residuos.
La hiptesis nula se puede pensar como
H 0: = 0
El estadstico del test esta dado por

Cuando el tamao de muestra es grande

y por lo

tanto el estadstico
.
Los posibles valores que puede tomar d estn entre 0 y 4,
como se muestra a continuacin:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

71

Si d es prximo a 0 o a 4 entonces los residuos estn


correlacionados.
La distribucin muestral del estadstico d depende de los
valores de las variables independientes, y por lo tanto no
esta tabulada. Durbin y Watson calcularon los lmites
superior dU e inferior dL para los niveles de significancia de
d. Los valores de los lmites estan tabulados y en el libro
de GSM los puntos de significancia estan tabulados para =0
contra >0
. Si d > 2 y se desea probar =0 contra < 0,
entonces se considera 4d y se utiliza la tabla como si se
probara =0 contra >0.
La regla del test est dada por:

El valor esperado de d cuando =0


por

esta dado aproximadamente

Donde k es el nmero de parmetros estimados de la regresin


incluyendo la constante, y n es el tamao de la muestra.
Ntese que la estadstica d tiene un sesgo hacia arriba a
partir de 2 an cuando =0.
Comentarios adicionales:
1) este test prueba solo las correlaciones seriales de primer
orden
2) no es concluyente si el valor calculado de d se encuentra
entre dL y dU
En el caso del ejemplo de las inversiones tenemos que el
valor del estadstico de Durbin-Watson fue de 0,784. Los
valores de los lmites dL y dU
son 0,86 y 1,27
respectivamente para un nivel de 1%, con lo que el valor
encontrado con los datos est por debajo del lmite inferior
y por consiguiente llegaramos a la conclusin de que existe
una autocorrelacin positiva.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

72

En SPSS, la mayora de los clculos estadsticos que se


pueden realizar estn basados en el proceso de sintaxis.
Para especificar los procesos que se pueden realizar mediante
el editor de datos, solo hablaremos de las Pruebas de
Hiptesis, las cuales envuelven adems algunos otros temas
estadsticos como los intervalos de confianza y las medidas
de tendencia central.

ESTADSTICA DESCRIPTIVA
Siempre que vamos a realizar un anlisis estadstico de una
serie de datos, es aconsejable realizar previamente una
Estadstica Descriptiva de las variables, ya sea para obtener
informacin sobre las mismas, o simplemente para chequear
posibles errores. Algunas de las posibilidades para realizar
estadstica descriptiva con SPSS son:
Anlisis de Frecuencias
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

73

Anlisis Exploratorio
Tablas
Anlisis de Frecuencias

El
procedimiento
Frecuencias
nos
permite
obtener
una
descripcin de la distribucin de una variable con:
Tablas de Frecuencias
Histogramas y Grficos de Barras
Clculo de Percentiles, Medidas de Tendencia Central y
de Dispersin
Para ejecutar tal procedimiento debemos seleccionar en el
men Analizar, la opcin Estadsticos Descriptivos y el botn
Frecuencias, entonces se abre el cuadro de dilogo:

con los campos:


Variables: Recoge las variables a analizar.
Mostrar tablas de frecuencias: Opcin activada por defecto
En esta ventana aparecen adems tres botones:
Estadsticos.
Abre
un
cuadro
para
solicitar
los
estadsticos descriptivos bsicos de las variables
numricas elegidas.
Valores Percentiles: Cuartiles, Puntos de corte para
dividir el conjunto total de datos en un nmero
especfico de grupos iguales, Percentiles.
Tendencia Central: Media, Mediana, Moda, y Suma de los
datos.
Dispersin: Desviacin Tpica, Varianza, Rango, Mximo,
Mnimo y Error tpico de la Media.
Distribucin: Coeficientes de Asimetra y Curtosis.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

74

Para variables continuas, los clculos se pueden hacer con


los puntos medios.
Grficos.
Este
botn
abre
un
cuadro
con
las
alternativas:
-Ninguno: Por defecto est activo este campo.
-Grficos
de
Barras:
Propios
de
variables
discretas.
-Grficos
de
Sectores:
Tanto
para
variables
discretas como continuas.
-Histogramas: Adecuados para variables continuas.
Sobre ste se puede superponer la funcin de
densidad de la normal.
El sistema nos permite realizar la representacin con
frecuencias o con porcentajes.
Formato.
Permite la modificacin del formato de la
tabla de frecuencias. Entre las posibilidades que
muestra estn:

Permite ordenar de forma ascendente o descendente, segn


los valores o las frecuencias.
Permite mostrar los resultados individuales del anlisis
de varias variables juntos para compararlos, o el total
de cada variable junto.

Anlisis Exploratorio

El
procedimiento
Explorar
nos
ofrece
las
siguientes
posibilidades:
Representar grficamente los datos,
Examinar visualmente las distribuciones para varios
grupos de datos y
Realizar pruebas Normalidad y Homogeneidad sobre los
mismos.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

75

Para elegirlo debemos seleccionar en el men Analizar, la


opcin Estadsticos Descriptivos: Explorar. Entonces se abre
un cuadro con los siguientes campos:

Dependientes: Aqu introducimos la/s variable/s


cuantitativa/s de la/s que se solicitan los
grficos y estadsticos.
Factores: Recoge la variable que divide en grupos
la muestra.
Etiquetar los casos mediante: Su utiliza para
etiquetar aquellos valores atpicos en los Diagrama
de Caja. La variable puede ser numrica o carcter.
Y los botones:
Grficos: Abre una ventana para seleccionar el grfico a
representar. Las alternativas de grficos son:
-Diagramas de Caja.
Controla la presentacin
de los Diagrama de Cajas cuando existe ms de
una variable dependiente.
-Niveles de los factores juntos: Genera una
representacin para cada variable dependiente,
y en cada una de ellas se muestran diagramas
de caja para cada grupo que define el factor.
-Dependientes
juntas:
Genera
una
representacin para cada grupo definido por el
factor, y en cada una de ellas, se muestran
juntos los diagramas de caja de cada variable
dependiente.
-Descriptivos. Grficos de tallo y hoja e
Histogramas.
-Grficos con Pruebas de Normalidad: Muestra
dos
grficos;
el
primero
representa
los
valores correspondientes a una distribucin
Normal mediante una recta y los puntos son las
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

76

observaciones de los sujetos; el segundo es un


grfico de probabilidad sin tendencia, que
recoge
las
desviaciones
de
los
sujetos
respecto a la recta normal. Calcula tambin
los Estadsticos de Kolmogorov-Smirnov y de
Shapiro-Wilk, los cuales son empleados para
muestras con menos de 50 observaciones.
-Dispersin por Nivel con Prueba de Levene:
Representa los diagrama de dispersin por
nivel si se selecciona algn factor. Adems
muestra con stos la recta de regresin.
Tambin realiza la prueba de Levene sobre la
homogeneidad de varianzas. Si los datos estn
transformados
la
prueba
es
con
las
transformaciones.
Estadsticos: abre un cuadro donde podemos solicitar:
-Descriptivos: Muestra ciertas medidas de
Tendencia
Central
(media,
mediana,
media
recortada)
-De Dispersin: que permiten observar como
estn
distribuidos
los
datos.
(errores
tpicos, varianza, desviacin tpica, mnimo,
mximo, rango, rango intercuartlico) y de la
forma de la Distribucin (coeficientes de
asimetra y curtosis).
-Intervalo de confianza para la media: Por
defecto, aparece al nivel de confianza del
95%, aunque se puede especificar cualquier
otro.
-Estimadores robustos centrales: Estos se
diferencian
de
las
medidas
de
tendencia
central en las ponderaciones que se aplican a
los datos. Entre ellos estn: M de Huber,
estimador en onda de Andrew, el estimador
biponderado de Tuckey, etc.
-Valores atpicos: Muestra los cinco valores
mayores y menores, junto con las etiquetas.
-Percentiles: Muestra los Percentiles ms
comnmente utilizados: P5, P10, P25, P50, P75,
P90, y P95.
Opciones: Este botn sirve para controlar el tratamiento
de los valores perdidos. Las alternativas que nos
presenta son:
-Excluir casos segn lista: Para excluir de
todos los anlisis los valores perdidos.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

77

-Excluir casos segn pareja: Para excluir los


perdidos de las variables que intervienen en
ese grupo y no en otros.
Tablas
Tablas bsicas.

El procedimiento Tablas Bsicas nos permite construir


tablas que muestran estadsticos de clasificacin cruzados y
de subgrupos. Para elegirlo seleccionamos en el Men
Analizar, la opcin Tablas, el botn Tablas Bsicas. Entonces
se abre un cuadro con los siguientes campos:
Resumir: se recogen las variables llamadas variables
resumen para las que se calculan los estadsticos
dentro de cada subgrupo. Con todas las variables de la
tabla se emplean los mismos estadsticos (defecto:
media). Si no se selecciona variable resumen se
muestran las frecuencias.
-Hacia abajo: Se introducen la/s variable/s que
aparecen por filas.
-A travs: Recoge la/s variable/s que irn en las
columnas.
Tablas
distintas:
Las
variables
de
esta
lista
subdividen la tabla en capas de manera que slo podemos
ver una capa de la tabla cada vez. Dentro de esta
opcin tenemos:
-Todas las combinaciones (anidadas):
-Cada una por separado (apiladas):
Tambin aparecen una serie de botones:
Estadsticos: Tras este botn se esconde el siguiente
cuadro:

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

78

Con las siguientes opciones:


Estadsticos: Ofrece una lista de los estadsticos
entre los que se encuentran: frecuencias, % por filas,
% por columnas, estadsticos de tendencia central, de
variabilidad, percentiles, sumas, porcentajes, etc.
Estadsticos de casilla: Estos se seleccionan de la
lista anterior y los muestra la tabla.
Formato y Etiqueta: Para elegir el ancho, el nmero de
decimales, y una etiqueta para cada estadstico. Este
incluye formatos de decimales, de porcentaje, y de
moneda preestablecidos.
Ordenacin por el recuento en la casilla: Reorganiza
las casillas dentro de cada fila, columna o capa en
funcin de las frecuencias.
El botn Diseo abre este otro cuadro:

Con las alternativas:


Etiquetas
de
las
variables
resumidas:
Permite
dimensionar las etiquetas de las variables resumen.
Etiquetas de los estadsticos: Para seleccionar la
dimensin de las etiquetas de los estadsticos.
Grupos en la dimensin de la variable resumida: Aqu se
puede elegir entre anidar las variables resumen bajo
cada categora de la variable agrupacin o al revs.
Etiquetar los grupos slo con las etiquetas de valor:
Elimina las etiquetas de las variable agrupacin. Las
categoras se siguen identificando por las etiquetas de
valor o los propios valores.
Opciones:
Este
botn
sirve
para
controlar
el
tratamiento de los valores perdidos
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

79

Tablas de Frecuencias

Este procedimiento es aconsejable para los casos de anlisis


con una serie de variables que tienen todas las mismas
categoras de respuesta. Para elegirlos se selecciona en el
men Analizar, la opcin Tablas: Tablas de Frecuencias. Se
abre entonces un cuadro de dilogo con:
Frecuencias para: Recoge las variables con igual categora, y
de las que se va a calcular su frecuencia.
En cada tabla: Se introduce aqu la variable de
agrupamiento de las variables anteriores. Permite
dividir la tabla en columnas dentro de cada tabla.
Tablas distintas: Permite introducir otra dimensin de
agrupamiento, en capas. Slo se muestra una capa cada
vez. Al igual que en el procedimiento anterior, si hay
varias variables de agrupamiento se pueden apilar o
anidar.
Tambin dispone de una serie de botones.
Estimacin y Contraste de Hiptesis: El SPSS nos
permite realizar comparaciones de medias, tanto para
muestras
independientes
como
para
muestras
dependientes. Tambin permite comparar la media de una
variable con un valor determinado.
Tales procedimientos se encuentran en el submen Comparar
Medias:

Medias.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

80

El procedimiento Medias calcula las medias y estadsticos


univariados (desviacin estndar, varianza, suma y nmero de
individuos) para uno o ms grupos de sujetos.
Tambin permite realizar un Anlisis de la Varianza de un
factor, pruebas de linealidad del modelo y calcular la eta.
Para ello seleccionamos, como podamos ver anteriormente, el
men Analizar, la opcin Comparar Medias: Medias. Entonces se
despliega un cuadro con las opciones:
Dependientes: Se introducen las variables de las que se
quiere recoger la media.
Independientes: Aqu se recogen aquellas variables que
sirven para definir los grupos de sujetos. Estas
variables se pueden especificar en distintas capas, y
cada capa contener ms de una variable.
Adems presenta un botn:
Opciones: Este botn abre otra ventana donde podemos
seleccionar otros estadsticos : media, mediana, error
tpico de la media, mnimo, mximo, rango, desviacin
tpica, varianza,
curtosis, asimetra, etc. Tambin
nos muestra estadsticos de resumen para cada variable
a travs de las categoras. Dentro de opciones tambin
se tiene la posibilidad de realizar un anlisis de la
varianza y calcular la eta y eta cuadrado para cada
variable independiente de la primera capa. Activando
Tabla de Anova y eta
La eta cuadrado es la proporcin de la varianza de la
variable dependiente que es explicada por la diferencia
entre los grupos. Razn de la suma de cuadrados entre
grupos y la suma de cuadrados totales.
Adems, activando Contrastes de linealidad podemos calcular
el R y R2 que miden la bondad del ajuste.

Comparacin con una Media Emprica.

Este procedimiento sirve para contrastar si la media


poblacional de una variable difiere significativamente de una
media prefijada. Para seleccionarlo procedemos eligiendo, en
el men Analizar, Comparar Medias, la opcin Prueba T- para
una Muestra. Tras esta operacin, aparece una ventana con:
Contrastar Variables: Este campo recoge las variables
cuya media se quiere comparar con el valor prefijado.
Valor de prueba: Se introduce el valor especfico con
el que se compara.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

81

Y el botn Opciones; el cual Abre otra ventana


donde se
especifica el nivel de confianza para construir el intervalo
de confianza para la media, y se indica como tratar los
valores perdidos:
Excluir casos segn anlisis: no incluyen en el
anlisis los casos con valores perdidos en la variable
analizada.
Excluir casos segn lista: no se incluyen en el
anlisis los casos con valores perdidos en alguna de
las variables del campo Contrastar Variables.
Este procedimiento se utiliza para comparar las medias de dos
poblaciones normales e independientes. Para ejecutarlo,
seleccionamos, tambin en el men Analizar, la opcin Prueba
T para muestras independientes, la cual esta dentro del
submen
Comparar Medias. Entonces, se abre el cuadro de
dilogo que contiene los siguientes campos:

Contrastar Variables: recoge las variables sobre las que


se va a contrastar si hay o no diferencias de grupos.
Variable de agrupacin: se introduce la variable que
define los dos grupos de sujetos sobre los que se
estudian las diferencias. Una vez se recoge se pulsa en
Definir grupos y se introducen los dos valores que
definen los grupos, o el valor de corte para separar en
dos grupos.
Tambin nos muestra el botn Opciones el cual abre otra
ventana
donde especificamos el nivel de confianza para
construir el intervalo de confianza para la media, e
indicamos cmo tratar los valores perdidos.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

82

Prueba de Levene de Homogeneidad de Varianzas

Uno de los pasos previos a la comprobacin de si existen


diferencias entre las medias de varias muestras es determinar
si las varianzas difieren. SPSS utiliza la Prueba de Levene
para tal comprobacin. Los siguientes son los pasos para su
clculo:
Calcular la diferencia (en valor absoluto) entre cada
valor y la media de su grupo:

Dij = X ij X

con Xij puntuacin del sujeto i del grupo j; y la media del


grupo j.
Calcular la media de las diferencias de cada grupo:
Dj =

Dij
i

nj

donde nj es el tamao del grupo j.


k nj
Calcular la media total de las diferencias:D
ij
j =1 i =1
Dt =
N
donde N es el nmero total de datos.
Calcular la suma de cuadrados dentro de cada grupo:
SCint ra =

nj

j =1 i =1

( Dij D j ) 2

Calcular la suma de cuadrados entre grupos:

SCint er =

k
j =1

n j ( D j Dt ) 2

Calcular los grados de libertad:


G.L.(inter) = k-1 siendo k el nmero de grupos
G.L.(intra)

k
j =1

(n j 1) = N k

Calcular la media cuadrtica entre grupos:


MCint er =

SCint er
k 1

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

83

Calcular la media cuadrtica dentro de los grupos:


SC
MCint ra = int ra
N k
Calcular la F de Fisher-Snedecor:
MCint er
F=
MCint ra
Como se puede apreciar, este es un procedimiento muy complejo
y tedioso, el cual se ve facilitado en la correcta
utilizacin de los estadsticos avanzados y las funciones de
SPSS.
Comparacin de muestras dependientes.

En este procedimiento
comparamos las medias
de
dos
poblaciones
normales
dependientes
(las
mismas
medidas
bajo
circunstancias
distintas
o
datos
relacionados).
El
procedimiento se elige
con el men Analizar,
la opcin Prueba T para muestras relacionadas de la opcin
Comparar Medias.
La ventana que se abre muestra:
Variables relacionadas: este campo recoge los pares de
variables que se van a comparar. Se marcan con el curso
de la lista que muestra el SPSS y se llevan a este campo
pulsando en el botn con un tringulo a la derecha.
Y el botn Opciones: este campo tiene la misma utilidad
que en los procedimientos anteriores.

ANLISIS DE VARIANZA
Anova de un factor.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

84

Este procedimiento es una generalizacin del contraste de


medias para dos o ms muestras independientes, cuya
clasificacin viene dada por la variable independiente.
Consiste en estudiar si la variable llamada factor influye
sobre la variable respuesta, y la forma de hacerlo es
analizando como varan los datos. Para seleccionarlo elegimos
tambin en el men Analizar: Comparar medias la opcin Anova
de un Factor. Entonces se abre un cuadro con los campos:
Dependientes: Recoge la variable respuesta a analizar.
Factor: Se introduce la variable de clasificacin, que
ha de ser categrica.
Adems de estos campos estn los botones:
-Contrastes: Este botn nos abre un cuadro que permite
averiguar si los valores promedio de la variable
respuesta siguen alguna tendencia: lineal, cuadrtica,
cbica, o de grado 4 5. Adems de poder realizar
cualquier comparacin a priori entre las medias de la
variable respuesta para los niveles del factor que se
elijan. Permite hasta 10 contrastes con 50 coeficientes
cada uno de ellos.
-Post Hoc: Con este botn abrimos un cuadro de dilogo
que permite averiguar que medias de los diferentes grupos
difieren entre s, mediante varias pruebas a posteriori
diferentes.
-Opciones: Da paso a otra ventana, donde muestra una
serie de estadsticos descriptivos para cada grupo de la
muestra o nivel del factor.
Al ejecutar Anova de un factor, SPSS realiza el test de
Levene para la homogeneidad de varianzas entre los grupos,
muestra un grfico de medias de cada grupo e indica la forma
de tratar los valores perdidos.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

85

Para una mayor claridad frente a este tema, utilizaremos dos


ejemplos, el primero ms sencillo que el segundo, bajo los
cuales pretendemos cubrir tanto la regresin lineal simple
como la mltiple, repasando todos los conceptos vistos en el
marco terico.
En cualquier modelo terico que tenga que ver con datos
estadsticos, es necesario como primer paso hacer un anlisis
descriptivo, con el fin de establecer las caractersticas de
los mismos y el tipo de variables que se manejan.
En nuestro caso, el anlisis de regresin y correlacin
implica
que
trabajamos
con
variables
dependientes
e
independientes de tipo escalar y as lo entiende SPSS.
Caso 1:
Modelo con variables sencillas:
PIB, GASTO, INVERSIN, EXPORTACIONES E IMPORTACIONES.
Son 58 registros, para los cuales haremos en primer lugar un
anlisis descriptivo.
Estadsticos descriptivos
Estadstico
N

Error tpico

PIB

58

Mnimo
3478,00

Mximo
4737955

Media
324751,8

Desv. tp.
781999,6

Asimetra
4,250

Curtosis
20,123

Asimetra
,314

Curtosis
,618

58

59,80

7292450

412543,2

1211752

4,228

19,951

,314

,618

58

-1,44

32,56

15,4764

9,01746

,066

-1,130

,314

,618

58

1461,04

538476,00

83792,75

115147,9

2,008

4,161

,314

,618

58

1048,71

167090,00

44919,44

42615,21

,761

-,411

,314

,618

N vlido (segn lista)

58

para el anlisis de regresin, es necesario que los residuos


de las variables cumplan unos supuestos, en este caso,
asumiremos que se cumplen y despus corregiremos si se
presentan fallas en el modelo debido a esta asuncin.
Lo primero que haremos aqu,
Correlaciones
es
revisar
si
existe
PIB
G
correlacin entre el PIB y
PIB
Correlacin de Pearson
1
,975**
el Gasto. Despus crearemos
Sig. (bilateral)
.
,000
un
modelo
de
regresin
Suma de cuadrados y
3,5E+13
5,3E+13
lineal simple.
productos cruzados
G

Covarianza
N
Correlacin de Pearson
Sig. (bilateral)
Suma de cuadrados y
productos cruzados
Covarianza
N

6,1E+11
9,2E+11
58
58
,975**
1
,000
.
UNIVERSIDAD
NACIONAL

COLOMBIA
FACULTAD
DE
CIENCIAS
ECONMICAS
5,3E+13
8,4E+13
UNIDAD DE INFORMTICA
9,2E+11
58

**. La correlacin es significativa al nivel 0,01


(bilateral).

1,5E+12
58

86

Utilizando la herramienta de correlaciones divariadas de SPSS


encontramos que:
El coeficiente de correlacin de Pearson que se encuentra
entre - y , presenta un valor de 0.975, lo que implica una
alta correlacin positiva. Esto podemos observarlo mediante
un grfico de dispersin.

4000000,00

PIB

3000000,00

2000000,00

1000000,00

un
el

0,00
0,00

2500000,00

5000000,00

Sin
embargo,
revisando
el
grfico, no pareciera que los
datos
formaran
una
lnea
perfecta de correlacin; sin
embargo si se encuentran muy
juntos, lo que indica el valor
de la correlacin de Pearson.
El paso siguiente es plantear
modelo de regresin simple para
Pib explicado en trminos del
7500000,00
gasto pblico.

Modelo de regresin lineal simple:


PIB=Bo+ B1G+E
Resumen del modelob
Estadsticos de cambio
Modelo
1

R
,975a

R cuadrado
,950

R cuadrado
corregida
,949

Error tp. de la
estimacin
176824,53150

Cambio en
R cuadrado
,950

Cambio en F
1058,815

gl1

gl2
1

56

Sig. del
cambio en F
,000

Durbin-W
atson
,770

a. Variables predictoras: (Constante), G


b. Variable dependiente: PIB

En primer lugar tenemos el resumen del modelo, el cual arroja


un valor para el R cuadrado de 0.95, el cual representa un
amplio ajuste de la variable dependiente por la variable
independiente. Por lo que el modelo es exitoso al menos en
este sentido. Sin embargo, observamos un valor de DurbInWatson de 0.77, el cual al estar ms cercano a cero que a
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

87

dos, implica correlacin de los errores, lo que viola uno de


los supuestos.
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
3,311E+13
1,751E+12
3,486E+13

gl
1
56
57

Media
cuadrtica
3,31E+13
3,13E+10

F
1058,815

Sig.
,000a

a. Variables predictoras: (Constante), G


b. Variable dependiente: PIB

el ANOVA anterior, es una prueba que se realiza sobre el


valor de los Betas, para tratar de comprobar si son iguales a
cero, por lo que no habra una regresin. En este caso, la
significancia arroja un valor de 0.000 que es menor a 0.05,
por lo cual a un nivel de confianza del 95% rechazamos la
hiptesis nula sobre la cual se afirmaba que los Betas eran
iguales a cero.
Coeficientesa
Modelo
1
Coeficientes no
estandarizados
B
Error tp.
(Constante)65291,514 24549,234
G
,629
,019

Coeficientes
estandarizad
os
Beta
,975

t
2,660
32,539

Intervalo de confianza para


Estadsticos de
B al 95%
Correlaciones
colinealidad
Lmite
Sig.
Lmite inferior superior Orden cero Parcial Semiparcial Tolerancia
FIV
,010
16113,489 114469,5
,000
,590
,668
,975
,975
,975
1,000
1,000

a. Variable dependiente: PIB

Los coeficientes del modelo, me indican que el intercepto, en


este caso o, posee un valor de 65291.514, por lo cual una
alta variacin de la variable dependiente PIB, est explicada
por razones diferentes al Gasto, que posee un coeficiente de
0.629, el cual nos indica que cuando este aumenta en una
unidad, el producto interno bruto se incrementa en un 62.9%,
lo cual es un valor considerable.
En esta tabla tambin podemos apreciar el intervalo de
confianza para cada uno de los Betas, bajo los cuales
pretendemos inferir frente al valor poblacional con un nivel
de confianza del 95%.
Para este modelo de regresin, podemos incluir ms variables,
con el fin de buscar una mayor precisin en los resultados.
Esto es lo que se conoce como modelo de regresin lineal
mltiple.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

88

Regresin Lineal Mltiple:


En este caso el modelo queda: PIB= +1G+2I+3X+4M+
Realizando el procedimiento en SPSS obtenemos.
Variables introducidas/eliminadasb
Modelo
1

Variables
introducidas
a
M, I, G, X

Variables
eliminadas
.

Mtodo
Introducir

a. Todas las variables solicitadas introducidas


b. Variable dependiente: PIB

Hemos realizado un modelo con las variables anteriormente


nombradas, dado que el mtodo es la introduccin, no se ha
eliminado ninguna.
b
Resumen del modelo

Modelo
1

Estadsticos de cambio
R cuadrado Error tp. de la Cambio en
Sig. del
Durbin-W
R
R cuadrado corregida
estimacin R cuadrado Cambio en F
gl1
gl2
cambio en F atson
,983a
,965
,963150644,74598
,965
370,740
4
53
,000
1,285

a. Variables predictoras: (Constante), M, I, G, X


b. Variable dependiente: PIB

el valor de R cuadrado para esta estimacin aumenta, por lo


que inferimos un mayor ajuste de los datos. A su vez, el
valor del Durbin-Watson aumenta, disminuyendo el problema de
correlacin en los errores.
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
3,365E+13
1,203E+12
3,486E+13

gl
4
53
57

Media
cuadrtica
8,41E+12
2,27E+10

F
370,740

Sig.
,000a

a. Variables predictoras: (Constante), M, I, G, X


b. Variable dependiente: PIB

el valor de significancia para este ANOVA es 0.000 por lo que


rechazamos la hiptesis nula de que los coeficientes de la
regresin son iguales a cero.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

89

Coeficientesa
Coeficientes no
estandarizados
Modelo
1

(Constante)
G
I
X
M

B
20248,397
,623
-225,113
1,094
-,902

Error tp.
41800,143
,026
2835,104
,321
1,162

Coeficientes
estandarizad
os
Beta
,965
-,003
,161
-,049

t
,484
24,382
-,079
3,414
-,777

Sig.
,630
,000
,937
,001
,441

Intervalo de confianza para


B al 95%
Lmite
Lmite inferior
superior
-63592,074
104088,9
,571
,674
-5911,610
5461,385
,451
1,737
-3,232
1,428

a. Variable dependiente: PIB

el anlisis de los coeficientes me muestra la importancia de


cada
una
de
las
variables
en
la
explicacin
del
comportamiento (variabilidad) de la variable dependiente. En
este caso, el valor de Bo se reduce, lo que muestra una mayor
explicacin de las otras variables con respecto a lo visto en
el modelo de regresin simple donde el valor era mucho ms
alto.
Sin embargo, hay algunas observaciones que sera importante
hacer. Por ejemplo, el valor negativo de la inversin (I),
contrario a lo que podramos pensar; pues un aumento de la
inversin ac me disminuye el producto interno bruto.
Entonces cabra revisar la variable.
El
otro
aspecto
es
la
influencia
negativa
de
las
importaciones en el PIB, lo que es mucho ms coherente ya que
esto afecta directamente la cuenta corriente de la balanza de
pagos, la cual es un componente importante del PIB.
En los intervalos de confianza para los betas, observamos una
gran amplitud, y en algunos casos, que contienen el valor de
cero, lo que nos podra llevar a pensar que el coeficiente
podra tomar este valor; contrario al resultado del ANOVA.
Pero en este caso, para la prueba de significancia individual
vemos que el valor de la significancia para la constante, B2
y B4 es mayor a 0.05 por lo que aceptaramos la hiptesis
nula de un coeficiente igual a cero.
Para tratar de corregir este modelo, podramos utilizar otro
mtodo de regresin, como por ejemplo pasos sucesivos o hacia
atrs.
Miremos por ejemplo lo que pasa si lo hacemos mediante este
ltimo.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

90

Variables introducidas/eliminadasb
Modelo
1
2

Variables
introducidas
a
M, I, G, X

Variables
eliminadas
.

Mtodo
Introducir
Hacia
atrs
(criterio:
Prob. de
F para
eliminar
>= ,100).
Hacia
atrs
(criterio:
Prob. de
F para
eliminar
>= ,100).

a. Todas las variables solicitadas introducidas


b. Variable dependiente: PIB

Nos presenta tres modelos.


Dado que el mtodo es hacia
atrs, lo primero que SPSS
hace es incluir todas las
variables e ir excluyendo
despus
las
manos
significativas
hasta
encontrar el modelo ms
coherente. Como lo podemos
ver aqu, en el modelo dos
excluy la inversin, de la
que
ya
tenamos
conocimiento
sobre
un
comportamiento extrao, la
siguiente
fue
la
de
importaciones, que tambin
presentaba
valores

atpicos.
En el siguiente paso, SPSS me calcula
uno de los escenarios del modelo.

un resumen para cada

d
Resumen del modelo

Modelo
1
2
3

R
R cuadrado
,983a
,965
,983b
,965
,982c
,965

Estadsticos de cambio
R cuadrado Error tp. de la Cambio en
Sig. del
Durbin-W
corregida
estimacin R cuadrado Cambio en F
gl1
gl2
cambio en F atson
,963150644,74598
,965
370,740
4
53
,000
,964149252,24548
,000
,006
1
53
,937
,964148865,24719
,000
,715
1
54
,401
1,199

a. Variables predictoras: (Constante), M, I, G, X


b. Variables predictoras: (Constante), M, G, X
c. Variables predictoras: (Constante), G, X
d. Variable dependiente: PIB

el valor de durbin-watson para todos los modelos es el mismo,


pero el r cuadrado vara del modelo 2 al 3 aunque no
significativamente; por lo que este modelo es vlido. Adems
un coeficiente de 0.982 es bastante exitoso para un modelo de
regresin.
En el cuadro siguiente, veremos el valor de los coeficientes
(betas) para cada uno de los escenarios de la regresin. El
escenario uno, es idntico al que ya conocamos en el modelo
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

91

anterior. En el escenario 2, se excluye el parmetro I, sin


embargo vemos que el modelo no se comporta an como
desearamos gracias al valor de la significancia para M, que
me indica un gran riesgo de que esta sea igual a cero, por lo
que no valdra la pena incluirla dentro del modelo.
En el escenario tres, el programa se da cuenta de esto y me
excluye la variable, ajustando de nuevo todos los datos.
Vemos que es un modelo mejor y ms coherente, por lo que se
comprueba que en econometra no siempre ms variables indican
un mejor ajuste.
Coeficientes
Coeficientes
estandarizad
os

Coeficientes no
estandarizados
Modelo
1

(Constante)
G
I
X
M
(Constante)
G
X
M
(Constante)
G
X

B
20248,397
,623
-225,113
1,094
-,902
18082,689
,622
1,093
-,930
1488,385
,607
,871

Error tp.
41800,143
,026
2835,104
,321
1,162
31382,310
,025
,317
1,099
24427,223
,017
,178

Beta

t
,965
-,003
,161
-,049
,965
,161
-,051
,940
,128

,484
24,382
-,079
3,414
-,777
,576
24,610
3,445
-,846
,061
35,899
4,900

Sig.
,630
,000
,937
,001
,441
,567
,000
,001
,401
,952
,000
,000

Intervalo de confianza para


B al 95%
Lmite
superior
Lmite inferior
-63592,074
104088,9
,571
,674
-5911,610
5461,385
,451
1,737
-3,232
1,428
-44835,055
81000,433
,572
,673
,457
1,730
-3,133
1,274
-47464,863
50441,633
,573
,640
,515
1,228

a. Variable dependiente: PIB

Finalmente, vemos el cuadro con las variables excluidas para


cada caso. En l se reflejan las razones por las cuales SPSS
no las toma en cuenta: miremos por ejemplo los valores de
significancia para t, todos son mayores a 0.05 y en un gran
nivel, por lo que es imposible rechazar la hiptesis nula.
Variables excluidasc

Modelo
2
3

I
I
M

Beta dentro
-,003a
-,010b
-,051b

t
-,079
-,326
-,846

Sig.
,937
,746
,401

Correlacin
parcial
-,011
-,044
-,114

Estadsticos
de
colinealidad
Tolerancia
,609
,668
,178

a. Variables predictoras en el modelo: (Constante), M, G, X


b. Variables predictoras en el modelo: (Constante), G, X
c. Variable dependiente: PIB

Caso 2
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

92

En este caso, poseemos una base de datos de ejemplo, que trae


SPSS, en la cual tenemos datos laborales para la poblacin de
Estados Unidos. Nuestro objetivo es construir un modelo en el
cual expliquemos el salario actual de los norteamericanos a
travs de diferentes factores.
Las variables involucradas son:
Salario actual
Salario inicial
Edad
Experiencia laboral
Nivel educativo
Tipo de trabajo
Gnero
El primer paso a seguir es obtener los estadsticos
descriptivos para las variables.
Estadsticos descriptivos

Current salary
Age of employee
Work experience
Beginning salary
Educational level
N vlido (segn lista)

N
Estadstico
474
474
474
474
474
474

Mnimo
Estadstico
6300
23,00
,00
3600
8

Mximo
Estadstico
54000
64,50
39,67
31992
21

Media
Estadstico
13767,83
37,1861
7,9886
6806,43
13,49

Desv. tp.
Estadstico
6830,265
11,78724
8,71541
3148,255
2,885

Asimetra
Estadstico Error tpico
2,125
,112
,864
,112
1,510
,112
2,853
,112
-,114
,112

Curtosis
Estadstico Error tpico
5,378
,224
-,562
,224
1,696
,224
12,390
,224
-,265
,224

Tenemos un total de 474 registros, agrupados por variables


para cada una de los cuales de muestran los principales
estadsticos
de
comportamiento.
Lo
que
haremos
a
continuacin, es suponer que los datos se comportan de manera
normal y recurriremos a realizar el modelo de regresin.
Para ello utilizaremos el mtodo Hacia atrs
de SPSS,
tratando
de
llegar
al
mejor
Variables introducidas/eliminadasb
modelo posible.
Variables
Variables
Como
variable
explicada
o
Modelo
introducidas
eliminadas
Mtodo
dependiente
estableceremos
el
1
Work
experience,
salario actual (salnow) y como
Beginning
variables
explicativas
o
salary,
. Introducir
Educational
independientes tendremos Salario
level, Ageaof
inicial (salbeg), Nivel educativo
employee
(edlevel),
Edad
(age),
2
Hacia
atrs
Experiencia laboral (work).
(criterio:
Age of
El primer cuadro en el visor de
.
Prob. de
employee
F para
resultados, es el que nos muestra
eliminar
que por el mtodo Hacia atrs, se
>= ,100).
a. Todas las variables solicitadas introducidas
establecieron
dos
modelos,
el
b. Variable dependiente: Current salary
primero con todas las variables
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

93

incluidas
y
el
significativas.

segundo,

sin

las

variables

menos

como podemos apreciar en el cuadro anterior, por el mtodo


utilizado, en el modelo 2 elimin la variable edad, por
considerarla poco significativa de acuerdo con los resultados
de la prueba F.
Resumen del modeloc
Estadsticos de cambio
Modelo
1
2

R
,896a
,895b

R cuadrado
,803
,802

R cuadrado
corregida
,801
,800

Error tp. de la
estimacin
3047,415
3052,771

Cambio en
R cuadrado
,803
-,001

Cambio en F
476,786
2,653

gl1
4
1

gl2
469
469

Sig. del
cambio en F
,000
,104

Durbin-W
atson

a. Variables predictoras: (Constante), Work experience, Beginning salary, Educational level, Age of employee
b. Variables predictoras: (Constante), Work experience, Beginning salary, Educational level
c. Variable dependiente: Current salary

En el resumen del modelo podemos ver un buen comportamiento


de las variables gracias a su valor r y r cuadrado, el cual
es de 0.803 en el primer modelo y 0.802 en el segundo,
presentndose una variacin de -0.01 en este valor, el cual
no es muy alto, por lo que se demuestra que la variable era
poco significativa para este modelo.
Igualmente, vemos un valor de 1.994 para el estadstico de
durbin-watson, un valor bastante cercano a 2 que me dice que
mis errores no estn correlacionados, es decir, se cumple
este supuesto bsico para el modelo.
ANOVAc
Modelo
1

Regresin
Residual
Total
Regresin
Residual
Total

Suma de
cuadrados
1,771E+10
4,355E+09
2,207E+10
1,769E+10
4,380E+09
2,207E+10

gl
4
469
473
3
470
473

Media
cuadrtica
4,43E+09
9286737,8
5,90E+09
9319408,2

F
476,786

Sig.
,000a

632,605

,000b

a. Variables predictoras: (Constante), Work experience, Beginning salary,


Educational level, Age of employee
b. Variables predictoras: (Constante), Work experience, Beginning salary,
Educational level
c. Variable dependiente: Current salary

En la anterior prueba F, debemos fijarnos sobre todo en la


significancia, dado que es < a 0.05 podemos rechazar Ho y
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

94

1,994

pensar que si existe un modelo lineal para el salario actual


de los estadounidenses.
a
Coeficientes

Coeficientes no
estandarizados

Coeficientes
estandarizad
os

Modelo
B
Error tp.
1
(Constante)
-363,338 1026,807
Beginning salary 1,750
,060
Educational level282,162
67,774
Age of employee-32,901
20,198
Work experience-45,555
27,450
2
(Constante) -1464,582 774,204
Beginning salary 1,749
,060
Educational level294,379
67,476
Work experience-80,304
17,305

Beta
,807
,119
-,057
-,058
,806
,124
-,102

Intervalo de confianza para


B al 95%
Correlaciones
Lmite
Sig. Lmite inferior superior Orden cero Parcial Semiparcial
,724 -2381,050 1654,375
,000
1,633
1,868
,880
,804
,600
,000
148,983 415,340
,661
,189
,085
,104
-72,589
6,788
-,146
-,075
-,033
,098
-99,494
8,385
-,097
-,076
-,034
,059 -2985,912
56,748
,000
1,631
1,866
,880
,803
,600
,000
161,787 426,972
,661
,197
,090
,000
-114,309 -46,300
-,097
-,209
-,095

t
-,354
29,270
4,163
-1,629
-1,660
-1,892
29,198
4,363
-4,641

a. Variable dependiente: Current salary

Tenemos los betas para cada uno de los modelos, en efecto de


acuerdo con lo anterior y pos sugerencia de SPSS el mejor
modelo es el segundo ya que posee un buen valor para R
cuadrado adems de que al menos uno de los parmetros es
diferente de cero, cumplindose la linealidad.
Variables excluidasb

Modelo
2

Beta dentro
-,057a

Age of employee

t
-1,629

Sig.
,104

Correlacin
parcial
-,075

Estadsticos
de
colinealidad
Tolerancia
,346

a. Variables predictoras en el modelo: (Constante), Work experience, Beginning salary,


Educational level
b. Variable dependiente: Current salary

Aqu se muestra un resumen de las


variables excluidas, en este caso
edad del empleado, debido a sus
Variable dependiente: Current salary
caractersticas.
Grfico P-P normal de regresin Residuo
tipificado
160
A
continuacin
se
muestran
140
Variable dependiente: Current salary
algunos grficos que nos pueden
1201,0
ayudar a interpretar y juzgar los
100
resultados:
80 ,8
En el histograma que tenemos a la
izquierda por ejemplo, vemos la
60
distribucin de los datos para la
40
,5
Desv. tp. = 1,00
variable
dependiente
salario
20
Media = 0,00
N = 474,00

0
,3

00
6,
00
5,
00
4,
00
3,
00
2,
00
1,
00
0, 0
,0
-1 0
,0
-2 0
,0
-3 0
,0

-4

Frecuencia
Prob acum esperada

Histograma

0,0Regresin
0,0

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Residuo tipificado
,3

,5

Prob acum observada

,8

1,0

95

actual, la curva de probabilidad normal, da una muestra de


que tan desajustados estn los datos con respecto a esta
distribucin. De no ser por algunos valores atpicos,
podramos pensar que los datos siguen una distribucin
normal, lo cual puede ser cierto ya que adems se trata de un
nmero amplio de datos que por el teorema del lmite central
se pueden normalizar.

En este grfico, la lnea verde de 45 grados, representa la


igualdad entre la probabilidad acumulada esperada y la
observada; la lnea roja me muestra el comportamiento real de
los datos, mientras ms prximas sean estas dos lneas, mejor
es el ajuste del modelo y ms pequeo el tamao de los
errores con lo que se logran mejores predicciones. Para este
caso particular, vemos un comportamiento no muy lejano entre
una y otra, por lo que se considera una buena regresin.

Grfico de regresin parcial

Grfico de regresin parcial

Variable dependiente: Current salary


30000

30000

20000

20000

10000

10000

Current salary

Current salary

Variable dependiente: Current salary


40000

0
-10000
-10000

10000

20000

30000

-10000
-20000
-20

-10

10

20

30

40

Work experience

Beginning salary

Grfico de regresin parcial


Variable dependiente: Current salary
20000

10000

Current salary

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

-10000

-20000
-10

-8

-6

-4

-2

Educational level

96

Estos grficos de regresin parcial me enfrentan la variable


dependiente con cada una de las variables independientes, de
forma tal que podemos observar el comportamiento de cada uno
de los puntos y su correlacin; es til en el anlisis
cualitativo de las variables.
Para realizar un anlisis cuantitativo tendramos que sacar
los anlisis de correlacin bivariantes como se muestra a
continuacin.

Correlaciones

Current salary

Beginning salary

Work experience

Educational level

Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N

Current salary
1
.
474
,880**
,000
474
-,097*
,034
474
,661**
,000
474

Beginning
Work
Educational
salary
experience
level
,880**
-,097*
,661**
,000
,034
,000
474
474
474
1
,045
,633**
.
,327
,000
474
474
474
,045
1
-,252**
,327
.
,000
474
474
474
,633**
-,252**
1
,000
,000
.
474
474
474

**. La correlacin es significativa al nivel 0,01 (bilateral).


*. La correlacin es significante al nivel 0,05 (bilateral).

El coeficiente de correlacin de Pearson se encuentra entre 1 y 1 como ya lo hemos visto. En este caso y como tambin se
puede apreciar en la grfica, el mayor coeficiente de
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

97

correlacin se encuentra entre


salario actual y salario
inicial y es de 0.880, lo que implica un alto valor
explicativo por parte del salario inicial de un trabajador en
su carrera laboral sobre el que recibe hoy en da.
Los asteriscos implican niveles distintos de significancia
para cada una de las correlaciones.
Proceso de regresin en SPSS11.5
Una vez hemos introducido los datos en el editor, debemos
comprobar en la vista de variables, que aquellas involucradas
en el modelo de regresin sean de tipo escalar. Ya que si no
es as, no se podrn utilizar las tcnicas de regresin
comunes.

Antes de estimar cualquier modelo, debemos tener bien claro


cuales son las variables a involucrar y cules son sus
caractersticas principales para saber si cumplen o no con
los supuestos, por esta razn es necesario hacer primero un
anlisis descriptivo1 de las variables.
En el caso en que queramos realizar una regresin simple,
sera bueno primero realizar un anlisis de correlacin.

Correlacin en SPSS:
En el men Analizar, Correlaciones, Divariadas, se encuentra
esta opcin, la cual me despliega un cuadro de dilogo en el
que se incluyen las variables.

Este procedimiento se encuentra en la parte estadstica de esta gua.


UNIVERSIDAD NACIONAL COLOMBIA
98
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

Si damos clic en el botn de opciones podemos sealar


estadsticos y exclusin de valores perdidos para el
anlisis.
Dando clic en Continuar y
despus en Aceptar, obtenemos
nuestro
anlisis
de
correlacin, en el visor de
resultados.

Regresin:
Para
realizar
un
anlisis de regresin,
es
necesario
haber
establecido
la
variable independiente
en
funcin
de
las
independientes.
Despus, vamos al men
Analizar, Regresin, Lineal
principal de esta opcin:

desplegamos

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

la

ventana

99
En esta casilla
se incluye la

Aqu se incluyen

MTODO
INTRODUCIR
PASOS SUCESIVOS

ELIMINAR
HACIA ATRS

EXPLICACIN
Procedimiento
para
la
seleccin
de
variables en las que todas las variables se
introducen en un primer paso.
En cada paso se introduce la variable
independiente que no est ya incluida y que
tenga la probabilidad para F ms pequea,
si esa probabilidad es suficientemente
pequea. Las variables ya introducidas en
la ecuacin de regresin se eliminan de
ella si su probabilidad para F llega a ser
suficientemente grande. El mtodo culmina
cuando ya no hay ms variables candidatas a
ser incluidas o eliminadas.
Procedimiento
para
la
seleccin
de
variables en la que todas las variables de
un bloque se eliminan en un solo paso.
Procedimiento de seleccin de variables en
el que se introducen todas las variables en
la ecuacin y despus se van excluyendo una
tras otra. Aquella variable que tenga la
menor correlacin parcial con la variable
dependiente ser la primera considerada
para la exclusin. Si satisface el criterio
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

100

HACIA DELANTE

de eliminacin, ser eliminada. Tras haber


excluido la primera variable, se pondr a
prueba aquella variable, de las que queden
en
la
ecuacin,
que
presente
una
correlacin
parcial
ms
pequea.
El
procedimiento termina cuando ya no quedan
en la ecuacin variables que satisfagan el
criterio de exclusin.
Procedimiento de seleccin de variables en
el
que
estas
son
introducidas
secuencialmente en el modelo. La primera
variable
que
se
considerar
para
ser
introducida en el modelo, es aquella que
presenta mayor correlacin parcial negativa
o positiva con la variable dependiente.
Dicha variable ser introducida en la
ecuacin slo si satisface el criterio de
entrada, si ya entr la primera variable,
se considerar la variable independiente
que
no
est
en
la
ecuacin
y
cuya
correlacin
parcial
sea
la
mayor.
El
procedimiento termina cuando ya no existan
variables que satisfagan el criterio de
entrada.

Dando clic en la
opcin GRFICOS se
despliega
esta

ventana,
la cual:
Igualmente
aqu
podemos
generar
histogramas, grfico de probabilidad
normal y los grficos parciales.
Seleccionando
la
opcin
GUARDAR
podemos exportar valores relacionados
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

101

con los residuos a otros archivos, pero esta opcin en


realidad es poco utilizada en nuestro caso. Ms bien, podemos
emplear el botn de OPCIONES para desplegar una ventana como
la que vemos a la derecha, en la cual, podemos modificar la
probabilidad de F a travs de los niveles de significancia
para el alfa. Adems desde aqu podemos decidir si incluir o
no la constante en la prueba de regresin y escoger la
modalidad de exclusin para los valores perdidos.

El estadstico de
Durbin-Watson
sobre los
residuos, me
permite

El
botn
ESTADSTICOS
me
arroja
a
la
ventana
que
se
encuentra
a
la
izquierda;
en
ella,
podemos
seleccionar
los
estadsticos para
la
regresin
entre
diferentes
opciones
y
dependiendo
de
las
necesidades

del investigador.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

102

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

103

Amplitud de variacin: Se considera como el dato mayor menos


el dato menor de todo el conjunto de datos considerados en
toda la muestra, si consideramos a l0 el dato menor de la
muestra y al dato mayor ln entonces la amplitud de variacin
estar determinada como:
A = l0 l n

Amplitud de clase: Se considera la amplitud que deben tener


las clases consideradas para realizar un estudio estadstico.
Para n datos con k clases se determina que la amplitud de
clase es igual a:
Amplitud de clase =

k
A

Carcter estadstico: Es la propiedad que permite clasificar


a los individuos de una poblacin estadstica, puede haber de
dos tipos:
Cuantitativos: aquellos
datos que se pueden medir o
expresarse mediante un nmero sin tener que recurrir a
la frecuencia con que ocurren.
Cualitativos: aquellos datos que no se pueden medir.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

104

Comparaciones mltiples: Ocurren cuando se realizan mltiples


contrastes de hiptesis con los mismos datos, p.e. en el
anlisis de subgrupos donde se realiza un contraste global y
despus se repite el anlisis para ciertos subgrupos (p.e.
tramos de edad). En esta situacin la probabilidad de error
tipo I (error que se comete cuando se rechaza la hiptesis
nula, siendo cierta) aumenta con el nmero de contrastes. Por
ello, idealmente deberan evitarse, o usar las tcnicas
estadsticas apropiadas (p.e. Anova o la correccin de
Bonferroni).
Contraste de hiptesis: Prueba realizada para evaluar la
plausibilidad de una hiptesis dada. El resultado es la
probabilidad (valor p) de obtener el resultado encontrado, u
otro ms alejado de la hiptesis, si la hiptesis fuera
cierta. Si esta probabilidad es menor o igual que un valor
predeterminado (nivel de significacin ) se rechaza la
hiptesis.
Concordancia: Grado en que un observador, o una prueba
diagnstica, o un estudio, coincide con otro (concordancia
externa) o consigo mismo en otro momento (concordancia
interna) al observar la misma magnitud.

Datos aleatorios: Es la obtencin de datos realizada a partir


de una poblacin a los cuales no se les ha dado ninguna
prioridad.
Dato estadstico: Los datos que se considera participan en el
estudio estadstico se conoce como datos estadsticos, mas
concretamente, se consideran como los valores que se pueden
obtenerse de la observacin para formar la muestra.
Diagramas
de
barras: Se
utiliza
para
representar
datos
cualitativos y cuantitativos, con datos
de tipo
discreto. En el eje x se representan los datos ordenados en
clases mientras que en el eje y se pueden representar
frecuencias absolutas o relativas.
Distribuciones de frecuencias: Se le conoce con este nombre
al conjunto de clases que aparecen con su frecuencia
correspondiente, generalmente mediante una tabla estadstica.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

105

Diagrama de sectores: Este tipo de diagramas puede ser de


dos tipo, se puede considerar una figura geomtrica en la que
la informacin se distribuye dentro de la figura como puede
ser una dona o un anillo en el que cada porcin dentro de la
figura representa la informacin porcentual del total de
datos. La segunda opcin es la utilizacin de pasteles en los
que una porcin del pastel determinada por sectores
individuales la informacin para ese sector especifico.

Error
estndar:
Estadstico
que
indica
el
grado
de
incertidumbre con el que una estimacin obtenida en una
muestra se acerca al verdadero valor en la poblacin.
Estadstica: Es una ciencia de las matemticas encargada del
estudio del comportamiento de una poblacin mediante un
anlisis cuyo propsito es hacer inferencias a partir de un
subconjunto de datos, llamado muestra, tomados de ella.
Estadstica inferencial o inductiva: Sirve extrapolar los
resultados obtenidos en el anlisis de los datos y a partir
de ello predecir acerca de la poblacin, con un margen de
confianza conocido. Se apoya fuertemente mediante el clculo
de probabilidades.
Estadstica descriptiva o deductiva: Se construye a partir de
los datos y la inferencia sobre la poblacin no se puede
realizar, al menos con una confianza determinada, la
representacin de la informacin obtenida de los datos se
representa mediante el uso de unos cuantos parmetros,
tablas y algunas graficas planteadas de tal forma que den
importancia los mismos datos a travs de parmetros que
caractericen la distribucin.
Estadstico: Es el trmino que se utiliza para designar al
profesional que se dedica al anlisis de la informacin
estadstica, al que en ocasiones tambin se le conoce como
estadgrafo.
Estadgrafo: Es el trmino utilizado para designar a la
persona dedicada a las tareas propias de la estadstica,
aunque en ocasiones tambin es frecuente que se utilice para
designar
a
la
variable
que
define
una
distribucin
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

106

estadstica, de esta forma es comn escuchar


estadgrafo de prueba. Estandarizacin: Mtodo
para comparar tasas de dos grupos con potenciales
confusin . Tpicamente se estandariza por edad y

el trmino
estadstico
factores de
sexo.

Estimador: Medida resumen calculada en una muestra, p.e.


media, riesgo, riesgo relativo, etc. Los estimadores se usan
para hacer inferencias sobre la poblacin. Deberan ir
acompaados de su correspondiente error estndar
Estimacin ajustada: Opuesto a estimacin "cruda". Cuando se
encuentran diferencias entre las estimaciones de algn
parmetro en dos grupos con diferentes factores de riesgo, no
es fcil interpretar esas diferencias. Se denomina estimacin
ajustada a la realizada teniendo en cuenta esos factores. Los
habituales son estratificacin, estandarizacin y modelos de
regresin.
Estratificacin: Procedimiento para calcular estimaciones o
realizar contrastes de hiptesis, para cada nivel, o estrato,
de una variable categrica y despus calcular una estimacin
global para todos los estratos. El mtodo ms usado es el de
Mantel-Haenszel.
Estudio caso-control (ECC): Es un diseo de estudio en el que
se seleccionan dos grupos de individuos, uno tiene el
resultado de inters (casos) y el otro no lo tiene
(controles) y se observa "hacia atrs" si hay diferencia en
la exposicin.
Estudio crossecional o transversal: Es un diseo de estudio
en el que se observa en un punto o intervalo temporal a una
poblacin definida. Exposicin y resultado son observados
simultneamente.
Estudio de
seleccionan
exposicin
tiempo para

cohorte: Es un diseo de estudio en el que se


dos grupos (cohortes) de individuos, uno tiene la
de inters y el otro no y se les sigue en el
observar diferencias en el resultado de inters.

Estudio ecolgico: Es un diseo de estudio en el que se


observan datos agregados de una poblacin, en un punto o
intervalo temporal para investigar la relacin entre una
exposicin y un resultado.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

107

Exactitud: De una prueba diagnstica: grado en que sus


resultados coinciden con un patrn de referencia claro y
objetivo.
Experimento
aleatorio:
Experimento
en
el
que
existen
diferencias de una muestra a otra, cuyas muestras pese a ser
de una misma poblacin son diferentes.

Factor de riesgo: Factor relacionado con el riesgo de que


ocurra un evento
Frecuencia absoluta f(xi): Se determina como el nmero de
veces que se repite un dato xi.
Frecuencia absoluta acumulada Fi: Para un determinado valor
se considera como la frecuencia de cada dato xi mas la suma
de los valores anteriores a dicha suma.
Frecuencia relativa hi: Es el cociente fi /N , donde N es el
nmero total de datos.
Frecuencia relativa acumulada Hi:

Es el cociente Fi /N .

Histogramas: Los histogramas de frecuencias son grficas que


representan un conjunto de datos que se emplean para
representar informes de una variable cuantitativa. En el eje
horizontal o de las abscisas se representan los valores
tomados por la variable, en el caso de que los valores
considerados sean continuos la forma de representar los
valores es mediante intervalos de un mismo tamao llamados
clases. En el eje vertical se representan los valores de las
frecuencias de los datos. Las barras que se levantan sobre la
horizontal y hasta una altura que representa la frecuencia.
Un punto importante en el manejo de la informacin bajo el
uso de histogramas es el hecho de poder comparar, bajo un
proceso en control, que a medida que se crecen las clase
tiene aproximadamente la forma de una campana centrada, es la
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

108

de una de las distribuciones mas importantes conocidas como


frecuencia normal o gaussiana.
Homogeneidad: Significa "similaridad". Se dice que unos
estudios son homogneos si sus resultados no varan entre s
ms de lo que puede esperarse por azar. Lo opuesto a
homogeneidad es heterogeneidad.

Inferencia: Trmino utilizado


hecha acerca de una poblacin.

para

indicar

la

prediccin

Intervalo de confianza (IC): Es el intervalo dentro del que


se encuentra la verdadera magnitud del efecto (nunca conocida
exactamente) con un grado prefijado de seguridad, suponiendo
que el estudio sea vlido. A menudo se habla de "intervalo de
confianza al 95%" (o "lmites de confianza al 95%"). Quiere
decir que dentro de ese intervalo se encontrara el verdadero
valor en el 95% los casos.

Modelo de regresin: Modelo estadstico de dependencia entre


una variable resultado (variable dependiente) y varias
variables predictoras (variables independientes). Se puede
usar bien para predecir la variable resultado, o bien para
estimar la relacin entre la variable resultado y otra
controlando por potenciales variables de confusin.
Muestra:: Grupo de individuos elegidos de un grupo ms amplio
(poblacin) de acuerdo a un criterio preestablecido. Los
mtodos estadsticos asumen que las muestras son aleatorias.
Muestra aleatoria: Muestra elegida de tal modo que todos los
individuos de la poblacin tienen la misma probabilidad des
ser elegidos y son elegidos independientemente.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

109

Poblacin: Es conjunto de elementos que tiene caractersticas


comunes, al menos una. Por ejemplo, una poblacin es el grupo
de estudiantes de un pas. En el caso particular de la
estadstica la poblacin constituye el objeto de estudio, es
decir, la poblacin es el conjunto de individuos o entes que
constituyen el objeto de estudio sobre el que se desea
predecir un comportamiento a partir del estudio.
Precisin: Grado en que un instrumento de medida o un
estadstico produce los mismos resultados al aplicarse sobre
la misma magnitud (instrumentos) o poblacin (estadsticos).
La precisin de un estadstico se estima por el intervalo de
confianza .
Promedio de datos: Es la cantidad que se obtiene al sumar el
conjunto de datos que intervienen en la muestra entre el
total de datos, este tambin es conocido como media
aritmtica o simplemente media y se calcula como:
x=

xi
n

Polgono
de
frecuencias:
Representaciones
grficas
alternativas
al
histograma
de
frecuencias.
Estos
se
construyen a partir de los puntos medios de cada clase. La
utilizacin de los puntos medios o marcas de clase son
llevados al escenario grfico mediante la utilizacin de los
polgonos de frecuencias. Se construye uniendo los puntos
medios de cada clase localizados en las tapas superiores de
los rectngulos utilizados en los histogramas de las
grficas. Su utilidad se hace necesaria cuando desean
destacarse las variables de tendencia central, como son
media, modas y medianas.
Pictogramas: El pictograma consiste en la utilizacin de
smbolos para representar un conjunto de datos.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

110

Recorrido de una distribucin: Es la diferencia que existe


entre el valor mximo
del conjunto de datos y su valor
mnimo.
Riesgo: Probabilidad de ocurrencia de un evento dado. Se
estima por la proporcin de individuos en los que se observa
el evento. Si en un grupo de 100 individuos se observan 15
eventos, el riesgo estimado es 0,15 o 15%.

Sesgo: Es la desviacin sistemtica entre el resultado


obtenido y el verdadero valor, debido a la forma en que se
hizo el estudio.
Significacin estadstica : Modo habitual de referirse al
resultado de un contraste de hiptesis. Se dice que un
contraste es estadsticamente significativo cuando su "valor
p" es menor que un valor predeterminado (y arbitrario),
habitualmente 0,05. Hay que notar que la significacin
estadstica depende de la variabilidad de la medida y del
tamao muestral. Para muestras grandes, diferencias pequeas
pueden ser significativas. En el extremo, si se estudiara
toda la poblacin, cualquier diferencia distinta de 0 sera
significativa.

Tamao de muestra: El nmero de elementos que intervienen


dentro de la eleccin de la muestra extrada de una
poblacin.

Variables nominales: Son aquellas variables que son descritas


por algunas caractersticas de sus integrantes.
UNIVERSIDAD NACIONAL COLOMBIA
FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

111

Variables cuasicuantitativas: Son variables nominales que a


pesar de ello se pueden ordenar entre s, un ejemplo de ellas
lo logran representar los valores que pueden tomar los
corredores en una competencia, en la forma en que llegan a
la meta, primer lugar, segundo lugar, etc.
Variables cualitativas: Son aquellas variables que como su
nombre lo indica estn relacionadas con sus caractersticas
exteriores.
Variables cuantitativas: Estas variables son caracterizadas
por alguna informacin numrica que se le puede asociar a los
individuos de la una poblacin. Esta caracterizacin puede
ser clasificada en discreta y continua.
Variables cuantitativas discretas: Son aquellas cuyo valor
esta determinado por valores enteros.
Variables cuantitativas continuas: Son aquellas cuyo valor
esta determinado por valores reales, generalmente esas
variables pueden tomar toda una gama de valores dentro de la
recta real.
Variables aleatorias continuas: Permiten una infinidad de
valores al azar dentro de un intervalo, considerndose
variables continuas precisamente por la posibilidad de poder
tomar cualquier valor dentro de una infinidad de valores.
Las
variables
cuya
Variables
aleatorias
discretas:
naturaleza toma un nmero finito de valores enteros, tales
como: los estudiantes de la escuela de medicina de una
universidad, los alumnos reprobados en la materia de
matemticas, el nmero de peces en un estanque, el nmero de
cursos que un estudiante debe cursar para graduarse,
etctera. El conjunto de valores que podra de tomar una
variable aleatoria discreta
puede ser finita o infinita
numerable.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

112

Sin lugar a dudas, SPSS 11.5 es una herramienta esencial en


los anlisis estadsticos y economtricos ya sea a nivel
empresarial, gubernamental, en el mbito macro o micro.
Adems presenta un fcil manejo a travs de un entorno de
ventanas que le ayudan al usuario hacia una familiarizacin
ms rpida con el programa.
En el nivel estadstico, SPSS hace una clara distincin entre
variables, ya que de ello dependen los diferentes anlisis ,
sealando en cada caso los errores que se cometen al intentar
realizar anlisis con variables inapropiadas. De esta forma,
el programa no slo constituye una herramienta post- muestra
sino que tambin es til en la escogencia y preparacin de
los
datos.
Obviamente
esto
aplica
tambin
para
las
regresiones economtricas.
SPSS 11.5 permite un entorno grfica ms detallado y amigable
para el usuario lo que mejora la calidad de los informes y
anlisis.
Para manejar la herramienta en la parte Estadstica y
Economtrica que es a la que se dedica este manual, es
necesario entender los conceptos bsicos de probabilidad y
correlacin lineal adems de un repaso bsico de las
funciones principales del programa, vistas por supuesto ene.
Curso bsico de SPSS. Sin embargo,
no es necesario ste
ltimo como prerrequisito para acceder a este nivel.
Para terminar, pensamos que a travs del manejo ptimo del
programa; es casi inevitable el mejorar nuestra formacin
acadmica
y
ponernos
a
la
vanguardia
en
formacin
profesional.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

113

ACUA, Edgar, Regresin Lineal Mltiple,Captulo 2.


Archivo PDF Introduccin al
CAMACHO ROSALES, J.: Estadstica con SPSS para
Windows, Madrid, Ra-Ma,1998.
ISAUTA VINACUA, B (1997): Anlisis estadstico con SPSS
para Windows Mc Graw Hill, Madrid.
Medina, Eva: Modelos Economtrico E Informacin
Estadstica, Febrero 2002
PREZ MORALES, Germn; JIMNEZ TORIBIO, Ramn:
Introduccin a SPSS, Universidad de Huelva, Espaa.
SPSS, Procesamiento y Manejo Bsico de Datos, Archivo
en PDF.

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

114

www.spss.com
www.statsofting.com
www.uesiglo21.edu.ar/pdfs%20dpto%20economia/
microeconomia_Mirta_Santana/UNIDAD06.pdf
www.uesiglo21.edu.ar/pdfs%20dpto%20economia/
microeconomia_Mirta_Santana/UNIDAD07.pdf

www.etsii.upm.es/ingor/estadistica/
docencia/apuntes/tema11.pdf
www.monografas.com
cca.uprm.edu/agronomia/profesores/base/rmacchiavelli/
extra/agro6600/conferencia22.htm
www.economia.ufm.edu.gt/catedraticos/ jhcole/regresion.pdf

UNIVERSIDAD NACIONAL COLOMBIA


FACULTAD DE CIENCIAS ECONMICAS
UNIDAD DE INFORMTICA

115

Vous aimerez peut-être aussi