Vous êtes sur la page 1sur 15

Captulo 3

Captulo 3

Anlisis de Regresin Simple

Anlisis de Regresin Simple


1. Introduccin
El anlisis de regresin lineal, en general, nos permite obtener
una funcin lineal de una o ms variables independientes o predictoras (X1, X2, ... XK) a partir de la cual explicar o predecir el valor
de una variable dependiente o criterio (Y). En el anlisis de regresin lineal podemos diferenciar entre anlisis de regresin lineal
simple y anlisis de regresin lineal mltiple. En el primero, se
intenta explicar o predecir la variable dependiente Y a partir de una
nica variable independiente, X1; mientras que en el segundo,
contamos con un conjunto de variables independientes, X1, X2, ...
XK, para estimar la variable dependiente Y. En ambos casos, tanto
la variable dependiente como la/s independiente/s estn medidas
en escala de intervalo o de razn.
En este captulo nos vamos a ceir al anlisis de regresin
lineal simple posponiendo para el prximo captulo la regresin
lineal mltiple que, como tendremos ocasin de apreciar, comparte mucho de lo que en estas lneas se recoge. El anlisis de regresin lineal simple tiene por finalidad predecir y/o estimar los
valores de la variable dependiente a partir de la obtencin de la
funcin lineal de la variable independiente. La anotacin matemtica de la ecuacin de regresin simple se anota como sigue:
Y = a + b1x1 + e

presente = a + b1pasado + e
en



donde:
Y es la variable a predecir;
a y b1X1 son parmetros desconocidos a estimar;
y e es el error que cometemos en la prediccin de los par-
metros.

No obstante, antes de proceder a la estimacin de los parmetros, y con ellos a la concrecin de una ecuacin predictiva,
debemos corroborar que, efectivamente, los datos sometidos a
Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

anlisis se adaptan a un modelo de regresin lineal. La leccin la


hemos estructurado en los siguientes puntos:
1. Exposicin de los estadsticos que nos permiten valoracin de la bondad de ajuste de los datos al modelo de
regresin lineal simple.
2. Si los estadsticos certifican que entre los datos se produce una asociacin lineal, podremos pasar a estimar los
parmetros de la ecuacin lineal (B0 y B1), a partir de los
cuales podremos efectuar predicciones de la variable
dependiente. Cabe advertir que en el supuesto caso en
el que los estadsticos rechazaran la asociacin lineal
entre los datos, no significa que entre ellos se produzca
otro tipo de relacin (como la curvilnea).
3. Por ltimo, exponemos la secuencia de pasos que nos
permiten determinar lo arriba apuntado. En el anlisis
de regresin simple, y con la finalidad de obtener la
mayor informacin posible respecto a la relacin y asociacin entre las dos variables, vamos a trabajar con tres
Cuadros de Dilogos, a saber: Cuadro de Dilogo de
Correlaciones Bivariadas. Cuadro de Dilogo de
Grficos; y Cuadro de Dilogo del Anlisis de Regresin
Lineal Mltiple.

2. Bondad de ajuste de los datos al modelo de regresin


lineal simple
Antes de poder aplicar el modelo de regresin lineal simple
para predecir los valores que alcanzar una determinada variable
criterio, debemos certificar que los datos a los que sometemos a
dicho anlisis se ajustan al modelo de regresin lineal simple; o
lo que es lo mismo, debemos analizar el grado de asociacin
lineal entre la variable dependiente y la independiente as como
determinar la proporcin de variabilidad de la variable dependiente explicada por la independiente.
Los principales estadsticos y pruebas que nos permiten
valora la bondad de ajuste de los datos al modelo de regresin
lineal simple son.
1.- Coeficiente de Correlacin Lineal Simple (r).
Mide el grado de asociacin lineal entre dos variables. Este
estadstico oscila entre 1 (fuerte asociacin lineal positiva: a medi-

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

da que aumenten los valores de una variable aumentarn los de


la otra) y 1 (fuerte asociacin lineal negativa: a medida que
aumenten los valores de una variable disminuyen los de la otra).
Cuando los valores de este estadstico se aproximen a 0 nos
estar indicando que entre las dos variables no existe asociacin
lineal y, en consecuencia, carece de sentido determinar el modelo y/o ecuacin de regresin lineal. Resulta muy interesante
comparar este coeficiente junto con el Scatter Plot de la nube de
puntos (grfico 1 del anexo de resultados), ya que el grfico nos
ofrece una representacin elocuente de la distribucin y relacin
de las dos variables relacionadas. Si la nube de puntos forma una
forma indefinida y muy dispersa, nos indica la inexistencia de
relacin entre las variables. Si por el contrario, se observa una
forma definida y proximidad entre los puntos, habr relacin
entre las variables caracterizada por la forma y distribucin que
adopte.
Para determinar si la asociacin es estadsticamente significativa podemos contrastar la H0 de que el coeficiente de correlacin
lineal es igual a 0; o lo que es lo mismo, que las dos variables
estn incorrelacionadas. Si el p-valor asociado al estadstico de
contraste (r) es menor que el nivel de significacin elegido (normalmente 0.05) rechazaremos H0. En la matriz de correlaciones
se recogen estos dos valores: en primer lugar aparece el grado
de relacin (r) que se produce entre las dos variables que cruzamos; y en segundo lugar, la significacin estadstica de esa relacin.
Debemos hacer notar que pese a que estemos efectuando
un anlisis de regresin lineal bivariado, el proceso que seguimos es el del anlisis de regresin multivariable. El cuadro de
dilogo del anlisis multivariado ofrece una informacin ms
rica de ah la tendencia generalizada a utilizar ste en detrimento del cuadro de dilogo de regresin simple. Por esta razn,
vamos a ver como en las salidas del ordenador, y pese a estar
realizando un anlisis con dos variables, a este coeficiente se le
denomina coeficiente de Correlacin Mltiple (Multiple R),
residiendo la explicacin en el hecho de que va a ser siempre
el anlisis multivariable el que apliquemos indistintamente si
nos encontramos trabajando con dos variables, como es ahora
el caso, o con ms variables, como se ver en el prximo captulo. No debemos confundir el coeficiente de correlacin mltiple (mide el grado de asociacin entre la variable dependiente
y un conjunto de variables independientes), del los coeficientes

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

de correlacin lineal simple (aparecen en la matriz de correlaciones).


2.- Coeficiente de Correlacin Mltiple al Cuadrado
o Coeficiente de Determinacin (R Square R2).
El coeficiente de determinacin se define a partir del coeficiente de correlacin mltiple (R) y mide la proporcin de variabilidad de la variable dependiente explicada por la variable independiente introducida o por la recta de regresin. Si el valor que
resulta lo multiplicamos por 100, obtendremos el porcentaje de
variabilidad explicada.
3.- Coeficiente de Determinacin Ajustado (Adjusted
R Square).
Pese a que R2 se viene utilizando como medida de ajuste al
modelo, presenta el inconveniente de que a medida que vamos
incrementando el nmero de variables que participan en el
modelo (ser el caso propio del anlisis multivariable) mayor es
su valor de ah que la R2 sobrestime el verdadero R de la poblacin. Por esta razn, algunos autores recomiendan utilizar el
Coeficiente de Determinacin Ajustado pues ste no aumenta,
necesariamente, a medida que aadimos variables a la ecuacin.
Este estadstico queda ajustado por el nmero de observaciones
y el nmero de variables independientes incluidas en la ecuacin.
4.- Error Tpico de Prediccin (ETB).
El error tpico de la prediccin es la parte de la variable
dependiente que dejamos de explicar ya sea porque nos falte
alguna variable por introducir, o bien, porque las variables que
hemos elegido no son ms las adecuadas. Su clculo se establece a partir de la desviacin tpica de la variable dependiente y el
coeficiente de determinacin ajustado.
5.- Anlisis de Varianza.
La tabla de anlisis de varianza que incluye en su salida el
SPSS nos permite valorar hasta qu punto es adecuado el modelo de regresin lineal para estimar los valores de la variable
dependiente. La tabla de anlisis de varianza se basa en que la
variabilidad total de la muestra puede descomponerse entre la
variabilidad explicada por la regresin y la variabilidad residual.
La tabla de ANOVA proporciona el estadstico F a partir del cual
podemos contrastar la H0 de que R2 es igual a 0, la pendiente
de la recta de regresin es igual a 0, o lo que es lo mismo, la

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

hiptesis de que las dos variables estn incorrelacionadas. Si el


p-valor asociado al estadstico F es menor que el nivel de significacin (normalmente 0.05), rechazaremos la hiptesis nula
planteada.
6.- Anlisis de Residuales.
Como ya hemos comentado los residuos, e, son la estimacin de los verdaderos errores. En regresin lineal la distribucin
de la variable formada por los residuos debe ser Normal, esto es,
los residuos observados y los esperados bajo hiptesis de distribucin normal deben ser parecidos. Adems, los residuos deben
ser independientes. En consecuencia, el anlisis de los residuales
nos va a permitir no solo profundizar en la relacin que se produce entre las dos variables, sino tambin, ponderar la bondad
de ajuste de la regresin obtenida.
Para contrastar la supuesta normalidad de los residuales
podemos recurrir, fundamentalmente, a la representacin de dos
grficos: (1) el grfico de residuales tipificados (grfico 2
del anexo de resultados) nos da idea de cmo se distribuyen los
residuos en relacin a la distribucin normal (que sera la que
cabra esperar de los mismos). Si ambas distribuciones son iguales (la distribucin de los residuos es normal) los puntos se sitan
sobre la diagonal del grfico. Por lo contrario, en la medida que
aparecen dispersos y formando lneas horizontales respecto a la
diagonal, habr ms residuos y el ajuste ser peor; (2) el grfico
de probabilidad normal (grfico 3 del anexo de resultados)
compara grficamente, al superponer la curva de distribucin
normal, la funcin de distribuciones acumulada observadas en la
muestra con la funcin de distribucin acumulada esperada bajo
supuestos de normalidad.
Por su parte el estadstico de Durbin-Watson mide el grado
de autocorrelacin entre el residuo correspondiente a cada observacin y el anterior (si los residuos son independientes, el valor
observado en una variable para un individuo no debe estar
influenciado en ningn sentido por los valores de esta variable
observados en otro individuo). Si el valor del estadstico es prximo a 2 los residuos estn incorrelacionados; si se aproxima a 4,
estarn negativamente incorrelacionados; y si se aproximan a 0
estarn positivamente incorrelacionados.

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

3. Estimacin de los parmetros o coeficientes de regresin:


la ecuacin de prediccin o ecuacin de regresin simple
Una vez que ya hemos analizado el carcter e intensidad de
la relacin entre las variables, podemos proceder a estimar los
parmetros de la ecuacin de prediccin o de regresin lineal. El
criterio para obtener los coeficientes de regresin B0 y B1 es el
de mnimos cuadrados. Este consiste en minimizar la suma de
los cuadrados de los residuos de tal manera que la recta de regresin que definamos es la que ms se acerca a la nube de puntos
observados y, en consecuencia, la que mejor los representa.
Los estadsticos asociados a la variable independiente que a
pasado a formar parte del modelo de regresin simple son:
1.- Coeficiente de regresin B.
Este coeficiente nos indica el nmero de unidades que
aumentar la variable dependiente o criterio por cada unidad que
aumente la variable independiente.

2.- SEB.
Error tpico de B.

3.- Coeficiente Beta.


El coeficiente Beta es el coeficiente de regresin estandarizado. Expresa la pendiente de la recta de regresin en el caso de
que todas las variables estn transformadas en puntuaciones Z.
4.- Constante.
El valor de la constante coincide con el punto en el que la
recta de regresin corta el eje de ordenadas. En la ecuacin de
prediccin se mantiene constante para todos los individuos.
Cuando las variables han sido estandarizadas (puntuaciones Z) o
si se utilizan los coeficientes Beta, la constante es igual a 0 por
lo que no se incluye en la ecuacin de prediccin.
5.- Tolerancia.
Tolerancia es la proporcin de variabilidad no explicada por
el resto de variables (1-R2). Cuanto mayor sea la T ms independiente es la variable en cuestin.

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

6.- Valor T.
El estadstico T nos permite comprobar si la regresin entre
una variable independiente y la dependiente es significativa. Si el
p-valor asociado al estadstico T (Sig T) es mayor al nivel de
significacin (normalmente 0.05) rechazaremos que la regresin
sea significativa para las dos variables relacionadas.
En nuestro caso la significacin del estadstico T asociado al
modelo generado con la nica variable independiente que disponemos es inferior a 0.05 de ah que podamos ratificar el carcter
predictivo de dicha variable y podamos, en consecuencia, exponer la ecuacin del modelo. En el ejemplo que recogemos en la
seccin de Resultados, la transcripcin de los resultados a la
ecuacin quedara como sigue:

Y = a + b1x1 + e

presente (p7A) = 0,51 + 0,87pasado (p7B) + e

en el supuesto caso de que los valores de las variables siguieran


una escala diferente, tendramos que estandarizar utilizando los
coeficientes Beta, y no B. Del mismo modo, al contar con la
misma escala la constante ser cero.
presente (p7A) = 0 + 0,87pasado (p7B) + e

Figura 1

Una vez expuestos, desde un punto de vista terico, los


principales elementos que debemos considerar a la hora de abordar una anlisis de regresin simple, su obtencin informtica
parte de la consideracin de tres cuadros de dilogos. Este proceso, como tenderemos ocasin de apreciar, se simplifica en el
anlisis de regresin mltiple.

4. Cuadro de Dilogo de Correlaciones Bivariadas


El primer paso a desarrollar consiste en determinar la efectiva
y real relacin lineal entre dos variables; esto es, debemos contar
con la matriz de correlaciones. Para ello, en primer lugar,
debemos elegir las dos variables que van a participar en la relacin bivariada.
1er paso: Para poder seleccionar las dos variables seguiremos
la secuencia Analizar: Correlaciones: Bivariadas (figura 1).

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

Figura 2

2 paso: Una ver en el Cuadro de Dilogo de correlaciones


bivariadas seleccionaremos de la lista de variables las dos que
nos interese relacionar. La seleccin deber pasar al cuadro situado a la derecha (figura 2). En el ejemplo que reproducimos,
hemos seleccionado las variables continuas p7A SITUACIN
ACTUAL ESPAOLA (variable dependiente o criterio) y p7B
SITUACIN ESPAOLA PASADA (variable independiente o
predictora).Para valorar la relacin y el ajuste de los datos al
modelo de regresin debemos seleccionar, en el mismo cuadro
de dilogo, el Coeficiente de Correlacin de Pearson y
las Correlaciones significativas con una Prueba de
Significacin Bilateral.

5. Cuadro de Dilogo de Grficos de Dispersin


3er paso: Para valorar la bondad de ajuste de los datos
podemos acompaar al coeficiente seleccionado de su correspondiente Scatter Plot. Dicho grfico lo podemos seleccionar
en Grficas: Dispersin: Simple (figuras 3 y 4).
4 paso: Una vez en el cuadro de dilogo del Diagrama de
dispersin simple (figura 5) debemos indicar la variable dependiente colocndola en el Eje Y as como la variable independiente situndola, en este caso, en el cuadro del Eje X. En este
grfico de dispersin de los valores X contra los de Y se observa
la fuerza, direccin y forma de la relacin entre las variables.

Figura 3

Figura 4

En el ejemplo que reproducimos, hemos seleccionado las


variables continuas p7A SITUACIN ACTUAL ESPAOLA
(variable dependiente o criterio) y p7B SITUACIN ESPAOLA
PASADA (variable independiente o predictora). El grfico de
dispersin es el que aparece en el grfico 1 que figura en el
anexo de resultados. De su anlisis podemos comprobar que en
efecto existe relacin entre las dos variables seleccionadas. La
nube de puntos tiene una forma definida y los puntos se encuentran, ms o menos, agrupados.

6. Cuadro de Dilogo del Anlisis de Regresin Lineal


En la introduccin del captulo hemos presentado a los anlisis de varianza y de residuales, como dos buenos criterios para
valorar la bondad de ajuste de los datos al modelo de regresin

10

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

Figura 5

lineal. Estos anlisis, as como los estadsticos R, R2, R2 Ajustada


y Error Tpico, solo se obtienen desde el Cuadro de Dilogo del
Anlisis de Regresin Lineal, el cual, se convierte en el cuadro
especfico del anlisis de regresin mltiple al permitirnos seleccionar ms de una variable independiente. A partir de ahora, y
como ya hemos comentado, el Anlisis de Regresin Bivariado,
sigue el mismo procedimiento, como veremos ms adelante, que
el Anlisis de regresin Mltiple. Lo nico que va a cambiar es
la eleccin del nmero de variables con las que vamos a trabajar.
Por lo tanto, las salidas de ambos anlisis ser la misma.

Para completar la informacin respecto a la relacin que se
produce entre las dos variables debemos solicitarla, pues, en el
Cuadro de Dilogo correspondiente al Anlisis de
Regresin Lineal.
5er paso: Al cuadro de dilogo se llega siguiendo la
secuencia Analizar: Regresin: Lineal (figura 6).

Figura 6

Figura 7

Figura 8

6 paso: Una vez en l, deberemos especificar e introducir


en sus correspondientes cuadros, la variable dependiente y la
variable independiente (figura 7). Aqu nuevamente la variable
p7A SITUACIN ACTUAL ESPAOLA har las veces de variable dependiente o criterio y p7B SITUACIN ESPAOLA
PASADA de variable independiente o explicativa.
7 paso: Cliqueando sobre el botn de comando
Estadsticas, situado en la parte inferior del cuadro de dilogo
principal, podremos (figura 8): obtener el estadstico DurbinWatson, que nos permite realizar el anlisis sobre los Residuos;
los estadsticos Descriptivos bsicos, que podremos utilizar en la
interpretacin y anlisis de la relacin (entre los que destaca la
Matriz de Correlaciones para analizar la relacin y significacin); los estadsticos que nos permiten valorar el Ajuste del
modelo (R, R2, R2 Corregida y el error tpico de la estimacin);
por defecto, y tambin como criterio de validacin del modelo nos
presenta el anlisis de varianza; y, por ltimo, solicitaremos que
nos calcule las Estimaciones de los Coeficientes de regresin, lo que nos permitir concretar la ecuacin predictiva.
8 paso: Como complemento al estadstico de DurbinWatson cliqueando en el botn de Grficos del cuadro de dilogo
principal de regresin lineal podremos solicitar los grficos
Histograma y Grfico de Probabilidad Normal (figura 9).

Estadstica Informtica: casos y ejemplos con el SPSS

11

Captulo 3

Anlisis de Regresin Simple

Figura 9

Los hechos y fenmenos sociales, complejos por naturaleza,


son explicados no por una nica causa sino por una pluralidad
de ellas. Con la revolucin informtica se consolida la perspectiva del anlisis multivariable relegando a un segundo plano el
enfoque univariado del que el anlisis de regresin simple forma
parte. La aplicacin de esta tcnica, tal y como hoy es concebida
y aplicada la investigacin en ciencias sociales, se cie a dar
respuesta puntual de alguna cuestin formando parte de una
estrategia global de investigacin. En este apartado recogemos
cmo es aplicado este anlisis en un aspecto muy puntual del
anlisis demogrfico.

7. Bibliografa Comentada
Dez Nicols, Juan (1997): La estructura de los hogares
espaoles, en Rafael Puyol (ed.) (1997), Dinmica de la poblacin en Espaa. Cambios demogrficos en el ltimo cuarto del
siglo XX, Madrid, Sntesis, pp. 145-166.

El captulo, entre otras muchas consideraciones, analiza


la reduccin del tamao promedio de los hogares espaoles. Con el objetivo de de comprobar si es la baja
fecundidad o el alto nmero de hogares unipersonales
el factor que ms influye en el tamao promedio de los
hogares se ha aplicado un anlisis de regresin simple
tomando como unidad de anlisis los 12 paises de la
Unin Europea (este anlisis tambin se ha aplicado
para el conjunto de CCAA). Se ha comprobado que la
correlacin entre el ndice de fecundidad y el tamao
medio de hogares es muy baja y negativa (r = -0.02);
mientras que la correlacin entre la proporcin de hogares unipersonales sobre el total y el tamao medio de
los hogares es muy alta y tambin negativa (r= -0.90).
El anlisis ha demostrado que tanto para la Unin
Europea como para el conjunto de CCAA, el tamao
medio de los hogares depende ms de la proporcin de
hogares unipersonales que de la fecundidad en el sentido de que cuanto mayor el la proporcin de hogares
unipersonales sobre el total de hogares de una sociedad
ms pequeo es el tamao medio de los hogares. Lo
que explica la reduccin del tamao en los hogares en

12

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

la actualidad no es la baja fecundidad, sino el incremento en la proporcin de hogares unipersonales.

8. Resultados
En el anexo que sigue se recogen las salidas de resultados
que el paquete estadstico SPSS ofrece cuando es la tcnica de
regresin simple la que se ha aplicado.
En primer lugar, el programa nos ofrece una tabla y un
grfico que dan cuenta de la bondad de ajuste de los
datos al modelo de regresin simple: la tabla en donde
aparece la matriz de correlaciones (cuadro de dilogo de correlacin bivariada); y el grfico scatter plot
(del cuadro de dilogo de grficas de dispersin).
A continuacin se presentan el resto de tablas y grficos
obtenidos a partir de las restricciones impuestas en el cuadro de
dilogo de regresin lineal (el que aplicaremos en el anlisis de
regresin mltiple).
De este modo, se exponen las tablas que recogen informacin bsica tanto del proceso como de las variables sometidas a anlisis; esto es, la tabla de descriptivos bsicos
y la de matriz de correlaciones parciales.
A continuacin se presenta una tabla (resumen del
modelo) en la que se relaciona una serie de estadsticos
a partir de los cules valorar la bondad de ajuste de
los datos del modelo. Con la misma finalidad se presenta
la tabla de anlisis de varianza. Incluye el estadstico
Durbin-Watson que nos permite analizar la independencia de los residuales. Estas tablas, y los estadsticos adscritos a las mismas, complementan la informacin ya
aportada en las primeras tablas de informacin.
En tercer lugar, nos encontramos con la tabla en la que
aparecen los coeficientes de la ecuacin predictiva.
sta se forma a partir de los coeficientes no estandarizados (B) cuando los valores de las dos variables tienen la
misma escala. En el caso contrario deberemos elegir los
coeficientes Beta.

Estadstica Informtica: casos y ejemplos con el SPSS

13

Captulo 3

Anlisis de Regresin Simple

Por ltimo, la exposicin de resultados se cierra con dos


representaciones grficas cuya finalidad es facilitar el
anlisis respecto al tipo de distribucin de los residuales:
grfico de residuos tipificados y grfico de probabilidad normal.

8.1.

Matriz de Correlaciones
Correlaciones bivariadas)

(Cuadro

de

dilogo

de

8.2. Grfico de Dispersin (Cuadro de dilogo de Grficos de


Dispersin) (Grfico 1).

14

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

8.3. Estadsticos bsicos (Cuadro de dilogo de Regresin


Lineal)

8.4. Matriz de Correlaciones Parciales

8.5. Resumen del proceso STEPWISE: relacin y eliminacin de


variables

8.6. Estadsticos de Bondad de Ajuste

Estadstica Informtica: casos y ejemplos con el SPSS

15

Captulo 3

Anlisis de Regresin Simple

8.7. Tabla de Anlisis de Varianza

8.8. Estimaciones de parmetros o coeficientes de correlacin:


la ecuacin de prediccin

8.9. Grafico de distribucin de residuales (grfico 2)

16

Estadstica Informtica: casos y ejemplos con el SPSS

Captulo 3

Anlisis de Regresin Simple

8.9. Grafico de probabilidad normal (grfico 3)

Estadstica Informtica: casos y ejemplos con el SPSS

17

Vous aimerez peut-être aussi