Vous êtes sur la page 1sur 14

5

Correlaciones y
Anlisis de
Regresin

=1
=

5. Correlaciones y Anlisis de Regresin

5. Correlaciones y Anlisis de Regresin

En el tema 1 estudiamos y estimamos el ndice de correlacin de Pearson con Excel. Si


recordis, con este ndice se estimaba la relacin entre dos variables cuantitativas (de intervalo
o de razn). En este tema 5 profundizaremos en el conocimiento de este ndice, as como
otros, y abordaremos una poderosa estrategia de anlisis basada en la correlacin: el Anlisis
de Regresin.

5.1. Correlacin Lineal Bivariada


El ndice de correlacin es una estimacin del grado en el que dos variables varan
conjuntamente. Esta correlacin (o relacin) puede ser lineal, curvilnea, logstica... En
investigacin educativa, la gran mayora de las correlaciones que se trabajan son lineales, por
lo que nos centraremos en estas. Si la correlacin se da entre dos variables se denomina
correlacin simple o bivariada.

Dentro de las correlaciones lineales bivariadas tenemos diferentes ndices o coeficientes,


dependiendo del tipo de variables que tengamos. Los ms habituales y que nos ofrece el SPSS
en el cuadro "Correlaciones bivariadas" son:
Coeficiente de correlacin de Pearson
Rho de Spearman
Tau-b de Kendall
El Coeficiente de Correlacin de Pearson es el ms utilizado para estudiar el grado de relacin
lineal entre dos variables cuantitativas (de intervalo o de razn) y se obtiene mediante la
siguiente frmula:

=1
=

Como vimos en el tema 1, este coeficiente toma valores entre -1 y 1, con dos informaciones: el
sentido (positivo si es una relacin directa y negativo si es inversa) y la intensidad (de 0 no
relacin o independencia a 1 relacin mxima o perfecta).

FIGURA 5.1. GRFICOS DE DISPERSIN CON TRES CORRELACIONES DIFERENTES


Correlacin alta e inversa Correlacin alta y directa Correlacin nula (independencia)
1500,0

1000,0

500,0

0,0
0,000 50,000 100,000

F.J. Murillo y C. Martnez-Garrido Pgina 66


5. Correlaciones y Anlisis de Regresin

e.5.1. Hay relacin en las calificaciones en Lengua y en Matemticas?,

e.5.2. El Nivel Socio-econmico de los estudiantes est relacionado con el Rendimiento en


Matemticas?

En el tema 1 lo vimos para unos pocos datos y con Excel. El SPSS no slo nos da una estimacin
de ese ndice, sino que nos dice si esa relacin es estadsticamente significativa. Es decir si lo
encontrado para la muestra puede ser extrapolable a la poblacin.

De esta forma, la hiptesis que est validando es:

Ho: xy=0

H1: xy0

Como se seal en el tema 3, los estadsticos (referidos a la poblacin) se denotan con una
letra griega, en este caso , mientras que los parmetros (referidos a la muestra) lo hacen
con letras latinas (r).

Vamos con los ejercicios propuestos. Se trata, en definitiva, de estimar el coeficiente de


correlacin de Pearson entre Rendimiento y Matemticas y Rendimiento en Lengua y entre
Rendimiento en Matemticas y Nivel Socio-econmico de las familias. Y, a continuacin, saber
si esa correlacin es estadsticamente significativa.

Elije en los mens: Analizar -> Correlaciones -> Bivariadas

FIGURA 5.2. CUADRO DE DILOGO CORRELACIONES BIVARIADAS

F.J. Murillo y C. Martnez-Garrido Pgina 67


5. Correlaciones y Anlisis de Regresin

1. Selecciona las tres variables que vamos a estudiar (Rdto_Matemticas,


Rdto_Lengua y N_SocEc) e introdcelas en "Variables".
2. Acepta, las opciones por defecto son las que nos interesan.

Lo que en realidad le hemos pedido es que nos calcule las correlaciones variadas de "todas con
todas", es decir la matriz de correlaciones donde nos aparecen las dos pedidas y una tercera
ms.

TABLA 5.1. RESULTADOS DE LAS CORRELACIONES BIVARIADAS

Nivel socio-
Rendimiento en Rendimiento en econmico de la
Matemticas Lengua familia
Rendimiento en Matemticas Correlacin de Pearson 1 ,680** ,329**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Rendimiento en Lengua Correlacin de Pearson ,680** 1 ,338**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Nivel socio-econmico de la Correlacin de Pearson ,329** ,338** 1
familia Sig. (bilateral) ,000 ,000
N 6598 6598 6598
**. La correlacin es significativa al nivel 0,01 (bilateral).

F.J. Murillo y C. Martnez-Garrido Pgina 68


5. Correlaciones y Anlisis de Regresin

Como resultado, nos aparece la llamada "matriz de correlaciones", es decir todas las
correlaciones posibles entre las tres variables (tabla 5.1). Como puede observarse es una
matriz simtrica con unos en la diagonal. La informacin que contiene cada celda es:

1. Correlacin Pearson: El coeficiente de correlacin entre las dos variables que


aparecen en el encabezamiento de fila y de columna.
2. Sig: El nivel crtico (la significacin) que indica la probabilidad de aceptar la Hiptesis
nula, es decir que la correlacin sea 0.
3. N: El nmero de estudiantes utilizado para hacer cada anlisis.

Como ya es habitual, comparamos el nivel crtico con nuestro nivel de confianza (). As:

Si Sig > : aceptamos la Hiptesis Nula, luego no hay relacin entre ambas variables.
Si Sig < : rechazamos, la Hiptesis Nula, luego aceptamos la Alterna. Ello implica que
la correlacin es significativa (estadsticamente diferente de 0).

En este caso, las tres correlaciones son estadsticamente significativas.

Como hemos sealado, el ndice de correlacin de Pearson exige que las variables sean
cuantitativas, pero tambin que se distribuyan normalmente. Si no se cumplen alguna de las
dos condiciones, o las dos, tenemos dos alternativas:

Tau-b de Kendall. Estima la relacin entre dos variables ordinales. Se interpreta igual
que el ndice de Pearson.
Rho de Sperman, es igual que el coeficiente de correlacin de Pearson, pero tras
transformar las puntuaciones originales en rangos.
En ambos casos, el procedimiento de clculo, las tablas de resultado y su interpretacin son
exactamente igual que en el caso del Coeficiente de Correlacin de Pearson.

5.2. Correlacin parcial


Con la Correlacin parcial es posible analizar la correlacin lineal entre dos variables
controlando el efecto de otra u otras extraas. Los coeficientes de Correlacin Parcial, por
tanto, estiman el grado de relacin lineal entre dos variables tras quitar el efecto de una
tercera, cuarta o quinta variable.

e.5.3. El Clima de aula influye en el Rendimiento en Matemticas de los estudiantes?

e.5.4. Y si restamos el efecto del Nivel Socio-econmico de las familias, sigue influyendo?

El procedimiento es sencillo:

Analizar -> Correlaciones -> Parciales

F.J. Murillo y C. Martnez-Garrido Pgina 69


5. Correlaciones y Anlisis de Regresin

Se seleccionan las variables a correlacionar en "Variables" (Rend_Matematicas y Clima_aula), y


la variable a controlar en "Controlado para" (N_SocEc). El resultado es aparentemente igual
que el de la Correlacin Lineal Bivariada, pero ya est descartada la influencia de la variable
controlada.

En este caso, si estimamos la Correlacin Bivariada entre Clima de aula y Rendimiento en


Matemticas, encontramos que la correlacin es de la correlacin es de 0,140
(estadsticamente significativo); y controlando por Nivel Socioeconmico de 0,100 (tambin
estadsticamente significativo). Es decir, el clima de aula incide en el rendimiento, incluso
controlando el efecto de nivel socio-econmico.

5.3. Anlisis de Regresin Simple


El anlisis de regresin es una tcnica que estudia la relacin entre variables cuantitativas. Su
uso ms habitual es la prediccin (aunque, como luego veremos, tiene ms utilidades), de tal
forma que a travs del anlisis de regresin es posible predecir una o varias variables a partir
del conocimiento de otra u otras relacionadas. La variables predictoras (o explicativas) son las
independientes y las pronosticadas (o explicadas) son las dependientes.

La situacin ms sencilla se da cuando slo hay una variable independiente y otra


dependiente: entonces se llama Anlisis de Regresin Simple; si son varias independientes es
el Anlisis de Regresin Mltiple. Y si, como vimos en el apartado anterior, la relacin es lineal,
tenemos una Anlisis de regresin lineal (simple o mltiple).

Veamos un poco la lgica del Anlisis de Regresin. Si tenemos dos variables cuantitativas
sobre una misma muestra, podemos representarlas grficamente mediante un grfico de
dispersin (ver figura 5.3). Si, como vimos en el apartado 5.1, estas variables estn
relacionadas, la nube de puntos que se genera tendr una forma alargada. La recta que mejor
se ajusta a esos puntos, que minimiza las distancias, es la llamada Recta de regresin.

Dicha recta, como cualquier recta en el plano, puede escribirse algebraicamente como:

= +

en donde: y es la variable dependiente,


a es el punto de corte con el eje y (o intercepto),
b es la pendiente, y
x es la variable independiente

FIGURA 5.3. RECTA DE REGRESIN

F.J. Murillo y C. Martnez-Garrido Pgina 70


5. Correlaciones y Anlisis de Regresin

De esta forma, si sabemos la ecuacin de regresin que determina la relacin de una variable
con otra, es posible predecir una variable en funcin de la otra. As, si la ecuacin es "y=3+2x"
y x es 3, y tomar el valor de 9.

Como los puntos no se ajustan completamente a la recta, en realidad habr que considerar ese
elemento como el error. De esta forma, la ecuacin de regresin se denota formalmente:

= 0 + 1 1 +

Con esta informacin, podemos hacer un trabajo prctico.

e.5.5. Determina la ecuacin de regresin que ayude a predecir el Rendimiento en Matemticas


de los estudiantes (variable dependiente) a partir de su rendimiento en Lengua.

e.5.6. Si un estudiante ha obtenido 50 puntos en Lengua, qu rendimiento se predice que


tendr en Matemticas?

El procedimiento es anlogo a lo visto:

Analizar -> Regresin -> Lineal

E incluimos Rendimiento en Matemticas como variable dependiente, y Rendimiento en


Lengua como independiente (figura 5.4).

FIGURA 5.4. ANLISIS DE REGRESIN LINEAL SIMPLE

F.J. Murillo y C. Martnez-Garrido Pgina 71


5. Correlaciones y Anlisis de Regresin

Los resultados aportan la siguiente informacin (tabla 5.2).

TABLA 5.2. RESULTADOS DEL ANLISIS DE REGRESIN LINEAL SIMPLE

Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Rendimiento en . Introducir
Lenguaa
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Rendimiento en Matemticas

Resumen del modelo


R cuadrado Error tp. de la
Modelo R R cuadrado corregida estimacin
1 ,680a ,462 ,462 13,376099
a. Variables predictoras: (Constante), Rendimiento en Lengua

ANOVAb
Suma de
Modelo cuadrados gl Media cuadrtica F Sig.
1 Regresin 1013537,328 1 1013537,328 5664,751 ,000a
Residual 1180156,464 6596 178,920

Total 2193693,791 6597


a. Variables predictoras: (Constante), Rendimiento en Lengua
b. Variable dependiente: Rendimiento en Matemticas

Coeficientesa

F.J. Murillo y C. Martnez-Garrido Pgina 72


5. Correlaciones y Anlisis de Regresin

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) ,583 ,706 ,825 ,409

Rendimiento en Lengua ,769 ,010 ,680 75,265 ,000


a. Variable dependiente: Rendimiento en Matemticas

Nos aparecen cuatro tablas:

1. La tabla Variables introducidas/eliminadas nos muestra las variables del modelo y el


mtodo de incorporacin de variables (que luego veremos)
2. La tabla Resumen del modelo aporta informacin de la bondad de ajuste, es decir, el
coeficiente de correlacin mltiple y su cuadrado. En este caso como son slo dos
variables es el coeficiente de correlacin de Pearson que conocemos. La informacin
interesante es la R2, que es una estimacin la proporcin de varianza de la variable
dependiente explicada por la variable dependiente. Cuanta ms alta sea esta cifra
mejor podremos predecir una variable en funcin de la otra. En nuestro caso 0,462; es
decir el 46,2% de las diferencias de las calificaciones en Matemticas pueden ser
explicadas por les diferencias en Lengua.
3. La tabla ANOVA, nos aporta informacin sobre si existe o no relacin significativa entre
la variable independiente y la dependiente. Como siempre, la informacin clave nos la
aporta el nivel crtico (Sig). Si es menor que nuestro , concluimos que hay relacin
significativa (diferente de 0) y por lo tanto que le ecuacin de regresin tiene sentido.
4. La tabla Coeficientes nos aporta informacin sobre los coeficientes de la recta de
regresin. En dos formas:
Coeficientes no estandarizados, donde el coeficiente de la constante es el
intercepto o punto de corte y el coeficiente de la variable es la pendiente.
Coeficientes estandarizados, que son los obtenidos cuando la ecuacin de
regresin se obtiene tras convertir las variables de origen en tpicas. EN ese caso la
constante (o intercepto) es cero.

Tambin se aporta informacin acerca de si los coeficientes de las variables hacen una
aportacin significativa al modelo.

Es decir, con esta informacin, la ecuacin de regresin solicitada es:

Ren_Mat = 0,583 + 0,769Ren_Leng

De tal forma que un estudiante que obtenga 50 puntos en Lengua obtendr 39,04 puntos en
Matemticas.

Aunque hemos sealado que uno de los usos del Anlisis de Regresin es la prediccin, hay
ms utilidades:

F.J. Murillo y C. Martnez-Garrido Pgina 73


5. Correlaciones y Anlisis de Regresin

1. Descripcin: Permite describir la relacin entre la variable dependiente y la o las


variables predictoras.
2. Control: Posibilita controlar el comportamiento o variacin de la variable de respuesta
de acuerdo a los valores que asumen las variables predictoras.
3. Identificacin: Para determinar qu factores inciden en una variables dependiente de
forma conjunta.

e.5.5. Determina la ecuacin de regresin que describa la relacin entre Rendimiento en


Matemticas de los estudiantes a partir del nivel Socio-econmico de sus familias, qu
porcentaje de varianza explica la variable dependiente?

Ms adelante veremos los supuestos que exige el uso del anlisis de regresin.

5.4. Anlisis de Regresin Mltiple


Una sola variable independiente hace una pobre prediccin de la variable independiente, por
lo que lo habitual es utilizar varias de ellas, es esta forma tenemos el Anlisis de Regresin
Mltiple.

La esencia es la misma, la nica diferencia es que la ecuacin de regresin no es de una recta,


sino de un hiperplano en un espacio de mltiples dimensiones. Matemticamente se expresa
as:

= 0 + 1 1 + 2 2 + 3 3 + + +

Donde cada es la pendiente de cada variable x.

Vemoslo con un ejemplo.

e.5.5. Estima la ecuacin de regresin mltiple para Rendimiento en Matemticas como variable
dependiente y Nivel socio-econmico de las familias, Actitud hacia las Matemticas y
Satisfaccin con la escuela y Gnero como independientes.

Figura 5.5. Anlisis de regresin lineal mltiple

F.J. Murillo y C. Martnez-Garrido Pgina 74


5. Correlaciones y Anlisis de Regresin

Los resultados son anlogos al anlisis de regresin simple (tabla 5.3).

TABLA 5.3. RESULTADOS DEL ANLISIS DE REGRESIN LINEAL MLTIPLE

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) 50,555 ,658 76,795 ,000
Nivel socio-econmico de la 5,623 ,205 ,308 27,405 ,000
familia
Actitud hacia las matemticas 3,809 ,210 ,209 18,161 ,000
(en z)
Satisfaccin del estudiante hacia 1,796 ,211 ,098 8,524 ,000
el centro
Gnero del estudiante 1,140 ,412 ,031 2,769 ,006
a. Variable dependiente: Rendimiento en Matemticas

La R2 o varianza explicada por el modelo es de 0,171, es decir estas tres variables explican el
17% de la variabilidad del Rendimiento en Matemticas del estudiante.

La tabla Coeficientes indica, en primer trmino, que todos los coeficientes hacen una
aportacin significativa (todos tiene un nivel crtico menor que nuestro =0,05). Tambin el
valor de esos coeficientes. As, la ecuacin de regresin pedida es:

Rend_Mat = 50,55 + 5,62Niv_SEc + 3,8Act_Mat + 1,79Sac_Cen_Est + 1,14Genero

Hemos incluido en el modelo la variable "Gnero" que obviamente no es cuantitativa sino


nominal dicotmica. Ello es posible, la nica precaucin es que tiene que estar codificada
como 0-1. De esta forma, toma el nombre de variable dummy y puede ser introducida en el
modelo.

F.J. Murillo y C. Martnez-Garrido Pgina 75


5. Correlaciones y Anlisis de Regresin

Veamos cmo se interpreta esta ecuacin de regresin. Con este ejemplo, los datos indican:

Un estudiante "medio" obtiene 50,55 puntos de rendimiento en Matemticas (medio y


varn, como luego se ver),
por cada unidad de Nivel Socio-econmico aumente o disminuya, aumentar o
disminuir 5,62puntos su rendimiento (como est tipificada esa unidad es la deviacin
tpica),
por cada unidad de Actitud hacia las matemticas aumente o disminuya, aumentar o
disminuir 3,8 puntos su rendimiento,
por cada unidad de "Satisfaccin hacia la escuela" aumente o disminuya, aumentar o
disminuir 1,79puntos su rendimiento (como est tipificada esa unidad es la deviacin
tpica), y
si el estudiante es mujer (por que la variable est codificada 0 nio y 1 nia) su
puntuacin aumentar 1,14 puntos.

Una precaucin: si en un modelo de regresin algn coeficiente sale no significativo no es


suficiente dejarlo as, es preciso quitarlo del modelo y volver a estimar el nuevo modelo.

Mtodos de seleccin de variables

El SPSS permite utilizar diferentes mtodos para seleccionar qu variable independientes


incluir en el modelo de regresin y en qu orden. Por defecto, utiliza el mtodo Introducir,
pero hay ms (figura 5.6).

FIGURA 5.6. ANLISIS DE REGRESIN LINEAL MLTIPLE CON LAS DIFERENTES ALTERNATIVAS DE MTODOS DE
SELECCIN DE VARIABLES

Son los siguientes:

F.J. Murillo y C. Martnez-Garrido Pgina 76


5. Correlaciones y Anlisis de Regresin

Introducir. Conforma la ecuacin utilizando todas las variables independientes y en el


orden en que se le ha indicado. Es el mtodo utilizado por defecto.
Pasos sucesivos. El SPSS selecciona qu variables formarn parte del modelo y en
qu orden. As, selecciona en primer lugar la variable que ms correlaciona con la
variable independiente y elabora el modelo 1. Con la varianza que queda por
explicar, selecciona la variable que ms explica y la introduce en la ecuacin
formando el modelo 2, y as sucesivamente hasta que ninguna variable hace una
aportacin significativa. Es el procedimiento ms cmodo y por ello el ms popular.
Eliminar: Elimina en un solo paso todas las variables independientes y ofrece los
coeficientes que se obtendran en el caso de que se utilizaran independientemente.
Atrs (eliminacin hacia atrs). Por el mismo, se introducen todas las variables en la
ecuacin y despus se van excluyendo una tras otra. Aquella variable que tenga la
menor correlacin parcial con la variable dependiente ser la primera en ser
considerada para su exclusin. Si satisface el criterio de eliminacin, ser eliminada.
Tras haber excluido la primera variable, se pondr a prueba aquella variable, de las
que queden en la ecuacin, que presente una correlacin parcial ms pequea. El
procedimiento termina cuando ya no quedan en la ecuacin variables que satisfagan
el criterio de exclusin.
Adelante (seleccin hacia adelante). Las variables independientes son introducidas
secuencialmente en el modelo. La primera variable que se considerar para ser
introducida en la ecuacin ser aqulla que tenga mayor correlacin, positiva o
negativa, con la variable dependiente. Dicha variable ser introducida en la ecuacin
slo si satisface el criterio de entrada. Si ha entrado la primera variable, se
considerar como prxima candidata la variable independiente que no est en la
ecuacin y cuya correlacin parcial sea la mayor. Cuando no queden variables que
satisfagan este criterio el procedimiento termina.

e.5.6. Estima la ecuacin de regresin mltiple para Rendimiento en Matemticas como variable
dependiente y Nivel socio-econmico de las familias, Actitud hacia las Matemticas y
Satisfaccin con la escuela y Gnero como independientes, con el mtodo Pasos
Sucesivos.

Supuestos del Anlisis de Regresin Lineal

Esta tcnica estadstica, como todas, exige el cumplimiento de una serie de supuestos sin cuyo
cumplimiento los resultados pueden verse seriamente alterados. Aunque este texto no
pretende ser un libro de estadstica, se sealarn por su importancia:

Linealidad. Si la relacin entre las variables no es una lnea (un hiperplano) el


resultado puede ser errneo: puede sealar no relacin cuando la hay. La forma de
estudiarlo es mediante un grfico de dispersin.

F.J. Murillo y C. Martnez-Garrido Pgina 77


5. Correlaciones y Anlisis de Regresin

Independencia: Los residuos1 (es decir, la diferencia entre el valor esperado y el


pronosticado) deben ser independientes entre s. Es decir, los residuos son una
variable aleatoria. Se verifica mediante el estadstico Durbin-Watson (recuadro de
dilogo Regresin ->Lineal-> Estadsticos)
Normalidad. Los residuos de cada variable independiente se distribuyen como una
curva normal con media 0. Hay varios procedimientos, pero uno de ellos es estimar la
prueba de Kolmogorov-Smirnov (ya vista) para los residuos. Una comprobacin visual
nos la ofrece este mismo men: Regresin -> Lineal -> Grficos.
Homocedasticidad. La varianza de los residuos de las variables independientes (o de
la combinacin de ellos) es constante. Se obtiene representando los valores
pronosticados (ZPRED) y los residuos (ZRESID): si no hay ninguna pauta es que son
homocedsticos.
No-colinealidad. No existencia de una relacin lineal entre ninguna ni las variables
independientes. Se estudia mediante la opcin "Diagnstico de colinealidad" en
Regresin -> Lineal -> Estadsticos.

5.6. Ejercicios
e.5.7. Los alumnos ms contentos con la escuela obtiene mejor rendimiento en Lengua? Y si
contralamos el efecto del nivel socio-econmico de las familias?

e.5.8. Cul es la variable que ms varianza del rendimiento en Lengua de los estudiantes
explica? Cunto es?

e.5.9. Con las variables de la base de datos de trabajo, elabora el modelo de regresin lineal que
ms varianza del rendimiento en Matemticas de los estudiantes explique (sin incluir los
otros rendimientos).

e.5.10. Elabora el modelo "lgico" que explique la autoestima de los estudiantes con los datos
que se poseen.

e.5.11. Elabora el mejor modelo de regresin que explique Rendimiento en Ciencia Naturales
con tres variables independientes y verifica el cumplimiento de los supuestos.

1
Los residuos (o residuales) se pueden guardar mediante el cuadro de dilogo Regresin -> Lineal ->
Guardar

F.J. Murillo y C. Martnez-Garrido Pgina 78