Vous êtes sur la page 1sur 10

Documento: Análisis de correlación y

regresión lineal.

Docente creador:

- Oscar Alberto Saavedra Vásquez

Asignatura:

Institución Universitaria Escolme, 2019


II. ANÁLISIS DE DOS VARIABLES CUANTITATIVAS

Trabajaremos la combinación de variables de tipo cuantitativo por medio del concepto de


correlación lineal y regresión lineal.

CORRELACIÓN LINEAL

Mide la intensidad de una relación lineal entre dos variables. Existen varias clases de
correlación: positiva, positiva alta, negativa y negativa alta.

La correlación lineal perfecta ocurre cuando todos los puntos están exactamente sobre
una recta.

Si los datos forman una recta horizontal o vertical, no hay correlación, ya que una
variable no afecta a la otra.

Correlación positiva Correlación negativa No Existe Correlación

COEFICIENTE DE CORRELACIÓN LINEAL (r)


Es la medida numérica de la intensidad de la relación lineal entre dos variables. El
coeficiente refleja la consistencia del efecto que el cambio en una variable tiene sobre la
otra.
El valor de r está definido por la fórmula producto momento de Pearson

(𝒙 − 𝒙
̅)(𝒚 − 𝒚
̅)
𝒓= 𝒄𝒐𝒏 − 𝟏 ≤ 𝒓 ≤ 𝟏
(𝒏 − 𝟏)𝑺𝒙 𝑺𝒚

Un valor cercano a ∓𝟏 indica una correlación alta.


Sx: Desviación estándar de la variable independiente.
Sy: Desviación estándar de la variable dependiente.

A medida que r se acerca a +1 indica que la variable tiene una correlación positiva, es
decir que tiene una relación directa, a medida que aumenta X, aumenta Y. Si r tiende a
−1 la relación es negativa, es decir que es inversa, a medida que X aumenta, disminuye
Y. Si r es igual a cero no existe correlación entre las variables, es decir que esta es nula;
y si r es igual a 1, entonces existen una correlación perfecta.
Una fórmula alternativa para calcular el coeficiente de correlación es:

𝑠𝑐(𝑥𝑦)
𝑟=
√𝑠𝑐(𝑥)𝑠𝑐(𝑦)

Sc (xy): Se denomina suma de los cuadrados de xy


Sc(x): suma de los cuadrados de x
Sc (y): suma de los cuadrados de y

A continuación, definiremos la manera de calcular cada una de las sumas de cuadrados.


(∑ 𝑥)2 (∑ 𝑦)2
𝑠𝑐(𝑥) = ∑ 𝑥 2 − 𝑠𝑐(𝑦) = ∑ 𝑦 2 −
𝑛 𝑛

∑𝑥∑𝑦
𝑠𝑐(𝑥𝑦) = ∑ 𝑥𝑦 −
𝑛

Ejemplo: Hallar la correlación entre la edad y las presiones sistólicas de 10 hombres.


Determine el coeficiente de correlación y la correlación entre las dos variables.

Hombres Edad, Xi Presión, Yi Xi 2 Yi 2 XiYi


1 19 122 361 14884 2318
2 25 125 625 15625 3125
3 30 126 900 15876 3780
4 42 129 1764 16641 5418
5 46 130 2116 16900 5980
6 49 132 2401 17424 6468
7 52 135 2704 18225 7020
8 57 138 3249 19044 7866
9 62 142 3844 20164 8804
10 70 145 4900 21025 10150
∑ 452 1324 22864 175808 60929

Para calcular el coeficiente de correlación se calcula cada una de las sumas de los
cuadrados de x, de y e de xy, de la siguiente manera:

(452)2
𝑠𝑐(𝑥) = 22864 − = 2433,6
10

(1324)2
𝑠𝑐(𝑦) = 175808 − = 510,4
10

(452)(1324)
𝑠𝑐(𝑥𝑦) = 60929 − = 1084,2
10
Por consiguiente, el valor de “r” lo calculamos como:

1084,2
𝑟= = 𝟎, 𝟗𝟕
√(2433,6)(510,4)

Se observa que existe una alta correlación positiva entre la edad y la presión sistólica, lo
cual indica que a mayor edad aumenta la presión. El siguiente diagrama de dispersión
de puntos muestra la tendencia del conjunto de datos.

Correlación lineal entre la edad y la presión


sistólica de 10 hombres
150

145

140
Presión

135

130

125

120
15 25 35 45 55 65 75
Edad

Ejemplo: Encuentre r para el siguiente problema:


Se tomaron varios puntajes de condición física. La muestra siguiente es el número de
lagartijas y sentadillas realizadas por 10 estudiantes elegidos al azar:

1 2 3 4 5 6 7 8 9 10
Lagartijas (x) 27 22 15 35 30 52 35 55 40 40
Sentadillas (y) 30 26 25 42 38 40 32 54 50 43

Con estos datos realice un diagrama de dispersión y trace la recta que mejor se
acomode con el conjunto de puntos.
Nota: El valor r, suele redondearse a la centésima más próxima.

Ejemplo: Considere los datos siguientes, que indican el peso (en miles de libras), “x”, y
el rendimiento de gasolina (millas por galón), “y”, de 10 automóviles:

X 2.5 3.0 4.0 3.5 2.7 4.5 3.8 2.9 5.0 2.2
Y 40 43 30 35 42 19 32 39 15 44

Encuentre el valor r y grafique en un plano cartesiano ajustando una buena recta si existe
una buena correlación.
REGRESIÓN LINEAL

Dependiendo del comportamiento de los datos se pueden realizar aproximaciones para


observar las relaciones posibles, denominadas modelos o ecuaciones de predicción,
algunos de estos son:

a. Lineal: 𝑦̂ = 𝑏0 + 𝑏1 𝑥
b. Cuadrática: 𝑦̂ = 𝑎 + 𝑏𝑥 + 𝑐𝑥 2
c. Exponencial: 𝑦̂ = 𝑎𝑏 𝑥
d. Logarítmica: 𝑦̂ = 𝑎 𝑙𝑜𝑔𝑏 𝑥

El análisis más utilizado es el de regresión lineal, que encuentra la ecuación de la recta


que describe mejor la relación entre las dos variables de un problema determinado. Para
calcular dicha recta utilizaremos el método de los mínimos cuadrados que describiremos
a continuación.

MÉTODO DE MÍNIMOS CUADRADOS

Suponga que existe una relación lineal: 𝑦̂ = 𝑏0 + 𝑏1 𝑥 que define la ecuación de una línea
recta, donde:

b1: Pendiente de la recta

b0: intercepto con el eje y (ordenada al origen)

Los valores de las constantes, pendiente y ordenada al origen que satisfacen el criterio
de mínimos cuadrados se encuentran aplicando las fórmulas siguientes:

∑(𝑥 − 𝑥̅ )(𝑦 − 𝑦̅) ∑ 𝑦 − (𝑏1 ∗ ∑ 𝑥)


𝑏1 = 𝑏0 =
∑(𝑥 − 𝑥̅ )2 𝑛

Para b1 existe una fórmula de “atajo” que facilita los cálculos de la pendiente:

𝑠𝑐(𝑥𝑦)
𝑏1 =
𝑠𝑐(𝑥)

Ejemplo: A ocho estudiantes elegidos al azar se les preguntó por su peso y estatura.
Obteniendo los siguientes resultados:

Estatura, x
65 65 62 67 65 61 67 69
(pulg)
Peso, y (Lb) 105 125 110 120 135 95 130 140
Encuentre una ecuación para predecir el peso de un universitario con base en su
estatura. Trácela sobre el diagrama de dispersión de puntos.

Solución

a) Diagrama de dispersión de puntos

Correlación entre la estatura y el peso de ocho


estudiantes
150
140
130
Peso, libras

120
110
100
90
80
60 61 62 63 64 65 66 67 68 69 70
Estatura, pulgadas

b) Coeficiente de correlación lineal

La siguiente tabla sirve como apoyo para calcular el coeficiente de correlación


lineal, la pendiente de la recta y el intercepto con el eje y.

Estatura, Peso, y
Estudiante Xi 2 Yi 2 XiYi
x (pulg) (Lb)
1 65 105 4225 11025 6825
2 65 125 4225 15625 8125
3 62 110 3844 12100 6820
4 67 120 4489 14400 8040
5 65 135 4225 18225 8775
6 61 95 3721 9025 5795
7 67 130 4489 16900 8710
8 69 140 4761 19600 9660
Total 521 960 33979 116900 62750

Para calcular el coeficiente de correlación se calcula cada una de las sumas de los
cuadrados de SC(x), SC(y) y SC(x)y, de la siguiente manera:
(521)2
𝑠𝑐(𝑥) = 33979 − = 48,88
8

(960)2
𝑠𝑐(𝑦) = 116900 − = 1700
8

(521)(960)
𝑠𝑐(𝑥𝑦) = 62750 − = 230
8

Por consiguiente, el valor de “r” lo calculamos como:

230
𝑟= = 𝟎, 𝟖𝟎
√(48,88)(1700)

Se observa que existe una alta correlación positiva entre la estatura y el peso, lo cual
indica que a mayor estatura aumenta el peso.

c) Ecuación de la recta

𝑦̂ = 𝑏0 + 𝑏1 𝑥

Pendiente de la recta (𝒃𝟏 ).

𝑠𝑐(𝑥𝑦) 230
𝑏1 = = = 4,71
𝑠𝑐(𝑥) 48,88

Intercepto con el eje y (𝒃𝟎 )

∑ 𝑦 − (𝑏1 ∗ ∑ 𝑥) 960 − 4,71 ∗ 521


𝑏0 = = = −186,47
𝑛 8

La ecuación para predecir el peso de un universitario con base en su estatura está dada
por:
̂ = −𝟏𝟖𝟔, 𝟒𝟕 + 𝟒, 𝟕𝟏𝒙
𝒚

Ejemplo: La gente no es sólo más longeva en la actualidad, sino que también lo es de


manera independiente. En cierto artículo de una revista se presentó el estudio sobre la
edad actual de una persona y el número esperado de años restantes por vivir.

edad, x 65 67 69 71 73 75 77 79 81 83
Años restantes, y 17 15.1 13.7 12.4 11.2 10.1 9 8.4 7.1 6.4

a) Calcule el coeficiente de correlación lineal


b) Elabore un diagrama de dispersión de puntos
c) Calcule la ecuación de la recta del mejor ajuste
d) ¿Cuántos son los años restantes por vivir esperados para una persona de 70 años?

Ejemplo: En el artículo “Fast – Food Fatcounts full of surprises” publicado en USA Today
del 20 de octubre de 1994, se compara el contenido de calorías y grasas de algunos de
los alimentos conocidos de comida rápida.

Calorías (x) 270 420 210 450 130 310 290 450 446 640 233 552 360 838 199 360 345 552

Grasas (y) 9 20 10 22 6 25 7 20 20 38 11 55 6 20 12 36 28 22

a) Calcule el coeficiente de correlación, r.


b) Encuentre la ecuación de la recta del mejor ajuste.
c) Elabore un diagrama de dispersión de estos datos y trace la recta que mejor se ajuste
a este conjunto de datos.
d) Explique el significado de las respuestas anteriores.

Ejemplo: El siguiente conjunto de datos muestra la relación entre la presión sistólica (y)
y la edad (x) de 5 mujeres:

X 35 45 55 65 75

Y 144 124 143 158 166

a) Calcule el coeficiente de correlación lineal.


b) Elabore un diagrama de dispersión de puntos.
c) Calcule la ecuación de la recta del mejor ajuste.
d) ¿Qué presión se espera para una mujer de 50 años?

Ejemplo
El siguiente conjunto de datos muestra la estatura (en centímetros) y el diámetro de la
cabeza (cm) en bebes recién nacidos:

Estatura (Cm), X 47 48 48 50 50 51 52 52 52 54

Diámetro Cabeza
35 34 33 35 34 34 36 36 37 38
(Cm), Y

a) Calcule el coeficiente de correlación lineal


b) Elabore un diagrama de dispersión de puntos
c) Calcule la ecuación de la recta del mejor ajuste
d) ¿Cuál es la estatura esperada para un bebe que tenga 32 cm de diámetro en el tamaño
de su cabeza?
Control del Documento
Recurso Virtual de Aprendizaje

Experto temático:

Decano de programa (asesor


temático)

Revisión técnica (Virtualidad):

Aprobó:

Fecha de aprobación

Vous aimerez peut-être aussi