Vous êtes sur la page 1sur 39

REGRESION LINEAL Y

CORRELACION LINEAL
CONCEPTOS – Regresión Lineal
• El concepto fue desarrollado por el inglés Sir Francis Galtón (1822-
1911).
• El propósito es determinar si una variable (dependiente) está en
función de otra variable (independiente) con el propósito de
establecer una ecuación que permite estimar valores de la variable
dependiente a partir de valores de la variable independiente.
• VARIABLE DEPENDIENTE
• Es la variable que se desea explicar o predecir; también se le denomina
regresando o variable de respuesta.
• VARIABLE INDENDIENTE
• También se le denomina variable explicativa o regresor y se quiere usar para
explicar las variaciones de la variable dependiente.
Tipos de Regresión
• REGRESION SIMPLE Ó BIVARIADA:
• Ocurre cuando Y (variable dependiente) esta en función de una única variable
independiente (X).
• REGRESION MULTIPLE:
• Cuando una variable Y está en función de dos o más variables independientes
(𝑋1 , 𝑋2 , … 𝑋𝑘 ).
• REGRESION LINEAL:
• cuándo la relación entre X y Y puede representarse por medio de una línea
recta, sostiene que a medida que X cambia Y cambia en una cantidad
constante.
• REGRESION CURVILINEAL:
• Utiliza una curva para expresar la relación entre X y Y, sostiene que a medida
que X cambia, Y cambia en una cantidad diferente cada vez.
Diagramas de dispersión
• Son gráficos
para
representar
la relación
entre las
variables X y
Y.

(Tomado de
(Webster A., 2012))
Determinación del modelo de regresión líneal simple
• Y= A + BX
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑣𝑒𝑟𝑡𝑖𝑐𝑎𝑙
• B=
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 ℎ𝑜𝑟𝑖𝑧𝑜𝑛𝑡𝑎𝑙
• B se denomina la pendiente la
curva y A es la intersección con
el eje Y.
• Para Y = 5 + 2X
• B=2 Implica que por cada
cambio de una unidad en X, Y
cambia en dos unidades.
• Esta ecuación revela que existe
una relación positiva (B > 0) si
X crece Y también crece, o
viceversa.
Relación inversa entre X y Y

• Y = 10 – 3X
• aquí la pendiente es
negativa (-3).
• Revela una relación negativa
tal entre X y Y que por cada
incremento (o reducción) de
X en una unidad Y reducirá
(o aumentará) en 3
unidades.
Ausencia de relación entre X y Y

• Si B = 0 entonces un
cambio en X no tiene
relación con un cambio
en Y. Por tanto, X no
puede usarse como
variable explicativa de Y.
Relaciones entre las variables
• Relaciones determinísticas:
• Aquellas donde la relación entre las variables puede ser determinada de
manera exacta y no hay error. Sin embargo, en el mundo de los negocios raras
veces se encuentran relaciones así.
• Con frecuencia se encuentra que al utilizar una variable para explicar otra,
existe alguna variación en la relación.
• Relaciones estocásticas:
• Es aquel modelo que expresa la presencia de variación aleatoria (o error) al
explicar o predecir la variable dependiente.
• Este modelo teórico puede expresarse de la siguiente manera:
• Y = A + X + 
• Donde  representa el término de error o variación aleatoria.
Modelo de regresión estimada
• 𝑌෠ = 𝑎 + 𝑏𝑥
• En donde 𝑌෠ es el valor estimado de Y, y a y b son el intercepto y la
pendiente de la recta de regresión estimada.
Mínimos cuadrados ordinarios: la recta de
mejor ajuste
• El propósito del análisis de regresión es determinar una recta que se ajuste
a los datos muestrales mejor que cualquier otra recta que pueda dibujarse.
• Un procedimiento matemático utilizado para estimar esos valores se
denomina mínimos cuadrados ordinarios (MCO)
• MCO producirá una recta que se extiende por el centro del diagrama de
dispersión aproximándose a todos los puntos de datos más que cualquier
otra recta.
෠ obtienen mediante la recta de regresión y representan el
• Los valores 𝑌se
estimado de la variable dependiente, la diferencia entre lo que Y era
realmente, 𝑌𝑖 , y lo que se estima que es 𝑌෠𝑖 , es el error.
Mínimos cuadrados ordinarios: características
La suma de los errores es igual a 0.
σ 𝑌𝑖 − 𝑌෠𝑖 = 0
MCO asegura que se minimice la suma de estos errores al cuadrado
produciendo una recta tal que esta suma de cuadrados es menor de
lo que sería con cualquier otra recta.
2
σ 𝑌𝑖 − 𝑌෠𝑖 = 𝑚𝑖𝑛
Mínimos cuadrados
ordinarios-ejemplo
𝐸𝑟𝑟𝑜𝑟 = 𝑌𝑖 − 𝑌෠𝑖

PUBLICIDAD VENTAS
MES (X) (Y)
1 50 450
2 40 380
3 65 540
4 55 500
5 45 420
Mínimos cuadrados ordinarios: fórmulas de cálculo

¡CUIDADO! Estos cálculos


son extremadamente
sensibles a la aproximación.
Por tanto se aconseja
efectuar los cálculos hasta
con cinco o seis cifras
decimales.
Mínimos cuadrados ordinarios - ejemplo
Pasajeros (en
Publicidad (en miles de
Observación miles de $) personas)
(mes) X Y XY 𝑋2 𝑌2
1 10 15 150 100 225
2 12 17 204 144 289
3 8 13 104 64 169
4 17 23 391 289 529
5 10 16 160 100 256
6 15 21 315 225 441
7 10 14 140 100 196
8 14 20 280 196 400
9 19 24 456 361 576
10 10 17 170 100 289
11 11 16 176 121 256
12 13 18 234 169 324
13 16 23 368 256 529
14 10 15 150 100 225
15 12 16 192 144 256
SUMAS 187 268 3490 2469 4960
Mínimos cuadrados - ejemplo
σ𝑋 2 187 2
• 𝑆𝐶𝑥 = σ 𝑋2 − = 2469 − = 137.73333
𝑛 15
σ𝑌 2 268 2
• 𝑆𝐶𝑦 = σ 𝑌 2 − = 4960 − = 171.73333
𝑛 15
σ𝑋 σ𝑌 187 268
• 𝑆𝐶𝑥𝑦 = σ 𝑋𝑌 − = 3490 − = 148.93333
𝑛 15

𝑆𝐶𝑥𝑦 148.93333
•𝑏= = = 1.08
𝑆𝐶𝑥 137.73333
• 𝑎 = 𝑌ത − 𝑏𝑋ത = 17.86667 − 1.08 12.46667 = 4.40
• 𝑌෠ = 4.40 + 1.08𝑋𝑖
Interpretación del coeficiente de regresión
(b)
• b= 1,08 significa que por cada incremento de la publicidad (variable X)
en mil dólares (una unidad) el número de pasajeros (variable y) se
incrementará en 1080 pasajeros. Recuérdese que la publicidad y el
número de pasajeros están dado en miles de dólares.
• Cuando la relación es creciente (b > 0, o sea, positivo) si incrementa X
aumenta también Y, pero si la relación es decreciente, o sea, b <0,
entonces la relación será inversa si X aumenta Y disminuye y
viceversa.
Supuestos del modelo de regresión lineal
1) El término de error es una variable aleatoria distribuida
normalmente.
2) Varianzas iguales en los valores de Y.
3) Los términos de error son independientes uno del otro.
4) El supuesto de linealidad.
Supuesto 1: El error se distribuye
normalmente
• En todo proceso de generación de datos muchas veces un
determinado valor de X produce muchos valores de Y diferentes entre
sí. Algunas veces 𝑌𝑖 puede estar por encima de la recta de regresión
haciendo que el término de error (𝑌𝑖 −𝑌෠𝑖 ) sea positivo mientras en
otros momentos 𝑌𝑖 es menor que 𝑌෠𝑖 , creando un error negativo.
• Se asume que estos términos de error se distribuyen normal y
aleatoriamente alrededor de la recta de regresión poblacional.
Supuesto 2: varianzas iguales o
homocedasticidad
• Significa que las varianzas en los valores Y son las mismas en todos los
valores de X.
Supuesto 3: los términos de error son
independientes uno del otro
• Esta hipótesis puede probarse
analizando un diagrama de los
errores de los datos muestrales.
Sino puede observarse ningún
patrón se puede asumir que los
términos de error no se
relacionan.
• Cuando los términos de error no
son independientes, ocurre el
fenómeno llamado
“autocorrelación”.
Autocorrelación

La autocorrelación puede ser


positiva, (gráfica arriba).
O puede ser negativa (gráfica
abajo)
Supuesto 4: linealidad
• Las medias de los valores Y para cada X (𝜇𝑌|𝑋 ) quedan todas en una
recta.
El error estándar de estimación: una medida
de bondad de ajuste
A la recta de regresión con frecuencia se le denomina la recta de
ajuste óptimo porque ajusta o representa la relación entre X y Y mejor
que cualquier otra recta.
Sin embargo, no existe garantía de que este ajuste sea bueno.
Para determinar si este ajuste es bueno (bondad de ajuste) o no,
existen dos medidas:
Error estándar de estimación
Coeficiente de determinación
Error estándar de estimación
• Es una medida del grado de dispersión de los valores 𝑌𝑖 alrededor de la recta
de regresión.
• Mide la variación de los puntos de datos por encima y por debajo de la recta
de regresión.
• Refleja la tendencia a desviarse del valor real de Y cuando se utiliza el
modelo de regresión para fines predictivos. Es una medida del error típico.
Error estándar de estimación - ejemplo
• El error estándar de estimación siempre se expresa en las mismas
unidades que la variable dependiente Y, este caso en miles de
pasajeros

𝑆𝐶𝑥𝑦 2 𝑆𝐶𝐸
• 𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝐶𝑀𝐸 =
𝑆𝐶𝑥 𝑛−2

148.93333 2
• 𝑆𝐶𝐸 = 171.73333 − = 10.6893
137.73333
10.6893
• 𝐶𝑀𝐸 = = 0.82226 𝑆𝑒 = 0.82226 = 0.90678
15−2
Error estándar de estimación - ejemplo
• Para el ejemplo anterior, el error estándar de 0.907 o 907 pasajeros
mide la variabilidad de los valores Y alrededor de la recta de regresión
ajustada.
• El error estándar de estimación es muy similar a la desviación
estándar por tanto para su interpretación se puede tomar como base
la regla empírica.
• Esto es, si aplicamos la recta ajustada al valor X igual a 10,
obtendríamos la estimación 15.2. Si a esta estimación restamos y
sumamos el error estándar entonces obtendríamos el intervalo (14.29
– 16.11) en el cual se encontrarían aproximadamente el 68% de las
observaciones.
Análisis de correlación lineal
• Proporciona una medida de la fuerza o relación entre dos variables.
• El coeficiente que proporciona tal medida se denomina coeficiente de
correlación desarrollado por Carl Pearson a finales del siglo XX.
• Algunas veces se le llama el coeficiente de correlación producto-momento
de Pearson.
• Representado por una “r”, el coeficiente de correlación puede asumir
cualquier valor entre -1 y +1.
• Un valor de -1 indica una relación perfectamente negativa entre X y Y,
mientras un valor de +1 implica una relación perfectamente positiva.
• Cualquier valor intermedio entre estos dos implicará relaciones negativas o
positivas cuya fuerza dependerá de que tan cercano este “r” a -1 o +1.
Análisis de correlación – tipos de relación
Coeficiente de correlación – procedimiento de
cálculo
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 𝑆𝐶𝑥𝑦 UN COEFICIENTE
•𝑟= = = = DE CORRELACIÓN
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 CON UN VALOR
𝑆𝐶𝑥 𝑆𝐶𝑦
COMO ESTE DE
148.93333
= 0.9683 0.9683 INDICA
(137.73333)(171.73333) UNA ALTA
CORRELACIÓN
POSITIVA.
Correlación Parcial
• Hay ciertas ocasiones en que existe asociaciones causadas
indirectamente por terceras variables. Por ejemplo para las últimas
elecciones presidenciales que hubo en el país se dijo que aquellas
comunidades donde hubo mayor acceso a internet, tuvieron menor
porcentaje de abstencionismo. Esto es, en las zonas urbanas hubo
mayor participación electoral que en las poblaciones rurales. Sin
embargo, la menor participación en zonas rurales pudo deberse a
otros factores como difícil acceso, malos caminos, largas distancias
hasta el centro de votación y falta de medios de transporte. Y no
necesariamente al acceso a internet.
Correlación parcial
• En el caso anterior podría interesar calcular la correlación entre dos
variables eliminando el efecto de una tercera variable que las influye.
Para ello, se utiliza el coeficiente de correlación parcial donde se logra
determinar la asociación entre las variables “X”y “Y” eliminando el
efecto de la variable “Z”, para lo cual se utiliza la siguiente formula:
Coeficiente de determinación – medida de bondad
2
de ajuste 𝑟
• Proporciona una medida de
bondad de ajuste porque
revela que porcentaje del
cambio en Y se explica por un
cambio en X.
• Este coeficiente tiene
significado solo para
relaciones lineales. Dos
variables pueden tener un 𝑟 2
de cero y sin embargo, estar
relacionadas de manera
curvilínea.
Coeficiente de determinación - cálculo
2
2 𝑆𝐶𝑥𝑦 148.9333 2
•𝑟 = = = 0,93776 = 0,94
𝑆𝐶𝑥 𝑆𝐶𝑦 137.7333 171.7333

• Esto establece que el 94% del cambio en el número de pasajeros se


explica mediante un cambio en la publicidad.
Limitaciones para el análisis de correlación
• El análisis de correlación no puede determinar una relación causa-
efecto; la correlación no implica causalidad.
• Se debe tener cuidado cuando dos variables no relacionadas parecen
presentar alguna relación.
Interpretación del Coeficiente de Correlación
0  r < 0,3 ó -0,3  r < 0 asociación muy baja
0,3  r < 0,5 ó -0,5  r < -0,3 asociación baja
0,5  r < 0,7 ó -0,7  r < -0,5 asociación moderada
0,7  r < 0,9 ó -0,9  r < -0,7 asociación alta
0,9  r < 1 ó -1  r < -0,9 asociación muy alta
Pruebas para los parámetros poblacionales
• Debido al hecho de que la mayoría de las veces el coeficiente “r” y
“b” se basan en valores muestrales, entonces cabe hacerse la
pregunta ¿existe alguna relación a nivel poblacional?
• Podría ser que debido al error de muestreo los parámetros
poblacionales son cero y se deben probar los parámetros para
asegurar que el harrado estadístico difiere significativamente de cero.
Pruebas para 
• La hipótesis a llevar a cabo se plantea de la siguiente manera:
• 𝐻0 : 𝛽 = 0
• 𝐻1 : 𝛽 ≠ 0 Si Ho no se rechaza, se concluye que X y Y no tiene relación.
• Y el estadístico para esta prueba sigue una distribución t de student.
0,907 1,0813−0
• 𝑆𝑏 = = 0.07726 𝑡𝑐 = = 13,995
137.73333 0,07726

• Para efectos de la prueba 𝛽0 = 0.

𝐿𝑎 𝑡𝑐 𝑠𝑒 𝑐𝑜𝑚𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑡𝑟𝑎 𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 t


𝛼
𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑝𝑎𝑟𝑎 1 − 𝑦 𝑛 − 2 𝑔. 𝑙.
2
Resumen del análisis de regresión
Estadísticas de la regresión
𝑆𝑏 = 0,07726495
Coeficiente de correlación múltiple 0,96837837
Coeficiente de determinación R^2 0,93775667 𝑅2 = 13,9949 SCRegresión = 161, 044079
R^2 ajustado 0,93296872
Error típico 0,90678021 𝑆𝑒
Observaciones 15 SCE = 10,6892546

ANÁLISIS DE VARIANZA SCTotal = 171,733333


Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 161,044079 161,044079 195,857719 3,238E-09
Residuos 13 10,6892546 0,82225035
Total 14 171,733333

Superior Inferior Superior


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95,0%
Intercepción 4,38625363 0,99128246 4,42482725 0,000685609 2,24471808 6,52778918 2,24471808 6,52778918
Publicidad 1,08131655 0,07726495 13,9949176 3,23802E-09 0,91439579 1,24823732 0,91439579 1,24823732
Pruebas para el coeficiente de correlación
poblacional 
• La hipótesis a probar es:
• 𝐻0 : 𝜌 = 0
• 𝐻1 : 𝜌 ≠ 0
• Y el estadístico de prueba es 

1−0.93776
• 𝑆𝑟 = = 0.069
15−2
Para efectos de
0,9683 − 0
• 𝑡𝑐 = = 13,995 la prueba ρ = 0.
0,069

𝛼
𝐿𝑎 𝑡𝑐 𝑠𝑒 𝑐𝑜𝑚𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑡𝑟𝑎 𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 t 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑝𝑎𝑟𝑎 1 − 𝑦 𝑛 − 2 𝑔. 𝑙.
2

Vous aimerez peut-être aussi