Académique Documents
Professionnel Documents
Culture Documents
CORRELACION LINEAL
CONCEPTOS – Regresión Lineal
• El concepto fue desarrollado por el inglés Sir Francis Galtón (1822-
1911).
• El propósito es determinar si una variable (dependiente) está en
función de otra variable (independiente) con el propósito de
establecer una ecuación que permite estimar valores de la variable
dependiente a partir de valores de la variable independiente.
• VARIABLE DEPENDIENTE
• Es la variable que se desea explicar o predecir; también se le denomina
regresando o variable de respuesta.
• VARIABLE INDENDIENTE
• También se le denomina variable explicativa o regresor y se quiere usar para
explicar las variaciones de la variable dependiente.
Tipos de Regresión
• REGRESION SIMPLE Ó BIVARIADA:
• Ocurre cuando Y (variable dependiente) esta en función de una única variable
independiente (X).
• REGRESION MULTIPLE:
• Cuando una variable Y está en función de dos o más variables independientes
(𝑋1 , 𝑋2 , … 𝑋𝑘 ).
• REGRESION LINEAL:
• cuándo la relación entre X y Y puede representarse por medio de una línea
recta, sostiene que a medida que X cambia Y cambia en una cantidad
constante.
• REGRESION CURVILINEAL:
• Utiliza una curva para expresar la relación entre X y Y, sostiene que a medida
que X cambia, Y cambia en una cantidad diferente cada vez.
Diagramas de dispersión
• Son gráficos
para
representar
la relación
entre las
variables X y
Y.
(Tomado de
(Webster A., 2012))
Determinación del modelo de regresión líneal simple
• Y= A + BX
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑣𝑒𝑟𝑡𝑖𝑐𝑎𝑙
• B=
𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 ℎ𝑜𝑟𝑖𝑧𝑜𝑛𝑡𝑎𝑙
• B se denomina la pendiente la
curva y A es la intersección con
el eje Y.
• Para Y = 5 + 2X
• B=2 Implica que por cada
cambio de una unidad en X, Y
cambia en dos unidades.
• Esta ecuación revela que existe
una relación positiva (B > 0) si
X crece Y también crece, o
viceversa.
Relación inversa entre X y Y
• Y = 10 – 3X
• aquí la pendiente es
negativa (-3).
• Revela una relación negativa
tal entre X y Y que por cada
incremento (o reducción) de
X en una unidad Y reducirá
(o aumentará) en 3
unidades.
Ausencia de relación entre X y Y
• Si B = 0 entonces un
cambio en X no tiene
relación con un cambio
en Y. Por tanto, X no
puede usarse como
variable explicativa de Y.
Relaciones entre las variables
• Relaciones determinísticas:
• Aquellas donde la relación entre las variables puede ser determinada de
manera exacta y no hay error. Sin embargo, en el mundo de los negocios raras
veces se encuentran relaciones así.
• Con frecuencia se encuentra que al utilizar una variable para explicar otra,
existe alguna variación en la relación.
• Relaciones estocásticas:
• Es aquel modelo que expresa la presencia de variación aleatoria (o error) al
explicar o predecir la variable dependiente.
• Este modelo teórico puede expresarse de la siguiente manera:
• Y = A + X +
• Donde representa el término de error o variación aleatoria.
Modelo de regresión estimada
• 𝑌 = 𝑎 + 𝑏𝑥
• En donde 𝑌 es el valor estimado de Y, y a y b son el intercepto y la
pendiente de la recta de regresión estimada.
Mínimos cuadrados ordinarios: la recta de
mejor ajuste
• El propósito del análisis de regresión es determinar una recta que se ajuste
a los datos muestrales mejor que cualquier otra recta que pueda dibujarse.
• Un procedimiento matemático utilizado para estimar esos valores se
denomina mínimos cuadrados ordinarios (MCO)
• MCO producirá una recta que se extiende por el centro del diagrama de
dispersión aproximándose a todos los puntos de datos más que cualquier
otra recta.
obtienen mediante la recta de regresión y representan el
• Los valores 𝑌se
estimado de la variable dependiente, la diferencia entre lo que Y era
realmente, 𝑌𝑖 , y lo que se estima que es 𝑌𝑖 , es el error.
Mínimos cuadrados ordinarios: características
La suma de los errores es igual a 0.
σ 𝑌𝑖 − 𝑌𝑖 = 0
MCO asegura que se minimice la suma de estos errores al cuadrado
produciendo una recta tal que esta suma de cuadrados es menor de
lo que sería con cualquier otra recta.
2
σ 𝑌𝑖 − 𝑌𝑖 = 𝑚𝑖𝑛
Mínimos cuadrados
ordinarios-ejemplo
𝐸𝑟𝑟𝑜𝑟 = 𝑌𝑖 − 𝑌𝑖
PUBLICIDAD VENTAS
MES (X) (Y)
1 50 450
2 40 380
3 65 540
4 55 500
5 45 420
Mínimos cuadrados ordinarios: fórmulas de cálculo
𝑆𝐶𝑥𝑦 148.93333
•𝑏= = = 1.08
𝑆𝐶𝑥 137.73333
• 𝑎 = 𝑌ത − 𝑏𝑋ത = 17.86667 − 1.08 12.46667 = 4.40
• 𝑌 = 4.40 + 1.08𝑋𝑖
Interpretación del coeficiente de regresión
(b)
• b= 1,08 significa que por cada incremento de la publicidad (variable X)
en mil dólares (una unidad) el número de pasajeros (variable y) se
incrementará en 1080 pasajeros. Recuérdese que la publicidad y el
número de pasajeros están dado en miles de dólares.
• Cuando la relación es creciente (b > 0, o sea, positivo) si incrementa X
aumenta también Y, pero si la relación es decreciente, o sea, b <0,
entonces la relación será inversa si X aumenta Y disminuye y
viceversa.
Supuestos del modelo de regresión lineal
1) El término de error es una variable aleatoria distribuida
normalmente.
2) Varianzas iguales en los valores de Y.
3) Los términos de error son independientes uno del otro.
4) El supuesto de linealidad.
Supuesto 1: El error se distribuye
normalmente
• En todo proceso de generación de datos muchas veces un
determinado valor de X produce muchos valores de Y diferentes entre
sí. Algunas veces 𝑌𝑖 puede estar por encima de la recta de regresión
haciendo que el término de error (𝑌𝑖 −𝑌𝑖 ) sea positivo mientras en
otros momentos 𝑌𝑖 es menor que 𝑌𝑖 , creando un error negativo.
• Se asume que estos términos de error se distribuyen normal y
aleatoriamente alrededor de la recta de regresión poblacional.
Supuesto 2: varianzas iguales o
homocedasticidad
• Significa que las varianzas en los valores Y son las mismas en todos los
valores de X.
Supuesto 3: los términos de error son
independientes uno del otro
• Esta hipótesis puede probarse
analizando un diagrama de los
errores de los datos muestrales.
Sino puede observarse ningún
patrón se puede asumir que los
términos de error no se
relacionan.
• Cuando los términos de error no
son independientes, ocurre el
fenómeno llamado
“autocorrelación”.
Autocorrelación
𝑆𝐶𝑥𝑦 2 𝑆𝐶𝐸
• 𝑆𝐶𝐸 = 𝑆𝐶𝑦 − 𝐶𝑀𝐸 =
𝑆𝐶𝑥 𝑛−2
148.93333 2
• 𝑆𝐶𝐸 = 171.73333 − = 10.6893
137.73333
10.6893
• 𝐶𝑀𝐸 = = 0.82226 𝑆𝑒 = 0.82226 = 0.90678
15−2
Error estándar de estimación - ejemplo
• Para el ejemplo anterior, el error estándar de 0.907 o 907 pasajeros
mide la variabilidad de los valores Y alrededor de la recta de regresión
ajustada.
• El error estándar de estimación es muy similar a la desviación
estándar por tanto para su interpretación se puede tomar como base
la regla empírica.
• Esto es, si aplicamos la recta ajustada al valor X igual a 10,
obtendríamos la estimación 15.2. Si a esta estimación restamos y
sumamos el error estándar entonces obtendríamos el intervalo (14.29
– 16.11) en el cual se encontrarían aproximadamente el 68% de las
observaciones.
Análisis de correlación lineal
• Proporciona una medida de la fuerza o relación entre dos variables.
• El coeficiente que proporciona tal medida se denomina coeficiente de
correlación desarrollado por Carl Pearson a finales del siglo XX.
• Algunas veces se le llama el coeficiente de correlación producto-momento
de Pearson.
• Representado por una “r”, el coeficiente de correlación puede asumir
cualquier valor entre -1 y +1.
• Un valor de -1 indica una relación perfectamente negativa entre X y Y,
mientras un valor de +1 implica una relación perfectamente positiva.
• Cualquier valor intermedio entre estos dos implicará relaciones negativas o
positivas cuya fuerza dependerá de que tan cercano este “r” a -1 o +1.
Análisis de correlación – tipos de relación
Coeficiente de correlación – procedimiento de
cálculo
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎 𝑆𝐶𝑅 𝑆𝐶𝑥𝑦 UN COEFICIENTE
•𝑟= = = = DE CORRELACIÓN
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑆𝐶𝑇 CON UN VALOR
𝑆𝐶𝑥 𝑆𝐶𝑦
COMO ESTE DE
148.93333
= 0.9683 0.9683 INDICA
(137.73333)(171.73333) UNA ALTA
CORRELACIÓN
POSITIVA.
Correlación Parcial
• Hay ciertas ocasiones en que existe asociaciones causadas
indirectamente por terceras variables. Por ejemplo para las últimas
elecciones presidenciales que hubo en el país se dijo que aquellas
comunidades donde hubo mayor acceso a internet, tuvieron menor
porcentaje de abstencionismo. Esto es, en las zonas urbanas hubo
mayor participación electoral que en las poblaciones rurales. Sin
embargo, la menor participación en zonas rurales pudo deberse a
otros factores como difícil acceso, malos caminos, largas distancias
hasta el centro de votación y falta de medios de transporte. Y no
necesariamente al acceso a internet.
Correlación parcial
• En el caso anterior podría interesar calcular la correlación entre dos
variables eliminando el efecto de una tercera variable que las influye.
Para ello, se utiliza el coeficiente de correlación parcial donde se logra
determinar la asociación entre las variables “X”y “Y” eliminando el
efecto de la variable “Z”, para lo cual se utiliza la siguiente formula:
Coeficiente de determinación – medida de bondad
2
de ajuste 𝑟
• Proporciona una medida de
bondad de ajuste porque
revela que porcentaje del
cambio en Y se explica por un
cambio en X.
• Este coeficiente tiene
significado solo para
relaciones lineales. Dos
variables pueden tener un 𝑟 2
de cero y sin embargo, estar
relacionadas de manera
curvilínea.
Coeficiente de determinación - cálculo
2
2 𝑆𝐶𝑥𝑦 148.9333 2
•𝑟 = = = 0,93776 = 0,94
𝑆𝐶𝑥 𝑆𝐶𝑦 137.7333 171.7333
1−0.93776
• 𝑆𝑟 = = 0.069
15−2
Para efectos de
0,9683 − 0
• 𝑡𝑐 = = 13,995 la prueba ρ = 0.
0,069
𝛼
𝐿𝑎 𝑡𝑐 𝑠𝑒 𝑐𝑜𝑚𝑝𝑎𝑟𝑎 𝑐𝑜𝑛𝑡𝑟𝑎 𝑒𝑛 𝑣𝑎𝑙𝑜𝑟 t 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑝𝑎𝑟𝑎 1 − 𝑦 𝑛 − 2 𝑔. 𝑙.
2