Académique Documents
Professionnel Documents
Culture Documents
1. Regresión
Regresión
• Al realizar un experimento, se obtienen pares de datos (X, Y)
que se colocan en una plano cartesiano. Estos puntos forman
un diagrama de dispersión.
• Los puntos pueden aproximarse a una curva, de tal forma que
se ajuste al comportamiento de los fenómenos.
• Esta curva puede ser de muchos tipos, como parábola,
exponencial, o geométrica.
• Aquí mostraremos cómo ajustar a una gráfica lineal.
1. Regresión
Regresión lineal simple
• Este tipo de regresión emplea la variable independiente (x) y
una variable dependiente (Y) para una población.
• Supongamos que la relación entre ambas es una línea recta.
• La recta puede escribirse de la forma:
𝑌 = 𝛽0 + 𝛽1 𝑥
• Esto quiere decir que con dos puntos cualesquiera
𝑋1 , 𝑌1 , 𝑋2 , 𝑌2 pueden obtenerse las constantes que se
adecuan a la recta. Si se tienen más, se puede tener una
mejor aproximación a la recta.
• Un experimento consiste de resultados aleatorios, es decir,
no podemos predecir exactamente qué valor será el medido a
partir de la variable independiente.
𝑛𝛽መ0 + 𝛽መ1 𝑥𝑖 = 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
𝛽መ0 𝑥𝑖 + 𝛽መ1 𝑥𝑖 2 = 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
• Al resolver estas ecuaciones simultáneamente:
𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − σ𝑛𝑖=1 𝑥𝑖 σ𝑛𝑖=1 𝑦𝑖 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥ҧ σ𝑛𝑖=1 𝑦𝑖
𝛽1 = 2 = 𝑛 2 − 𝑛𝑥ҧ 2
=
𝑛
𝑛σ 𝑥 − σ 𝑥2 𝑛 σ𝑖=1 𝑖𝑥
𝑖=1 𝑖 𝑖=1 𝑖
𝒏 σ 𝒙𝒚 − σ 𝒙 σ 𝒚
=
𝒏 σ 𝒙𝟐 − σ 𝒙 𝟐
σ𝑛𝑖=1 𝑦𝑖 − 𝛽1 σ𝑛𝑖=1 𝑥𝑖
𝛽0 = =𝒚ഥ − 𝜷𝟏 𝒙
ഥ
𝑛
• Estos son los valores necesarios para hallar la recta de regresión.
𝑦 2 = 2286.07, 𝑥𝑦 = 11824.44.
12
10
0
0 20 40 60 80 100 120
A1. Actividad
Probabilidad y estadística
José Luis Poveda Macías
Ingeniero Físico
Maestro en Educación
Análisis de correlación
• Coeficiente de correlación
• Coeficiente de determinación
Correlación
• Hasta ahora, hemos relacionado una variable independiente
(determinista) con una variable dependiente (aleatoria)
• Pero, ¿qué ocurre en el caso en que ninguna de las variables
se pueda controlar, es decir, que ambas sean aleatorias?
• Entonces, no se debe realizar un análisis de regresión sino uno
de correlación.
• En este caso, no se desea hallar una relación lineal entre las
dos variables, sino que intenta medir la intensidad de la
relación lineal entre X y Y.
1. Correlación
Correlación
• Para asignar un valor a esta
correlación, es necesario crear un
parámetro que indique la fortaleza
de relación entre dos variables.
• El coeficiente de correlación de
Pearson 𝝆 está definido como:
𝐶𝑜𝑣 𝑋, 𝑌
𝜌=
𝜎𝑥 2 𝜎𝑦 2
• 𝐶𝑜𝑣 𝑋, 𝑌 se conoce como
covarianza de las dos variables,
mientras que 𝜎𝑥 2 , 𝜎𝑦 2 son las
varianzas para cada variable.
1. Correlación
Correlación
Este parámetro asume valores entre -1 y 1:
• Si 𝜌 = 1, la relación es perfecta positiva.
• Si 𝜌 = −1, la relación es perfecta negativa.
• Si 𝜌 = 0, no existe una relación entre ambas variables.
• Por supuesto, como no tenemos una función que aplique para
ambas variables, tendremos que estimar los valores de
acuerdo con los datos obtenidos. Entonces:
𝑛
2 𝑋 𝑖 − ത
𝑋 2 𝑆𝑥𝑥
𝜎ො𝑥 = =
𝑛 𝑛
𝑖=1
𝑛
2 𝑌𝑖 − 𝑌ത 2 𝑆𝑦𝑦
𝜎ො𝑦 = =
𝑛 𝑛
𝑖=1
1. Correlación
Correlación
• Para estimar la covarianza, es necesario realizar los productos:
𝑛
𝑋 𝑖 − ത 𝑌𝑖 − 𝑌ത
𝑋 𝑆𝑥𝑦
𝐶𝑜𝑣 𝑋, 𝑌 = =
𝑛 𝑛
𝑖=1
• Entonces, el estimador para 𝜌, el coeficiente de correlación
muestral es:
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑆𝑥𝑦
𝜌ො = 𝑟 = 1/2
=
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑆𝑥𝑥 𝑆𝑦𝑦
• La ecuación anterior se puede representar de una forma más
fácil de obtener con los datos.
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
1. Correlación
Ejemplo
• En un estudio del efecto del efluente de aguas negras en un
lago, los investigadores miden la concentración de nitrato en el
agua. Un antiguo método natural se ha utilizado para
cuantificar esa variable. Sin embargo, se diseñó un nuevo
método automatizado. Si existe correlación positiva alta entre
las mediciones tomadas con los dos métodos, se pondrá en
uso habitual el automatizado. Se obtienen los datos siguientes
sobre la concentración de nitrato, en microgramos de nitrato
por litro de agua:
1. Correlación
Ejemplo
x (manual) y (automatización)
25 30
40 80
120 150
75 80
150 200
300 350
270 240
400 320
450 470
575 583
1. Correlación
Ejemplo
• Es necesario calcular los valores en la tabla.
x (manual) y (automatización) xy
25 30 750
40 80 3200
120 150 18000
75 80 6000
150 200 30000
300 350 105000
270 240 64800
400 320 128000
450 470 211500
575 583 335225
• Aplicando la fórmula
10 902475 − 2405 2503
𝑟=
10 900775 − 2405 2 10 919489 − 2503 2
3005305
𝑟= = 𝟎. 𝟗𝟕𝟖
3223725 2929881
• Ya que el valor es cercano a 1, la relación entre X y Y es una
correlación positiva fuerte.
1. Correlación
Coeficiente de determinación
• El coeficiente de determinación es un indicador de tendencia.
• Expresa la proporción de la variación total de las valores de la
variable y que se pueden contabilizar o explicar por una
relación lineal con los valores de la variable aleatoria x.
• Por ejemplo, si se tiene un 𝑟 2 = 0.36, esto indica que el 36%
de la variación de los valores de y en la muestra se deben a
variaciones en los valores de x.
• Está relacionado con la relación lineal. Puede calcularse para
una recta de la siguiente manera:
𝑛 2
σ 𝑦
𝑖=1 𝑖 − 𝑦
ො𝑖
𝑅2 = 𝑛
σ𝑖=1 𝑦𝑖 − 𝑦ത 2
• Finalmente: 𝑟 = 𝑅2 .
2. Coeficiente de determinación.
Coeficiente de determinación
Correlación Correlación Correlación Correlación Correlación Correlación
Negativa Negativa Negativa Positiva Positiva Positiva
Fuerte Moderada Débil Débil Moderada Fuerte
-0.9 -0.5 0 0.5 0.9
No relacionado
Interpretación para r
0 0.25 0.81
Interpretación para 𝑅2
2. Coeficiente de determinación.
Ejemplo
• Montgomery y Peck (1992) describen una aplicación del
análisis de regresión en la que un ingeniero, de una
embotelladora de refrescos, investiga la distribución del
producto y las operaciones de la ruta de servicio para las
máquinas expendedoras. El ingeniero sospecha que el tiempo
necesario para surtir y dar servicio a la máquina está
relacionado con el número de envases surtido. Se toma una
muestra de 25 distribuidores que tienen máquinas
expendedoras, y se anota, para cada uno de ellos, el tiempo de
surtido (en minutos) y el volumen de producto surtido (en
envases). Los datos aparecen en la tabla. Halla el modelo de
regresión y los coeficientes de regresión y de correlación.
2. Coeficientes de determinación.
Ejemplo
Número de observación Tiempo de suministro , y Número de casos, x
1 9.95 2
2 24.45 8
3 31.75 11
4 35.00 10
5 25.02 8
6 16.86 4
7 14.38 2
8 9.60 2
9 24.35 9
10 27.50 8
11 17.08 4
12 37.00 11
2. Coeficientes de determinación.
Ejemplo
13 41.95 12
14 11.36 2
15 21.65 4
16 17.89 4
17 69.00 20
18 10.30 1
19 34.93 10
20 46.59 15
21 44.88 15
22 54.12 16
23 56.63 17
24 22.13 6
25 21.15 5
2. Coeficientes de determinación.
Ejemplo
• Lo primero es calcular los valores para estimar el modelo de
regresión:
σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒙
ത σ𝒏𝒊=𝟏 𝒚𝒊
𝟏 =
𝜷
σ𝒏𝒊=𝟏 𝒙𝒊 𝟐 − 𝒏ത
𝒙𝟐
• Los datos se obtienen realizando las sumatorias dadas:
𝑛 = 25, 𝑥ҧ = 8.24, 𝑥𝑦 = 8007.87, 𝑦 = 725.52, 𝑥 2
= 2396.
8007.87 − 8.24 725.52 2029.58
𝛽መ1 = = = 𝟐. 𝟗𝟎𝟓
2396 − 25 67.9 698.5
2. Coeficientes de determinación.
Ejemplo
• Ahora hallamos el término 𝛽መ0 = 𝑦ത − 𝑏1 𝑥ҧ = 29.02 −
2.905 8.24 = 𝟓. 𝟎𝟖𝟐𝟖
• Por lo tanto, la ecuación de regresión es:
𝑦ො = 5.0828 + 2.905𝑥
• Para encontrar r, usamos la siguiente ecuación:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
25 8007.87 − 206 725.52
𝑟=
25 2396 − 42436 25 27171.63 − 526379.27
50739.63
= = 𝟎. 𝟗𝟖𝟏𝟖
17464 152911.48
2. Coeficientes de determinación.
Ejemplo
• Para concluir:
𝑟 2 = 𝑅2 = 0.9818 2 = 𝟎. 𝟗𝟔𝟒𝟏
2. Coeficientes de determinación.
Actividad 1
• Un astrónomo y sociólogo famoso observa el número de
manchas solares y de solicitudes de ingreso a la Facultad de
Medicina por 5 años consecutivos. El teoriza que el número
de manchas solares tiene alguna influencia en el número de
solicitudes para la Facultad de Medicina. Halla la correlación
de ambas cantidades. ¿Qué tan bien se explica la variación de
las solicitudes por la variación en el número de manchas
solares?
X, manchas solares Y, solicitudes para Facultad Medicina
3 9
1 5
2 7
5 14
A1. Actividad 4 10