Vous êtes sur la page 1sur 41

Probabilidad y estadística

José Luis Poveda Macías


Ingeniero Físico
Maestro en Educación
UNIDAD 7: REGRESIÓN Y
CORRELACIÓN LINEAL
Análisis de regresión
• Regresión
– Regresión lineal simple
• Método de mínimos cuadrados
• Error estándar de la estimación
Regresión
• En ingeniería, una gran cantidad de problemas implican la
relación entre dos variables y, muchas veces, se requiere
conocer la naturaleza de estas relaciones.
• La estadística es una herramienta muy útil para modelar
ecuaciones.
• Recordemos que el fin último de un experimento es lograr
predecir el comportamiento de un determinado fenómeno, el
cuál puede ser representado en una gráfica de regresión.

1. Regresión
Regresión
• Al realizar un experimento, se obtienen pares de datos (X, Y)
que se colocan en una plano cartesiano. Estos puntos forman
un diagrama de dispersión.
• Los puntos pueden aproximarse a una curva, de tal forma que
se ajuste al comportamiento de los fenómenos.
• Esta curva puede ser de muchos tipos, como parábola,
exponencial, o geométrica.
• Aquí mostraremos cómo ajustar a una gráfica lineal.

1. Regresión
Regresión lineal simple
• Este tipo de regresión emplea la variable independiente (x) y
una variable dependiente (Y) para una población.
• Supongamos que la relación entre ambas es una línea recta.
• La recta puede escribirse de la forma:
𝑌 = 𝛽0 + 𝛽1 𝑥
• Esto quiere decir que con dos puntos cualesquiera
𝑋1 , 𝑌1 , 𝑋2 , 𝑌2 pueden obtenerse las constantes que se
adecuan a la recta. Si se tienen más, se puede tener una
mejor aproximación a la recta.
• Un experimento consiste de resultados aleatorios, es decir,
no podemos predecir exactamente qué valor será el medido a
partir de la variable independiente.

2. Regresión lineal simple


Regresión lineal simple
• Podemos definir Y|𝑥 como una variable aleatoria para un valor de
x. Con esto, podemos definir la media y la varianza para dicha
variable: 𝜇𝑌|𝑥 y varianza 𝜎 2 𝑌|𝑥
• La regresión lineal consiste en que la media está linealmente
relacionada con x, por una ecuación de regresión lineal poblacional:
𝜇𝑌|𝑥 = 𝛽0 + 𝛽1 𝑥
• Sin embargo, estamos utilizando muestras obtenidas por un
experimento, por lo tanto, los datos se refieren a estimaciones:
𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥
• Entonces hay dos gráficas, una gráfica “real” (a la que tiende el
fenómeno), y una gráfica ajustada (que depende del total de datos
que se hayan obtenido.

2. Regresión lineal simple


Regresión lineal simple
• La gráfica verde es la
estimación obtenida
por los puntos
mostrados.
• La gráfica naranja es la
tendencia natural al
tener una gran
cantidad de datos.

2. Regresión lineal simple


Regresión lineal simple
• Supongamos que todas las medias para cada X y cada Y caen
en esta recta. Evidentemente, habrá un cierto error en Y que
será la diferencia entre el valor real y el valor ajustado:
𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝜀
• Para cada dato X, existe un cierto error 𝜀. Este error es la
diferencia entre la ordenada y la recta de ajuste, y es
aleatorio.
• Cada observación debe satisfacer la relación:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖

2. Regresión lineal simple


Regresión lineal simple
• La recta a la que se está ajustando es muy similar, pero usa los
parámetros muestrales:
𝑦ො𝑖 = 𝛽መ0 + 𝛽መ1 𝑥𝑖 + 𝑒𝑖
• Aquí es importante notar que 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 , es llamado
residuo,. 𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥
𝑒𝑖
𝜀𝑖
𝑌 = 𝛽0 + 𝛽1 𝑥

2. Regresión lineal simple


Método de mínimos cuadrados
• Usaremos el error asociado a
cada dato para determinar la
recta óptima de ajuste.
• Esto lo haremos haciendo la
suma de todos los residuos
existentes.
• El ajuste óptimo se dará
cuando 𝑒1 2 + 𝑒2 2 + ⋯ + 𝑒𝑛 2
sea mínimo.

3. Método de mínimos cuadrados


Recta de mínimos cuadrados
• Recordemos la ecuación propuesta anteriormente:
𝑌 = 𝛽0 + 𝛽1 𝑥
• Calculemos la suma de los cuadrados de los errores:
𝑛 𝑛 𝑛
2
2
𝑆𝑆𝐸 = ෍ 𝑒𝑖 = ෍ 𝑦𝑖 − 𝑦ො𝑖 2
= ෍ 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖
𝑖=1 𝑖=1 𝑖=1
• Para hallar el mínimo requerimos derivar e igualar a cero.
Derivemos con respecto a las estimaciones:
𝑛
𝜕 𝑆𝑆𝐸
= −2 ෍ 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖 = 0
𝜕𝛽መ0
𝑖=1
𝑛
𝜕 𝑆𝑆𝐸
= −2 ෍ 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖 𝑥𝑖 = 0
𝜕 𝛽መ1
𝑖=1

3. Método de mínimos cuadrados


Coeficientes de regresión
• De lo anterior, obtenemos dos ecuaciones:
𝑛 𝑛

𝑛𝛽መ0 + 𝛽መ1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

𝛽መ0 ෍ 𝑥𝑖 + 𝛽መ1 ෍ 𝑥𝑖 2 = ෍ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
• Al resolver estas ecuaciones simultáneamente:
𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − σ𝑛𝑖=1 𝑥𝑖 σ𝑛𝑖=1 𝑦𝑖 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥ҧ σ𝑛𝑖=1 𝑦𝑖
𝛽1 = 2 = 𝑛 2 − 𝑛𝑥ҧ 2
=
𝑛
𝑛σ 𝑥 − σ 𝑥2 𝑛 σ𝑖=1 𝑖𝑥
𝑖=1 𝑖 𝑖=1 𝑖
𝒏 σ 𝒙𝒚 − σ 𝒙 σ 𝒚
=
𝒏 σ 𝒙𝟐 − σ 𝒙 𝟐
σ𝑛𝑖=1 𝑦𝑖 − 𝛽1 σ𝑛𝑖=1 𝑥𝑖
𝛽0 = =𝒚ഥ − 𝜷𝟏 𝒙

𝑛
• Estos son los valores necesarios para hallar la recta de regresión.

3. Método de mínimos cuadrados


Algunas consideraciones importantes
• Los estimadores no son lo mismo que los
valores verdaderos.
• Los residuos no son lo mismo que los errores
• No extrapoles fuera del rango de datos
• No uses la recta de mínimos cuadrados
cuando los datos no son lineales.
• Que exista una relación no indica que existe
causalidad entre ambos.

3. Método de mínimos cuadrados


Ejemplo 1
• La humedad influye en la evaporación, de modo que el
equilibrio de solventes de las pinturas base agua, durante su
rocío, se ve afectado por la humedad. Se emprende un
estudio controlado para examinar la relación de la humedad
con la magnitud de la evaporación del solvente (Y). El
conocimiento de esta relación es útil para que el pintor ajuste
el aspersor de pintura a modo de considerar la humedad. Se
obtienen los datos siguientes:

3. Método de mínimos cuadrados


Ejemplo 1
Observación Humedad relativa (%) Evaporación del solvente (%) de peso
1 35.3 11.0
2 29.7 11.1
3 30.8 12.5
4 58.8 8.4
5 61.4 9.3
6 71.3 8.7
7 74.4 6.4
8 76.7 8.5
9 70.7 7.8
10 57.5 9.1
11 46.4 8.2
12 28.9 12.2

3. Método de mínimos cuadrados


Ejemplo 1
13 28.1 11.9
14 39.1 9.6
15 46.8 10.9
16 48.5 9.6
17 59.3 10.1
18 70.0 8.1
19 70.0 6.8
20 74.4 8.9
21 72.1 7.7
22 58.1 8.5
23 44.6 8.9
24 33.4 10.4
25 28.6 11.1

3. Método de mínimos cuadrados


Ejemplo 1
¿Cuál es la recta de regresión?
• Para calcular esto, primero es necesario definir la variable
independiente (x) y la variable dependiente (y).
• En este caso, la variable independiente es la humedad relativa
y la evaporación del solvente es la variable dependiente.
• Para estos ejercicios, es necesario hallar los valores de las
sumatorias siguientes: 𝑛, σ 𝑥 , σ 𝑦 , σ 𝑥 2 , σ 𝑦 2 , σ 𝑥𝑦 .
• Los valores de estas sumatorias son:
𝑛 = 25, ෍ 𝑥 = 1314.90, ෍ 𝑦 = 235.70, ෍ 𝑥 2 = 76308.53,

෍ 𝑦 2 = 2286.07, ෍ 𝑥𝑦 = 11824.44.

3. Método de mínimos cuadrados


Ejemplo 1
Ahora, tenemos que estimar los valores de 𝛽መ1 y 𝛽መ0 con la
pendiente 𝛽1 y la intersección 𝛽0 .
• Para hallar 𝛽መ1 usamos la fórmula.
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦

𝛽1 = 𝑏1 =
𝑛 σ 𝑥2 − σ 𝑥 2
25 11824.44 − 1314.90 235.70
= 2
= −𝟎. 𝟎𝟖.
25 76308.53 − 1314.90
• Para hallar 𝛽መ0 , es necesario conocer las medias 𝑥ҧ y 𝑦.

235.70 1314.90

𝛽0 = 𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ = − −0.08
25 25
= 9.43 − −0.08 52.60 = 𝟏𝟑. 𝟔𝟒

3. Método de mínimos cuadrados


Ejemplo 1
• Finalmente, la ecuación estimada es:
𝜇Ƹ 𝑌|𝑥 = 𝑦ො = 13.64 − 0.08𝑥
Evaporación del solvente (%) de peso
14

12

10

8 Evaporación del solvente (%) de


peso
6 Lineal (Evaporación del solvente
(%) de peso)
y = -0.0801x + 13.639
4

0
0 20 40 60 80 100 120

3. Método de mínimos cuadrados


Ejemplo 1
• Estima cuánto solvente se evaporará si la humedad relativa es
del 50%.
• Para este caso, sólo hay que sustituir el valor de x en la
ecuación encontrada anteriormente:
𝑦ො = 13.64 − 0.08 50 = 9.64
• Por lo tanto se evaporará el 9.64% del solvente con un 50% de
humedad. Recordemos que esto es una estimación, pero el
valor real será muy cercano a éste.

3. Método de mínimos cuadrados


Actividad 1
• Por lo general las procesadoras de alimentos preservan los
pepinos fermentándolos en una salmuera baja en sales (6% a
9% de cloruro de sodio) y luego almacenándolos en una
salmuera de alto contenido de sales hasta que son utilizados
para producir varios tipos de pepinillos en vinagre. Los datos
que muestran la reducción de la consistencia de los pepinillos
almacenados en una salmuera baja en sales (2% a 3%) se dan
en la tabla siguiente
Semanas (x) en el almacenamiento a 72°F
0 4 14 32 52
Firmeza (y) en libras 19.8 16.5 12.8 8.1 7.5
• Ajusta una recta y estima la consistencia media para pepinillos
almacenados durante 20 semanas.

A1. Actividad
Probabilidad y estadística
José Luis Poveda Macías
Ingeniero Físico
Maestro en Educación
Análisis de correlación
• Coeficiente de correlación
• Coeficiente de determinación
Correlación
• Hasta ahora, hemos relacionado una variable independiente
(determinista) con una variable dependiente (aleatoria)
• Pero, ¿qué ocurre en el caso en que ninguna de las variables
se pueda controlar, es decir, que ambas sean aleatorias?
• Entonces, no se debe realizar un análisis de regresión sino uno
de correlación.
• En este caso, no se desea hallar una relación lineal entre las
dos variables, sino que intenta medir la intensidad de la
relación lineal entre X y Y.

1. Correlación
Correlación
• Para asignar un valor a esta
correlación, es necesario crear un
parámetro que indique la fortaleza
de relación entre dos variables.
• El coeficiente de correlación de
Pearson 𝝆 está definido como:
𝐶𝑜𝑣 𝑋, 𝑌
𝜌=
𝜎𝑥 2 𝜎𝑦 2
• 𝐶𝑜𝑣 𝑋, 𝑌 se conoce como
covarianza de las dos variables,
mientras que 𝜎𝑥 2 , 𝜎𝑦 2 son las
varianzas para cada variable.

1. Correlación
Correlación
Este parámetro asume valores entre -1 y 1:
• Si 𝜌 = 1, la relación es perfecta positiva.
• Si 𝜌 = −1, la relación es perfecta negativa.
• Si 𝜌 = 0, no existe una relación entre ambas variables.
• Por supuesto, como no tenemos una función que aplique para
ambas variables, tendremos que estimar los valores de
acuerdo con los datos obtenidos. Entonces:
𝑛
2 𝑋 𝑖 − ത
𝑋 2 𝑆𝑥𝑥
𝜎ො𝑥 = ෍ =
𝑛 𝑛
𝑖=1
𝑛
2 𝑌𝑖 − 𝑌ത 2 𝑆𝑦𝑦
𝜎ො𝑦 =෍ =
𝑛 𝑛
𝑖=1

1. Correlación
Correlación
• Para estimar la covarianza, es necesario realizar los productos:
𝑛
𝑋 𝑖 − ത 𝑌𝑖 − 𝑌ത
𝑋 𝑆𝑥𝑦

𝐶𝑜𝑣 𝑋, 𝑌 = ෍ =
𝑛 𝑛
𝑖=1
• Entonces, el estimador para 𝜌, el coeficiente de correlación
muestral es:
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 𝑆𝑥𝑦
𝜌ො = 𝑟 = 1/2
=
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2 𝑆𝑥𝑥 𝑆𝑦𝑦
• La ecuación anterior se puede representar de una forma más
fácil de obtener con los datos.
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
1. Correlación
Ejemplo
• En un estudio del efecto del efluente de aguas negras en un
lago, los investigadores miden la concentración de nitrato en el
agua. Un antiguo método natural se ha utilizado para
cuantificar esa variable. Sin embargo, se diseñó un nuevo
método automatizado. Si existe correlación positiva alta entre
las mediciones tomadas con los dos métodos, se pondrá en
uso habitual el automatizado. Se obtienen los datos siguientes
sobre la concentración de nitrato, en microgramos de nitrato
por litro de agua:

1. Correlación
Ejemplo
x (manual) y (automatización)
25 30
40 80
120 150
75 80
150 200
300 350
270 240
400 320
450 470
575 583

1. Correlación
Ejemplo
• Es necesario calcular los valores en la tabla.
x (manual) y (automatización) xy
25 30 750
40 80 3200
120 150 18000
75 80 6000
150 200 30000
300 350 105000
270 240 64800
400 320 128000
450 470 211500
575 583 335225

෍ 𝑥 = 2405 ෍ 𝑦 = 2503 ෍ 𝑥𝑦 = 902475


1. Correlación
Ejemplo
• Además de los valores anteriores, es necesario usar:
𝑛 = 10, ෍ 𝑥 2 = 900775, ෍ 𝑦 2 = 919489

• Aplicando la fórmula
10 902475 − 2405 2503
𝑟=
10 900775 − 2405 2 10 919489 − 2503 2
3005305
𝑟= = 𝟎. 𝟗𝟕𝟖
3223725 2929881
• Ya que el valor es cercano a 1, la relación entre X y Y es una
correlación positiva fuerte.

1. Correlación
Coeficiente de determinación
• El coeficiente de determinación es un indicador de tendencia.
• Expresa la proporción de la variación total de las valores de la
variable y que se pueden contabilizar o explicar por una
relación lineal con los valores de la variable aleatoria x.
• Por ejemplo, si se tiene un 𝑟 2 = 0.36, esto indica que el 36%
de la variación de los valores de y en la muestra se deben a
variaciones en los valores de x.
• Está relacionado con la relación lineal. Puede calcularse para
una recta de la siguiente manera:
𝑛 2
σ 𝑦
𝑖=1 𝑖 − 𝑦
ො𝑖
𝑅2 = 𝑛
σ𝑖=1 𝑦𝑖 − 𝑦ത 2
• Finalmente: 𝑟 = 𝑅2 .

2. Coeficiente de determinación.
Coeficiente de determinación
Correlación Correlación Correlación Correlación Correlación Correlación
Negativa Negativa Negativa Positiva Positiva Positiva
Fuerte Moderada Débil Débil Moderada Fuerte
-0.9 -0.5 0 0.5 0.9
No relacionado
Interpretación para r

Tendencia Tendencia Tendencia


lineal lineal lineal
débil moderada fuerte

0 0.25 0.81
Interpretación para 𝑅2

2. Coeficiente de determinación.
Ejemplo
• Montgomery y Peck (1992) describen una aplicación del
análisis de regresión en la que un ingeniero, de una
embotelladora de refrescos, investiga la distribución del
producto y las operaciones de la ruta de servicio para las
máquinas expendedoras. El ingeniero sospecha que el tiempo
necesario para surtir y dar servicio a la máquina está
relacionado con el número de envases surtido. Se toma una
muestra de 25 distribuidores que tienen máquinas
expendedoras, y se anota, para cada uno de ellos, el tiempo de
surtido (en minutos) y el volumen de producto surtido (en
envases). Los datos aparecen en la tabla. Halla el modelo de
regresión y los coeficientes de regresión y de correlación.

2. Coeficientes de determinación.
Ejemplo
Número de observación Tiempo de suministro , y Número de casos, x
1 9.95 2
2 24.45 8
3 31.75 11
4 35.00 10
5 25.02 8
6 16.86 4
7 14.38 2
8 9.60 2
9 24.35 9
10 27.50 8
11 17.08 4
12 37.00 11

2. Coeficientes de determinación.
Ejemplo
13 41.95 12
14 11.36 2
15 21.65 4
16 17.89 4
17 69.00 20
18 10.30 1
19 34.93 10
20 46.59 15
21 44.88 15
22 54.12 16
23 56.63 17
24 22.13 6
25 21.15 5

2. Coeficientes de determinación.
Ejemplo
• Lo primero es calcular los valores para estimar el modelo de
regresión:
σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 − 𝒙
ത σ𝒏𝒊=𝟏 𝒚𝒊
෡𝟏 =
𝜷
σ𝒏𝒊=𝟏 𝒙𝒊 𝟐 − 𝒏ത
𝒙𝟐
• Los datos se obtienen realizando las sumatorias dadas:
𝑛 = 25, 𝑥ҧ = 8.24, ෍ 𝑥𝑦 = 8007.87, ෍ 𝑦 = 725.52, ෍ 𝑥 2

= 2396.
8007.87 − 8.24 725.52 2029.58
𝛽መ1 = = = 𝟐. 𝟗𝟎𝟓
2396 − 25 67.9 698.5

2. Coeficientes de determinación.
Ejemplo
• Ahora hallamos el término 𝛽መ0 = 𝑦ത − 𝑏1 𝑥ҧ = 29.02 −
2.905 8.24 = 𝟓. 𝟎𝟖𝟐𝟖
• Por lo tanto, la ecuación de regresión es:
𝑦ො = 5.0828 + 2.905𝑥
• Para encontrar r, usamos la siguiente ecuación:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 𝑛 σ 𝑦2 − σ 𝑦 2
25 8007.87 − 206 725.52
𝑟=
25 2396 − 42436 25 27171.63 − 526379.27
50739.63
= = 𝟎. 𝟗𝟖𝟏𝟖
17464 152911.48

2. Coeficientes de determinación.
Ejemplo
• Para concluir:
𝑟 2 = 𝑅2 = 0.9818 2 = 𝟎. 𝟗𝟔𝟒𝟏

• Como puede verse, existe una gran correlación entre ambas


variables, y hay una tendencia lineal, fácilmente apreciable,
entre ellas.

2. Coeficientes de determinación.
Actividad 1
• Un astrónomo y sociólogo famoso observa el número de
manchas solares y de solicitudes de ingreso a la Facultad de
Medicina por 5 años consecutivos. El teoriza que el número
de manchas solares tiene alguna influencia en el número de
solicitudes para la Facultad de Medicina. Halla la correlación
de ambas cantidades. ¿Qué tan bien se explica la variación de
las solicitudes por la variación en el número de manchas
solares?
X, manchas solares Y, solicitudes para Facultad Medicina
3 9
1 5
2 7
5 14
A1. Actividad 4 10

Vous aimerez peut-être aussi