Vous êtes sur la page 1sur 41

ANÁLISIS DE REGRESIÓN Y

CORRELACIÓN

Page  1
Análisis de regresión

La regresión es un método utilizado para analizar


las relaciones estocásticas entre diversas
variables.

Se denomina estocástico al sistema


cuyo comportamiento es
intrínsecamente no determinista.

Los objetivos del análisis de regresión son dos:


•Obtener una ecuación que permita “predecir” el valor de Y
una vez conocidos los valores de X1, X2, … Xk, a estos
modelos se les conoce como modelos predictivos.
•Conocer la relación funcional entre X1, X2, …, XK, y la
variable Y con el fin de conocer o explicar mejor los
mecanismos de esa relación.
Page  2
Tipos de Relaciones

 Una variable que influye sobre otra:


– La edad influye en el desarrollo mental del niño
– La cantidad de proteína de la harina influye en el volumen del pan.
– El nivel de las lluvias influyen en la cantidad de la cosecha.
 Variable influenciadas entre sí:
– Precio y nivel de producción de un artículo
– Peso y volumen de un producto perecedero.
– Peso y altura de las personas.

Page  3
Tipos de Relaciones

 Variables no relacionadas influenciadas por otra


variable:
– El peso de los hermanos y el peso de las hermanas están relacionados
por la influencia de la variable genética de los padres.
– Los precios del pan y de la leche están relacionados por la influencia
del costo de vida a través de los años.
– Las notas de los cursos de Química y Bioquímica están relacionadas
por la inclinación de los alumnos a los cursos de ciencias.

Page  4
REGRESIÓN Y CORRELACIÓN SIMPLE

 Es analizar el grado de la
relación existente entre
variables utilizando modelos
matemáticos y
representaciones gráficas.
Así pues, para representar
la relación entre dos o más
variables desarrollaremos
una ecuación que permitirá
estimar una variable en
función de la otra.

Page  5
Diagrama de Dispersión

Un diagrama de dispersión es una gráfica que


representa la relación entre dos variables.
La variable dependiente es la variable que se
predice o calcula.
La variable independiente proporciona las bases
para el cálculo. Es la variable de predicción.

Page  6
DIAGRAMA DE DISPERSIÓN
r = Coeficiente de Pearson, nos indica que tan fuerte es la relación
entre x e y

Si: -1.0 ≤ r ≤ -0.8


6

r = -0.99 Si: -0.79 ≤ r ≤ 0.79


4

2
1
r = 0.02
0,75

0
0 0,2 0,4 0,6 0,8 1 0,5 Si: 0.8 ≤ r ≤ 1.0
0,25
6

0
r = 0.99
0 0,25 0,5 0,75 1 4

0
0 0,2 0,4 0,6 0,8 1
Page  7
Análisis de regresión simple

 El principio de mínimos cuadrados se utiliza para obtener


a y b. Las ecuaciones para determinar a y b son:

Page  8
Aplicación N°1 del análisis de regresión simple

x y XX Y Y ( X  X)2 XX


*YY
1 2 -4.5 -1.8 20.25 8.1
2 1 -3.5 -2.8 12.25 9.8
3 3 -2.5 -0.8 6.25 2
4 4 -1.5 0.2 2.25 -0.3
5 2 -0.5 -1.8 0.25 0.9
6 3 0.5 -0.8 0.25 -0.4
7 5 1.5 1.2 2.25 1.8
8 4 2.5 0.2 6.25 0.5
9 6 3.5 2.2 12.25 7.7
10 8 4.5 4.2 20.25 18.9
5.5 3.8 82.5 49

Page  9
Solucionario del Ejercicio

Recta de regresión mínimo cuadrática:


N

 (x i  x )( yi  y )
49
b i 1
N
  0.594

82.5
( xi  x ) 2

i 1

a  y  bx  3.8  0.594  (5.5)  0.533

Yˆ  0.533  0.594 X i
Page  10
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.857277672
Coeficiente de determinación R^2 0.734925008
R^2 ajustado 0.701790634
Error típico 1.145478595
Observaciones 10

ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de Valor
de los F
libertad cuadrados crítico de F
cuadrados
Regresión 1 29.1030303 29.1030303 22.1801386 0.0015225
Residuos 8 10.4969697 1.31212121
Total 9 39.6

Inferior Superior In
Coeficientes Error típico Estadístico t Probabilidad
95% 95% 9
Intercepción 0.533333333 0.782510851 0.681566693 0.514755471 -1.27113993 2.33780659 -1.2
x 0.593939394 0.126113043 4.709579447 0.001522502 0.3031222 0.88475659 0.

Page  11
Se verifica la
Correlación de
variables

Page  12
Correlaciones: x, y

Correlación de Pearson de x y y = 0.857


Valor P = 0.002

Page  13
Page  14
Análisis de regresión: y vs. x
La ecuación de regresión es
y = 0.533 + 0.594 x

Coef.
Predictor Coef de EE T P
Constante 0.5333 0.7825 0.68 0.515
x 0.5939 0.1261 4.71 0.002

S = 1.14548 R-cuad. = 73.5% R-cuad.(ajustado) = 70.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 29.103 29.103 22.18 0.002
Error residual 8 10.497 1.312
Page  15
Total 9 39.600
APLICACIÓN N°2 DEL ANÁLISIS DE REGRESIÓN SIMPLE

Los siguientes datos muestrales pretenden estudiar el efecto de los


años de experiencia sobre las ventas semanales de los agentes
vendedores de artículos para el hogar. Para tal efecto, se tomó una
muestra de las ventas de 12 agentes vendedores de la Provincia de
Ica, la misma que a continuación se detalla:

x Años de experiencia : Variable Independiente


y Ventas semanales : Variable Dependiente

X 5 7 6 5 1 5 4 8 6 10 9 6

Y 6,000 8,500 9,000 5,000 3,800 5,700 6,500 10,200 8,000 12,500 11,300 9,500

Page  16
X Y XX Y Y ( X  X)2 XX
*YY

5 6000 -1 -2000 1 2000


7 8500 1 500 1 500
6 9000 0 1000 0 0
5 5000 -1 -3000 1 3000
1 3800 -5 -4200 25 21000
5 5700 -1 -2300 1 2300
4 6500 -2 -1500 4 3000
8 10200 2 2200 4 4400
6 8000 0 0 0 0
10 12500 4 4500 16 18000
9 11300 3 3300 9 9900
6 9500 0 1500 0 0
62.00 64,100.00

Page  17
XX =6 Y Y = 8000
Recta de regresión mínimo cuadrática:
N

 (x i  x )( yi  y )
64100
b i 1
N
  1033 .87097

62
( xi  x ) 2

i 1

a  y  bx  8000  1033 .871  (6)  1796 .774

Yˆ  1796 .774  1033 .87 X i

Page  18
Teniendo los valores de “a” y “b”. a=1 796 b=1 034
Reemplazamos en la ecuación lineal:

Por lo cual la ecuación lineal quedaría así:

La ecuación resultante puede interpretarse de la siguiente


manera:
La venta semanal esperada es de 1 796 soles más 1034
soles por cada año de experiencia del agente vendedor.
De esta forma se pueden hacer estimaciones, por
ejemplo, si queremos estimar la venta semanal para
agentes vendedores con 5 años de experiencia:
Entonces, se espera que un agente
vendedor con cinco años de
experiencia tenga una venta
semanal de S./ 6 966

Page  19
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.923769229
Coeficiente de determinación R^2 0.853349588
R^2 ajustado 0.838684547
Error típico 1067.186533
Observaciones 12

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los
libertad cuadrados cuadrados F Valor crítico de F
Regresión 1 66271129.03 66271129.03 58.18937559 1.78201E-05
Residuos 10 11388870.97 1138887.097
Total 11 77660000

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%


Intercepción 1796.774194 869.5956187 2.066218084 0.06569901 -140.80559
X 1033.870968 135.5328253 7.62819609 1.78201E-05 731.8850141

Page  20
Correlaciones: X, Y

Correlación de Pearson de X y Y = 0.924


Valor P = 0.000

Análisis de regresión: Y vs. X

La ecuación de regresión es
Y = 1797 + 1034 X

Coef.
Predictor Coef de EE T P
Constante 1796.8 869.6 2.07 0.066
X 1033.9 135.5 7.63 0.000

S = 1067.19 R-cuad. = 85.3% R-cuad.(ajustado) = 83.9%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 66271129 66271129 58.19 0.000
Error residual 10 11388871 1138887
Total 11 77660000

Page  21
Page  22
La correlación es otra medida de mutua relación entre dos variables

El objetivo de un estudio de correlación es determinar la consistencia de


una relación entre observaciones por pares.

El termino correlación significa relación mutua, ya que indica el grado en


que los valores de una variable se relacionan con los valores de otra

Por ejemplo: Si están relacionadas la edad y la resistencia física, los años


de experiencia del trabajador y la efectividad en la gestión empresarial, los
calificativos obtenidos en las pruebas de selección y el éxito en el trabajo,
etc.

Estos problemas y semejantes se prestan a un análisis de correlación,


cuyo resultado es un coeficiente de correlación, valor que cuantifica el
grado de correlación.
Page  23
Ejercicio N°3

• Un investigador le interesa saber si existe una correlación


entre la edad de los adultos y su presión sanguínea,
particularmente la sistólica. Realice un diagrama de
dispersión y calcule el coeficiente de correlación.

Sujeto Presión (y) Edad (x)


A 128 43
B 120 48
C 135 56
D 143 61
E 141 67
F 152 70

Page  24
N

S xy  ( x  x )( y  y )
i i
rxy   N
i 1
N
S x .S y
 i
( x
i 1
 x ) 2
.  i
( y
i 1
 y ) 2

y = a+bx
a = 81.048
b = 0.964
r2 = 0.8040 (los datos forman una línea recta)
r = 0.8967 (Hay una correlación directa positiva)

Page  25
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.89667281
Coeficiente de determinación R^2 0.80402214
R^2 ajustado 0.75502767
Error típico 5.64109082
Observaciones 6

ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 522.212378 522.212378 16.4104684 0.01546317
Residuos 4 127.287622 31.8219056
Total 5 649.5

Probabilida Superior Inferior Superior


Coeficientes Error típico Estadístico t d Inferior 95% 95% 95.0% 95.0%
Intercepción 81.0480855 13.8808808 5.83882872 0.00428903 42.5085819 119.587589 42.5085819 119.587589
Edad (x) 0.96438112 0.23806098 4.05098364 0.01546317 0.30341789 1.62534436 0.30341789 1.62534436

Page  26
Correlaciones: Presión (y), Edad (x)

Correlación de Pearson de Presión (y) y Edad (x) = 0.897


Valor P = 0.015

Análisis de regresión: Presión (y) vs. Edad (x)

La ecuación de regresión es
Presión (y) = 81.0 + 0.964 Edad (x)

Coef.
Predictor Coef de EE T P
Constante 81.05 13.88 5.84 0.004
Edad (x) 0.9644 0.2381 4.05 0.015

S = 5.64109 R-cuad. = 80.4% R-cuad.(ajustado) = 75.5%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 522.21 522.21 16.41 0.015
Error residual 4 127.29 31.82
Total 5 649.50

Page  27
CORRELACIÓN

El termino producto – momento describe la forma como los valores


por pares se combinan para obtener el coeficiente de correlación.
Para demostrar el concepto considérese el siguiente ejemplo:

Se está interesado en saber si los años de servicios del personal


administrativo, están relacionados con en el desempeño de su
trabajo de la Empresa de Transportes Núñez S.A.C de Ica, si para tal
efecto se seleccionan al azar 08 trabajadores, cuyos datos se
detallan a continuación: (Ejercicio N°4)

AÑOS 1 20 6 8 2 1 15 8

DESEMPEÑO 43 97 59 66 44 42 89 65

Page  28
Cuadro de Estandarización: Años de Servicios / Desempeño

x y XX Y Y ( X  X)2 XX


*YY (y  y)2
1 43 -6.625 -20.125 43.891 133.328 405.016
20 97 12.375 33.875 153.141 419.203 1147.516
6 59 -1.625 -4.125 2.641 6.703 17.016
8 66 0.375 2.875 0.141 1.078 8.266
2 44 -5.625 -19.125 31.641 107.578 365.766
1 42 -6.625 -21.125 43.891 139.953 446.266
15 89 7.375 25.875 54.391 190.828 669.516
8 65 0.375 1.875 0.141 0.703 3.516
329.875 999.375 3062.875

Page  29
Recta de regresión mínimo cuadrática:
N

 (x i  x )( yi  y )
999.375
b i 1
N
  3.0295

329.875
( xi  x ) 2

i 1

a  y  bx  63.125  7.625  3.0295  40.025

Yˆ  40.025  3.0295 X i
Page  30
N

S xy  ( x  x )( y  y )
i i
rxy   N
i 1
N
S x .S y
 ( x  x ) .  ( y  y)
i 1
i
2

i 1
i
2

y = a+bX
a = 40.025
b = 3.0295
r2 = 0.9885 (los datos forman una línea recta)
r = 0.9942 (Hay una correlación directa positiva)

Page  31
Page  32
Page  33
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.994235218
Coeficiente de determinación R^2 0.98850367
R^2 ajustado 0.986587615
Error típico 2.422527009
Observaciones 8
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 3027.66318 3027.66318 515.9056729 4.7688E-07
Residuos 6 35.2118227 5.86863711
Total 7 3062.875

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Super


Intercepción 40.02463054 1.32963518 30.1019642 8.91683E-08 36.7711305 43.2
Experiencia (Años) 3.02955665 0.13338099 22.713557 4.7688E-07 2.70318513 3.35

Page  34
Correlaciones: Experiencia (x), Desempeño (y)

Correlación de Pearson de Experiencia (x) y Desempeño (y) = 0.994


Valor P = 0.000

Análisis de regresión: Desempeño (y) vs. Experiencia (x)

La ecuación de regresión es
Desempeño (y) = 40.0 + 3.03 Experiencia (x)

Coef.
Predictor Coef de EE T P
Constante 40.025 1.330 30.10 0.000
Experiencia (x) 3.0296 0.1334 22.71 0.000

S = 2.42253 R-cuad. = 98.9% R-cuad.(ajustado) = 98.7%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 3027.7 3027.7 515.91 0.000
Error residual 6 35.2 5.9
Total 7 3062.9

Observaciones poco comunes

Experiencia Desempeño Residuo


Obs (x) (y) Ajuste Ajuste SE Residuo estándar
2 20.0 97.000 100.616 1.860 -3.616 -2.33R

Page  35 R denota una observación con un residuo estandarizado grande.


Ejercicio N°5

 Un gerente de producción comparó las calificaciones de una prueba de


destreza de cinco empleados de una línea de montaje con su
productividad por hora.
 (a) Construir el diagrama de dispersión, (b) Determinar la recta de
regresión, (c) Calcular el error estándar de estimación, (d) Calcular el
coeficiente de correlación rectilínea; (e) Estimar las unidades
producidas en una hora cuando la calificación en la prueba de
destrezas es 13
Calificación en Unidades
Empleado la prueba de producidas en
destrezas (x) una hora (y)
A 12 55
B 14 63
C 17 67
D 16 70
Page  36
E 11 51
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.9545758
Coeficiente de determinación R^2 0.91121495
R^2 ajustado 0.88161994
Error típico 2.75680975
Observaciones 5

ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 234 234 30.7894737 0.01154206
Residuos 3 22.8 7.6
Total 4 256.8

In
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% 9
Intercepción 19.2 7.66891829 2.50361254 0.08742786 -5.20592067 43.6059207 -5.2
Variable X 1 3 0.54065487 5.54882633 0.01154206 1.2793949 4.7206051 1.

Page  37
Correlaciones: x, y

Correlación de Pearson de x y y = 0.955


Valor P = 0.012

Análisis de regresión: y vs. x

La ecuación de regresión es
y = 19.2 + 3.00 x

Coef.
Predictor Coef de EE T P
Constante 19.200 7.669 2.50 0.087
x 3.0000 0.5407 5.55 0.012

S = 2.75681 R-cuad. = 91.1% R-cuad.(ajustado) = 88.2%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 234.00 234.00 30.79 0.012
Error residual 3 22.80 7.60
Total 4 256.80

Page  38
Ejercicio N°6

 Según el cuadro mostrado; (a) Construir el diagrama de


dispersión, (b) Determinar la recta de regresión, (c)
Calcular el coeficiente de Correlación; (e) Estimar la
estatura del hijo cuando el padre tiene 73 in

Estatura x del 65 63 67 64 68 62 70 66 68 67 69 71
padre (in)
Estatura y del 68 66 68 65 69 66 68 65 71 67 68 70
hijo (in)

Page  39
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.70265165
Coeficiente de determinación R^2 0.49371933
R^2 ajustado 0.44309127
Error típico 1.40366506
Observaciones 12
ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 19.2139108 19.2139108 9.75188997 0.01082225
Residuos 10 19.7027559 1.97027559
Total 11 38.9166667

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 35.8248031 10.1779531 3.5198436 0.00553988
Estatura x del padre (in) 0.47637795 0.15254826 3.12280162 0.01082225

Page  40
Correlaciones: Estatura x del padre (in), Estatura y del hijo (in)

Correlación de Pearson de Estatura x del padre (in) y Estatura y del hijo (in) = 0.703
Valor P = 0.011

Análisis de regresión: Estatura y del h vs. Estatura x del p

La ecuación de regresión es
Estatura y del hijo (in) = 35.8 + 0.476 Estatura x del padre (in)

Coef.
Predictor Coef de EE T P
Constante 35.82 10.18 3.52 0.006
Estatura x del padre (in) 0.4764 0.1525 3.12 0.011

S = 1.40367 R-cuad. = 49.4% R-cuad.(ajustado) = 44.3%

Análisis de varianza

Fuente GL SC MC F P
Regresión 1 19.214 19.214 9.75 0.011
Error residual 10 19.703 1.970
Total 11 38.917

Observaciones poco comunes

Estatura x Estatura
del padre y del Residuo
Obs (in) hijo (in) Ajuste Ajuste SE Residuo estándar
9 68.0 71.000 68.219 0.453 2.781 2.09R

Page  41 R denota una observación con un residuo estandarizado grande.

Vous aimerez peut-être aussi