Vous êtes sur la page 1sur 13

15/09/2014

ANALISIS DE CORRELACIN Y REGRESIN


LINEAL
Objetivo:
Hacer un diagrama de dispersin
Calcular el coeficiente de Pearson
Calcular e interpretar el Coeficiente de Correlacin,
coeficiente de Determinacin y no determinacin.
Calcular el coeficiente de correlacin de rango.
En este capitulo se ver la relacin que existe entre dos
variables, se usaran medidas para medir el grado de
relacin como el coeficiente de determinacin y el
coeficiente de correlacin

REGRESIN SIMPLE
Mg. Rosmery Mayta H
2014

15/09/2014

Rosmeri Mayta H.

15/09/2014

Rosmeri Mayta H.

ANLISIS DE CORRELACIN
Prueba de hiptesis de los coeficientes
Calcular los intervalos de confianza y de
prediccin.
Estudiar las tcnicas de anlisis
de
influencia

Anlisis de correlacin.- Es el conjunto de tcnicas


estadsticas empleado para medir la intensidad de la
relacin que existe entre dos variables. Para esto,
normalmente, el primer paso es mostrar los datos en un
diagrama de dispersion.

15/09/2014

15/09/2014

Rosmeri Mayta H.

DIAGRAMA DE DISPERSIN.
Permitir predecir la variable dependiente Y con base
en la variable independiente X. Grfica que representa
la relacin entre dos variables.
La variable dependiente se representa en la escala del
eje Y, y es la variable que se estima, predice o calcula.

Diagrama de dispersin
(b) Lineal inversa

(a) Lineal directa


Y

Relaciones posibles
entre X y Y vistos
en diagramas de
dispersin

X
(d) Curvilinea inversa

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

LA variable independiente se representa en al escala


del eje X, y es la variable que proporciona las bases
para el calculo. Es la variable de prediccin.

(c) Curvilnea directa

X
Y

Rosmeri Mayta H.

X
(e) Lineal inversa
con ms dispersin







X
(d) Ninguna relacin

15/09/2014

Rosmeri Mayta H.

15/09/2014

Coeficiente de correlacin
Interpretacin del coeficiente de correlacin de
Pearson

Fuerte Moderada
Negativa Negativa
-1 -0,9
Perfecta
Negativa

Dbil
Negativa

-0,5

15/09/2014

Dbil
Positiva
0

Moderada
Positiva
0,5

No existe
correlacin

Rosmeri Mayta H.

COEFICIENTE DE DETERMINACIN (r2).


Una pregunta importante que se plantea en el anlisis
de regresin es la siguiente: Qu porcentaje de la
variacin total en Y se debe a la variacin en X? En
otras palabras, cul es la proporcin de la variacin
total en Y que puede ser explicada por la variacin en
X? El estadstico que mide esta proporcin o porcentaje
se denomina coeficiente de determinacin:

Fuerte
Positiva
0,9 1
Perfecta
Positiva

EL COEFICIENTE DE LA NO DETERMINACIN :
Esta dado por 1- r2
Es proporcin de la variacin de y que no es
explicada por X

15/09/2014

Rosmeri Mayta H.

REGRESIN LINEAL

Suposiciones de regresin y
correlacin

Es una tcnica estadstica que permite


determinar la mejor ecuacin que represente la
relacin entre dos variables relacionadas.
Para poder establecer la relacin cuantitativa
entre X e Y es necesario disponer de pares de
observaciones. Cada par ha sido registrado a la
misma unidad elemental.

a) Normalidad: los valores de Y estarn distribuidos


normalmente para cada valor de X.
b) Homoscedasticidad: la variacin alrededor de la
lnea de regresin sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia residual
entre un valor observado y uno estimado
de
Y) sea independientemente de cada valor de X.
d) Linealidad: la relacin entre las variables es lineal.

15/09/2014

15/09/2014

Rosmeri Mayta H.

TCNICA DE MNIMOS CUADRADOS


Empleada para obtener la ecuacin de
regresin, minimizando la suma de los
cuadrados de las distancias verticales
entre los valores verdaderos de Yi y los
valores pronosticados de Y.

Rosmeri Mayta H.

10

El mtodo consiste en determinar una


ecuacin que la suma de los errores al
cuadrado sea mnima.
Y

Y - Y = error
i

Min Y - Y

10
8

Lnea de
estimacin

4 Error= -6

Error= 2

10

12

X
2
15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

11

15/09/2014

Rosmeri Mayta H.

14
12

15/09/2014

El mtodo utiliza un sistema de ecuacin llamado


ecuaciones normales, que tienen la siguiente
forma:

Y nb + b X
XY b X b X
0

Para aplicar las frmulas,


tenemos que confeccionar
un
cuadro
como
el
siguiente:
15/09/2014

Rosmeri Mayta H.

De las ecuaciones
siguientes relaciones
b

normales

X2

XY

1.0

8.0

1.0

8.0

1.5

10.0

2.3

15.0

2.0

9.0

4.0

18.0

2.5

12.0

6.3

30.0

3.0

14.0

9.0

42.0

3.5

13.0

12.3

45.5

16.0

60.0

4.0

15.0

4.5

17.0

20.3

76.5

5.0

14.0

25.0

70.0

5.5

14.0

30.3

77.0

32.
5
X

126.0
Y

126.3 442.0
XY
X
13

se

obtiene

Y 7,479 1,576X

las

n XY X Y
n X 2 X

Pendiente de la regresin lineal (b1): Indica la


magnitud del cambio en Y por cada unidad de cambio
de X
a

Sustituyendo los valores Y 126,0, n = 5, X 3 2,5


2
XY 442 y X 126 ,3 ,en las ecuaciones
normales, obtenemos el siguiente sistema de
ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479
b1= 1,576 ,por lo tanto,
15/09/2014

Rosmeri Mayta H.

Error estndar de estimacin.- Mide la dispersin de


los valores observados, con respecto a la lnea de
regresin. Tiene las siguientes caractersticas:
Est en las mismas unidades que la variable
dependiente.
Se basa en las desviaciones al cuadrado respecto de la
recta de regresin.
. Se calcula as:

Y b X
n

Syx =

Constante de la regresin lineal (bo).- Punto donde se


intercepta con el eje Y, se calcula asi:

15/09/2014

Rosmeri Mayta H.

15

14

)
(Y-Y

n2

15/09/2014

Rosmeri Mayta H.

16

15/09/2014

Rosmeri Mayta H.

18

El intervalo garantiza una confianza del 68%. Es decir


que el valor de se encontrar dentro de ese intervalo
con un nivel de confianza del 68%.
El intervalo garantiza una confianza del 95%. Es decir
que el valor de se encontrar dentro de ese intervalo
con un nivel de confianza del 95%
El intervalo garantiza una confianza del 99.9%. Es decir
que el valor de se encontrar dentro de ese intervalo
con un nivel de confianza del 99.9%

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

17

15/09/2014

Problema

Problema

La EMPRESA COPIER SALES OF AMERICAN ENC.. Vende


copias a negociaciones grandes , medianas y pequeas en
Estados Unidos y Canad . La seora Marcy fue promovida
recientemente al puesto de gerente nacional de ventas. A la
prxima junta de ventas asistirn los representantes de todo el pas.
A ella le gustara hacerles notar la importancia de hacer llamadas
extra cada da. Decide reunir alguna informacin acerca de la
relacin entre el nmero de llamadas y el nmero de productos
vendidos . Seleccion al azar una muestra de 10 representantes
y determin el nmero de llamadas que hicieron el ultimo mes , y el
de copiadoras que vendieron La informacin mensual se tiene en la
siguiente tabla.

15/09/2014

Rosmeri Mayta H.

19

15/09/2014

Repres de Ventas

Numero_Llamadas(
X)

Nmero
Copiadoras (Y)

TOM

20

30

JEFT

40

60

BRIAN

20

40

JUAN

30

60

SUSAN

10

30

CARLOS

10

40

RICH

20

40

LUIS

20

50

MARK

20

30

SONI

30

de

70
Rosmeri Mayta H.

20

Preguntas (solucionado en clase)


a) Calcular el coeficiente de correlacin de
correlacin
b) Calcular el coeficiente de determinacin y no
determinacin e interprete
c) Hallar la ecuacin de regresin
d) Interpretar los coeficientes de regresin
e) Hallar el error estndar.
f) Si hago 45 llamadas cuantas copiadoras
vender
15/09/2014

Rosmeri Mayta H.

21

Se utiliza el estadstico F para probar la


significacin de la ecuacin de regresin
muestral o la existencia de regresin en la
poblacin.

Las hiptesis nula y alternativa para esta


prueba son respectivamente:

15/09/2014

Rosmeri Mayta H.

22

INFERENCIA SOBRE LOS COEFICIENTES


DE REGRESIN DE LA POBLACIN
1.- Planteando Ho y Ha
Ho: 1=0 ( No hay relacin)
Ha: 1 0 ( Hay una relacin)
2.- Nivel de significancia de 0.05
3.- T STUDENT
4.- Definir la regin de aceptacin y la regin critica
Hallar el T (n-2,alfa) = tablas
5.- El Tcal.

Si Tt < Tcal , se rechaza la Ho y se acepta


la Ha.
Sb1 : Error estndar de b1
Sb1 =

Syx / { Xi 2 ( Xi ) 2/ n }

T cal = (b1 B1)/Sb1 y


Si Tt < Tcal , se rechaza la Ho y se acepta la Ha.

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

23

15/09/2014

Rosmeri Mayta H.

24

15/09/2014

PRUEBA DE HIPOTESIS PARA EL


COEFICIENTE DE CORRELACIN
Se aplica el estadstico t.
Planteando la hiptesis nula y la alternativa
1.- Ho: = 0 La correlacin en la poblacin es
nula
2.- Ha: 0 La correlacin en la poblacin no
es nula
3.-T student
4.- Definir la R.A y la R.C
Para Tt ( ( n-2),alfa) ) = Tabla
15/09/2014

Rosmeri Mayta H.

5.- Si Tt < Tcal entonces rechaza la


hiptesis nula de lo contrario se acepta

25

15/09/2014

Rosmeri Mayta H.

26

15/09/2014

Rosmeri Mayta H.

28

ESTIMADO DEL INTERVALO DE


CONFIANZA DE B1
El valor de b1 puede variar entre un limite
superior e inferior
b1 T ( ,n-2) Sb1 < 1 <b1 + T ( ,n-2) Sb1
Calcular el estimado del intervalo de
confianza del 95%
15/09/2014

Rosmeri Mayta H.

27

Problema
En un departamento de produccin de una
empresa se desea examinar la relacin entre el
nmero de trabajadores que arman un
subemsamble y el nmero de subemsambles
producidos. Como experimento se asignaron
dos empleados para armar el dispositivo
electrnico. Produjeron 15 durante el lapso de
una hora. Despus se asignaron cuatro obreros
al mismo trabajo, y produjeron 25 durante dicho
perodo. A continuacin se presenta el conjunto
completo
de
pares
de
observaciones.
Considerar un nivel de significancia de 0.05.
15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

29

15/09/2014

Rosmeri Mayta H.

30

15/09/2014

a.- Calcule la ecuacin de regresin e intrprete los


resultados

Se ha obtenido un coeficiente de correlacin de 0.927. Este


coeficiente indica que las variables estn muy relacionadas
15/09/2014

Rosmeri Mayta H.

31

La ecuacin de regresin y graficar el


diagrama de dispersin

15/09/2014

Rosmeri Mayta H.

32

b.- Calcule e interprete el coeficiente


de determinacin
Se obtuvo un coeficiente de determinacin
de r2 = 0.8596; esto quiere decir, que el
85.96%
de
la
produccin
de
subemsambles se debe al nmero de
trabajadores que los arman.
El coeficiente de no determinacin indica
que el 14.04% de la produccin no ser
explicada por el nmero de empleados.

15/09/2014

Rosmeri Mayta H.

33

15/09/2014

Rosmeri Mayta H.

c.- Calcular e interpretar el error standard

d. Calcular el intervalo de confianza y


prediccin para X=4

15/09/2014

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

35

Rosmeri Mayta H.

34

36

15/09/2014

e. Intervalo de prediccin para x=4

Una empresa que disponga de 4 trabajadores


para la fabricacin de subemsambles estar en
el intervalo entre 12.265 y 49.735 de piezas
producidas.
15/09/2014

Rosmeri Mayta H.

37

f.- Realizar la prueba de hiptesis para


B1

15/09/2014

Rosmeri Mayta H.

38

CALCULO CON MINITAB

15/09/2014

Rosmeri Mayta H.

39

The regression equation is


PROD_HORA = 3.00 + 7.00 CANT_EMPLEA

Predictor Coef SE Coef T


P
Constant 3.000 5.416 0.55 0.618
CANT_EMPLEA 7.000 1.633 4.29 0.023

S = 5.16398 R-Sq = 86.0% R-Sq(adj) = 81.3%

Analysis of Variance

Source
DF
SS
MS
F
P
Regression
1 490.00 490.00 18.37 0.023
Residual Error 3 80.00 26.67
Total
4 570.00

Predicted Values for New Observations

New
Obs Fit SE Fit
95% CI
95% PI
1 31.00 2.83 (22.00, 40.00) (12.26, 49.74)

Values of Predictors for New Observations

15/09/2014

New

Obs CANT_EMPLEA
1
4.00

40

MEDIDAS DE VARIACIN EN
REGRESIN Y CORRELACIN

ANLISIS DE VARIANZA EN LA REGRESIN

El anlisis de varianza es una tcnica que


permite localizar las fuentes de variabilidad
que ayuden a explicar el comportamiento de
la variable dependiente.

SCtotal =

Rosmeri Mayta H.

SUMA DE CUADRADO
NO EXPLICADA

SUMA DE
CUADRADO
TOTAL

SUMA DE CUADRADO
EXPLICADA
Y

SCerror + SCregresin
(SCresidual)
Xi

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

41

15/09/2014

Rosmeri Mayta H.

42

15/09/2014

SUMA DE CUADRADO TOTAL


SST = Suma total de cuadrados (Variacin Total

Es una medida de variacin de los valores Yi


alrededor de su media Y
.
SST = SSR + SSE
SST : suma cuadrado totales
SSR : Suma de los cuadrados debido a la
regresin
(variacin explicada)
SSE : Suma de los cuadrados del Error
(variacin No explicada)
15/09/2014

Rosmeri Mayta H.

SSR = Suma de cuadrados explicada(Variacin


de Regresin)

43

15/09/2014

Rosmeri Mayta H.

44

COEFICIENTE DE DETERMINACIN
r 2 = SSR
2
SST

SSE = Suma de cuadrados no


explicada.(Variacin de Error)

r2 = 1 - SSE
2
SSTotal

r ajustado = 1 [(1-r 2) [(n-1)/(n-2)]


SSR = bo Yi + b1 Xi Yi - ( Yi )22/n
SSE = Yi 2+ b o Xi Yi - b 1 Xi Yi

SSR=. Suma de cuadrado de regression


SSE = Suma de cuadrado de error
SST= Suma de cuadrado totales
Suma de cuadrado total = Suma de cuadrado explicada+Suma de
cuadrado no explicada

15/09/2014

Rosmeri Mayta H.

45

FUENTE DE

GL

SS

MS

REGRESION

SSR

MSR= SSR/1

MSR
MSE

TOTAL

n-2
n-1

SSE

Rosmeri Mayta H.

i = bo + bi Xi + bii Xi

2)
3)

Mg. Rosmeri Mayta H.

47

15/09/2014

i=1

i=1
n

Xi Yi = bo Xi + bi Xi + bii Xi
n

i=1
n

i=1

i=1
2

Xi Yi = bo Xi + bi Xi + bii Xi
i=1

Rosmeri Mayta H.

Yi = nbo + bi Xi + bii Xi
i=1

MSE = SSE /n-2

SST

1)

i=1

15/09/2014

46

AJUSTE DE UNA TENDENCIA CUADRATICA


POR EL MTODO DE MNIMOS CUADRADOS

ANOVA REGRESIN SIMPLE

ERROR

15/09/2014

i=1
Rosmeri Mayta H.

i=1

i=1
48

15/09/2014

AJUSTE DE UNA TENDENCIA


EXPONENCIAL MEDIANTE EL MTODO DE
MNIMOS CUADRADOS

log

.b

Y i log

Xi

log

Se estudiara 3 mtodos que miden la


influencia de ciertos datos:
1)Los mtodos de la matriz sombrero hi.
2)Los residuales eliminados de student t*i
3)El estadstico de distancia de cook Di.

ANLISIS DE INFLUENCIAS EN
REGRESIN SIMPLE

log

i 1

log

i 1

i 1

log

i 1

i 1

log

log

i 1

15/09/2014

log

Rosmeri Mayta H.

49

DIAGNSTICO DE LA REGRESIN :
ANLISIS DE LA INFLUENCIA

15/09/2014

Rosmeri Mayta H.

50

Clculos con minitab

PROBLEMA
Se supone que el decano de un colegio de administracin de empresas quera
predecir el aprovechamiento de los estudiantes ( de acuerdo a sus ndices de
calificacin) en un programa de maestra de administracin de empresas (MBA). se
selecciono una muestra aleatoria de 20 estudiantes que haban tomado por lo menos
30 crditos en el programa , con el fin de desarrollar un modelo estadstico para
predecir su ndice de calificaciones. Al desarrollar el modelo as se podran tomar en
cuenta muchas variables explicatorios. Estas incluyen variables cuantitativas como el
resultado de la prueba de aptitud para graduados en administracin (GMAT) y el
ndice de calificaciones de no graduados, as como las variables cualitativas como la
especializacin del graduado y si la persona esta o no registrada como estudiante
graduado de tiempo completo
Para fines pedaggicos se iniciar el estudio con un modelo de regresin simple en el
cual se usa una sola variable explicatorio cuantitativa para predecir los valores de
una variable dependiente. Por lo tanto se desarrollara un modelo para predecir el
ndice de calificaciones ( la variable dependiente Y) basado en el resultado GMAT (
la variable explicatorio) o independiente X). En las siguiente tabla se encuentra los
datos. Hacer un diagnostico de regresin: Anlisis de residuales
Tabla 1
15/09/2014

Rosmeri Mayta H.

xi x
1
hi
n
x 2

x2

51

15/09/2014

Rosmeri Mayta H.

52

DIAGNSTICO DE LA REGRESIN ANISIS


DE INFLUENCIAS

Se aplica tres tcnicas


Segn HOAGLIN WELCH
1) Los elementos matriz sombrero, hi

Cada hi refleja la influencia de cada Xi sobre el modelo de


regresin ajustado. Si existen esos puntos de influencia quizs sea
necesario evaluar de nuevo la necesidad de mantenerlo en el
modelo. Se sugiere la siguiente regla de decisin
Si hi > 4/n , entonces Xi es un punto de influencia y se puede
considerar candidato a ser retirado del modelo.

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

53

Para los datos de desempeo del


estudiante , puesto que n = 20, los
criterios deben ser destacar cualquier i
superior a 4/20= 0.2.
En la tabla se encuentra que h20 = 0.3049
Es un candidato potencial a ser removido,
pero tomaremos en cuenta otros criterios

15/09/2014

Rosmeri Mayta H.

54

15/09/2014

2) Para los residuales de Student eliminados, ti*


Si se cumple que

S( i ) : Es el error estndar de la estimacin para un modelo que


incluye todas las observaciones excepto la observacin i.
.e i = Es la diferencia entre los valores observados (Yi) y los
predichos Yi
| t i*| > t .010,n-3
Significa que los valores Y observados y predichos son tan
diferentes que Xi es un punto de influencia que afecta de modo
adverso el modelo y se puede considerar como n candidato para
ser eliminado.
15/09/2014

Rosmeri Mayta H.

55

3) Estadstico de distancia de Cook, Di


El uso de h i* y t i* en la bsqueda de puntos de
datos
potencialmente
problemticos
es
complementario. Ninguno de los criterios es
suficiente por si mismo. Para decidir si un punto
que ha sido destacado mediante el criterio hi o
el ti* esta afectando indebidamente al modelo
Cook y Weisberg sugieren el uso del estadstico
Di.

Di = Sr i 2 hi / 2(1-hi )
SRi : es el residual estandarizado
Di > F(.50,2 n -2) = 0.720
15/09/2014

Rosmeri Mayta H.

57

Para el problema, para cualquier valor ti*


superior a 1.7396 se eliminarat3* = 1..879,
t5* =2.216, t14*=-2.228 y t20*= -1.961,
Estos cuatro pueden tener efectos
adversos sobre el modelo.

15/09/2014

Rosmeri Mayta H.

56

D20 = 0.729 > 0.720


D5 = 0.21 es < 0.720
Se debe eliminar la observacin 20
El nuevo modelo ajustado, eliminado la
observacin 20 es:

15/09/2014

Rosmeri Mayta H.

58

SOLUCIN
Presentando el diagrama de dispersin.

15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

59

15/09/2014

Rosmeri Mayta H.

60

10

15/09/2014

15/09/2014

Rosmeri Mayta H.

61

15/09/2014

Rosmeri Mayta H.

62

15/09/2014

Rosmeri Mayta H.

63

15/09/2014

Rosmeri Mayta H.

64

15/09/2014

Rosmeri Mayta H.

65

15/09/2014

Rosmeri Mayta H.

66

Mg. Rosmeri Mayta H.

11

15/09/2014

15/09/2014

Rosmeri Mayta H.

67

15/09/2014

Rosmeri Mayta H.

68

Problema propuesta

15/09/2014

Rosmeri Mayta H.

69

Los siguientes datos representa las calificaciones de


qumica para una muestra aleatoria de 12 alumnos de
primer grado en cierta universidad junto con sus
calificaciones de una prueba de inteligencia que se les
aplic cuando aun eran alumnos de ltimo ao de
preparatoria
a.- Calcule e interprete el coeficiente de correlacin de la
muestra
b.- Calcule la ecuacin de regresin y realizar la Prueba
de hiptesis para 1 y con un nivel de significancia de
0.01.
Calcule el intervalo de confianza para un intervalo de
prediccin del 95%, para la calificacin promedio en
qumica, para la calificacin
promedio
de 60
Rosmeri Mayta
H.
70

PROBLEMA
Estudiante

Calif_Prueba_X
65

83

50

74

55

76

65

90

55

85

70

87

65

94

70

98

55

81

10

70

91

11

50

76

12

55

74

15/09/2014

Mg. Rosmeri Mayta H.

Un reciente artculo en Business Week


present una lista de las mejores
compaas pequeas. Hay inters en los
resultados actuales de las ventas y
ganancias de las empresas. Se seleccion
una muestra aleatoria de 12 compaas. A
continuacin se indican las ventas y
ganancias, en millones de dlares.

Califi_Prueba_y

Rosmeri Mayta H.

71

15/09/2014

Rosmeri Mayta H.

72

12

15/09/2014

DATOS
a.- Calcular el coeficiente de correlacin e
interpretar.
b.-Calcular la ecuacin de regresin lineal
c. Realizar una inferencia para los
coeficientes de regresin y el coeficiente de
correlacin
d.- Realizar un anlisis residual
15/09/2014

Mg. Rosmeri Mayta H.

Rosmeri Mayta H.

73

15/09/2014

Rosmeri Mayta H.

74

13

Vous aimerez peut-être aussi