Vous êtes sur la page 1sur 47

Regresin

Estadstica

Samuel Prez
Regresin Lineal Simple
Consiste en determinar una relacin funcional
entre dos variables, con el fin de predecir el valor
de una variable(dependiente) en base a la
otra(independiente)

Diagrama de dispersin
Covarianza
Regresin lineal simple
Coeficiente o indice de correlacin

2
Diagramas de dispersin

3
Covarianza
Mide el grado de dispersin conjunta de
dos variables
n n

SS xy ( x x)( y y) x y n x y
i i i i
S xy i 1
i 1
n 1 n 1 n 1
Varianzas
n n

(x x) x nx
2 2 2
i i
SS xx
s
2
i 1
i 1
n 1 n 1 n 1
x

n n

(y y) y ny
2 2 2
i i
SS yy
s
2
i 1
i 1
n 1 n 1 n 1
y
4
Modelos de Regresin
Modelo: y = + xi + ui
ser estimado por: y = a + b xi + ei
Donde: e i = yi - a - b xi
Mtodo Mnimos Cuadrados Ordinario

5
Estimadores
S xy
b 2 a y bx
s x

Estimacin o Pronstico

El modelo se utiliza como pronosticador,


entonces se reemplaza el valor conocido x0 en
lugar de X en la ecuacin, de la forma:

y a b * x0

6
Estimador de 2
Que mide la variacin de los valores de Y, respecto a
la lnea E(y)=+xi. Tambin conocido como la
desviacin estndar de los errores.
SSE SSE
s
2

Grados libertad para el error n 2
Donde:
n
SSE ( yi y i ) SS yy b.SS xy
2

i 1

7
Prueba de utilidad del Modelo
La hiptesis a probar es:
Ho:=0
H1:0
El estadstico de Prueba:
b b
t
sb s / ssxx
Si t > t/2,n-2 se rechaza Ho. Lo que significa que la
relacin entre la Variable Dependiente (Y) y la variable
independiente (X) es significativa.

8
Intervalo de confianza para

b tn2, / 2 .sb b tn2, / 2 .sb

Intervalo de confianza para valor medio de y cuando se


conoce x0.

1 ( x x ) 2
1 ( x x ) 2
y tn2, / 2 .s 0
Y y tn2, / 2 .s 0
n ssxx n ssxx

Intervalo de confianza de prediccin para una y individual


cuando se conoce x0.

1 ( x x ) 2
1 ( x x ) 2
y tn2, / 2 .s 1 0
Y y tn2, / 2 .s 1 0
n ssxx n ssxx
9
Indice de correlacin ()
Mide el grado de asociacin entre dos
variables, ser estimado por:
n

s xy x y i i nx y
r n
i 1
n
sx s y
x nx yi2 n y
2 2 2
i
i 1 i 1

10
Coeficiente Determinacin
Mide el porcentaje de variacin de la variable
dependiente (Y) que es explicada por la variable
independiente (X)
R2 = r2*100%

0% baja 100% alta


relacin relacin

Coeficiente Determinacin Ajustada


Mide el porcentaje de variacin de la variable
dependiente (Y) que es explicada por la variable
independiente (X), el nmero de datos.

(n 1) SSE (n 1)
R 1
2
aj 1
n (k 1) SSYY

n (k 1)
1 R2
11
Prueba Hipotesis de
La hiptesis a probar es:
Ho: = 0
H1: 0
El estadstico de Prueba:

(r ) n 2
t
1 r 2

Si t > t/2,n-2 se rechaza Ho, que implica que la relacin


entre la Variable Dependiente (Y) y la variable
independiente (X) es significativa.

12
ANLISIS DE RESIDUALES

Evaluacin de lo apropiado del modelo ajustado

Recordando que: ei Yi Yi
Se puede evaluar lo apropiado del modelo, trazando los ei en
el eje vertical contra los valores Xi en el eje horizontal. Si el
modelo es apropiado no habr un padrn en la grfica. Si el
modelo no es el apropiado, habr un patrn.como muestra los
grficos:

13
Anlisis de Influencias

Nos permite analizar la influencia de


cada punto sobre el modelo ajustado. Se
analizarn los siguientes criterios:
Los elementos hi
Los residuales eliminados de Student, ti*
El estadstico de distancia de Cook, Di

14
Los elementos hi
Cada hi refleja la influencia de cada xi sobre el
modelo de regresin ajustado. Si existen esos
puntos de influencia quiz sea necesario evaluar la
necesidad de mantenerlos en el modelo, la frmula
a emplear es:

1 ( xi x ) 2 1 ( xi x ) 2
hi n
i
n ssxx n
( x x ) 2

i 1

Hoaglin y Welsch sugieren, si hi>4/n, entonces xi es un


punto de influencia y se puede considerar candidato a
ser retirado del modelo.

15
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variacin estandarizada en torno a
la lnea de regresin.

ei
SRi
s 1 hi
Para un modelo determinado, parece ser adecuado, como lo
muestra el grfico

16
Los residuales de Student eliminados ti

Permite medir mejor la repercusin adversa sobre el


modelo de cada caso individual, Hoaglin y Welsch
desarrollaron tambin el residual de Student eliminado ti*:

ei
t
*

1 hi
i
s( i )

Donde s(-i) es s para un modelo que incluye todas las


observaciones, excepto la observacin i.
La regla es:

Si ti*>t0.10,n-3

Lo cual significara que los valores Y observados y predichos son


tan diferentes que Xi es un punto de influencia que afecta al
modelo.
17
Estadstico de distancia de Cook, Di

Para decidir si un punto que ha sido destacado mediante el


criterio hi o ti* que esta afectando el modelo, Cook y
Weisberg sugiere el uso del estadstico Di, en el modelo de
regresin lineal simple.

SRi2 .hi
Di
2(1 hi )

Regla:

Si Di > F0.50, k, n-k


Significara que la observacin tiene repercusin sobre los
resultados del ajuste del modelo de regresin lineal. Siendo k
el nro. de parmetros, si Di>1 ese caso debe revisarse.

18
Supuestos Bsicos
1. Linealidad en lo parmetros
2. Los valores de x son fijos en muestreo repetido
3. El valor medio de i es cero [E(i)=0]
4. Homoscedasticidad, igual varianza de i, Var(i/xi)=2
5. No autocorrelacin en los i [cov(i,j/xi,xj= 0)]
6. La covarianza entre i y xi es cero. E(i,xi)=0
7. El nmero de observaciones es mayor al N de
parmetros (n>k)
8. Variabilidad en los valores de X
9. El modelo de regresin esta correctamente
especificado
10. No hay multicolinealidad perfecta
11. Los i est normalmente distribuido
19
Anlisis de la Regresin con el SPSS
Datos:
Encuesta Sexo Nro. Hijos salario gastos edad peso (kg) talla (cm)
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174

20
Resultados del Anlisis de Regresin: Gasto=f(Salario)

Estad sticos d escrip tivos

Desv iacin
Media tp. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20

Correlaciones

GASTO SALARIO Si r es cerca a 1 o -1,


Correlacin de Pearson GASTO la relacin es alta.
1.000 .948
SALARIO .948 1.000
Sig. (unilateral) GASTO . .000
SALARIO .000 .
N GASTO 20 20
SALARIO 20 20

21
Resultados del Anlisis de Regresin: Gasto=f(Salario)

b
Variables i ntrodu cidas/eliminadas

Variables Variables
Modelo introducidas elim inadas Mtodo
1 SALARIOa . Introducir
a. Todas las v ariables solicitadas introducidas
b. Variable dependiente: GASTO Variable
independiente

Resumen del modelob

R cuadrado Error tp. de la Durbin-W Mide la


Modelo R R cuadrado corregida estimacin atson
1 .948a .899 .893 60.40621 2.496
autocorrelacin
a. Variables predictoras: (Constante), SALARIO
b. Variable dependiente: GASTO

El 89.3% de de los gastos son


El 89.9% de de los gastos explicados por el salario,
cantidad datos y nro.
son explicados por el salario Parmetros
22
Resultados del Anlisis de Regresin:
Gasto=f(Salario)
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 582902.564 1 582902.564 159.747 .000a
Residual 65680.386 18 3648.910
Total 648582.950 19 Si sig.=0< =0.05
a. Variables predict oras: (Constante), SALARIO
se rechaza
b. Variable dependiente: GASTO
Ho:=0

Coeficientesa

Coef icientes
Coef icientes no estandarizad Interv alo de conf ianza para
estandarizados os B al 95%
Lmite
Modelo B Error tp. Beta t Sig. Lmite inf erior superior
1 (Constante) 221.298 37.766 5.860 .000 141.955 300.641
SALARIO .581 .046 .948 12.639 .000 .484 .677
a. Variable dependiente: GASTO

El modelo encontrado es:

Y 221.298 0.581X
23
Regresin
Mltiple

24
Regresin Mltiple
Permite estudiar la relacin entre una variable dependiente (Y)
y dos o ms variables independientes (X1, X2, ..., Xk).
El modelo poblacional a considerar es:

Y = 0 + 1x1 + 2 x2 + 3x3 + 4x4 + ... +k xk + u


Ser estimado por:
Y 0 1 x1 2 x2 3 x3 ... k xk ei
Matricialmente
y = X + e
El error estar determinado por

e = y - X
25
Donde matricialmente se tiene:
y1 0 e1
y 1 x11 x21 xk1 e
2 1 x x x 1 2
y y3 , X 12 22 k2
, 2 e e3


yn 1 x1n x2 n xkn k en

Entonces, la solucin por el mtodo de mnimos cuadrados
para la estimacin de del modelo lineal general, involucra

encontrar para lo cual se minimiza

SSE = (y X )(y X )

Este proceso de minimizacin requiere resolver para
en la ecuacin

( SSE ) 0
b
26
El resultado se reduce a la solucin de en:

( X ' X )1 X 'Y
Teniendo:
yi n

x x 1i 2i x ki

x1i x x x x x
2

x1i yi
1i 2i 1i ki 1i

A X ' X x2 i x x x 2
x x
g X ' Y x 2 i yi
1i 2i 2i ki 2i


x
ki x x x x 2
ki
x
x y
ki i
1i ki 2i ki

c00 c01 c02 c0 k


c c11 c12 c1k
10
( X ' X ) 1 c20 c21 c22 c2 k


ck 0 ck1 ck 2 ckk
27
Para la estimacin, dado: 0 1 x10 x20 xk 0
'
x

Utilizamos el modelo de la forma:


k
y 0 i xi 0 0 1 x10 2 x20 k xk 0
i 1

Matriz de varianzas y covarianzas de


Cov(i , j ) 2 ( X ' X ) 1
2 ser estimado por:
SSE (Y X )' (Y X )
s
2

n N de ' s en el modelo
o
n (k 1)
n n n

i
( y
i 1
y ) i
2
(
y y ) i i
(
i 1
y
y ) 2
2

i 1

SST = SSR + SSE 28


Cuadro ANVA

Fuente de Variacin S.C. G.L. C.M. F

Debido a la
Regresin

Debido a los
errores

Total

29
Coeficiente de Determinacin

Permite determinar el grado de relacin entre las variables explicatorias


y la explicada.

' X ' y Ny 2
R 2

y' y Ny 2
Coeficiente de Determinacin Ajustado
Permite determinar el grado de relacin entre las variables explicatorias
y la explicada, considerando el tamao de la muestra.

n 1
R 2
1 (1 R )
2

n (k 1)
ajust

30
Anlisis de Influencias

Nos permite analizar la influencia de


cada punto sobre el modelo ajustado. Se
analizarn los siguientes criterios:
Los elementos hi
Residuos Standarizado (RS)
Los residuales eliminados de Student, ti*
El estadstico de distancia de Cook, Di

31
Los elementos hi
Cada hi refleja la influencia de cada xi sobre el modelo
de regresin ajustado. Si existen esos puntos de influencia
quiz sea necesario evaluar la necesidad de mantenerlos en
el modelo. Supongase que el vector xi representa los
valores correspondiente al i-simo punto.
xi=(1, x1i, x2i,..., xki)
Considerando:
hii= xi(XX)-1xi
Que representa la varianza del valor ajustado. Resultan
tambin de la diagonal de:
H=X(XX)-1X
Donde, 0<hii<1, adems: nhii=k+1, el nmero de parmetros.
El puntos es sospechoso si hii>2(k+1)/n.

32
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variacin estandarizada en torno
al modelo de regresin.

ei
SRi
s 1 hii
Para un modelo determinado, parece ser adecuado, como lo
muestra el grfico

33
Los residuales de Student eliminados t*i

Permite medir mejor la repercusin adversa sobre el


modelo de cada caso individual, Hoaglin y Welsch
desarrollaron tambin el residual de Student eliminado ti*:

ei
t
*

1 hii
i
s( i )

Donde s(-i) es s para un modelo que incluye todas las


observaciones, excepto la observacin i.
La regla es:

Si ti*>t0.10,n-3

Lo cual significara que los valores Y observados y predichos son


tan diferentes que Xi es un punto de influencia que afecta al
modelo.
34
Estadstico de distancia de Cook, Di

Para decidir si un punto que ha sido destacado mediante el


criterio hi o ti* que esta afectando el modelo, Cook y
Weisberg sugiere el uso del estadstico Di, en el modelo de
regresin lineal simple.

SRi2 .hii
Di
2(1 hii )

Regla:

Si Di > F0.50, 2, n-k-1


Significara que la observacin tiene repercusin sobre los
resultados del ajuste del modelo de regresin lineal.

35
Anlisis de la Regresin Mltiple con el SPSS
Datos:
Encuesta Sexo Nro. Hijos salario gastos edad peso (kg) talla (cm)
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174

36
Resultados: Gasto=f(Salario, hijos, edad)

Estad sticos d escr ip tivos

Desv iacin
Media tp. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20
NHI JOS 2.25 1.916 20
EDAD 34.50 12.344 20

Correlaciones

GASTO SALARIO NHI JOS EDAD


Correlacin de Pearson GASTO 1.000 .948 .118 .188
SALARIO .948 1.000 .151 .145
NHI JOS .118 .151 1.000 .613
EDAD .188 .145 .613 1.000
Sig. (unilateral) GASTO . .000 .311 .213
SALARIO .000 . .262 .271
NHI JOS .311 .262 . .002
EDAD .213 .271 .002 .
N GASTO 20 20 20 20
SALARIO 20 20 20 20
NHI JOS 20 20 20 20
EDAD 20 20 20 20

37
Resultados: Gasto=f(Salario, hijos, edad)

b
Variables i ntroducidas/eliminadas

Variables Variables
Modelo introducidas elim inadas Mtodo
1 EDAD,
SALARIO, a
. Introducir
NHI JOS
a. Todas las v ariables solicitadas introducidas
b. Variable dependiente: GASTO

Resumen del modelob

R cuadrado Error tp. de la Durbin-W


Modelo R R cuadrado corregida estimacin atson
1 .952a .907 .889 61.53808 2.310
a. Variables predictoras: (Constante), EDAD, SALARI O, NHIJOS
b. Variable dependiente: GASTO

38
Resultados: Gasto=f(Salario, hijos, edad)
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 587991.986 3 195997.329 51.756 .000a
Residual 60590.964 16 3786.935

Si sig.=0< =0.05
Total 648582.950 19
a. Variables predict oras: (Constante), EDAD, SALARIO, NHIJOS
b. Variable dependiente: GASTO se rechaza
Ho:1=2=3=0
Coeficientesa

Coeficientes
Coeficientes no estandarizad Interv alo de conf ianza para
estandarizados os B al 95%
Lmite
Modelo B Error tp. Beta t Sig. Lmite inf erior superior
1 (Constante) 186.447 53.157 3.507 .003 73.759 299.135
SALARIO .580 .047 .946 12.214 .000 .479 .680
NHIJOS -8.803 9.357 -.091 -.941 .361 -28.639 11.033
EDAD 1.608 1.451 .107 1.108 .284 -1.468 4.684
a. Variable dependiente: GASTO

El modelo:
Estas dos variables no

Y 186.447 0.58 X1 8.803 X 2 1.608 X 3 influyen en el gasto

39
Regresin Lineal sin Intercepto

Son llamadas regresiones a travs del origen

40
Regresin Lineal sin Intercepto

son llamadas regresiones a travs del origen

41
Valores pronosticados

Son los valores que el modelo de regresin pronostica para cada caso.
No tipificados. Valor predicho por el modelo para la variable
dependiente.
Tipificados. Transformacin de cada valor predicho a su forma
tipificada. Es decir, se sustrae el valor predicho medio al valor
predicho y el resultado se divide por la desviacin estndar de los
valores pronosticados. Los valores pronosticados tipificados tienen
una media de 0 y una desviacin estndar de 1.
Corregidos. Valor predicho para un caso cuando dicho caso no se
incluye en los clculos de los coeficientes de regresin.
E.T. del prediccin promedio. Error estndar de los valores
pronosticados. Estimacin de la desviacin estndar del valor
promedio de la variable dependiente para los casos que tengan los
mismos valores en las variables independientes.

42
Distancias
Son medidas para identificar casos con combinaciones poco usuales de
valores para las variables independientes y casos que puedan tener un
gran impacto en el modelo.
Mahalanobis. Medida de cunto difieren del promedio para todos los
casos los valores en las variables independientes de un caso dado. Una
distancia de Mahalanobis grande identifica un caso que tenga valores
extremos en una o ms de las variables independientes.
De Cook. Una medida de cunto cambiaran los residuos de todos los
casos si un caso particular se excluyera del clculo de los coeficientes
de regresin. Una Distancia de Cook grande indica que la exclusin de
ese caso del clculo de los estadsticos de regresin har variar
substancialmente los coeficientes.
Valores de influencia. Mide la influencia de un punto en el ajuste de la
regresin. Influencia centrada vara entre 0 (no influye en el ajuste) a
(N-1)/N.
. 43
44
45
Regresin segmentada
Make Effective Presentations
Using Awesome Backgrounds
Engage your Audience
Capture Audience Attention
Slide Title

Product A Product B
Feature 1 Feature 1
Feature 2 Feature 2
Feature 3 Feature 3