Académique Documents
Professionnel Documents
Culture Documents
Jorge Fallas
jfallas56@gmail.com
2010 1
Temario
Introducción: correlación y regresión
Supuestos del análisis
Variación total de Y y variación explicada por el modelo
Modelos de regresión
Estimación de la ecuación de una regresión lineal
simple
Parámetros: intercepto, pendiente, error de estimación, IC
Medidas de variación en Regresión
Suma de cuadrados totales, suma cuadrados regresión, error
Evaluación supuestos del análisis de regresión
Estimación de valores esperados (predicción)
Uso de XLSTats
2
Regresión Lineal: supuestos
1. Normalidad
Los valores de Y están normalmente
distribuidos para cada valor de X
La distribución de probabilidad del error es
normal
2. Homocedasticidad (varianza constante)
3. Errores independientes E(eiej)=0 (i<>j)
4. Linealidad Y i Xi
5. Variables se miden sin error (No
estocásticas) 3
Regresión Lineal: supuestos
Dado que los supuestos sean verdaderos....
Las fórmulas utilizadas para estimar los
coeficientes de regresión son BLUE (Best
Linear Unbiased Estimators)
más pequeña
Linear: La media poblacional de Y es una
función lineal de X
Unbiased (insesgado)= Valor esperado del
estimador = al parámetro poblacional
4
Variación de los errores alrededor de
la línea de regresión
La distribución de valores de Y es
normal alrededor de la línea de
f(e) regresión.
¿Cuán realistas
son estos varianza alrededor de la línea de
regresión es la misma.
supuestos?
Y
X2
X1
X
Línea de Regresión 5
Supuestos de Normalidad y Varianza
Constante
f(e)
Y
X1
X2
X
6
Modelos de regresión
8
¿Qué le parece más lógico?
N N
o o
T t
a a
N N
o o
t T
a a
Simple Múltiple
No No
Lineal Lineal
Lineal Lineal
10
Ejemplos de Modelos de Regresión
Relación lineal Positiva Relación NO lineal
residuos residuos
residuos residuos
11
Modelos de Regresión
Simple Múltiple
No No
Lineal Lineal
Lineal Lineal
12
El Modelo de Regresión
Lineal simple
13
Ecuación Lineal
Y = bX + a
Cambio en Y
b = Pendiente
Cambio en X
a = Y:intercepto
X
14
Diagrama de Dispersión
Plot pares
Graficar of peso(Xvs d_copa
i , Yi)
180
160
140
peso (gr)
120
100
80
60
5.4 6.4 7.4 8.4 9.4 10.4
d copa (cm)
15
Modelo de regresión lineal simple
Relación entre variables es una función lineal
Y Yi 1X i
Valor
0 i
observado
i = Error aleatorio
YX 0 1X i
(E(Y))
X
Valor observado
17
Modelo de Regresión lineal Simple:
Estimación
Y i b0 b1X i
19
¿Cómo hacerlo?
http://www.math.csusb.edu/faculty/stanton/m262/regress/
error
21
X
Ausencia de correlación: ¿Qué
debemos esperar?
Si Y y X no están relacionadas, entonces
E(Y|X)= E(Y) Deberíamos predecir el
mismo valor de Y para todo valor de X.
Y= constante + 0*X= E (y)
Y
Ecuación
error
X Pendiente
22
Existe correlación: ¿Qué debemos
esperar?
Si Y y X están
relacionadas, entonces
E(Y|X)<>E (Y)
YEcuación
Deberíamos predecir
un valor diferente de Y
para cada valor de X.
X error
La pendiente de la
recta debe ser diferente
de cero Pendiente
23
¿Qué debemos esperar?
24
Modelo de Regresión lineal Simple : Ejemplo
d (cm) h tot(m)
Deseamos examinar la 3 5
relación entre diámetro 5 4
(cm) y altura total (m) para 8 13
una muestra de 12 árboles. 9 9
11 13
¿Cuál es la recta que
15 9
mejor ajusta a los datos?
18 17
18 19
20 15
25 17
25 25
30 22 25
Diagrama de dispersión
Video 1: Relación
positiva
Video 2: relación
negativa
Video 3: ausencia de
relación
http://statweb.calpoly.edu/chance/applets/LRApplet.html
http://hadm.sph.sc.edu/courses/J716/demos/LeastSquares/LeastSquaresDemo.html 26
Ecuación de la recta que mejor ajusta a
los datos
Yi b0 b1 X i
h tot = 3.63573 + 0.665087*d
1636 . 415 1 . 487 X i
Intercept 3.63573 m
Slope 0.665087
20 Media X,Y
15
htot
10
0
0 5 10 15 20 25 30
d 28
Interpretación de resultados
29
Ecuación de regresión: pendiente
variación en Y?
31
¿Qué explica la variación en Y?
Si Y y X no están relacionadas, entonces
E(Y|X)= E(Y) y deberíamos de predecir el
mismo valor de Y para todo valor de X.
De existir correlación entre X y Y, entonces
debemos determinar si conociendo el valor de X
podemos explicar porqué Y toma un valor
diferente a su media
32
Medidas de Variación: Suma de
cuadrados
Suma de cuadrados del Error
Y
Suma de cuadrados
SSE = (Yi - Yi )2
totales _
SST = (Yi - Y)2
_
SSR = (Yi - Y)2 _
Suma cuadrados de Y
regresión
X
x Xi
33
Medidas de Variación: Suma de
cuadrados
SST = Suma de cuadrados total
Miden la variación de Yi alrededor de su media
35
Medidas de Variación: Suma de
cuadrados : Ejemplo
Datos generados por XLSTats
Tabla de Análisis de Varianza
SSR
R² = 357.817/462 = 0.77
SST SSE 36
Interpretación del ANOVA: Significancia
del modelo
37
El coeficiente de determinación
Y r2 = 1, r = +1 Y r2 = 1, r = -1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X
^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X
39
Error Estándar de Estimación
n
SSE ( Yi Yi ) 2
Syx = i 1
n 2
n 2
Desviación estándar de la
variación de las observaciones
alrededor de la línea de regresión
Cuando la Suma Cuadrados Error
(SSE) es grande el valor del Error
Estándar de Estimación también
será grande Error
40
Medidas de Variación : Ejemplo
Resultados de XLSTats
41
Inferencia sobre la pendiente: Prueba t
Prueba t para la Pendiente de la Población
¿Existe una relación lineal entre X & Y ?
b1 1 SYX
Estadístico de t Donde Sb
prueba: S b1 1 n
( Xi X )2
i 1
y df = n - 2 42
Ejemplo: Diámetro-altura total
Datos para 12 árboles:
d (cm) htot (m)
Ecuación de Regresión:
3 5
5 4 Yi = 3.63573 +0.665Xi
8 13
9 9 La pendiente del
11 13
15 9 modelo es 0.665087
18 17
18 19 ¿Existe una relación
20 15
25 17
lineal entre el diámetro
25 25 (cm) y la altura total
30 22
(m) de los árboles?
43
Inferencia sobre la pendiente: Ejemplo
H0: =0 De XLTats
1
Int. Conf.
H1: 1 0
.05
df 12 - 2 = 10
Decisión: Rechazar Ho
Prueba hipótesis Conclusión:
La evidencia indica que existe una
relación lineal entre el diámetro y
altura total de los árboles
44
Rechazar H0
Relación entre F y t en regresión simple
Standard T
Parameter Estimate Error Statistic P-Value
----------------------------------------------------------------------------------------
Intercept 3.63573 1.99895 1.81881 0.0990
Slope 0.665087 0.113487 5.86046 0.0002
-----------------------------------------------------------------------------------------
5.86*5.86= 34.34
Analysis of Variance
-----------------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------------------
Model 357.817 1 357.817 34.34 0.0002
Residual 104.183 10 10.4183
------------------------------------------------------------------------------------------
Total 462.0 11
XLSTats
2
1 (Xi X )
Yi tn 2 S yx 1 n
n 2
(Xi X )
i1 48
Intervalos de confianza
49
IC para diferentes valores de X
IC para un valor
individual de Yi IC para
Y
media de Y
_ X
X 50
Predicciones de Y: Ejemplo
IC para un valor Y dado un valor medio de X
1 ( Xi X )2
Yi tn 2 Syx n = 13.99 m 2.07 m
n ( Xi X) 2
i 1 IC para la media de Y
51
Predicciones de Y: Ejemplo
IC para un valor de Y a un valor particular de X
1 ( Xi X )2
Yi tn 2 Syx 1 n = 13.99 m 7.49 m
n ( Xi X) 2
IC para la valor
i 1
individual de y52
Intervalos de Confianza
Valores
medios
Valores
individuales
53
Análisis de residuos
Plot of peso Residual Plot
180
1.1
140
120 0.1
100
-0.9
80
60 -1.9
60 80 100 120 140 160 180 5.4 6.4 7.4 8.4 9.4 10.4
Estimado (gr) diámetro copa (cm)
2.1 2.1
1.1 1.1
0.1 0.1
-0.9 -0.9
-1.9 -1.9
60 90 120 150 180 210 0 5 10 15 20 25 30
Peso estimado (gr) Posición (fila)
56
¿Es el modelo lineal el mejor?
Comparación de modelos alternativos
----------------------------------------------------------------
Model o Correlación R-Cuadrado
---------------------------------------------------------------
Multiplicative 0.8926 79.67% El R2 del modelo
Square root-X 0.8839 78.12% multiplicativo es
Linear 0.8801 77.45% 79.7% y explica un
Square root-Y 0.8735 76.30% 2.2% adicional de la
Logarithmic-X 0.8663 75.05% variabilidad en la
Exponential 0.8506 72.36% altura de los árboles
Double reciprocal 0.8424 70.97%
comparado con el
Reciprocal-Y -0.7703 59.33%
Reciprocal-X -0.7657 58.63%
modelo lineal
-----------------------------------------------------------------
57
¿Es el modelo lineal el mejor?
58
XLSTats le permite ajustar una ecuación de regresión en segmentos
RESUMEN
Realizar análisis de correlación
Graficar datos, calcular R
Seleccionar modelo inicial que mejor se ajuste
a los datos (Ej. Lineal, no lineal)
Evaluar parámetros del modelo
Evaluar residuos. Probar supuestos del
modelo. ¿Existen residuos inusuales y/o
puntos influyentes? Transformar datos.
Comparar con modelos alternativos
Predicción de valores de Y a partir de valores
de X
59