Académique Documents
Professionnel Documents
Culture Documents
www.upv.es
¿Por dónde vamos?
muestreo
Muestra
Distribuciones
UD4 Estadística descriptiva
Población gráficos
parámetros
UD3 tablas UD2
Probabilidad
Conclusiones válidas con
razonable seguridad
UD5
Inferencia estadística
200
100
0
-3 1 5 9 13 17 21
TEMPER
Si hay alguna evidencia de que la relación sea posible, no
basta con calcular r o un diagrama. En la práctica se
puede ir más allá los modelos de Regresión.
Modelos de
1 variable explicativa regresión 2+ variables explicativas
Simple Múltiple
UD 5-4
400
¿ Y = a + bX ?
CONSUMO
300
200
100
0
-3 1 5 9 13 17 21
¿Con cuál me quedo?
TEMPER ¡Hay infinitas rectas
que pasarían por la
nube de puntos!
350 ej
300
250 Y = 247,61T
200
150
100
50
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
TEMPER
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
¿Con qué recta me quedo?
Otra recta
500
450
400
CONSUMO
350 ej
300
250
200
150
Recta que tenga un
100 promedio menor de
50 todos los “errores” ej
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
TEMPER
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: temperatura vs consumo
Valor de
consumo 500
realmente
observado 450
y = 390,32 T400
j
(xj,yj)
Valor de 300
consumo
que
predice la 250
recta
200
xj = 6,46 ºC
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Estimación del modelo
Los valores a y b que estiman β0 y β1 y definen la recta
serán aquellos que minimicen, en promedio, los “errores” ej:
ej se denominan residuos ej =yj – (a + b xj)
ei
a b
De dónde se obtienen las estimaciones1 a y b:
400
CONSUMO
300
200
100
0
-3 1 5 9 13 17 21
TEMPER
N 1 2 3 4 5 6 7 8 9 10 X S
Horas/
4 9 10 14 4 7 12 22 1 17 10 6,46
mes
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24
Horas
Parece que hay relación directa y estrecha rH,N = 0,98
Recta de Regresión
NOTA = a + bxHORAS = 2,17 + 0,347xHORAS + ε
Predicciones (medias)
E(NOTA/HORAS) = a + bHORAS = 2,17 + 0,347xHORAS
E(Y/X) = a + bX = 2,17 + 0,347 X
¿Cómo puedo
conocer la calidad
de la predicción?
Coeficiente de Determinación R2
R2 = rxy2 x 100
• nº de asignaturas matriculadas
• fatiga acumulada
• capacidad de concentración
• problemas personales, …
Residuos y
Varianza residual
0,7
0,4
RESIDUOS
0,1
-0,2
-0,5
-0,8
0 2 4 6 8 10 12 14 16 18 20 22 24
HORAS
xi = 17 horas
m4 ,σ2
σ2Residual
5 m3 , σ2
E(Y/X=xt)
2,5
m2 , σ2
Distribución 1
m1 ,σ2
marginal del
NOTAS (Y)
1-5 6-10 11-15 16-20 21-25
HORAS (X)
Población
Horas/me
4 9 10 14 4 7 12 22 1 17 10 6,46
s
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen
10
9 rH,N = 0,98
8
7
6 Fuerte relación
Nota
5
4 lineal y directa
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24
Horas
Test de hipótesis
H0: β1 = β2 = ... = βI = 0
ANOVA
H0: ∃βi / βi ≠ 0
SC Total j
2
= ( y - y ) N-1 grados de libertad
j=1
j= 1
Se sabe que:
Si β1 =β2 =...=βI = 0
SCExplicada
I CME
= = F -ratio ~ FI,N-1-I
SCRsidual CMR
(N-1-I)
¡Recordar! UD 5-3
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
¿Alguna de las variables explicativas influyen realmente
sobre la variable respuesta o es casualidad?
Tabla resumen del ANOVA
Origen Suma de Grados Cuadrado F
Variación Cuadrados Libertad Medio ratio
Total 47,524
Modelo 45,2932
Residual
CME
> FI,N-1-I ó
∃βi / βi ≠ 0 CMR
p-value < α
Test de hipótesis
H0: βi = 0
H0: βi ≠ 0 Precisión de la
estimación
bi
Se sabe que si βi = 0 ≈ t N −1− I
Sbi
Test t
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Significación del efecto de una variable Xi
Si se acepta la H0: ßi = 0
No existe un efecto real poblacional de la Xi sobre E(Y),
bi
≤ t Nα −1− I ó bi no aparece en la
Sbi
ecuación final
p − value ≥ α
Test de hipótesis
N = nº de datos
bi
I = Nº de variables > tN-1-I ó
independientes
βi ≠ 0 Si
p-value < α
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejemplo: Horas de estudio vs Nota
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en la ecuación final de la recta?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447 6,79066 2,306
b (b1) 0,347074 0,0272326 12,7448 2,306
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24
HORAS
↔ Predicción
Varianza (σ2) estimación: S2R = S2y (1- r2xy)=CMR
↔ Varianza Residual
P
(NOTA
HORAS = 15
≥ 7 = P z ≥
7 − 7,375
0,528 = )
P ( Z ≥ −0,71) = 1 − P ( Z ≥ 0,71) = 1 − 0,2389 = 0,7611
NOTAla Sresidual puede variar bastante con respecto al valor que da el Statgraphics según los decimales tomados
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Validación del modelo
Las técnicas de validación de modelos no son más que
diferentes tipos de análisis de residuos que permiten contestar
a preguntas del tipo:
80
50
20
5
1
0,1
0 2 4 6 8 10
NOTA
Los puntos forman un recta aproximadamente
El modelo normal es admisible.
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Validación del modelo
2 - Un gráfico de los et frente a los valores previstos para
cada observación puede poner de manifiesto la existencia
de relaciones no lineales.
Residual Plot
2,6
1,6
Studentized residual
0,6
-0,4
-1,4
-2,4
2,5 4,5 6,5 8,5 10,5
predicted NOTA
E (CONSUMO ) = β0 + β1TEMPER
• Valor observado de CONSUMO un día t:
CONSUMOt = β0 + β1TEMPERt + ut
β0 consumo medio los días que la temperatura es 0 ºC
80
50
20
5
1
0,1
-60 -30 0 30 60 90
RESIDUALS
Residual Plot
3,4
Studentized residual
2,4
1,4
0,4
-0,6
-1,6
-2,6
0 100 200 300 400 500
predicted CONSUMO
Residual Plot
3,4
Studentized residual
2,4
1,4
0,4
-0,6
-1,6
-2,6
0 100 200 300 400 500
predicted CONSUMO
400
CONSUMO
300
200
100
0
-3 1 5 9 13 17 21
TEMPER
2 2
RM2 = 95,5% > RM1 = 94%
La calidad del ajuste del modelo 2 es mejor que la del modelo 1:
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Ejercicios
Resumen Estadístico
Longitud Errores
--------------------------------------
Frecuencia 82 82
Media 4.65893 2.63361
Mediana 4.332 2.5896
Varianza 2.04982 0.202711
Desviación típica 1.43172 0.450234
Mínimo 1.072 1.6458
Máximo 9.592 3.965
Rango 8.52 2.3192
Primer cuartil 3.864 2.3062
Tercer cuartil 5.032 2.8041
Rango intercuar. 1.168 0.4979
Asimetría tipi. 3.87271 3.65235
Curtosis típificada 3.38387 2.05077
--------------------------------------
Coeficiente de Correlación = 0.722933
Análisis de la Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo . 1 8.5814 . .
Residuo 7.83818 .
-----------------------------------------------------------------------------
Total (Corr.) 16.4196 81
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4113,33 1 4113,33 6494,89 0,0000
Residual 5,06654 8 0,633318
-----------------------------------------------------------------------------
Total (Corr.) 4118,4 9
Horas/me
4 9 10 14 4 7 12 22 1 17 10 6,46
s
Nota
3,1 5,8 6,5 7,3 3,7 4,4 6 9,1 2,1 8,4 5,64 2,29
examen
10
9 rH,N = 0,98
8
7
6 Fuerte relación
Nota
5
4 lineal y directa
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22 24
Horas
Test de hipótesis
N = nº de datos
bi
I = Nº de variables > tN-1-I ó
independientes
βi ≠ 0 Si
p-value < α
DEIOAC – Estadística – Prof. E Vázquez UD5-4 Regresión Lineal Simple
Test t
¿Qué coeficientes son realmente significativos y por tanto
debo dejar en la ecuación final de la recta?
Parámetro Estimación Desv. Típ. de t calculada t tabla
bi la estimación bi/Si tN-1-i
Si
a (b0) 2,16926 0,319447 6,79066 2,306
b (b1) 0,347074 0,0272326 12,7448 2,306
Fin