Regresion Lineal 2

Capítulo 1
Prácticas y problemas de regresión

lineal simple.
1.1. Problemas de regresión lineal simple con ordenador.

Problema 4.1.
“Los datos de la tabla adjunta proporcionan la distancia en línea recta (LR) y por
carretera (DC) entre veinte pares de puntos geográ…cos (localidades) de She¢ eld.
1. ¿Existe una relación lineal entre las dos variables?
2. ¿Es su…cientemente bueno el modelo de regresión lineal que explica la variable de

interés DC en función de la variable regresora LR?. Estimar el modelo de regresión
lineal. Calcular intervalos de con…anza al 90 % para los parámetros del modelo.
3. Calcular la tabla A N O V A del modelo. Conclusiones que se obtienen.
4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea recta
es 25. Calcular un intervalo de predicción al 90 %. Repetir el apartado si la distancia
(LR) es 50.
5. DC LR DC LR DC LR
0 0 0 0 0
¿Existe un modelo li 10 7 95 16 6 12 1 28 8 210 6 nealizable mejor?
60 5 50 0 290 0 220 0 310 2 260 5
290 4 230 0 400 5 280 2 60 5 40 8
170 2 150 2 140 2 120 1 250 7 210 7
180 4 110 4 110 7 90 8 260 5 180 0
190 7 110 8 250 6 190 0 330 1 280 0
160 3 140 6 90 5 80 3
1
2 Modelos estadísticos aplicados. Juan Vilar
Desarrollo del Problema 4.1.

En primer lugar se representa la grá…ca de dispersión de la nube de puntos que permite
tener una primera idea acerca de la forma del modelo de regresión. Se utiliza el siguiente
módulo de Statgraphics
graficos > graficos de dispersion > grafico x-y
Un estudio detallado del modelo lineal simple ajustado se obtiene en
dependencia > regresion simple
Dentro de este módulo, en el apartado resumen del procedimiento, se obtiene

la recta de regresión estimada (estimación de los coe…cientes de 0 y 1; desviaciones
típicas, lo que permite calcular intervalos de con…anza de los mismos y test de la t). Este
apartado también proporciona la tabla A N O V A y los coe…cientes de determinación. En
este problema el coe…ciente de correlación es r = 00969, y se concluye que el ajuste lineal
es bueno.
El apartado predicciones permite calcular predicciones e intervalos de con…anza de
la media condicionada y de predicción para una observación determinada.
Si la recta de regresión se quiere comparar con otros modelos “linealizables” se puede

hacer en el apartado comparacion de modelos alternativos
Este módulo proporciona la correlación de doce ajustes. Con los datos de este problema
los ajustes “doble recíproco” y “multiplicativo” mejoran ligeramente (en correlación) a la
regresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcular
el ajuste de alguno de estos modelos “linealizables”se utiliza el apartado de opciones en
resumen del procedimiento.
Este módulo también proporciona las observaciones con residuos grandes (residuos
atipicos), las observaciones in‡uyentes (puntos influyentes) y diferentes grá…cos que
permiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas.
Problema 4.2. (Datos simulados)

“Este problema consta de dos partes. En un primer apartado se simula un conjunto de
datos bidimensionales (xi; yi) que siguen un modelo de regresión lineal simple con diseño
…jo. En el segundo apartado se estudia el modelo de regresión que mejor se ajusta a los
datos simulados en el apartado anterior.
La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cada
valor de X se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones.
Los valores se generan a partir del modelo matemático
Y = 40 + 105X + ";
donde " sigue una distribución N 0; 102 :

Se seguirán los siguientes pasos:
Prácticas y problemas de regresión lineal simple. 3
1. Generación de la muestra.
2. Hacer un estudio estadístico básico de la variable condicionada Y =X:
3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación de

los parámetros, tabla ANOVA, contraste de regresión y de linealidad, intervalos de
con…anza. ¿Se obtienen resultados congruentes, la recta de regresión ajustada está
próxima a la recta generadora de las observaciones?
4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos?
5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con…anza
y de predicción.
6. Estudiar otros modelos linealizables.
Desarrollo del Problema 4.2.

Para generar la muestra por simulación se siguen los siguientes pasos:
- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:
- Generar la variable x = rep(15; valor_x):
- Generar la variable recta = 40 + 1; 5 x:
- Generar la variable error = rnormal(150; 0; 10):
- Obtener la variable respuesta y = recta + error .
La muestra (simulada) se representa en un grá…co bidimensional según el análisis
graficos > graficos de dispersion > grafico x-y
Como se dispone de varias observaciones de la respuesta para cada valor de X se debe

hacer un análisis estadístico de la variable condicionada Y =X: Para ello se utiliza el módulo
descripcion > datos numericos > analisis de subgrupo
Introducir codes = x.
Igual que en el problema anterior el análisis de regresión se realiza en
dependencia > regresion simple
En este problema se puede hacer una tabla A N O V A más completa y el contraste de

linealidad en la opción contraste de falta de ajuste.
El desarrollo del resto del problema es análogo al anterior y como se dispone de un
número relativamente grande de observaciones se puede hacer un estudio más completo
acerca del cumplimiento de las hipótesis del modelo.
1.2. Problema resuelto de regresión lineal simple.

Problema 4.3.
“Los datos de la tabla adjunta muestran el tiempo de impresión (Y ) de trabajos que
se han imprimido en impresoras de la marca PR. Se está interesado en estudiar la relación
existente entre la variable de interés “tiempo de impresión de un trabajo” y la variable
explicativa (X) “número de páginas del trabajo” Utilizando
. estos datos ajustar un modelo
de regresión”.
Datos de las impresoras
x y x y x y
0 0 0 290 92 170 14 280 86 300 01
24 56 17 33 17 81
370 25 310 90 440 73 440 43
1 280 07 230 16 0
19 41 2 3
310 80 410 72 410 32 340 16
220 53 140 70
240 59 280 79
0 0 0 520 55 690 50 650 39 570 48
29 03 45 00 53 52
550 61 520 98 620 85 690 09
4 540 38 470 63 0
30 11 5 6
650 70 400 11 710 44 570 29
440 34 480 95
450 21 460 63 500 42
0 0 0 830 82 750 38 0 0
85 33 66 73 68 17 82 90 105 73
690 40 840 42
7 780 94 610 07 0
76 71 8 9 1020 13 1190 82
800 68 600 79
780 34 880 25 0
64 84 930 93 1020 30
1000 08 740 79
790 82 900 83 0
89 00
10 830 81 710 79 0
76 20
760 30
Solución Problema 4.3.

Se calculan los estadísticos básicos de las variables X e Y;
Pn
n = 75 =1 x
i i = 408 x = 5044
Pn 2
Pn
Pn 2
Se calculan las predicciones yî Predicciones

Pn xi yî xi yî xi yî xi yî xi yî
1 21 623 3 37 839 5 54 055 7 70 271 9 860 487
0 0 0 0
Las estimaciones d 2 290 731 4 450 947 6 620 163 8 780 379 10 940 595 e los parámetr
os de la recta de r egresión son
sxy
^1 =
Prácticas y problemas
La suma de regresión
de cuadrados lineal simple.
de los residuos (scR) se obtiene como 5
X X X0 0 0 0
i
^0 = y y^
^1i)x =
= 57 6227 8 108 5 44 = 13 515
X X X X
i i
1 X 2 8025 61
s^2R = e i = 0 s
75 75 75
2 2 0 0 2
e = (yi yi 13 515 + 8 108xi = 8025061:
i=1 i=1 i=1
s2 sencilla, de calcular scR es

Una forma alternativa, más
= 0 1837 ) (^1) = 0 4286:
75 e2 = 75 y2 75 ^0 75 yi + ^1075 xiy ! = 8025061:
709797 0
2
=
ns x 109094
s2 i
= 6 9022 ) (^0) = 2 6272
i=1 i=1 i=1 7 09797
i=1 0 0
1+ s2 = 1+
n
La varianza residual es x2x 109094
75
75
50442
= 109 94 ) ^R = 10 485:
73 0 0
i=1
n 2
s2 2
Las varianzas de los parámetros
n 2 son
) 2
xi = 2;818 V ar(^x12) = ^0 s2x = 709797 sx = 2082484

i=1 = 37 R5733
^R yi = 4;32107 y = 5754
06227 = 147 735:
V ar(^0) = i=1 03245 0
2 = 3;951096 2 0
i=1 yi = 296;397
Intervalos de cony
…anza (al 90 %) y scontrastes
y = 631 586 sy = 2501313
de hipótesis sobre los parámetros del
modelo son:
0 0 sxy = 6406995
i=1 xiyi = 28;362 5 xy = 378 167
2
Intervalo de con…anza para
(n 2) ^R 73 73 109 94
2 005
= 80 108: 0 2
73
0095 )
2
2 0
7 9797 0
=
8025 62
5403245sx 6406995
0
850325 =
8025 62 9400592 )
0
9400592 2 8025062
Intervalo de con…anza para ^1
^1 1 1
tn 2
(^1) 13 515
) t73 0005 00 t73 0 95 )
1 2 6272 0
13 515
106664 0 0 1 6664 ) 106664 = 80108 007142 = 703938; 808222 :
2 80108 0 004286
21 6272
Intervalo de con…anza para ^0
^0 0
jH = 0
= 18 917
tn 2
(^0) (^1) 0 0 4286 0
0
0 2 130515 206272 106664 = 130515 40378 = 90137; 170893 :
Contraste de hipótesis para ^1 (H0 : 1 =0 f rente H0 : 1 6= 0)

^1 jH = ^1 80108 = 5 144
d1 = (^01) 0 = 02 6272 0 tn 2
(^1)
) p valor = P jt73j > 180917 = 000000
) Se rechaza H0:
Contraste de hipótesis para ^0 (H0 : 0 =0 f rente H0 : 0 6= 0)

sxy
r=
^ 0 = 0 9113:
d0 =
0 0 2 82484^025
1301313
515 0 tn
= 0 2
(^0)
) p valor = P jt73j > 50144 = 000000
) Se rechaza H0:
El coe…ciente de correlación es
6406995
= 0
sxsy
En el siguiente grá…co se representa la nube de puntos y la recta ajustada
8 108
) t73 0005 0 0 t73 0 95 )
0 4286 0
8 108
106664 0 0 1 6664 )
0 4286 0
Figura 4.1. Nube de observaciones y recta ajustada.
El grá…co de residuos frente a las predicciones se observa en el siguiente grá…co,
Figura 4.2. Grá…co de residuos.

X
i
Cálculo de la tabla ANOVA del modelo.
X
75
scR = e2 = 8;025061; y
i=1
X75
2 2
scG = yi
(y y) = 75 s = 75 6310586 = 47;368095;
i=1
75
Tabla ANOVA (î

2
y) =
Fuentes de Suma de Grados Varianzas F test p value
sc
variación cuadrados libertad G s
2
scE (modelo) 39;3430 34 1 s^ 0 0 0
e = 39;343 34 F = 357 86 0 0000 cR =
2
scR (Residual) 80250 61 73 s^ 0
R = 109 94
0
s^R = 10 48 47;36
scG (Global) 47;3680 95 74 s^ 2
y = 6400
12 0
s^y = 25 30 809
5 8;
scE = i=1 025061 = 39;343034;
de donde
se ^
Contraste de regresión.
se
^ = 357 86
H0;reg :s2 “el modelo 0
109094 de regresión lineal ajustado no es in‡uyente”
H1 : “el modelo ajustado es in‡uyente”
Si H0;reg es correcto ^2 0: El estadístico del contraste es dreg
^2 39;343034
dreg = = F 1;73
^R
) p valorreg = P (F 1;73 > 357086) = 000000:
Se rechaza H0;reg y se asume que el modelo ajustado es signi…cativo.
Contraste de linealidad.
X Dado X que para cada
Xvalor de x seX
dispone de varias obser-
vaciones de Y; se puede hacer iel contraste y y
H0;lin : “el modelo lineal es adecuado”

H1X : “el modelo de regresión no es lineal”
y
Se descompone scR en dos términos:
75 X 75 75 75
2 2 2
scR = e2 = (yi î) = (yi: î) + (yi yi) :
i=1 i=1 i=1 i=1
X X
i y
75
scR
scR1 =
=
i=1
Tabla ANOVA 75
Fuentes de Suma de Grados Varianzas F test p value

i=1
variación cuadrados libertad
2
scE (modelo) 39;3430 34 1 2
s^ 0 0
00 0000 (yi: î) = 2;76508
e = 39;343 34 F reg = 357 86
2
scR1 2;7650 84 8 s^ 0
R;1 = 345 731 4:
2
scR2 5;2590 77 65 s^ 0
R;2 = 80 919 F lin = 40 27 00 0004
2
scR (Residual) 80250 61 73 s^ 0
R = 109 94 s^R = 10 0
48 2
scG (Global) 47;3680 95 74 2
s^ 0 0 (yi yi) = 5;2590
y = 640 12 s^y = 25 30
77:
75 75
2
scR = e2 = (yi î) = 2;765084 + 5259077 = 8;025061:
i=1 i=1
La nueva tabla ANOVA, más completa, es

Si H0;lin es correcto ^R;1 0: El estadístico del contraste es dlin
^R;1 3450731
dlin = = F 8;65
^R;2
) p valorlineal = P (F 8;65 > 4027) = 000004
Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a la

nube de observaciones.
^
Predicciones.
“Calcular intervalos de con…anza al 90 % para el tiempo medio de impresión
de los trabajos que tienen 6 y 12 hojas respectivamente.
1+
Calcular intervalos de predicción al 9075
% para el tiempo de impresión de un
1+
xt Calcular el intervalo de predicción para el tiempo
n 6 hojas.
trabajo que tiene
1 + 0 1982 = 0 013857:
de impresión de75un trabajo 0 ”.
0 de 212 hojas
= 72 1651 (número de observaciones equivalente):
ht de m0t = E(Y =X = 6) es
Para xt = 6; el estimador
mt = 130515 ^+ 80108 xt = 130515 + 80108 6 = 620163:

s2
El valor de in‡uencia (leverage)
^ es = 1 5235:
1= 72 1651 6 50044 !
0
x 2!
1 sX n=t ^ 1090942082484
2
ht =
1
=
1
) nt =
La varianza del estimador mt

^R
V ar (mt) =
) (mt) = 102343:
Un intervalo de con…anza al 90 % para mt es ^

s2
0
mt 62 163
1^02343 s2 t73 )
= 4 27 0
0 1 2343 )
800919t73 0095
mt s22 620163
mt 2 620163 106664 102343 = 620163 200568 = 600106; 640219 :
La predicción para Y =X = 6 es
^t = 130515 + 80108 xt = 130515 + 80108 6 = 620163:
La varianza de predicción es
^R 109094
V ar (^t) =
(^t) = 1005576:
Un intervalo de predicción al 90 % para yt es
yt 2 620163 t73 0095 1005576 )

^
yt 2 620163 106664 1005576 = 620163 170593 = 440569; 790756 :
Análogamente, se realizan los cálculos para xq = 12:

El estimador de mt = E (Y =X = 12) es 1+
75
1+
n xq0 0
mq1= + 13 515 + 8=
2 3222 108 12 = 1100811:
0 08523
75 0 2 0
Su valor de in‡uencia es = 11 7323 (número de observaciones equivalente):
hq x0 2 ! 1 12 5044 2 !
1 =
hq = sR 2082484
^
1 s2
= ^ = 9 3707:
1107323 0
1 =
nq ^ 109094
) nq =
La varianza de mq es
^R
V ar (mq) =
) (mq) = 300612:
Un intervalo de con…anza al 90 % para mq es

y
mq 2 1100811 t73 0095 300612 )
mq 2 1100811 106664 300612 = 1100811 501011 = 1050709; 1150912 :
s2 + s^ = 109 9
y R +1 = 119 31:
ynq
La predicción de Y =X = 12 es 2 0 1107323 0
4
y
^q = 130515 + 80108 12 = 1100811:
s2 + s^ =
y R + 109 94 = 111 4635 )
nh 2 7201651 0 0
^R 1
V ar (^q) = y
) (^q) = 100923:
Un intervalo de predicción al 90 % para yq es
yq 2 1100811 t73 0095 100923 )

yq 2 1100811
Longitudes de los intervalos calculados
0 0
1 6664 10 923 Int. Con…anza Int. Predicción núm. equivalente = 1100811
de (E (Y =x)) de (Y =x) de observaciones
180202 xt = 6 20 0568 170 593 720 1651 = 920609; 1
páginasxq =
precio páginas
0 precio páginas precio
290013 : 12 5 1011 180 202 110 7323
0 0
310 3 50 400 8 00 420 20 50 Prácticas y proble
300 30 50 170 10 80 610 50 00 mas de regresión lin
280 30 50 430 70 00 420 50 40 eal simple. 11
0 0
310 7 30 230 3 20 450 30 70
En la tabla adju
nta se pueden comparar las longitudes de los intervalos calculados
1.3. Problemas propuestos de regresión lineal simple.

P12
Xi = 4;330;
i=1
Problema 4.4. (este problema se puede resolver utilizando calculadora)
“En la tabla adjunta P12 el número 0 de páginasPy12 el precio de doce libros
0se presentan
i=1 Yi = 54 4; i=1 Yi = 290 62;
técnicos:
Con estos datos se obtiene: (X el número de páginas e Y el precio):

P12 2
i=1 Xi = 1;714;700;
P12 2
2 i=1 XiYi = 20;663:
Tiempo (días) Resistencia (kg=cm )
1. Ajustar u 1 13 0 130 3 11
0 0
8 na recta de regresión que expliqu
e el precio en 2 0 0
21 9 24 5 24 7 0 función del número de
páginas e 3 290 8 280 0 24 0 0
1 24 2 0
26 2 interpretar los resultados.
7 0 0 0 0 0
32 4 30 4 34 5 33 1 35 7
2. Construi r la tabla A N O V A asociada. ¿Es el a
juste adecuado
28 410 8 420 6 40 0 0
3 35 7 0
37 3 ?
3. Calcular intervalos de con…anza al 90 % para los parámetros del modelo.
4. Calcular un intervalo de con…anza al 90 % para el precio de un libro de 500 páginas.”
Problema 4.5. “La resistencia del cemento (r) depende, entre otras cosas, del tiempo
de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de
cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.
(1952) “Statistical theory with engneering applications. Wiley & Sons). En base a esta
muestra,
1. Analizar la posible e año Y X año Y X año Y X xistencia de una r
elación entre estas dos va 1920 1;006 5 5 1945 747 9 7 1970 476 120 7
0 0 riables.
1925 1;162 40 8 1950 732 90 6 1975 386 110 5
2. ¿Qué conclusiones se deducen del contra
1930 1;479 70 8 1955 683 80 9 1980 368 110 4
ste de regresión y del con traste de linealida
d? 1935 805 80 2 1960 686 110 4
1940 795 80 6 1965 493 100 6
3. Si se utilizase un aju ste cuadrático ¿se
obtienen mejores resultados?
4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación del
logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.”
Problema 4.6. “La variable (Y ) representa, en miles, el número de asnos en España

y la (X) el tanto por ciento del presupuesto del Estado dedicado a Educación.
1. Representar gra…camente estos datos.
2. Construir la recta de regresión que explique el comportamiento de la variable “tanto

por ciento del presupuesto del Estado dedicado a Educación” en función de la variable
“el número de asnos en España” e interpretar los resultados
3. ¿Es signi…cativo el coe…ciente de correlación entre estas dos variables?
4. Exper. Salario Exper. Salario Exper. Salario

13 260 1 31 360 4 27 360 0
Los residu 0 0 os asociados al aj
uste de la 16 33 2 19 33 8 25 360 5 regresión lineal ¿
0 0
son indepe 30 36 1 20 36 5 7 210 4 ndientes?
0 0
2 16 5 1 16 9 15 310 0
5. 8 0
26 4 4 0
19 8 13 310 4
0
6 19 1 10 240 6 Representar las v
ariables X e Y frente al tiempo. Calcular los coe…cientes de cor-
relación y rectas de regresión de las variables X e Y respecto al tiempo.
Nota: Estos datos son recogidos del texto de Daniel Peña “Estadística modelos y
métodos. Vol. 2. Modelos lineales y series temporales” Alianza Universidad Textos.
Es un claro ejemplo de variables entre las que existe una alta correlación estadística
pero no existe relación entre las mismas (correlaciones espúreas), su relación
estadística es debida a la relación que ambas tienen con una tercera (el tiempo) y
que no se tiene en cuenta en el estudio.
Problema 4.7. “Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre los
informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y
se obtuvieron los siguientes datos
1. Calcular la regresión lineal de la variable salario frente a años de experiencia. Calcular

intervalos de con…anza al 95 % para los coe…cientes de este modelo.
2. Calcular el coe…ciente de correlación lineal y el coe…ciente de determinación. ¿Con

= 0005 se puede rechazar la hipótesis de que el coe…ciente de determinación es
cero?
3. Calcular intervalos de con…anza al 90 % y 95 % para la predicción del salario de un

informático que tiene 8 años de experiencia.
4. ¿Se observa alguna anomalía en el grá…

co de los residuos frent x y x y x y e a la regresora.”
77 84 102 88 133 146
Problema 137 116 91 104 115 128
117 123 104 129 105 115
4.8. “El siguiente con junto de datos era tomado sobre grupos d
94 128 107 86 87 79
e tra-
116 155 112 96 91 85
bajadoras de Inglaterr a y Galés en el período de 1970-
102 101 113 144 100 120
72. Cada grupo está f ormado por
111 118 110 139 76 60
trabajadores de la mis ma profesión (médicos, trabajadores textiles,
93 113 125 113 66 51
decoradores,...etc,) y
88 104
en cada uno de los vein ticinco grupos muestrados se han observado
dos variables: el índice
estandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón.
(Occupational mortality: the registar general’s decennial supplement for England and
Wales, 1970-72, series Ds, n.1, London:HMSO,149).
1. Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores.
2. Calcular la tabla ANOVA. Conclusiones.

3. Comprobar si se veri…can las hipótesis del modelo.”
Problema 4.9. “Anscombe utilizó el siguiente conjunto de datos para demostrar la

importancia de los grá…cos en el análisis de regresión y correlación. Hay cuatro conjuntos
de datos bidimensionales (X; Y ), el vector X es el mismo para los tres primeros conjuntos.
1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Y
frente a X y el coe…ciente de correlación.
2. Para cada uno de los cuatro casos, dibujar la grá…ca de Y frente a X y la grá…ca
de los residuos frente a las predicciones. ¿Qué conclusiones se deducen?”
X1 = X2 = X3 Y1 Y2 Y 3 X4 Y4
10 8004 0 0
9 14 7 46 8 6058
8 6095 8014 6077 8 5076
13 7058 0 0
8 74 12 74 8 7071
9 8081 8077 7011 8 8084
11 8033 9026 7081 8 8047
14 9096 8010 8084 8 7004
6 7024 0 0
6 13 6 08 8 5025
4 4026 3010 5039 8 5056
12 10084 9013 8015 8 7091
7 4082 0 0
7 26 6 42 8 6089
5 5068 4074 5073 19 12050
Problema 4.10. “Los datos de la tabla adjunta muestran la cantidad de ozono reg-
istrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aprox-
Capa Ozono Capa Ozono

0 0 0 0
7 53 8 54 8 53 7 55 7 7 0 0
44 7 38 5
530 3 540 6 0
55 2 0
54 1
6 630 8 640 2 0
66 9 6 0 0 0
60 2 54 9 50 8
670 2 650 4 0
67 3
5 710 8 730 2 0
75 6 0
76 2 0
72 7 5 730 6 650 4 0
67 1
4 790 4 810 1 0
84 1 4 0 0 0 0
74 8 82 3 76 9 81 2
850 2 830 0 0
82 8
3 900 3 840 2 0
88 3 0
86 0 3 930 6 860 2 87
0 0
9 89 5
2 930 2 970 4 0
98 3 2 0 0 0
92 3 96 6 98 5
1 1020 8 960 9 0
98 2 1 1010 1 940 6 950
9
0 980 9 960 1 0
99 6 0
91 4
imadamente un kilómetro de altura. Por conveniencia las capas se han escalado a un

intervalo de -7 a +7.
1. Hacer una grá…ca de estos datos, ¿es razonable un ajuste lineal?
2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tabla
A N O V A y los contrastes de regresión y de linealidad. Conclusiones.
3. Analizar detenidamente los residuos. ¿Se veri…can las hipótesis estructurales del
modelo? ¿Son los datos homocedásticos?
4. ¿Existe un modelo no lineal que mejore el ajuste lineal?”.
X Y X Y X Y X Y X Y
0
30 99 971 18 8 99 942 46 8 99 863 12 3 99 956 25 8 990 858
0 0 0 0 0 0 0 0
40 7 990 979 180 9 990 932 460 8 990 811 710 3 990 821 180 8 990 975
80 3 990 982 210 7 990 908 580 1 990 877 120 5 990 972 300 6 990 987
90 3 990 971 210 9 990 970 620 3 990 798 120 6 990 889 360 2 990 958
90 9 990 957 220 8 990 985 700 6 990 855 150 9 990 961 390 8 990 909
110 0 990 961 240 2 990 933 710 1 990 788 160 7 990 982 440 3 990 859
830 2 990 830 830 6 990 718 990 5 990 642 1110 2 990 658
Problema 4.11. “El …chero problema-4-11 contiene once variables de 200 datos.
La primera variable se corresponde con el vector de predicción de un ajuste lineal sim-
ple y las restantes diez variables se correponden con diferentes vectores de residuos del
ajuste. Utilizando básicamente métodos grá…cos (grá…co de residuos frente a predicciones,

histograma, grá…co de normalidad, grá…co de residuos frente al índice, correlograma,....)
contratar si se veri…can las hipótesis básicas estructurales del modelo de regresión lineal o
indagar la existencia de posibles problemas en el ajuste”.
Problema 4.12. “E
n Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo 34 lotes de 120 libr
a 100 3 0
69 81 0
13 4 0
75 32 15 60
860 35 s de cacahuetes se ob
s 110 4 820 75 130 6 690 81 160 4 1100 23 ervó el nivel medio
110 5 810 75 150 0 780 54 160 5 1060 55 de a‡atoxin (partes p
o 120 5 800 38 150 2 810 29 170 0 850 50 r billón) (X) y el por
c 130 1 850 89 150 3 990 20 170 1 900 02 entaje de cacahuetes
n o contaminados (Y ) :
1. Analizar estos datos e investigar la relación entre estas dos variables para predecir
Y en función de X. ¿Es adecuado el ajuste lineal?
2. ¿Veri…can los residuos las hipótesis estructurales?

3. Intentar encontrar un ajuste paramétrico que mejore al lineal.”
Problema 4.13. “
En quince casa Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso s de la
ciudad de Milt 135 26 141 28 149 46 148 32 149 32 on Key
nes se observó 146 33 136 28 147 36 149 34 141 32 durante
un período de t 153 55 154 36 152 47 141 29 iempo l
a diferencia de 154 50 151 48 140 33 164 47 temper
atura promedi 139 32 155 36 143 42 146 37 o (en gr
ados centígrados 131 25 137 31 146 35 137 34 ) entre
la temperatura 149 44 143 36 133 31 135 30 en la ca
lle y la temper atura e
n casa, y el consumo de gas diario en kWh.
1. Hacer una grá…ca de los datos. ¿Existe relación entre estas dos variables?
2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia de
temperatura?.
3. Ajustando un polinomio de mayor grado, ¿se obtiene un mayor coe…ciente de deter-

minación?, ¿qué modelo es preferible?”.
Problema 4.14. “Se midió la altura (en centímetros) y el peso (en kilogramos) de
treinta chicas de once añ
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag
os del Heaton M eiddle S
24 25 18 19 17 12 21 18 20 21 25 16
chool de Bradfor d. Estud
16 22 20 10 19 15 24 22 24 18 15 16
iar estos datos
24 17 21 23 16 15 15 20 24 20 16 26
y la relación entr e ambas
18 21 20 20 15 15 20 21 23 25 27 28
variables.
18 20 21 19 15 15 20 21 29 20 27 28
10 13 15 15 13 17 25 25 27 18 30 30
14 16 16 16 24 18 27 22 23 19 29 32
16 14 15 16 22 16 22 18 19 16 26 28
25 28 25 36 32 40 28 33 25 33

1. Dibujar la grá…ca de estas observaciones y calcular la recta de regresión de peso
frente a altura y la de altura frente a peso.
2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?.
3. ¿Existen observaciones in‡uyentes?
4. Contrastar las hipótesis estructurales del modelo.”
Problema 4.15. “El contenido en hierro de las escorias de los altos hornos puede
ser determinada por una prueba química en laboratorio o, de forma más barata y rápida,
por un test magnético. Se está interesado en estudiar la relación entre los resultados
del test químico y del test magnético. En particular, se desea saber si a partir de los
resultados del test magnético (X) se pueden estimar los resultados del test químico (Y )
sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de
lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla
adjunta.
1. Analizar estos datos. Hacer un estudio descriptivo y grá…co de los mismos.
2. Estudiar la relación entre los tests, ¿es adecuado el ajuste lineal?
3. Chequear las hipótesis del modelo.
4. ¿Existe un ajuste linealizable o polinómico que mejore al ajuste lineal?”

Problema 4.16. “Utilizando los datos del …chero problema-4-16 que contiene datos
de variables de coches.
1. Estudiar la regresión lineal entre la variable m p g (miles per galon: inversa del con-
sumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal?
2. Estudiar la regresión lineal entre m p g y la regresora weight (peso).
3. Estudiar la regresión lineal entre m p g y la regresora price (precio).
4. Estudiar la regresión lineal entre m p g y la regresora displace.
5. Estudiar la regresión lineal entre price y la regresora accel (aceleración).

6. ¿Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados?
7. Estudiar la existencia de datos atípicos y datos in‡uyentes en los ajustes lineales o

linealizables obtenidos.”
Problema 4.17. “Los siguientes datos representan el Producto Nacional Bruto de

USA (X) y los gastos de consumo (Y ) en miles de millones de dólares de 1972, entre los
años 1960-1980
Año 1960 1961 1962 1963 1964 1965 1966

PNB 73702 75606 80003 83205 87604 92903 98408
GC 45200 46104 48200 50005 52800 55705 58507
Año 1967 1968 1969 1970 1971 1972 1973
PNB 1;011 4 1;058 1 1;087 6 1;085 6 1;122 4 1;185 9 1;25500
0 0 0 0 0 0
GC 60207 63404 65709 67201 69608 73701 76805

Año 1974 1975 1976 1977 1978 1979 1980
PNB 1;248 0 1;233 9 1;300 4 1;371 7 1;436 9 1;483 0 1;48007
0 0 0 0 0 0
GC 76306 78002 82307 86309 90408 93009 93501
1. Ajustar un modelo lineal e interpretar los coe…cientes de regresión estimados.
2. Hacer la grá…ca de los residuos frente al tiempo. Estudiar la hipótesis de indepen-

dencia.
3. Si existe una autocorrelación positiva, transformar los datos y ajustar el modelo de

regresión lineal a los datos (mínimos cuadrados generalizados).”
Problema 4.18. “Para las compañías de seguros de hogar tiene interés estimar el
coste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimar
el coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros.
El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y si
algún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de
similares características. Los precios están en peniques.
t p t p t p t p
Dado que e 0 0 0 0
l valor de los libros er
1 0 84 60 0 54 720 0 36 10080 0 08
a muy variable, 5 00 71 120 00 47 1440 00 26 en un intento de cons
eguir una mayo 15 00 61 240 00 45 2880 00 20 r
exactitud, se ut 30 00 56 480 00 38 5760 00 16 ilizó como regresora
para explicar e l precio de un libro e
l ancho del lomo
del mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm.
Los datos de los cien libros se encuentran en el …chero problema-4-18. En base a
estos datos, se pide:
1. Analizar estadísticamente las variables precio y ancho del libro.
2. ¿Existe una relación entre ambas variables?
3. Estimar el coste de toda la colección. En una primera aproximación sin tener en

cuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta esta
variable.”
Problema 4.19. “El …chero problema-4-19 contiene datos de dos nubes de pun-
tos bidimensionales ((x; Y1) y (x; Y2)). Estos datos son debidos a Wampler y los generó
por simulación para comprobar cuando un determinado programa estadístico realiza con
exactitud el ajuste por mínimos cuadrados.
1. Ajustar a estas dos nubes de puntos un polinomio.
2. ¿Qué grado de polinomio se debe ajustar?, ¿es el ajuste bueno? ¿exacto?”.
Problema 4.20. “Los datos de la tabla adjunta son el conjunto clásico de datos del
test psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaba. La variable p indica el porcentage de retención de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en función de t:
1. Analizar este conjunto de datos y estudiar la relación de la variable p respecto a t:
2. Estudiar analítica y gra…cámente un modelo del tipo p = exp( t) que sugiere una
pérdida geométrica de la memoria.
3. Estudiar analítica y gra…cámente un modelo del tipo log p = 0 + 1t: ¿Qué inter-
pretación tiene este modelo?, ¿Qué ajuste es mejor?”.
Problema 4.21. “El …chero problema-4-21 contiene datos de 78 ciervos de Escocia

en los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebaño se
supone que el crecimiento de los dientes …naliza a la misma edad y después la velocidad
de desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedad
en los resultados es debida al peso de la corona en la madurez que sigue una distribución
normal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestra
se les tomo la edad y el peso en gramos del primer molar. En base a estos datos:
1. Estudiar la relación del peso respecto a la edad.
2. Hacer los contrastes de regresión y de linealidad.
3. Analizar los residuos, ¿se veri…can las hipótesis básicas?”.
Problema 4.22. “En los sitemas productivos de ovejas tiene un gran interés controlar
las necesidades energéticas de cada animal ya que in‡uyen en la predicción de la producción
de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de
ellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Y
medidas en Mcal/día. Los resultados de la muestra se presentan en el …chero problema-
4-22. En base a estos datos muestrales:
1. Estudiar la relación lineal de Y respecto a x:
2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr.
Calcular intervalos de con…anza al 90 % para estos valores. Hacer el mismo cálculo
pero considerando la predicción del consumo energético de una oveja de ese peso.
Calcular intervalos de predicción.”
Problema 4.23. “El …chero problema-4-23 contiene dos conjuntos de datos bidi-
mensionales en los que no existe una relación lineal pero si es fácil encontrar la relación
existente entre las dos variables.
El primer conjunto tiene 25 observaciones de molinos de viento para la producción
de energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la
corriente eléctrica obtenida.
El segundo conjunto tiene 19 observaciones relativas a la producción del papel, la
variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción de
madera en la pulpa Densidad Dureza Densidad Dureza Densidad Dureza a partir de
la cual se obtiene el 240 7 484 390 4 1210 530 4 1880 papel.
0 427 0 989 0 1980
24 8 39 9 56 0
1. 0
27 3 413 0
40 3 1160 0
56 5 1820
0 517 0 1010 0 2020
28 4 40 6 57 3
En ambos casos, dib 0
28 4 549 0
40 7 1100 0
57 6 1980 ujar la grá
… 0
29 0 648 0
40 7 1130 0
59 2 2310
ca de la nube de pun 0 587 0 1270 0 1940 tos.
30 3 42 9 59 8
0 704 0 1180 0 3260
32 7 45 8 66 0
2. 0 979 0 1400 0 2700
35 6 46 9 67 4
0 914 0 1760 0 2890
Obtener el modelo 38 5 48 2 68 8 de regresió
0 1070 0 1710 0 2740
n que mejor se ajus 38 8 51 5 69 1 ta a la nu
0 1020 0 2010 0 3140
be de observaciones 39 3 51 5 69 1 .
¿Existe ajustes que mejora
n al lineal?, ¿el ajuste realizado es su…cientemente bueno?
3. Analizar los residuos de los modelos ajustados”.

Problema 4.24. “El …chero problema-4-24 contiene datos relativos al peso del cuer-
po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En
base a estos datos:
1. ¿Se observa en esta nube algún dato atípico?
2. Transformar los datos para que se pueda hacer una grá…ca de los mismos. Realizar
la grá…ca de los datos transformados.
3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajuste
adecuado? Interpretarlo.
4. En el modelo transformado ¿Existen datos atípicos?”.
Problema 4.25. “La dureza de los árboles es difícil de medir directamente, sin em-
bargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponer
de un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por este
motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad
(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.
1. Estudiar el modelo de regresión lineal de Y respecto a X:
2. Ajustar a estos datos un polinomio de grado a determinar. ¿Se mejora de forma
apreciable el ajuste lineal?
3. Con el mejor ajuste predecir la dureza de un árbol de densidad 20, 40, 60 y 80.
4. Calcular intervalos de con…anza y de predicción al 90 % para las estimaciones del
apartado anterior.
5. Analizar los residuos del modelo ajustado.
6. Considerar una transformación de los datos de la dureza (Y ) y ajustar un modelo de
regresión. ¿El modelo ajustado con los datos transformados mejora al ajuste polinómico?”
En base a estos datos:

Regresion Lineal 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion Lineal 2

Transféré par

Droits d'auteur :

Formats disponibles

Capítulo 1

Prácticas y problemas de regresión

1.1. Problemas de regresión lineal simple con ordenador.

1. ¿Existe una relación lineal entre las dos variables?

2. ¿Es su…cientemente bueno el modelo de regresión lineal que explica la variable de

3. Calcular la tabla A N O V A del modelo. Conclusiones que se obtienen.

Desarrollo del Problema 4.1.

graficos > graficos de dispersion > grafico x-y

Un estudio detallado del modelo lineal simple ajustado se obtiene en

dependencia > regresion simple

Dentro de este módulo, en el apartado resumen del procedimiento, se obtiene

Si la recta de regresión se quiere comparar con otros modelos “linealizables” se puede

Problema 4.2. (Datos simulados)

donde " sigue una distribución N 0; 102 :

2. Hacer un estudio estadístico básico de la variable condicionada Y =X:

3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación de

4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos?

6. Estudiar otros modelos linealizables.

Desarrollo del Problema 4.2.

- Generar la variable x = rep(15; valor_x):

- Generar la variable recta = 40 + 1; 5 x:

- Generar la variable error = rnormal(150; 0; 10):

- Obtener la variable respuesta y = recta + error .

La muestra (simulada) se representa en un grá…co bidimensional según el análisis

graficos > graficos de dispersion > grafico x-y

Como se dispone de varias observaciones de la respuesta para cada valor de X se debe

descripcion > datos numericos > analisis de subgrupo

dependencia > regresion simple

En este problema se puede hacer una tabla A N O V A más completa y el contraste de

1.2. Problema resuelto de regresión lineal simple.

Solución Problema 4.3.

Se calculan las predicciones y^i Predicciones

s2 sencilla, de calcular scR es

xi = 2;818 V ar(^x12) = ^0 s2x = 709797 sx = 2082484

Intervalo de con…anza para ^0

0 2 130515 206272 106664 = 130515 40378 = 90137; 170893 :

Contraste de hipótesis para ^1 (H0 : 1 =0 f rente H0 : 1 6= 0)

Contraste de hipótesis para ^0 (H0 : 0 =0 f rente H0 : 0 6= 0)

El grá…co de residuos frente a las predicciones se observa en el siguiente grá…co,

Figura 4.2. Grá…co de residuos.

Tabla ANOVA (^i

Si H0;reg es correcto ^2 0: El estadístico del contraste es dreg

Se rechaza H0;reg y se asume que el modelo ajustado es signi…cativo.

H0;lin : “el modelo lineal es adecuado”

Fuentes de Suma de Grados Varianzas F test p value

La nueva tabla ANOVA, más completa, es

Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a la

mt = 130515 ^+ 80108 xt = 130515 + 80108 6 = 620163:

La varianza del estimador mt

Un intervalo de con…anza al 90 % para mt es ^

Un intervalo de predicción al 90 % para yt es

yt 2 620163 t73 0095 1005576 )

Análogamente, se realizan los cálculos para xq = 12:

Un intervalo de con…anza al 90 % para mq es

yq 2 1100811 t73 0095 100923 )

1.3. Problemas propuestos de regresión lineal simple.

Con estos datos se obtiene: (X el número de páginas e Y el precio):

3. Calcular intervalos de con…anza al 90 % para los parámetros del modelo.

4. Calcular un intervalo de con…anza al 90 % para el precio de un libro de 500 páginas.”

Problema 4.6. “La variable (Y ) representa, en miles, el número de asnos en España

1. Representar gra…camente estos datos.

2. Construir la recta de regresión que explique el comportamiento de la variable “tanto

3. ¿Es signi…cativo el coe…ciente de correlación entre estas dos variables?