Vous êtes sur la page 1sur 11

PRACTICA DE REGRESION

1.- En un estudio, por medio de detectores radioactivos, de la capacidad corporal


para absorber hierro y plomo, participaron diez sujetos. A cada uno se le da una
dosis oral idéntica de hierro (sulfato ferroso) y de plomo (cloruro de plomo-203).
Después de doce días se mide la cantidad de cada componente retenida en el
sistema corporal y, a partir de éstas, se determinan los porcentajes absorbidos
por el cuerpo. Los datos obtenidos fueron:
Hierro (%) 17 22 35 43 80 85 91 92 96 100
Plomo (%) 8 17 18 25 58 59 41 30 43 58
a) Dibuja la nube de puntos. Basándose en ella, ¿se puede esperar que el
coeficiente de correlación esté próximo a 1, -1 ó 0?.
b) Halla e interpreta el coeficiente de determinación.
c) Comprueba la idoneidad del modelo de regresión lineal. Si éste es apropiado,
estima la recta de regresión y utilízala para predecir el porcentaje de hierro
absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo
ingerido
2.- Se realiza un estudio de fotoperiodo en aves acuáticas. Se pretende
establecer una ecuación mediante la cual pueda predecirse el tiempo de
reproducción, Y, en base al conocimiento del fotoperiodo (número de horas de
luz por día) bajo el que se inició la reproducción, X. Se obtuvieron datos del
comportamiento de 11 Aythya (patos buceadores). Los resultados fueron los
siguientes:
Tiempo
reproducción
40 54 98 50 67 58 52 50 43 15 28
Fotoperiodo 12.8 13.9 14.1 14.7 15.0 15.1 16.0 16.5 16.6 17.2 17.9
Halla la recta de regresión correspondiente.
Calcula una predicción del tiempo de reproducción para un fotoperiodo de 14.5
horas. ¿Tendría sentido realizar en este caso una predicción para un fotoperiodo
de 24 horas?.
¿Cuál sería el peso aproximado de un niño de seis años?

3- Un centro comercial está en función de la distancia, en kilómetros, a la que se


sitúa de un núcleo de población, acuden los clientes, que figuran en la tabla:
Nº de Clientes (X) Distancia (Y)

8 15

7 19

6 25

4 23

2 34

1 40

a) Calcular el coeficiente de correlación lineal.


b) Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede llegar ?
c) Si desea recibir a 5 clientes, ¿a qué distancia del núcleo de población
debe situarse el centro comercial?
4.- Las notas obtenidas por cinco alumnos en Matemáticas y Contabilidad son:

Matemáticas contabilidad
6 6.5
4 4.5
8 7.0
5 5.0
3.5 4.0
Determinar las rectas de regresión y calcular la nota esperada en Física para un
alumno que tiene 7.5 en Matemáticas.
5- Las estaturas y pesos de 10 estudiantes jugadores de baloncesto de un equipo
son:

Estatura (X) Pesos (Y)


186 85
189 85
190 86
192 90
193 87
193 91
198 93
201 103
203 100
205 101
Calcular:

a) La recta de regresión de Y sobre X.


b) El coeficiente de correlación.
c) El peso estimado de un jugador que mide 208 cm.
6.- A partir de los siguientes datos referentes a horas trabajadas en un taller (X),
y a unidades producidas (Y), determinar la recta de regresión de Y sobre X, el
coeficiente de correlación lineal e interpretarlo.

Horas (X) Producción (Y)


80 300
79 302
83 315
84 330
78 300
60 250
82 300
85 340
79 315
84 330
80 310
62 240

7.- Se ha solicitado a un grupo de 50 individuos información sobre el número de


horas que dedican diariamente a dormir y ver la televisión. La clasificación de las
respuestas ha permitido elaborar la siente tabla:
Nº de horas dormidas (X) 6 7 8 9 10
Nº de horas de televisión (Y) 4 3 3 2 1
a) Calcular el coeficiente de correlación.
b) Determinar la ecuación de la recta de regresión de Y sobre X.
c) Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que
vea la televisión?

8.- La tabla siguiente nos da las notas del test de aptitud (X) dadas a seis
dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de
euros.

X 25 42 33 54 29 36
Y 42 72 50 90 45 48
a) Hallar el coeficiente de correlación e interpretar el resultado obtenido.
b) Calcular la recta de regresión de Y sobre X. Predecir las ventas de un
vendedor que obtenga 47 en el test.

9. “En la tabla adjunta se presentan el número de páginas y el precio de doce


libros técnicos:

páginas precio páginas precio páginas precio

310 3 50
'
400 8 00
'
420 2 50
'

300 3 50
'
170 1 80
'
610 5 00
'

280 3 50
'
430 7 00
'
420 5 40
'

310 7 30
'
230 3 20
'
450 3 70
'

1. Ajustar una recta de regresión que explique el precio en función del


número de páginas e interpretar los resultados.
2. Construir la tabla ANOVA asociada. ¿Es el ajuste adecuado?
3. Calcula intervalos de confianza al 90% para los parámetros del modelo.

10.- “La resistencia del cemento depende, entre otras cosas, del tiempo de
secado del cemento . En un experimento se obtuvo la resistencia de bloques
de cemento con diferente tiempo de secado los resultados fueron los siguientes
Tiempo (días) Resistencia (kg/cm ) 2

1 13 0 '
13 3
'
11 8
'

2 21 9 '
24 5
'
24 7
'

3 29 8
'
28 0'
24 1 '
24 2 '
26 2
'

7 32 4
'
30 4'
34 5 '
33 1 '
35 7
'

28 41 8
'
42 6'
40 3 '
35 7 '
37 3
'

1. Analizar la posible existencia de una relación entre estas dos variables.


2. ¿Qué conclusiones se deducen del contraste de regresión y del contraste
de linealidad?
3. Si se utilizase un ajuste cuadrático ¿se obtienen mejores resultados?

11.- “La variable representa en miles, el número de asnos en España y


la el tanto por ciento del presupuesto del Estado dedicado a Educación.

año Y X año Y X año Y X

1920 1.006 55
'
1945 747 97 '
1970 476 12 7
'

1925 1.162 48
'
1950 732 96 '
1975 386 11 5
'

1930 1.479 78
'
1955 683 89 '
1980 368 11 4
'

1935 805 82
'
1960 686 11 4 '

1940 795 86
'
1965 493 10 6 '

1. Representar gráficamente estos datos.


2. Construir la recta de regresión que explique el comportamiento de la
variable “tanto por ciento del presupuesto del Estado dedicado a
Educación” en función de la variable “el número de asnos en España” e
interpretar los resultados
3. ¿Es significativa el coeficiente de correlación entre estas dos variables?
4. Los residuos asociados al ajuste de una regresión lineal ¿son
independientes?
5. Representar las variables X e Y frente al tiempo. Calcular los
coeficientes de correlación y rectas de regresión de las
variables X e Y respecto al tiempo.
12.- “Se llevó a cabo un estudio para determinar la relación entre el número de
años de experiencia y el salario mensual, en miles de pesetas, entre los
informáticos de una región española. Para ello, se tomó una muestra aleatoria
de 17 informáticos y se obtuvieron los siguientes datos

Exper. Salario Exper. Salario Exper. Salario

13 26 1
'
31 36 4
'
27 36 0
'

16 33 2
'
19 33 8
'
25 36 5
'

30 36 1
'
20 36 5
'
7 21 4
'

2 16 5
'
1 16 9
'
15 31 0
'

8 26 4
'
4 19 8
'
13 31 4
'

6 19 1
'
10 24 6
'

1. Calcular la regresión lineal de la variable salario frente a años de


experiencia. Calcular intervalos de confianza al 95% para los
coeficientes de este modelo.
2. Calcular el coeficiente de correlación lineal y el coeficiente de
determinación. ¿Puede rechazarse la hipótesis nula de que el
coeficiente de determinación es cero con = 0 05? '

3. Estimar y calcular un intervalo de confianza al 90% y 95% para la


predicción del salario de un informático que tiene 8 años de
experiencia.
4. ¿Se observa alguna anomalía en el gráfico de los residuos frente a la
variable regresadá?”

13.- “El siguiente conjunto de datos era tomado sobre grupos de trabajadoras
de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por
trabajadores de la misma profesión (médicos, trabajadores textiles,
decoradores,...etc,) y en cada uno de los veinticinco grupos muestrados se han
observado dos variables: el índice de estandarizado de consumo de
cigarrillos (variable regresora, x) y el índice de muertes por cáncer de pulmón
(variable dependiente, y).

1. Estudiar el modelo de regresión lineal del índice de mortalidad frente


al índice de fumadores.
2. Calcular la tabla ANOVA. Conclusiones.
3. Comprobar si se verifican las hipótesis del modelo.”

x y x y x y
77 84 102 88 133 146
137 116 91 104 115 128
117 123 104 129 105 115
94 128 107 86 87 79
116 155 112 96 91 85
102 101 113 144 100 120
111 118 110 139 76 60
93 113 125 113 66 51
88 104

14.- “Anscombe utilizó el siguiente conjunto de datos para demostrar la


importancia de los gráficos en el análisis de regresión y correlación. Hay
cuatro conjuntos de datos bidimensionales , el vector X es el mismo para
los tres primeros conjuntos.

X1 = X2 Y1 Y2 Y3 X4 Y4
= X3

10 8 04
'
9 14
'
7 46
'
8 6 58
'

8 6 95
'
8 14
'
6 77
'
8 5 76
'

13 7 58
'
8 74
'
12 74'
8 7 71
'

9 8 81
'
8 77
'
7 11
'
8 8 84
'

11 8 33
'
9 26
'
7 81
'
8 8 47
'

14 9 96
'
8 10
'
8 84
'
8 7 04
'

6 7 24
'
6 13
'
6 08
'
8 5 25
'

4 4 26
'
3 10
'
5 39
'
8 5 56
'

12 10 84'
9 13
'
8 15
'
8 7 91
'

7 4 82
'
7 26
'
6 42
'
8 6 89
'

5 5 68
'
4 74
'
5 73
'
19 12 50'
1. Calcular la recta de regresión de Y frente a X en estos cuatro conjuntos
de datos. Calcular el coeficiente de correlación.

15.- “En 34 lotes de 120 libras de cacahuetes se observó el nivel medio


de aflatoxin (partes por billón) y el porcentaje de cacahuetes no
contaminados en cada lote .

X Y X Y X Y X Y X Y

30
'
99 971
'
18 8 '
99 942
'
46 8
'
99 863
'
12 3
'
99 956
'
25 8
'
99 858 '

47
'
99 979
'
18 9 '
99 932
'
46 8
'
99 811
'
71 3
'
99 821
'
18 8
'
99 975 '

83
'
99 982
'
21 7 '
99 908
'
58 1
'
99 877
'
12 5
'
99 972
'
30 6
'
99 987 '

93
'
99 971
'
21 9 '
99 970
'
62 3
'
99 798
'
12 6
'
99 889
'
36 2
'
99 958 '

99
'
99 957
'
22 8 '
99 985
'
70 6
'
99 855
'
15 9
'
99 961
'
39 8
'
99 909 '

11 0 '
99 961
'
24 2 '
99 933
'
71 1
'
99 788
'
16 7
'
99 982
'
44 3
'
99 859 '

83 2 '
99 830
'
83 6 '
99 718
'
99 5
'
99 642
'
111 2 '
99 658
'

1. Analizar estos datos e investigar la relación entre estas dos variables


para predecir Y en función de X. ¿Es adecuado el ajuste lineal?
2. ¿Verifican los residuos las hipótesis estructurales?
3. Intentar encontrar un ajuste paramétrico que mejore al ajuste lineal.”

16.- . “En quince casas de la ciudad de Milton Keynes se observó durante un


período de tiempo la diferencia de temperatura promedio (en grados
centígrados) entre la temperatura en la calle y la temperatura en casa, y el
consumo de gas diario en kWh.

Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo

10 3
'
69 81
'
13 4
'
75 32
'
15 6 '
86 35
'

11 4
'
82 75
'
13 6
'
69 81
'
16 4 '
110 23'

11 5
'
81 75
'
15 0
'
78 54
'
16 5 '
106 55'

12 5
'
80 38
'
15 2
'
81 29
'
17 0 '
85 50
'

13 1
'
85 89
'
15 3
'
99 20
'
17 1 '
90 02
'

1.- Hacer una gráfica de los datos. ¿Existe relación entre estas dos
variables?
2.- ¿Se puede explicar el consumo de gas por una relación lineal con la
diferencia de temperatura?.

3-.-Ajustando un polinomio de mayor grado, ¿se obtiene un mayor

coeficiente de determinación?, ¿qué modelo es preferible?”.

17.- . “Se midió la altura (en centímetros) y el peso (en kilogramos) de treinta
chicas de once años del Keaton Medidle Acholo de Bradford. Estudiar estos
datos y la relación entre ambas variables.

Altur Peso Altur Peso Altur Peso Altur Peso Altur Peso
a a a a a

135 26 141 28 149 46 148 32 149 32


146 33 136 28 147 36 149 34 141 32
153 55 154 36 152 47 141 29
154 50 151 48 140 33 164 47
139 32 155 36 143 42 146 37
131 25 137 31 146 35 137 34
149 44 143 36 133 31 135 30

1. Dibujar la gráfica de estas observaciones y calcular la recta de


regresión de peso frente a altura y la de altura frente a peso.
2. En la regresión lineal de peso frente a altura, ¿se observa alguna
observación atípica?.
3. ¿Existen observaciones influyentes?
4. Contrastar las hipótesis estructurales del modelo.”

18-.- . “El contenido en hierro de las escorias de los altos hornos puede ser
determinada por una prueba química en laboratorio o, de forma más barata y
más rápida, por un test magnético. Se está interesado en estudiar la relación
entre los resultados del test químico y del test magnético. En particular, se
desea saber si a partir de los resultados del test magnético se pueden estimar
los resultados del test químico sobre el contenido del hierro. Para ello, se han
realizado los dos test a un conjunto de lotes recogidos secuencialmente en el
tiempo. Los resultados obtenidos los de la tabla adjunta.

1. Analizar estos datos. Hacer un estudio descrptivo y gráfico de los


mismos.
2. Estudiar la relación entre los tests.
3. Chequear las hipótesis del modelo.”
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag

24 25 18 19 17 12 21 18 20 21 25 16
16 22 20 10 19 15 24 22 24 18 15 16
24 17 21 23 16 15 15 20 24 20 16 26
18 21 20 20 15 15 20 21 23 25 27 28
18 20 21 19 15 15 20 21 29 20 27 28
10 13 15 15 13 17 25 25 27 18 30 30
14 16 16 16 24 18 27 22 23 19 29 32
16 14 15 16 22 16 22 18 19 16 26 28
25 28 25 36 32 40 28 33 25 33

19.- “Los siguientes datos representan el Producto Nacional Bruto de


USA y los gastos de consumo en miles de millones de dólares de 1972,
entre los años 1960-1980

Año 1960 1961 1962 1963 1964 1965 1966

PNB 737 2'


756 6
'
800 3'
832 5
'
876 4'
929 3
'
984 8'

GC 452 0'
461 4
'
482 0'
500 5
'
528 0'
557 5
'
585 7'

Año 1967 1968 1969 1970 1971 1972 1973

PNB 1.011 4'


1.058 1'
1.087 6'
1.085 6'
1.122 4'
1.185 9'
1.255 0'

GC 602 7'
634 4
'
657 9'
672 1
'
696 8'
737 1
'
768 5'

Año 1974 1975 1976 1977 1978 1979 1980

PNB 1.248 0'


1.233 9'
1.300 4'
1.371 7'
1.436 9'
1.483 0'
1.480 7'

GC 763 6'
780 2
'
823 7'
863 9
'
904 8'
930 9
'
935 1'

1. Ajustar un modelo lineal e interpretar los coeficientes de regresión


estimados.
2. Hacer la gráfica de los residuos estandarizados frente al tiempo.
Estudiar la hipótesis de independencia.
3. Si existe una autocorrelación positiva, transformar los datos y ajustar el
modelo de regresión lineal a los datos (mínimos cuadrados
20.- “Los datos de la tabla adjunta son el conjunto clásico de datos del test
psicológico de Strong sobre retención de memoria. Los datos se tomaban de la
siguiente manera: unconjunto de individuos memorizaban una lista de objetos
inconexos y pasado un tiempo la recordaban. La variable p indica el porcentage
de retención de memoria en promedio y la variable t es el tiempo transcurrido.
El objetivo del estudio era explicar la variable p en función de t.

t p t p t p t p

1 0 84
'
60 0 54
'
720 0 36
'
10080 0 08
'

5 0 71
'
120 0 47
'
1440 0 26
'

15 0 61
'
240 0 45
'
2880 0 20
'

30 0 56
'
480 0 38
'
5760 0 16
'

1. Analizar este conjunto de datos y estudiar la relación de la


variable p respecto a t.
2. Estudiar analítica y graficámente un modelo del tipo p = exp(- t), que
sugiere una pérdida geométrica de la memoria.
3. Estudiar analítica y gráficamente un modelo del tipo log p = + 0

t. ¿Qué interpretación tiene este modelo?, ¿Qué ajuste es mejor?”.


1

DESARROLLO

Vous aimerez peut-être aussi