Vous êtes sur la page 1sur 12

576 Captulo 10 Correlacin y regresin

la muestra. (Por ejemplo, n  8 para la tabla 10-1). Con frecuencia los programas de
cmputo proporcionan la desviacin estndar sb1 Por ejemplo, los resultados de Mini-
tab incluidos en esta seccin (vase la pgina 567) indican que sb1 5 0.04486 se loca-
liza en la columna con el encabezado de SE Coeff y en el rengln correspondiente a la
primera variable de prediccin de la duracin. Utilice los datos muestrales de la tabla
10-1 y los resultados de Minitab incluidos en esta seccin para poner a prueba la ase-
veracin de que b1  0. Tambin pruebe la aseveracin de que b2  0. Qu implican
los resultados sobre la ecuacin de regresin?
18. Intervalo de confianza para un coeficiente de regresin. Un intervalo de confianza
para el coeficiente de regresin b1 se expresa como
b1 2 E , b1 , b1 1 E
donde
E 5 t a>2sb1

La puntuacin crtica t se calcula utilizando n  (k  1) grados de libertad, donde k, n


y sb1 se describen en el ejercicio 17. Utilice los datos muestrales de la tabla 10-1 y los
resultados de Minitab incluidos en esta seccin (vase la pgina 567) para construir
estimados de un intervalo de confianza del 95% de b1 (el coeficiente de la variable
que representa la duracin) y b2 (el coeficiente de la variable que representa la altura).
Alguno de los intervalos de confianza incluye a 0, lo que sugerira que se elimine la
variable de la ecuacin de regresin?
19. Variable ficticia. Remtase al conjunto de datos 6 del apndice B y considere el se-
xo, la edad y el peso de los osos. Para el sexo, permita que 0 represente una hembra y
que 1 represente un macho. (En el conjunto de datos 6 los machos ya estn represen-
tados por 1, pero para las hembras cambie los valores de sexo de 2 a 0). Permita que
la variable de respuesta (y) sea el peso y utilice la variable de edad y la variable ficti-
cia de sexo para calcular la ecuacin de regresin mltiple; luego utilice la ecuacin
para calcular el peso predicho de un oso con las siguientes caractersticas. Parecera
que el sexo tiene un gran efecto sobre el peso de un oso?
a. Oso hembra de 20 aos de edad
b. Oso macho de 20 aos de edad
20. Uso de la regresin mltiple para la ecuacin de la parbola. En algunos casos, la
ecuacin de regresin mltiple que se ajusta mejor tiene la forma y 5 b0 1 b1x 1 b2x 2.
La grfica de una ecuacin como sta es una parbola. Utilice el conjunto de datos listado
x 1 3 4 7 5
al margen, permita que x1  x, y que x2  x2, y calcule la ecuacin de regresin mltiple
para la parbola que se ajuste mejor a los datos. Con base en el valor del coeficiente ml-
y 5 14 19 42 26
tiple de determinacin, qu tan bien se ajusta esta ecuacin a los datos?

10-6 Elaboracin de modelos


Concepto clave En esta seccin se introducen algunos conceptos bsicos para el
desarrollo de un modelo matemtico, el cual es una funcin matemtica que se
ajusta o describe datos del mundo real. Por ejemplo, podramos buscar un modelo
matemtico consistente en una ecuacin que relaciona una variable del tamao po-
blacional con otra variable que representa el tiempo. A diferencia de la seccin 10-3,
no estamos restringidos a un modelo que deba ser lineal. Adems, en vez de utilizar
datos muestrales seleccionados al azar, consideraremos datos reunidos peridi-
camente a travs del tiempo o alguna otra unidad bsica de medicin. Existen algu-
nos mtodos estadsticos poderosos que podemos estudiar (tales como las series de
tiempo), pero el principal objetivo de esta seccin es describir brevemente la mane-
ra en que puede utilizarse la tecnologa para obtener un buen modelo matemtico.
10-6 Elaboracin de modelos 577

A continuacin se presentan algunos modelos genricos como aparecen en un


men de la calculadora TI-83>84 Plus (presione STAT y luego seleccione CALC):
Lineal: y  a  bx Cuadrtico: y  ax2  bx  c
Logartmico: y  a  b ln x Exponencial: y  ab x
Potencia: y  ax b
El modelo particular que usted seleccione depende de la naturaleza de los datos
muestrales, y un diagrama de dispersin resultar muy til para tomar esta determi-
nacin. Las ilustraciones que aparecen a continuacin son grficas de algunos
modelos comunes elaborados en una calculadora TI-83>84 Plus.
Estadstica: Empleos
TI-83/84 Plus y empleadores
Lineal: y  1  2x Cuadrtico: y  x2  8x  18 Logartmico: y  1  2 ln x A continuacin se describe
una muestra pequea de anun-
cios de empleos en el campo de
la estadstica: pronosticador
del tiempo, analista de bases de
datos, cientfico de marketing,
gerente de riesgos de crdito,
investigador y evaluador del
Exponencial: y  2x Potencia: y = 3x2.5 cncer, analista de riesgos de
seguros, investigador de prue-
bas educativas, bioestadsti-
co, estadstico para productos
farmacuticos, criptlogo, pro-
gramador estadstico.
La siguiente es una muestra
pequea de empresas que ofre-
cen empleos en el campo de la
stas son las reglas bsicas para la creacin de un buen modelo matemtico: estadstica: Centers for Disea-
1. Busque un patrn en la grfica. Examine la grfica con los puntos y compare se Control and Prevention, Car-
el patrn bsico de las grficas genricas conocidas de una funcin lineal, una diac Pacemakers, Inc., National
funcin cuadrtica, una funcin exponencial, una funcin potencial, etctera. Institutes of Health, Natio-
(Remtase a las grficas de los resultados de la calculadora TI-83>84 Plus que nal Cancer Institute, CNA In-
se presentan en los ejemplos). Cuando trate de seleccionar un modelo, consi- surance Company, Educational
dere slo aquellas funciones que parecen ajustarse visualmente a los puntos Testing Service, Roswell Park
observados, de una forma razonablemente adecuada. Cancer Institute, Cleveland
2. Calcule y compare valores de R2. Para cada modelo que considere, utilice pro- Clinic Foundation, National
gramas de cmputo o una calculadora TI-83>84 Plus para obtener el valor del Security Agency, Quantiles,
coeficiente de determinacin R2. Los valores de R2 se pueden interpretar aqu 3M, IBM, Nielsen Media Re-
de la misma forma que se interpretaron en la seccin 10-5. Al delimitar sus po- search, AT&T Labs, Bell Labs,
sibles modelos, seleccione funciones que den como resultado valores ms Hewlett Packard, Johnson &
grandes de R2, ya que corresponden a funciones que se ajustan mejor a los pun-
Johnson, Smith Hanley.
tos observados. Sin embargo, no d demasiada importancia a las diferencias
pequeas, como la diferencia entre R2 0.984 y R2  0.989. (Otra medicin
utilizada para evaluar la calidad de un modelo es la suma de cuadrados de los
residuales. Vase el ejercicio 15).
578 Captulo 10 Correlacin y regresin

3. Reflexione. Aplique el sentido comn. No utilice un modelo que conduzca a va-


lores predichos que se sabe son poco realistas. Utilice el modelo para calcular
valores futuros, valores pasados y valores de aos faltantes; luego determine si
los resultados son realistas.

EJEMPLO La tabla 10-4 lista la poblacin de Estados Unidos en diferentes


aos. Encuentre un buen modelo matemtico para el tamao poblacional, despus
haga una prediccin del tamao de la poblacin de Estados Unidos para el ao 2020.
SOLUCIN Primero codificamos los valores del ao utilizando 1, 2, 3 . . . , en
vez de 1800, 1820, 1840. . . . La razn de esta codificacin es que, de esta forma,
los valores de x son mucho ms pequeos y tienen menos posibilidades de causar
problemas de clculo como los que ocurriran con valores realmente grandes de x.
TI-83/84 Plus Busque un patrn en la grfica. Examine el patrn de los valores de los
datos en los resultados de la calculadora TI-83>84 Plus (mostrados al margen)
y compare el patrn con los modelos genricos presentados antes en esta sec-
cin. El patrn de estos puntos no es una recta, por lo que descartamos un mo-
delo lineal. Parece que los buenos candidatos para el modelo son las funciones
cuadrtica, exponencial y potencial.
Calcule y compare valores de R2. Las siguientes pantallas muestran resul-
tados de la calculadora TI-83>84 Plus basados en los modelos cuadrtico, ex-
ponencial y potencial. Al comparar los valores del coeficiente R2, parece que
el modelo cuadrtico es el mejor, ya que tiene el valor ms alto de 0.9992,
aunque los otros valores mostrados tambin son bastante altos. Si selecciona-
mos la funcin cuadrtica como el mejor modelo, concluimos que la ecuacin
y  2.77x2  6.00x  10.01 describe mejor la relacin entre el ao x (codifi-
cado de manera que x  1 representa 1800, x  2 representa 1820, y as suce-
sivamente) y la poblacin y (en millones).

TI-83/84 Plus TI-83/84 Plus TI-83/84 Plus

Para predecir la poblacin de Estados Unidos para el ao 2020, primero


observe que el ao 2020 est codificado como x  12 (vase la tabla 10-4).
Sustituyendo x  12 en el modelo cuadrtico de y  2.77x2  6.00x  10.01,
obtenemos el resultado y  337, lo cual indica que se estima que la poblacin
de Estados Unidos ser de 337 millones en el ao 2020.

Tabla 10-4 Poblacin (en millones) de Estados Unidos

Ao 1800 1820 1840 1860 1880 1900 1920 1940 1960 1980 2000

Ao codificado 1 2 3 4 5 6 7 8 9 10 11
Poblacin 5 10 17 31 50 76 106 132 179 227 281
10-6 Elaboracin de modelos 579

Reflexione. El resultado predicho de 337 millones en 2020 parece razona-


ble (una proyeccin del U.S. Bureau of the Census sugiere que la poblacin en
2020 ser de alrededor de 325 millones). Sin embargo, existe un gran riesgo al
hacer estimados de tiempos que estn ms all del alcance de los datos dispo-
nibles. Por ejemplo, el modelo cuadrtico sugiere que en 1492 la poblacin de
Estados Unidos era de 671 millones, un resultado absurdo. El modelo cuadrtico
parece ser bueno para los datos disponibles (1800-2000), pero otros modelos
podran ser mejores si es absolutamente necesario hacer estimados poblaciona-
les ms all de este periodo.

En su artculo Modeling the U.S. Population (AMATYC Review, vol. 20,


nm. 2), Sheldon Gordon emplea ms datos que los de la tabla 10-4 y utiliza tc-
nicas mucho ms avanzadas para obtener mejores modelos poblacionales. En ese
artculo, comenta algo importante:
La mejor opcin (de un modelo) depende del conjunto de datos que
se analiza y requiere no slo de clculos, sino tambin de ejercitar el
juicio.

cuadrtico, pero su funcin de regresin ml- Line Plot. Usted puede elegir un modelo li-
Uso de la tecnologa tiple puede emplearse con los datos de la tabla neal, un modelo cuadrtico o un modelo c-
10-4 para generar el modelo cuadrtico de la bico. Los resultados incluyen la ecuacin, el
Cualquier sistema capaz de realizar regre-
siguiente manera: primero introduzca los va- valor de R2 y la suma de cuadrados de los
sin mltiple puede emplearse para generar
lores poblacionales en la columna 1 de la residuales.
algunos de los modelos descritos en esta sec-
ventana de datos de STATDISK. Introduzca
cin. Por ejemplo, STATDISK no est dise- TI-83/84 PLUS Primero inicie la fun-
1, 2, 3, . . . , 11 en la columna 2 e introduz-
ado para trabajar directamente con el modelo cin diagnstica de la siguiente manera: pre-
ca 4, 9, . . . , 121 en la columna 3. Haga clic
en Analysis y luego seleccione Multiple Re- sione 2nd CATALOG, despus baje hasta
gression. Utilice las columnas 1, 2, 3, con la DiagnosticON y presione la tecla ENTER
columna 1 como variable dependiente. Des- dos veces. Introduzca los datos apareados en
pus de hacer clic en Evaluate, STATDISK las listas L1 y L2. Presione STAT, seleccione
genera la ecuacin y  10.012  6.0028x  CALC y luego elija el modelo deseado de las
2.7669x2, junto con R2  0.99917, que son opciones disponibles. Presione ENTER, lue-
los mismos resultados obtenidos con la calcu- go ingrese L1, L2 (con la coma) y presione
ladora TI-83>84 Plus. ENTER nuevamente. Los resultados inclu-
yen el formato de la ecuacin junto con los
MINITAB Primero ingrese los datos coeficientes utilizados en la ecuacin; tam-
apareados en las columnas C1 y C2, des- bin se incluye el valor de R2 en muchos de
pus seleccione Stat, Regression y Fitted los modelos.

10-6 DESTREZAS Y CONCEPTOS BSICOS


Conocimientos estadsticos y pensamiento crtico
1. Modelo. Qu es un modelo matemtico?
2. R2. De qu manera se emplean los valores de R2 para comparar los diferentes mode-
los que se estn considerando?
3. Proyecciones. En esta seccin utilizamos los valores poblacionales del ao 1800 al
ao 2000, y encontramos que el mejor modelo es el que est descrito por y  2.77x2
 6.00x  10.01, donde el valor poblacional de y est dado en millones. Por qu sera
errneo utilizar este modelo para proyectar el tamao de la poblacin para el ao 3000?
580 Captulo 10 Correlacin y regresin

4. El mejor modelo. Suponga que utilizamos una muestra con los mtodos de esta sec-
cin para calcular que, de los cinco modelos posibles, el mejor modelo es y  4x1.2 con
R2  0.200. Este mejor modelo parece ser un buen modelo? Por qu?
Obtencin del mejor modelo. En los ejercicios 5 a 12, construya un diagrama de disper-
sin e identifique el modelo matemtico que se ajusta mejor a los datos indicados. Suponga
que el modelo se va a emplear nicamente para el alcance que tienen los datos y considere
slo los modelos lineal, cuadrtico, logartmico, exponencial y potencial.
x 1 2 3 4 5 6
5.
y 5 7 9 11 13 15

x 1 2 3 4 5 6
6.
y 2 4 8 16 32 64

x 1 2 3 4 5 6
7.
y 1 7 17 31 49 71

x 1 2 3 4 5 6
8.
y 3 8.485 15.588 24 33.541 44.091

9. Muertes de manates por barcos. La siguiente tabla lista el nmero de muertes de


manates en Florida, relacionadas con encuentros con embarcaciones (segn datos
de Florida Fish and Wildlife Conservation).

Ao 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
Muertes 15 34 33 33 39 43 50 47 53 38 35

Ao 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Muertes 49 42 60 54 67 82 78 81 95 73 69

10. Muertes de manates por causas naturales. La siguiente tabla lista el nmero de
muertes de manates en Florida por causas naturales (segn datos de Florida Fish and
Wildlife Conservation). El mejor modelo parece ser un modelo razonablemente bueno?

Ao 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
Muertes 6 24 19 1 10 15 18 21 13 20 22

Ao 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Muertes 33 35 101 42 12 37 37 34 59 102 25

11. Experimento de fsica. Un experimento para una clase de fsica implica dejar caer
una pelota de golf y registrar la distancia (en metros) que cae en diferentes tiempos
(en segundos) despus de ser soltada. Los datos se incluyen en la siguiente tabla. Pro-
yecte la distancia para un tiempo de 12 segundos, dado que la pelota de golf se dej
caer de un edificio con una altura de 50 m.

Tiempo 0 0.5 1 1.5 2 2.5 3


Distancia 0 1.2 4.9 11.0 19.5 30.5 44.0

12. Mercado burstil. A continuacin se listan, por rengln, los valores mximos anuales
del Promedio Industrial Dow Jones para cada ao a partir de 1980. Cul es el mejor
valor predicho para el ao 2004? Dado que el valor real mximo en 2004 fue 10,855,
qu tan bueno fue el valor predicho? Qu sugiere el patrn acerca del mercado
Repaso 581

burstil para fines de inversin? (Actos de terrorismo y malas condiciones econmicas


causaron grandes prdidas en el mercado burstil en 2002).
1000 1024 1071 1287 1287 1553 1956 2722 2184 2791 3000 3169 3413
3794 3978 5216 6561 8259 9374 11,568 11,401 11,350 10,635 10,454

10-6 MS ALL DE LO BSICO


13. Ley de Moore. En 1965 el cofundador de Intel, Gordon Moore, cre lo que ahora se
conoce como ley de Moore: el nmero de transistores por pulgada cuadrada, en circuitos
integrados, se duplica aproximadamente cada 18 meses. A continuacin se incluyen
datos que describen el nmero de transistores (en miles) para distintos aos.

Ao 1971 1974 1978 1982 1985 1989 1993 1997 1999 2000 2002 2003
Transistores 2.3 5 29 120 275 1180 3100 7500 24,000 42,000 220,000 410,000

a. Suponiendo que la ley de Moore es correcta y que los transistores se duplican


cada 18 meses, cul modelo matemtico describe mejor esta ley: lineal, cuadr-
tico, logartmico, exponencial, potencial? Qu funcin especfica describe la ley
de Moore?
b. Cul modelo matemtico se ajusta mejor a los datos muestrales listados?
c. Compare los resultados de los incisos a) y b). Parece que la ley de Moore funcio-
na razonablemente bien?
14. Poblacin en 2050. Cuando se redactaron los ejercicios de esta seccin, las Naciones
Unidas utilizaron su propio modelo para predecir una poblacin de 394 millones de
habitantes en Estados Unidos para el ao 2050. Con base en los datos de la tabla 10-4,
cul de los modelos estudiados en la seccin 10-6 da por resultado una poblacin
proyectada cercana a los 394 millones en 2050?
15. Uso del criterio de suma de cuadrados. Adems del valor de R2, otra medicin utili-
zada para evaluar la calidad de un modelo es la suma de cuadrados de los residuales.
Un residual es la diferencia entre un valor observado y y el valor y predicho a partir del
modelo, y se denota por y . Los mejores modelos poseen las sumas de cuadrados ms
pequeas. Remtase al ejemplo de esta seccin.
a. Calcule Ssy 2 y d2, la suma de cuadrados de los residuales que resultan del mode-
lo lineal.
b. Calcule la suma de cuadrados de los residuales que resultan del modelo cuadrtico.
c. Compruebe que, de acuerdo con el criterio de la suma de cuadrados, el modelo
cuadrtico es mejor que el modelo lineal.

Repaso
Este captulo present mtodos bsicos para investigar relaciones o correlaciones entre
dos o ms variables.
La seccin 10-2 emple diagramas de dispersin y el coeficiente de correlacin lineal

para decidir si existe una correlacin lineal entre dos variables.


La seccin 10-3 present mtodos para el clculo de la ecuacin de la recta de regre-

sin que (por medio del criterio de los mnimos cuadrados) se ajusta mejor a los datos
apareados. Cuando existe una correlacin lineal significativa, la ecuacin de regre-
sin puede utilizarse para predecir el valor de una variable, dado algn valor de la otra
variable.
582 Captulo 10 Correlacin y regresin

En la seccin 10-4 se estudi el concepto de variacin total, con componentes de va-


riacin explicada y sin explicar. El coeficiente de determinacin r2 nos brinda la pro-
porcin de la variacin en la variable de respuesta (y) que puede explicarse por medio
de la correlacin lineal entre x y y. Desarrollamos mtodos para construir intervalos de
prediccin, los cuales sirven para juzgar la exactitud de valores predichos.
En la seccin 10-5 consideramos la regresin mltiple, la cual nos permite investigar
relaciones que implican ms de una variable de prediccin (x). Estudiamos procedi-
mientos para obtener una ecuacin de regresin mltiple, as como el valor del coefi-
ciente mltiple de determinacin R2, la R2 ajustada y el valor P para la significancia
general de la ecuacin.
En la seccin 10-6 exploramos conceptos bsicos para el desarrollo de un modelo ma-
temtico, consistente en una funcin que puede emplearse para describir una relacin
entre dos variables. A diferencia de las secciones anteriores de este captulo, la sec-
cin 10-6 incluy varias funciones no lineales.

Conocimientos estadsticos y pensamiento crtico


1. Correlacin y regresin. Con sus propias palabras, describa la correlacin, la regre-
sin y la diferencia entre ellas.
2. Correlacin. Dado un conjunto de datos apareados, se obtiene un coeficiente de
correlacin lineal de r  0. Significa esto que no existe una relacin entre las dos
variables?
3. Causalidad. Un investigador mdico descubre que existe una correlacin lineal sig-
nificativa entre la cantidad consumida de un frmaco y el nivel de colesterol del suje-
to. Se justifica el hecho de afirmar en un artculo cientfico que el frmaco reduce los
niveles de colesterol? Por qu?
4. Predicciones. Despus de descubrir que existe una correlacin lineal significativa
entre dos variables, se obtiene un valor predicho de y por medio de la ecuacin de regre-
sin. Dado que existe una correlacin lineal significativa, el valor proyectado ser
muy exacto?

Ejercicios de repaso
1. Muerte de manates. La tabla que se incluye a continuacin lista el nmero de muertes
de manates en Florida, relacionadas con encuentros con embarcaciones y provoca-
das por causas naturales durante varios aos (segn datos de Florida Fish and Wildlife
Conservation).
a. Calcule el valor del coeficiente de correlacin lineal y determine si existe una co-
rrelacin lineal significativa entre las dos variables.
b. Calcule la ecuacin de la recta de regresin. Permita que el nmero de muertes na-
turales represente la variable de respuesta (y). Cul es el mejor nmero predicho
de muertes naturales en un ao con 50 muertes por encuentros con embarcaciones?

Embarcacin 49 42 60 54 67 82 78 81 95 73 69
Natural 33 35 101 42 12 37 37 34 59 102 25

2. Old Faithful. Utilice los datos que se presentan a continuacin (de la tabla 10-1).
Las duraciones estn en segundos y las alturas en pies.
a. Existe una correlacin lineal significativa entre la duracin de una erupcin del
giser Old Faithful y la altura de la erupcin?
Ejercicios de repaso acumulativo 583

b. Calcule la ecuacin de la recta de regresin, donde la altura representa la variable


de respuesta (y).
c. Cual es la mejor altura predicha de una erupcin que tiene una duracin de 180
segundos?
Duracin 240 120 178 234 235 269 255 220
Altura 140 110 125 120 140 120 125 150

Prediccin del costo de la electricidad. A continuacin se muestran algunas mediciones


de la casa del autor, tomadas del conjunto de datos 9 en el apndice B. Utilice esos datos
para los ejercicios 3 a 5.
kWh 3375 2661 2073 2579 2858 2296 2812 2433 2266 3128
Grado
da para
calentar 2421 1841 438 15 152 1028 1967 1627 537 26
Tempera-
tura diaria
promedio 26 34 58 72 67 48 33 39 66 71
Costo (en 321.94 221.11 205.16 251.07 279.8 183.84 244.93 218.59 213.09 333.49
dlares)

3. a. Utilice un nivel de significancia de 0.05 para probar una correlacin lineal entre el
costo de la electricidad y los kWh de electricidad consumidos.
b. Qu porcentaje de la variacin en el costo se puede explicar por medio de la rela-
cin lineal entre el consumo de electricidad (en kWh) y el costo?
c. Calcule la ecuacin de la recta de regresin que exprese el costo (y) en trminos de
la cantidad de electricidad consumida (en kWh).
d. Cul es el mejor costo predicho para un tiempo en el que se utilizan 3000 kWh de
electricidad?
4. a. Utilice un nivel de significancia de 0.05 para probar una correlacin lineal entre la
temperatura diaria promedio y el costo.
b. Qu porcentaje de la variacin en el costo se puede explicar por medio de la rela-
cin lineal entre el costo y la temperatura diaria promedio?
c. Calcule la ecuacin de la recta de regresin que exprese el costo (y) en trminos de
la temperatura diaria promedio.
d. Cul es el mejor costo predicho para un tiempo en el que la temperatura diaria
promedio es de 40?
5. Utilice un programa de cmputo como STATDISK, Minitab o Excel para calcular la ecua-
cin de regresin mltiple con la forma y 5 b0 1 b1x1 1 b2x2 , donde la variable de res-
puesta y representa el costo, x1 representa el consumo de electricidad en kWh y x2
representa la temperatura diaria promedio. Adems, identifique el valor del coeficiente
mltiple de determinacin R2, la R2 ajustada y el valor P que representa la significancia ge-
neral de la ecuacin de regresin mltiple. Se puede usar la ecuacin de regresin para
predecir el costo? Son mejores las ecuaciones de regresin del ejercicio 3 y del ejercicio 4?

Ejercicios de repaso acumulativo


Sper Bowl y DJIA. A continuacin se listan los nmeros totales de puntos anotados en
juegos del Sper Bowl y el valor mximo del Promedio Industrial Dow Jones (DJIA). Los
datos estn apareados de acuerdo al ao y representan aos recientes y consecutivos.
Utilice estos datos muestrales para los ejercicios 1 a 8.

Puntos en el Sper
Bowl 56 55 53 39 41 37 69 61
DJIA 6561 8259 9374 11,568 11,401 11,350 10,635 10,454
584 Captulo 10 Correlacin y regresin

1. Pruebe si existe una correlacin entre los puntos del Sper Bowl y el DJIA. El resul-
tado es el que usted esperaba?
2. Calcule la ecuacin de regresin en la que el valor mximo del DJIA sea la variable
de respuesta (y). Cul es el mejor valor del DJIA predicho para un ao en el que se
anotaron 50 puntos en el Sper Bowl?
3. Es posible probar la aseveracin de que el nmero medio de puntos anotados en el
Sper Bowl es igual al valor medio del DJIA? Tendra sentido una prueba como sta?
4. Construya un estimado de un intervalo de confianza del 95% para el nmero medio de
puntos anotados en juegos del Sper Bowl.
5. Por qu sera una mala idea trata de estimar el siguiente valor mximo consecutivo del
DJIA construyendo un estimado de un intervalo de confianza para los valores del DJIA?
6. Al parecer, los puntos del Sper Bowl provienen de una poblacin con una distribu-
cin normal? Por qu?
7. Calcule la media y la desviacin estndar de la muestra de puntos del Sper Bowl.
8. La media y la desviacin estndar del ejercicio 7 son estadsticos muestrales, pero tr-
telos como parmetros poblacionales para una poblacin distribuida normalmente, y
calcule la probabilidad de que en un juego del Sper Bowl seleccionado al azar se
anoten menos de 40 puntos totales.

Actividades de cooperacin en equipo


1. Actividad en clase Organicen grupos de 8 a 12 perso- Existe relacin entre estas dos variables? Si es as,
nas. Para cada miembro de cada grupo, midan su estatura cul es?
y tambin midan su estatura umbilical, que es la altura
4. Actividad en clase Use una regla para medir el tiempo
desde el piso hasta el ombligo. Existe una correlacin
de reaccin. Una persona debe suspender la regla soste-
entre la estatura y la estatura umbilical? Si es as, calcule
nindola de un extremo, mientras el sujeto coloca sus
la ecuacin de regresin con la estatura expresada en
dedos pulgar e ndice en el extremo inferior, preparado
trminos de la estatura umbilical. Segn una antigua teo-
para atrapar la regla cuando sea soltada. Registre la dis-
ra, la proporcin de la estatura respecto a la estatura um-
bilical de la persona promedio es la proporcin urea: tancia que cae la regla antes de ser atrapada. Convierta
s1 1 !5d>2 < 1.6. Parece ser razonablemente exacta esa distancia en el tiempo (en segundos) que tard el su-
jeto en reaccionar y atrapar la regla. (Si la distancia se
mide en pulgadas, utilice t 5 !d>192. Si la distancia
esta teora?
2. Actividad en clase Formen grupos de 8 a 12 personas. se mide en centmetros, utilice t 5 !d>487.68.d Prue-
Para cada miembro de cada grupo, midan la estatura be a cada sujeto una vez con la mano derecha y una vez
y la envergadura de los brazos. Para la envergadura de con la mano izquierda, y luego registre los datos aparea-
los brazos, el sujeto debe estar de pie con los brazos ex- dos. Haga una prueba de correlacin. Calcule la ecua-
tendidos, como las alas de un avin. Es fcil marcar la cin de la recta de regresin. La ecuacin de la recta de
estatura y la envergadura de los brazos en el pizarrn regresin sugiere que la mano dominante tiene un tiem-
y despus medir las distancias desde ah. Con los po de reaccin ms veloz?
datos muestrales apareados, existe la correlacin
entre estatura y la envergadura de los brazos? Si es 5. Actividad en clase Formen grupos de 8 a 12 personas.
as, calcule la ecuacin de regresin con la estatura Para cada miembro del grupo, registren el pulso contan-
expresada en trminos de la envergadura de los bra- do el nmero de latidos por minuto. Tambin registren la
zos. Puede emplearse la envergadura de los brazos estatura. Existe una relacin entre el pulso y la estatura?
como un factor de prediccin razonablemente bueno Si es as, cul es?
de la estatura?
6. Actividad en clase Rena datos de cada estudiante re-
3. Actividad en clase Formen grupos de 8 a 12 personas. ferentes al nmero de tarjetas de crdito y el nmero de
Para cada sujeto, utilicen un hilo y una regla para medir llaves que posee cada uno. Existe una correlacin? Si
la circunferencia de la cabeza y la longitud del antebrazo. es as, cul es? Traten de identificar al menos una
Technology Project 585

explicacin razonable para la presencia o ausencia de un procedimiento para predecir valores de una de las
una correlacin. variables, cuando se tienen valores de la otra variable.
Temas sugeridos:
7. Actividad en clase Dividan la clase en grupos de tres o
Existe una relacin entre el sabor y el costo de dis-
cuatro personas. El apndice B incluye muchos conjun-
tintas marcas de galletas de chocolate (o bebidas de
tos de datos que an no se han utilizado en los ejemplos
cola)? El sabor puede medirse con base en una escala
o ejercicios de este captulo. Busque en el apndice B un
numrica, como del 1 al 10.
par de variables de inters, y luego investigue la correla-
Existe una relacin entre los salarios de los juga-
cin y la regresin. Establezca sus conclusiones y trate
dores profesionales de bisbol (bsquetbol o ftbol)
de identificar aplicaciones prcticas.
y sus logros por temporada?
8. Actividad fuera de clase Dividan la clase en grupos Existe una relacin entre el largo de los pies de
de tres o cuatro personas. Investiguen la relacin entre hombres (o mujeres) y su estatura?
dos variables reuniendo sus propios datos muestrales Existe una relacin entre el promedio de calificacio-
apareados y utilizando los mtodos de este captulo pa- nes de los estudiantes y la cantidad de tiempo que ven
ra determinar si existe una correlacin lineal significativa. televisin? Si es as, cul es?
Tambin identifiquen la ecuacin de regresin y describan

Proyecto tecnolgico
Se dedica un gran esfuerzo a estudiar gemelos idnticos que de manera que la primera puntuacin de cada lista represente
fueron separados al nacer y que se criaron aparte uno de el primer conjunto de gemelos, la segunda puntuacin de
otro. Los gemelos idnticos se producen cuando un solo vulo cada lista al segundo conjunto de gemelos y as sucesiva-
fertilizado se separa en dos, de manera que ambos compar- mente. Antes de realizar cualquier clculo, primero estime
ten la misma configuracin gentica. Al obtener las puntua- un valor del coeficiente de correlacin lineal que usted es-
ciones de CI de gemelos idnticos separados al nacer, los perara. Ahora aplique los mtodos de la seccin 10-2 con
investigadores esperan identificar los efectos de la herencia un nivel de significancia de 0.05 para probar una correla-
y del ambiente sobre la inteligencia. En este proyecto si- cin lineal significativa y establezca sus resultados.
mularemos 100 conjuntos de nacimientos de gemelos, pero Considere que el procedimiento anterior es un ensayo. Da-
generaremos sus puntuaciones de CI de manera que no exis- da la forma en que los datos muestrales fueron generados, qu
tan influencias genticas o ambientales comunes. Con un proporcin de esos ensayos debe conducir a la conclusin
generador de nmeros aleatorios de un paquete de cmputo incorrecta de que existe una correlacin lineal significativa?
o de una calculadora, genere una lista de 100 puntuaciones Si repetimos los ensayos, podemos verificar que la proporcin
de CI simuladas, seleccionadas al azar de una poblacin dis- es aproximadamente correcta. Repita el ensayo o combine
tribuida normalmente, con una media de 100 y una desvia- sus resultados con otros para verificar que la proporcin
cin estndar de 15. Ahora use el mismo procedimiento para es aproximadamente correcta. Recuerde que el error tipo I es
generar una segunda lista de 100 puntuaciones de CI simu- aquel que se comete al rechazar una hiptesis nula verdade-
ladas, que tambin se seleccionen al azar de una poblacin ra, lo que, en este caso, implicara concluir que existe una
distribuida normalmente, con una media de 100 y una desvia- correlacin lineal significativa, cuando en realidad no existe
cin estndar de 15. Aun cuando las dos listas se generan de tal correlacin.
manera independiente, considrelas como datos apareados,
586 Captulo 10 Correlacin y regresin

De los datos a la decisin Anlisis de los resultados racin especfica de que el tratamiento es
eficaz y luego aplique los mtodos de la
Pensamiento crtico: Duragesic 1. Utilice los datos indicados para construir seccin 9-4 para probar esa aseveracin.
un diagrama de dispersin y luego apli-
es eficaz para reducir el dolor? 5. Cul de los resultados anteriores es mejor
que los mtodos de la seccin 10-2 para
A continuacin se listan las medidas de la in- hacer una prueba de correlacin lineal para determinar si el tratamiento con el fr-
tensidad del dolor antes y despus de utilizar entre la intensidad del dolor antes del tra- maco es eficaz para reducir el dolor? Cul
el medicamento patentado Duragesic (segn tamiento y despus del tratamiento. Si de los resultados anteriores es el menos
datos de Janssen Pharmaceutical Products, existe una correlacin lineal significati- efectivo para determinar si el tratamiento
L.P.). Los datos aparecen en orden por ren- va, se infiere que el tratamiento con el con el frmaco es eficaz para reducir el do-
gln, y las medidas correspondientes son del frmaco es eficaz? lor? Con base en los resultados anteriores,
mismo sujeto antes y despus del tratamien- parece que el frmaco es eficaz?
to. Por ejemplo, el primer sujeto tuvo una me- 2. Utilice los datos para calcular la ecuacin
dida de 1.2 antes del tratamiento, y una medida de la recta de regresin. Permita que la va-
de 0.4 despus del tratamiento. Cada par de riable de respuesta (y) sea la intensidad del
mediciones corresponde a un sujeto, y la in- dolor despus del tratamiento. Cul sera
tensidad del dolor se midi utilizando la la ecuacin de la recta de regresin para un
puntuacin anloga visual estndar. tratamiento que no tiene ningn efecto?

Intensidad del dolor antes del tratamiento con 3. Los mtodos de la seccin 9-3 se pueden
Duragesic emplear para probar la aseveracin de que
dos poblaciones tienen la misma media.
1.2 1.3 1.5 1.6 8.0 3.4 3.5 2.8 2.6 2.2 Identifique la aseveracin especfica de
3.0 7.1 2.3 2.1 3.4 6.4 5.0 4.2 2.8 3.9 que el tratamiento es eficaz y luego utilice
5.2 6.9 6.9 5.0 5.5 6.0 5.5 8.6 9.4 10.0 los mtodos de la seccin 9-3 para probar
7.6 esa aseveracin. Los mtodos de la sec-
Intensidad del dolor despus del tratamiento cin 9-3 se basan en el requisito de que las
con Duragesic muestras son independientes. Son inde-
pendientes en este caso?
0.4 1.4 1.8 2.9 6.0 1.4 0.7 3.9 0.9 1.8
0.9 9.3 8.0 6.8 2.3 0.4 0.7 1.2 4.5 2.0 4. Los mtodos de la seccin 9-4 permiten
1.6 2.0 2.0 6.8 6.6 4.1 4.6 2.9 5.4 4.8 poner a prueba una aseveracin acerca
4.1 de datos apareados. Identifique la aseve-

Regresin lineal cionada con cada una de las variables estudiadas?


Visite la pgina de Internet de este libro de texto:
El coeficiente de correlacin lineal es una herra-
mienta que se utiliza para medir la fuerza de una http://www.pearsoneducacion.net/triola
relacin lineal entre dos conjuntos de mediciones.
El proyecto de Internet para este captulo lo
Desde el punto de vista de los clculos, el coefi-
guiar hasta varios conjuntos de datos apareados
ciente de correlacin puede obtenerse para cuales-
en las reas de deportes, medicina y economa.
Proyecto de Internet quiera dos conjuntos de datos de valores aparea-
Entonces usted aplicar los mtodos de este
dos, sin importar lo que stos representen. Por esta
captulo, calcular coeficientes de correlacin
razn se deben plantear ciertas preguntas cuando
y determinar rectas de regresin mientras
se investiga una correlacin. Es razonable espe-
considera las verdaderas relaciones que existen
rar una correlacin lineal? Podra una correlacin
entre las variables implicadas.
obtenida ser causada por una tercera cantidad rela-
La estadstica en el trabajo 587

La estadstica en el trabajo
En un mundo de negocios En qu consiste su trabajo? Qu conocimientos de estadstica
Dirijo un equipo de personas responsables
se requieren para obtener un empleo
que se muestra fascinado como el suyo?
de planear y pronosticar medidas tales co-
con los nmeros y con los mo la asistencia al parque, la ocupacin Yo tengo una maestra en economa, con
en cada uno de nuestros hoteles y las utili- especialidad en mtodos de anlisis cuan-
datos, la estadstica es dades que Walt Disney World obtendr titativo. Por lo general se requiere de algn
fundamental para poder por estos negocios bsicos. ttulo de posgrado con nfasis en anlisis
estadstico para tener xito en un puesto
Cmo usa usted la estadstica y como el mo.
analizar y resumir apro-
qu conceptos especficos de esta
piadamente grandes materia emplea? Considera que las personas que soli-
citan empleo en su compaa son vis-
cantidades de datos. La estadstica es fundamental para el pro- tas de forma ms favorable si tienen
ceso de pronstico. Muchas de nuestras
algunos estudios de estadstica?
herramientas de pronstico se basan en
tcnicas de regresin mltiple, y algunos Se requiere de cierto nivel de experiencia
de esos modelos son ms complejos que con la estadstica para tener un puesto en
otros. Tambin empleamos cotidianamen- el equipo de pronstico y anlisis. Hay mu-
te muchos conceptos estadsticos bsicos, chos otros puestos en Walt Disney World
como el reporte del error medio del que veran de manera ms favorable a
porcentaje absoluto de nuestros prons- los solicitantes que tienen estudios de es-
ticos, la comprensin de las medidas de tadstica.
tendencia central, las distribuciones y las
tcnicas de muestreo cuando realizamos Recomendara a los estudiantes
la investigacin de mercado; o la aplica- universitarios de hoy que estudien
cin de correlaciones para entender la estadstica? Por qu?
Mark D. Haskell manera en que diferentes variables se aso- Definitivamente s. En un mundo de ne-
cian con nuestros principales negocios. Se gocios que se muestra fascinado con los
Director de pronsticos y anlisis
dispone de muchos enfoques para crear nmeros y con los datos, la estadstica es
Walt Disney World Resort
pronsticos de alta calidad, pero la estads- fundamental para poder analizar y resumir
Como director de pronsticos y tica es un bloque de construccin bsico apropiadamente grandes cantidades de
anlisis de Walt Disney World Re- para casi cualquiera de esos enfoques. datos. Incluso si uno no es el respon-
sort, Mark dirige un equipo de sable de realizar el anlisis, necesita una
Describa un ejemplo especfico de
personas responsables de planear comprensin bsica para utilizar adecua-
cmo el uso de la estadstica sirvi
y pronosticar valores como la asis- damente la informacin en la toma de
tencia, la ocupacin de hoteles y
para mejorar un producto o servicio. decisiones. Es necesario aprender a utili-
las ganancias proyectadas. Al ana- Recientemente, mi equipo utiliz el anli- zar la estadstica de manera apropiada, o
lizar diversos factores, Mark y su sis de correlacin para entender qu fuen- se corre el riesgo de que los individuos
equipo ayudan a que Disney con- tes de datos seran ms tiles para pre- que saben ms de estadstica la utilicen
tine trabajando para asegurarse decir la asistencia y los gastos en uno de en contra de uno.
de que cada husped tenga una nuestros centros de venta al detalle. Con Qu otras habilidades son
experiencia divertida e inolvidable base en ese trabajo, desarrollamos un
importantes para los estudiantes
en Walt Disney World Resort. modelo de regresin que sirve para que
los lderes de la empresa conozcan las ga-
universitarios de hoy?
nancias potenciales, determinen las nece- Las habilidades de comunicacin, tanto
sidades de personal, establezcan las horas verbales como escritas. Se considera muy
de operacin, identifiquen nuevas opor- valiosas a las personas que saben analizar
tunidades de productos y nuevas necesi- informacin compleja, que luego la sim-
dades de inversin de capital, slo por plifican y la comunican con claridad para
nombrar algunas aplicaciones. su uso sencillo.

Vous aimerez peut-être aussi