Vous êtes sur la page 1sur 17

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

UNIDAD 3: Regresin Lineal Simple y Mltiple.


Objetivos especficos
Comprender el sentido de las tcnicas de regresin lineal as como su importancia en el marco de la
Inferencia Estadstica para dos o ms variables conjuntamente distribuidas.
Conocer las ventajas y limitaciones de esta tcnica as como los procedimientos de diagnstico para
evaluar la calidad de los resultados obtenidos en la estimacin.
Distinguir claramente entre casos de relacin funcional entre variables respecto a independencia de
variables aleatorias.
Contenidos temticos
Concepto de regresin. Caso particular: regresin lineal simple. Diagrama de dispersin. Variable
dependiente. Modelo, supuestos. Mtodo de mnimos cuadrados. Coeficiente de regresin: clculo e
interpretacin. Varianza del error. Prueba de hiptesis e intervalo de confianza para . Banda de confianza
para la recta de regresin. Intervalo de prediccin. Coeficiente de determinacin. Aplicaciones. Regresin
mltiple: Conceptos y aplicaciones. Interpretacin de anlisis realizados mediante procesadores estadsticos.
Glosario
Modelo estadstico funcional de relacin entre variables. Concepto de funcin. Variables dependiente e
independiente. Diagrama de dispersin. Curva aproximada de ajuste. La funcin lineal simple. Criterio de los
mnimos cuadrados. Conceptos de error y de residuo. Las ecuaciones normales. Parmetros del modelo.
Pendiente de la recta (, coeficiente de regresin lineal). Ordenada al origen (). Contrastes e intervalo para
. Varianza del error. Varianza explicada (coeficiente de determinacin). Particin de la varianza total.
Coeficientes de regresin parcial.
PROBLEMAS RESUELTOS
1) Se desea estudiar la cantidad de energa metabolizada por el gorrin Passer domesticus, bajo diversas
condiciones de temperatura seleccionadas por el experimentador y un fotoperodo de 10 hs con el fin de
probar si el aumento de la temperatura puede generar una disminucin de la energa metabolizable. Para
ello, se toman 10 gorriones y se los somete a distintas temperaturas. La siguiente tabla da los resultados del
estudio:
Temperatura (C)

10

12

14

16

18

20

22

24

26

28

Energa metabolizada (cal)

24

23

22

24

20

18

18

15

16

13

Shapiro-Wilks (modificado)
Variable
n
Media D.E.
RDUO_Columna2
10
0,00 1,21

W*
0,85

p (una cola)
0,1188

a) Dibujar el diagrama de dispersin.


b) Enunciar los supuestos tericos correspondientes al anlisis de regresin lineal en estudio.
c) Escribir el modelo terico correspondiente e interpretar sus componentes
d) Estimar la funcin lineal de regresin y graficarla en el diagrama de dispersin del inciso a.
e) Realizar la prueba en inters ( = 0,05).
f) En caso de que lo crea necesario calcule el intervalo de confianza del 95% para la modificacin de la
energa media metabolizable cuando la temperatura aumenta en un grado centgrado ().
g) Particionar la suma de cuadrados total mostrando la proporcin explicada por el modelo y la no explicada
o residual.
h) Calcular el R2 e interpretar el resultado.
i) Qu porcentaje de la variabilidad de la variable respuesta no es explicada por el modelo escogido?
j) Construir un intervalo de 95% para la energa media metabolizada por un gorrin que es sometido a una
temperatura de 21 C. Indique tambin la estimacin puntual.
k) Construir un intervalo de 95% para la energa metabolizada por un gorrin que es sometido a una
temperatura de 21 C. Indique tambin la estimacin puntual.

12

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

El objetivo del estudio de regresin es investigar si se puede explicar la relacin entre dos variables
cuantitativas por una relacin funcional con el propsito de estimar o predecir valores de una de ellas a partir
de la otra.
Datos del problema
Variables en estudio:
X: Temperatura ambiente donde habita un gorrin Passer domesticus, medida en C; variable explicatoria,
independiente (no aleatoria)
Y: Energa metabolizada por un gorrin Passer domesticus, medida en caloras (cal); variable respuesta,
dependiente (aleatoria)
Solucin
a) El diagrama de dispersin es recomendable como
primer paso del estudio de regresin, ya que nos permite
apreciar visualmente la existencia o no de una tendencia
lineal, tener una idea sobre el tipo de relacin entre las
variables, y sobre su grado de dispersin.
Se grafican los puntos (pares (xi;yj)) representando la
variable independiente sobre el eje X (horizontal) y la
variable dependiente sobre el eje Y (vertical). Es
importante elegir escalas adecuadas, ya que de lo
contrario se pierde la apreciacin grafica de la adecuacin
del modelo lineal para explicar la relacin entre las
variables consideradas.
En este caso parecera haber una relacin lineal
inversa entre la energa metabolizada y la temperatura
ambiente, de modo tal que al aumentar la temperatura
del ambiente donde se encuentra el gorrin, disminuye la
energa metabolizada por el mismo en forma lineal.
b) Supuestos tericos
i) Para cada valor de temperatura, existe una subpoblacin de valores de energa metabolizada por el
gorrin Passer domesticus, con distribucin normal.
Dado que utilizamos el caso ms simple (una observacin de cada subpoblacin) no probamos
normalidad de la variable respuesta en cada subpoblacin.

la

Pero, al tener los valores de energa metabolizada por el gorrin Passer domesticus distribucin normal,
entonces, como consecuencia, los errores del modelo tambin se distribuyen normalmente. Para probar el
supuesto sobre la distribucin de los errores del modelo se utiliza la prueba de Shapiro Wilks utilizando los
residuos del modelo estimado como informacin muestral.
ii) Los valores de energa metabolizada por el gorrin Passer domesticus son independientes unos de
otros (tanto dentro de cada temperatura como entre las diferentes temperaturas). Para garantizar este
supuesto, se toman 10 gorriones Passer domesticus al azar y aleatoriamente se asigna uno a cada de las
temperaturas ambientales prefijadas.
iii) Las varianzas poblacionales de los valores de energa metabolizada por los gorriones Passer
domesticus para cada temperatura deben ser iguales (al tener un solo valor de cada subpoblacin no podemos
verificarlo y suponemos que se cumple). Si fuese otro el caso, se debe hacer un Test de Levene.
c) Modelo poblacional propuesto es:
Yi = + Xi + i
para i=1...10

donde i ~ N(0; 2) y son independientes entre s

Aplicando el operador esperanza en ambos miembros del modelo poblacional conduce a la siguiente
expresin del modelo.
E(Y) = + X
Es importante observar que si bien en el modelo se observan dos parmetros el anlisis de regresin lineal
simple tiene tres parmetros o constantes desconocidas, que deben estimarse a partir de la muestra de
pares ordenados observados y disponibles. Dichos parmetros son: la pendiente de la recta (), la ordenada
al origen de la recta () y la variabilidad de los errores ().

13

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

Yi= Energa metabolizada por el i-simo gorrin Passer domesticus, medida en caloras (cal). (Variable
aleatoria)
= Energa media poblacional metabolizada por los gorriones Passer domesticus, medida en caloras (cal)
cuando la temperatura es de 0 C. (Parmetro)
= Cambio o modificacin en la energa media poblacional metabolizada por los gorriones Passer
domesticus, medida en caloras (cal) cuando la temperatura aumenta en 1 C. (Parmetro)
Xi= Temperatura ambiente donde habita el i-simo gorrin Passer domesticus, medida en C. (Variable
controlada por el experimentador)
i= error aleatorio proveniente del modelo propuesto: alejamiento de cada valor de energa metabolizada por
el i-simo Passer domesticus, medida en caloras (cal), de la energa media poblacional metabolizada por los
gorriones correspondiente a su subpoblacin definida por cierto valor de temperatura ambiente. (Variable
aleatoria)
d) Los estimadores de mnimos cuadrados de los parmetros (son los que se obtienen al hacer mnima
i2 = ( Yi - - Xi )2 son:
Por lo tanto

a y b

Yi a bxi es la recta estimada

Informacin muestral: xi = 190; xi2 = 3940; yi =193; yi2 = 3863; xi yi = 3464

Reemplazando en las frmulas correspondientes se obtienen las estimaciones de los parmetros:

XY - ( X )( Y ) / n 3464 - (190)(193) /10 -203

- 0, 62
3940 - 36100 /10
330
x 2 - ( X ) 2 / n
a Y -b X

10

193

- -0.62

190
10

19, 3 0, 62 *19, 0 31, 08

La expresin de la recta estimada con los datos disponibles de la muestra que tenemos resulta:

Yi 31, 08 0, 62 xi
Grfico

e) Lo planteado en esta parte se responde resolviendo una prueba cuyas hiptesis son:
H0: 0
H1: < 0
Para encontrar el estadstico de prueba adecuado, tenemos en cuenta que el parmetro en estudio es , y
que su estimador es b, cuya expresin se obtiene por el mtodo de mnimos cuadrados.

14

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

Resulta que: E(b) = por lo que b es estimador insesgado de , y adems b N ( , 2), lo cual puede
verse intuitivamente observando la frmula de b, dado que los xi son valores constantes y que los yi tienen
distribucin normal.
Por lo tanto, estandarizando a b, obtenemos
Z = b - N (0; 1)

Considerando que desconocemos la varianza poblacional, y el caso general en que la variable respuesta
sea aproximadamente normal, tenemos como estadstico de prueba:

b-
Sb

~t

( n -2)

El nivel de significacin es = 0,05


La regin crtica (RC) es unilateral izquierda: t8 -1,86

La regla de decisin (RD) es:

La varianza muestral de b es:

(Valor crtico: -t(8;0,95) = -1,86)

RECHAZO HO si tHo - 1,86


NO RECHAZO HO si tHo > - 1,86

Se2

Sb2

X
-

Siendo la varianza muestral del error:

1
( Y ) 2 2
( X ) 2
2
2
2

Se
b
Y
X

n-2
n
n

Luego, tomando la informacin muestral:

S e2

1
8

(193) 2
(190) 2
3863 - (-0, 62) 2 3940
10 - 2
10
10

3863 3724, 9 0, 3844 330

1
8

138,10 126,85 1, 405

sb2 = 1,405/330 = 0,0043 ;


tHo =

-0, 62
0, 0653

sb =0,0653 0,07

= - 9, 4946

Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 (H0: 0), es
decir < 0. Se puede concluir que por cada aumento de temperatura ambiente en 1C hay una disminucin
de la energa media poblacional metabolizada por los gorriones, en caloras, en esta poblacin de gorriones
Passer domesticus.
f) Se considera necesario realizar el intervalo de confianza para ya que se concluy en el punto anterior
que < 0 con un nivel de significacin del 5%, por ello, ahora se desea estimar qu tan lejos del cero se

15

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

encuentra el valor del parmetro en estudio. Para el clculo del intervalo de confianza para , se toma como
variable pivotal el estadstico de prueba que se utiliz en la dcima para ese parmetro, y su construccin es
similar al de todos los intervalos simtricos.
En este caso, calculamos el intervalo de confianza del 95% para :
L.I. = b - t8; 0,975 . Sb = -0,62 - (2,306 0,07) = - 0,78
L.S. = b + t8; 0,975 . Sb = -0,62 + (2,306 0,07) = - 0,46
Conclusin: Con una confianza del 95%, se espera que el intervalo [- 0,78 cal/C; - 0,46 cal/C] cubra al
verdadero valor del coeficiente de regresin, en este caso la modificacin o cambio de la energa media
metabolizada (cal) por los gorriones al aumentar en 1C la temperatura ambiente, en la poblacin de
gorriones Passer domesticus.
g) Sean: yi un valor observado de la variable respuesta
y i el valor estimado correspondiente, para el mismo xi y segn la recta estimada.

y el promedio de todos los valores observados de la variable respuesta.


y : desvo total
y i - y : desvo debido a la regresin
yi - y i : desvo debido al error muestral o residuo

yi -

(ei = yi -

y i error muestral)

Observacin: tanto los residuos como los errores aleatorios son variables aleatorias, pero solo podemos
observar los residuos y con ellos pretendemos tener una idea del valor de los errores.
Se verifica que:
(Por ejemplo: en

yi -

y = ( y i - y ) + (yi - y i)

x4 = 16 el valor observado es y4 = 24, el valor estimado es y 4 = 21,16 ; y = 19,3

24 19,3 = 4,7
21,16 19,3 = 1,86
24 21,16 = 2,84

desvo total correspondiente al punto 4


desvo debido a la regresin del punto 4
desvo debido al error o residuo del punto 4

Luego, la igualdad se verifica para el punto 4, ya que 4,7 = 1,86 + 2,84


Elevando al cuadrado cada uno de los miembros de la igualdad, sumando y operando algebraicamente se
obtiene la particin de la suma de cuadrados total
(yi - y )2 = ( y i - y )2 + (yi - y i)2
SCtotal = SCregresin + SCresidual
En este caso: SCtotal = (yi -

y )2 = y2 (yi )2 /n = 3863 (193)2 /10 = 138,10


n

SCregresin = (

y i - y )2 = b 2 ( X i X ) 2 = (-0,62)2 330 = 126,85


i 1

SCresidual = SCtotal - SCregresin = 138,10 126,85 = 11,25


Luego:
SCregresin
SCtotal

SCresidual
SCtotal

16

126, 85
138,10

11, 25
138,10

= 0, 91 es la proporcin explicada por el modelo estimado.

= 0,09 es la proporcin no explicada por el modelo estimado.

Estadstica Analtica 2015

R2 =

h) Se define:

Fac. Cs. Veterinarias (U.B.A)

SCregresin

SCtotal
Como se vio en el punto anterior, expresa la proporcin de la suma de cuadrados total explicada por la
regresin. Es una medida muestral.
En este caso: R2 = 0,91
Interpretacin: El 91% de la variabilidad total de la variable respuesta es explicada por la regresin en la
variable explicatoria, en la relacin dada por el modelo estimado. En este caso, el 91% de la variabilidad
de la energa metabolizada (Y, en cal) por los gorriones es explicada por la temperatura ambiente (X, en
31,08 0,62 x , en esta
C) a la que estn sometidos los gorriones, segn el modelo estimado: y
poblacin de gorriones Passer domesticus.
i) Si R = 0,91 es una medida de la variabilidad de la variable respuesta que es explicada por el modelo
estimado, teniendo en cuenta que 0 R2 1, su complemento, 1 R2, es una medida de la variabilidad
de y no explicada por el modelo estimado.
En este caso: 1- 0,91 = 0,09, y por lo tanto el porcentaje de la variabilidad de la energa metabolizada por
los gorriones (Y, en cal) que no es explicado por la temperatura ambiente (X, en C) a la que estn
31,08 0,62 x , es del 9%, en esta poblacin
sometidos los gorriones, segn el modelo estimado y
de gorriones Passer domesticus.
j) Cuando se habla de una estimacin para la energa media poblacional metabolizada por los gorriones
Passer domesticus, se est refiriendo a la estimacin de la esperanza de la energa metabolizada por los
gorriones, o sea, su media poblacional, un parmetro cuyo valor se encuentra sobre la recta de regresin.
La estimacin puntual de E(Y) para X = 21C es:

Y( X 21) 31, 08 - 0, 62(21) 18, 06 cal, (teniendo en cuenta

el modelo estimado en el punto d).


La estimacin mediante un intervalo de confianza se realiza empleando la frmula:
a bX

t n - 2;1 / 2 S e

1
( X - X )2

a bX
n ( X - X ) 2

t n - 2;1 / 2 S e

( X - X )2
X2-

( X ) 2
n

donde X' es el valor de la variable X de nuestro inters, en este caso X' = 21C.

31, 08 - (0, 62) 21 2, 306 1, 405


En consecuencia:

(21-19) 2

10
L.I. = 18,06 - 0,92 = 17,14 cal
L.S. = 18,06 + 0,92 = 18,98 cal

330

= 18,06 2,306 * 0,40

Conclusin: Con una confianza del 95%, se espera que el intervalo (17,14 cal; 18,98 cal) contenga al valor
medio poblacional de la energa metabolizada por los gorriones cuando la temperatura ambiente es de
21C.en la poblacin de gorriones Passer domesticus.
k) En cambio, cuando se habla de la estimacin para un cierto valor de la energa metabolizada, se est
refiriendo a un valor de la variable y no a la media poblacional que le corresponde a su correspondiente
subpoblacin.
La estimacin puntual es

Y( X 21) 31, 08 - 0, 62(21) 18, 06

La estimacin mediante un intervalo de prediccin se realiza empleando la frmula:

1
a bX tn-2;1 / 2 S e 1
n

( X - X )2
X2-

( X ) 2
n

donde X' es el valor de la variable X de nuestro inters, en este caso X' = 21C.

17

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

31, 08 - (0, 62) 21 2, 306 1, 405 1


En consecuencia:

(21-19) 2

10
L.I. = 18,06 - 2,88 = 15,18 cal
L.S. = 18,06 + 2,88 = 20,94 cal

330

= 18,06 2,306 * 1,25

Conclusin: Con un nivel del 95%, se espera que el intervalo (15,18 cal; 20,94 cal) cubra o contenga al valor
de la energa metabolizada por los gorriones sometido a una temperatura ambiente de 21C en esta
poblacin de gorriones Passer domesticus.
Nota: aunque la estimacin puntual sea la misma, el intervalo de prediccin tendr una amplitud mayor que el
intervalo de confianza para el mismo nivel y valor de X (temperatura ambiente).
2) Con el objeto de estudiar el efecto del tratamiento con estrona sobre el peso uterino de ratas hembra, un
conjunto de ratas se dividi aleatoriamente en grupos y a cada grupo se le administr una dosis diferente de
estrona. Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis de
regresin. Despus de cierto tiempo se observ el peso del tero de una rata, tomada al azar, para cada una
de las dosis, expresado en mg.
Dosis (g)

10

12

14

16

18

20

22

Peso (mg)

12,4

14,8

15,2

16,9

19,1

19,9

20,2

21,0

18,7

20,9

Analizar la siguiente salida de computadora generada al realizar el anlisis estadstico mediante el


programa InfoStat:
a) Estimar de los parmetros del modelo.
b) Dcimar la significacin de la regresin (Test para ), utilizando la Tabla de Anlisis de Varianza.
( = 0,05)
c) Realizar un intervalo de confianza del 95% para
d) Realizar un intervalo de confianza del 95% para
e) Calcular e interpretar el coeficiente de determinacin.
Anlisis de regresin lineal
Variable
N
R
Peso
10
0.80

R Aj ECMP
0.77
3.28

Coeficientes de regresin y estadsticos asociados


Coef
Est.
EE
LI(95%)
LS(95%)
Const
12.26 1.10
9.73
14.79
Dosis
0.43
0.08
0.26
0.61

T
p-valor
11.17 <0.0001
5.63
0.0005

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
p-valor
Modelo
62.40 1
62.40 31.74 0.0005
Dosis
62.40 1
62.40 31.74 0.0005
Error
15.73 8
1.97
Total
78.13 9
Datos del problema

Variables en estudio:

X: dosis de estrona administrada a una rata hembra (en g)


Y: peso del tero de una rata hembra despus de cierto tiempo de haberle administrado una dosis de
estrona (en mg)
Solucin

18

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

a) Modelo terico propuesto: E(Yi) = + Xi


para i=110
Los valores correspondientes a las estimaciones de los parmetros del modelo pueden extraerse de la
tabla: Coeficientes de regresin y estadsticos asociados, columna Est.
El valor de a es el que corresponde a const (constante), en este caso es de 12,26, y el valor de b es el
que corresponde al nombre de la variable independiente (por ser el coeficiente que la multiplica), en este
caso es Dosis, y su valor es de 0,43.
Por lo que el modelo estimado es: yi 12, 26 0, 43 xi .

para i=110

Interpretacin:
a = 12,26 mg, por lo tanto, el peso medio estimado del tero de las ratas hembra con dosis 0 g, es decir
sin haber recibido tratamiento con estrona es 12,26 mg.
b = 0,43 mg/g, indica que al aumentar la dosis de estrona en 1 g, el peso medio estimado del tero de
las ratas hembra aumenta en 0,43 mg.
s =1,97 mg/g varianza muestral o residual que estima la varianza poblacional de los errores del
modelo.
b) La tabla de Anlisis de la Varianza fue construida basndose en la descomposicin de la Suma de
Cuadrados Total. Hay dos fuentes de variacin que la afectan: una debida a la regresin, simbolizada por el
nombre de la variable explicatoria, en este caso Dosis; y otra debida al residuo o error muestral,
simbolizada por Error.
La tercera columna de la tabla, es la de Cuadrados Medios: C.M. =

Suma de Cuadrados

grados de libertad

. Son varianzas

muestrales y con ellos se construye el estadstico de prueba.


Con los datos de la Tabla de Anlisis de Varianza, las nicas hiptesis que se plantean son:
H0: = 0
H1: 0
La variable pivotal a usar es F de Snedecor, que, bajo la hiptesis nula, es el cociente de dos varianzas
muestrales que provienen de variables independientes, cada una con distribucin 2:
F=

CMregresin
F1, n-2 ; en este caso
CMresidual

CM DOSIS
~ F1,8
CM ERROR

Si F es grande (F>1), esto equivale a que CMregresin > CMresidual entonces es mayor la varianza debida a
la regresin que la debida a los residuos, por lo tanto se rechaza la hiptesis nula y la regresin es
significativa (0).
Si F es chico (F1), esto equivale a que CMregresin CMresidual entonces es mayor o igual la varianza
debida a los residuos que la debida a la regresin, por lo tanto no se rechaza la hiptesis nula y la regresin
es no significativa (=0).
Por lo tanto la regin crtica es siempre unilateral derecha.
En este caso, = 0,05; el valor crtico es: F1, 8; 0,95 = 5,32
RC: F 1, 8 5,32

La regla de decisin es: RECHAZO HO si FHo 5,32


NO RECHAZO HO si FHo < 5,32
Segn la tabla de Anlisis de Varianza, el valor de FHo = 31,74 es mayor que 5,32, entonces RECHAZO H0.

19

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 (H0: =0), por lo
tanto se puede concluir que por cada aumento de la dosis de estrona en 1g hay una modificacin del peso
medio poblacional del tero de las ratas, en mg, en la poblacin de ratas hembra.
A la misma decisin se llega cuando observamos el p-valor que aparece en la tabla de Anlisis de Varianza.
En este caso, p-valor=0,0005<0,05, por lo que RECHAZO H0 y concluimos que hay diferencias
significativas que nos permiten rechazar a la hiptesis nula. Otra forma de expresarlo es: p<0,05, que
corresponde a la comparacin con el valor que toma el nivel de significacin en este problema. Esta
ltima expresin se utiliza en las conclusiones de trabajos de investigacin, y generalmente figura entre
parntesis. Sin embargo, en esta asignatura que es de formacin, se espera que las decisiones se basen
en el estadistico de contraste o variable pivotal, su distribucion, el nivel de significacion elegido para la
prueba y la consecuente regin critica.
Con el programa estadstico utilizado tambin se puede realizar el diagrama de dispersin, en
donde los datos aparecen expresados como crculos pequeos, junto a la recta muestral, y a la banda de
confianza de nivel 1-.

Estos grficos fueron hechos con distintas escalas para el eje Y. Al respecto debemos hacer notar que:
la recta solamente est graficada para los valores de X que consideramos en el problema, o sea en
el intervalo [4; 22].
se ve modificada (falsamente) la pendiente, ya que por clculos b=0,43, sea cual sea el grfico.
R2 = 0,80 se ve mejor reflejado en el primer grfico que en el segundo.
c) Este intervalo de confianza tambin puede leerse de la tabla Coeficientes de regresin y estadsticos
asociados, donde figuran LI (lmite inferior) y LS (lmite superior), en este caso los correspondientes a
Dosis, valores calculados para un nivel de confianza del 95%. Luego: 0,26 mg/g ; 0,61 mg/g es el IC
del 95% para .
Con un nivel de confianza del 95%, espero que el intervalo 0,26mg/g ; 0,61 mg/g contenga al
cambio o modificacin del verdadero valor del peso medio del tero de las ratas hembra al aumentar la dosis
de estrona en un g, en la poblacin de ratas hembra.
d) Este intervalo se lee en la misma tabla que el anterior, en la fila correspondiente a const. Luego: 9,73
mg ; 14,79 mg es el IC del 95% para .
Con un nivel de confianza del 95%, espero que el intervalo 9,73 mg ; 14,79 mg contenga al
verdadero valor del peso medio del tero de las ratas hembra que no reciben tratamiento con estrona.
e) En la salida de computadora tenemos tambin informacin sobre el valor de R2, calculado con los datos de
la muestra. El que nos interesa es el primero, por lo tanto es 0,80. La interpretacin correspondiente es: El
80% de la variabilidad del peso del tero de las ratas (Y) es explicada por la dosis de estrona aplicada (X)
a las ratas hembra, segn el modelo estimado: yi 12, 26 0, 43 xi .

20

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

3) En una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores caz nueve hembras
adultas y midi sus longitudes y pesos. La siguiente tabla muestra la longitud y el peso de las nueve serpientes.
Long (cm) 63
Peso (g)

65

59

67 54 64

66

69

60

145 174 116 172 93 140 194 198 136

Tabla 1:
Anlisis de regresin lineal
Variable
N
R
R Aj
Peso
9
0,89
0,87
Coeficientes de regresin y
Coef
Est.
const
-301,09
Longitud
7,19

estadsticos asociados
E.E.
LI(95%)
LS(95%)
60,19 -443,41
-158,76
0,95
4,94
9,45

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
Modelo
8896,33
1
8896,33
Longitud
8896,33
1
8896,33
Error
1093,67
7
156,24
Total
9990,00
8

F
56,94
56,94

T
-5,00
7,55

p-valor
0,0016
0,0001

p-valor
0,0001
0,0001

Tabla 2:
Anlisis de regresin lineal
Variable
N
R
R Aj
Longitud
9
0,89
0,87
Coeficientes
Coef
Est.
const 44,18
Peso
0,12

de regresin y estadsticos asociados


E.E.
LI(95%)
LS(95%)
T
2,55
38,14
50,22
17,30
0,02
0,09
0,16
7,55

Cuadro de Anlisis de la Varianza (SC tipo


F.V.
SC
gl
CM
F
Modelo.
153,17 1
153,17 56,94
Peso
153,17 1
153,17 56,94
Error
18,83 7
2,69
Total
172,00 8

p-valor
<0,0001
0,0001

III)
p-valor
0,0001
0,0001

a) Enunciar los supuestos que deben verificarse para poder realizar un anlisis de regresin particularizado para la situacin planteada.
b) Suponiendo que se cumplen los supuestos detallados en el inciso a encontrar la ecuacin de regresin estimada del peso en funcin de la longitud. Interpretar sus coeficientes en trminos del problema.
c) Para probar si la regresin planteada es significativa al 5% se solicita: hiptesis estadsticas, variable
pivotal, regin crtica, valor del estadstico calculado bajo la hiptesis nula y conclusin.
d) Hallar un intervalo del 95% para el peso medio cuando la longitud es de 61cm.
Datos del problema:
Variables en estudio:
X: longitud de una serpiente Vipera berus, en cm.
Y: Peso de una serpiente Vipera berus, en g.

21

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

a) En este caso en particular, ambas variables X e Y son aleatorias. Por lo tanto, al no tener una de ellas
prefijada, los supuestos son otros:
La longitud de las serpientes Vipera berus, en cm, y el peso de las serpientes Vipera berus, en g
se distribuyen conjuntamente normal bivariada con parmetros 1, 2, 21, 22, , siendo este ltimo el
coeficiente de correlacin lineal de Pearson que veremos en la prxima unidad.
b) Al ser ambas variables aleatorias se puede realizar la regresin del peso en funcin de la longitud y la
regresin de la longitud en funcin del peso.
En ste caso nos solicitan la primera situacin por lo que corresponden los resultados de la Tabla 1 y en
consecuencia la recta estimada es: (se obtienen los valores de la tabla)

y -301.09 g 7.19 g / cm x
a = el peso medio estimado de las serpiente Vipera berus es de -301,09 g cuando su longitud es de 0 cm
(sin sentido biolgico)
b = al aumentar la longitud de las serpiente Vipera berus, en 1 cm, el peso medio estimado aumenta en
7,19 g.
c) Hiptesis estadsticas:
H0: = 0
H1: 0
Si bien, al ser una hiptesis de igual contra distinto, podramos utilizar a F como estadstico de prueba, para
este caso, vamos a usar:

b-
Sb

~t

( n -2)

El nivel de significacin es = 0,05


La regin crtica (RC) es bilateral: t7 -2,365 y t7 2,365 (Valores crticos: -t(7;0,975) = -2,365 y t(7;0,975)= 2,365)
La regla de decisin (RD) es:

RECHAZO HO si tHo - 2,365 o si tHo 2,365


NO RECHAZO HO si -2,365< tHo < 2,365

Tomando la informacin de la tabla, el valor del estadstico calculado bajo la hiptesis nula es:
tHo = 7.65
Conclusin: A un nivel de significacin del 5%, hay evidencias suficientes para rechazar H0 (H0: = 0), es
decir 0. Se puede concluir que por cada aumento de la longitud de las serpientes, en 1 cm, el peso
medio poblacional de ellas se modifica, en esta poblacin de serpientes Vipera berus. Por lo tanto, al
mismo nivel, se puede concluir que la regresin es significativa.
d)
La estimacin puntual de E(Y) para X = 61 cm es:

Y( X 61) 301, 09 7,19(61) 137, 5 g, (teniendo en

cuenta el modelo estimado en el punto d).


La estimacin mediante un intervalo de confianza se realiza empleando la frmula:
a bX

t n - 2;1 / 2 S e

1
( X - X )2

a bX
n ( X - X ) 2

t n - 2;1 / 2 S e

donde X' es el valor de la variable X de nuestro inters, en este caso X' = 61 cm.

137, 5 2, 365 156, 24

1
9

22

(61- 63) 2
172

= 137,5 2,365 * 4,582

( X - X )2
X2-

( X ) 2
n

Estadstica Analtica 2015

En consecuencia:

Fac. Cs. Veterinarias (U.B.A)

L.I. = 137,5 - 10,837 = 126,66 g


L.S. = 137,5 + 10,837 = 147,84 g

Conclusin: Con una confianza del 95%, se espera que el intervalo [126,66; 147,84] g contenga al valor
medio poblacional del peso de las serpientes cuando su longitud es de 61 cm en esta poblacin de
serpientes Vipera berus.
Regresin Lineal Mltiple
4) En un estudio sobre la duracin de la hospitalizacin para pacientes de un hospital de enfermedades
crnicas, un grupo de investigadores deseaba poder predecir la duracin de la internacin (Y, en das),
dadas las variables independientes: nmero de admisiones previas (X1) y edad (X2, en aos). Se
obtuvieron datos de una muestra de 15 pacientes.
a) Enunciar los supuestos tericos necesarios para realizar la prueba en estudio.
b) Indicar e interpretar la expresin del plano de la regresin propuesta.
c) Indicar e interpretar la expresin del plano estimado.
d) Analizar la significacin de la regresin ( = 0,05)
e) Analizar el ajuste del modelo.
Anlisis de regresin lineal
Variable
N
R
Y
15
0.85

R Aj
0.83

ECMP
59.81

Coeficientes de regresin y estadsticos asociados


Coef
Est.
EE
LI(95%)
LS(95%)
const
2.09
6.74
-12.60
16.77
X1
0.06
2.61
-5.64
5.75
X2
1.05
0.33
0.34
1.76

T
0.31
0.02
3.22

p-valor
0.7623
0.9830
0.0074

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
p-valor
Modelo 2502.39
2 1251.20 34.08
<0.0001
X1
0.02
1
0.02 4.8E-04
0.9830
X2
380.37
1
380.37 10.36
0.0074
Error
440.54
12
36.71
Total
2942.93
14

Datos del problema:

Variables en estudio:
X1: Nmero de admisiones previas de un paciente de un hospital de enfermedades crnicas
X2: Edad de un paciente, en aos, de un hospital de enfermedades crnicas
Y: Duracin de la internacin de un paciente, en das, de un hospital de enfermedades crnicas
Solucin:
a) En ste caso no hay variables explicatorias prefijadas por lo que el supuesto terico es: El nmero de
admisiones previas, la duracin de la internacin y la edad y del paciente de un hospital de enfermedades
crnicas son tres variables aleatorias que se distribuyen conjuntamente normal multivariada.
b)
Modelo terico: Yi = + 1 X1i + 2 X2i + i ; i= 115

donde i ~ N(0; 2) y son independientes entre s.

Al tener una regresin lineal con dos variables explicatorias en el anlisis se tiene cuatro parmetros: ; 1;
2; 2
Aplicando el operador esperanza en ambos miembros de la expresin:
E(Y) = + 1 X1 + 2 X2

23

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

1 = Indica que para cada edad fija, al aumentar en 1 el nmero de hospitalizaciones previas, el tiempo
medio poblacional de hospitalizacin se modifica en los pacientes de enfermedades crnicas de un
hospital
2 = Indica que para un nmero de admisiones previas fijo, al aumentar en 1 ao la edad del paciente, el
tiempo medio poblacional de hospitalizacin se modifica en los pacientes de enfermedades crnicas
de un hospital
= Indica el tiempo medio poblacional de internacin de los pacientes en un hospital para enfermedades
crnicas para pacientes recin nacidos (edad cero) y sin internaciones previas, sin sentido biolgico.
= varianza poblacional de los errores del modelo.

y i = 2,09 dias+ 0,06 dias/UC x1i + 1,05 dias/aos x 2i

c) Ecuacin del plano estimado:

i=115,

(extrada de la salida de computadora).


Interpretaciones de los estimadores de los parmetros del modelo.
b1 = 0,06 das/nmero de admisiones previas. Indica que para cada edad fija, al aumentar en 1 el nmero
de hospitalizaciones previas, el tiempo medio estimado de hospitalizacin aumenta 0,06 das ( 1 hora)
en los pacientes de enfermedades crnicas de un hospital
b2 = 1,05 das/ao de edad. Indica que para un nmero de admisiones previas fijo, al aumentar en 1 ao
la edad del paciente, el tiempo medio estimado de hospitalizacin aumenta 1,05 das ( 1 da) en los
pacientes de enfermedades crnicas de un hospital
a = 2,09 das. Indicara el tiempo medio estimado de internacin en un hospital para enfermedades
crnicas para pacientes recin nacidos (edad cero) y sin internaciones previas, sin sentido biolgico.
s = 36,71 dias estima la varianza poblacional de los errores del modelo.
d) Anlisis de Regresin

H0 : 1 = 2 = 0
H1 : algn i 0 con i = 1, 2

Hiptesis conjunta

F = CMREGRESION / CMRESIDUAL ~ F(2, n-3)


Regla de decisin ( = 0.05)
Rechazo H0
si
No rechazo H0
si

FHo 3,89
FHo < 3,89

(F (2, 12); 0.95 = 3,89)

Decisin: F=34.08 por lo tanto se rechaza H0, el resultado es significativo.


Conclusin: Con un nivel de significacin del 5% se tienen evidencias suficientes para rechazar H 0
(H0:1=2=0), por lo tanto algn i 0, la regresin conjunta del tiempo de hospitalizacin con las
variables explicatorias nmero de admisiones previas y edad del paciente es significativa; o sea que al
aumentar conjuntamente, en una unidad, el nmero de admisiones previas y la edad, se modifica el
tiempo medio poblacional de hospitalizacin de los pacientes en los pacientes de cierto hospital de
enfermedades crnicas. El modelo propuesto parece aceptable para explicar la duracin de la internacin
en pacientes crnicos en este hospital.
Hiptesis individuales

H 0 :1 = 0
H1:1 0

Para X1:

Hiptesis estadstica

Para X2:

Hiptesis estadsticas

24

H 0 : 2 = 0
H1: 2 0

t = b1 / s b1 ~ t n-3

t = b2 / s b2 ~ t n-3

Estadstica Analtica 2015

Regla de decisin (=0,05)


Rechazo H0
No rechazo H0

Fac. Cs. Veterinarias (U.B.A)

tHo 2,179 tHo -2,179 (t12,0.975 = 2,179)


-2,179 < tHo < 2,179

si
si

Decisin 1: t=0,02 por lo tanto no se rechaza H0, el resultado es no significativo.


Conclusin 1: Con un nivel de significacin del 5%, no se tienen evidencias suficientes para rechazar H0:
1=0, por lo tanto se supone que al aumentar en uno el nmero de admisiones previas de los pacientes y
manteniendo fija la edad de los pacientes, no se modifica el tiempo medio poblacional de internacin de
los pacientes en pacientes crnicos en este hospital en estudio.
Decisin 2: t=3,22 por lo tanto se rechaza H0, el resultado es significativo.
Conclusin 2: Con un nivel de significacin del 5%, se tienen evidencias suficientes para rechazar
H0:2=0, por lo tanto 2 0, lo que significa que podemos suponer que al aumentar la edad de los
pacientes en un ao y manteniendo fijo el nmero de internaciones previas de los pacientes, se modifica
el tiempo medio poblacional de internacin de los pacientes en pacientes crnicos en este hospital en
estudio.
Conclusin final: Si bien el modelo propuesto para la duracin de las internaciones en pacientes crnicos
en funcin del nmero de internaciones previas y de la edad del paciente result adecuado, parecera que el
tiempo de internacin de los pacientes est afectado en forma significativa por la edad y no por la cantidad de
internaciones previas de los pacientes en los pacientes de este hospital de enfermedades crnicas.
e) Coeficiente de determinacin: R2 = 0,85
El 85% de la variabilidad total del tiempo de internacin en los pacientes de un hospital de enfermedades crnicas est explicada por el nmero de internaciones previas de los pacientes (X1) y la edad de los
pacientes
(X2)
conjuntamente,
segn
la
relacin
dada
por
el
modelo
estimado
y i = 2,09 + 0,06 x1i + 1,05 x 2i . i=115
PROBLEMAS PROPUESTOS
01.- Para analizar el rendimiento (en toneladas) de una pastura en funcin de la cantidad de agua aplicada
(riego artificial en mm) se realiz un experimento con 10 parcelas. Considere que se verifican todos los
supuestos tericos necesarios para realizar el anlisis. Los resultados se muestran en la tabla siguiente:
Agua

12

18

24

30

36

42

48

54

60

66

Rendimiento

a) Graficar e interpretar el diagrama de dispersin.


b) Estimar la ecuacin de regresin y graficarla en el diagrama anterior
c) Docimar el coeficiente de regresin al 5%
d) Para el supuesto de que al aumentar el riego en 1mm, el rendimiento de la pastura aumenta ms de
0,01tn
i) Las hiptesis estadsticas son: H0: ............................... H1: .................................
ii) El valor crtico es (=0,05): ..........................
iii) La regla de decisin es: ..............................................................................................
e) Calcular el R2 e interpretarlo.
f) Estimar el rendimiento medio de la pastura sin riego artificial con una confianza del 95%.
Seleccione la opcin correcta para concluir: Con un nivel de confianza del 95%
i)
se espera que el intervalo ; contenga al rendimiento medio de la pastura sin riego artificial en la
poblacin en estudio
ii) el intervalo ; cubre al verdadero valor del rendimiento medio de la pastura sin riego artificial en la
poblacin en estudio
iii) se espera que el intervalo ; cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial
iv) se espera que el intervalo ; cubra al valor medio poblacional del rendimiento de la pastura sin riego
artificial en la poblacin en estudio

25

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

g) Predecir el rendimiento de la pastura con un riego artificial de 50 mm con nivel del 95%.
El resultado obtenido es: ....................................................
Informacin adicional:
Anlisis de regresin lineal
Variable
N
R
R Aj
Rendimiento
10
0,83
0,80

ECMP
0,59

Coeficientes de regresin y estadsticos asociados


Coef
Est.
E.E.
LI(95%)
LS(95%)
T
const 4,70
0,50
3,56
5,85
9,47
Agua 0,07
0,01
0,04
0,10
6,16
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo. 15,28 1
15,28 37,90 0,0003
Agua 15,28 1
15,28 37,90 0,0003
Error
3,22
8
0,40
Total 18,50 9

p-valor
<0,0001
0,0003

02. La siguiente tabla registra datos correspondientes a concentraciones conocidas de -eritroidina (C, en
mg/ml) en una solucin acuosa, y la lectura de la turbidez de la solucin correspondiente (L) registrada en un
colormetro.
ci

40

45

50

55

60

65

70

75

80

85

li

69

72

175

180

272

265

335

340

490

492

Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis
a) Interpretar los coeficientes en trminos del problema.
b) Estimar la lectura media de una solucin cuya concentracin de -eritroidina es de 72 mg/ml, con un
nivel de confianza del 95%.
Datos:

625;

2
i

41125;

Anlisis de regresin lineal


Variable
N
R
R Aj
Lectura
10
0,96
0,95

2690;

2
i

927168;

c l

i i

188165; Se2 1105, 26

ECMP
1740,07

Coeficientes de regresin y estadsticos asociados


Coef
Est.
E.E.
LI(95%)
LS(95%)
const
-338,27
46,94
-446,53
-230,02
Concent
9,72
0,73
8,03
11,40
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
Modelo
194715,93
1
194715,93
Concent
194715,93
1
194715,93
Error
8842,07
8
1105,26
Total
203558,00
9

T
-7,21
13,27

p-valor
0,0001
<0,0001

F
p-valor
176,17 <0,0001
176,17 <0,0001

03.- Se realiz una experiencia para analizar la influencia de la anestesia en la presin intraocular. A 10 perros que haban recibido pentobarbital como induccin anestsica, se les aplic adems, como refuerzo,
metoxifluorano por inhalacin. Se control la presin intraocular media (pi, en unidades de presin), cada
cinco minutos una vez comenzada la inhalacin (ti, en minutos).

26

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

Tiempo

10

15

20

25

30

35

40

45

50

Presin

25,1

29,2

27,7

24,9

22,1

19,6

19,1

18,8

17,9

17,7

Considere que se verifican todos los supuestos tericos necesarios para realizar el anlisis
a) Indicar e interpretar el modelo lineal que se propone
b) Estimar los coeficientes para el modelo propuesto y expresar dicho modelo
c) Indicar los supuestos que deben tenerse en cuenta, en este caso, para poder hacer inferencia a la
poblacin en estudio
d) Estimar el coeficiente de regresin puntualmente y con una confianza del 95%
Informacin adicional:
Anlisis de regresin lineal
Variable
N
R
R Aj
Presin
10
0,83
0,81
Coeficientes
Coef
Est.
const 29,21
Tiempo -0,25

ECMP
6,23

de regresin y estadsticos asociados


E.E.
LI(95%)
LS(95%)
T
1,27
26,27
32,15
22,91
0,04
-0,35
-0,16
-6,20

Cuadro de Anlisis de la Varianza (SC tipo


F.V.
SC
gl
CM
F
Modelo
133,76 1
133,76 38,40
Tiempo
133,76 1
133,76 38,40
Error
27,87 8
3,48
Total
161,63 9

p-valor
<0,0001
0,0003

III)
p-valor
0,0003
0,0003

Cuestionario
1.- Dadas las variables X1: longitud y X2: peso, dentro del contexto de un anlisis de Regresin proponga:
a.- hiptesis de trabajo
b.- experimento (sea claro al comentar las acciones que realiza)
c.- supuestos tericos en este caso (No en forma genrica)
d.- significado biolgico de el o los parmetros poblacionales en estudio.
2.- Si en un anlisis de regresin lineal simple al estimar se obtiene que b = 2, puede afirmar que la
regresin es significativa? por qu? Explique de qu depende que se concluya "es significativo".
3.- Si debe elegir entre dos variables independientes o explicatorias (X 1 o X2) para predecir la variable
aleatoria Y, y mediante dos muestras independientes estima ambas regresiones. En qu se basa para
seleccionar la mejor variable explicatoria? Por qu?
4.- En un modelo de regresin lineal, mediante qu mtodo obtiene los estimadores de los parmetros
poblacionales? Explique brevemente el mtodo, NO LAS FRMULAS.
5.- En un Anlisis de Regresin Lineal Simple considerando un valor de Y por cada valor de X:
a) Cul es el parmetro que nos permite decidir si la regresin es significativa?? Qu significa?
Exprselo en trminos de un problema propuesto por Ud.
b) Cul es la descomposicin de la suma de cuadrados (SC) que se puede realizar a partir de una
observacin? Indicar grficamente dicha particin sealando a qu parte de la suma de cuadrados da
origen cada una de ellas.
c) Por qu en el Anlisis de Varianza para la Regresin Lineal la regin crtica es unilateral derecha?
d) El estadstico al que se hace referencia, qu relacin tiene con la distribucin t-Student?

27

Estadstica Analtica 2015

Fac. Cs. Veterinarias (U.B.A)

6.- Relacione los siguientes grficos con posibles valores de R2, suponiendo que el grfico representa la
situacin promedio de los desvos presentados.

A)

B)

C)

Y
Y

7.- Elija la opcin correcta:


En una prueba de hiptesis para en regresin lineal simple, los supuestos son:
a) X e Y son independientes, Y N (Y , 2)
b) X prefijada, X e Y son independientes, Y N (Y, 2)
c) X prefijada, los valores de Y son independientes entre si, Y N (Y, 2)
8.- Seleccionar V (verdadero) o F (falso), segn corresponda:
V F a) Si el coeficiente de determinacin es igual a 1, entonces la recta poblacional pasa exactamente
por los valores (Xi , Yi )
V F b) En un anlisis de RLS, el mtodo de mnimos cuadrados consiste en minimizar la SC de la
regresin
V F c) En un anlisis de regresin lineal multiple puede ocurrir que uno de los coeficientes i resulte
significativo y sin embargo el modelo resulte no significativo.
9.- Completar para obtener una expresin verdadera:
a) En un anlisis de RLS, bajo el modelo E(Yi)= + Xi, representa el ...............................en el valor
medio ............................ de la variable Y cuando la variable regresora ................................en una unidad.
b) En una prueba F de Snedecor para , se pone a prueba .....................................de la regresin
c) En una prueba F de Snedecor para , el p-valor representa el rea ubicada ........................... de los
valores mayores o iguales a FHo
d) En un anlisis de regresin mltiple, bajo el modelo E(Y i)= + 1 X1i+ 2 X2i, 1 representa el
...............................en el valor medio ............................ de la variable Y cuando la variable regresora
................................en una unidad y ..constante.

28