Vous êtes sur la page 1sur 12

Bioestadstica II.

Gabriel Cavada

Regresin Lineal Mltiple

Siguiendo la idea inspiradora de la regresin lineal simple, esto es, observado un efecto buscar la o las causas que
lo produjeron, aceptamos ampliamente que este efecto puede ser producido por ms de una causa, es decir
aceptamos la multicausalidad de una respuesta, concepto que se acerca con mayor fidelidad a la realidad que
estamos observando. Si la respuesta o efecto lo atribuimos a p posibles causas, la idea anterior la expresamos
matemticamente as:

Y = f ( X 1 , X 2 , X 3 ,..., X p )

Efecto o respuesta Causas

Nos interesa modelar la respuesta cuando la relacin funcional entre la respuesta y la causa es lineal, es decir, de la
forma:

Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p

O bien, si nos centramos en la i-sima observacin:

Yi = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p + i

 ( 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p ,  )
I. Estimacin por mxima verosimilitud: Se basa en suponer que:


 (0,  )
O equivalentemente:

As la funcin de verosimilitud toma la siguiente forma:

"  0
&


+ 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p 
 !
1  %
 $
 ,  , ,  ,   = 

 
2
Al igual que en regresin lineal simple, se obtienen los estimadores de los parmetros del modelo.

Sin embargo, se necesitan agrega el supuesto de independencia entre los predictores, esta exigencia se conoce
como no colinealidad o no multicolinealidad.
Bioestadstica II. Gabriel Cavada

Una vez ajustado un modelo de regresin, es necesario conocer la calidad del mismo, para ello
la variabilidad total de Y, que no depende del modelo ajustado, puede descomponerse del siguiente
modo:

( ) ( ) ( )
2 2 2
Y Y = Y Y + Y Y

SCTotal = SCResidual + SCRegresin

Varianza Total = Varianza no explicada + Varianza explicada

Se define el coeficiente de determinacin como:

( )2
Y Y
R2 =

2
(Y Y )
Sin embargo, el coeficiente de determinacin, aumenta en la medida que se incorporan variables al
modelo, sin aportar, necesariamente una explicacin plausible a la respuesta, por esta razn es
necesario corregir este coeficiente, por la cantidad de predictores involucrados en el modelo, al
2
coeficiente de determinacin corregido se le llama R ajustado.
Bioestadstica II. Gabriel Cavada

La descomposicin de la variabilidad o Tabla ANOVA es:

Fuente de Variacin Grados de libertad Suma de cuadrados Cuadrado medio F

(Y Y ) (Y Y )
Regresin p 2 2 CMreg
CMreg = F=
CMres
p

(Y Y ) (Y Y )
Residuo n-p-1 2 2

CMres =
n p 1

(Y Y )
Total n-1 2

Asociada a la descomposicin de la variabilidad y por ende a la calidad del modelo, se tiene la siguiente dcima:
2
H : = 0
0

H 1 : 2 > 0
Cuya estadstica de prueba es:
CMreg
F= ~F(p,n-p-1)
CMres
La estimacin de la varianza del error es:

= CMres =
S 2 (Y Y ) 2

n p 1
Bioestadstica II. Gabriel Cavada

Ejemplo ilustrativo:

En pacientes con antecedentes con infarto agudo al miocardio, se desea explicar la presin arterial media
(pam=2pdias/3-psist/3) a travs de las siguientes variables:

Variable Etiqueta
edad en aos
sexo 0:masc 1:fem
peso kg
talla m
glicma glicemia
coltot colest. Total
hdl coles. Hdl
ldl coles. Ldl
trigl Triglicridos

Los datos estn en la base remultiple.dta.

Primera estrategia de anlisis:


1. Con peso y talla se gener el imc
2. Se describe la muestra
3. Se explora la asociacin de pam con las variables explicativas.

. tab sexo

0:masc |
1:fem | Freq. Percent Cum.
------------+-----------------------------------
0 | 2,422 73.48 73.48
1 | 874 26.52 100.00
------------+-----------------------------------
Total | 3,296 100.00

. tabstat edad glicma coltot hdl ldl trigl imc pam, stat(n min q max mean sd) col(stat)

variable | N min p25 p50 p75 max mean sd


-------------+--------------------------------------------------------------------------------
edad | 3296 17 53 62 72 98 62.52488 12.67926
glicma | 3296 31 112 134 183 926 162.8494 84.24484
coltot | 3296 66 164 194 224 992 197.6633 58.338
hdl | 3296 10.2 35 42 50 99 43.31201 12.35635
ldl | 3296 10 92 119 146 415 120.4346 41.36683
trigl | 3296 18 98.5 136 192 3900 159.5226 118.6273
imc | 3296 18 24.4 26.6 29.3 44.5 27.11478 3.934646
pam | 3296 38 87.6 101.15 115.3 203.3 102.1407 21.06202
----------------------------------------------------------------------------------------------
Bioestadstica II. Gabriel Cavada

Exploracin de asociaciones de la pam:


. ttest pam ,by(sexo)

Two-sample t test with equal variances


------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 2422 102.9195 .4213516 20.73632 102.0932 103.7457
1 | 874 99.98272 .7376175 21.80655 98.53501 101.4304
---------+--------------------------------------------------------------------
combined | 3296 102.1407 .3668651 21.06202 101.4214 102.8601
---------+--------------------------------------------------------------------
diff | 2.936765 .829645 1.310093 4.563437
------------------------------------------------------------------------------
diff = mean(0) - mean(1) t = 3.5398
Ho: diff = 0 degrees of freedom = 3294

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0


Pr(T < t) = 0.9998 Pr(|T| > |t|) = 0.0004 Pr(T > t) = 0.0002

El p-value en negritas indica que hay evidencias de que la pam es distinta entre hombres y mujeres.

. pwcorr pam edad glicma coltot hdl ldl trigl imc,sig

| pam edad glicma coltot hdl ldl trigl


-------------+---------------------------------------------------------------
pam | 1.0000
|
|
edad | -0.0610 1.0000
| 0.0005
|
glicma | -0.0740 0.0991 1.0000
| 0.0000 0.0000
|
coltot | 0.1125 -0.1504 -0.0068 1.0000
| 0.0000 0.0000 0.6963
|
hdl | 0.0546 0.1451 -0.0383 0.1116 1.0000
| 0.0017 0.0000 0.0280 0.0000
|
ldl | 0.1235 -0.1537 -0.0370 0.7388 0.0369 1.0000
| 0.0000 0.0000 0.0338 0.0000 0.0340
|
trigl | 0.0701 -0.1970 0.0091 0.2783 -0.1941 0.0769 1.0000
| 0.0001 0.0000 0.6034 0.0000 0.0000 0.0000
|
imc | 0.1295 -0.1827 0.0637 0.0838 -0.0960 0.0656 0.1206
| 0.0000 0.0000 0.0003 0.0000 0.0000 0.0002 0.0000

Los p values en negritas indican que la pam est correlacionada significativamente con todas las variables predictoras,
pero adems se observa que entre los predictores hay una fuerte evidencia de multicolinealidad.

'()*
'(
Exploracin del nivel de multicolinealidad: El mtodo de los valores y vectores propios: se genera un ndice, L= , el
cuociente entre el mayor y el menor valor propio de la matriz de correlaciones construida con slo los predictores, y
este se compara segn el siguiente criterio:

Si L< 30 hay poca colineealidad


Si 30 L 100 colinealidad moderadada
Si L>100 hay colinealidad fuerte
Bioestadstica II. Gabriel Cavada

. pca edad glicma coltot hdl ldl trigl imc

Principal components/correlation Number of obs = 3296


Number of comp. = 7
Trace = 7
Rotation: (unrotated = principal) Rho = 1.0000

--------------------------------------------------------------------------
Component | Eigenvalue Difference Proportion Cumulative
-------------+------------------------------------------------------------
Comp1 | 1.93785 .580822 0.2768 0.2768
Comp2 | 1.35702 .305423 0.1939 0.4707
Comp3 | 1.0516 .129815 0.1502 0.6209
Comp4 | .921786 .142496 0.1317 0.7526
Comp5 | .77929 .0472119 0.1113 0.8639
Comp6 | .732078 .5117 0.1046 0.9685
Comp7 | .220378 . 0.0315 1.0000
--------------------------------------------------------------------------

. dis 1.93785 /.220378


8.7933006

Es decir este nmero indica que la multicolinealidad es dbil. Por lo tanto se estima el modelo completo, es decir
explicar la pam a travs de: edad imc glicma coltot hdl ldl trigl, an no se incluye sexo:

. reg pam edad glicma coltot hdl ldl trigl imc

Source | SS df MS Number of obs = 3296


Evidencia de la existencia
-------------+------------------------------ F( 7, 3288) = 21.34 del modelo: a lo menos una
Model | 63511.2566 7 9073.03666 Prob > F = 0.0000 de las variables explica a la
Residual | 1398179.44 3288 425.237055 R-squared = 0.0435 pam
-------------+------------------------------ Adj R-squared = 0.0414
Total | 1461690.69 3295 443.608708 Root MSE = 20.621

------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------

Los p-values en negritas indicas que las respectivas variables explican significativamente a la pam. La hiptesis nula
es que el coeficiente respectivo es nulo.

Un modelo de regresin mltiple debe ser parsimonioso, es decir debe explicar lo mximo posible con un mnimo
de variables predictoras.

En este anlisis se observa que ni la edad ni el colesterol total explican significativamente a la pam: Si son sacadas
del modelo Se pierde capacidad de explicacin?. Esta respuesta la entrega el Test de Razn de Verosimilitudes
(Likelihood ratio test), cuya hiptesis nula es que el modelo inicial y el modelo reducido tienen la misma capacidad de
explicacin:
Bioestadstica II. Gabriel Cavada

. reg pam edad glicma coltot hdl ldl trigl imc

Source | SS df MS Number of obs = 3296


-------------+------------------------------ F( 7, 3288) = 21.34
Model | 63511.2566 7 9073.03666 Prob > F = 0.0000
Residual | 1398179.44 3288 425.237055 R-squared = 0.0435
-------------+------------------------------ Adj R-squared = 0.0414
Total | 1461690.69 3295 443.608708 Root MSE = 20.621

------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
edad | -.023115 .0299411 -0.77 0.440 -.0818201 .0355901
glicma | -.0186019 .0043097 -4.32 0.000 -.0270519 -.0101518
coltot | -.0014451 .009902 -0.15 0.884 -.0208598 .0179696
hdl | .1260887 .0306547 4.11 0.000 .0659845 .186193
ldl | .0539938 .0133053 4.06 0.000 .0279062 .0800813
trigl | .0107094 .003369 3.18 0.001 .004104 .0173149
imc | .6686379 .0937813 7.13 0.000 .4847621 .8525136
_cons | 75.09872 3.863546 19.44 0.000 67.52352 82.67392
------------------------------------------------------------------------------

. estimates store A

. reg pam glicma hdl ldl trigl imc

Source | SS df MS Number of obs = 3296


-------------+------------------------------ F( 5, 3290) = 29.76
Model | 63250.3562 5 12650.0712 Prob > F = 0.0000
Residual | 1398440.34 3290 425.057853 R-squared = 0.0433
-------------+------------------------------ Adj R-squared = 0.0418
Total | 1461690.69 3295 443.608708 Root MSE = 20.617

------------------------------------------------------------------------------
pam | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
glicma | -.0190041 .0042777 -4.44 0.000 -.0273913 -.0106169
hdl | .1225339 .0297766 4.12 0.000 .0641514 .1809165
ldl | .0534757 .0087438 6.12 0.000 .0363319 .0706195
trigl | .0108991 .0031131 3.50 0.000 .0047952 .0170029
imc | .6795968 .0925668 7.34 0.000 .4981025 .8610911
_cons | 73.32228 3.121049 23.49 0.000 67.20288 79.44167
------------------------------------------------------------------------------

. estimates store B

. lrtest A B

Likelihood-ratio test LR chi2(2) = 0.61


(Assumption: B nested in A) Prob > chi2 = 0.7353

El p value en negritas indica que el modelo reducido explica igual cantidad que el inicial.
Bioestadstica II. Gabriel Cavada

Variables indicatrices (Dummys)

Si en el modelo:

Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + ... + p X p
Es necesario introducir variables explicativas que son de naturaleza nominal (no numricas), tales como, sexo, raza,
tratamiento u otras, debemos introducir el concepto de variable indicatriz o variables dummy. Estas variables son
generadas a partir de una variable categrica que est medida en k niveles, de modo tal que esta producir tantas
variables dummy como niveles tenga, as cada dummy indicar la pertenencia de la unidad de observacin,, en
forma excluyente a cada nivel de la variable original. Es decir:

Si X una variable categrica medida en r niveles, entonces se definen r variables dummys que indican en forma
EXCLUYENTE la pertenencia de una unidad de observacin a un determinado nivel de la variable, as:

1 si el sujeto est en el nivel X 1


d1 =
0 si el sujeto no est en el nivel X 1
1 si el sujeto est en el nivel X 2
d2 =
0 si el sujeto no est en el nivel X 2
.
.
.
1 si el sujeto est en el nivel X r
dr =
0 si el sujeto no est en el nivel X r

Ejemplo: Supongamos que se registra la variable Nivel Educacional medida en tres niveles:

1 nivel bajo

ivel Educacional = 2 nivel medio
3 nivel alto

Y se registra informacin de 5 sujetos, que se muestran a continuacin:


Bioestadstica II. Gabriel Cavada

Al ejecutar el siguiente comando en STATA, se generarn las variables dummys respectivas:

. tab Nivel_Educacional, gen(NEdu)


Nivel_Educa |
cional | Freq. Percent Cum.
------------+-----------------------------------
1 | 2 40.00 40.00
2 | 2 40.00 80.00
3 | 1 20.00 100.00
------------+-----------------------------------
Total | 5 100.00

Una vez creadas estas variables ellas entran al modelo lineal mltiple del siguiente modo:

Y = 0 + 2 IVEdu2 + 3 IVEdu3
Respuesta promedio en el grupo de referencia

Respuesta promedio en el grupo 2

Respuesta promedio en el grupo 3


Bioestadstica II. Gabriel Cavada

Ejemplo: Un mdico sospecha que la efectividad de un tratamiento hipotensor, debido a su complejidad, depende
del nivel educacional del paciente y de su edad. La principal respuesta es el cambio de PAM (mm Hg) al cabo de
un mes de tratamiento, el registro de datos se encuentra en PAM.dta

-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
pac float %9.0g
Neduc float %9.0g 1:bajo 2:medio 3:alto
edad float %9.0g
deltaPAM float %9.0g
-------------------------------------------------------------------------------
Sorted by: pac

. tabstat deltaPAM, stat(n min q max mean sd) by( Neduc)


Summary for variables: deltaPAM
by categories of: Neduc (1:bajo 2:medio 3:alto)
Neduc | N min p25 p50 p75 max mean sd
---------+--------------------------------------------------------------------------------
1 | 10 -.9 -.9 -.9 -.8 -.8 -.86 .0516398
2 | 10 -1.9 -1.9 -1.85 -1.8 -1.8 -1.85 .0527046
3 | 10 -1.6 -1.6 -1.6 -1.5 -1.5 -1.56 .0516398
---------+--------------------------------------------------------------------------------
Total | 30 -1.9 -1.8 -1.6 -.9 -.8 -1.423333 .42563
------------------------------------------------------------------------------------------

Vaiacin de deltaPAM por nivel educacional


-.5
-1
-1.5
-2

1 2 3

Source | SS df MS Number of obs = 30


-------------+------------------------------ F( 2, 27) = 958.07
Model | 5.18066651 2 2.59033325 Prob > F = 0.0000
Residual | .073000006 27 .002703704 R-squared = 0.9861
-------------+------------------------------ Adj R-squared = 0.9851
Total | 5.25366651 29 .181160914 Root MSE = .052

------------------------------------------------------------------------------
deltaPAM | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
NEDU2 | -.99 .0232538 -42.57 0.000 -1.037713 -.942287
NEDU3 | -.7 .0232538 -30.10 0.000 -.7477129 -.6522871
_cons | -.86 .0164429 -52.30 0.000 -.8937381 -.8262619
------------------------------------------------------------------------------
Bioestadstica II. Gabriel Cavada

deltaPAM = 0.86 0.99EDU 2 0.7EDU 3

Promedio de
deltaPAM en nivel Promedio de
educacional 1 deltaPAM en nivel
=-0.86 educacional 3
=-0.86-0.7=-1.56

Promedio de
deltaPAM en nivel
educacional 2
=-0.86-0.99=-1.85

. reg deltaPAM NEDU2 NEDU3 edad


Source | SS df MS Number of obs = 30
-------------+------------------------------ F( 3, 26) = 1566.00
Model | 5.22475126 3 1.74158375 Prob > F = 0.0000
Residual | .028915253 26 .001112125 R-squared = 0.9945
-------------+------------------------------ Adj R-squared = 0.9939
Total | 5.25366651 29 .181160914 Root MSE = .03335
------------------------------------------------------------------------------
deltaPAM | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
NEDU2 | -.9957627 .014942 -66.64 0.000 -1.026476 -.965049
NEDU3 | -.7028814 .0149209 -47.11 0.000 -.7335518 -.6722109
edad | .0144068 .0022882 6.30 0.000 .0097033 .0191103
_cons | -1.712881 .1358731 -12.61 0.000 -1.992172 -1.43359
------------------------------------------------------------------------------

. predict deltaPAMhat

. twoway (line deltaPAMhat edad if Neduc==1,sort) (line deltaPAMhat edad if Neduc==2,sort) (line
deltaPAMhat edad if Neduc==3,sort)

-.5
Valores ajustados de PAM

-1

-1.5

-2
54 56 58 60 62 64
edad

pam vs. edad en NEduc=1 pam vs. edad en NEduc=2


pam vs. edad en NEduc=3
Bioestadstica II. Gabriel Cavada

Vous aimerez peut-être aussi