Vous êtes sur la page 1sur 6

Epidemiologa 17

Aclaraciones 2004 en la ltima pgina

REGRESIN NO LINEAL Y MLTIPLE


CONCEPTOS PREVIOS:
A la hora de analizar variables, puedo hacerlo de forma independiente (univariante) o
conjuntamente (multivariante). Para este ltimo, los modelos de regresin son los ms
usados.
Tipos de modelos de regresin: lineal (simple o mltiple), logstica y anlisis de la
Supervivencia.
Antes de introducirnos en el tema de la clase, haremos un pequeo recuerdo de la
regresin lineal simple:
La estadstica trata de relacionar variables y cuantificar la relacin entre ellas. En
la regresin lineal simple se relacionan dos variables. Generalmente estas variables no
tienen el mismo peso, es decir, que no son igual de importantes: una es ms fcil de
medir o identificar (variable independiente) y es causa de la otra (variable dependiente).
El anlisis de regresin es til para determinar la posible forma de relacin entre
dos variables cuantitativas que siguen una distribucin normal, y por tanto, se puede
usar para hacer predicciones o estimar el valor de una variable que corresponde para un
valor de otra. Ej: si conocemos la relacin entre las variables semanas de gestacin/peso
de RN, podramos estimar el valor de una de ellas (peso) que correspondera a un
determinado valor para las semanas de gestacin que conocemos.

En este anlisis disponemos de dos variables de inters, x e y:


Variable x = variable independiente, predictora o explicativa. Es controlada por el
investigador (en el ejemplo anterior seran las semanas de gestacin ).
Variable y = variable dependiente, respuesta o explicada.
La relacin entre ambas variables sigue un modelo o ecuacin lineal: y = f(x);
y = a + bx. (ecuacin de una recta )

OBJETIVOS DEL PROCEDIMIENTO DE REGRESIN:


-

Estudiar relaciones entre variables.


Determinar el tipo de funcin matemtica que relaciona de manera ptima
las variables.

Realizar las predicciones de la variable dependiente a partir de datos de la


independiente.
Pretender explicar el comportamiento de una variable a travs de otra.

PROCEDIMIENTOS OPERATIVOS PARA LLEGAR A LOS OBJETIVOS:


Condiciones previas a hacer el modelo
1.- Calcular los parmetros de regresin: ver si las dos variables estn relacionadas.
Calculamos el coeficiente de correlacin lineal de Pearson ( R ), que debe ser
significativo, pero adems debe ser un buen coeficiente de correlacin (>07, luego
veremos por qu 07) pues la significacin es necesaria pero no suficiente.
Calculamos los coeficientes de regresin:
a = representa el punto en el que la recta corta al eje vertical
b = es la pendiente de la recta, e indica cuntas veces cambia el valor de y en funcin
de x ( as s el peso que tiene la variable x para calcular la y ). b tiene que ser significativo, y
esto va arrastrado por R que al ser significativo hace que b tambin lo sea.
Ho = hiptesis nula, indica que no hay relacin entre las variables y ocurre cuando b = 0
H1=hiptesis alternativa, indica que existe relacin entre las dos variables, as que b 0.
Para conseguir el mejor modelo se utilizan dos procedimientos:
- Procedimiento de ajuste de mnimos cuadrados. Es un modelo matemtico que
trata de hacer mnimas las distancias entre el valor experimental y el terico del
modelo. Sirve para pasar de una nube de puntos a una recta.
- Distancia mnima = dispersin mnima.
Hay que tener en cuenta que como todo procedimiento estadstico, debe tener una
medida de error, por eso todos los modelos deben acompaarse de una determinada
significacin ( error estndar ) tanto para la pendiente de la recta como para la ordenada en el
origen. El error estndar de las variables se llama error estndar de los residuos, e indica la
separacin existente entre el valor terico y el experimental. Es importante asegurarse de que
los residuos sean pequeos.
Se determina el error estndar de los residuos o varianza residual. Llevados a la
ecuacin permiten hallar el error estndar de la recta.
Puesto que cada punto tiene un error, ya no nos sale una recta sino una banda de
confianza. Esta banda de confianza se caracteriza por no ser fija: a medida que nos alejamos del
punto central ( nuestro valor experimental ) hay ms puntos predictivos y el error sera mayor.

2.- Clculo de la calidad del modelo y la varianza de los resultados.


Despus me planteo si la calidad del modelo es suficiente para hacer
estimaciones ( el valor medio de y, es un valor estimado, existe una cierta dispersin
que debe ser pequea para que exista una buena bondad de ajuste )
Para ellos se calcula el coeficiente de determinacin ( R2 ) o % de varianza que
explica el modelo, que para el modelo lineal simple coincide con el coeficiente de
correlacin de Pearson al cuadrado. Mide la intensidad de la relacin lineal entre dos
variables cuantitativas ( es decir, nos est diciendo si el modelo que hemos hallado tiene
una buena relacin, y si hay o no mucho residuo ).

En un modelo con ajuste ideal R = 1, hay una relacin perfecta entre x e y.


Todos los puntos estn en una recta, no hay residuo. El modelo terico explica
perfectamente el modelo experimental. Se considera un modelo con una bondad de
calidad de ajuste suficiente cuando R2 0,5 (lo menos que puedo pedir es que el modelo
sea explicado al 50% o dicho de otro modo, que explique lo mismo que deja de
explicar), as a partir de R = 0,7 (R 2 = 0,49). Por eso decamos antes que R, a parte de
ser significativo, deba de ser > 07.
De todas formas, el concepto de coeficiente de determinacin va ms all del
mero R2, pero es que en nuestro caso concreto de R. lineal coincide con R 2 porque
(07)2 = 049 que sera el 50%.
Pero antes de todo debemos comprobar la homogeneidad de las dispersiones de
los datos, y esto se hace con un anlisis de la varianza de donde sale el valor F de
Sndcor, si este valor supera el valor de la tabla de Sndcor, la desproporcin resulta
excesiva para ser atribuida al azar y las dispersiones difieren de una forma
estadsticamente significativa con p < 0,05.
Por el contrario un modelo malo no explica toda la dispersin de los datos y R 2
se aproxima a cero.
Lo normal es que haya parte que no explica el modelo, y que se explique por el
azar ( dispersin residual = DR ) y por tanto se puede cuantificar la dispersin del
modelo ( dispersin factorial = DF ) frente a la dispersin total ( DT ).
R2 = DF /DT
3.- Comprobar la validez terica del modelo.
Pero podemos tener un modelo que cumpla las condiciones de significacin y
tener un coef, de determinacin adecuado (055% por ejemplo) y sin embargo vemos
que solamente se explica el 55% de la varianza en funcin de la var. Explicativa o
indpte. Esto quiere decir que hay otros factores determinantes de y que no han sido
tenidos en cuenta. Los residuos totales (todos los resultados experimentales) se deben
distribuir aleatoriamente siguiendo una distribucin normal con media = 0 para que el
modelo sea perfecto; si no ocurre as, habr factores no tenidos en cuenta.

REGRESIN MLTIPLE
Con la Regres. Mltiple nuestra idea es introducir ms variables para intentar
explicar lo que queda por explicar; para ello deberemos ser ms exigentes con R2.
En la clnica es difcil que con una variable slo se pueda predecir otra ( tendra que
existir mucha relacin ). Lo ideal sera tener muchas, aunque luego se pongan unas en funcin
de otras. En el modelo de regresin mltiple hay varias variables independientes ( x1, x2, x3 .....
xp )
Este modelo responde a y = a + b1x1 + b2x2 + ......+ bpxp. De tal forma que ya no ser
una recta, sino un plano o un hiperplano.
Para conseguir la regresin mltiple tambin se utiliza el modelo de mnimos
cuadrados.
Debo plantearme la significacin y la calidad de ajuste del modelo ( igual que en la
regresin simple ) :
Si b = 0, no significativo ( b1 = b2 = b3 ..... = bp = 0) ( Ho )
Si b 0, significativo ( H1, que ser mltiple )

Necesito hacer tambin un anlisis multivarianza para calcular la F de


Snedecor, para ver que sea significativo globalmente.

Aunque el modelo sea significativo, no significa que el valor de todos los


coeficientes ( b ) sea significativo pues conque uno lo sea, el modelo lo ser tambin-,
y es importante saber cul no lo es porque entonces no aportara casi nada; esto se sabe
por el estadstico de Wald que tiene distribucin t de student. Es importante tener en
cuenta que si elimino alguna variable, los coeficientes de las otras cambian.
Lo ms importante en la regresin mltiple es conocer:
1.- Coeficiente de regresin ( a, b ) : Determina el peso de cada variable.
2.- Coeficiente de correlacin ( R ) : Son variables mltiples, pero siguen siendo
lineales. Con dos variables este coeficiente es nico, pero con ms de dos existen
distintos coeficientes de correlacin:
- Coeficientes de correlacin simples : Ryx 1, Ryx2
- Coeficientes de correlacin parciales: se pueden establecer por parejas
- Coeficiente de correlacin mltiple global
- Coeficientes de regresin: b1, b2 ,b3...... bp
- Coeficiente de determinacin mltiple= coeficiente de correlacin mltiple
al cuadrado. R2 = Df /Dt
MODELOS DE REGRESIN MLTIPLE:
1. R, Lineal mltiple
2. R. Logstica
3. R. de Cox
RLM
RLOG
RCOX
Var. Dependiente
Continua
Dicotmica
Tiempo hasta
ndice que explican
b
OR
HR
(pendiente de la recta)

Calidad del modelo

R2

(similar al OR)

Clasificacin

-2LL
(log de la verosimilitud)

REGRESIN LINEAL MLTIPLE


VARIABLES: respuesta (cuantitaiva continua) y la explicativa (son mltiples y pueden
ser cuantis preferentemente- o dicotmicas).
SELECCIN DE VARIABLES
- Cuntas ? Se recomienda n/p 10, siendo n = tamao muestral, p = n
variables.
- Cules ? Se elegirn aquellas variables que tengan aceptable significacin,
aportacin al modelo y multicolinealidad (que estn poco relacionadas,
porque si lo estn mucho se repite la informacin y se pierde viabilidad).
- Mtodo de seleccin. Hay dos opciones:
1.- Modelo ENTER: Incluye todas las variables posibles en el modelo. Se utiliza
cuando no se tiene muy claro qu variables se quieren.
2.- Seleccin por ETAPAS: no nos interesan todas, sino las mejores. Tiene tres
variantes:
- BACKWARD: partimos de toda las variables posibles y eliminamos las no
significativas.
- FOWARD: partimos de pocas variables y vamos aadiendo. Se introducen
las ms significativas hasta llegar a una que no lo sea ( se introducen de ms
a menos significativa )
- STEPWIDE ( paso a paso ) : es el que ms se utiliza. Empieza con un
nmero determinado de variables y en cada caso replantea el modelo para

decidir si se vuelve a introducir una variable que se sac en el paso anterior


o si se saca una que se introdujo previamente ( una variable puede dejar de
ser importante al introducir otra o pasar a serlo ). Se diferencia de los
anteriores en que se replantea el modelo en cada paso.
INFORMACIN OBTENIDA CON EL SPSS
Cmo saber si el modelo est bien calculado cuando sale por un mtodo informtico o
nos lo dan hecho ? Hay que fijarse en lo siguiente :
Modelo ENTER:
- Valor de F de Sndcor para significacin del modelo. F es el cociente de varianzas.
Mide la dispersin y est ntimamente relacionado con R2.
- Coeficiente de regresin y su significacin.
- Valores de ( transformacin del coeficiente de regresin ajustado a otras
variables )
Modelo con algunas variables:
- Informacin anterior sobre las variables que constituyen el modelo.
- Informacin sobre las variables que no entran en el modelo:
- Coeficiente de correlacin parcial con la variable dependiente, eliminando
la influencia de los valores independientes que ya estn en el modelo.
- Valores de y significacin con el coeficiente de regresin
- Tolerancia : % de la varianza de cada variable independiente que no est
explicada por las otras variables independientes que ya forman parte del
modelo. La tolerancia es el complementario del coeficiente de
determinacin ( R2 ), y se puede calcular para cada coeficiente de
determinacin parcial ( 1 R x12, tolerancia parcial ). En criterios de
seleccin de variables, no siempre se elige la que ms relacionada est, a
veces se elige la de mayor tolerancia.

Siempre se puede forzar que una variable entre en el modelo an no siendo


significativa ( simplemente porque nos interesa, porque sale mucho en la literatura ... )
CALIDAD: Se determina mediante R2. El R ajustado es un patrn de calidad que
no depende del nmero de variables introducidas. Un R2 bajo no necesariamente indica
que las variables seleccionadas no permitan estimar adecuadamente la var respuesta; es
posible que la relacin no sea lineal.

REGRESIN NO LINEAL
Existen fenmenos biolgicos donde la relacin no es una lnea recta, as no
existe coeficiente de correlacin de Pearson, pero existe relacin y se puede hacer un
modelo de relacin que no es lineal. Debo plantearme la significacin y la calidad de
ajuste del modelo, y aunque no existe R, s que existe el coeficiente de determinacin :
R2 = Df /Dt 0,05
As puedo hacer varios modelos ( lineales y no lineales ) y elijo el de mayor R 2;
si existe poca diferencia elijo el lineal que es ms fcil de usar que por ejemplo que un
modelo exponencial. Es importante saber que el anlisis multivariante y la regresin
mltiple se hacen siempre en modelos lineales.

Aclaraciones (2004)
Si existe un orden de prioridad entre distintas variables, entonces hablamos de
REGRESIN. Toda la informacin no tiene el mismo nivel de importancia. P.e.,
queremos saber qu pasa con PA, se relaciona con la edad, dosis frmaco,
duracin del tratamiento... lo que quiero saber es el efecto de cada una de ellas
sobre la PA y cul influye ms.
a) Regresin SIMPLE. Existen slo 2 variantes: una variante RESPUESTA
(PA) y otra que influye sobre ella (p.e. dosis de frmaco)
Se representa con una recta: y=a+bx, donde b es el coefiente de la variable
independiente (coeficiente de regresin) y permite estimar el peso que tiene la
variable independiente sobre la dependiente, dicho de otro modo, lo que influye
la dosis de frmaco en los niveles de PA.
El modelo ha de ser:
1. significativo. Se expresa con la f de Snedecor
2. garantizar una buena calidad de ajuste. Se mide con el coeficiente de
determinacin (R). Un modelo es bueno si R es alto (lo ms alto posible),
siendo el mximo 1, debe ser al menos 0,5. Es decir, si R est entre 0,5 y 1
podemos decir que el modelo tiene buena calidad de ajuste.
3. adems hay que saber el intervalo de confianza del coeficiente de la
variable independiente (coeficiente de regresin), o dicho de otra manera, el
intervalo de confianza de b, en y=a+bx.
b) Regresin lineal MLTIPLE. Existen ms de 2 variantes, con distinta
importancia. Hay ms variables independientes que se relacionan con la
dependiente (y).
Entonces hay varios coeficientes de dispersin, uno por cada variable.
Tendremos un modelo global significativo, pero con distintos coeficientes de
dispersin, a su vez con distintos intervalos de confianza y calidades de ajuste.
Para poder utilizar este modelo las variables han de ser CUANTITATIVAS
(medibles) y seguir la distribucin NORMAL (esto quiere decir seguir la
distribucin de Gauss). Este punto es importante porque si no se cumplen estas
dos premisas, estamos usando mal el modelo y el resultado no sera vlido.
Esto que parece tan complicado, en realidad lo hace solito el ordenador. Ese es el
punto de los apuntes SELECCIN DE VARIABLES , donde lo que explica es
las distintas maneras de usar el ordenador para ir seleccionando variables
significativas (hacia delante, hacia atrs), para el final quedarte con un modelo
matemtico que explique la relacin de la PA, con todas las variables que has
considerado (edad, dosis de frmaco, duracin del tratamiento, etc.)
seleccionando las ms significativas, y desechando las que no lo son.