Vous êtes sur la page 1sur 7

Rev Cubana Endocrinol 12(1):58-64

Metodologa cientfica
Instituto Nacional de Endocrinologa

REGRESIN LOGSTICA. UN EJEMPLO DE SU USO EN ENDOCRINOLOGA


Dra. Emma Domnguez Alonso1 y Dra. Deysi Aldana Padilla2

RESUMEN
Se intent un acercamiento a la regresin logstica, como una de las tcnicas estadsticas multivariadas de ms frecuente uso en las ltimas dcadas, para orientar a su uso correcto. Se consideraron cuestiones de tipo prctico como nmero de sujetos necesarios para aplicarla, situaciones en las que est indicado su uso, tipo de variables a las que es posible aplicarla y las formas en que puede ser incluida en el modelo, interpretacin de los resultados, etc. Se mostr un ejemplo de la aplicacin de esta tcnica en una investigacin en el campo de la Endocrinologa. Se concluy que la regresin logstica resulta de gran utilidad para su aplicacin en cualquier campo de la investigacin mdica cuando necesitamos precisar el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso. DeCS: MODELOS LOGISTICOS; ENDOCRINOLOGIA.

La tcnica de la regresin logstica se origin en la dcada de los 60 con el trabajo de Cornfield, Gordon y Smith1 en 1967 Walter y Duncan la utilizan ya en la forma que la conocemos actualmente, o sea para estimar la probabilidad de ocurrencia de un proceso en funcin de ciertas variables.2 Su uso se incrementa desde principios de los 80 como consecuencia de los adelantos ocurridos en el campo de la computacin.
1 2

En una bsqueda sistemtica realizada en el MEDLINE encontramos que la regresin logstica fue citada en 3 892 publicaciones durante el ao 1999, en 285 de ellas conjuntamente con la diabetes mellitus (DM). Teniendo en cuenta su frecuente uso, del cual no est exenta la Endocrinologa, nos propusimos realizar este trabajo orientado a lograr un acercamiento

Especialista de I Grado en Bioestadstica. Departamento de Metodologa de la Investigacin. Especialista de II Grado en Epidemiologa. Investigadora Auxiliar. Jefa del Departamento de Epidemiologa y Nutricin.

58

(ms prctico que terico) a los aspectos ms importantes relativos a esta tcnica estadstica. Nuestro trabajo fue estructurado en 3 partes fundamentales: 1. Breve revisin terica de la tcnica. 2. Algunas consideraciones de tipo prctico que orientan a un uso ms adecuado y a una interpretacin ms fidedigna de sus resultados. 3. Un ejemplo del uso de la regresin logstica en una investigacin endocrinolgica. ASPECTOS TERICOS FUNDAMENTALES RELATIVOS A LA REGRESIN LOGSTICA El objetivo de esta tcnica estadstica es expresar la probabilidad de que ocurra un hecho como funcin de ciertas variables, supongamos que son k (k 1), que se consideran potencialmente influyentes. La regresin logstica, al igual que otras tcnicas estadsticas multivariadas, da la posibilidad de evaluar la influencia de cada una de las variables independientes sobre la variable respuesta y controlar el efecto del resto. Tendremos, por tanto, una variable dependiente, llammosla Y, que puede ser dicotmica o politmica (en este trabajo nos referiremos solamente al primer caso) y una o ms variables independientes, llammoslas X. Al ser la variable Y dicotmica, podr tomar el valor "O" si el hecho no ocurre y "1" si el hecho ocurre; el asignar los valores de esta manera o a la inversa es intrascendente, pero es muy importante tener en cuenta la forma en que se ha hecho llegado el momento de interpretar los resultados. Las variables independientes (tambin llamadas explicativas) pueden ser

de cualquier naturaleza: cualitativas o cuantitativas. La probabilidad de que Y=1 se denotar por p. La forma analtica en que la probabilidad objeto de inters se vincula con las variables explicativas es la siguiente.3 1 p= 1 + exp (- -1x1- 2x2 - .... kXk

Esta expresin es la que se conoce como funcin logstica; donde exp denota la funcin exponencial y 1, 1, 2... k son los parmetros del modelo. Al producir la funcin exponencial valores mayores que 0 para cualquier argumento, p tomar solo valores entre 0 y 1. Si es positiva (mayor que 0) entonces la funcin es creciente y decreciente en el caso contrario. Un coeficiente positivo indica que p crece cuando lo hace la variable. ALGUNAS CONSIDERACIONES DE TIPO PRCTICO Para una mejor interpretacin de los coeficientes 1 (cualquiera de los coeficientes 1) es necesario referirnos al concepto de riesgo relativo. El riesgo relativo de un suceso se define como la razn entre la probabilidad de que dicho suceso ocurra (p) y la probabilidad de que no ocurra (1-p). El exponencial de los i se corresponde con el riesgo relativo, o sea, es una medida de la influencia de la variable Xi sobre el riesgo de que ocurra ese hecho y suponiendo que el resto de las variables del modelo permanezcan constantes. Un intervalo de confianza para el exponencial de que contenga al 1 indica que la variable no tiene una influencia significativa en la

59

ocurrencia del suceso y, por el contrario, valores ms alejados de este indican una mayor influencia de la variable.4,5 En el ejemplo se expone ms claramente la interpretacin del exponencial de los 1. Una vez estimados los valores de y 1, podemos determinar la probabilidad del suceso para distintos valores de los Xi. El valor de se corresponde con la constante en la salida de la regresin logstica.
VARIABLES CATEGRICAS

manejarse del mismo modo que se ha explicado para las nominales, o sea como variables dummy.7 En el ejemplo, algunas de las variables, tanto nominales como ordinales, fueron introducidas en el modelo como variables categricas, con la consiguiente formacin a partir de ellas de variables dummy o ficticias.
INTERACCIONES

Cuando algunas de las variables explicativas son de ndole nominal, de ms de 2 categoras (politmicas), para incluirlas en el modelo hay que darles un tratamiento especial. Si estamos en presencia de una variable nominal con C categoras, debemos incluirla en el modelo de regresin logstica como variable categrica, de manera que a partir de ella se crean C-1 variables dicotmicas llamadas dummy o ficticias.6 Al crear las variables dummy se debe precisar con cul de las categoras de la variable original interesa comparar el resto y esa ser la llamada categora de referencia. En general, el exponencial del coeficiente correspondiente a una de las variables dummy, estima la magnitud en que vara el riesgo de que ocurra el suceso, compara esa categora con la de referencia.
VARIABLES ORDINALES

En ocasiones se piensa que la influencia de una de las variables sobre la probabilidad de que ocurra el hecho se modifica en funcin del valor de otra de las variables y es necesario incluir en el modelo una tercera que sea el producto de las anteriores. Estos son los conocidos como trminos de interaccin que pueden incluir 2 o ms variables. Introducimos trminos de interaccin cuando tenemos razones para suponer que la influencia de una de las variables sobre p vara en funcin del valor que asume otra de las variables incluidas en el modelo; o sea, si la influencia de X1 sobre p vara en funcin del valor que toma X2, incluimos en el modelo un trmino que represente la interaccin de X1 y X2. Ejemplificaremos este aspecto con 2 variables que se introdujeron como trmino de interaccin por considerarse que la influencia de cada una sobre la variable respuesta poda estar mediatizada por la influencia de la otra.
ALGUNOS ASPECTOS A TENER EN CUENTA PARA EL USO DE LA REGRESIN LOGSTICA

En el caso de las variables ordinales se puede asumir que la escala funciona aproximadamente a un nivel cuantitativo, desde luego, tal maniobra presupone que se considere que la distancia entre categoras contiguas es la misma. En el caso contrario, las variables ordinales pueden

Tamao de muestra y nmero de variables independientes. Una de las ventajas de la regresin logstica es que

60

permite el uso de mltiples variables con relativamente pocos casos, sin embargo, hay que tener en cuenta algunas precauciones. Se ha sugerido que el nmero de sujetos para poder usar esta tcnica estadstica sin problemas debe ser superior a 10 (k+1) donde k es el nmero de variables explicativas; por tanto, si se introducen interacciones o variables dummy, el nmero de elementos en la muestra debe aumentar. Adems se ha sugerido que si una de las variables dicotmicas (en especial si es la de respuesta) no tiene al menos 10 casos en cada uno de sus 2 valores posibles, entonces las estimaciones no son confiables.8 En cuanto al nmero de variables independientes, la inclusin de un gran nmero de ellas en el modelo (ej. K>15), puede indicar que no se ha reflexionado suficientemente sobre el problema. Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el evento, de los cambios de las variables explicativas cuando son cuantitativas (continuas), en ocasiones es necesario categorizarlas, ya que los cambios que se producen de una unidad a otra pueden resultar intrascendentes o no ser constantes a lo largo del rango de valores de la variable. Cuando algunas de las variables independientes analizadas estn altamente correlacionadas, los resultados que se obtienen pueden no ser satisfactorios, por esta razn debe realizarse un anlisis previo univariado entre las distintas variables explicativas.9 Para que la regresin logstica tenga un sentido claro, tiene que existir una relacin montona entre las variables explicativas y la de respuesta, esto significa que el aumento de las unas se acompae del aumento o la disminucin

aproximadamente constante de la otra, para todo el rango de valores estudiados.3 UN EJEMPLO DEL USO DE LA REGRESIN LOGSTICA A continuacin se muestra un ejemplo del uso de la regresin logstica en una investigacin en el campo de la Endocrinologa. No es nuestro objetivo discutir sus resultados desde el punto de vista clnico o epidemiolgico, solo pretendemos lograr un mayor acercamiento a los aspectos prcticos anteriormente planteados. En una investigacin en pacientes con diabetes mellitus llevada a cabo por el Instituto Nacional de Endocrinologa, fueron vistos 435 pacientes antes y 5 aos despus de realizarse una intervencin educativa destinada a los proveedores de salud en la comunidad. Del total de pacientes, 226 pertenecan al Policlnico Plaza de la Revolucin y 209 al Policlnico Hroes del Moncada, el primero funcion como rea experimental y el segundo, como control. Al trmino de los 5 aos se evalu si el programa aplicado se traduca en cambios de algunos parmetros (control metablico, conocimientos de los pacientes, aparicin de complicaciones, conducta ante la enfermedad, etc.) a favor del rea experimental. Como resultado de este estudio se obtuvo que la aparicin de complicaciones agudas (especialmente la hipoglucemia) no tuvo el comportamiento esperado, no se observ una evolucin favorable de la misma en el rea experimental. Este resultado nos indujo a realizar un anlisis multivariado, en el cual no solo se considerara como predictora de esta complicacin el rea de salud de pertenencia, sino otras variables

61

relacionadas con su aparicin. La variable dependiente dicotmica fue ausencia 0 o presencia 1 de hipoglucemia. Se realiz un anlisis de regresin logstica, en la tabla 1 se muestran las variables incluidas como posibles predictoras y su operacionalizacin.
TABLA 1. Operacionalizacin de las variables incluidas como posibles predictoras Variable Hbito de fumar Prctica de ejercicios fsicos Frecuencia de visitas al mdico Tipo de tratamiento Operacionalizacin 1. No 2. S 1. No 2. S 1. Hasta 2 2. Tres o ms 1. Dieta sola 2. T abletas 3. Insulina 4. Tabletas e insulina 1. Menos de 40 2. De 40 a 59 3. De 60 o ms

Edad

Conocimientos sobre la DM 1. No satisfactorios 2. Satisfactorios ndice de masa corporal 1. Bajopeso 2. Normopeso 3. Obesidad ligera 4. Obesidad moderada 5. Obesidad severa 1. Hasta 10 aos 2. 11 aos o ms 1. Masculino 2. Femenino 1. No 2. S 3. Plaza 4. Moncada

Tiempo de evolucin de la diabetes Sexo Cumplimiento de la dieta rea de salud

La realizacin de ejercicios fsicos y el cumplimiento de la dieta se introdujeron como trminos de interaccin, al considerarse que la influencia de cada uno de ellos sobre la aparicin de esta complicacin puede estar

en dependencia de la influencia de la otra. La edad, el ndice de masa corporal y el tipo de tratamiento se incluyeron como variables categricas y la primera categora, como de referencia. En la tabla 2 se muestran los resultados. Las variables realmente predictoras de hipoglucemia fueron el tipo de tratamiento, la edad y el sexo. Al analizar los resultados para la variable tipo de tratamiento, que fue considerada como categrica, se tom la primera categora (dieta sola) como de referencia, podemos observar que el valor negativo de para la segunda categora (tabletas) indica que en los pacientes que tenan este tipo de tratamiento disminuy el riesgo de desarrollar hipoglucemia en relacin con los que tenan solo dieta, esto se corrobora por el exp () menor que 1 (0,5477), este ltimo nos cuantifica esta relacin e indica que el riesgo de hipoglucemia fue aproximadamente 45 % (1-0,5477) menor en los pacientes que reciban tabletas como tratamiento que en los que solo realizaban dieta. Los valores positivos de y mayores que 1 del exp () para las otras 2 categoras del tipo de tratamiento muestran que el riesgo de esta complicacin fue mayor para los pacientes que reciban insulina (ya fuera sola o combinada con tabletas) siempre en relacin con los que llevaban dieta solamente. Los que se trataban con insulina sola mostraron un riesgo de hipoglucemia ms de 2 veces mayor [exp ()=2,1556]. Para los que tenan tratamiento combinado (insulina y tabletas) el riesgo de esta complicacin fue aproximadamente 5 % mayor [exp ()=1,0469]. Es importante tener en cuenta que esta categora no result significativa estadsticamente [p=0,9340 e intervalo de confianza para el exp () que contiene al 1]. En el caso de las variables categricas, si alguna categora resulta significativa la variable queda incluida en el

62

TABLA 2. Resultados de la regresin logstica Variables Tipo de tratamiento Tratamiento (2 Tratamiento (3) Tratamiento (4) Edad Edad (2) Edad (3) Sexo -0,6020 0,7681 0,0458 - 0,3534 - 0,7801 0,8030 Significacin 0,0284 0,0168 0,0496 0,934 0,1232 0,4153 0,0596 0,0098 Exp () 0,5477 2,1556 1,0469 0,7023 0,4583 2,2323 Intervalo de confianza (90 %) Lmite inferior Lmite superior 0,3620 1,1327 0,4216 0,3441 0,2319 1,3385 0,8289 4,1023 2,5996 1,4335 0,9059 3,7229

modelo final, aun cuando el resto no lo sea. Otra variable presente en el modelo final fue la edad, en este caso se evidenci que el riesgo de hipoglucemia result menor tanto para los pacientes de 40 a 59 aos [exp ()=0,7023] como para los de 60 o ms [exp ()=0,4583] en relacin con los menores de 40 (tomada como categora de referencia). Podemos observar que el riesgo de presentar esta complicacin disminuy con la edad, de aproximadamente el 30 % en los de 40 a 59

aos a ms del 54 % en los de 60 aos o ms. La tercera y ltima variable en el modelo resultante fue el sexo, que mostr un riesgo ms de 2 veces mayor [exp ()=2,2323] en el femenino en relacin con el masculino (categora de referencia). El resultado de la regresin logstica ratific el obtenido mediante el anlisis univariado, el rea de salud de pertenencia no constituy predictora de la aparicin de hipoglucemia.

SUMMARY
An approach to logistic regression , as one of the most used multivariate statistical techniques in the last decades, was made to recommend its correct use. Practical questions as the number of subjects necessary for its application, the situations in which it should be used, the type of variables to which it may be applied, the way it may be included in the model, the interpretation of the results, etc., were taken into consideration. An example of the application of this technique in the field of Endocrinology was given. It was concluded that the application of logistic regression is very useful in any field of medical research when we need to determine the effect of a group of variables, potentially considered as influential, on the ocurrence of a certain process. Subject headings: LOGISTIC MODELS; ENDOCRINOLOGY.

63

REFERENCIAS BIBLIOGRFICAS
1. Cornfield J, Gordon T, Smith WN. Quantal response curves for experimentally uncontroled variables. Bull Int Statist Inst 1961;38:97-115. 2. Walter S, Duncan D. Estimation of the probability of an event as a function of several variables. Biometrika 1967;54:167-79. 3. Silva LC. Excursin a la regresin logstica en ciencias de la salud. Madrid:Daz Santos, 1994:3-11. 4. Abbott RD, Carroll RJ. Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol 1984;119:830-6. 5. Dunn D, Hayes R. Re: Interpreting multiple logistic regression coefficients in prospective observational studies. Am J Epidemiol 1985;122:352. 6. Schoenfeld DA. Analysis of categorical sata: logistic model. Statistics in Medical Research. New York: Mike V, Staley KE, 1982:433-54. 7. Mc Cullagh P. Regression models for ordinal data. J Roy Statist Soc 1980;42:109-42. 8. Hsieh FY. Sample size tables for logistic regression. Stat Med 1989;8(7):795-802. 9. Mc Gee DL, Reed D, Yano K. The results of logistic analyses when the variables are highly correlated. J Chron Dis 1984;37:713-9. Recibido: 21 de diciembre de 2000. Aprobado: 5 de marzo de 2001. Dra. Emma Domnguez Alonso. San Rafael No. 773 entre Oquendo y Marqus Gonzlez, Centro Habana, Ciudad de La Habana, Cuba.

64

Vous aimerez peut-être aussi