Vous êtes sur la page 1sur 120

TRABAJO FIN DE MSTER

MSTER OFICIAL EN ESTADSTICA APLICADA UNIVERSIDAD DE GRANADA

Alumna: Mara ngeles Dueas Rodrguez

NDICE
Captulo 1: Introduccin ............................................................................................ 1 Captulo 2: Teora de los modelos de regresin logstica multinomial ............... 6 2.1. Formulacin e Interpretacin del modelo ................................................... 8 2.1.1. Formulacin ...................................................................................... 8 2.1.2. Interpretacin del modelo ............................................................... 11 2.1.3. Otros aspectos a tener en cuenta sobre las variables ................... 13 2.2. Mtodos de estimacin. Estimacin por mxima verosimilitud ................ 14 2.3. Bondad de ajuste del modelo ................................................................... 17 2.3.1. Contrastes de bondad de ajuste del modelo .................................. 17 2.3.1.1. Test chi-cuadrado de Pearson .......................................... 18 2.3.1.2. Test chi-cuadrado de razn de verosimilitudes. Estadstico de Wilks. Devianza ........................................ 18 2.3.2. Calidad del ajuste ............................................................................ 19 2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden .............................. 19 2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell ................................. 19 2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke .............................. 20 2.3.3. Tasa de clasificaciones correctas ................................................... 20 2.4. Contrastes sobre los parmetros del modelo ........................................... 21 2.5. Inferencia en regresin logstica multinomial. Intervalos de confianza .... 23 2.6. Mtodos de seleccin del modelo ............................................................. 24 2.6.1. Hacia adelante ................................................................................ 25 2.6.2. Hacia atrs ...................................................................................... 25 2.6.3. Stepwise .......................................................................................... 25 2.7. Validacin del modelo ................................................................................ 26 2.7.1. Residuos de Pearson o residuos estandarizados .......................... 26 2.7.2. Residuos de Pearson o residuos estandarizados .......................... 27 Captulo 3: Funciones y comandos con R ............................................................ 29 3.1. Primeros pasos con R ............................................................................... 31

3.2. Anlisis unidimensional ............................................................................. 37 3.2.1. Variables cualitativas ...................................................................... 37 3.2.2. Variables cuantitativas continuas ................................................... 41 3.3. Anlisis bidimensional ............................................................................... 44 3.3.1. Dos variables cualitativas ............................................................... 44 3.3.2. Una variable cualitativa y una variable cuantitativa continua ......... 46 3.3.3. Dos variables cuantitativas continuas ............................................. 51 3.4. Modelo de regresin logstica multinomial ................................................ 52 3.4.1. Formulacin y seleccin del modelo ............................................... 53 3.4.2. Inferencia ......................................................................................... 56 3.4.3. Contrastes sobre los parmetros .................................................... 57 3.4.4. Bondad de ajuste del modelo ......................................................... 58 3.4.5. Validacin del modelo ...................................................................... 59 Captulo 4: Aplicacin con datos reales ................................................................ 60 4.1. Descripcin de la aplicacin ..................................................................... 61 4.2. Resultados ................................................................................................ 64 4.2.1. Anlisis descriptivo unidimensional ................................................. 64 4.2.2. Anlisis bidimensional ..................................................................... 72 4.2.3. Modelo de regresin logstica multinomial. Factores asociados a los tipos de depresin .............................................. 80 4.2.3.1. Seleccin del modelo ......................................................... 81 4.2.3.2. Odds ratios e Intervalos de Confianza .............................. 89 4.2.3.3. Contraste sobre los parmetros ......................................... 90 4.2.3.4. Interpretacin del modelo .................................................. 91 4.2.3.5. Ajuste global del modelo .................................................... 93 4.2.3.6. Validacin del modelo ........................................................ 96 4.3. Conclusiones ............................................................................................. 98 Anexos. Clculos con R .......................................................................................... 99 Bibliografa .............................................................................................................. 114

CAPTULO 1:

INTRODUCCIN

Este trabajo pretende dar una descripcin detallada de una aplicacin con datos reales de modelos de respuestas discretas realizando el anlisis con el software estadstico R. Concretamente se aplicar un modelo de regresin logstica multinomial. El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente que permite realizar numerosos anlisis, y entre ellos la regresin logstica multinomial. El objetivo principal del trabajo es describir la teora del anlisis que se llevar a cabo (regresin logstica multinomial), detallar cmo se aplica esta teora con el lenguaje de R y finalmente describir una aplicacin con datos reales en la que se aplique estos modelos y se realicen los anlisis con R. El trabajo se estructurar de la siguiente manera: Este primer captulo es una introduccin al trabajo donde se especifican los objetivos del mismo y los objetivos de la aplicacin, as como su relacin con la literatura. El segundo captulo contiene toda la teora de los modelos de regresin logstica multinomial, incluyendo la formulacin, bondad de ajuste del modelo, inferencia, calidad y validacin de los modelos. El tercer captulo incluye todas las funciones de R que se utilizarn posteriormente en la aplicacin para obtener los resultados deseados. Adems de nombrar estas funciones se describen sus argumentos y las salidas que aportan cada una de ellas. El cuarto captulo est completamente dedicado a la aplicacin con datos reales, en la que se describe sta, incluyendo un anlisis descriptivo y relaciones entre variables anterior a la aplicacin del modelo de regresin logstica multinomial. Finalmente se interpretan todos los resultados y se obtienen conclusiones. Posteriormente, aparece un anexo en el que se incluyen todos los clculos realizados con R, en el que se incluyen todas las funciones y comandos utilizados para obtener todos los resultados mostrados en el captulo cuarto. Finalmente, mostramos toda la bibliografa utilizada en todo el trabajo. La aplicacin con datos reales que describimos en este trabajo procede de un estudio a nivel nacional que se realiz en Espaa, en el cual se estudia el dolor y la depresin en pacientes atendidos en atencin primaria. Para este trabajo se ha seleccionado la informacin necesaria de este estudio para conocer los factores asociados a la presencia de trastornos mentales infradiagnosticados en pacientes con

dolor crnico de tipo osteomuscular, atendidos en una muestra representativa de centros de Atencin Primaria (AP) en Espaa. Se ha considerado este estudio ya que se entiende que el dolor y la depresin son problemas de salud muy comunes, sobre todo en pacientes atendidos en atencin primaria (4). Ambos problemas de salud aumentan el uso de los servicios sanitarios y producen un deterioro de la calidad de vida relacionada con la salud de estos individuos (5,6). El dolor crnico y la depresin son procesos comunes, mostrndose en algunos estudios que la prevalencia oscila entre 15% y 100% (7). As mismo, la presencia y la intensidad de dolor crnico se reconoce que son predictores del grado de depresin en estos pacientes(8,9). Pacientes con dolor crnico y depresin asisten a la consulta del mdico con ms frecuencia y se convierten en grandes consumidores de los servicios sanitarios (10,11). Muchos estudios han demostrado que pacientes con depresin y dolor crnico son ms propensos a estar ms insatisfechos con su salud (12). En atencin primaria, la depresin a menudo no se diagnostica, particularmente en casos de pacientes que sufren dolor crnico (13). Nos proponemos realizar esta aplicacin con ese objetivo, ya que existen escasos estudios que estudian la comorbilidad de dolor crnico con otros trastornos mentales, la mayora de los estudios estudian la relacin entre el dolor y trastorno de depresin mayor, habiendo pocos que estudien otros trastornos como depresin menor, distimia o trastorno bipolar. As mismo, no son muy comunes estudios que utilizan un cuestionario especfico estructurado para evaluar estos procesos en atencin primaria. As que nuestro objetivo principal ser conocer los factores asociados a los tipos de trastornos mentales en pacientes con dolor osteomuscular, y para tal fin se realizar un modelo de regresin logstica multinomial, que permitir conocer qu variables de las recogidas en el estudio afectan y de qu manera afectan a la presencia o ausencia de algunos tipos de trastornos mentales de estos pacientes. Se utilizar este modelo de regresin logstica multinomial ya que la variable respuesta es categrica, con ms de dos categoras, ya que contempla entre los tipos de trastornos mentales, la depresin mayor, depresin menor, trastorno bipolar, distimia, remisin parcial y trastornos causados por medicamentos o drogas, adems de contemplar la posibilidad de presenciar ms de un tipo de trastorno de los anteriores mencionados o incluso la ausencia de trastorno mental.

Los modelos de regresin logstica permiten principalmente dos finalidades (14): Cuantificar la importancia de la relacin existente entre cada una de las covariables y la variable dependiente, lo que lleva implcito tambin clarificar la existencia de interaccin y confusin entre covariables respecto a la variable dependiente (es decir, conocer la odds ratio para cada covariable). Clasificar individuos dentro de las categoras de la variable dependiente, segn la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas covariables. De hecho, la regresin logstica es una de las herramientas estadsticas con mejor capacidad para el anlisis de datos en investigacin clnica y epidemiologa, de ah su amplia utilizacin (15-22). Y es la tcnica ms apropiada para usar en este estudio. El objetivo primordial que resuelve esta tcnica es el de modelar cmo influye en la probabilidad de aparicin de un suceso, habitualmente dicotmico pero en este caso es politmico, la presencia o no de diversos factores y el valor o nivel de los mismos. Es decir, estimar la probabilidad de aparicin de cada una de las posibilidades de un suceso con ms de dos categoras. Como se ha comentado antes, se realizar un anlisis descriptivo previo de las variables recogidas en el estudio, para conocer las caractersticas principales de los pacientes estudiados. Tambin analizaremos previamente relaciones entre distintas variables que se consideren de inters, sobre todo entre la variable de los tipos de trastornos mentales y el resto de variables, para poder elegir las posibles variables independientes candidatas a ser incluidas en el modelo de regresin logstica multinomial. Una vez realizado este anlisis exploratorio previo, conoceremos los factores asociados a la presencia de algn tipo de trastorno mental, mediante el modelo de regresin logstica multinomial. En nuestro caso, en este modelo la variable respuesta sera los tipos de trastornos mentales, incluida la categora de ausencia de depresin, la cual se tomara como categora de referencia para el modelo. Las variables predictoras que elegiremos para conocer su asociacin con los tipos de trastornos mentales, seleccionadas segn lo obtenido en los anlisis bivariantes y segn criterios clnicos, sern: sexo, edad, nivel de estudios, estado civil, trastornos del sueo, la localizacin del dolor (cervical, espalda, articulaciones, extremidades), intensidad del dolor general,

duracin del dolor en la ltima semana, influencia del dolor en las actividades de la vida diaria y nmero de consultas al mdico a causa del dolor. As que estimaremos la probabilidad de tener un tipo de trastorno mental influenciada por otros factores. Finalmente se interpretar los resultados obtenidos llegando a alcanzar los objetivos propuestos y obteniendo conclusiones.

CAPTULO 2:

TEORA DE LOS MODELOS DE REGRESIN LOGSTICA MULTINOMIAL

En este captulo se explica toda la metodologa que ser utilizada para resolver nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicacin. Como se ha indicado anteriormente, para el propsito de ese estudio, se utilizarn modelos de respuesta discreta, concretamente el modelo de regresin logstica multinomial. A continuacin se describir este modelo explicando entre otras cosas, la formulacin, los mtodos de estimacin, interpretacin de parmetros, ajustes del modelo, validacin, contrastes de hiptesis asociados. Todo este desarrollo terico que se explica a continuacin, es lo que posteriormente se llevar a cabo a la prctica con nuestra aplicacin. Los modelos de regresin logstica son modelos estadsticos en los que se pretende conocer la relacin entre una variable dependiente cualitativa, dicotmica (regresin logstica binaria o binomial) o con ms de dos categoras (regresin logstica multinomial) y entre variables explicativas independientes, que pueden ser cualitativas o cuantitativas. Las covariables cualitativas que sean dicotmicas, es aconsejable que se codifiquen tomando valores 0, para una de las categoras o para su ausencia y 1 para la otra categora o para su presencia (esta codificacin es importante, ya que cualquier otra codificacin podra provocar modificaciones en la interpretacin del modelo). Pero si la covariable cualitativa tuviera ms de dos categoras, se realiza una transformacin, para poderla incluir en el modelo. Esta transformacin consiste en crear varias variables cualitativas dicotmicas ficticias o de diseo, llamadas variables dummies, de forma que una de las variables se tomara como categora de referencia y cada una de las variables creadas entrara en el modelo de forma individual. En general, si la covariable cualitativa posee n categoras, habr que realizar n 1 covariables ficticias (14,23). La regresin logstica multinomial es utilizada en modelos con variable dependiente de tipo nominal con ms de dos categoras (politmica) y es una extensin multivariante de la regresin logstica binaria clsica. Las variables

independientes pueden ser tanto continuas (covariables) como categricas (factores). Tradicionalmente las variables dependientes politmicas han sido modeladas mediante anlisis discriminante pero, gracias al creciente desarrollo de las tcnicas de clculo, cada vez es ms habitual el uso de modelos de regresin logstica multinomial, implementados en paquetes estadsticos, debido a la mejor

interpretabilidad de los resultados que proporciona (24). Estos modelos se analizan eligiendo una categora como referencia de la variable dependiente o de respuesta y se modelan varias ecuaciones

simultneamente, una para cada una de las restantes categoras respecto a la de referencia (25). En general, los requisitos y etapas de la regresin logstica son los que se muestran a continuacin, posteriormente detallaremos esas etapas. Recodificar las variables independientes categricas u ordinales en variables ficticias o simuladas y la variable dependiente. Evaluar efectos de confusin y de interaccin del modelo explicativo. Evaluar la bondad de ajuste de los modelos. Analizar la fuerza, sentido y significacin de los coeficientes, sus exponenciales y estadsticos de prueba (por ejemplo, el estadstico de Wald).

A continuacin, mostraremos la formulacin de los modelos de regresin logstica multinomial, as como los contrates aplicados sobre este modelo y la inferencia. Toda esta teora se puede ver en el libro de Aguilera, A. (26).

2.1. Formulacin e Interpretacin del modelo

2.1.1. Formulacin Para los modelos de regresin logstica binaria, si tenemos una variable dependiente Y, que toma valores Y=1 (presencia de una caracterstica u otra categora de la variable) y Y=0 (ausencia de la caracterstica o la otra categora de la variable), la ecuacin de partida del modelo viene dada por: [ = 1|] = exp (0 + =1 ) 1 + (0 + =1 )

donde [ = 1|] es la probabilidad de que Y tome el valor 1, en presencia de las covariables X, que lo denotaremos por p(X). 0 es la constante del modelo o trmino independiente y los son los coeficientes de Esta ecuacin inicial del modelo es de tipo exponencial, pero se realiza su transformacin logartmica (logit), dada por: X es un conjunto de n covariables {1 , 2 , , } que forman parte del modelo;

las covariables.

De esta forma, se permite su uso como una funcin lineal y es de ms fcil interpretacin. Para el caso de que la variable dependiente presente ms de dos categoras, como es nuestro caso, se utiliza el modelo de regresin logstica multinomial que se modela, como se indic anteriormente, mediante varios logits simultneamente, uno para cada una de las restantes categoras respecto a la categora de referencia que se haya considerado de la variable dependiente. Ejemplo: Tipos de depresin La variable resultado tiene cinco categoras: Sin depresin. (Categora de referencia). Depresin mayor. Depresin menor. Otros tipos de depresin. Ms de un tipo de depresin.

() ln = 0 + 1 ()
=1

Se modelan cuatro logits simultneamente: logit (depresin mayor / sin depresin | z)= a1 + b1 z logit (depresin menor / sin depresin | z)= a2 + b2 z logit (otros tipos de depresin / sin depresin | z)= a3 + b3 z logit (ms de un tipo de depresin / sin depresin | z)= a4 + b4 z

La covariable z es comn en cada logit, pero se estiman coeficientes bi diferentes para cada logit (incluso diferente constante, ai). Veamos la formulacin de estos modelos de forma general. Consideremos una variable de respuesta politmica Y con ms de dos categoras de respuesta que denotaremos por Y1 , Y2 , , Yk . ( ) = = Yj = = ( )

Se pretende explicar la probabilidad de cada categora de respuesta en funcin = 1, ,

de un conjunto de covariables = {1 , 2 , , } observadas. Es decir, ajustar un modelo de la forma para cada vector x de valores observados de las variables explicativas X. En el caso de una variable de respuesta binaria, su distribucin condicionada a cada combinacin de valores observados de las covariables sigue una Bernouilli.

Cuando la variable de respuesta es politmica, la distribucin de Bernouilli se convierte en una distribucin multinomial de parmetros las probabilidades de cada una de las categoras de respuesta. Es decir, (Y/X = x) M(1; p =1 ( ) = 1.
1(x),

. . . , pk(x)), siendo

para comparar cada par de categoras de la variable respuesta, que sera de este tipo: ( ) ( ) + ( ) ( ) ln = ln ( ) , , = 1, , ( ) ( ) ( ) + ( )

As que para obtener un modelo lineal, obtendremos transformaciones logit 2

las observaciones de las variables independientes que caen en uno de ambos niveles. Pero para construir el modelo logit de respuesta multinomial bastara con considerar (k 1) transformaciones logit bsicas, definidas con respecto a una categora de

que representan el logaritmo de la ventaja de respuesta Yi frente a Yj condicionado a

referencia. Tomando como categora de referencia la ltima Yk . As las 1, , 1 , transformaciones logit generalizadas se definen como ( ) = ln siendo ( ) el logaritmo de la ventaja de respuesta Yj dado que las
() ( )

observaciones de las variables independientes caen en la categora Yj o en la Yk . para n variables explicativas, es de la siguiente forma: ( ) = = = 1, , 1 para cada vector de valores
=0

El modelo lineal para cada una de las transformaciones logit generalizadas,

observados

de

las

variables

explicativas

asociado a la categora Yj . siguiente forma: () =

x= (0 , 1 , 2 , , ) con 0 = 1

y = (0 , 1 , , ) el vector de parmetros

Para las probabilidades de respuesta, podemos escribir el modelo de la

1 + 1 =1 exp=0

exp =0 1+

() =

1 =1 exp (=0 )

= 1, , . 1

10

Demostracin:
1 =1

As que tenemos: ( ) =

( ) 1 ( ) = exp ( ) = exp ( ) ()
=1
1+1 =1 exp (=0 )

1 =1

Por tanto, tambin obtenemos: () = reducida del modelo: ( ) =

O equivalentemente, podemos obtener de ambas expresiones, una expresin

1 + 1 =1 exp=0

exp =0

= 1, , . 1

siendo = 0 = 0,1, ,

=1 exp=0

exp =0

= 1, ,

2.1.2. Interpretacin del modelo A continuacin mostramos la interpretacin de los parmetros del modelo, pero distinguiendo los casos segn de qu tipo son las variables explicativas, cuantitativas o cualitativas.

Una variable predictora cuantitativa X.

Si en el modelo tenemos slo una nica covariable cuantitativa X, el modelo para cada valor observado x de la variable X viene dado por: ( ) = + , = 1, , 1

cada categora de la variable dependiente, que se interpreta en trminos de cocientes de ventajas (odds ratio): ( + 1) ( + 1) exp ( + ( + 1)) ( = 1) = = = exp = 1, , 1 ( ) exp ( + ) ()

A continuacin mostramos la exponencial de los parmetros asociados a

11

cuando aumenta en una unidad la variable X.

( = 1) es el cociente de ventajas de respuesta frente a la ltima categora,

Ms de una variable predictora cuantitativa.

Para el modelo logit generalizafo mltiple, los cocientes de ventajas se definen incrementando una de las variables y controlando fijas las dems. [ = / = + 1, = , ] [ = / = + 1, = , ] ( = 1 / = , ) = = exp [ = / = , = , ] [ = / = , = , ] siendo ( = 1 / = , ) el cociente de ventajas de respuesta frente a la controlan fijas. = 1, , 1

ltima categora, cuando aumenta en una unidad la variable y las dems se

Variables predictoras categricas.

Si se incluyen en el modelo variables independientes categricas, se introducen mediante sus variables del diseo asociadas (variables dummies). Supongamos que tenemos la variable categrica A con categoras 1 , , . Si

de esta variable realizamos la transformacin a variables de diseo mediante el mtodo parcial que asigna un uno a la variable asociada a cada categora y un cero al resto, y tomando como categora de referencia la primera, obtenemos p-1 variables
que las denotamos como (m=2,, p).

As que el modelo de regresin logstica multinomial generalizado que

obtenemos sigue siendo un modelo lineal, como en los casos anteriores, para cada logit generalizado en funcin de esas variables de diseo procedentes de la variable A y viene dado por: / = ln = 0 + = 1, , ; = 1, , 1
=2

siendo = [ = = ], la probabilidad de respuesta en la categora . 1, , 1

Tambin podemos definir el modelo como: / = 0 + = 1, , ; =

12

siendo 1 = 0, = 1, , 1.

Este modelo en trminos de cocientes de ventajas viene dado por: exp (0 + ) = = = exp = 1, , 1, 1 exp (0 ) 1

= 2, ,

de A respecto a la primera categora 1 .

que es el cociente de ventajas de respuesta frente a la ltima para la categora

2.1.3. Otros aspectos a tener en cuenta sobre las variables Para seleccionar el conjunto de variables predictoras que se incluyen en el modelo, los criterios a seguir son: Incluir todas aquellas variables que se consideren clnicamente importantes para el modelo, independientemente de si se ha demostrado o no significacin estadstica en un anlisis univariado previo, ya que puede conducir a dejar de incluir en el modelo covariables con una dbil asociacin a la variable dependiente en solitario pero que podran demostrar ser fuertes predictores de la misma al tomarlas en conjunto con el resto de covariables. Aunque se aconseja incluir toda variable que en un anlisis univariado previo demostrara una relacin con la variable dependiente (27). Con estos criterios debemos de conseguir obtener un modelo que sea lo ms reducido posible que explique los datos (principio de parsimonia), y que adems sea clnicamente congruente e interpretable. Posiblemente un mayor nmero de variables en el modelo implicara mayores errores estndar. Cuando se obtienen seleccionadas todas las covariables para ser incluidas en el modelo, se debe proceder a obtener el modelo ms reducido que siga explicando los datos. Para ello se puede recurrir a mtodos de seleccin paso a paso, bien mediante inclusin, hacia adelante, o por eliminacin, hacia atrs, o a la seleccin de variables por mejores subconjuntos de covariables. Estos mtodos se encuentran implementados en la mayora de los paquetes estadsticos y se describen posteriormente. Otro aspecto a tener en cuenta para elegir el nmero de covariables a incluir en un modelo de regresin logstica es, el tamao muestral. Ya que modelos excesivamente grandes para muestras con tamaos muestrales relativamente pequeos podran provocar errores estndar grandes o coeficientes estimados

13

falsamente muy elevados (sobreajuste). Por lo que se suele recomendar, que por cada covariable se cuente con un mnimo de 10 individuos por cada categora de la variable dependiente con menor representacin. Por ejemplo, si la variable dependiente Y es dolor y en los datos hay 120 sujetos con dolor y 36 sujetos sin dolor, la categora de Y menos representado es sin dolor, con 36 sujetos; de esta forma el modelo no debera contener ms de 36/10 ~ 3 4 covariables (27). Tambin otra cuestin a tener en cuenta de los modelos de regresin logstica, es la inclusin de factores de interaccin, para estudiar cmo la asociacin de dos o ms covariables puede influir en la variable dependiente. Estas interacciones pueden ser de primer orden (tomadas las covariables dos a dos o de mayor orden, pero estas ltimas suelen ser de difcil interpretacin). Las interacciones se incluyen siempre que sean interpretables y tengan significado desde el punto de vista clnico. Si en un modelo se incluye una interaccin de dos o ms covariables, stas deben de estar incluidas tambin en el modelo de forma aislada (principio jerrquico) (28). Por otra parte hay que tener en cuenta que la inclusin de interacciones puede generar multicolinealidad, tanto ms probable cuanto mayor sea el nmero de interacciones (29).

2.2. Mtodos

de

estimacin.

Estimacin

por

mxima verosimilitud

Para la estimacin de los coeficientes del modelo y de sus errores estndar se utiliza la estimacin por mxima verosimilitud, es decir, estimaciones que hagan mxima la probabilidad de obtener los valores de la variable dependiente y proporcionados por los datos de la muestra. Al contrario de lo que ocurre con la estimacin de los coeficientes de regresin lineal mltiple que se utiliza el mtodo de los mnimos cuadrados, los clculos para las estimaciones de los coeficientes de la regresin logstica multinomial no son directos, hay que llevar a cabo mtodos iterativos, como el mtodo de NewtonRaphson. Al aplicar estos mtodos adems de obtener las estimaciones de los coeficientes de regresin, se obtienen sus errores estndar y las covarianzas entre las covariables del modelo.

14

A continuacin describimos el mtodo de estimacin de mxima verosimilitud para el clculo de los coeficientes de nuestro modelo de regresin logstica multinomial. Supongamos que disponemos de una muestra aleatoria de tamao N con Q combinaciones diferentes de valores de las variables explicativas X1 , , X n. Denotemos cada combinacin

de

valores

de

las

variables

explicativas

por

= 0 , 1 , , 0 = 1 = 1, , . En cada una de estas combinaciones respuesta politmica Y, de entre las cuales denotamos por al nmero de observaciones que caen en la categora de respuesta j = 1, . . . , k.
As que, se verifica que =1 = =1 = .

se tiene una muestra aleatoria de observaciones independientes de la variable de

Los

vectores

probabilidad

multinomiales

1 , = 1, ,

= = y verificando que =1 = 1

independientes, ( ; 1 , , ) ,

siguen

una

distribucin

de

siendo =

Por tanto, la funcin de verosimilitud de los datos viene dada por: =


=1

As que el ncleo de la log-verosimilitud es: = =1 =1 ln ( )

=1 ! =1

Normalmente, en vez de utilizar la funcin de verosimilitud se utiliza la siguiente

funcin auxiliar: = 2ln ()

Por lo que el problema de maximizar la verosimilitud equivale al de minimizar esta funcin auxiliar (26,30). Teniendo en cuenta la ecuacin del modelo logit generalizado multinomial, y sustituyendo en la expresin anterior, obtenemos la siguiente expresin del ncleo de la log-verosimilitud: = ln exp
=1 =1 =0

= ln exp
=1 =1 =0 =1 =1 =0

=1

=1

=1

=0

15

Derivando respecto de los parmetros: exp =0 = =1 exp =0


=1 =1

As, obtenemos las ecuaciones de verosimilitud con forma matricial:


(1) = 1, , 1, (( +1)) (1) = ((+1))

siendo = 1 , , = 1 , ,

predictoras, estimada bajo el modelo y definida como = .

de respuesta en la combinacin de valores observados de las variables

con la frecuencia esperada

Para obtener los estimadores de mxima verosimilitud hay que resolver k-1

sistemas de n+1 ecuaciones no lineales. As que para resolverlo utilizamos el mtodo iterativo de Newton-Raphson. , que es una Con este mtodo obtenemos el estimador de los parmetros b de dimensin (n+1)x(k-1) formado por las siguientes

matriz

columnas:

parmetros asociado a la categora de la variable respuesta . la matriz de informacin de Fisher.

= (b 1 b , b2 , , b k1 ) siendo bj el estimador de mxima verosimilitud del vector de

, que es la inversa de A continuacin obtendremos la matriz de covarianzas de b

Para ello hay que calcular las derivadas segundas de K con rs:

. Calculemos primero la matriz de covarianzas de cada vector de parmetros

exp 2 =0 =1 =0 =0 = 2 exp

As que la matriz de covarianzas viene dada por: 2 =


1

=1

=1

=0

Calculamos ahora las matrices de covarianzas cruzadas entre cada par de K con rs y ji. y ( ). Para ello se calculan las siguientes derivadas segundas de estimadores
exp 2 =0 =0 = 2 exp =1 =1 =0

= 1

Dando lugar a la siguiente expresin de la matriz de covarianzas:

16

1 1 , 2 Cov Cov 2 2 1 , Cov = Cov b Cov1 , 1 Cov2 , 1

es: Finalmente, tenemos que la matriz de covarianzas del estimador b 1 , 1 Cov 2 , 1 Cov Cov1

, =

2.3. Bondad de ajuste del modelo


2.3.1.Contrastes de bondad de ajuste del modelo Uno de los primeros indicadores de importancia para apreciar el ajuste del modelo logstico multinomial es el doble logaritmo del estadstico de verosimilitud (likelihood), que veremos posteriormente. Se trata de un estadstico que sigue una distribucin similar a 2 (31). Sea yjq el nmero de observaciones que caen en la categora de respuesta Yj

j = 1, . . . , k. y sean las dq observaciones correspondientes a la q-sima combinacin de valores de las variables explicativas. xq de valores observados de las variables predictoras, estimada bajo el modelo y As que para contrastar la bondad del ajuste global del modelo cuando el Denotamos por m jq la frecuencia esperada de respuesta Yj en la combinacin

definida como m jq = dq p jq .

nmero de observaciones en cada combinacin de valores de las variables explicativas es grande se utiliza el estadstico chi-cuadrado de Pearson y el estadstico de Wilks de razn de verosimilitudes. El test global de bondad de ajuste del modelo de regresin logstica multinomial mltiple contrasta el siguiente contraste de hiptesis: 0 : = exp =0 = 1, . . , ; = 1, , .

1 :

1 + exp =0

1 + exp =0

exp =0

17

2.3.1.1. Test chi-cuadrado de Pearson El estadstico chi-cuadrado de Pearson de bondad de ajuste a un modelo de regresin logstica multinomial, M de la forma anterior viene dado por: X
2 (M)

siendo p jq la estimacin por mxima verosimulitud de pjq .

jq yjq dq p = dq p jq
q=1 j=1

Este estadstico tiene distribucin asinttica chi-cuadrado con grados de

2 Q(n+1)x(k1) , dq .

de parmetros independientes en el modelo, Q-(n+1)x(k-1). Es decir, X 2 (M)


d

libertad obtenidos como la diferencia entre el nmero de parmentros pjq y el nmero

As que se rechaza la hiptesis nula con un nivel de significacin cuando

X 2 (M)Obs 2 Q(n+1)x(k1); . O equivalentemente podemos definir el p-valor del contraste como la probabilidad acumulada a la derecha del valor observado: pvalor=P[X 2 (M) X 2 (M)Obs ], se rechaza la hiptesis nula cuando p-valor. 2.3.1.2. Test chi-cuadrado de razn de verosimilitudes. Estadstico de Wilks. Devianza El estadstico de Wilks de razn de verosimilitudes para el contraste de bondad de ajuste del modelo de regresin logstica multinomial M se obtiene como menos dos veces el logaritmo del cociente entre el supremo de la verosimilitud bajo la hiptesis nula y el supremo de la verosimilitud en la poblacin. A partir de esta expresin operando se obtiene la expresin de este estadstico que viene dada por: G
2 (M)

= 2 ln
q=1 j=1

Este estadstico tiene distribucin asinttica chi-cuadrado con grados de libertad la diferencia entre la dimensin del espacio paramtrico y la dimensin de este espacio bajo la hiptesis nula. Para un modelo de regresin logstica multinomial los grados de libertad es la diferencia entre el nmero de parmetros pjq y el nmero de 2 Q(n+1)x(k1) , dq . parmetros bajo el modelo, es decir, Q(n+1)x(k-1) grados de libertad G2 (M)
d

18

As que se rechaza la hiptesis nula con un nivel de significacin cuando


2 2 G2 (M)Obs 2 Q(n+1)x(k1); . O equivalentemente cuando p-valor=P[G (M) G (M)Obs ]

Al estadstico de Wilk, G2 (M), se le denomina devianza. 2.3.2. Calidad del ajuste Adems de los contrastes que hemos visto anteriormente, podemos calcular otras medidas que nos dan informacin sobre la calidad del modelo, al igual que en la regresin lineal que se utiliza la medida de R2. En los modelos de regresin logstica binaria, la calidad del ajuste se mide mediante coeficientes de determinacin conocidos como Pseudo-R2, para la regresin logstica multinomial tambin se utilizan estos coeficientes. De entre todos los que existen, los ms usados son el de Mc-Fadden, el de Cox-Snell y el de Nagelkerke. Veamos cmo se calculan cada uno de ellos (24,26).

2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden. Si tenemos = 2ln (), identificamos por 0 el valor inicial de esta funcin, es

decir el mnimo bajo el modelo nulo dado slo por un trmino constante y por el mnimo de bajo el modelo ajustado con todos los parmetros, obtenemos la siguiente expresin del pseudo-R2 de Mc-Fadden:

04 y excelente para valores superiores.

2 se aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 02

2 Siendo su rango terico de valores 0 1, pero muy raramente su valor

2 = 1 .

2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell. En este caso se utiliza directamente la funcin de verosimilitud V, y no la funcin auxiliar . Por lo que si denotamos por V0=exp(- 0 /2) el mximo de definimos el coeficiente pseudo-R2 de Cox-Snell como:

verosimilitud bajo el modelo nulo dado slo por un trmino constante y por Vf=exp( /2) el mximo de verosimilitud bajo el modelo ajustado con todos los parmetros,

19

hay pocos datos. Por ello es preferible utilizar el siguiente coeficiente como medida de bondad de ajuste.

hace poco interpretable al depender de 0 . Ya que puede ser prximo a cero cuando

2 El rango terico de valores para el coeficiente es 0 1 0 , lo que le

0 0 = 1 = 1 exp

2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke.

Viene dado por la siguiente expresin:


2

2 =

interpretarse del mismo modo que el coeficiente de determinacin de la regresin lineal clsica, aunque es ms difcil que alcance valores cercanos a 1.

2 Y en este caso, su rango de valores es 0 1 , por lo que puede

2 0

0 1 exp 1 exp 0

Por ltimo decir que, para comparar modelos de regresin logstica multinomial con diferente nmero de variables predictoras suelen introducirse coeficientes PseudoR2 ajustados. El ms conocido es el de Mc-Fadden, definido como:
2 =1 0.5 ++1 0.5 0 +1

, siendo n el nmero de variables predictoras.

2.3.3. Tasa de clasificaciones correctas Para cuantificar la bondad del ajuste global del modelo se dispone tambin de otra medida como es la tasa de clasificaciones correctas. Es decir, a partir del modelo ajustado, se clasifica cada observacin en la categora ms probable, construyendo as una matriz de clasificacin observados-predichos y se utiliza el porcentaje de clasificaciones correctas como una medida de la calidad de prediccin, del mismo modo que se hace en el anlisis discriminante (24). Se define como la proporcin de individuos clasificados correctamente por el modelo y se calcula como el cociente entre el nmero de observaciones clasificadas correctamente y el tamao muestral N. Un individuo es clasificado correctamente por el modelo cuando su valor observado de la variable respuesta Y (Y1 , Y2 , , Yk ) coincide con su valor estimado por el modelo.
20

2.4. Contrastes sobre los parmetros del modelo


Adems de construir el modelo y ajustarlo y habiendo obtenido las estimaciones, el siguiente paso ser comprobar la significacin estadstica de cada uno de los coeficientes de regresin en el modelo. Para ello se pueden emplear bsicamente dos mtodos para los modelos de regresin logstica multinomial: el estadstico de Wald y el estadstico condicional de razn de verosimilitud. As que nos planteamos contrastar si un subconjunto de los parmetros del modelo de regresin logstica multinomial, que denotaremos por = (1 , , ) , es nulo. As que nos planteamos el contraste de hiptesis: 0 : = 0

Veamos los dos tipos de contrastes mencionados anteriormente que se utiliza para contrastar esta hiptesis.

1: : 0

Contrastes de Wald.

Se basan en la normalidad asinttica de los estimadores de mxima verosimilitud. , tiene distribucin normal El estimador de mxima verosimilitud de ,

) obtenida a partir de la ( asinttica de media y matriz de covarianzas estimada

. As que el estadstico de Wald presenta la forma matriz de covarianza b 1 , que tiene distribucin chi-cuadrado asinttica con r grados cuadrtica: As que se rechaza la hiptesis nula al nivel de significacin cuando el valor

de libertad (nmero de parmetros nulos bajo la hiptesis nula).

observado de este estadstico sea mayor o igual que el cuantil de orden (1- ) de la
2 . distribucin

Su valor para un coeficiente concreto viene dado por el cociente entre el valor

del coeficiente y su correspondiente error estndar. Es decir si se quiere contrastar: 0 : = 0

1: : 0

21

el estadstico ser: = 2
2 1 ;

grado de libertad. As que se rechaza la hiptesis nula con nivel de confianza 1- si

2 ,

que tiene distribucin chi-cuadrado asinttica con un

Es decir, la obtencin de significacin indica que dicho coeficiente es diferente

de 0 y merece la pena su conservacin en el modelo. En modelos con errores estndar grandes, el estadstico de Wald puede proporcional falsas ausencias de significacin. Tampoco es recomendable su uso si se estn empleando variables de diseo. En estos casos se recomienda el uso del test de razn de verosimilitudes (27).

Contrastes condicionales de razn de verosimilitud

Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada cada una de las covariables frente al modelo completo. La ausencia de significacin implica que el modelo sin la covariable no empeora respecto al modelo completo (es decir, da igual su presencia o su ausencia), por lo que segn la estrategia de obtencin del modelo ms reducido (principio de parsimonia), dicha covariable debe ser eliminada del modelo ya que no aporta nada al mismo. Supongamos que tenemos un modelo de regresin logstica multinomial MG que se ajusta bien y se desea contrastar si un subconjunto de parmetros, = (1 , , ), son nulos. Sea MP el modelo con ese subconjunto de parmetros ceros. As que MP est anidado en el modelo genral MG. As que planteamos el contraste: 0 : = 0 (MP se verifica)

Si asumimos que MG se verifica, el estadstico del test de razn de verosimilitudes para contrastar si MP se verifica es: G2(MP|MG) = - 2(LP-LG)=G2(MP)G2(MG), siendo LP y LG los mximos de la log-verosimilitud bajo la suposicin de que se verifican los modelos saturados, MP y MG, respectivamente. Es decir, el test de razn de verosimilitud para contrastar dos modelos anidados es la diferencia de los contrastes de razn de verosimilitudes de bondad de ajuste para cada modelo. El estadstico G2(MP|MG) tiene distribucin chi-cuadrado con grados de libertad la diferencia entre los grados de libertad de las distribuciones chi-cuadrado asintticas de G2(MP) y G2(MG), es decir, el nmero de parmetros que se anulan para H0, r.

1: : 0 (asumiendo cierto MG)

22

As que se rechaza la hiptesis nula al nivel de significacin cuando G2obs(MP|MG)


2 ; .

2.5. Inferencia en regresin logstica multinomial

Lo principal que se pretende cuando se realiza un modelo estadstico a travs de los datos procedentes de una muestra, es extrapolar los resultados muestrales a la poblacin general, es por ello que para nuestro caso particular de haber estimados los parmetros del modelo de regresin logstica multinomial, pretendemos hacer inferencia.

Intervalos de confianza Basndonos en la normalidad asinttica de los estimadores de mxima verosimilitud se pueden construir intervalos de confianza asintticos para cada uno de los parmetros del modelo, utilizando la distribucin normal, y mediante las transformaciones correspondientes, intervalos de confianza para las odds ratio. Intervalos de confianza para los parmetros

Construimos un intervalo de confianza con nivel de confianza 1- para cada parmetro del modelo de regresin logstica multinomial, con j=1,,k. La correspondiente al error estndar del estimador del parmentro . as el intervalo de confianza aproximado para al nivel 1 : 2 = As que tenemos que: [2

, donde es el valor es , 2 distribucin asinttica de

2 ] = 1 . Por lo que obtenemos

Intervalos de confianza para las odds ratio

Sabemos que los cocientes de ventajas vienen dados por: ( = 1 / = , ) = exp = 1, ; = 1, , 1

23

Por lo tanto, el intervalo de confianza para los cocientes de ventajas se calcula tomando exponenciales en el intervalo de confianza obtenido anteriormente para cada uno de los parmetros . As que el intervalo de confianza para exp al nivel de confianza 1 , viene dado por: 2 exp = exp

2.6. Mtodos de seleccin del modelo

Una vez conocido el procedimiento de ajuste de modelos de regresin logstica multinomial, el siguiente paso es el desarrollo de estrategias para seleccionar las variables que mejor explican a la variable de respuesta. Para ello se adoptar el principio de parsimonia que consiste en seleccionar el modelo que con menor nmero de parmetros se ajuste bien a los datos y lleve a una interpretacin sencilla en trminos de cocientes de ventajas. Hay que tener especial atencin a las covariables cualitativas que se transforman en varias variables dummies. Siempre que se incluya o excluya una de estas variables, todas las dems categoras deben ser incluidas o excluidas en bloque. Si no se tiene en cuenta esta consideracin, implicara que se habra recodificado la variable, y por tanto la interpretacin de la misma no sera la correcta. Adems, hay que tener en cuenta la significacin que pudiera tener cada variable dummy. No siempre todas las categoras de una covariable son significativas, o todas no significativas. Por lo que, cuando ocurra esta situacin es recomendable contrastar el modelo completo frente al modelo sin la covariable mediante la prueba de razn de verosimilitud, decidiendo incluir o excluir la covariable dependiendo del resultado de la prueba y del inters clnico de la covariable. Si se obtiene significacin en este contraste, la variable permanecera en el modelo, si no se obtiene significacin y la covariable es de inters clnico, su inclusin en el modelo es a criterio del investigador (23,32). A continuacin se describen diferentes mtodos para llegar a ajustar un modelo (28,33).

24

2.6.1. Hacia adelante 1. Se inicia con un modelo vaco (slo la constante). 2. Se ajusta un modelo y se calcula el p-valor del contraste de razn de verosimilitud que resulta de incluir cada variable por separado. 3. Se selecciona el modelo con el p-valor ms significativo. 4. Se ajusta de nuevo un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de aadir cada variable no seleccionada anteriormente por separado. 5. Se selecciona el modelo con el ms significativo. 6. Se repite 4 - 5 hasta que no queden variables significativas para incluir.

2.6.2. Hacia atrs 1. Se inicia con un modelo con todas las variables candidatas. 2. Se eliminan, una a una, cada variable y se calcula la prdida de ajuste al eliminar. 3. Se selecciona para eliminar la menos significativa. 4. Se repite 2 3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste.

2.6.3. Stepwise En este mtodo se combinan los mtodos adelante y atrs. Puede empezarse por el modelo vaco o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar. Pero no todos los mtodos llegan a la misma solucin necesariamente. El mtodo de stepwise, est basado en contrastes condicionales de razn de verosimilitudes. Si partimos del modelo vaco, slo con la constante, este mtodo consiste en partir de ese modelo inicial, y en cada paso se ajustarn todos aquellos modelos que resultan de incluir cada una de las variables explicativas que no estn en el modelo seleccionado en el paso anterior. Entonces se llevan a cabo contrastes condicionales de razn de verosimilitudes que tienen en la hiptesis nula el modelo seleccionado en el paso anterior y en la hiptesis alternativa el modelo resultante de la inclusin de cada variable. De este modo se seleccionarn las variables para las que el contraste sea significativo, y se incluira en el modelo aquella variable asociada al mnimo pvalor de entre todos los menores o iguales que 1. La inclusin de variables mediante

25

este mtodo contina hasta que ninguno de estos contrastes condicionales sea significativo. Por otra parte, a la misma vez, se considera en cada paso la posibilidad de eliminar alguno de los parmetros del modelo seleccionado en el paso anterior (mtodo hacia atrs). Pero no se puede eliminar en un paso la variable que acaba de entrar en el paso anterior, por lo que se fijar para la eliminacin de variables un nivel de significacin 2 mayor que 1. Al igual que antes, para la eliminacin de variables se realizarn contrastes condicionales de razn de verosimilitudes que tienen en la hiptesis nula el modelo que resulta de la eliminacin de cada variable y en la hiptesis alternativa el modelo seleccionado en el paso anterior. As, las variables candidatas a eliminar sern aquellas cuyo p-valor sea mayor de 2 y se eliminar la variable con el mayor p-valor de stos. La eliminacin de variables contina hasta que todos estos contrastes condicionales resulten significativos. As finalmente, se llegar a un paso en el que ninguno de los contrastes condicionales de introduccin de variables sean significativos y todos los de eliminacin de variables sean significativos.

2.7. Validacin del modelo


Una vez utilizado el Test de chi-cuadrado de Pearso X2, o el test de chicuadrado de razn de verosimilitudes G2, se debe estudiar la bondad del ajuste de cada observacin, para comprobar si una observacin es influyente o no. Para ello una de las tcnicas para estudiar esta cuestin es el estudio de los residuos que comparan el nmero observado de xitos, en cada combinacin de valores de las variables predictoras, con su valor ajustado por el modelo. Veamos a continuacin los tipos de residuos ms habituales basndose en los estadsticos X2 y G2, que se definen en cada combinacin de valores xq de las variables explicativas.

2.7.1. Residuos de Pearson o residuos estandarizados. Vienen dado por la siguiente expresin: / = como:
2 2 = / . =1 =1 jq yjq dq p jq 2 dq p
1

Con esta expresin, podemos definir el estadstico chi-cuadrado de Pearson

26

Para contrastar la significacin estadstica de los residuos planteamos el contraste: 0 : / = 0

cero

Bajo la hiptesis nula rj/q tiene una distribucin asinttica normal con media

1: : / 0

variabilidad que una variable aleatoria estndar, pero suelen ser tratados como

y varianza estimada 2 (rj/q ) <1, es decir que los residuos tienen menor

normales estndar, considerndose significativos cuando sus valores absolutos son mayores que dos (falta de ajuste). Para evitar este problema se definen los residuos de Pearson ajustados que presentan distribuciones asintticas normales estndar y vienen dados por: / = (rj/q )

con un grado de libertad.

Tambin se puede tomar el cuadrado de que tiene distribucin chi-cuadrado

As que se rechaza la hiptesis nula con un nivel de significacin cuando | / | 2 . Residuos de la devianza o residuos estudentizados. Se definen como:
2 yjq = 2 yjq ln m jq 1

2.7.2.

Con esta expresin podemos definir el estadstico de chi-cuadrado de razn de


2 verosimilitudes como: G2 = q=1 k j=1 dj/q . Q

dj/q

En este caso, se consideran significativos cuando el valor absoluto es mayor que 4, y se considera que la observacin correspondiente es anormal.

tiene distribucin asintticamente normal con media 0 y varianza estimada 2 (dj/q )<1.

Igual que en el caso anterior, bajo la hiptesis nula 0 : / = 0 el residuo /

Al igual que antes, se definen los residuos de la devianza ajustados o estandarizados

27

que tiene distribucin asinttica normal estndar.

/ =

(dj/q )

As que rechazamos la hiptesis nula con un nivel de significacin cuando


| / | 2 .

La diferencia entre los dos tipos de residuos es que los de la devianza

convergen ms rpidamente a la distribucin normal que los de Pearson.

28

CAPTULO 3:

FUNCIONES Y COMANDOS CON R

29

En este captulo se describir el software elegido para realizar todo el anlisis estadstico que posteriormente se llevar a cabo en la aplicacin con nuestros datos reales. Este software que se utilizar es el paquete R y R-commander, concretamente la versin 2.11.1. De este software destaca principalmente los siguientes aspectos para tener argumentos suficientes de su utilizacin: sus bondades en lo que se refiere a calidad, a la cantidad de tcnicas y funciones implementadas, a que es libre y a la gran comunidad cientfica que lo usa como estndar para el anlisis de datos. R es un lenguaje de programacin y un entorno para anlisis estadstico y la realizacin de grficos. Tiene la ventaja de que es fcilmente adaptable a una gran variedad de tareas. R abarca una amplia gama de tcnicas estadsticas que van desde los modelos lineales a las ms modernas tcnicas de clasificacin pasando por los test clsicos y el anlisis de series temporales. Proporciona una amplia gama de grficos, que son fcilmente adaptables y extensibles. La calidad de los grficos producidos y la posibilidad de incluir en ellos smbolos y frmulas matemticas, posibilitan su inclusin en publicaciones que suelen requerir grficos de alta calidad. R fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estadstica de la Universidad de Auckland en Nueva Zelanda. Actualmente, R es el resultado de colaboraciones de personas de todo el mundo. En 1997 se form el ncleo de desarrollo de R, que actualmente es el que tiene la posibilidad de modificacin directa del cdigo fuente. El cdigo de R est disponible como software libre bajo las condiciones de la licencia GNU-GPL. La pgina principal del proyecto es http://www.r-project.org. Para poder instalar R desde la pgina oficial del Proyecto R, (34), se deben de seguir las instrucciones segn la plataforma sobre la que se desea instalarlo. Adems de instalar el software bsico, se pueden instalar otros paquetes y consultar la documentacin, donde se encuentran manuales, libros, etc.

30

3.1.Primeros pasos con R


Para conocer unas nociones bsicas sobre el manejo de R, se recomienda para una iniciacin con R el libro de Arriaza et al. (3). Aqu mostramos la consola de R y la interfaz de R-Commander.

31

A diferencia de otros programas estadsticos, en R se utilizan comandos, por lo que la entrada de los anlisis se realiza mediante texto y los resultados que devuelve el programa, aparecen tambin en la consola en formato de texto. Con R-Commander, en el cual se eligen, desde el men que aparece en la interfaz, todos los anlisis que realiza el programa y a medida que se van seleccionando aparecen cuadros de dilogos para poder seleccionar las opciones que te convengan. El resultado de los anlisis, al igual que en R, aparece en la consola como texto. Ms adelante aparecern ejemplos donde se muestre las entradas y salidas de los anlisis tanto en R como en R-Commander. A continuacin se detallarn todas las rdenes que formarn parte del anlisis que llevaremos a cabo en este trabajo, que corresponder a anlisis descriptivos, anlisis bivariantes para conocer relaciones entre dos variables y los modelos logsticos multinomial, incluyendo algunas funciones ms que se utilizarn para el ajuste del modelo. De cada una de las rdenes se describir tanto la forma de

realizarlas con R-Commander como con R, en sta ltima, de los comandos se describirn las opciones que hay en el parntesis, es decir, cada uno de los argumentos, as como cada salida que devuelve esa funcin. En el caso de que se utilice algn anlisis que no se proporcione con una funcin existente en R, se explicar las funciones o scripts que hay en R para su clculo o los que se haya programado. Todas las funciones que se mostrarn a continuacin se pueden consultar en el centro de documentacin de R, accediendo a l simplemente escribiendo el comando help y entre parntesis incluir el nombre de la funcin. Por ejemplo, si queremos ver cmo funciona la funcin recode, que veremos ms adelante, introduciremos en la consola de R help(recode). Y se nos abre un hipervnculo

(http://127.0.0.1:24454/library/car/html/recode.html) con la siguiente informacin:

32

Antes de comenzar a describir los comandos usados para el anlisis estadstico, necesitamos tener una matriz de datos para poder realizar los anlisis, por lo que esta matriz de datos o se crea nueva desde R o se importa desde otro soporte. Si se importa desde otro soporte, que es nuestro caso, realizndolo con RCommander tenemos las siguientes opciones:

La orden equivalente en R es read.soporte del que se importa, en nuestro caso, importamos los datos desde spps, por lo que sera, read.spss. La sintaxis de esta orden es: read.spss(file, use.value.labels = TRUE, to.data.frame = FALSE, max.value.labels = Inf, reencode = NA, use.missings = to.data.frame)

33

Donde: file: es el archivo de datos original que queremos importar, hay que escribir la secuencia de la ubicacin del archivo y el nombre. (c:/Archivos de programas/) use.value.labels: convierte variables que en SPSS presentan etiquetas de valores en factores de R con esos niveles. En R se le llama factores a las variables de tipo cualitativa. to.data.frame: devuelve la matriz de datos. max.value.labels: indica si slo se convierten a factores aquellas variables con etiquetas de valores. reencode: valor lgico que permite decidir si las cadenas de caracteres deberan ser recodificadas. use.missings: valor lgico que indica si los valores perdidos por el usuario deben asumirse como valores perdidos por la mquina. Adems de estos argumentos, tambin se pueden incluir algunos ms que se pueden ver en la ayuda de R. A la base de datos que se importa utilizando el comando anterior, se le puede asignar un nombre, por ejemplo en el caso de la aplicacin que se describe en este trabajo se le denomina Datos.

Estos datos una vez cargados, se pueden visualizar, los cuales, aparecen en una matriz de datos, denomina data.frame, cuyas filas son cada caso y las columnas son las variables. Estas variables pueden ser tanto numricas o factores, que son variables de tipo cualitativo. A continuacin se muestra un ejemplo del data.frame.

34

Tenemos que tener en cuenta que podemos querer recodificar alguna variable, es decir, que no estn en la forma adecuada para realizar el anlisis. As con RCommander seleccionaramos Datos->Modificar variables de los datos activos>Recodificar variables.

En el cuadro de dilogo, como se ve a continuacin, se selecciona la variable o variables que se desean recodificar, se les asigna un nuevo nombre y se seala si se desea convertir la nueva variable en factor o no. En el cuadro de directrices de recodificacin, hay que incluir las rdenes de la recodificacin que se explican a continuacin. Cada instruccin deber estar separada por punto y coma, de la forma entrada=salida, donde la entrada es el valor antiguo y la salida el valor nuevo a asignar al valor antiguo. Si queremos recodificar un valor aislado, 0=NA. Si queremos recodificar un vector de valores, para asignarles a todos un mismo valor nuevo, c(1,2,3)=Bajo. Para recodificar un rango de valores seguidos en un nico valor nuevo 4:10=Medio. Para recodificar el resto de valores que anteriormente no se haya especificado se usa else, por ejemplo else=Alto.

La sintaxis en R sera: recode(var, recodes, as.factor.result, levels)

35

Donde: var: vector numrico, vector de cadena o factor, que es la variable a recodificar recodes: las instrucciones de la recodificacin. as.factor.result: valor lgico que indica si se devuelve un factor. levels: argumento opcional para especificar el orden de los niveles del factor devuelto, por defecto el orden es el de los nombres del nivel.

En muchas ocasiones interesa estudiar slo un subconjunto de la poblacin de la que se tiene los datos, por ejemplo seleccionar slo las mujeres, en el caso de que se tengan datos de un estudio completo de una poblacin general. Para poder realizar esta seleccin y realizar posteriormente los anlisis correspondientes slo a ese subconjunto, se utiliza en R la orden subset: subset(x, subset, select,) Donde: x: objeto del cual se quiere seleccionar el subconjunto. subset: expresin lgica que indica los elementos o filas que se pretenden seleccionar. select: expresin que indica las columnas a seleccionar de la base de datos.

Cuando se utiliza esta funcin, se le asigna un nombre, ya que el resultado es una nueva matriz de datos con las observaciones seleccionadas. Esta funcin tambin se utiliza como un argumento dentro de otras funciones, para que se apliquen dichas funciones slo en una parte de las observaciones de la matriz de datos.

Tenemos que tener en cuenta, que lo ms probable es que tengamos valores perdidos en la matriz de datos, ya que es algo ocurrente sobre todo cuando se tiene gran cantidad de datos de un estudio. En R a estos valores se le asigna el valor NA, por lo que para los anlisis que se realicen con R, ste considera este valor y los tiene en cuenta a la hora de tratarlos en sus anlisis.

36

3.2. Anlisis unidimensional

Para nuestro trabajo antes de realizar el anlisis estadstico para conocer la relacin entre distintas variables, sobre todo con los tipos de depresin, y antes de ajustar un modelo de regresin logstica multinomial, se realiza un anlisis descriptivo, ya que es lo habitual en cualquier estudio para conocer las caractersticas bsicas de los individuos o casos estudiados. El tipo de anlisis descriptivo a utilizar vara en funcin de cmo sea la variable, si cualitativa o cuantitativa, y dentro de estos tipos si son cuantitativas continuas, discretas, o cualitativa nominal u ordinal. En nuestros datos tenemos variables tanto cualitativas como cuantitativas, por lo que mostramos a continuacin las funciones para el anlisis descriptivo que se utilizan segn el tipo de variable. Utilizaremos tambin grficos, que tambin variar el tipo de grfico a utilizar dependiendo del tipo de variable. Hay que decir que adems de las opciones para el anlisis descriptivo que mostraremos a continuacin, tambin existen otras opciones que ofrece R, pero que no entraremos en detalles, ya que slo mostraremos los que se usar posteriormente en este trabajo. Para poder consultar ms detalladamente otros anlisis que ofrece R se recomienda Arriaza et al., Crawley MJ, o Spector P. (1,3,34,35)

3.2.1

Variables cualitativas Para dar un resumen de este tipo de variables, se calcula la distribucin de

frecuencias, donde se puede presentar tanto las frecuencias de cada categora como el porcentaje. El tipo de grfica que se puede utilizar sera un diagrama de sectores, o un diagrama de barras.

Distribucin de frecuencias:

Para calcular la distribucin de frecuencias con R-Commander, se selecciona Estadsticos -> Resmenes -> Distribucin de Frecuencia, y en el cuadro de dilogo se eligen todas las variables que deseamos calcular su distribucin de frecuencias. Las rdenes correspondientes en R son:

37

.Table<-table(Datos$V1) 100*.Table/sum(.Table)

Donde: Datos: nombre de la base de datos. V1: nombre de la variable. El comando table, como se puede ver en la siguiente imagen, nos devuelve en una tabla las frecuencias absolutas y con la segunda orden obtenemos los porcentajes, ya que realiza el cociente de cada valor con el tamao total, que se obtiene con la funcin sum.

Intervalos de confianza para la prevalencia

En el caso de que se calculen prevalencias de alguna variable, se puede incluir el intervalo de confianza de dicha prevalencia, para su clculo usamos en R la funcin prop.test, para comparar proporciones y que se describe a continuacin: prop.test(x, n, p = NULL, alternative = c(two.sided, less, greater), conf.level = 0.95, correct = TRUE)

Donde: x: vector con la frecuencia de los xitos o una matriz con dos columnas dando la frecuencia de los xitos y fracasos, respectivamente. n: vector con la frecuencia de todos los ensayos, se ignora si x es una matriz. p: vector con las probabilidades de xito. Debe estar comprendido entre 0 y 1. alternative: especifica la hiptesis alternativa, que debe ser bilateral two.sided, o unilateral, greater o less.

38

conf.level: nivel de confianza para el intervalo de confianza. Debe ser un nmero entre 0 y 1. correct: valor lgico para indicar si se aplica la correccin por continuidad de Yates. Esta funcin nos devuelve los siguientes valores: el estadstico del test de Chi-

cuadrado de Pearson, los grados de libertad de la aproximacin de la distribucin de Chi-cuadrado del test, el p-valor del test, las proporciones de la variable y el intervalo de confianza para una proporcin o para la diferencia de proporciones.

Diagrama de sectores:

Para la representacin grfica con el diagrama de sectores seleccionamos en R-Commander Grficas->Grfica de sectores, y se elige la variable que se desea representar. Pero con esta eleccin nos dibuja el grfico con las opciones por defecto y no podemos por ejemplo cambiar el color de los sectores. As que a continuacin mostramos la secuencia con R con todos sus argumentos, la funcin a utilizar es pie. pie(x, labels = names(x), radius = 0.8, clockwise = FALSE, init.angle = if(clockwise) 90 else 0, col = NULL, border = NULL, lty = NULL, main = NULL, ...)

Donde: x: vector de cantidades no negativas cuyos valores se muestran en las reas de las porciones del sector. labels: etiquetas para las porciones. radius: radio del sector, que puede comprender entre -1 y 1. Se puede reducir si las etiquetas son muy largas. clockwise: valor lgico que indica el sentido de giro del diagrama. Por defecto es el sentido contrario a las agujas del reloj. init.angle: nmero que especifica el ngulo inicial para la primera porcin, medido en grados. Por defecto es 0 si se ha considerado el sentido contrario a las agujas del reloj y 90 si se ha considerado el sentido de las agujas del reloj. col: vector de colores que se desea usar para el relleno o la sombra del sector. Si no aparece este argumento se fijan 6 colores pasteles. border: color del borde (posiblemente vectores). lty: tipo de lnea que se usar.

39

main: ttulo para el grfico.

Pueden introducirse ms argumentos que se pueden consultar en la ayuda de R.

Diagrama de barras:

Este tipo de grfica se puede usar tanto para variables cualitativas, como para variables cuantitativas discretas o variables ordinales. Para realizar este grfico en RCommander seleccionamos Grficas->Grfica de barras y se elige la variable. Pero al igual que con el diagrama de sectores y con todos los tipos de grficas, aparecen las opciones por defecto. En R utilizamos para este grfico el comando barplot: barplot(height, width = 1, space = NULL, names.arg = NULL, legend.text = NULL, beside = FALSE, horiz = FALSE, col = NULL, border = par(fg), main = NULL, sub = NULL, xlab = NULL, ylab = NULL, xlim = NULL, ylim = NULL, log = , axes = TRUE, inside = TRUE, plot = TRUE, axis.lty = 0, offset = 0, add = FALSE, ...)

Donde: height: vector o matriz que describirn las barras que formarn el grfico. Si es un vector, el grfico ser de barras rectangulares con alturas dadas por los valores incluidos en el vector. Si es una matriz, dependiendo de si el argumento beside es TRUE o FALSE, el grfico ser de barras apiladas o juxtapuestas. width: anchura de las barras. space: el espacio a dejar a la izquierda de cada barra. names.arg: vector de nombres que se quieren colocar bajo cada barra o grupo de barras. legend.text: vector de texto para construir una leyenda para el grfico o un valor lgico para indicar si se debe incluir una leyenda. Slo se usa si height es una matriz. beside: valor lgico que indica si, las columnas de height se apilan, FALSE, o aparecen en juxtaposicin, TRUE. horiz: valor lgico para indicar que las barras estn en posicin vertical, FALSE, u horizontal, TRUE.

40

col, border y main son argumentos explicados en la funcin pie. sub: para aadir un subttulo al grfico. xlab: una etiqueta para el eje x. ylab: una etiqueta para el eje y. xlim: lmites del eje x. ylim: lmites del eje y. log: para especificar si la escala de los ejes deben pasarse a logartmica. axes: valor lgico que permite dibujar o no los ejes. inside: valor lgico para dibujar o no las lneas de divisin de las barras cuando estn no apiladas. plot: valor lgico para que se muestre el grfico o no. axis.lty: tipo de lnea deseada para los ejes. offset: vector que indica cunto deben desplazarse las barras respecto del eje x. add: valor lgico que indica si las barras se aaden a un grfico previo.

Al igual que en el caso anterior, existen ms argumentos que no se han especificado.

3.2.2. Variables cuantitativas continuas Cuando la variable es cuantitativa, tanto discreta como continua lo ms habitual es dar medidas de centralizacin, como la media o la mediana, las medidas de dispersin, como la varianza o desviacin tpica, sta ltima es la que se suele usar ms a menudo, o medidas de posicin, como, mnimo, mximo, cuartiles, percentiles o deciles. En cuanto a los grficos, para las variables cuantitativas continuas se utiliza el histograma, y para variables discretas el histograma tambin o ms recomendado el diagrama de barras.

Resmenes numricos: media, desviacin tpica, cuartiles.

Con R-Commander, la opcin para obtener de una variables cuantitativa la media, la desviacin tpica y los cuartiles que se deseen, es mediante la seleccin de Estadsticos->Resmenes->Resmenes numricos, se seleccionaran todas las variables deseadas a obtener sus descriptivos y se seleccionan los parmetros que se deseen calcular, por defecto estn seleccionados todos. Tambin te permite obtener

41

los resultados por grupos, eligiendo una variable de agrupacin, que sera alguna variable de tipo factor, mostrando los parmetros a calcular en cada grupo o factor.

La orden en R sera: numSummary(Datos[,V1], statistics=c(mean, sd, quantiles), quantiles=c(0,.25,.5,.75,1))

Donde Datos: nombre de la base de datos. V1: variable objeto de estudio statistics: vector que indica los estadsticos a calcular. En este caso seran la media (mean), la cuasi-desviacin tpica (sd) y los cuartiles (quantiles). quantiles: vector que indica los cuartiles a calcular que por defecto calcula el mnimo, el cuartil primero, la mediana, el cuartil tercero y el mximo. Este comando devuelve la siguiente salida, mostrada con un ejemplo de nuestros datos:

Como se puede observar, te demuestra dos valores ms adems de los explicados anteriormente, n y NA, que indican el nmero de valores vlidos de la variable y el nmero de valores perdidos, respectivamente.

42

Histograma

Desde R-Commander podemos dibujar un histograma seleccionando Grficas>Histograma, eligiendo en el cuadro la variable a representar grficamente, el nmero de clase, que por defecto es automticamente y tambin se puede elegir la escala de los ejes, o frecuencias, porcentajes o densidades.

Para realizar esta representacin con los comandos de R, se utiliza la funcin hist, que presentamos a continuacin: hist(x, freq = NULL, include.lowest = TRUE, right = TRUE, col = NULL, border = NULL, main = paste(Histogram of , xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, ...)

Donde: x: vector de valores de los que el histograma se representar. freq: valor lgico que indica si el histograma se representa con frecuencias, TRUE, o densidades de probabilidad, FALSE. right: valor lgico para indicar si las celdas de los histogramas tienen los intervalos cerrados por la derecha y abiertos por la izquierda. col, border, main, xlab, ylab, xlim, ylim, axes son argumentos ya explicados en los anteriores tipos de grficos. plot: valor lgico, si es TRUE se muestra la grfica y si es FALSE se muestra una tabla de frecuencia para cada intervalo de la variable. labels: valor lgico o cadena para poder aadir etiquetas arriba de las barras.

Se pueden incluir ms opciones que no se muestran, se pueden consultar en la ayuda de R.

43

3.3. Anlisis bidimensional

Una vez realizado un anlisis unidimensional de las variables que presenta una base de datos, para conocer una descripcin de esas variables, es conveniente realizar un anlisis de conjuntos de variables, para analizar relaciones entre distintas variables, mostrando tanto sus descriptivos, as como realizar algn test estadstico que te confirme o te niegue la relacin o el grado de relacin y la significacin estadstica entre esas variables. En este apartado nos centraremos en el anlisis conjunto de dos variables, es decir, el cruce de dos variables. Pero al igual que antes con el anlisis unidimensional hay que tener en cuenta la naturaleza de las variables, as como los objetivos del estudio para fijar las tcnicas estadsticas que se llevarn a cabo. Podra existir la posibilidad de realizar un anlisis bivariante de todas las variables estudiadas en el anlisis unidimensional, pero no es aconsejable, ya que el nmero de anlisis que se realizaran sera enorme, y adems algunos de ellos no tendran un inters prctico. Es por ello que el investigador, basndose en la literatura y en la experiencia propia, es el que decide qu variables cruzar para obtener relaciones entre ellas (3). Detallaremos a continuacin las funciones que presenta R que utilizaremos con nuestros datos, para realizar anlisis bidimensionales, para ello tambin tendremos en cuenta cmo son las variables.

3.3.1

Dos variables cualitativas En el caso de que queramos cruzar dos variables cualitativas, usamos la tabla de doble entrada, que se denomina tabla de contingencia, la cual presenta en cada casilla las frecuencias absolutas o porcentajes de una de las categoras de una variable con una categora de la otra variable. Para evaluar el grado de relacin y el nivel de significacin estadstica entre dos variables categricas se utiliza el test de Chi-Cuadrado. Tambin podemos representar grficamente dos variables mediante el

diagrama de barras, que ya explicamos anteriormente cmo se realiza.

44

Tablas de contingencia. Test de Chi-cuadradro.

En R-Commander, podemos obtener tanto la tabla de contingencia como el estadstico Chi-cuadrado seleccionando Estadsticos->Tablas de contingencia->Tabla de doble entrada. Obteniendo el siguiente cuadro, donde podemos seleccionar las dos variables a cruzar, el clculo de porcentajes que deseemos, que slo te permite seleccionar uno y el test de hiptesis, que utilizaremos el Test de independencia ChiCuadrado, aunque tambin se utilizar, cuando no se cumplan las condiciones de aplicacin, el Test exacto de Fisher.

Para realizar el anlisis con R, usamos las siguientes funciones: .Table <- xtabs(~V1+V2, data=Datos) totPercents(.Table) # Percentage of Total rowPercents(.Table) # Row Percentages colPercents(.Table) # Column Percentages .Test <- chisq.test(.Table, correct=FALSE)

Donde: xtabs: muestra la tabla con las frecuencias absolutas. V1 y V2: son las variables que se quieren cruzar. Datos: el conjunto de datos donde se encuentran las variables.

45

totPercents: muestra la tabla con los porcentajes sobre el total. rowPercents: muestra la tabla con los porcentajes sobre las filas. colPercents: muestra la tabla con los porcentajes sobre las columnas. chisq.test: te muestra el test de independencia de Chi-cuadrado de Pearson, la opcin correct te permite realizar el test con la correccin por continuidad si es TRUE.

A diferencia de R-Commander, en la misma sentencia se puede incluir los tres tipos de porcentajes. Mostramos a continuacin un ejemplo:

3.3.2. Una variable cualitativa y una variable cuantitativa continua En el caso de que queramos ver la relacin entre una variable cualitativa y otra cuantitativa, lo normal es que se muestre la diferencia de medias de la variable cuantitativa con respecto a cada categora de la variable cualitativa y se comprueba con un test si existe o no diferencias estadsticamente significativa. Sin embargo, cuando trabajamos con variables cuantitativas, existen diferentes test segn estas variables cumplen las condiciones de normalidad o no, es decir se acude a test paramtricos o a test no paramtricos en el caso de que no se cumplan las condiciones de normalidad de la variable. Por ello, hay que comprobar anteriormente

46

si las variables cumplen la condicin de normalidad. Para ello con R, lo comprobaremos con el test de normalidad de Shapiro-Wilk. Con R-Commander seleccionamos Estadsticos->Resmenes->Test de

normalidad de Shapito-Wilk y se selecciona la variable. Con la consola de R, se utiliza la funcin siguiente: shapiro.test(x)

Donde x: un vector numrico de los datos.

Esta funcin devuelve el valor del estadstico de Shapiro-Wilk y una aproximacin del p-valor del test. Mostramos a continuacin un ejemplo:

Si este test es significativo, significa que la variable no sigue una distribucin normal, por lo que habra que realizar los anlisis correspondientes a la comparacin entre distintos grupos mediante test no paramtricos.

ANOVA

Cuando las variables cumplen la condicin de normalidad se utiliza el test paramtrico ANOVA de un factor, para comparar diferencias de medias entre ms de dos grupos, en nuestro caso sera comparar las medias de alguna variable cuantitativa continua entre los distintos tipos de depresin. El cual lo podemos obtener mediante R-Commander por Estadsticos->Medias->ANOVA de un factor, y se elige en la ventana la variable que agrupa a los individuos y la variable explicativa. Tambin se presta la opcin de comparar las medias dos a dos.

47

Esta funcin realiza un modelo lineal y el ANOVA para este modelo y se obtiene tambin las medias, desviaciones tpicas y frecuencias de la variable explicada en cada categora de la variable de agrupacin. As que los comandos en R seran: .Anova<- lm(formula, data) anova(.Anova)

Donde: formula: es la descripcin del modelo que debe ser ajustado. Para este caso sera Variable explicada~Variable de agrupacin. data: la matriz de datos de donde proceden las variables incluidas en la frmula. En todos los modelos que se realicen con R, se deben de incluir la formula, el cual es la ecuacin del modelo, donde se indica primero la variable dependiente, seguido del smbolo ~, y posteriormente se incluye la expresin correspondiente con las variables independientes, que normalmente se introducen sumando. Esta funcin nos devuelve el anlisis de la varianza, con los grados de libertad, la suma de cuadrados y la media cuadrtica, as como el valor del estadstico F y su significacin. Mostramos a continuacin un ejemplo en el que la variable explicada es la edad y la de agrupacin los tipos de depresin:

48

Test no paramtrico de Wilcoxon

Cuando la variable cualitativa presenta dos categoras y podemos agrupar a los individuos en dos grupos independientes, utilizamos este test para muestras independientes. En R-Commander seleccionamos Estadsticos->Test no

paramtricos->Test de Wilcoxon para dos muestras, donde se elige la variable que identifica los distintos grupos, la variable categrica, y la variable explicada, la variable cuantitativa continua. Tambin te permite elegir la hiptesis alternativa, bilateral o unilateral y el tipo de prueba, la de por defecto, exacto o aproximacin normal. A continuacin se muestra el cuadro con las opciones. Esta funcin tambin te devuelve una tabla con las medias de la variable cuantitativa en cada categora.

Con R utilizamos la funcin wilcox.test: wilcox.test(x, y = NULL, formula, alternative = c(two.sided, less, greater), data, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, ...)

Donde x: vector numrico de los datos. y: vector opcional numrico de datos alternative: carcter que especifica la hiptesis alternativa, debe bilateral (two.sided), o unilateral <0 (less), >0 (greater). paired: valor lgico que indica si se desea un test apareado. exact: valor lgico que indica que debe ser calculado un p-valor exacto. correct: valor lgico que indica si aplicar o no la correccin por continuidad en la aproximacin normal para el p-valor.

49

conf.int: valor lgico que indica calcular o no un intervalo de confianza. conf.level: nivel de confianza del intervalo. formula: frmula del tipo x~g, donde x es la variable numrica de los valores y g el factor que indica los dos grupos. data: matriz de datos que contiene las variables de la formula. subset: vector opcional que especifica un subconjunto de observaciones para ser usadas.

Mostramos a continuacin un ejemplo de esta funcin:

Test no paramtrico de Kruskal-Wallis

Para conocer diferencias de medias entre ms de dos grupos de individuos se utiliza el test de Kruskal-Wallis, que es una generalizacin del anterior. Para realizar este anlisis con R-Commander, se selecciona Estadsticos->Test no paramtricos>Test de Kruskal-Wallis, donde hay que seleccionar la variable que define los grupos y la variable explicada. Esta funcin te devuelve, adems del test, una tabla con la media de la variable cuantitativa en cada categora de la variable cualitativa. Para el caso de realizar el anlisis con la consola de R, se utiliza la funcin kruskal.test: kruskal.test(x, g, formula, data, subset, ) Donde x: vector 50rimarie de los datos, o una lista de vectores de datos numricos. g: vector o factor indicando el grupo de los correspondientes elementos de x. formula: frmula del tipo x ~g. data y subset son argumentos detallados en la funcin anterior.

50

Esta funcin devuelve los siguientes valores: el estadstico de Krustal-Wallis, los grados de libertad de la aproximacin de la distribucin de Chi-cuadrado del test y el p-valor del test. Mostramos a continuacin un ejemplo, en el que en primer lugar, tambin se incluye el comando para crear la tabla con las medias:

3.3.3. Dos variables cuantitativas continuas Para el caso en que tengamos dos variables cuantitativas continuas podemos ver si estn correlacionadas o no, para ello utilizamos el test de correlacin de Pearson. En R-Commander seleccionamos Estadsticos->Resmenes->Test de

correlaciones, donde se seleccionan las variables que queremos cruzar, se elige el tipo de correlacin, Pearson, Spearman o Kendall y se elige tambin la hiptesis alternativa, bilateral o unilateral.

En R, usamos la funcin cor.test que mostramos a continuacin sus argumentos: cor.test(x, y, alternative = c(two.sided, less, greater), method = c(pearson, kendall, spearman), exact = NULL, conf.level = 0.95, continuity = FALSE, ...)

51

Donde x, y: vectores numricos de datos, que deben tener la misma longitud. alternative, exact, conf.level son argumentos explicados en anteriores funciones. methods: indica qu coeficiente de correlacin usar para el test, pearson, spearman o kendall. continuity: valor lgico que indica si se usa la continuidad por correccin para el coeficiente de Kendall y para el coeficiente de Spearman cuando no se calcula exactamente. Esta funcin devuelve los siguientes valores: el valor del estadstico, los grados de libertad del test estadstico en el caso de que siga una distribucin t de student, el p-valor del test, la medida estimada de asociacin, o el coeficiente de Pearson, Spearman o Kendall, dependiendo del mtodo elegido, el valor de la medida de asociacin bajo la hiptesis nula, la hiptesis alternativa elegida y el intervalo de confianza para la medida de asociacin. Mostramos un ejemplo para este test:

3.4. Modelo de regresin logstica multinomial

Una vez que se realiza todo el anlisis exploratorio que se ha indicado en los apartados anteriores, hay que cumplir con el objetivo principal que nos planteamos en este trabajo que es la aplicacin de modelos de respuesta discreta. En nuestro caso, queremos conocer los factores que afectan a los tipos de depresin, por lo que se propone ajustar un modelo de regresin logstica multinomial. Como vimos en el captulo 2, las variables explicativas que pueden introducirse en el modelo pueden ser tanto cuantitativas continuas como cualitativas categricas, y

52

vimos que para las variables categricas haba que considerar variables dummies, es decir dndole el valor 1 a la categora deseada y 0 al resto. A pesar de que la funcin que veremos a continuacin para el anlisis de la regresin logstica multinomial, al introducir estas variables como factor, considera las categoras como variables dummies, se explicar a continuacin cmo se crean manualmente en R, ya que se ha considerado realizarlo de esta manera por tenerlas en la base de datos y as poder tener un mayor control sobre ellas. Para ello se utiliza la funcin recode, que ya se explic anteriormente, as que por ejemplo, para la variable nivel de estudios, la cual presenta como categoras y cdigos: Sin estudios=0, Estudios primarios=1, Estudios secundarios=2 y Estudios universitarios=3; se obtendr una variable para todas las categoras, excepto para la que se considere de referencia que ser Sin estudios, as por ejemplo la nueva variable Estudios primarios ser codificada como 1 en los casos con este nivel de estudios y 0 el resto de casos. As que en R la orden para crear estas variables dummies sera: Datos&ESTUD_PRIMARIOS<-recode(Datos$NIV_ESTUD, 1=1; else=0) Datos&ESTUD_SECUNDARIOS<-recode(Datos$NIV_ESTUD, 2=1; else=0) Datos&ESTUD_UNIVERSITARIOS<-recode(Datos$NIV_ESTUD, 3=1; else=0)

A continuacin detallaremos cmo R trata el ajuste de los modelos de regresin logstica multinomial.

3.4.1. Formulacin y seleccin del modelo En primer lugar veremos con qu opcin y/o funcin se realiza un modelo de regresin logstica multinomial en R- Commander y en R. Como es habitual, desde R-Commander podemos seleccionar este tipo de anlisis, para ello seleccionamos Estadsticos->Ajuste de modelos->Modelo logit multinomial.

53

En primer lugar, se le asigna un nombre al modelo, ya que en R se almacena el modelo como un objeto que posteriormente se puede usar para obtener otras salidas. Posteriormente, aparecen todas las variables, donde se podr seleccionar las que se quieran utilizar para construir la frmula del modelo. En la frmula del modelo, en la primera casilla se introduce la variable dependiente y en la segunda casilla deben de ir las variables independientes que se deseen incluir en el modelo, utilizando los botones de arriba se construye la ecuacin, que en nuestro caso, sumaremos todas las variables independientes, por lo que utilizaremos el botn del +. En el caso de que se incluya alguna interaccin, se utiliza el singo *. Por ejemplo para realizar un modelo donde la variable dependiente es el tipo de depresin y las covariables son el sexo y la edad la frmula deber ser: tipos de depresin~sexo+edad. Este modelo usando la consola de R, se ajusta mediante la funcin multinom (36), la cual se encuentra en la librera de nnet, por lo que antes de utilizarlo tenemos que cargar el paquete nnet. Veamos cmo funciona esta funcin: multinom(formula, data, weights, subset, Hess = FALSE, model = FALSE, ...)

Donde: formula: expresin de frmula para los modelos de regresin, de la forma respuesta~predictores. La respuesta debe ser un factor o una matriz con K columnas, que se interpretar como el recuento de cada una de las clases K. Se ajusta un modelo log-linear con coeficientes 0 para la primera clase. data: conjunto de datos a los que pertenece las variables incluidas en formula.

54

weights: vector opcional de pesos o ponderaciones, por si se aplican a las variables. subset: indica si se desea tomar un subconjunto de filas de los datos para el ajuste del modelo. Hess: valor lgico que indica si mostrar o no la matriz Hessiana. model: valor lgico que indica si el modelo se guarda para incluirlo como salida.

Se pueden incluir ms argumentos, que se pueden consultar en la ayuda de R. Al realizar este modelo obtenemos las siguientes salidas: deviance: la devianza del modelo estimado, comparada con el modelo completo saturado (que explica las observaciones individuales

exactamente). Tambin se muestra como -2log-verosimilitud. edf: el nmero de grados de libertad usado en el modelo. AIC: el valor del Criterio de Informacin de Akaike para el ajuste del modelo. Hessian: la matriz Hessiana, si Hess=TRUE. model: muestra como salida el modelo sin ajustar.

Una vez ejecutado la funcin le pedimos mediante el comando summary, que nos muestre el resultado del modelo, pidindole que nos muestre tambin el estadstico de Wald, indicando Wald=TRUE. As se obtienen los coeficientes del modelo, con sus errores estndares y el estadstico de Wald.

Una vez que se realiza algn modelo de regresin logstica multinomial, para ajustarlo se realizarn contrastes de razn de verosimilitudes, para ello en R se utiliza

55

la funcin anova, la cual realiza un anlisis comparando las devianzas de dos o ms modelos y que vemos a continuacin: anova(object, )

Donde: object: un objeto que contiene los resultados obtenidos por una funcin que ajusta un modelo (como lm, glm o multinom). En nuestro caso, ser el nombre de los modelos de regresin logstica multinomial, separados por comas, que hayamos ajustados y queramos comparar. Esta funcin devuelve una tabla de anlisis de la devianza, en el que se comparan las devianzas de dos o ms modelos. Mostramos a continuacin un ejemplo, en el que se comparan dos modelos (modelo 1, slo con una variable y el modelo 17 que contiene dos variables):

En la tabla que se obtiene en este anlisis aparece en las filas los modelos a contrastar y de cada uno de ellos se obtiene los grados de libertad de la distribucin chi-cuadrado del test de contraste de razn de verosimilitud, Resid. Df, la devianza residual, Resid. Dev, la columna Test nos muestra qu modelos estamos contrastando, Df, es la diferencia de los grados de libertad de ambos modelos, el estadstico chi-cuadrado del contraste de razn de verosimilitud, LR stat. Y por ltimo el p-valor del estadstico, Pr(Chi). Este p-valor es el que nos indica si nos quedamos con el modelo 1 o 2, si es significativo es que nos debemos de quedar con el modelo 2, el cual incluye una variable ms.

3.4.2. Inferencia. Odds ratio

Una vez ajustado el modelo, se debe de dar una interpretacin y para ello se calculan las odds ratios. Para obtener las odds ratios de los parmetros del modelo, stas estn definidas como la exponencial de los parmetros, por lo que se utiliza la funcin exp.

56

exp(x)

Donde: x: un nmero o vector. En nuestro caso ser el vector que incluye los coeficientes del modelo.

Intervalos de confianza

Para calcular los intervalos de confianza de las odds ratio se utiliza la funcin confint. confint(object, parm, level=0.95,)

Donde: object: un objeto de un modelo ajustado. parm: una especificacin de los parmetros que se deben calcular los intervalos de confianza, tanto un vector de nmeros como un vector de nombres. Si este argumento no se especifica, todos los parmetros sern considerados. level: el nivel de confianza requerido.

Esta funcin devuelve una matriz o un vector, cuyas columnas resultan ser los lmites inferiores y superiores de cada parmetro.

3.4.3. Contraste sobre los parmetros

Contraste de Wald. p-valores

Para contrastar los parmetros del modelo, se realiza mediante el contraste de Wald. Hemos visto que con la funcin multinom obtenemos este estadstico, pero para poderlo contrastar calculamos los p-valores, como vimos en la teora la distribucin de este estadstico es asinttica, por lo que sigue una distribucin normal de media 0 y desviacin estndar 1, por lo que utilizaremos el siguiente comando para calcular los p-valores:

57

pnorm(x, mean = 0, sd = 1, lower.tail = TRUE)

Donde: x: es el vector de los cuantiles que se desean calcular la probabilidad. mean: la media de la distribucin normal. sd: la desviacin estndar. lower_tail: valor lgico que si es TRUE, se obtienen las probabilidades P[X<x], si es FALSE se obtiene P[X>x].

Contraste condicional de razn de verosimilitud

Tambin se realizar un contraste condicional de razn de verosimilitud, para contrastar el efecto conjunto de las variables predictoras, comparando las devianzas del modelo ajustado con la del modelo slo con la constante, como se ha visto en el apartado de seleccin del modelo, para realizar el contraste de razn de verosimilitud se realiza mediante la funcin anova.

3.4.4. Bondad de ajuste del modelo Para realizar el ajuste global del modelo, realizamos el test de chi-cuadrado de la razn de verosimilitud comparando el modelo ajustado con el modelo saturado, que resulta de multiplicar todas las variables, la ausencia de significacin de este test significa que el ajuste del modelo es bueno. Se realizar comparando las desvianza de ambos modelos y calculando el p-valor.

Tasa de clasificaciones correctas

Una de las formas tambin de contrastar la bondad del ajuste global del modelo y detectar si el modelo presenta eficacia predictiva, es mediante las tasas de clasificaciones correctas, para su clculo se deber de obtener el vector de las observaciones de la variable dependiente y el vector las observaciones predichas, del modelo que hayamos ajustado, mediante la funcin predict. Una vez obtenido esos dos vectores se compararn para obtener los casos coincidentes. Para realizar este anlisis utilizamos la siguiente sentencia:

58

obs<-datos$variable pre <- predict(object, type=c(class, prob)) cont=0 for (I in 1:N) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont} tcc<-cont/N

Donde: object: objeto almacenado, que ser el modelo ajustado. type: tipo de prediccin requerida, que puede ser class, que devuelve un vector con la categora estimada a la que pertenecera cada individuo; o prob que devuelve una matriz con las probabilidades predichas, donde las columnas son las probabilidades de cada categora de la variable dependiente.

3.4.5. Validacin del modelo Residuos

Una vez ajustado el modelo para la validacin de este, vimos que se estudiaban los residuos, en R obtenemos los residuos del modelo mediante la funcin residuals, que explicamos a continuacin, pero para poderlo estudiar realizamos un descriptivo de ellos, calculando la media, desviacin tpica, mnimo, mximo, mediana y cuartiles. residuals(object, )

Donde: object: un objeto del cual se quieren obtener los residuos, que ser el modelo. Esta funcin nos devuelve los residuos de la devianza extrados del object.

59

CAPTULO 4:

APLICACIN CON DATOS REALES

60

4.1. Descripcin de la aplicacin

Una vez que se ha explicado la teora, en este captulo nos dedicamos a llevar a la prctica esa teora, es decir, la aplicacin con datos reales de los modelos de regresin logstica multinomial. Como se coment en la introduccin usaremos los datos de un estudio transversal que se llev a cabo con una muestra de centros de atencin primaria (AP) en Espaa entre abril de 2006 y diciembre de 2006. Para obtener una muestra representativa, el nmero de centros de AP elegidos en cada regin Espaola fue proporcional al nmero de habitantes. Adems, el proceso de seleccin tuvo en cuenta el ratio rural/urbano de Espaa con al menos un 20% de la muestra de los centros de AP en ciudades de menos de 50000 habitantes. En cada centro de AP se seleccion un mdico general que acept participar voluntariamente, formando finalmente una muestra de 600 mdicos. El estudio se llev a cabo de acuerdo con las declaraciones de Helsinki y con los procedimientos habituales de trabajo y protocolos, siendo aprobado por el Comit tico del Hospital Clnico y El Hospital Provincial de Barcelona, asegurando las normas de la buena prctica clnica.

Pacientes El estudio incluy hombres y mujeres mayores de 18 aos, que acudieron al Centro de AP por dolor inexplicable (cabeza, cuello, espalda, extremidades o articulares) con una duracin de al menos 6 semanas. A efectos de este estudio, los pacientes considerados fueron los que presentaban dolor crnico inexplicable de tipo osteomuscular. El criterio considerado para definir el dolor crnico fue la presencia de dolor durante 6 semanas o ms y una intensidad mayor de 40 puntos en la Escala Visual Analgica (EVA), medida que se utiliza para medir la intensidad del dolor y presenta un rango de 0 a 100, donde 0 es no dolor y 100 el peor dolor posible (37). Adems, los pacientes que no tenan un diagnstico actual de algn trastorno mental en su expediente mdico, tenan que ser mental y fsicamente capaces de participar en el estudio y tuvieron que dar su consentimiento informado por escrito.

61

Tamao de la muestra Basndose en la literatura, para obtener una prevalencia de dolor crnico inexplicable y trastornos mentales concomitantes del 20% con una exactitud del 3% y un intervalo de confianza del 95%, el nmero mnimo de pacientes requerido era 683 (38). Se calcul un tamao de 3285 pacientes para detectar diferencias entre subgrupos definidos por edad, sexo y tipo de tratamiento, ya que se consider el tipo de tratamiento que estaban tomando los individuos en ese momento, considerando una OR=1.5 con un nivel de confianza del 95% y una potencia del 80%. Este nmero asume una probabilidad de exposicin del factor a estudiar del 15% en el grupo de trastorno mental concomitante y tambin un ratio de 4 pacientes con trastornos mentales frente a 1 sin trastornos mentales. Asumiendo un 10% de prdidas, el tamao total para el estudio se estableci en 3641 pacientes. Para los objetivos de este estudio, de este total se seleccion, tal y como se coment anteriormente, a los pacientes con dolor crnico inexplicable de tipo osteomuscular, por lo que los pacientes estudiados fueron 1006. Para obtener el nmero de pacientes calculados cada uno de los 600 mdicos seleccionados tuvieron que entrevistar alrededor de 7 pacientes que acudan a su consulta y que cumplan los criterios de inclusin del estudio. Los pacientes fueron seleccionados consecutivamente basndose en la llegada al centro de AP. Los pacientes que rechazaron participar fueron sustituidos por el siguiente que cumpliese el criterio.

Informacin recogida La informacin relativa a variables recogidas, tanto socio-demogrficas (edad, sexo, estado civil y nivel educativo), variables clnicas (duracin del dolor, intensidad, localizacin del dolor, incapacidad para realizar actividades diarias a causa del dolor y calidad y duracin del sueo) como variables relativas al uso de los servicios sanitarios (nmero de visitas al mdico y hospital como consecuencia del dolor en las ltimas 6 semanas/pruebas diagnsticas relacionadas con el dolor en las ltimas 6 semanas) fueron recogidas por un cuestionario estructurado y mediante el historial clnico de los pacientes. La intensidad del dolor fue medida con la Escala Visual Analgica (EVA) con un rango de 0 a 100, donde 0 era no dolor y 100 el peor dolor posible como se mencion anteriormente. Para la deteccin y evaluacin de los trastornos mentales se utiliz la versin espaola validada del mdulo de estados mentales del cuestionario de

62

Evaluacin de Trastornos Mentales en AP (PRIME-MD). Este cuestionario, diseado por Spitzer et al. (39) para ayudar en el diagnstico de la mayora de los trastornos mentales comnmente observados especialmente en AP, est basado en el criterio diagnstico del Manual Diagnstico y Estadstico de Trastornos Mentales Cuarta Edicin (DSM-IV) con sensibilidad y especificidad de 83% y 88% respectivamente. En el estudio se consideraron todos los posibles diagnsticos del PRIME-MD, de acuerdo con el criterio DSM-IV: trastorno depresivo mayor, trastorno depresivo menor, remisin parcial de un trastorno depresivo mayor, trastorno de distimia, trastorno bipolar o depresin causada por una condicin mdica general, medicamentos o drogas. De estas variables se recogi si los pacientes presentaban o no algn trastorno de esos tipos de depresin, pero para poder alcanzar el objetivo de este trabajo, se han agrupado en una sola variable, incluyendo, como veremos ms adelante en los resultados, las siguientes categoras: sin depresin, depresin mayor, depresin menor, otros tipos de depresin (que incluyen distimia, trastorno bipolar, remisin parcial y depresin causada por una condicin mdica general,

medicamentos o drogas, ya que se han agrupado por la existencia de pocos casos en esos tipos de trastornos) y presentar ms de un tipo de trastorno mental, sin especificar cules, ya que podra existir mltiples posibilidades. La base de datos de este estudio se dispona en un archivo de datos de SPSS, por lo que se import a R, tal y como se menciona en el captulo anterior, y se ha trabajado con esos datos tanto con R como con R-Commander, con la versin 2.11.1. Para la importacin de los datos se utiliz la sentencia: read.spss(D:/Usuario Mara/Desktop/TRABAJO FINAL/DEDO_Osteo_Reducida.sav, use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE) Una vez importado, obtenemos una matriz de datos (data.frame), que se denomina Datos en la que disponemos de 1006 casos y 43 variables, de las cuales algunas son cuantitativas y otras cualitativas, posteriormente explicaremos ms detalladamente las caractersticas de las variables (tipo, codificacin, unidad de medida, etc.) que utilizaremos en nuestro estudio. Al tener activo este conjunto de datos, lo guardamos como una matriz de datos con extensin .rda, y lo llamamos Osteomuscular2, para posteriormente cargar directamente desde R-commander los datos y no importarlos desde SPSS. Para cargarlos lo hacemos de la siguiente manera desde R-commander: Datos->Cargar conjunto de datos y seleccionamos los datos que deseamos cargar.

63

4.2. Resultados
4.2.1. Anlisis descriptivo unidimensional A continuacin se muestra una tabla con la descripcin de todas las variables, las unidades en las que se mide o los valores codificados que toman. La mayora de las variables cualitativas estaban codificadas numricamente, sobre todo las variables con dos categoras, que se codificaron con 0 y 1 para tratarlas posteriormente en el modelo de regresin logstica multinomial como numrica. Tambin se muestra en la tabla un anlisis descriptivo de estas variables, mostrndose frecuencias y porcentajes para variables cualitativas y medias, desviaciones tpicas, mediana, percentiles, mximo y mnimos para variables cuantitativas. De la mayora de las variables no se dispone de los datos de los 1006 pacientes, es decir presentan datos perdidos, por lo que junto a cada variable aparece el nmero de individuos de los que se dispone de datos de dicha variable (N). Mostramos a continuacin un ejemplo de cada sentencia utilizada para obtener el descriptivo de las variables, todo el clculo de todas las variables se encuentra en el anexo. Para obtener las frecuencias de las variables cualitativas, como por ejemplo el sexo, se utiliz la siguiente sentencia: .Table <- table(Osteomuscular2$sexo1) .Table # counts for sexo1 100*.Table/sum(.Table) # percentages for sexo1

64

Y obtenemos la siguiente salida:

Para las variables cuantitativas continuas, como por ejemplo la edad, calculamos los parmetros correspondientes para resumir estas variables, de la siguiente manera: numSummary(Osteomuscular2[,c(EDAD, MES_SINTOMAS, NUM_HOSPITALIZACION, NUM_LOC, NUM_PRUEBAS_REALIZA, NUM_VISITA_ESPECIALI, NUM_VISITA_MEDICO_AP, SINTOMA_DOLOR1, SINTOMA_DOLOR7, SINTOMA_DOLOR8)], statistics=c(mean, sd, quantiles), quantiles=c(0,.25,.5,.75,1)) Obteniendo como resultados:

65

Tabla 1. Descripcin de las variables estudiadas.


Variables Sexo (N=974) Edad (N=862) Se ha medido como una variable cuantitativa continua. Estado civil (N=973) Unidades / Valores que toma/Codificacin - Hombre ->0 - Mujer ->1 AOS - Convive en pareja ->1 - Divorciado/separado ->2 - Soltero/a ->3 - Viudo/a ->4 - Sin 66rimari ->0 - Estudios 66rimaries ->1 - Estudios secundarios ->2 - Estudios universitarios ->3 - S ->1 - No ->0 - S ->1 - No ->0 - S ->1 - No ->0 - S ->1 - No ->0 - S ->1 - No ->0 - S ->1 - No ->0 Rango de 0 a 100, donde 0 es no dolor y 100 el peor dolor posible. Descriptivo 248 (25.5%) 726 (74.5%) Media (DE): 58(12.7) Min-Max: 19 93 Mediana (P25;P75): 58(49;66) 644 (66.2%) 91 (9.4%) 52 (5.3%) 186 (19.1%) 148 (14.8%) 532 (53.1%) 218 (21.8%) 104 (10.4%) 750 (74.9%) 252 (25.1%) 536 (53.7%) 462 (46.3%) 503 (52.7%) 452 (47.3%) 768 (80.5%) 186 (19.5%) 703 (73.6%) 252 (26.4%) 649 (68%) 306 (32%) Media (DE): 58.9 (19.8) Min-Max: 2 100 Mediana (P25;P75): 61(46;74) Media (DE): 37.6(50.1) Min-Max: : 2 324 Mediana (P25;P75):17(7;52.5) Media (DE): 3.6(1.3) Min-Max: 1 5 Mediana (P25;P75): 4(3;5) Medida en una escala de 0 a 100, donde 0 es totalmente capacitado para realizar AVD y 100 totalmente incapacitado. Medida en una escala de 0 a 100, donde 0 es ningn momento del da con dolor, y 100 todo el da con dolor. - S ->1 - No ->0 Media (DE): 56.8 (23.3) Min-Max: 2 100 Mediana (P25;P75): 59(40;75) Media (DE): 59.4 (23.3) Min-Max: 1 100 Mediana (P25;P75): 61(45;77)

Nivel educativo (N=1002)

Duerme menos a causa del dolor? (N=1002) Se despierta a causa del dolor? (N=998) Localizacin del dolor en la cervical (N=955) Localizacin del dolor en la espalda (N=955) Localizacin del dolor en las articulaciones (N=955) Localizacin del dolor en las extremidades (N=955) Intensidad Dolor Del dolor en general, se muestra la intensidad, medida con la Escala Visual Analgica (EVA), por lo que es una variable cuantitativa continua. Meses desde la aparicin del primer sntoma doloroso (N=481) Variable cuantitativa continua Nmero de localizaciones del dolor (N=955) Se recogi en cuntas localizaciones se presentaba dolor. Se ha medido la variable como cuantitativa continua. Incapacidad para realizar actividades diarias a causa del dolor Variable cuantitativa continua, medida en una escala de 0 a 100. Duracin dolor en la ltima semana. Expresado como el porcentaje del da con dolor en la ltima semana. Variable cuantitativa continua, medida en una escala de 0 a 100. Depresin (N=1006) Variable cualitativa que indica si el paciente presenta o no algn tipo de trastorno mental, de los indicados posteriormente, evaluados mediante el PRIME-MD. Tipos de Trastorno mental A partir de las variables que indican la presencia o ausencia de algn tipo de trastorno mental, se han reunificado en una sola variable que indica si el paciente no presenta depresin, o si lo presente de qu tipo es o si presenta

Meses

751 (74.7%) 255 (25.3%)

- Sin Depresin ->0 - Trastorno depresivo mayor ->1 - Trastorno depresivo menor ->2 - Otros tipos de trastorno ->3 - Ms de un tipo de depresin ->4

255 (25.3%) 330 (32.8%) 153 (15.2%) 57 (5.7%) 211 (21%)

66

ms de un trastorno mental. N de visitas al mdico AP en las ltimas 6 semanas (N=927) Se ha recogido el nmero de visitas al mdico, por lo que es una variable cuantitativa discreta, pero se ha medido como variable cuantitativa continua. N de visitas al mdico ESP en las ltimas 6 semanas (N=447) Igual que la anterior, se ha recogido el nmero de visitas al especialista, tambin se ha medido como variable cuantitativa continua. N pruebas realizadas en las ltimas 6 semanas (N=513) Se recoge el nmero de pruebas realizadas, por lo que es una variable cuantitativa discreta, y se ha medido como cuantitativa continua. N hospitalizaciones en el ltimo ao (N=199) Variable cuantitativa continua, igual que las anteriores. Media (DE): 3.20(1.98) Min-Max: 0 24 Mediana (P25;P75): 3(2;4)

Media (DE): 1.18(1.38) Min-Max: 0 20 Mediana (P25;P75): 1(1;1)

Media (DE): 1.49(1.04) Min-Max: 0 10 Mediana (P25;P75): 1(1;2) Media (DE): 0.45(1.03) Min-Max: 0 8 Mediana (P25;P75): 0(0;1)

Con estos resultados podemos ver que de los pacientes estudiados, la mayora eran mujeres (74.5%), esto es debido a que el dolor y en especial el dolor de tipo osteomuscular se da ms frecuentemente en mujeres (40-42). La edad media fue de 58 aos (DE: 12.7). El 66.2% convivan en pareja y el 74.9% de los pacientes tenan estudios primarios o secundarios (Tabla 1). La intensidad media del dolor general fue de 58.9 de la escala EVA (DE: 19.8). La duracin media de dolor de los pacientes estudiados es de 37.6 meses (DE: 50.1). El nmero medio de localizaciones fue de 3.6 (DE: 1.3), siendo la espalda la localizacin ms frecuente (sufrido por el 80.5% de la poblacin). De los 1002 pacientes que respondieron a la primera pregunta sobre el sueo, el 74.9% respondieron que duermen menos a causa del dolor y de los 998 pacientes que respondieron la segunda pregunta, el 53.7% se despertaban a causa del dolor. (Tabla 1). Con respecto al uso de los servicios sanitario, se obtuvo que, a causa del dolor, el nmero medio de visitas al mdico de AP en las ltimas 6 semanas fue de 3.2 y, de 513 pacientes, el nmero medio de pruebas que se les haba realizado en las ltimas 6 semanas fue de 1.49 (DE:1.04). Veamos a continuacin cmo se comporta la depresin distinguiendo por sexo y por grupos de edad. Se representa grficamente la prevalencia de depresin, adems de sta por sexos mediante diagrama de sectores y por grupos de edad, mediante diagrama de barras.

67

Para la representacin mediante diagramas de sectores, utilizamos la siguiente sentencia: pie(table(Osteomusculares$DEPRESION), laves=c(NO(25.4 %), S(74.7 %)), main=DEPRESIN, col=rainbow(length(levels(Osteomusculares$DEPRESION)))) en la que se especifica las etiquetas de los sectores con lavels, as como el ttulo con la opcin main y los colores. Para realizar el diagrama de sectores por sexo, antes se debe de seleccionar el subconjunto de individuos de cada sexo mediante la funcin subset. HOMBRES <- subset(Osteomusculares, sexo1==HOMBRE) MUJERES<- subset(Osteomusculares, sexo1==MUJER) Una vez seleccionado se representan los diagramas de sectores: pie(table(HOMBRES$DEPRESION), labels=c(NO(37.5%),S(62.5%)), main=PREVALENCIA DEPRESIN EN HOMBRES, col=rainbow(length(levels(HOMBRES$DEPRESION)))) pie(table(MUJERES$DEPRESION), labels=c(NO(21.3%),S(78.7%)), main=PREVALENCIA DEPRESIN EN MUJERES, col=rainbow(length(levels(MUJERES$DEPRESION))))

Figura 1. Prevalencia de depresin en toda la muestra y por sexos.

68

Para la prevalencia por grupos de edad, se utiliza el diagrama de barra, mediante las siguientes sentencias, en las que primero se construye la tabla 2x2 y posteriormente a partir de ella se representa grficamente tomando como medida los porcentajes: Tabla<-xtabs(~DEPRESION+CL_EDAD, data=Osteomusculares) Tabaux<-colPercents(Tabla) Tablapor<-Tabaux[1:2,] barplot(Tablapor, xlab=Grupos de edad, ylab=Porcentaje,legend.text=c(Sin depresin, Con Depresin),main=Prevalencia de depresin por edad, beside=TRUE, col=cm.colors(2)) Para la representacin de los tipos de depresin por edad, se realiza de la misma manera, se puede ver en el anexo la sentencia.

69

Figura 2. Prevalencia de depresin y de los tipos de depresin por grupos de edad.

Prevalencia de tipos de depresin por edad

>80

Trastorno depresivo menor Trastorno depresivo mayor Sin depresin Otros tipos de trastornos Ms de un tipo de depresin

Grupos de edad

<30
0

30-40

40-50

50-60

60-70

70-80

4 Porcentaje

10

La prevalencia de depresin fue del 74.7% (IC 95%: 71.9; 77.4), siendo mayor en mujeres, es habitual encontrar este resultado ya que existen muchos estudios que afirman lo mismo (6,9,30,43). Vemos que por edad, la prevalencia es mayor en los jvenes (< 30 aos), pero este resultado es debido a que todos los individuos de este grupo de edad, que son un total de 9, tienen depresin y que en las edades comprendidas entre 50 y 60 aos, predomina no tener depresin frente a tener algn tipo de depresin (44,45).

70

A continuacin se representa grficamente la distribucin de los tipos de trastornos mentales, mediante un diagrama de barras.

Figura 3. Distribucin de los tipos de depresin.


Distribucin de los tipos de depresin
50 Porcentaje 0 10 20 30 40

Ms de un tipo de trastorno

Otros tipos de trastornos

Sin depresin TIPOS DE DEPRESIN

Depresin mayor

Depresin meno

Vemos que el tipo de trastorno mental que predomina en estos pacientes es el trastorno de depresin mayor (32.8%). Existe un porcentaje alto de pacientes (21%), que presentan ms de un tipo de trastorno mental, que concuerda con otros estudios (45,46).

Mediante un histograma representamos la distribucin de la intensidad del dolor, utilizando la siguiente sentencia:

Hist(Osteomuscular2$SINTOMA_DOLOR1, scale=percent, breaks=Sturges, xlab=INTENSIDAD DOLOR GENERAL, ylab=Porcentaje, col=blue)

Donde le indicamos que lo represente mediante porcentajes, con la opcin scale.

71

Figura 4. Distribucin de la intensidad del dolor.

Porcentaje

10

15

20

20

40

60 INTENSIDAD DOLOR GENERAL

80

100

Se observa que la mayora de los pacientes presentan una intensidad comprendida entre 60 y 70 de la escala EVA.

4.2.2. Anlisis bidimensional A continuacin mostramos el anlisis bidimensional, donde veremos relaciones entre dos variables, en especial entre los tipos de depresin y otras variables. Comenzaremos realizando el anlisis con variables cualitativas, por lo que usaremos el test de Chi-cuadrado para comprobar si existen diferencias entre las variables y posteriormente realizaremos ANOVA, o test de Kruskal-Wallis, en el caso de que las variables cuantitativas no sigan una distribucin normal, para comprobar diferencias con variables cuantitativas.

Dos variables cualitativas

Realizamos el anlisis bidimensional con las variables cualitativas categricas, mostramos la relacin con los tipos de depresin, para realizar este anlisis cruzamos las variables en tablas de contingencia, para ello utilizamos la opcin de tabla de contingencia de doble entrada y seleccionamos el test de independencia de Chicuadrado. Por ejemplo, para ver la asociacin entre el sexo y los tipos de trastornos mentales, usamos la siguiente sentencia: .Table <- xtabs(~TIPOS_DEPRESION+sexo1, data=Osteomuscular2) .Table

72

.Test <- chisq.test(.Table, correct=FALSE) .Test

Y obtenemos la siguiente salida:

En la cual se puede ver que dado el test de chi-cuadrado existe asociacin entre el sexo y los tipos de depresin.

En la siguiente tabla, mostramos la relacin de todas las variables con los tipos de depresin.

73

Tabla 2. Relacin entre los tipos de depresin y las variables categricas estudiadas. (Frecuencias)
TIPOS DEPRESIN Sin depresin SEXO Hombre Mujer ESTADO CIVIL Convive en pareja Divorciado/separado Soltero/a Viudo/a NIVEL ESTUDIOS Sin estudios Estudios primarios Estudios secundarios Estudios universitarios Duerme menos a causa del dolor? S NO Se despierta a causa del dolor? S NO Localizacin del dolor en la cervical S NO Localizacin del dolor en la espalda S NO Localizacin del dolor en las articulaciones S NO Localizacin del dolor en las extremidades S NO Trastorno depresivo mayor 78 242 193 32 13 85 58 184 57 30 Trastorno depresivo menor 28 116 102 15 10 22 20 75 42 15 Otros tipos de depresin 16 41 35 5 4 9 7 25 23 2 Ms de un tipo de depresin 33 172 131 21 10 40 32 112 46 21 Chicuadrado p

93 155 183 18 15 30 31 136 50 36

31.56

<0.001

25.15

0.014

26.96

0.008

163 90

267 63

107 45

40 12

173 17

29.63

<0.001

107 145

189 138

75 77

23 34

142 68

36.62

<0.001

34.97 146 86 251 63 11 38 36 20 172 32 31.68

<0.001

159 73

270 44

120 29

44 12

176 28

<0.001

14.91 151 81 243 71 107 42 40 16 162 42

0.005

8.57 151 81 226 88 89 60 40 16 143 61

0.0727

p: Test de independencia de Chi-cuadrado. Nivel de significacin 0.05.

Se obtiene que existen diferencias en todas las variables, excepto en la localizacin del dolor en las extremidades (p=0.0727). Por lo que a priori podramos decir, que el presentar algn tipo de trastorno mental o no presentar depresin influye de manera distinta en cada grupo de personas con caractersticas distintas, tanto caractersticas sociodemogrficas como clnicas.

74

Variable cualitativa y variables cuantitativas continuas

Para las variables cuantitativas continuas, para seleccionar el tipo de test estadstico a realizar, tenemos que comprobar primero si las variables cumplen la condicin de normalidad, para utilizar un test paramtrico o no paramtrico. Para realizar esta comprobacin realizamos el test de normalidad de Shapiro-Wilk, realizndolo de la siguiente manera, para por ejemplo la variable edad. Shapiro.test(Osteomuscular2$EDAD) Obteniendo: Shapiro-Wilk normality test data: Osteomuscular2$EDAD W = 0.9967, p-value = 0.0659 En este caso el test es no significativo, por lo que la variable s cumple que sigue una distribucin normal, por lo que hay que realizar un anlisis paramtrico, en este caso un ANOVA. Mostramos a continuacin los resultados obtenidos con cada variable del test de Shapiro-Wilk.

Tabla 3. Test de normalidad de Shapiro-Wilk para variables cuantitativas continuas.


Test ShapiroWilk Edad Intensidad Dolor General Meses desde la aparicin del primer sntoma doloroso Nmero de localizaciones del dolor Incapacidad para realizar actividades diarias a causa del dolor Duracin dolor en la ltima semana N de visitas al mdico AP en las ltimas 6 semanas N de visitas al mdico ESP en las ltimas 6 semanas N pruebas realizadas en las ltimas 6 semanas N hospitalizaciones en el ltimo ao 0.9967 0.985 0.670 0.867 0.976 0.977 0.813 0.456 0.805 0.474 p 0.0659 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001

Podemos ver que ninguna de las variables cumple el test de normalidad de Shapiro-Wilk, excepto la edad. Por lo que utilizaremos un anlisis no paramtrico para comparar las medias de las variables que no cumplen la normalidad, entre los distintos

75

tipos de depresin. Para realizar este anlisis, como los tipos de depresin divide a la muestra en ms de dos grupos utilizaremos el test no paramtrico de Kruskal-Wallis. En el caso de la edad, utilizaremos un ANOVA de un factor, para ver las diferencias de medias de la edad en los distintos tipos de depresin. Para el ANOVA, mediante R-commander, seleccionamos:

En el que se utiliza la siguiente sentencia, realizando un modelo lineal de la edad con tipos de depresin y posteriormente un anlisis de la varianza de ese modelo: .Anova <- lm(EDAD ~ TIPOS_DEPRESION, data=Osteomuscular2) anova(.Anova) tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, mean, na.rm=TRUE) # means tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, sd, na.rm=TRUE) # std. Deviations tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, function(x) sum(is.na(x))) # counts remove(.Anova) As se obtiene el test del ANOVA, y tambin las medias, desviaciones tpicas y las frecuencias de la edad en cada tipo de depresin. El test del ANOVA que obtenemos es:

76

El test no paramtrico de Kruskal-Wallis, para por ejemplo, la intensidad del dolor, se realiza de la siguiente manera:

Utilizando la siguiente sentencia:

tapply(Osteomuscular2$SINTOMA_DOLOR1, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(SINTOMA_DOLOR1 ~ TIPOS_DEPRESION, data=Osteomuscular2)

Obteniendo, como se muestra a continuacin la mediana de la intensidad del dolor en cada categora de la variable tipo de depresin, as como el test de KruskalWallis.

Mostramos a continuacin en la siguiente tabla los resultados para todas las variables.

77

Tabla 4. Relacin entre los tipos de depresin y las variables continuas estudiadas. (Medias (DT))
TIPOS DEPRESIN Sin depresin Edad Intensidad Dolor General Meses desde la aparicin del primer sntoma doloroso Nmero de localizaciones del dolor Incapacidad para realizar actividades diarias a causa del dolor Duracin dolor en la ltima semana N de visitas al mdico AP en las ltimas 6 semanas N de visitas al mdico ESP en las ltimas 6 semanas N pruebas realizadas en las ltimas 6 semanas N hospitalizaciones en el ltimo ao 58.69(11.9) 53.52(21.4) 47.03(58.1) Trastorno depresivo mayor 58.74(13.5) 61.28(19.9) 29.78(41.4) Trastorno depresivo menor 56.07(12.5) 58.37(17.2) 32.03(46.7) Otros tipos de trastornos 55.53(13.5) 56.01(17.9) 27.88(46.4) Ms de un tipo de depresin 58.15(12.3) 63.24(18.5) 46.74(53.9) KruskalWallis Chicuadrado 1.667* 33.76 21.58 p 0.156* <0.001 <0.001

3.16(1.4)

3.79(1.2)

3.50(1.3)

3.38(1.4)

3.82(1.2)

39.27

<0.001

48.35(23.6)

60.67(22.8)

55.80(22.5)

54.50(24.3)

62.47(20.9)

54.10

<0.001

51.30(25.1) 2.75(2.3)

62.67(21.7) 3.56(2.1)

58.65(22.3) 3.11(1.7)

56.10(24.0) 3.29(1.5)

65.72(21.2) 3.20(1.7)

51.85 40.71

<0.001 <0.001

1.15(1.7)

1.08(0.8)

1.51(2.6)

14.6(1.2)

1.09(0.7)

4.17

0.3834

1.48(1.2) 0.26(0.5)

1.54(1.1) 0.45(1.0)

1.56(1.1) 0.27(0.7)

1.50(0.8) 1.72(2.8)

1.37(0.9) 0.44(0.7)

1.75 5.29

0.7814 0.2587

*Estadstico F del ANOVA y su p-valor correspondiente. P: Test no paramtrico de Kruskal-Wallis

Al igual que en el caso de las variables cualitativas, en casi todas las variables hay diferencias estadsticamente significativas (p<0.05), excepto en la edad y en la utilizacin de los servicios sanitarios que no sea la atencin primaria. Es decir, existen diferencias entre los tipos de trastornos mentales en las medias de la mayora de las variables, por ejemplo, la intensidad del dolor es mayor cuando se tiene ms de un tipo de depresin. Lo mismo ocurre en el resto de variables significativas, que la media es mayor cuando los individuos presentan ms de un tipo de depresin.

Dos variables cuantitativas continuas.

Por ltimo realizaremos un test de correlacin para comprobar si la edad de los pacientes est correlacionada o no con algunas variables relacionadas con el dolor, como la intensidad, el nmero de localizaciones o las relacionadas con los servicios sanitarios. Para ello realizamos el test de correlacin de Pearson, que se realiza con la

78

siguiente sentencia, por ejemplo, para la intensidad del dolor, el resto se puede ver en el anexo: cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR1, alternative=two.sided, method=pearson) Obtenindose el test de correlacin de Pearson, el intervalo de confianza y el coeficiente de correlacin:

Tabla 5. Test de correlaciones de Pearson entre la edad y variables cuantitativas continuas.


EDAD Coeficiente de correlacin Intensidad Dolor General Meses desde la aparicin del primer sntoma doloroso Nmero de localizaciones del dolor Incapacidad para realizar actividades diarias a causa del dolor Duracin dolor en la ltima semana. N de visitas al mdico AP en las ltimas 6 semanas N de visitas al mdico ESP en las ltimas 6 semanas N pruebas realizadas en las ltimas 6 semanas N hospitalizaciones en el ltimo ao 0.0162 0.1214 -0.0145 0.0127 0.0313 -0.0621 -0.0842 -0.0469 -0.1642 Estadstico t 0.475 2.676 1.217 0.373 0.917 -1.746 -1.634 -0.994 -2.164 p 0.635 0.008 0.224 0.709 0.359 0.081 0.103 0.321 0.032

Podemos observar que las variables correlacionas con la edad son, el tiempo desde la aparicin del primer sntoma doloroso, con una correlacin directamente proporcional, a medida que aumenta la edad tambin aumenta la duracin del dolor y el nmero de hospitalizaciones en el ltimo ao, que es inversamente proporcional, a mayor edad menos hospitalizaciones se han realizado en el ltimo ao.

79

4.2.3. Modelo de regresin logstica multinomial. Factores asociados a los tipos de depresin. Como resultado final y para alcanzar el objetivo principal de esta aplicacin se realiza el ajuste de un modelo de regresin logstica multinomial aplicando lo explicado en el captulo 2 y mediante los comandos de R detallados en el captulo 3. En el modelo se tiene que la variable dependiente es tipos de depresin, en la que se toma como categora de referencia sin depresin y se introduce en el modelo como un factor, y a la vista de los resultados obtenidos anteriormente en el anlisis descriptivo y en los anlisis bidimensionales, las variables con las que los test resultaron ser estadsticamente significativos (p<0.05), sern las variables independientes candidatas que se introducirn en el modelo y que pueden ser posibles factores. stas variables son: Sexo, con categora de referencia los Hombres. Edad, como continua. Estado civil, cuyas categoras se introducirn como variables dummies, las cuales ya se tenan en la base de datos y la categora de referencia es Convive en pareja. Nivel de estudios, igual que la anterior se introduce con variables dummies y la categora de referencia es Sin estudios. Duerme menos a causa del dolor?, con categora de referencia No. Se despierta a causa del dolor?, con categora de referencia No. Localizacin del dolor en cervical, espalda, articulaciones, extremidades, todas con categora de referencia No. Intensidad del dolor general, como continua. Incapacidad para realizar actividades diarias a causa del dolor, como continua. Duracin dolor en la ltima semana, como continua. N de visitas al mdico AP en las ltimas 6 semanas, como continua.

El caso de las variables dummies, aunque la funcin para el anlisis de la regresin, multinom, al introducir estas variables como factor, ya considera las categoras como variables dummies, se ha preferido introducir cada una de estas categoras como variables dummies, al tenerlas ya calculadas en la matriz de datos (en el captulo 3 se muestra el clculo de las variables dummies), para as poder tener un mejor control sobre ellas.

80

El resto de variables que no se han considerado en el modelo, pero que se han estudiado en los anlisis previos no se han incluido en el modelo por no haber salido significativo los anlisis bidimensionales o por no ser clnicamente importante o por ejemplo, la variable meses desde la aparicin del primer sntoma doloroso no se ha considerado conveniente incluir en el modelo porque presenta muchos datos perdidos, lo que llevara a perder muchos casos en el modelo y se perdera informacin. Para la seleccin del modelo se realizar el mtodo stepwise, que se detall en el captulo 2, en el que comenzaremos con el modelo con slo la constante e iremos introduciendo cada una de las variables en cada paso y se considerar tambin la posibilidad de eliminacin de variables en cada paso. Para contrastar los modelos iniciales con los nuevos se realizar mediante contrastes condicionales de razn de verosimilitudes, comparando las devianzas de cada modelo realizndolo en R mediante la funcin anova, que permite realizar este contraste como se vio en el captulo 3. Una vez seleccionado el modelo final, el ms parsimonioso, se contrastar los parmetros del modelo mediante el contraste de Wald, calculndose adems, las odds ratio de los coeficientes, sus intervalos de confianza y los p-valores, interpretndose el modelo final. Se medir la bondad del ajuste global del modelo mediante el test de Chi-cuadrado de razn de verosimilitudes y la tasa de clasificaciones correctas. La calidad del ajuste se realizar mediante los parmetros pseudo R-cuadrado de Cox-Snell, Nagelkerke y McFadden. Y por ltimo se realizar una validacin del modelo mediante los residuos de la devianza. A continuacin detallaremos todos los pasos anteriores. En el anexo incluimos los comandos utilizados en R para ajustar el modelo.

4.2.3.1.

Seleccin del modelo

Para la seleccin del modelo, que resultar ser el que contenga el menor nmero de variables y sea un modelo explicativo, se realizar mediante el mtodo de stepwise, por lo que detallaremos a continuacin cada uno de los pasos que se seguirn, comenzando con el modelo inicial que contiene slo la constante, en cada paso se analizar la inclusin o no de alguna de las variables mediante contrastes de razn de verosimilitudes, considerndose adems en cada paso la posibilidad de eliminar alguna variable que se incluy en los pasos anteriores. Para realizar los modelos se utilizar la funcin multinom que se describi en el captulo 3, y con ella se obtendr los coeficientes del modelo, sus errores

81

estndares, el estadstico de wald, y la devianza, que se utilizar para comparar los modelos en cada paso.

PASO 1 En primer lugar se realiza el modelo inicial sin incluir ninguna variable, slo con la constante, realizndose con la siguiente sentencia: modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data=Osteomuscular2, trace=FALSE) summary(modelo0, cor=FALSE, Wald=TRUE) donde con la funcin summary, se obtiene los coeficientes del modelo, sus errores estndares, el estadstico de Wald, la devianza y el parmetro AIC, como vemos a continuacin. Para cada categora de la variable dependiente y para cada variable explicativa se obtiene un coeficiente, su error estndar y el estadstico de Wald correspondiente.

Tabla 6. Modelo de regresin logstica multinomial slo con la constante.


Variables Independientes Contaste Variable Dependiente Depresin mayor Depresin menor Otros tipos depresin Ms un tipo depresin Coeficientes (b) (EE) 0.594 (0.115) -0.208 (0.138) -1.236 (0.195) 0.113 (0.127) Test de Wald 5.161 -1.508 -6.343 0.889

82

A continuacin se realizan los modelos que resultan de incluir cada una de las variables explicativas por separado, para compararlos con el modelo anterior mediante el contraste condicional de razn de verosimilitud, para realizar este contraste utilizamos la funcin anova, la cual, tal y como se explic en el captulo 3, realiza un test que compara las devianzas de dos o ms modelos, y al comparar el modelo0 con cada uno de los dems modelos, nos quedaremos con aquel en el que ese test sea el ms significativo. As que realizando todos los modelos con la funcin multinom y realizando el contraste con anova obtenemos los siguientes resultados:

83

A la vista de los contrastes realizados podemos ver que la variable que debe incluirse en el modelo es la llamada SINTOMA_DOLOR8, (modelo 13) que corresponde con duracin del dolor en la ltima semana, ya que es el modelo cuyo contraste con el modelo0 resulta ser el ms significativo y es el que produce el mayor cambio en la devianza, del valor de 1745.914 que presenta el modelo inicial a 1703.385, que presenta el modelo con duracin del dolor en la ltima semana. Por lo que el modelo que tenemos es: Tipo de depresin=constante+Duracin del dolor en la ltima semana.

PASO 2 Partiendo del modelo que hemos obtenido del paso anterior, comparamos ste con todos los modelos que resultan de incluir cada una del resto de variables, contrastndolo con el contraste condicional de razn de verosimilitudes obtenemos los siguientes resultados:

84

A la vista de estos contrastes, el modelo que reduce ms la devianza y el cual hace que el contraste sea el ms significativo (p=0.00113) es el modelo 13, con una devianza igual a 1685.192, por lo que debera de incluirse en el modelo la variable nmero de visitas al mdico de atencin primaria a causa del dolor. As que el modelo que tenemos hasta ahora es: Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de visitas al mdico de AP.

PASO 3 En este paso en primer lugar, realizamos al igual que en los pasos anteriores la posibilidad de incluir alguna variable ms, por lo que partimos del modelo anterior y lo comparamos con los modelos que resultan de incluir el resto de variables y los contrastamos:

85

Como se puede observar, el contraste ms significativo es el que incluye el modelo 7 (p=0.0153), en el que debera de entrar la variable localizacin del dolor en las cervicales, as que tenemos el modelo: Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de visitas al mdico de AP+Localizacin del dolor cervical

Por otra parte, en este paso hay que contemplar la posibilidad de eliminar la variable que se incluy en el paso 1, la variable duracin del dolor en la ltima semana y contrastar si el test de razn de verosimilitud es significativo o no al eliminar

86

esta variable, en el caso que no lo sea, nos debemos de quedar con el modelo sin esa variable Al realizar el contraste obtenemos:

Como se puede observar el contraste es significativo, por lo que no se debe de eliminar la variable duracin del dolor en la ltima semana del modelo, as que nos mantenemos con el modelo: Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de visitas al mdico de AP+Localizacin del dolor cervical

PASO 4 Partiendo del modelo anterior, lo contrastamos con los que resultan de incluir el resto de variables y realizando los contrastes de razn de verosimilitud obtenemos:

87

Vemos que ninguno de los contrastes es significativo, por lo que no se incluir en el modelo ninguna covariable ms. As que el modelo final que obtenemos es el que incluye como variables independientes, duracin del dolor en la ltima semana, nmero de visitas al mdico de atencin primaria y localizacin del dolor en las cervicales. Este modelo presenta una devianza de 1672.902 Mostramos a continuacin los parmetros del modelo mediante la funcin summary.

88

4.2.3.2.

Odds ratios e Intervalos de Confianza

Calculamos a continuacin las exponenciales de los coeficientes, las odds ratios, y los intervalos de confianza de stos al 95%, ya que el modelo se interpretar en base a stas, por ser ms comn en la aplicacin dar los resultados en funcin de los cocientes de ventajas. Odds ratios

Para el clculo de las odds ratios de los coeficientes del modelo, se utiliza la funcin exp, como vemos a continuacin. As obtenemos para cada coeficiente

obtenido en el modelo una odds ratio.

Podemos ver que todos los cocientes de ventajas son mayores que 1, por lo que todas las variables actan como factores de riesgo para los tipos de depresin. Ms adelante se interpretarn detalladamente. -

Intervalos de confianza al 95%.

Para calcular los intervalos de confianza de las odds ratios, se calcularn primero los de los coeficientes, mediante el comando confint y posteriormente a estos intervalos se les calculan la exponencial.

Se puede observar que la mayora de los intervalos de confianza no contienen al 1, por lo que afirman la significacin de los parmetros por el test de Wald.

89

4.2.3.3. -

Contraste sobre los parmetros.

Contraste de Wald

A continuacin contrastaremos los parmetros del modelo mediante el contraste de Wald, el cual, tal y como se describi en la teora, se tena que el estadstico era igual a: =
2 , 2

es decir, el cociente entre el coeficiente al

cuadrado y su error estndar, que tiene distribucin chi-cuadrado asinttica con un grado de libertad. En nuestro caso, al obtener del modelo el valor del estadstico como el valor del coeficiente entre el error estndar, se tiene que sigue una distribucin normal de media 0 y desviacin tpica 1, por lo que calcularemos las probabilidades de estos estadsticos mediante una distribucin normal. As que obtendremos a continuacin los niveles de significacin de este estadstico para contrastar si conservamos en el modelo cada uno de los coeficientes de las variables explicativas considerando un nivel de significacin de 0.05. Para ello, construimos una matriz con los estadsticos obtenidos en el modelo: wald<-matrix(c(-4.991448,4.05727347,3.841494,2.3658128,4.374602,2.26473110,2.133899,2.4648983,3.860910,0.09863764,2.710359,0.9030975,5.969838,4.74582515,2.255481,3.2054501),nrow=4,ncol=4)

Obteniendo en las filas los estadstico de cada variable y las columnas corresponden a cada categora de la variable dependiente, cada tipo de depresin. Mediante la funcin pnorm, calculamos las probabilidades, en el caso de la primera fila se tendr que calcular por la cola izquierda, al ser los valores negativos, y en el resto de filas se calculan por la cola de la derecha. As obtenemos que las probabilidades vienen dadas por: pnorm(wald[1,], mean=0, sd=1, lower.tail=TRUE)

90

pnorm(wald[2:4,], mean=0, sd=1, lower.tail=FALSE)

Como vemos casi todos las probabilidades son mayores de 0.05, por lo que se conservan en el modelo todas las variables, los nicos coeficientes que no obtienen significacin estadstica corresponden a la duracin del dolor en la ltima semana y la localizacin en las cervicales, ambos en otros tipos de depresin, pero al presentar significacin estas variables en el resto de categoras de la variable dependiente mantenemos estas covariables en el modelo.

Contraste condicional de razn de verosimilitud

Por otra parte, al realizar un contraste de razn de verosimilitud, para contrastar el efecto conjunto de las variables predictoras, comparando las devianzas del modelo final con el modelo con slo la constante, se obtiene el siguiente resultado.

Este estadstico que sigue una distribucin chi-cuadrado que presenta 12 grados de libertad es significativo con una probabilidad de error del 5%, por lo que podemos decir que el modelo presenta un buen ajuste, es decir, el modelo predice bien la probabilidad de ocurrencia de las categoras de la variable dependiente. Por lo que se rechaza la hiptesis nula de que todos los coeficientes del modelo, a excepcin de la constante, sean cero.

4.2.3.4.

Interpretacin del modelo

Una vez estudiado el ajuste del modelo presentamos a continuacin el modelo final con los parmetros (B), sus errores estndares (EE), las odds ratio (OR), el estadstico de Wald, el intervalo de confianza al 95% de las OR (IC95%) y el p-valor. Posteriormente interpretamos sus parmetros en trminos de cociente de ventajas.

91

Este modelo final contiene un total de 589 individuos, ya que en el modelo de regresin logstica multinomial no se tiene en cuenta los casos que presentan valores perdidos en alguna de las variables.

Tabla 7. Factores asociados a los tipos de depresin. Modelo de regresin logstica multinomial.
Tipos de depresin Variables Independientes Interseccin Duracin del dolor en la ltima semana Nmero de visitas al mdico de atencin primaria Localizacin del dolor en las cervicales Interseccin Duracin del dolor en la ltima semana Nmero de visitas al mdico de atencin primaria Localizacin del dolor en las cervicales Interseccin Duracin del dolor en la ltima semana Nmero de visitas al mdico de atencin primaria Localizacin del dolor en las cervicales Interseccin Duracin del dolor en la ltima semana Nmero de visitas al mdico de atencin primaria Localizacin del dolor en las cervicales B (EE) -2.172 (0.435) 0.023 (0.006) 0.309 (0.081) 0.626 (0.264) -2.219 (0.507) 0.015 (0.007) 0.199 (0.093) 0.801 (0.325) -2.487 (0.644) 0.001 (0.009) 0.313 (0.116) 0.388 (0.430) -3.124 (0.523) 0.031 (0.007) 0.199 (0.088) 1.011 (0.315) Test de Wald -4.991 4.057 3.841 2.366 -4.375 2.265 2.134 2.465 -3.861 0.099 2.710 0.903 -5.969 4.746 2.255 3.205 OR 0.114 1.023 1.363 1.869 0.109 1.015 1.220 2.228 0.083 1.001 1.368 1.475 0.044 1.032 1.220 2.748 IC95% OR (0.049;0.267) (1.012;1.035) (1.164;1.596) (1.113;3.138) (0.040;0.29) (1.002;1.028) (1.016;1.465) (1.178;4.212) (0.024;0.294) (0.983;1.019) (1.091;1.716) (0.635;3.426) (0.016;0.123) (1.019;1.045) (1.026;1.450) (1.481;5.098) p-valor <0.001 <0.001 <0.001 0.009 <0.001 0.012 0.016 0.007 <0.001 0.461 0.003 0.183 <0.001 <0.001 0.012 <0.001

Depresin mayor

Depresin menor

Otros tipos depresin

Ms un tipo depresin

Cuando interpretamos las odds ratios de cada variable, se asume que el resto de variables independientes se mantienen fijas. Interpretaremos cada una de las variables independientes entre los distintos tipos de depresin tomando como referencia sin depresin. (Tabla 7) Con respecto a la duracin del dolor en la ltima semana, se presentarn los resultados considerando un aumento en un 10% del porcentaje del da con dolor, por lo que las odds ratio sern igual a exp(10*b). A medida que aumenta un 10% el porcentaje del da con dolor en la ltima semana, la ventaja de presentar depresin mayor frente a no presentar ningn tipo de depresin queda multiplicada por 1.26

92

veces, (exp(10*0.023)). La ventaja de presentar depresin menor frente a no presentar depresin se multiplica por 1.16 veces a medida que aumenta un 10% la duracin del dolor en la ltima semana. Presentar otros tipos de trastornos, distintos de la depresin mayor y la depresin menor, no resulta estar relacionado con la duracin del dolor en la ltima semana (p=461). La ventaja de presentar ms de un trastorno mental frente a no presentar ninguno, se multiplica por 1.36 veces ms a medida que aumenta en un 10% la duracin del dolor. Este resultado concuerda con el obtenido por Agera et al., los que tambin obtienen una relacin directa entre los trastornos mentales y la duracin del dolor en la ltima semana (30). La ventaja a favor de tener depresin mayor frente a no tenerla queda multiplicada por 1.36 veces a medida que aumenta en una unidad el nmero de visitas al mdico de atencin primaria. Lo mismo ocurre al presentar otros tipos de depresin, distintos a la depresin mayor y a la depresin menor, frente a no tener depresin. La ventaja de tener depresin menor o de tener ms de un trastorno mental frente a no tener depresin se multiplica por 1.22 veces, a medida que aumenta en una unidad el nmero de visitas al mdico. Estos resultados tambin se replican a menudo en otros estudios (30,47). Por ltimo, con respecto a presentar dolor en las cervicales podemos decir que, presentar depresin mayor o depresin menor frente a no tener ningn tipo de depresin es aproximadamente dos veces superior (OR=1.869 y OR=2.228, respectivamente) si se tiene dolor en las cervicales con respecto a no presentar dolor en esa localizacin. La ventaja de presentar ms de un tipo de depresin frente a no tener ninguno se multiplica por 2.748 veces si la localizacin del dolor de los pacientes es en las cervicales con respecto a presentarlo en otra localizacin. No se muestra relacin si se tiene otros tipos de depresin distintos de depresin mayor o depresin menor con respecto al dolor en las cervicales (p=183).

4.2.3.5. Ajuste global del modelo

Para realizar el ajuste global del modelo, realizamos el test de chi-cuadrado de la razn de verosimilitud comparando el modelo ajustado con el modelo saturado, que resulta de multiplicar todas las variables, la ausencia de significacin de este test significa que el ajuste del modelo es bueno. Los grados de libertad del test son 16 (32 parmetros del modelo saturado 16 parmetros del modelo ajustado). Calculando este estadstico y su p-valor se obtiene:

93

Como vemos la significacin de este test no es significativa, por lo que el ajuste del modelo es vlido, es decir el modelo es adecuado para el ajuste de los datos.

Tasa de clasificaciones correctas

Para cuantificar la bondad del ajuste global del modelo tambin utilizamos la tasa de clasificaciones correctas, que nos permite clasificar cada observacin en la categora ms probable, construyendo as una matriz de clasificacin observadospredichos. Para calcular esta tasa, debemos de contabilizar de la matriz anterior los valores coincidentes de los observados y de los predichos. Para obtener los valores predichos utilizamos la funcin predict, explicada en el captulo 3, pidiendo que nos devuelva, mediante type=class, de cada individuo la categora estimada a la que pertenece, basndonos en nuestro modelo final, modelo1. De la siguiente manera obtenemos el vector de las observaciones y el de las predicciones: obs<-Osteomuscular2$TIPOS_DEPRESION pre<-predict(modelo1, type="class") Vemos a continuacin una muestra del resultado que se obtiene:

Una vez que se tiene los dos vectores, los observados y los predichos, los comparamos y contabilizamos los casos coincidentes y la tasa de clasificaciones

94

correctas ser igual a los casos coincidentes entre el tamao total de la muestra, que en este caso sera 589, que son los casos que se recogen en el modelo. Con la siguiente sentencia obtenemos el resultado de la tasa de clasificaciones correctas:

Como vemos la tasa de clasificaciones correctas es de 39.39%, A travs de la misma se puede concluir acerca de la eficacia predictiva del modelo, que al ser de un 39.39%, el modelo no es demasiado predictivo, es decir, slo un 39.39% de los casos analizados logran ser correctamente clasificados, al coincidir el tipo de depresin de origen con el pronosticado por el modelo.

Calidad del ajuste del modelo

Para medir la calidad del ajuste del modelo se utiliza como vimos en el captulo 2 los coeficientes Pseudo-R2 de Mc-Fadden, de Cox-Snell y de Nagelkerke. El clculo de stos dependen del valor de las devianzas del modelo final y del modelo inicial con slo la constante, por lo que los calculamos de la siguiente manera: Si tenemos nuestro modelo final, llamado modelo1 y el modelo con la constante llamado modelo0, y sean respectivamente, y 0 sus desvianzas, obtenemos los siguientes coeficientes: R2 de Mc-Fadden
2 =1

En R lo calculamos como:

= 0.04181882 0

95

Este valor es menor que 0.2, por lo que podramos decir que no se considera que el modelo presente un buen ajuste. R2 de Cox-Snell

2 = 1 exp

0 = 0.1165843

Difcilmente este parmetro alcanza un valor cercano a 1, pero se obtiene un valor pequeo, por lo que al igual que antes no se obtiene un buen ajuste. R2 de Nagelkerke. Este parmetro viene dado por la siguiente expresin:
2 =

0 1 exp 1 exp 0

= 0.1229275

Al igual que en los casos anteriores, este valor nos demuestra que nuestro modelo no presenta un ajuste muy bueno.

4.2.3.6.

Validacin del modelo

Por ltimo realizamos la validacin del modelo mediante los residuos de la devianza, considerando que los residuos que indican una falta de ajuste global son aquellos cuyo valor absoluto son mayores que 4, y se considera que la observacin

96

correspondiente es anormal. Estos residuos se calculan mediante la funcin residuals y realizando un descriptivo de todos los residuos obtenemos:

Como se puede observar, entre los mximos y mnimos de los valores anteriores, todos los residuos en valor absoluto son menores de 1, por lo que no hay ninguna observacin que se considere anormal.

97

4.3. CONCLUSIONES
Hemos obtenido que la prevalencia de depresin en general es alta en pacientes con dolor de tipo osteomuscular, especialmente la depresin mayor y tambin hay un porcentaje alto de individuos que presentan ms de un tipo de depresin. Adems, hemos visto que existen diferencias entre los distintos tipos de depresin o no presentar ningn trastorno mental por sexos, edad, estado civil, nivel de estudios, en presentar trastornos del sueo, en las distintas localizaciones del dolor, excepto en las extremidades, en el nmero total de localizaciones, en la intensidad del dolor tanto general como en la ltima semana, en la influencia del dolor en las actividades de la vida diaria, en la duracin total del dolor y en el nmero de veces que ha consultado al mdico de atencin primaria. A pesar de influir todas estas variables segn el tipo de depresin cuando se realiza el anlisis bidimensional, cuando se realiza el modelo ajustando con ellas, slo influyen la duracin del dolor en la ltima semana, el nmero de visitas al mdico de atencin primaria y la localizacin del dolor en las cervicales. As que podemos concluir que los factores que afectan y pueden llegar aumentar el riesgo de presentar algn tipo de depresin de los estudiados o de presentar ms de uno, frente a no presentar ningn trastorno mental, es decir, son factores de riesgo para la depresin, son presentar dolor en un mayor porcentaje del da en la ltima semana, acudir un mayor nmero de veces al mdico de atencin primaria y presentar dolor en las cervicales frente a presentarlo en otra localizacin. Teniendo en cuenta estos resultados, podemos concluir que la depresin en pacientes con dolor osteomuscular est infradiagnosticada en atencin primaria. Parece necesaria la exploracin de estos trastornos mentales de manera sistemtica en los pacientes con dolor crnico con objeto de realizar un diagnstico ms preciso y un tratamiento adecuado. Con respecto a la aplicacin del modelo, podemos concluir que acudir a la estadstica y en concreto a modelos que nos predice el riesgo de presentar una enfermedad y qu factores estn asociados a este riesgo, es una buena opcin e importante a la hora de intentar disear estrategias preventivas, asistenciales o teraputicas para el tratamiento de problemas de salud. Hemos visto que el modelo que se ha obtenido se ajusta bien y es vlido, aunque no presente muy buena calidad o no tenga tanta eficacia predictiva.

98

ANEXOS. CLCULOS CON R


IMPORTACIN DE LOS DATOS DESDE SPPS
read.spss("D:/Usuario Mara/Desktop/TRABAJO FINAL/DEDO_Osteo_Reducida.sav", use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)

RECODIFICAR LA VARIABLE TIPOS DE DEPRESIN


Osteomuscular2$TIPOS_DEPRESION <-recode(Osteomuscular2$TIPOS_DEPRESION2, 'c("DISTIMIA","TRASTORNO BIPOLAR","TRASTORNO POR DROGRAS","REMISIN PARCIAL" ) = "OTROS TIPOS DE TRASTORNOS"; ; ', as.factor.result=TRUE)

Apartado 4.2.1. ANLISIS DESCRIPTIVO Tabla 1. Frecuencias de las variables cualitativas.


Table <- table(Osteomuscular2$DEPRESION) .Table # counts for DEPRESION 100*.Table/sum(.Table) # percentages for DEPRESION .Table <- table(Osteomuscular2$DESPIERTA_PACIENTE) .Table # counts for DESPIERTA_PACIENTE 100*.Table/sum(.Table) # percentages for DESPIERTA_PACIENTE .Table <- table(Osteomuscular2$DUERME_PAC_MENOS) .Table # counts for DUERME_PAC_MENOS 100*.Table/sum(.Table) # percentages for DUERME_PAC_MENOS .Table <- table(Osteomuscular2$ESTADO_SOCIAL) .Table # counts for ESTADO_SOCIAL 100*.Table/sum(.Table) # percentages for ESTADO_SOCIAL .Table <- table(Osteomuscular2$LOC_DOLOR_ARTICULACIONES) .Table # counts for LOC_DOLOR_ARTICULACIONES 100*.Table/sum(.Table) # percentages for LOC_DOLOR_ARTICULACIONES .Table <- table(Osteomuscular2$LOC_DOLOR_CERVICAL) .Table # counts for LOC_DOLOR_CERVICAL 100*.Table/sum(.Table) # percentages for LOC_DOLOR_CERVICAL .Table <- table(Osteomuscular2$LOC_DOLOR_ESPALDA) .Table # counts for LOC_DOLOR_ESPALDA 100*.Table/sum(.Table) # percentages for LOC_DOLOR_ESPALDA .Table <- table(Osteomuscular2$LOC_DOLOR_EXTREMIDDADES) .Table # counts for LOC_DOLOR_EXTREMIDDADES 100*.Table/sum(.Table) # percentages for LOC_DOLOR_EXTREMIDDADES .Table <- table(Osteomuscular2$NIVEL_EDUCATIVO) .Table # counts for NIVEL_EDUCATIVO 100*.Table/sum(.Table) # percentages for NIVEL_EDUCATIVO .Table <- table(Osteomuscular2$sexo1) .Table # counts for sexo1 100*.Table/sum(.Table) # percentages for sexo1 .Table <- table(Osteomuscular2$TIPOS_DEPRESION) .Table # counts for TIPOS_DEPRESION 100*.Table/sum(.Table) # percentages for TIPOS_DEPRESION

99

remove(.Table)

Tabla 1. Descriptivos de las variables cuantitativas


numSummary(Osteomuscular2[,c("EDAD", "MES_SINTOMAS", "NUM_HOSPITALIZACION", "NUM_LOC", "NUM_PRUEBAS_REALIZA", "NUM_VISITA_ESPECIALI", "NUM_VISITA_MEDICO_AP", "SINTOMA_DOLOR1", "SINTOMA_DOLOR7", "SINTOMA_DOLOR8")], statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))

De este anlisis se obtienen los siguientes resultados:

Intervalos de confianza de la prevalencia de depresin Mostramos los comandos para el clculo del intervalo de confianza de la depresin:
prop.test(751,1006, alternative = "two.sided", conf.level=0.95)

Figura 1. Prevalencia de depresin en toda la muestra y por sexos.


pie(table(Osteomuscular2$DEPRESION), laves=c(NO(25.4 %), S(74.7 %)), main="DEPRESIN", col=rainbow(length(levels(Osteomusculares$DEPRESION))))

Para realizar el diagrama de sectores por sexo, antes se debe de seleccionar el subconjunto de individuos de cada sexo mediante la funcin subset.
HOMBRES <- subset(Osteomusculares, sexo1=="HOMBRE") MUJERES<- subset(Osteomusculares, sexo1=="MUJER")

Una vez seleccionado se representan los diagramas de sectores:


pie(table(HOMBRES$DEPRESION), labels=c("NO(37.5%)","S(62.5%)"), main="PREVALENCIA DEPRESIN EN HOMBRES", col=rainbow(length(levels(HOMBRES$DEPRESION)))) pie(table(MUJERES$DEPRESION), labels=c("NO(21.3%)","S(78.7%)"), main="PREVALENCIA DEPRESIN EN MUJERES", col=rainbow(length(levels(MUJERES$DEPRESION))))

100

Figura 2. Diagrama de barras de la prevalencia de depresin y de los tipos de depresin por grupos de edad. Para la depresin:
Tabla<-xtabs(~DEPRESION+CL_EDAD, data=Osteomuscular2) Tabaux<-colPercents(Tabla) Tablapor<-Tabaux[1:2,] barplot(Tablapor, xlab="Grupos de edad", ylab="Porcentaje",legend.text=c("Sin depresin", "Con Depresin"),main="Prevalencia de depresin por edad", beside=TRUE, col=cm.colors(2))

Para los tipos de depresin:


.Table <- xtabs(~TIPOS_DEPRESION+CL_EDAD, data=Osteomuscular2) Tablapor<-totPercents(.Table) # Percentage of Total Tablabar<-Tablapor[1:5,1:7] barplot(Tablabar, xlab="Porcentaje", ylab="Grupos de edad", xlim=c(0,10), horiz=TRUE, legend.text=c("Ms de un tipo de depresin", "Otros tipos de trastornos", "Sin depresin", "Trastorno depresivo mayor", "Trastorno depresivo menor"),main="Prevalencia de tipos de depresin por edad", beside=TRUE, col=cm.colors(5))

Figura 3. Diagrama de barra de los tipos de depresin


barplot(100*.Table/sum(.Table), names.arg=c("Ms de un tipo de trastorno","Otros tipos de trastornos","Sin depresin","Depresin mayor","Depresin menor"), xlab="TIPOS DE DEPRESIN", ylab="Porcentaje", main="Distribucin de los tipos de depresin", beside=TRUE, col="red", ylim= c(0,50))

Figura 4. Histograma de la intensidad de dolor.


Hist(Osteomuscular2$SINTOMA_DOLOR1, scale="percent", xlab="INTENSIDAD DOLOR GENERAL", ylab="Porcentaje", col="blue")

Apartado 4.2.2. ANLISIS BIDIMENSIONAL Tabla 2. Relacin entre los tipos de depresin y las variables categricas estudiadas.
.Table <- xtabs(~TIPOS_DEPRESION+sexo1, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+ESTADO_SOCIAL, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

101

.Table <- xtabs(~TIPOS_DEPRESION+NIVEL_EDUCATIVO, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+DUERME_PAC_MENOS, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+DESPIERTA_PACIENTE, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_CERVICAL, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

102

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_ESPALDA, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_ARTICULACIONES, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_EXTREMIDDADES, data=Osteomuscular2) .Table .Test <- chisq.test(.Table, correct=FALSE) .Test

103

Tabla 3. Test de normalidad de Shapiro-Wilk para variables cuantitativas continuas.


> shapiro.test(Osteomuscular2$EDAD) Shapiro-Wilk normality test data: Osteomuscular2$EDAD W = 0.9967, p-value = 0.0659 > shapiro.test(Osteomuscular2$MES_SINTOMAS) Shapiro-Wilk normality test data: Osteo$MES_SINTOMAS W = 0.6704, p-value < 2.2e-16 > shapiro.test(Osteomuscular2$NUM_LOC) Shapiro-Wilk normality test data: Osteo$NUM_LOC W = 0.8673, p-value < 2.2e-16 > shapiro.test(Osteomuscular2$NUM_VISITA_MEDICO_AP) Shapiro-Wilk normality test data: Osteo$NUM_VISITA_MEDICO_AP W = 0.8134, p-value < 2.2e-16 > shapiro.test(Osteomuscular2$NUM_VISITA_ESPECIALI) Shapiro-Wilk normality test data: Osteo$NUM_VISITA_ESPECIALI W = 0.4564, p-value < 2.2e-16 > shapiro.test(Osteomuscular2$NUM_PRUEBAS_REALIZA) Shapiro-Wilk normality test data: Osteo$NUM_PRUEBAS_REALIZA W = 0.8053, p-value < 2.2e-16 > shapiro.test(Osteomuscular2$NUM_HOSPITALIZACION) Shapiro-Wilk normality test data: Osteo$NUM_HOSPITALIZACION W = 0.4738, p-value < 2.2e-16 >shapiro.test(Osteomuscular2$SINTOMA_DOLOR1) Shapiro-Wilk normality test data: Osteomusculares$SINTOMA_DOLOR1 W = 0.985, p-value = 1.200e-08 > shapiro.test(Osteomuscular2$SINTOMA_DOLOR7) Shapiro-Wilk normality test data: Osteomusculares$SINTOMA_DOLOR7 W = 0.9764, p-value = 1.058e-11 > shapiro.test(Osteomuscular2$SINTOMA_DOLOR8) Shapiro-Wilk normality test data: Osteomusculares$SINTOMA_DOLOR8 W = 0.9773, p-value = 1.920e-11

104

Tabla 4. Relacin entre los tipos de depresin y las variables cuantitativas continuas estudiadas. (Medias (DT)) Para la edad, se realiza el ANOVA:
.Anova <- lm(EDAD ~ TIPOS_DEPRESION, data=Osteomuscular2) anova(.Anova) tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, mean, na.rm=TRUE) # means tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, sd, na.rm=TRUE) # std. deviations tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, function(x) sum(!is.na(x))) # counts remove(.Anova)

Obtenindose:

Para el resto de variables se utiliza el Test no paramtrico de Kruskal-Wallis.


tapply(Osteomuscular2$SINTOMA_DOLOR1, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(SINTOMA_DOLOR1 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$MES_SINTOMAS, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(MES_SINTOMAS ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_LOC, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(NUM_LOC ~ TIPOS_DEPRESION, data=Osteomuscular2)

105

tapply(Osteomuscular2$SINTOMA_DOLOR7, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(SINTOMA_DOLOR7 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$SINTOMA_DOLOR8, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(SINTOMA_DOLOR8 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_VISITA_MEDICO_AP, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(NUM_VISITA_MEDICO_AP ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_VISITA_ESPECIALI, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(NUM_VISITA_ESPECIALI ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_PRUEBAS_REALIZA, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(NUM_PRUEBAS_REALIZA ~ TIPOS_DEPRESION, data=Osteomuscular2)

106

tapply(Osteomuscular2$NUM_HOSPITALIZACION, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE) kruskal.test(NUM_HOSPITALIZACION ~ TIPOS_DEPRESION, data=Osteomuscular2)

Tabla 5. Test de correlaciones de Pearson entre la edad y variables cuantitativas continuas


cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR1, alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR7, alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR8, alternative="two.sided", method="pearson")

107

cor.test(Osteomuscular2$EDAD, Osteomuscular2$MES_SINTOMAS, alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_LOC,alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, method="pearson")

Osteomuscular2$NUM_VISITA_MEDICO_AP,alternative="two.sided",

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_VISITA_ESPECIALI,alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_PRUEBAS_REALIZA,alternative="two.sided", method="pearson")

108

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_HOSPITALIZACION,alternative="two.sided", method="pearson")

Apartado 4.2.3. MULTINOMIAL

AJUSTE

DEL

MODELO

DE

REGRESIN

LOGSTICA

Para el ajuste del modelo se muestran los comandos utilizados en R, pero los resultados, las salidas, se muestran en el captulo 4, por lo que no se volvern a mostrar. Apartado 4.2.3.1. SELECCIN DEL MODELO PASO 1
modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data= Osteomuscular2, trace=FALSE) modelo1 <- multinom(TIPOS_DEPRESION ~ sexo1, data= Osteomuscular2, trace=FALSE) modelo2 <- multinom(TIPOS_DEPRESION ~ EDAD, data= Osteomuscular2, trace=FALSE) modelo3 <- multinom(TIPOS_DEPRESION ~ DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data= Osteomuscular2, trace=FALSE) modelo4 <- multinom(TIPOS_DEPRESION ~ ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE) modelo5 <- multinom(TIPOS_DEPRESION ~ DUERME_PAC_MENOS, data= Osteomuscular2, trace=FALSE) modelo6 <- multinom(TIPOS_DEPRESION ~ DESPIERTA_PACIENTE, data= Osteomuscular2, trace=FALSE) modelo7 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) modelo8 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ESPALDA, data= Osteomuscular2, trace=FALSE) modelo9 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ARTICULACIONES, data= Osteomuscular2, trace=FALSE) modelo10 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_EXTREMIDDADES, data= Osteomuscular2, trace=FALSE) modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR1, data= Osteomuscular2, trace=FALSE) modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR7, data= Osteomuscular2, trace=FALSE) modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2, trace=FALSE) modelo14 <- multinom(TIPOS_DEPRESION ~ NUM_VISITA_MEDICO_AP, data= Osteomuscular2, trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo0, modelo1) anova(modelo0, modelo2) anova(modelo0, modelo3) anova(modelo0, modelo4) anova(modelo0, modelo5) anova(modelo0, modelo6) anova(modelo0, modelo7)

109

anova(modelo0, modelo8) anova(modelo0, modelo9) anova(modelo0, modelo10) anova(modelo0, modelo11) anova(modelo0, modelo12) anova(modelo0, modelo13) anova(modelo0, modelo14)

PASO 2
modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2, trace=FALSE) modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+EDAD, data= Osteomuscular2, trace=FALSE) modelo3 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data= Osteomuscular2, trace=FALSE) modelo4 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE) modelo5 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DUERME_PAC_MENOS, data= Osteomuscular2, trace=FALSE) modelo6 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DESPIERTA_PACIENTE, data= Osteomuscular2, trace=FALSE) modelo7 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) modelo8 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ESPALDA, data= Osteomuscular2, trace=FALSE) modelo9 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ARTICULACIONES, data= Osteomuscular2, trace=FALSE) modelo10 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_EXTREMIDDADES, data= Osteomuscular2, trace=FALSE) modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR1, data= Osteomuscular2, trace=FALSE) modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR7, data= Osteomuscular2, trace=FALSE) modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data= Osteomuscular2, trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo1, modelo2) anova(modelo1, modelo3) anova(modelo1, modelo4) anova(modelo1, modelo5) anova(modelo1, modelo6) anova(modelo1, modelo7) anova(modelo1, modelo8) anova(modelo1, modelo9) anova(modelo1, modelo10) anova(modelo1, modelo11) anova(modelo1, modelo12) anova(modelo1, modelo13)

PASO 3 Inclusin de variables:


modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data= Osteomuscular2, trace=FALSE) modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+EDAD, data= Osteomuscular2, trace=FALSE)

110

modelo3 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data= Osteomuscular2, trace=FALSE) modelo4 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+EST UD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE) modelo5 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DUERME_PAC_MENOS, data= Osteomuscular2, trace=FALSE) modelo6 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DESPIERTA_PACIENTE, data= Osteomuscular2, trace=FALSE) modelo7 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) modelo8 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_ESPALDA, data= Osteomuscular2, trace=FALSE) modelo9 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_ARTICULACIONES, data= Osteomuscular2, trace=FALSE) modelo10 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_EXTREMIDDADES, data= Osteomuscular2o, trace=FALSE) modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+SINTOMA_DOLOR1, data= Osteomuscular2, trace=FALSE) modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+SINTOMA_DOLOR7, data= Osteomuscular2, trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo1, modelo2) anova(modelo1, modelo3) anova(modelo1, modelo4) anova(modelo1, modelo5) anova(modelo1, modelo6) anova(modelo1, modelo7) anova(modelo1, modelo8) anova(modelo1, modelo9) anova(modelo1, modelo10) anova(modelo1, modelo11) anova(modelo1, modelo12)

Posibilidad de eliminacin de una variable incluida en pasos anteriores:


modelo13<- multinom(TIPOS_DEPRESION ~ NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) anova(modelo7,modelo13)

PASO 4 Inclusin de variables:


modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+EDAD, data= Osteomuscular2, trace=FALSE)

111

modelo3 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DIVORCIADO_SEPARAD O+SOLTERO+VIUDO, data= Osteomuscular2, trace=FALSE) modelo4 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+ESTUD_PRIMARIOS+EST UD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE) modelo5 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DUERME_PAC_MENOS, data= Osteomuscular2, trace=FALSE) modelo6 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DESPIERTA_PACIENTE, data= Osteomuscular2, trace=FALSE) modelo7 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_ESPALDA, data= Osteomuscular2, trace=FALSE) modelo8 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_ARTICULA CIONES, data= Osteomuscular2, trace=FALSE) modelo9 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_EXTREMID DADES, data= Osteomuscular2, trace=FALSE) modelo10 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+SINTOMA_DOLOR1, data= Osteomuscular2, trace=FALSE) modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+SINTOMA_DOLOR7, data= Osteomuscular2, trace=FALSE)

Contraste de razn de verosimilitudes:


anova(modelo1, modelo2) anova(modelo1, modelo3) anova(modelo1, modelo4) anova(modelo1, modelo5) anova(modelo1, modelo6) anova(modelo1, modelo7) anova(modelo1, modelo8) anova(modelo1, modelo9) anova(modelo1, modelo10) anova(modelo1, modelo11)

Resultados modelo final:


summary(modelo1, cor=FALSE, Wald=TRUE)

Apartado 4.2.3.2. CLCULO DE LAS ODDS RATIOS Y LOS INTERVALOS DE CONFIANZA


coeficientes<-coef(modelo1) exp(coeficientes) ic<-confint(modelo1) exp(ic)

Apartado 4.2.3.3. CONTRASTE SOBRE LOS PARMETROS. Contraste de Wald

wald<-matrix(c(-4.991448,4.05727347,3.841494,2.3658128,-4.374602,2.26473110,2.133899,2.4648983,3.860910,0.09863764,2.710359,0.9030975,-5.969838,4.74582515,2.255481,3.2054501),nrow=4,ncol=4) wald pnorm(wald[2:4,], mean=0, sd=1, lower.tail=FALSE) pnorm(wald[1,], mean=0, sd=1, lower.tail=TRUE)

112

Contraste condicional de razn de verosimilitud

modelo0<-multinom(TIPOS_DEPRESION ~1,data= Osteomuscular2, trace=FALSE) anova(modelo0,modelo1)

Apartado 4.2.3.5. AJUSTE GLOBAL DEL MODELO Test de chi-cuadrado de razn de verosimilitud:
modeloS<- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8*NUM_VISITA_MEDICO_AP*LOC_DOLOR_CERVICAL, data= Osteomuscular2, trace=FALSE) deviance(modelo1)-deviance(modelos) pchisq(deviance(modelo1)-deviance(modeloS), df=16)

TASA DE CLASIFICACIONES CORRECTAS

pre<-predict(modelo1, type="class") obs<-Osteomuscular2$TIPOS_DEPRESION cont=0 for (i in 1:589) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont} tcc<-cont/589 tcc

CALIDAD DEL AJUSTE DEL MODELO

Clculo de las pseudo R2


dv1<-deviance(modelo1) dv0<-deviance(modelo0) mf<-1-(dv1/dv0) mf cs<-1-exp((dv1-dv0)/589) cs n<-(1-exp((dv1-dv0)/589))/(1-exp(-dv0/589)) n

Apartado 4.2.3.6. VALIDACIN DEL MODELO


residuos<-residuals(modelo1) numSummary(residuos, statistics=c("mean", "sd", "quantiles"), quantiles=c( 0,.25,.5,.75,1 ))

113

BIBLIOGRAFA
(1) Michael J. Crawley. The R book. England: Wiley; 2007. (2) Julian J. Faraway. Practical Regression and Anova using R. ; 2002. (3) Arriaza Gmez, Fernndez Palacn,Lpez Snchez, Muoz Mrquez, Prez Plaza, Snchez Navas. Titul. Estadstica Bsica con R y R-commander. Primera ed. Cdiz: Servicio de Publicaciones de la Universidad de Cdiz; 2008. (4) Means-Christensen AJ, Roy-Byrne PP, Sherbourne CD, Craske MG, Stein MB. Relationships among pain, anxiety, and depression in primary care. Depress Anxiety 2008;25(7):593-600. (5) Garcia-Campayo J, Ayuso-Mateos JL, Caballero L, Romera I, Aragones E, Rodriguez-Artalejo F, et al. Relationship of Somatic Symptoms With Depression Severity, Quality of Life, and Health Resources Utilization in Patients With Major Depressive Disorder Seeking Primary Health Care in Spain. Prim Care Companion J Clin Psychiatry 2008;10(5):355-362. (6) Campbell LC, Clauw DJ, Keefe FJ. Persistent pain and depression: a biopsychosocial perspective. Biol Psychiatry 2003 Aug 1;54(3):399-409. (7) Bair MJ, Robinson RL, Katon W, Kroenke K. Depression and pain comorbidity: a literature review. Arch Intern Med 2003 Nov 10;163(20):2433-2445. (8) Kroenke K, Shen J, Oxman TE, Williams JW,Jr, Dietrich AJ. Impact of pain on the outcomes of depression treatment: results from the RESPECT trial. Pain 2008 Jan;134(1-2):209-215. (9) Ohayon MM, Schatzberg AF. Using chronic pain to predict depressive morbidity in the general population. Arch Gen Psychiatry 2003 Jan;60(1):39-47. (10) Levinson D, Karger CJ, Haklai Z. Chronic physical conditions and use of health services among persons with mental disorders: results from the Israel National Health Survey. Gen Hosp Psychiatry 2008 May-Jun;30(3):226-232. (11) Lowe B, Spitzer RL, Williams JB, Mussell M, Schellberg D, Kroenke K. Depression, anxiety and somatization in primary care: syndrome overlap and functional impairment. Gen Hosp Psychiatry 2008 May-Jun;30(3):191-199.

114

(12) Bair MJ, Kroenke K, Sutherland JM, McCoy KD, Harris H, McHorney CA. Effects of depression and pain severity on satisfaction in medical outpatients: analysis of the Medical Outcomes Study. J Rehabil Res Dev 2007;44(2):143-152. (13) Kirmayer LJ, Robbins JM, Dworkind M, Yaffe MJ. Somatization and the recognition of depression and anxiety in primary care. Am J Psychiatry 1993 May;150(5):734-741. (14) Hosmer DW LS. Applied logistic regression. Second edition ed. New York: Wiley; 2000. (15) Mariz Cde A, Albuquerque Mde F, Ximenes RA, Melo HR, Bandeira F, Oliveira TG, et al. Body mass index in individuals with HIV infection and factors associated with thinness and overweight/obesity. Cad Saude Publica 2011 Oct;27(10):1997-2008. (16) Khuwaja AK, Khawaja S, Motwani K, Khoja AA, Azam IS, Fatmi Z, et al. Preventable Lifestyle Risk Factors for Non-Communicable Diseases in the Pakistan Adolescents Schools Study 1 (PASS-1). J Prev Med Public Health 2011 Sep;44(5):210-217. (17) Langley PC, Molina JS, Ferri CS, P Rez Hern Ndez CN, Varillas AT, Angel RuizIban M. The association of pain with labor force participation, absenteeism, and presenteeism in Spain. J Med Econ 2011;14(6):835-845. (18) Pharris A, Hoa NP, Tishelman C, Marrone G, Kim Chuc NT, Brugha R, et al. Community patterns of stigma towards persons living with HIV: a population-based latent class analysis from rural Vietnam. BMC Public Health 2011 Sep 18;11:705. (19) Hoerster KD, Butler DA, Mayer JA, Finlayson T, Gallo LC. Use of conventional care and complementary/alternative medicine among US adults with arthritis. Prev Med 2011 Aug 25. (20) Okoro CA, Strine TW, Eke PI, Dhingra SS, Balluz LS. The association between depression and anxiety and use of oral health services and tooth loss. Community Dent Oral Epidemiol 2011 Aug 25. (21) Cook PA, Phillips-Howard PA, Morleo M, Harkins C, Briant L, Bellis MA. The Big Drink Debate: perceptions of the impact of price on alcohol consumption from a large scale cross-sectional convenience survey in north west England. BMC Public Health 2011 Aug 23;11:664. (22) Pedrosa AA, Camacho LA, Passos SR, Oliveira Rde V. Alcohol consumption by university students. Cad Saude Publica 2011 Aug;27(8):1611-1621.

115

(23) Silva Ayaguer LC. Variables dummy. In: Silva Ayaguer LC, editor. Excursin a la regresin logstica en ciencias de la salud Madrid: Daz de Santos; 1995. p. 33-42. (24) Pando Fernndez V, San Martn Fernndez R. Regresin logstica multinomial. Cuad Soc Esp Cien For 2004;18. (25) Agresti A. Categorical Data Analysis. Second Edition ed. New York: Wiley; 2002. (26) Aguilera del Pino, A. M. Modelos de Respuesta Discreta. Granada: Copias Coca, Dep. Legal GR-11554-02; 2002. (27) Silva Ayaguer LC, Barroso Ultra IM. Regresin logstica. Madrid: La muralla; 2004. (28) Silva Ayaguer LC. Excursin a la regresin logstica en ciencias de la salud. Madrid: Daz de Santos; 1995. (29) Kleinbaum D. Logistic Regression. A Self-Learning Text. New York: SpringerVerlag; 1994. (30) Aguera L, Failde I, Cervilla JA, Diaz-Fernandez P, Mico JA. Medically unexplained pain complaints are associated with underlying unrecognized mood disorders in primary care. BMC Fam Pract 2010 Mar 3;11:17. (31) Fagerland MW, Hosmer DW, Bofin AM. Multinomial goodness-of-fit tests for logistic regression models. Stat Med 2008 Sep 20;27(21):4238-4253. (32) Andersen E. The Statistical Analysis of Categorical Data. New York: SpringerVerlag; 1990. (33) Beltrn C. Aplicacin del anlisis de regresin logstica multinomial en la clasificacin de textos acadmicos: Biometra, Filosofa y Lingstica

informtica. Infosur 2011;5:53-64. (34) The R Project for Statistical Computing. 2011; Available at: http://www.rproject.org/. (35) Spector P. Data Manipulation with R. New York: Springer Science+Business Media, LLC.; 2008. (36) Thompson L. S-PLUS (and R) manual to accompany Agrestis categorical data analysis. Second edition ed.: John Wiley and Sons.; 2007. (37) Collins SL, Moore RA, McQuay HJ. The visual analogue pain intensity scale: what is moderate pain in millimetres? Pain 1997 Aug;72(1-2):95-97.

116

(38) Onder G, Landi F, Gambassi G, Liperoti R, Soldato M, Catananti C, et al. Association between pain and depression among older adults in Europe: results from the Aged in Home Care (AdHOC) project: a cross-sectional study. J Clin Psychiatry 2005 Aug;66(8):982-988. (39) Spitzer RL, Williams JB, Kroenke K, Linzer M, deGruy FV,3rd, Hahn SR, et al. Utility of a new procedure for diagnosing mental disorders in primary care. The PRIMEMD 1000 study. JAMA 1994 Dec 14;272(22):1749-1756. (40) Pueyo MJ, Suris X, Larrosa M, Auleda J, Mompart A, Brugulat P, et al. Importance of chronic musculoskeletal problems in the population of Catalonia (Spain): prevalence and effect on self-perceived health, activity restriction and use of health services. Gac Sanit 2011 Jul 4. (41) Martn Mola E, Woolfb AD, Zeidlerc H, Haglundd U, Carre AJ. Evaluacin del dolor musculoesqueltico crnico en la poblacin adulta espaola y su manejo en Atencin Primaria: actitudes, percepcin del estado de salud y uso de recursos sanitarios. SEMERGEN 2005;31(11):508-15. (42) Noceda Bermejo JJ, Moret Ten C, Lauzirika Alonso I. Quality of life in osteomuscular chronic pain. Reumatol Clin 2006 Nov;2(6):298-301. (43) Keogh E, McCracken LM, Eccleston C. Gender moderates the association between depression and disability in chronic pain patients. Eur J Pain 2006 Jul;10(5):413-422. (44) Bremander AB, Holmstrom G, Bergman S. Depression and age as predictors of patient-reported outcome in a multidisciplinary rehabilitation programme for chronic musculoskeletal pain. Musculoskeletal Care 2011 Mar;9(1):41-48. (45) George SZ, Coronado RA, Beneciuk JM, Valencia C, Werneke MW, Hart DL. Depressive symptoms, anatomical region, and clinical outcomes for patients seeking outpatient physical therapy for musculoskeletal pain. Phys Ther 2011 Mar;91(3):358372. (46) Lin EH, Katon WJ, VonKorff M, Russo JE, Simon GE, Bush TM, et al. Relapse of depression in primary care. Rate and clinical predictors. Arch Fam Med 1998 SepOct;7(5):443-449. (47) Bao Y, Sturm R, Croghan TW. A national study of the effect of chronic pain on the use of health care by depressed persons. Psychiatr Serv 2003 May;54(5):693-697.

117