Vous êtes sur la page 1sur 120

TRABAJO FIN DE MSTER

MSTER OFICIAL EN ESTADSTICA APLICADA


UNIVERSIDAD DE GRANADA

Alumna: Mara ngeles Dueas Rodrguez

NDICE
Captulo 1: Introduccin ............................................................................................ 1
Captulo 2: Teora de los modelos de regresin logstica multinomial ............... 6
2.1. Formulacin e Interpretacin del modelo ................................................... 8
2.1.1. Formulacin ...................................................................................... 8
2.1.2. Interpretacin del modelo ............................................................... 11
2.1.3. Otros aspectos a tener en cuenta sobre las variables ................... 13
2.2. Mtodos de estimacin. Estimacin por mxima verosimilitud ................ 14
2.3. Bondad de ajuste del modelo ................................................................... 17
2.3.1. Contrastes de bondad de ajuste del modelo .................................. 17
2.3.1.1. Test chi-cuadrado de Pearson .......................................... 18
2.3.1.2. Test chi-cuadrado de razn de verosimilitudes.
Estadstico de Wilks. Devianza ........................................ 18
2.3.2. Calidad del ajuste ............................................................................ 19
2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden .............................. 19
2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell ................................. 19
2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke .............................. 20
2.3.3. Tasa de clasificaciones correctas ................................................... 20
2.4. Contrastes sobre los parmetros del modelo ........................................... 21
2.5. Inferencia en regresin logstica multinomial. Intervalos de confianza .... 23
2.6. Mtodos de seleccin del modelo ............................................................. 24
2.6.1. Hacia adelante ................................................................................ 25
2.6.2. Hacia atrs ...................................................................................... 25
2.6.3. Stepwise .......................................................................................... 25
2.7. Validacin del modelo ................................................................................ 26
2.7.1. Residuos de Pearson o residuos estandarizados .......................... 26
2.7.2. Residuos de Pearson o residuos estandarizados .......................... 27
Captulo 3: Funciones y comandos con R ............................................................ 29
3.1. Primeros pasos con R ............................................................................... 31

3.2. Anlisis unidimensional ............................................................................. 37


3.2.1. Variables cualitativas ...................................................................... 37
3.2.2. Variables cuantitativas continuas ................................................... 41
3.3. Anlisis bidimensional ............................................................................... 44
3.3.1. Dos variables cualitativas ............................................................... 44
3.3.2. Una variable cualitativa y una variable cuantitativa continua ......... 46
3.3.3. Dos variables cuantitativas continuas ............................................. 51
3.4. Modelo de regresin logstica multinomial ................................................ 52
3.4.1. Formulacin y seleccin del modelo ............................................... 53
3.4.2. Inferencia ......................................................................................... 56
3.4.3. Contrastes sobre los parmetros .................................................... 57
3.4.4. Bondad de ajuste del modelo ......................................................... 58
3.4.5. Validacin del modelo ...................................................................... 59
Captulo 4: Aplicacin con datos reales ................................................................ 60
4.1. Descripcin de la aplicacin ..................................................................... 61
4.2. Resultados ................................................................................................ 64
4.2.1. Anlisis descriptivo unidimensional ................................................. 64
4.2.2. Anlisis bidimensional ..................................................................... 72
4.2.3. Modelo de regresin logstica multinomial. Factores
asociados a los tipos de depresin .............................................. 80
4.2.3.1. Seleccin del modelo ......................................................... 81
4.2.3.2. Odds ratios e Intervalos de Confianza .............................. 89
4.2.3.3. Contraste sobre los parmetros ......................................... 90
4.2.3.4. Interpretacin del modelo .................................................. 91
4.2.3.5. Ajuste global del modelo .................................................... 93
4.2.3.6. Validacin del modelo ........................................................ 96
4.3. Conclusiones ............................................................................................. 98
Anexos. Clculos con R .......................................................................................... 99
Bibliografa .............................................................................................................. 114

CAPTULO 1:

INTRODUCCIN

Este trabajo pretende dar una descripcin detallada de una aplicacin con
datos reales de modelos de respuestas discretas realizando el anlisis con el software
estadstico R. Concretamente se aplicar un modelo de regresin logstica multinomial.
El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente
que permite realizar numerosos anlisis, y entre ellos la regresin logstica
multinomial.
El objetivo principal del trabajo es describir la teora del anlisis que se llevar a
cabo (regresin logstica multinomial), detallar cmo se aplica esta teora con el
lenguaje de R y finalmente describir una aplicacin con datos reales en la que se
aplique estos modelos y se realicen los anlisis con R.
El trabajo se estructurar de la siguiente manera:
-

Este primer captulo es una introduccin al trabajo donde se especifican los


objetivos del mismo y los objetivos de la aplicacin, as como su relacin con la
literatura.

El segundo captulo contiene toda la teora de los modelos de regresin


logstica multinomial, incluyendo la formulacin, bondad de ajuste del modelo,
inferencia, calidad y validacin de los modelos.

El tercer captulo incluye todas las funciones de R que se utilizarn


posteriormente en la aplicacin para obtener los resultados deseados. Adems
de nombrar estas funciones se describen sus argumentos y las salidas que
aportan cada una de ellas.

El cuarto captulo est completamente dedicado a la aplicacin con datos


reales, en la que se describe sta, incluyendo un anlisis descriptivo y
relaciones entre variables anterior a la aplicacin del modelo de regresin
logstica multinomial. Finalmente se interpretan todos los resultados y se
obtienen conclusiones.

Posteriormente, aparece un anexo en el que se incluyen todos los clculos


realizados con R, en el que se incluyen todas las funciones y comandos
utilizados para obtener todos los resultados mostrados en el captulo cuarto.

Finalmente, mostramos toda la bibliografa utilizada en todo el trabajo.


La aplicacin con datos reales que describimos en este trabajo procede de un

estudio a nivel nacional que se realiz en Espaa, en el cual se estudia el dolor y la


depresin en pacientes atendidos en atencin primaria. Para este trabajo se ha
seleccionado la informacin necesaria de este estudio para conocer los factores
asociados a la presencia de trastornos mentales infradiagnosticados en pacientes con

dolor crnico de tipo osteomuscular, atendidos en una muestra representativa de


centros de Atencin Primaria (AP) en Espaa.
Se ha considerado este estudio ya que se entiende que el dolor y la depresin
son problemas de salud muy comunes, sobre todo en pacientes atendidos en atencin
primaria (4). Ambos problemas de salud aumentan el uso de los servicios sanitarios y
producen un deterioro de la calidad de vida relacionada con la salud de estos
individuos (5,6). El dolor crnico y la depresin son procesos comunes, mostrndose
en algunos estudios que la prevalencia oscila entre 15% y 100% (7). As mismo, la
presencia y la intensidad de dolor crnico se reconoce que son predictores del grado
de depresin en estos pacientes(8,9). Pacientes con dolor crnico y depresin asisten
a la consulta del mdico con ms frecuencia y se convierten en grandes consumidores
de los servicios sanitarios (10,11). Muchos estudios han demostrado que pacientes
con depresin y dolor crnico son ms propensos a estar ms insatisfechos con su
salud (12).
En atencin primaria, la depresin a menudo no se diagnostica, particularmente
en casos de pacientes que sufren dolor crnico (13).
Nos proponemos realizar esta aplicacin con ese objetivo, ya que existen
escasos estudios que estudian la comorbilidad de dolor crnico con otros trastornos
mentales, la mayora de los estudios estudian la relacin entre el dolor y trastorno de
depresin mayor, habiendo pocos que estudien otros trastornos como depresin
menor, distimia o trastorno bipolar. As mismo, no son muy comunes estudios que
utilizan un cuestionario especfico estructurado para evaluar estos procesos en
atencin primaria.
As que nuestro objetivo principal ser conocer los factores asociados a los
tipos de trastornos mentales en pacientes con dolor osteomuscular, y para tal fin se
realizar un modelo de regresin logstica multinomial, que permitir conocer qu
variables de las recogidas en el estudio afectan y de qu manera afectan a la
presencia o ausencia de algunos tipos de trastornos mentales de estos pacientes. Se
utilizar este modelo de regresin logstica multinomial ya que la variable respuesta es
categrica, con ms de dos categoras, ya que contempla entre los tipos de trastornos
mentales, la depresin mayor, depresin menor, trastorno bipolar, distimia, remisin
parcial y trastornos causados por medicamentos o drogas, adems de contemplar la
posibilidad de presenciar ms de un tipo de trastorno de los anteriores mencionados o
incluso la ausencia de trastorno mental.

Los modelos de regresin logstica permiten principalmente dos finalidades


(14):
-

Cuantificar la importancia de la relacin existente entre cada una de las


covariables y la variable dependiente, lo que lleva implcito tambin
clarificar la existencia de interaccin y confusin entre covariables respecto
a la variable dependiente (es decir, conocer la odds ratio para cada
covariable).

Clasificar individuos dentro de las categoras de la variable dependiente,


segn la probabilidad que tenga de pertenecer a una de ellas dada la
presencia de determinadas covariables.

De hecho, la regresin logstica es una de las herramientas estadsticas con


mejor capacidad para el anlisis de datos en investigacin clnica y epidemiologa, de
ah su amplia utilizacin (15-22). Y es la tcnica ms apropiada para usar en este
estudio.
El objetivo primordial que resuelve esta tcnica es el de modelar cmo influye
en la probabilidad de aparicin de un suceso, habitualmente dicotmico pero en este
caso es politmico, la presencia o no de diversos factores y el valor o nivel de los
mismos. Es decir, estimar la probabilidad de aparicin de cada una de las
posibilidades de un suceso con ms de dos categoras.
Como se ha comentado antes, se realizar un anlisis descriptivo previo de las
variables recogidas en el estudio, para conocer las caractersticas principales de los
pacientes estudiados. Tambin analizaremos previamente relaciones entre distintas
variables que se consideren de inters, sobre todo entre la variable de los tipos de
trastornos mentales y el resto de variables, para poder elegir las posibles variables
independientes candidatas a ser incluidas en el modelo de regresin logstica
multinomial. Una vez realizado este anlisis exploratorio previo, conoceremos los
factores asociados a la presencia de algn tipo de trastorno mental, mediante el
modelo de regresin logstica multinomial.
En nuestro caso, en este modelo la variable respuesta sera los tipos de
trastornos mentales, incluida la categora de ausencia de depresin, la cual se tomara
como categora de referencia para el modelo. Las variables predictoras que
elegiremos para conocer su asociacin con los tipos de trastornos mentales,
seleccionadas segn lo obtenido en los anlisis bivariantes y segn criterios clnicos,
sern: sexo, edad, nivel de estudios, estado civil, trastornos del sueo, la localizacin
del dolor (cervical, espalda, articulaciones, extremidades), intensidad del dolor general,

duracin del dolor en la ltima semana, influencia del dolor en las actividades de la
vida diaria y nmero de consultas al mdico a causa del dolor. As que estimaremos la
probabilidad de tener un tipo de trastorno mental influenciada por otros factores.
Finalmente se interpretar los resultados obtenidos llegando a alcanzar los
objetivos propuestos y obteniendo conclusiones.

CAPTULO 2:

TEORA DE LOS MODELOS DE


REGRESIN LOGSTICA
MULTINOMIAL

En este captulo se explica toda la metodologa que ser utilizada para resolver
nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicacin.
Como se ha indicado anteriormente, para el propsito de ese estudio, se utilizarn
modelos de respuesta discreta, concretamente el modelo de regresin logstica
multinomial. A continuacin se describir este modelo explicando entre otras cosas, la
formulacin, los mtodos de estimacin, interpretacin de parmetros, ajustes del
modelo, validacin, contrastes de hiptesis asociados. Todo este desarrollo terico
que se explica a continuacin, es lo que posteriormente se llevar a cabo a la prctica
con nuestra aplicacin.
Los modelos de regresin logstica son modelos estadsticos en los que se
pretende conocer la relacin entre una variable dependiente cualitativa, dicotmica
(regresin logstica binaria o binomial) o con ms de dos categoras (regresin
logstica multinomial) y entre variables explicativas independientes, que pueden ser
cualitativas o cuantitativas. Las covariables cualitativas que sean dicotmicas, es
aconsejable que se codifiquen tomando valores 0, para una de las categoras o para
su ausencia y 1 para la otra categora o para su presencia (esta codificacin es
importante, ya que cualquier otra codificacin podra provocar modificaciones en la
interpretacin del modelo). Pero si la covariable cualitativa tuviera ms de dos
categoras, se realiza una transformacin, para poderla incluir en el modelo. Esta
transformacin consiste en crear varias variables cualitativas dicotmicas ficticias o de
diseo, llamadas variables dummies, de forma que una de las variables se tomara
como categora de referencia y cada una de las variables creadas entrara en el
modelo de forma individual. En general, si la covariable cualitativa posee n categoras,
habr que realizar n 1 covariables ficticias (14,23).
La regresin logstica multinomial es utilizada en modelos con variable
dependiente de tipo nominal con ms de dos categoras (politmica) y es una
extensin multivariante de la regresin logstica binaria clsica.

Las variables

independientes pueden ser tanto continuas (covariables) como categricas (factores).


Tradicionalmente las variables dependientes politmicas han sido modeladas
mediante anlisis discriminante pero, gracias al creciente desarrollo de las tcnicas de
clculo, cada vez es ms habitual el uso de modelos de regresin logstica
multinomial,

implementados

en

paquetes

estadsticos,

debido

la

mejor

interpretabilidad de los resultados que proporciona (24).


Estos modelos se analizan eligiendo una categora como referencia de la
variable

dependiente

de

respuesta

se

modelan

varias

ecuaciones

simultneamente, una para cada una de las restantes categoras respecto a la de


referencia (25).
En general, los requisitos y etapas de la regresin logstica son los que se
muestran a continuacin, posteriormente detallaremos esas etapas.
-

Recodificar las variables independientes categricas u ordinales en


variables ficticias o simuladas y la variable dependiente.

Evaluar efectos de confusin y de interaccin del modelo explicativo.

Evaluar la bondad de ajuste de los modelos.

Analizar la fuerza, sentido y significacin de los coeficientes, sus


exponenciales y estadsticos de prueba (por ejemplo, el estadstico de
Wald).

A continuacin, mostraremos la formulacin de los modelos de regresin


logstica multinomial, as como los contrates aplicados sobre este modelo y la
inferencia. Toda esta teora se puede ver en el libro de Aguilera, A. (26).

2.1. Formulacin e Interpretacin del modelo

2.1.1. Formulacin
Para los modelos de regresin logstica binaria, si tenemos una variable
dependiente Y, que toma valores Y=1 (presencia de una caracterstica u otra categora
de la variable) y Y=0 (ausencia de la caracterstica o la otra categora de la variable),
la ecuacin de partida del modelo viene dada por:
[ = 1|] =

exp (0 + =1 )
1 + (0 + =1 )

donde [ = 1|] es la probabilidad de que Y tome el valor 1, en presencia de las


covariables X, que lo denotaremos por p(X).

X es un conjunto de n covariables {1 , 2 , , } que forman parte del modelo;

0 es la constante del modelo o trmino independiente y los son los coeficientes de

las covariables.

Esta ecuacin inicial del modelo es de tipo exponencial, pero se realiza su


transformacin logartmica (logit), dada por:

()
ln
= 0 +
1 ()
=1

De esta forma, se permite su uso como una funcin lineal y es de ms fcil


interpretacin.
Para el caso de que la variable dependiente presente ms de dos categoras,
como es nuestro caso, se utiliza el modelo de regresin logstica multinomial que se
modela, como se indic anteriormente, mediante varios logits simultneamente, uno
para cada una de las restantes categoras respecto a la categora de referencia que se
haya considerado de la variable dependiente.
Ejemplo: Tipos de depresin
La variable resultado tiene cinco categoras:
-

Sin depresin. (Categora de referencia).

Depresin mayor.

Depresin menor.

Otros tipos de depresin.

Ms de un tipo de depresin.

Se modelan cuatro logits simultneamente:


-

logit (depresin mayor / sin depresin | z)= a1 + b1 z

logit (depresin menor / sin depresin | z)= a2 + b2 z

logit (otros tipos de depresin / sin depresin | z)= a3 + b3 z

logit (ms de un tipo de depresin / sin depresin | z)= a4 + b4 z

La covariable z es comn en cada logit, pero se estiman coeficientes bi


diferentes para cada logit (incluso diferente constante, ai).
Veamos la formulacin de estos modelos de forma general.
Consideremos una variable de respuesta politmica Y con ms de dos
categoras de respuesta que denotaremos por Y1 , Y2 , , Yk .

Se pretende explicar la probabilidad de cada categora de respuesta en funcin

de un conjunto de covariables = {1 , 2 , , } observadas. Es decir, ajustar un


modelo de la forma

() = = Yj = = ()

= 1, ,

para cada vector x de valores observados de las variables explicativas X.


En el caso de una variable de respuesta binaria, su distribucin condicionada a
cada combinacin de valores observados de las covariables sigue una Bernouilli.

Cuando la variable de respuesta es politmica, la distribucin de Bernouilli se convierte


en una distribucin multinomial de parmetros las probabilidades de cada una de las
categoras de respuesta. Es decir, (Y/X = x) M(1; p

1(x),

. . . , pk(x)), siendo

=1 () = 1.

As que para obtener un modelo lineal, obtendremos transformaciones logit


2

para comparar cada par de categoras de la variable respuesta, que sera de este tipo:
()

()

+ ()
()

ln
= ln (), , = 1, , ( )
()

() + ()

que representan el logaritmo de la ventaja de respuesta Yi frente a Yj condicionado a

las observaciones de las variables independientes que caen en uno de ambos niveles.
Pero para construir el modelo logit de respuesta multinomial bastara con considerar (k
1) transformaciones logit bsicas, definidas con respecto a una categora de

referencia. Tomando como categora de referencia la ltima Yk . As las


transformaciones logit generalizadas se definen como () = ln

1, , 1 ,

()

()

siendo () el logaritmo de la ventaja de respuesta Yj dado que las

observaciones de las variables independientes caen en la categora Yj o en la Yk .

El modelo lineal para cada una de las transformaciones logit generalizadas,

para n variables explicativas, es de la siguiente forma:

() = = = 1, , 1
para

cada

vector

de

=0

valores

x= (0 , 1 , 2 , , ) con 0 = 1

asociado a la categora Yj .

observados

de

las

variables

explicativas

y = (0 , 1 , , ) el vector de parmetros

Para las probabilidades de respuesta, podemos escribir el modelo de la

siguiente forma:
() =

exp=0

1 + 1
=1 exp=0

() =

1+

= 1, , . 1

1
=1 exp (=0 )

10

Demostracin:
1

=1

=1

=1

()
1 ()
= exp ( )
= exp

()
()

As que tenemos: () =

1+1
=1 exp (=0 )

Por tanto, tambin obtenemos:


() =

exp=0

1 + 1
=1 exp=0

= 1, , . 1

O equivalentemente, podemos obtener de ambas expresiones, una expresin


reducida del modelo:
() =

exp=0

=1 exp=0

siendo = 0 = 0,1, ,

= 1, ,

2.1.2. Interpretacin del modelo


A continuacin mostramos la interpretacin de los parmetros del modelo, pero
distinguiendo los casos segn de qu tipo son las variables explicativas, cuantitativas
o cualitativas.

Una variable predictora cuantitativa X.

Si en el modelo tenemos slo una nica covariable cuantitativa X, el modelo


para cada valor observado x de la variable X viene dado por:
() = + ,

= 1, , 1

A continuacin mostramos la exponencial de los parmetros asociados a

cada categora de la variable dependiente, que se interpreta en trminos de cocientes


de ventajas (odds ratio):
( + 1)
( + 1) exp ( + ( + 1))
( = 1) =
=
= exp = 1, , 1
()
exp ( + )
()

11

( = 1) es el cociente de ventajas de respuesta frente a la ltima categora,

cuando aumenta en una unidad la variable X.

Ms de una variable predictora cuantitativa.

Para el modelo logit generalizafo mltiple, los cocientes de ventajas se definen


incrementando una de las variables y controlando fijas las dems.
[ = / = + 1, = , ]
[ = / = + 1, = , ]
( = 1 / = , ) =
= exp
[ = / = , = , ]
[ = / = , = , ]
= 1, , 1

siendo ( = 1 / = , ) el cociente de ventajas de respuesta frente a la

ltima categora, cuando aumenta en una unidad la variable y las dems se

controlan fijas.

Variables predictoras categricas.

Si se incluyen en el modelo variables independientes categricas, se introducen


mediante sus variables del diseo asociadas (variables dummies).
Supongamos que tenemos la variable categrica A con categoras 1 , , . Si

de esta variable realizamos la transformacin a variables de diseo mediante el


mtodo parcial que asigna un uno a la variable asociada a cada categora y un cero al
resto, y tomando como categora de referencia la primera, obtenemos p-1 variables

que las denotamos como


(m=2,, p).

As que el modelo de regresin logstica multinomial generalizado que

obtenemos sigue siendo un modelo lineal, como en los casos anteriores, para cada
logit generalizado en funcin de esas variables de diseo procedentes de la variable A
y viene dado por:
/

= ln
= 0 +

= 1, , ; = 1, , 1

=2

siendo = [ = = ], la probabilidad de respuesta en la categora .

Tambin podemos definir el modelo como: / = 0 + = 1, , ; =

1, , 1

12

siendo 1 = 0, = 1, , 1.

Este modelo en trminos de cocientes de ventajas viene dado por:

exp (0 + )

=
=
= exp = 1, , 1,
1
exp (0 )
1

= 2, ,

que es el cociente de ventajas de respuesta frente a la ltima para la categora

de A respecto a la primera categora 1 .

2.1.3. Otros aspectos a tener en cuenta sobre las variables


Para seleccionar el conjunto de variables predictoras que se incluyen en el
modelo, los criterios a seguir son:
Incluir todas aquellas variables que se consideren clnicamente importantes
para el modelo, independientemente de si se ha demostrado o no significacin
estadstica en un anlisis univariado previo, ya que puede conducir a dejar de incluir
en el modelo covariables con una dbil asociacin a la variable dependiente en
solitario pero que podran demostrar ser fuertes predictores de la misma al tomarlas en
conjunto con el resto de covariables. Aunque se aconseja incluir toda variable que en
un anlisis univariado previo demostrara una relacin con la variable dependiente (27).
Con estos criterios debemos de conseguir obtener un modelo que sea lo ms
reducido posible que explique los datos (principio de parsimonia), y que adems sea
clnicamente congruente e interpretable. Posiblemente un mayor nmero de variables
en el modelo implicara mayores errores estndar.
Cuando se obtienen seleccionadas todas las covariables para ser incluidas en
el modelo, se debe proceder a obtener el modelo ms reducido que siga explicando
los datos. Para ello se puede recurrir a mtodos de seleccin paso a paso, bien
mediante inclusin, hacia adelante, o por eliminacin, hacia atrs, o a la seleccin de
variables por mejores subconjuntos de covariables. Estos mtodos se encuentran
implementados en la mayora de los paquetes estadsticos y se describen
posteriormente.
Otro aspecto a tener en cuenta para elegir el nmero de covariables a incluir en
un modelo de regresin logstica es, el tamao muestral. Ya que modelos
excesivamente grandes para muestras con tamaos muestrales relativamente
pequeos podran provocar errores estndar grandes o coeficientes estimados

13

falsamente muy elevados (sobreajuste). Por lo que se suele recomendar, que por cada
covariable se cuente con un mnimo de 10 individuos por cada categora de la variable
dependiente con menor representacin. Por ejemplo, si la variable dependiente Y es
dolor y en los datos hay 120 sujetos con dolor y 36 sujetos sin dolor, la categora de
Y menos representado es sin dolor, con 36 sujetos; de esta forma el modelo no
debera contener ms de 36/10 ~ 3 4 covariables (27).
Tambin otra cuestin a tener en cuenta de los modelos de regresin logstica,
es la inclusin de factores de interaccin, para estudiar cmo la asociacin de dos o
ms covariables puede influir en la variable dependiente. Estas interacciones pueden
ser de primer orden (tomadas las covariables dos a dos o de mayor orden, pero estas
ltimas suelen ser de difcil interpretacin). Las interacciones se incluyen siempre que
sean interpretables y tengan significado desde el punto de vista clnico. Si en un
modelo se incluye una interaccin de dos o ms covariables, stas deben de estar
incluidas tambin en el modelo de forma aislada (principio jerrquico) (28).
Por otra parte hay que tener en cuenta que la inclusin de interacciones puede
generar multicolinealidad, tanto ms probable cuanto mayor sea el nmero de
interacciones (29).

2.2. Mtodos

de

estimacin.

Estimacin

por

mxima verosimilitud

Para la estimacin de los coeficientes del modelo y de sus errores estndar se


utiliza la estimacin por mxima verosimilitud, es decir, estimaciones que hagan
mxima la probabilidad de obtener los valores de la variable dependiente y
proporcionados por los datos de la muestra. Al contrario de lo que ocurre con la
estimacin de los coeficientes de regresin lineal mltiple que se utiliza el mtodo de
los mnimos cuadrados, los clculos para las estimaciones de los coeficientes de la
regresin logstica multinomial no son directos, hay que llevar a cabo mtodos
iterativos, como el mtodo de NewtonRaphson.
Al aplicar estos mtodos adems de obtener las estimaciones de los
coeficientes de regresin, se obtienen sus errores estndar y las covarianzas entre las
covariables del modelo.

14

A continuacin describimos el mtodo de estimacin de mxima verosimilitud


para el clculo de los coeficientes de nuestro modelo de regresin logstica
multinomial.
Supongamos que disponemos de una muestra aleatoria de tamao N con Q
combinaciones diferentes de valores de las variables explicativas X1 , , X n. Denotemos

cada

combinacin

de

valores

de

las

variables

explicativas

por

= 0 , 1 , , 0 = 1 = 1, , . En cada una de estas combinaciones


se tiene una muestra aleatoria de observaciones independientes de la variable de

respuesta politmica Y, de entre las cuales denotamos por al nmero de


observaciones que caen en la categora de respuesta j = 1, . . . , k.
As que, se verifica que =1 =
=1 = .
Los

vectores

probabilidad

1 , = 1, ,

multinomiales

siguen

una

distribucin

independientes, ( ; 1 , , ) ,

= = y verificando que =1 = 1

de

siendo =

Por tanto, la funcin de verosimilitud de los datos viene dada por:

=
=1

=1 !
=1

As que el ncleo de la log-verosimilitud es: =


=1 =1 ln ( )

Normalmente, en vez de utilizar la funcin de verosimilitud se utiliza la siguiente

funcin auxiliar:
= 2ln ()

Por lo que el problema de maximizar la verosimilitud equivale al de minimizar


esta funcin auxiliar (26,30).
Teniendo en cuenta la ecuacin del modelo logit generalizado multinomial, y
sustituyendo en la expresin anterior, obtenemos la siguiente expresin del ncleo de
la log-verosimilitud:

=0

=1

=1

=1

=0

= ln exp
=1 =1

= ln exp
=1 =1

=1

=0

15

=1

=0

Derivando respecto de los parmetros:

=1

=1

exp =0

=1 exp=0

As, obtenemos las ecuaciones de verosimilitud con forma matricial:

(1) = ((+1))

(1) = 1, , 1,
((+1))

siendo = 1 , ,
=
1 , ,

con
la frecuencia esperada

de respuesta en la combinacin de valores observados de las variables

predictoras, estimada bajo el modelo y definida como


= .

Para obtener los estimadores de mxima verosimilitud hay que resolver k-1

sistemas de n+1 ecuaciones no lineales. As que para resolverlo utilizamos el mtodo


iterativo de Newton-Raphson.

matriz

Con este mtodo obtenemos el estimador de los parmetros b , que es una


de

dimensin

(n+1)x(k-1)

formado

por

las

siguientes

columnas:

b = (b 1 , b 2 , , b k1 ) siendo b j el estimador de mxima verosimilitud del vector de

parmetros asociado a la categora de la variable respuesta .

A continuacin obtendremos la matriz de covarianzas de b , que es la inversa de

la matriz de informacin de Fisher.

Calculemos primero la matriz de covarianzas de cada vector de parmetros .

Para ello hay que calcular las derivadas segundas de K con rs:

exp=0 =1 =0 =0
2
=
2

exp
=1

=1

As que la matriz de covarianzas viene dada por:


1

2
=

=0

= 1

Calculamos ahora las matrices de covarianzas cruzadas entre cada par de


estimadores y ( ). Para ello se calculan las siguientes derivadas segundas de

K con rs y ji.

exp=0 =0
2
=
2

exp
=1

=1

=0

Dando lugar a la siguiente expresin de la matriz de covarianzas:

16

, =

Finalmente, tenemos que la matriz de covarianzas del estimador b es:

Cov1
Cov1 , 2

Cov2

b = Cov1 , 2

Cov1 , 1 Cov2 , 1

Cov1 , 1
Cov2 , 1

Cov1

2.3. Bondad de ajuste del modelo


2.3.1.Contrastes de bondad de ajuste del modelo
Uno de los primeros indicadores de importancia para apreciar el ajuste del
modelo logstico multinomial es el doble logaritmo del estadstico de verosimilitud
(likelihood), que veremos posteriormente. Se trata de un estadstico que sigue una
distribucin similar a 2 (31).
Sea yjq el nmero de observaciones que caen en la categora de respuesta Yj

j = 1, . . . , k. y sean las dq observaciones correspondientes a la q-sima combinacin


de valores de las variables explicativas.

Denotamos por m
jq la frecuencia esperada de respuesta Yj en la combinacin

xq de valores observados de las variables predictoras, estimada bajo el modelo y

definida como m
jq = dq p jq .

As que para contrastar la bondad del ajuste global del modelo cuando el

nmero de observaciones en cada combinacin de valores de las variables


explicativas es grande se utiliza el estadstico chi-cuadrado de Pearson y el estadstico
de Wilks de razn de verosimilitudes.
El test global de bondad de ajuste del modelo de regresin logstica multinomial
mltiple contrasta el siguiente contraste de hiptesis:
0 : =

exp=0

1 + exp=0

1 :

= 1, . . , ; = 1, ,

exp=0

1 + exp=0

17

2.3.1.1. Test chi-cuadrado de Pearson


El estadstico chi-cuadrado de Pearson de bondad de ajuste a un modelo de
regresin logstica multinomial, M de la forma anterior viene dado por:
X

2 (M)

yjq dq p jq
=
dq p jq
q=1 j=1

siendo p jq la estimacin por mxima verosimulitud de pjq .

Este estadstico tiene distribucin asinttica chi-cuadrado con grados de

libertad obtenidos como la diferencia entre el nmero de parmentros pjq y el nmero

de parmetros independientes en el modelo, Q-(n+1)x(k-1). Es decir, X 2 (M)


d

2Q(n+1)x(k1) , dq .

As que se rechaza la hiptesis nula con un nivel de significacin cuando

X 2 (M)Obs 2Q(n+1)x(k1); . O equivalentemente podemos definir el p-valor del


contraste como la probabilidad acumulada a la derecha del valor observado: pvalor=P[X 2 (M) X 2 (M)Obs ], se rechaza la hiptesis nula cuando p-valor.
2.3.1.2. Test chi-cuadrado de razn de verosimilitudes. Estadstico de
Wilks. Devianza
El estadstico de Wilks de razn de verosimilitudes para el contraste de bondad
de ajuste del modelo de regresin logstica multinomial M se obtiene como menos dos
veces el logaritmo del cociente entre el supremo de la verosimilitud bajo la hiptesis
nula y el supremo de la verosimilitud en la poblacin. A partir de esta expresin
operando se obtiene la expresin de este estadstico que viene dada por:
G

2 (M)

= 2 ln
q=1 j=1

Este estadstico tiene distribucin asinttica chi-cuadrado con grados de


libertad la diferencia entre la dimensin del espacio paramtrico y la dimensin de este
espacio bajo la hiptesis nula. Para un modelo de regresin logstica multinomial los
grados de libertad es la diferencia entre el nmero de parmetros pjq y el nmero de
parmetros bajo el modelo, es decir, Q(n+1)x(k-1) grados de libertad G2 (M)
d

2Q(n+1)x(k1) , dq .

18

As que se rechaza la hiptesis nula con un nivel de significacin cuando


G2 (M)Obs 2Q(n+1)x(k1);. O equivalentemente cuando p-valor=P[G2 (M) G2 (M)Obs ]
.

Al estadstico de Wilk, G2 (M), se le denomina devianza.


2.3.2. Calidad del ajuste
Adems de los contrastes que hemos visto anteriormente, podemos calcular
otras medidas que nos dan informacin sobre la calidad del modelo, al igual que en la
regresin lineal que se utiliza la medida de R2.
En los modelos de regresin logstica binaria, la calidad del ajuste se mide
mediante coeficientes de determinacin conocidos como Pseudo-R2, para la regresin
logstica multinomial tambin se utilizan estos coeficientes. De entre todos los que
existen, los ms usados son el de Mc-Fadden, el de Cox-Snell y el de Nagelkerke.
Veamos cmo se calculan cada uno de ellos (24,26).

2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden.


Si tenemos = 2ln (), identificamos por 0 el valor inicial de esta funcin, es

decir el mnimo bajo el modelo nulo dado slo por un trmino constante y por el
mnimo de bajo el modelo ajustado con todos los parmetros, obtenemos la
siguiente expresin del pseudo-R2 de Mc-Fadden:

= 1 .
0

2
Siendo su rango terico de valores 0
1, pero muy raramente su valor

2
se aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 02

04 y excelente para valores superiores.

2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell.


En este caso se utiliza directamente la funcin de verosimilitud V, y no la
funcin auxiliar . Por lo que si denotamos por V0=exp(- 0 /2) el mximo de

verosimilitud bajo el modelo nulo dado slo por un trmino constante y por Vf=exp( /2) el mximo de verosimilitud bajo el modelo ajustado con todos los parmetros,
definimos el coeficiente pseudo-R2 de Cox-Snell como:

19

0
0
= 1 = 1 exp

2
El rango terico de valores para el coeficiente es 0
1 0 , lo que le

hace poco interpretable al depender de 0 . Ya que puede ser prximo a cero cuando

hay pocos datos. Por ello es preferible utilizar el siguiente coeficiente como medida de
bondad de ajuste.

2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke.

Viene dado por la siguiente expresin:

2 =

2
0

0
1 exp

1 exp 0

Y en este caso, su rango de valores es 0 2 1 , por lo que puede

interpretarse del mismo modo que el coeficiente de determinacin de la regresin


lineal clsica, aunque es ms difcil que alcance valores cercanos a 1.

Por ltimo decir que, para comparar modelos de regresin logstica multinomial
con diferente nmero de variables predictoras suelen introducirse coeficientes PseudoR2 ajustados. El ms conocido es el de Mc-Fadden, definido como:
2

=1

0.5 ++1
0.5 0 +1

, siendo n el nmero de variables predictoras.

2.3.3. Tasa de clasificaciones correctas


Para cuantificar la bondad del ajuste global del modelo se dispone tambin de
otra medida como es la tasa de clasificaciones correctas. Es decir, a partir del modelo
ajustado, se clasifica cada observacin en la categora ms probable, construyendo
as una matriz de clasificacin observados-predichos y se utiliza el porcentaje de
clasificaciones correctas como una medida de la calidad de prediccin, del mismo
modo que se hace en el anlisis discriminante (24). Se define como la proporcin de
individuos clasificados correctamente por el modelo y se calcula como el cociente
entre el nmero de observaciones clasificadas correctamente y el tamao muestral N.
Un individuo es clasificado correctamente por el modelo cuando su valor observado de
la variable respuesta Y (Y1 , Y2 , , Yk ) coincide con su valor estimado por el modelo.
20

2.4. Contrastes sobre los parmetros del modelo


Adems de construir el modelo y ajustarlo y habiendo obtenido las
estimaciones, el siguiente paso ser comprobar la significacin estadstica de cada
uno de los coeficientes de regresin en el modelo. Para ello se pueden emplear
bsicamente dos mtodos para los modelos de regresin logstica multinomial: el
estadstico de Wald y el estadstico condicional de razn de verosimilitud.
As que nos planteamos contrastar si un subconjunto de los parmetros del
modelo de regresin logstica multinomial, que denotaremos por = (1 , , ), es
nulo. As que nos planteamos el contraste de hiptesis:
0 : = 0

1: : 0

Veamos los dos tipos de contrastes mencionados anteriormente que se utiliza


para contrastar esta hiptesis.

Contrastes de Wald.

Se basan en la normalidad asinttica de los estimadores de mxima


verosimilitud.
El estimador de mxima verosimilitud de , , tiene distribucin normal

() obtenida a partir de la
asinttica de media y matriz de covarianzas estimada

matriz de covarianza b . As que el estadstico de Wald presenta la forma


1 , que tiene distribucin chi-cuadrado asinttica con r grados
cuadrtica:

de libertad (nmero de parmetros nulos bajo la hiptesis nula).

As que se rechaza la hiptesis nula al nivel de significacin cuando el valor

observado de este estadstico sea mayor o igual que el cuantil de orden (1- ) de la
distribucin 2 .

Su valor para un coeficiente concreto viene dado por el cociente entre el valor

del coeficiente y su correspondiente error estndar. Es decir si se quiere contrastar:


0 : = 0

1: : 0

21

el estadstico ser: = 2

que tiene distribucin chi-cuadrado asinttica con un

grado de libertad. As que se rechaza la hiptesis nula con nivel de confianza 1- si

2
1;

Es decir, la obtencin de significacin indica que dicho coeficiente es diferente

de 0 y merece la pena su conservacin en el modelo.


En modelos con errores estndar grandes, el estadstico de Wald puede
proporcional falsas ausencias de significacin. Tampoco es recomendable su uso si se
estn empleando variables de diseo. En estos casos se recomienda el uso del test de
razn de verosimilitudes (27).

Contrastes condicionales de razn de verosimilitud

Se trata de ir contrastando cada modelo que surge de eliminar de forma aislada


cada una de las covariables frente al modelo completo. La ausencia de significacin
implica que el modelo sin la covariable no empeora respecto al modelo completo (es
decir, da igual su presencia o su ausencia), por lo que segn la estrategia de
obtencin del modelo ms reducido (principio de parsimonia), dicha covariable debe
ser eliminada del modelo ya que no aporta nada al mismo.
Supongamos que tenemos un modelo de regresin logstica multinomial MG
que se ajusta bien y se desea contrastar si un subconjunto de parmetros, =
(1 , , ), son nulos. Sea MP el modelo con ese subconjunto de parmetros ceros.
As que MP est anidado en el modelo genral MG. As que planteamos el contraste:
0 : = 0 (MP se verifica)

1: : 0 (asumiendo cierto MG)

Si asumimos que MG se verifica, el estadstico del test de razn de


verosimilitudes para contrastar si MP se verifica es: G2(MP|MG) = - 2(LP-LG)=G2(MP)G2(MG), siendo LP y LG los mximos de la log-verosimilitud bajo la suposicin de que
se verifican los modelos saturados, MP y MG, respectivamente. Es decir, el test de
razn de verosimilitud para contrastar dos modelos anidados es la diferencia de los
contrastes de razn de verosimilitudes de bondad de ajuste para cada modelo.
El estadstico G2(MP|MG) tiene distribucin chi-cuadrado con grados de libertad
la diferencia entre los grados de libertad de las distribuciones chi-cuadrado asintticas
de G2(MP) y G2(MG), es decir, el nmero de parmetros que se anulan para H0, r.

22

As que se rechaza la hiptesis nula al nivel de significacin cuando


G2obs(MP|MG)

2
;
.

2.5. Inferencia en regresin logstica multinomial

Lo principal que se pretende cuando se realiza un modelo estadstico a travs


de los datos procedentes de una muestra, es extrapolar los resultados muestrales a la
poblacin general, es por ello que para nuestro caso particular de haber estimados los
parmetros del modelo de regresin logstica multinomial, pretendemos hacer
inferencia.

Intervalos de confianza
Basndonos en la normalidad asinttica de los estimadores de mxima
verosimilitud se pueden construir intervalos de confianza asintticos para cada uno de
los parmetros del modelo, utilizando la distribucin normal, y mediante las
transformaciones correspondientes, intervalos de confianza para las odds ratio.
-

Intervalos de confianza para los parmetros

Construimos un intervalo de confianza con nivel de confianza 1- para cada


parmetro del modelo de regresin logstica multinomial, con j=1,,k. La
distribucin asinttica de es , 2 , donde es el valor

correspondiente al error estndar del estimador del parmentro .


As que tenemos que: [2

2 ] = 1 . Por lo que obtenemos

as el intervalo de confianza aproximado para al nivel 1 :


= 2

Intervalos de confianza para las odds ratio

Sabemos que los cocientes de ventajas vienen dados por:


( = 1 / = , ) = exp = 1, ; = 1, , 1

23

Por lo tanto, el intervalo de confianza para los cocientes de ventajas se calcula


tomando exponenciales en el intervalo de confianza obtenido anteriormente para cada
uno de los parmetros . As que el intervalo de confianza para exp al nivel de
confianza 1 , viene dado por:

exp = exp 2

2.6. Mtodos de seleccin del modelo

Una vez conocido el procedimiento de ajuste de modelos de regresin logstica


multinomial, el siguiente paso es el desarrollo de estrategias para seleccionar las
variables que mejor explican a la variable de respuesta. Para ello se adoptar el
principio de parsimonia que consiste en seleccionar el modelo que con menor nmero
de parmetros se ajuste bien a los datos y lleve a una interpretacin sencilla en
trminos de cocientes de ventajas.
Hay que tener especial atencin a las covariables cualitativas que se
transforman en varias variables dummies. Siempre que se incluya o excluya una de
estas variables, todas las dems categoras deben ser incluidas o excluidas en bloque.
Si no se tiene en cuenta esta consideracin, implicara que se habra recodificado la
variable, y por tanto la interpretacin de la misma no sera la correcta. Adems, hay
que tener en cuenta la significacin que pudiera tener cada variable dummy. No
siempre todas las categoras de una covariable son significativas, o todas no
significativas. Por lo que, cuando ocurra esta situacin es recomendable contrastar el
modelo completo frente al modelo sin la covariable mediante la prueba de razn de
verosimilitud, decidiendo incluir o excluir la covariable dependiendo del resultado de la
prueba y del inters clnico de la covariable. Si se obtiene significacin en este
contraste, la variable permanecera en el modelo, si no se obtiene significacin y la
covariable es de inters clnico, su inclusin en el modelo es a criterio del investigador
(23,32).
A continuacin se describen diferentes mtodos para llegar a ajustar un modelo
(28,33).

24

2.6.1. Hacia adelante


1. Se inicia con un modelo vaco (slo la constante).
2. Se ajusta un modelo y se calcula el p-valor del contraste de razn de verosimilitud
que resulta de incluir cada variable por separado.
3. Se selecciona el modelo con el p-valor ms significativo.
4. Se ajusta de nuevo un modelo con la(s) variable(s) seleccionada(s) y se calcula el
p-valor de aadir cada variable no seleccionada anteriormente por separado.
5. Se selecciona el modelo con el ms significativo.
6. Se repite 4 - 5 hasta que no queden variables significativas para incluir.

2.6.2. Hacia atrs


1. Se inicia con un modelo con todas las variables candidatas.
2. Se eliminan, una a una, cada variable y se calcula la prdida de ajuste al eliminar.
3. Se selecciona para eliminar la menos significativa.
4. Se repite 2 3 hasta que todas las variables incluidas sean significativas y no pueda
eliminarse ninguna sin que se pierda ajuste.

2.6.3. Stepwise
En este mtodo se combinan los mtodos adelante y atrs. Puede empezarse
por el modelo vaco o por el completo, pero en cada paso se exploran las variables
incluidas, por si deben salir y las no seleccionadas, por si deben entrar. Pero no todos
los mtodos llegan a la misma solucin necesariamente. El mtodo de stepwise, est
basado en contrastes condicionales de razn de verosimilitudes.
Si partimos del modelo vaco, slo con la constante, este mtodo consiste en
partir de ese modelo inicial, y en cada paso se ajustarn todos aquellos modelos que
resultan de incluir cada una de las variables explicativas que no estn en el modelo
seleccionado en el paso anterior. Entonces se llevan a cabo contrastes condicionales
de razn de verosimilitudes que tienen en la hiptesis nula el modelo seleccionado en
el paso anterior y en la hiptesis alternativa el modelo resultante de la inclusin de
cada variable. De este modo se seleccionarn las variables para las que el contraste
sea significativo, y se incluira en el modelo aquella variable asociada al mnimo pvalor de entre todos los menores o iguales que 1. La inclusin de variables mediante

25

este mtodo contina hasta que ninguno de estos contrastes condicionales sea
significativo.
Por otra parte, a la misma vez, se considera en cada paso la posibilidad de
eliminar alguno de los parmetros del modelo seleccionado en el paso anterior
(mtodo hacia atrs). Pero no se puede eliminar en un paso la variable que acaba de
entrar en el paso anterior, por lo que se fijar para la eliminacin de variables un nivel
de significacin 2 mayor que 1. Al igual que antes, para la eliminacin de variables
se realizarn contrastes condicionales de razn de verosimilitudes que tienen en la
hiptesis nula el modelo que resulta de la eliminacin de cada variable y en la
hiptesis alternativa el modelo seleccionado en el paso anterior. As, las variables
candidatas a eliminar sern aquellas cuyo p-valor sea mayor de 2 y se eliminar la
variable con el mayor p-valor de stos. La eliminacin de variables contina hasta que
todos estos contrastes condicionales resulten significativos.
As finalmente, se llegar a un paso en el que ninguno de los contrastes
condicionales de introduccin de variables sean significativos y todos los de
eliminacin de variables sean significativos.

2.7. Validacin del modelo


Una vez utilizado el Test de chi-cuadrado de Pearso X2, o el test de chicuadrado de razn de verosimilitudes G2, se debe estudiar la bondad del ajuste de
cada observacin, para comprobar si una observacin es influyente o no. Para ello una
de las tcnicas para estudiar esta cuestin es el estudio de los residuos que comparan
el nmero observado de xitos, en cada combinacin de valores de las variables
predictoras, con su valor ajustado por el modelo. Veamos a continuacin los tipos de
residuos ms habituales basndose en los estadsticos X2 y G2, que se definen en
cada combinacin de valores xq de las variables explicativas.

2.7.1. Residuos de Pearson o residuos estandarizados.


Vienen dado por la siguiente expresin: / =

jq
yjq dq p
1

jq 2
dq p

Con esta expresin, podemos definir el estadstico chi-cuadrado de Pearson


como:

2
2 =
=1 =1 / .

26

Para contrastar la significacin estadstica de los residuos planteamos el


contraste:
0 : / = 0

1: : / 0

Bajo la hiptesis nula rj/q tiene una distribucin asinttica normal con media

y varianza estimada
2 (rj/q ) <1, es decir que los residuos tienen menor

cero

variabilidad que una variable aleatoria estndar, pero suelen ser tratados como

normales estndar, considerndose significativos cuando sus valores absolutos son


mayores que dos (falta de ajuste).
Para evitar este problema se definen los residuos de Pearson ajustados que
presentan distribuciones asintticas normales estndar y vienen dados por:

/
=

(rj/q )

Tambin se puede tomar el cuadrado de que tiene distribucin chi-cuadrado

con un grado de libertad.

As que se rechaza la hiptesis nula con un nivel de significacin cuando

|
|/

2 .

2.7.2.

Residuos de la devianza o residuos estudentizados.


Se definen como:

dj/q

2
yjq
= 2 yjq ln

m
jq

Con esta expresin podemos definir el estadstico de chi-cuadrado de razn de


Q

verosimilitudes como: G2 = q=1 kj=1 d2j/q .

Igual que en el caso anterior, bajo la hiptesis nula 0 : / = 0 el residuo /

tiene distribucin asintticamente normal con media 0 y varianza estimada


2 (dj/q )<1.

En este caso, se consideran significativos cuando el valor absoluto es mayor que 4, y


se considera que la observacin correspondiente es anormal.

Al igual que antes, se definen los residuos de la devianza ajustados o


estandarizados

27


/
=

(dj/q )

que tiene distribucin asinttica normal estndar.

As que rechazamos la hiptesis nula con un nivel de significacin cuando

|/
| 2 .

La diferencia entre los dos tipos de residuos es que los de la devianza

convergen ms rpidamente a la distribucin normal que los de Pearson.

28

CAPTULO 3:

FUNCIONES Y COMANDOS CON R

29

En este captulo se describir el software elegido para realizar todo el anlisis


estadstico que posteriormente se llevar a cabo en la aplicacin con nuestros datos
reales. Este software que se utilizar es el paquete R y R-commander, concretamente
la versin 2.11.1. De este software destaca principalmente los siguientes aspectos
para tener argumentos suficientes de su utilizacin: sus bondades en lo que se refiere
a calidad, a la cantidad de tcnicas y funciones implementadas, a que es libre y a la
gran comunidad cientfica que lo usa como estndar para el anlisis de datos.
R es un lenguaje de programacin y un entorno para anlisis estadstico y la
realizacin de grficos. Tiene la ventaja de que es fcilmente adaptable a una gran
variedad de tareas. R abarca una amplia gama de tcnicas estadsticas que van desde
los modelos lineales a las ms modernas tcnicas de clasificacin pasando por los test
clsicos y el anlisis de series temporales. Proporciona una amplia gama de grficos,
que son fcilmente adaptables y extensibles. La calidad de los grficos producidos y la
posibilidad de incluir en ellos smbolos y frmulas matemticas, posibilitan su inclusin
en publicaciones que suelen requerir grficos de alta calidad.
R fue inicialmente escrito por Robert Gentleman y Ross Ihaka del
Departamento de Estadstica de la Universidad de Auckland en Nueva Zelanda.
Actualmente, R es el resultado de colaboraciones de personas de todo el mundo. En
1997 se form el ncleo de desarrollo de R, que actualmente es el que tiene la
posibilidad de modificacin directa del cdigo fuente.
El cdigo de R est disponible como software libre bajo las condiciones de la
licencia GNU-GPL. La pgina principal del proyecto es http://www.r-project.org. Para
poder instalar R desde la pgina oficial del Proyecto R, (34), se deben de seguir las
instrucciones segn la plataforma sobre la que se desea instalarlo. Adems de instalar
el software bsico, se pueden instalar otros paquetes y consultar la documentacin,
donde se encuentran manuales, libros, etc.

30

3.1.Primeros pasos con R


Para conocer unas nociones bsicas sobre el manejo de R, se recomienda para
una iniciacin con R el libro de Arriaza et al. (3).
Aqu mostramos la consola de R y la interfaz de R-Commander.

31

A diferencia de otros programas estadsticos, en R se utilizan comandos, por lo


que la entrada de los anlisis se realiza mediante texto y los resultados que devuelve
el programa, aparecen tambin en la consola en formato de texto. Con R-Commander,
en el cual se eligen, desde el men que aparece en la interfaz, todos los anlisis que
realiza el programa y a medida que se van seleccionando aparecen cuadros de
dilogos para poder seleccionar las opciones que te convengan. El resultado de los
anlisis, al igual que en R, aparece en la consola como texto. Ms adelante
aparecern ejemplos donde se muestre las entradas y salidas de los anlisis tanto en
R como en R-Commander.
A continuacin se detallarn todas las rdenes que formarn parte del anlisis
que llevaremos a cabo en este trabajo, que corresponder a anlisis descriptivos,
anlisis bivariantes para conocer relaciones entre dos variables y los modelos
logsticos multinomial, incluyendo algunas funciones ms que se utilizarn para el
ajuste del modelo.

De cada una de las rdenes se describir tanto la forma de

realizarlas con R-Commander como con R, en sta ltima, de los comandos se


describirn las opciones que hay en el parntesis, es decir, cada uno de los
argumentos, as como cada salida que devuelve esa funcin. En el caso de que se
utilice algn anlisis que no se proporcione con una funcin existente en R, se
explicar las funciones o scripts que hay en R para su clculo o los que se haya
programado.
Todas las funciones que se mostrarn a continuacin se pueden consultar en el
centro de documentacin de R, accediendo a l simplemente escribiendo el comando
help y entre parntesis incluir el nombre de la funcin. Por ejemplo, si queremos ver
cmo funciona la funcin recode, que veremos ms adelante, introduciremos en la
consola

de

help(recode).

se

nos

abre

un

hipervnculo

(http://127.0.0.1:24454/library/car/html/recode.html) con la siguiente informacin:

32

Antes de comenzar a describir los comandos usados para el anlisis


estadstico, necesitamos tener una matriz de datos para poder realizar los anlisis, por
lo que esta matriz de datos o se crea nueva desde R o se importa desde otro soporte.
Si se importa desde otro soporte, que es nuestro caso, realizndolo con RCommander tenemos las siguientes opciones:

La orden equivalente en R es read.soporte del que se importa, en nuestro


caso, importamos los datos desde spps, por lo que sera, read.spss.
La sintaxis de esta orden es:
read.spss(file, use.value.labels = TRUE, to.data.frame = FALSE, max.value.labels
= Inf, reencode = NA, use.missings = to.data.frame)

33

Donde:

file: es el archivo de datos original que queremos importar, hay que escribir la
secuencia de la ubicacin del archivo y el nombre. (c:/Archivos de
programas/)

use.value.labels: convierte variables que en SPSS presentan etiquetas de


valores en factores de R con esos niveles. En R se le llama factores a las
variables de tipo cualitativa.

to.data.frame: devuelve la matriz de datos.

max.value.labels: indica si slo se convierten a factores aquellas variables con


etiquetas de valores.

reencode: valor lgico que permite decidir si las cadenas de caracteres


deberan ser recodificadas.

use.missings: valor lgico que indica si los valores perdidos por el usuario
deben asumirse como valores perdidos por la mquina.
Adems de estos argumentos, tambin se pueden incluir algunos ms que se

pueden ver en la ayuda de R.


A la base de datos que se importa utilizando el comando anterior, se le puede
asignar un nombre, por ejemplo en el caso de la aplicacin que se describe en este
trabajo se le denomina Datos.

Estos datos una vez cargados, se pueden visualizar, los cuales, aparecen en
una matriz de datos, denomina data.frame, cuyas filas son cada caso y las columnas
son las variables. Estas variables pueden ser tanto numricas o factores, que son
variables de tipo cualitativo. A continuacin se muestra un ejemplo del data.frame.

34

Tenemos que tener en cuenta que podemos querer recodificar alguna variable,
es decir, que no estn en la forma adecuada para realizar el anlisis. As con RCommander seleccionaramos Datos->Modificar variables de los datos activos>Recodificar variables.

En el cuadro de dilogo, como se ve a continuacin, se selecciona la variable o


variables que se desean recodificar, se les asigna un nuevo nombre y se seala si se
desea convertir la nueva variable en factor o no. En el cuadro de directrices de
recodificacin, hay que incluir las rdenes de la recodificacin que se explican a
continuacin.
-

Cada instruccin deber estar separada por punto y coma, de la forma


entrada=salida, donde la entrada es el valor antiguo y la salida el valor
nuevo a asignar al valor antiguo.

Si queremos recodificar un valor aislado, 0=NA.

Si queremos recodificar un vector de valores, para asignarles a todos un


mismo valor nuevo, c(1,2,3)=Bajo.

Para recodificar un rango de valores seguidos en un nico valor nuevo


4:10=Medio.

Para recodificar el resto de valores que anteriormente no se haya


especificado se usa else, por ejemplo else=Alto.

La sintaxis en R sera:
recode(var, recodes, as.factor.result, levels)

35

Donde:

var: vector numrico, vector de cadena o factor, que es la variable a recodificar

recodes: las instrucciones de la recodificacin.

as.factor.result: valor lgico que indica si se devuelve un factor.

levels: argumento opcional para especificar el orden de los niveles del factor
devuelto, por defecto el orden es el de los nombres del nivel.

En muchas ocasiones interesa estudiar slo un subconjunto de la poblacin de


la que se tiene los datos, por ejemplo seleccionar slo las mujeres, en el caso de que
se tengan datos de un estudio completo de una poblacin general. Para poder realizar
esta seleccin y realizar posteriormente los anlisis correspondientes slo a ese
subconjunto, se utiliza en R la orden subset:
subset(x, subset, select,)
Donde:

x: objeto del cual se quiere seleccionar el subconjunto.

subset: expresin lgica que indica los elementos o filas que se pretenden
seleccionar.

select: expresin que indica las columnas a seleccionar de la base de datos.

Cuando se utiliza esta funcin, se le asigna un nombre, ya que el resultado es una


nueva matriz de datos con las observaciones seleccionadas. Esta funcin tambin se
utiliza como un argumento dentro de otras funciones, para que se apliquen dichas
funciones slo en una parte de las observaciones de la matriz de datos.

Tenemos que tener en cuenta, que lo ms probable es que tengamos valores


perdidos en la matriz de datos, ya que es algo ocurrente sobre todo cuando se tiene
gran cantidad de datos de un estudio. En R a estos valores se le asigna el valor NA,
por lo que para los anlisis que se realicen con R, ste considera este valor y los tiene
en cuenta a la hora de tratarlos en sus anlisis.

36

3.2. Anlisis unidimensional

Para nuestro trabajo antes de realizar el anlisis estadstico para conocer la


relacin entre distintas variables, sobre todo con los tipos de depresin, y antes de
ajustar un modelo de regresin logstica multinomial, se realiza un anlisis descriptivo,
ya que es lo habitual en cualquier estudio para conocer las caractersticas bsicas de
los individuos o casos estudiados. El tipo de anlisis descriptivo a utilizar vara en
funcin de cmo sea la variable, si cualitativa o cuantitativa, y dentro de estos tipos si
son cuantitativas continuas, discretas, o cualitativa nominal u ordinal.
En nuestros datos tenemos variables tanto cualitativas como cuantitativas, por
lo que mostramos a continuacin las funciones para el anlisis descriptivo que se
utilizan segn el tipo de variable. Utilizaremos tambin grficos, que tambin variar el
tipo de grfico a utilizar dependiendo del tipo de variable.
Hay que decir que adems de las opciones para el anlisis descriptivo que
mostraremos a continuacin, tambin existen otras opciones que ofrece R, pero que
no entraremos en detalles, ya que slo mostraremos los que se usar posteriormente
en este trabajo. Para poder consultar ms detalladamente otros anlisis que ofrece R
se recomienda Arriaza et al., Crawley MJ, o Spector P. (1,3,34,35)

3.2.1

Variables cualitativas
Para dar un resumen de este tipo de variables, se calcula la distribucin de

frecuencias, donde se puede presentar tanto las frecuencias de cada categora como
el porcentaje.
El tipo de grfica que se puede utilizar sera un diagrama de sectores, o un
diagrama de barras.

Distribucin de frecuencias:

Para calcular la distribucin de frecuencias con R-Commander, se selecciona


Estadsticos -> Resmenes -> Distribucin de Frecuencia, y en el cuadro de
dilogo se eligen todas las variables que deseamos calcular su distribucin de
frecuencias. Las rdenes correspondientes en R son:

37

.Table<-table(Datos$V1)
100*.Table/sum(.Table)

Donde:

Datos: nombre de la base de datos.

V1: nombre de la variable.


El comando table, como se puede ver en la siguiente imagen, nos devuelve

en una tabla las frecuencias absolutas y con la segunda orden obtenemos los
porcentajes, ya que realiza el cociente de cada valor con el tamao total, que se
obtiene con la funcin sum.

Intervalos de confianza para la prevalencia

En el caso de que se calculen prevalencias de alguna variable, se puede incluir


el intervalo de confianza de dicha prevalencia, para su clculo usamos en R la funcin
prop.test, para comparar proporciones y que se describe a continuacin:
prop.test(x, n, p = NULL, alternative = c(two.sided,
less, greater), conf.level = 0.95, correct = TRUE)

Donde:

x: vector con la frecuencia de los xitos o una matriz con dos columnas dando
la frecuencia de los xitos y fracasos, respectivamente.

n: vector con la frecuencia de todos los ensayos, se ignora si x es una matriz.

p: vector con las probabilidades de xito. Debe estar comprendido entre 0 y 1.

alternative: especifica la hiptesis alternativa, que debe ser bilateral


two.sided, o unilateral, greater o less.

38

conf.level: nivel de confianza para el intervalo de confianza. Debe ser un


nmero entre 0 y 1.

correct: valor lgico para indicar si se aplica la correccin por continuidad de


Yates.
Esta funcin nos devuelve los siguientes valores: el estadstico del test de Chi-

cuadrado de Pearson, los grados de libertad de la aproximacin de la distribucin de


Chi-cuadrado del test, el p-valor del test, las proporciones de la variable y el intervalo
de confianza para una proporcin o para la diferencia de proporciones.

Diagrama de sectores:

Para la representacin grfica con el diagrama de sectores seleccionamos en


R-Commander Grficas->Grfica de sectores, y se elige la variable que se desea
representar. Pero con esta eleccin nos dibuja el grfico con las opciones por defecto
y no podemos por ejemplo cambiar el color de los sectores. As que a continuacin
mostramos la secuencia con R con todos sus argumentos, la funcin a utilizar es pie.
pie(x, labels = names(x), radius = 0.8, clockwise = FALSE, init.angle =
if(clockwise) 90 else 0, col = NULL, border = NULL, lty = NULL, main = NULL, ...)

Donde:

x: vector de cantidades no negativas cuyos valores se muestran en las reas


de las porciones del sector.

labels: etiquetas para las porciones.

radius: radio del sector, que puede comprender entre -1 y 1. Se puede reducir
si las etiquetas son muy largas.

clockwise: valor lgico que indica el sentido de giro del diagrama. Por defecto
es el sentido contrario a las agujas del reloj.

init.angle: nmero que especifica el ngulo inicial para la primera porcin,


medido en grados. Por defecto es 0 si se ha considerado el sentido contrario a
las agujas del reloj y 90 si se ha considerado el sentido de las agujas del reloj.

col: vector de colores que se desea usar para el relleno o la sombra del sector.
Si no aparece este argumento se fijan 6 colores pasteles.

border: color del borde (posiblemente vectores).

lty: tipo de lnea que se usar.

39

main: ttulo para el grfico.

Pueden introducirse ms argumentos que se pueden consultar en la ayuda de R.

Diagrama de barras:

Este tipo de grfica se puede usar tanto para variables cualitativas, como para
variables cuantitativas discretas o variables ordinales. Para realizar este grfico en RCommander seleccionamos Grficas->Grfica de barras y se elige la variable.
Pero al igual que con el diagrama de sectores y con todos los tipos de grficas,
aparecen las opciones por defecto. En R utilizamos para este grfico el comando
barplot:
barplot(height, width = 1, space = NULL, names.arg = NULL, legend.text = NULL,
beside = FALSE, horiz = FALSE, col = NULL, border = par(fg), main = NULL,
sub = NULL, xlab = NULL, ylab = NULL, xlim = NULL, ylim = NULL, log = , axes
= TRUE, inside = TRUE, plot = TRUE, axis.lty = 0, offset = 0, add = FALSE, ...)

Donde:

height: vector o matriz que describirn las barras que formarn el grfico. Si es
un vector, el grfico ser de barras rectangulares con alturas dadas por los
valores incluidos en el vector. Si es una matriz, dependiendo de si el
argumento beside es TRUE o FALSE, el grfico ser de barras apiladas o
juxtapuestas.

width: anchura de las barras.

space: el espacio a dejar a la izquierda de cada barra.

names.arg: vector de nombres que se quieren colocar bajo cada barra o grupo
de barras.

legend.text: vector de texto para construir una leyenda para el grfico o un


valor lgico para indicar si se debe incluir una leyenda. Slo se usa si height
es una matriz.

beside: valor lgico que indica si, las columnas de height se apilan, FALSE, o
aparecen en juxtaposicin, TRUE.

horiz: valor lgico para indicar que las barras estn en posicin vertical,
FALSE, u horizontal, TRUE.

40

col, border y main son argumentos explicados en la funcin pie.

sub: para aadir un subttulo al grfico.

xlab: una etiqueta para el eje x.

ylab: una etiqueta para el eje y.

xlim: lmites del eje x.

ylim: lmites del eje y.

log: para especificar si la escala de los ejes deben pasarse a logartmica.

axes: valor lgico que permite dibujar o no los ejes.

inside: valor lgico para dibujar o no las lneas de divisin de las barras cuando
estn no apiladas.

plot: valor lgico para que se muestre el grfico o no.

axis.lty: tipo de lnea deseada para los ejes.

offset: vector que indica cunto deben desplazarse las barras respecto del eje
x.

add: valor lgico que indica si las barras se aaden a un grfico previo.

Al igual que en el caso anterior, existen ms argumentos que no se han


especificado.

3.2.2. Variables cuantitativas continuas


Cuando la variable es cuantitativa, tanto discreta como continua lo ms habitual
es dar medidas de centralizacin, como la media o la mediana, las medidas de
dispersin, como la varianza o desviacin tpica, sta ltima es la que se suele usar
ms a menudo, o medidas de posicin, como, mnimo, mximo, cuartiles, percentiles o
deciles. En cuanto a los grficos, para las variables cuantitativas continuas se utiliza el
histograma, y para variables discretas el histograma tambin o ms recomendado el
diagrama de barras.

Resmenes numricos: media, desviacin tpica, cuartiles.

Con R-Commander, la opcin para obtener de una variables cuantitativa la


media, la desviacin tpica y los cuartiles que se deseen, es mediante la seleccin de
Estadsticos->Resmenes->Resmenes numricos, se seleccionaran todas las
variables deseadas a obtener sus descriptivos y se seleccionan los parmetros que se
deseen calcular, por defecto estn seleccionados todos. Tambin te permite obtener

41

los resultados por grupos, eligiendo una variable de agrupacin, que sera alguna
variable de tipo factor, mostrando los parmetros a calcular en cada grupo o factor.

La orden en R sera:
numSummary(Datos[,V1], statistics=c(mean, sd, quantiles),
quantiles=c(0,.25,.5,.75,1))

Donde

Datos: nombre de la base de datos.

V1: variable objeto de estudio

statistics: vector que indica los estadsticos a calcular. En este caso seran la
media (mean), la cuasi-desviacin tpica (sd) y los cuartiles (quantiles).

quantiles: vector que indica los cuartiles a calcular que por defecto calcula el
mnimo, el cuartil primero, la mediana, el cuartil tercero y el mximo.

Este comando devuelve la siguiente salida, mostrada con un ejemplo de nuestros


datos:

Como se puede observar, te demuestra dos valores ms adems de los


explicados anteriormente, n y NA, que indican el nmero de valores vlidos de la
variable y el nmero de valores perdidos, respectivamente.

42

Histograma

Desde R-Commander podemos dibujar un histograma seleccionando Grficas>Histograma, eligiendo en el cuadro la variable a representar grficamente, el
nmero de clase, que por defecto es automticamente y tambin se puede elegir la
escala de los ejes, o frecuencias, porcentajes o densidades.

Para realizar esta representacin con los comandos de R, se utiliza la funcin


hist, que presentamos a continuacin:
hist(x, freq = NULL, include.lowest = TRUE, right = TRUE, col = NULL, border =
NULL, main = paste(Histogram of , xname), xlim = range(breaks), ylim = NULL,
xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, ...)

Donde:

x: vector de valores de los que el histograma se representar.

freq: valor lgico que indica si el histograma se representa con frecuencias,


TRUE, o densidades de probabilidad, FALSE.

right: valor lgico para indicar si las celdas de los histogramas tienen los
intervalos cerrados por la derecha y abiertos por la izquierda.

col, border, main, xlab, ylab, xlim, ylim, axes son argumentos ya explicados en
los anteriores tipos de grficos.

plot: valor lgico, si es TRUE se muestra la grfica y si es FALSE se muestra


una tabla de frecuencia para cada intervalo de la variable.

labels: valor lgico o cadena para poder aadir etiquetas arriba de las barras.

Se pueden incluir ms opciones que no se muestran, se pueden consultar en la


ayuda de R.

43

3.3. Anlisis bidimensional

Una vez realizado un anlisis unidimensional de las variables que presenta una
base de datos, para conocer una descripcin de esas variables, es conveniente
realizar un anlisis de conjuntos de variables, para analizar relaciones entre distintas
variables, mostrando tanto sus descriptivos, as como realizar algn test estadstico
que te confirme o te niegue la relacin o el grado de relacin y la significacin
estadstica entre esas variables. En este apartado nos centraremos en el anlisis
conjunto de dos variables, es decir, el cruce de dos variables. Pero al igual que antes
con el anlisis unidimensional hay que tener en cuenta la naturaleza de las variables,
as como los objetivos del estudio para fijar las tcnicas estadsticas que se llevarn a
cabo. Podra existir la posibilidad de realizar un anlisis bivariante de todas las
variables estudiadas en el anlisis unidimensional, pero no es aconsejable, ya que el
nmero de anlisis que se realizaran sera enorme, y adems algunos de ellos no
tendran un inters prctico. Es por ello que el investigador, basndose en la literatura
y en la experiencia propia, es el que decide qu variables cruzar para obtener
relaciones entre ellas (3).
Detallaremos a continuacin las funciones que presenta R que utilizaremos con
nuestros datos, para realizar anlisis bidimensionales, para ello tambin tendremos en
cuenta cmo son las variables.

3.3.1

Dos variables cualitativas


En el caso de que queramos cruzar dos variables cualitativas, usamos la tabla
de doble entrada, que se denomina tabla de contingencia, la cual presenta en
cada casilla las frecuencias absolutas o porcentajes de una de las categoras
de una variable con una categora de la otra variable. Para evaluar el grado de
relacin y el nivel de significacin estadstica entre dos variables categricas se
utiliza el test de Chi-Cuadrado.
Tambin podemos representar grficamente dos variables mediante el

diagrama de barras, que ya explicamos anteriormente cmo se realiza.

44

Tablas de contingencia. Test de Chi-cuadradro.

En R-Commander, podemos obtener tanto la tabla de contingencia como el


estadstico Chi-cuadrado seleccionando Estadsticos->Tablas de contingencia->Tabla
de doble entrada. Obteniendo el siguiente cuadro, donde podemos seleccionar las
dos variables a cruzar, el clculo de porcentajes que deseemos, que slo te permite
seleccionar uno y el test de hiptesis, que utilizaremos el Test de independencia ChiCuadrado, aunque tambin se utilizar, cuando no se cumplan las condiciones de
aplicacin, el Test exacto de Fisher.

Para realizar el anlisis con R, usamos las siguientes funciones:


.Table <- xtabs(~V1+V2, data=Datos)
totPercents(.Table) # Percentage of Total
rowPercents(.Table) # Row Percentages
colPercents(.Table) # Column Percentages
.Test <- chisq.test(.Table, correct=FALSE)

Donde:

xtabs: muestra la tabla con las frecuencias absolutas.

V1 y V2: son las variables que se quieren cruzar.

Datos: el conjunto de datos donde se encuentran las variables.

45

totPercents: muestra la tabla con los porcentajes sobre el total.

rowPercents: muestra la tabla con los porcentajes sobre las filas.

colPercents: muestra la tabla con los porcentajes sobre las columnas.

chisq.test: te muestra el test de independencia de Chi-cuadrado de Pearson, la


opcin correct te permite realizar el test con la correccin por continuidad si
es TRUE.

A diferencia de R-Commander, en la misma sentencia se puede incluir los tres


tipos de porcentajes.
Mostramos a continuacin un ejemplo:

3.3.2. Una variable cualitativa y una variable cuantitativa continua


En el caso de que queramos ver la relacin entre una variable cualitativa y otra
cuantitativa, lo normal es que se muestre la diferencia de medias de la variable
cuantitativa con respecto a cada categora de la variable cualitativa y se comprueba
con un test si existe o no diferencias estadsticamente significativa. Sin embargo,
cuando trabajamos con variables cuantitativas, existen diferentes test segn estas
variables cumplen las condiciones de normalidad o no, es decir se acude a test
paramtricos o a test no paramtricos en el caso de que no se cumplan las
condiciones de normalidad de la variable. Por ello, hay que comprobar anteriormente

46

si las variables cumplen la condicin de normalidad. Para ello con R, lo


comprobaremos con el test de normalidad de Shapiro-Wilk.
Con

R-Commander

seleccionamos

Estadsticos->Resmenes->Test

de

normalidad de Shapito-Wilk y se selecciona la variable. Con la consola de R, se


utiliza la funcin siguiente:
shapiro.test(x)

Donde

x: un vector numrico de los datos.

Esta funcin devuelve el valor del estadstico de Shapiro-Wilk y una


aproximacin del p-valor del test.
Mostramos a continuacin un ejemplo:

Si este test es significativo, significa que la variable no sigue una distribucin


normal, por lo que habra que realizar los anlisis correspondientes a la comparacin
entre distintos grupos mediante test no paramtricos.

ANOVA

Cuando las variables cumplen la condicin de normalidad se utiliza el test


paramtrico ANOVA de un factor, para comparar diferencias de medias entre ms de
dos grupos, en nuestro caso sera comparar las medias de alguna variable cuantitativa
continua entre los distintos tipos de depresin. El cual lo podemos obtener mediante
R-Commander por Estadsticos->Medias->ANOVA de un factor, y se elige en la
ventana la variable que agrupa a los individuos y la variable explicativa. Tambin se
presta la opcin de comparar las medias dos a dos.

47

Esta funcin realiza un modelo lineal y el ANOVA para este modelo y se


obtiene tambin las medias, desviaciones tpicas y frecuencias de la variable explicada
en cada categora de la variable de agrupacin.
As que los comandos en R seran:
.Anova<- lm(formula, data)
anova(.Anova)

Donde:

formula: es la descripcin del modelo que debe ser ajustado. Para este
caso sera Variable explicada~Variable de agrupacin.

data: la matriz de datos de donde proceden las variables incluidas en la


frmula.

En todos los modelos que se realicen con R, se deben de incluir la formula, el


cual es la ecuacin del modelo, donde se indica primero la variable dependiente,
seguido del smbolo ~, y posteriormente se incluye la expresin correspondiente con
las variables independientes, que normalmente se introducen sumando.
Esta funcin nos devuelve el anlisis de la varianza, con los grados de libertad,
la suma de cuadrados y la media cuadrtica, as como el valor del estadstico F y su
significacin. Mostramos a continuacin un ejemplo en el que la variable explicada es
la edad y la de agrupacin los tipos de depresin:

48

Test no paramtrico de Wilcoxon

Cuando la variable cualitativa presenta dos categoras y podemos agrupar a los


individuos en dos grupos independientes, utilizamos este test para muestras
independientes.

En

R-Commander

seleccionamos

Estadsticos->Test

no

paramtricos->Test de Wilcoxon para dos muestras, donde se elige la variable que


identifica los distintos grupos, la variable categrica, y la variable explicada, la variable
cuantitativa continua. Tambin te permite elegir la hiptesis alternativa, bilateral o
unilateral y el tipo de prueba, la de por defecto, exacto o aproximacin normal. A
continuacin se muestra el cuadro con las opciones. Esta funcin tambin te devuelve
una tabla con las medias de la variable cuantitativa en cada categora.

Con R utilizamos la funcin wilcox.test:


wilcox.test(x, y = NULL, formula, alternative = c(two.sided, less, greater),
data, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE,
conf.level = 0.95, ...)

Donde

x: vector numrico de los datos.

y: vector opcional numrico de datos

alternative: carcter que especifica la hiptesis alternativa, debe bilateral


(two.sided), o unilateral <0 (less), >0 (greater).

paired: valor lgico que indica si se desea un test apareado.

exact: valor lgico que indica que debe ser calculado un p-valor exacto.

correct: valor lgico que indica si aplicar o no la correccin por continuidad


en la aproximacin normal para el p-valor.

49

conf.int: valor lgico que indica calcular o no un intervalo de confianza.

conf.level: nivel de confianza del intervalo.

formula: frmula del tipo x~g, donde x es la variable numrica de los


valores y g el factor que indica los dos grupos.

data: matriz de datos que contiene las variables de la formula.

subset: vector opcional que especifica un subconjunto de observaciones


para ser usadas.

Mostramos a continuacin un ejemplo de esta funcin:

Test no paramtrico de Kruskal-Wallis

Para conocer diferencias de medias entre ms de dos grupos de individuos se


utiliza el test de Kruskal-Wallis, que es una generalizacin del anterior. Para realizar
este anlisis con R-Commander, se selecciona Estadsticos->Test no paramtricos>Test de Kruskal-Wallis, donde hay que seleccionar la variable que define los
grupos y la variable explicada. Esta funcin te devuelve, adems del test, una tabla
con la media de la variable cuantitativa en cada categora de la variable cualitativa.
Para el caso de realizar el anlisis con la consola de R, se utiliza la funcin
kruskal.test:
kruskal.test(x, g, formula, data, subset, )
Donde

x: vector 50rimarie de los datos, o una lista de vectores de datos numricos.

g: vector o factor indicando el grupo de los correspondientes elementos de


x.

formula: frmula del tipo x ~g.

data y subset son argumentos detallados en la funcin anterior.

50

Esta funcin devuelve los siguientes valores: el estadstico de Krustal-Wallis,


los grados de libertad de la aproximacin de la distribucin de Chi-cuadrado del test y
el p-valor del test.
Mostramos a continuacin un ejemplo, en el que en primer lugar, tambin se
incluye el comando para crear la tabla con las medias:

3.3.3. Dos variables cuantitativas continuas


Para el caso en que tengamos dos variables cuantitativas continuas podemos
ver si estn correlacionadas o no, para ello utilizamos el test de correlacin de
Pearson.
En

R-Commander

seleccionamos

Estadsticos->Resmenes->Test

de

correlaciones, donde se seleccionan las variables que queremos cruzar, se elige el


tipo de correlacin, Pearson, Spearman o Kendall y se elige tambin la hiptesis
alternativa, bilateral o unilateral.

En R, usamos la funcin cor.test que mostramos a continuacin sus


argumentos:
cor.test(x, y, alternative = c(two.sided, less, greater),
method = c(pearson, kendall, spearman), exact = NULL,
conf.level = 0.95, continuity = FALSE, ...)

51

Donde

x, y: vectores numricos de datos, que deben tener la misma longitud.

alternative, exact, conf.level son argumentos explicados en anteriores


funciones.

methods: indica qu coeficiente de correlacin usar para el test, pearson,


spearman o kendall.

continuity: valor lgico que indica si se usa la continuidad por correccin


para el coeficiente de Kendall y para el coeficiente de Spearman cuando no
se calcula exactamente.

Esta funcin devuelve los siguientes valores: el valor del estadstico, los grados
de libertad del test estadstico en el caso de que siga una distribucin t de student, el
p-valor del test, la medida estimada de asociacin, o el coeficiente de Pearson,
Spearman o Kendall, dependiendo del mtodo elegido, el valor de la medida de
asociacin bajo la hiptesis nula, la hiptesis alternativa elegida y el intervalo de
confianza para la medida de asociacin.
Mostramos un ejemplo para este test:

3.4. Modelo de regresin logstica multinomial

Una vez que se realiza todo el anlisis exploratorio que se ha indicado en los
apartados anteriores, hay que cumplir con el objetivo principal que nos planteamos en
este trabajo que es la aplicacin de modelos de respuesta discreta. En nuestro caso,
queremos conocer los factores que afectan a los tipos de depresin, por lo que se
propone ajustar un modelo de regresin logstica multinomial.
Como vimos en el captulo 2, las variables explicativas que pueden introducirse
en el modelo pueden ser tanto cuantitativas continuas como cualitativas categricas, y

52

vimos que para las variables categricas haba que considerar variables dummies, es
decir dndole el valor 1 a la categora deseada y 0 al resto. A pesar de que la funcin
que veremos a continuacin para el anlisis de la regresin logstica multinomial, al
introducir estas variables como factor, considera las categoras como variables
dummies, se explicar a continuacin cmo se crean manualmente en R, ya que se ha
considerado realizarlo de esta manera por tenerlas en la base de datos y as poder
tener un mayor control sobre ellas. Para ello se utiliza la funcin recode, que ya se
explic anteriormente, as que por ejemplo, para la variable nivel de estudios, la cual
presenta como categoras y cdigos: Sin estudios=0, Estudios primarios=1, Estudios
secundarios=2 y Estudios universitarios=3; se obtendr una variable para todas las
categoras, excepto para la que se considere de referencia que ser Sin estudios, as
por ejemplo la nueva variable Estudios primarios ser codificada como 1 en los casos
con este nivel de estudios y 0 el resto de casos. As que en R la orden para crear
estas variables dummies sera:
Datos&ESTUD_PRIMARIOS<-recode(Datos$NIV_ESTUD, 1=1; else=0)
Datos&ESTUD_SECUNDARIOS<-recode(Datos$NIV_ESTUD, 2=1; else=0)
Datos&ESTUD_UNIVERSITARIOS<-recode(Datos$NIV_ESTUD, 3=1; else=0)

A continuacin detallaremos cmo R trata el ajuste de los modelos de regresin


logstica multinomial.

3.4.1. Formulacin y seleccin del modelo


En primer lugar veremos con qu opcin y/o funcin se realiza un modelo de
regresin logstica multinomial en R- Commander y en R.
Como es habitual, desde R-Commander podemos seleccionar este tipo de
anlisis, para ello seleccionamos Estadsticos->Ajuste de modelos->Modelo logit
multinomial.

53

En primer lugar, se le asigna un nombre al modelo, ya que en R se almacena el


modelo como un objeto que posteriormente se puede usar para obtener otras salidas.
Posteriormente, aparecen todas las variables, donde se podr seleccionar las que se
quieran utilizar para construir la frmula del modelo. En la frmula del modelo, en la
primera casilla se introduce la variable dependiente y en la segunda casilla deben de ir
las variables independientes que se deseen incluir en el modelo, utilizando los botones
de arriba se construye la ecuacin, que en nuestro caso, sumaremos todas las
variables independientes, por lo que utilizaremos el botn del +. En el caso de que se
incluya alguna interaccin, se utiliza el singo *.
Por ejemplo para realizar un modelo donde la variable dependiente es el tipo de
depresin y las covariables son el sexo y la edad la frmula deber ser:
tipos de depresin~sexo+edad.
Este modelo usando la consola de R, se ajusta mediante la funcin multinom
(36), la cual se encuentra en la librera de nnet, por lo que antes de utilizarlo tenemos
que cargar el paquete nnet. Veamos cmo funciona esta funcin:
multinom(formula, data, weights, subset, Hess = FALSE, model =
FALSE, ...)

Donde:

formula: expresin de frmula para los modelos de regresin, de la forma


respuesta~predictores. La respuesta debe ser un factor o una matriz con K
columnas, que se interpretar como el recuento de cada una de las clases
K. Se ajusta un modelo log-linear con coeficientes 0 para la primera clase.

data: conjunto de datos a los que pertenece las variables incluidas en


formula.

54

weights: vector opcional de pesos o ponderaciones, por si se aplican a las


variables.

subset: indica si se desea tomar un subconjunto de filas de los datos para


el ajuste del modelo.

Hess: valor lgico que indica si mostrar o no la matriz Hessiana.

model: valor lgico que indica si el modelo se guarda para incluirlo como
salida.

Se pueden incluir ms argumentos, que se pueden consultar en la ayuda de R.


Al realizar este modelo obtenemos las siguientes salidas:

deviance: la devianza del modelo estimado, comparada con el modelo


completo

saturado

(que

explica

las

observaciones

individuales

exactamente). Tambin se muestra como -2log-verosimilitud.

edf: el nmero de grados de libertad usado en el modelo.

AIC: el valor del Criterio de Informacin de Akaike para el ajuste del


modelo.

Hessian: la matriz Hessiana, si Hess=TRUE.

model: muestra como salida el modelo sin ajustar.

Una vez ejecutado la funcin le pedimos mediante el comando summary, que


nos muestre el resultado del modelo, pidindole que nos muestre tambin el
estadstico de Wald, indicando Wald=TRUE. As se obtienen los coeficientes del
modelo, con sus errores estndares y el estadstico de Wald.

Una vez que se realiza algn modelo de regresin logstica multinomial, para
ajustarlo se realizarn contrastes de razn de verosimilitudes, para ello en R se utiliza

55

la funcin anova, la cual realiza un anlisis comparando las devianzas de dos o ms


modelos y que vemos a continuacin:
anova(object, )

Donde:

object: un objeto que contiene los resultados obtenidos por una funcin que
ajusta un modelo (como lm, glm o multinom). En nuestro caso, ser el
nombre de los modelos de regresin logstica multinomial, separados por
comas, que hayamos ajustados y queramos comparar.

Esta funcin devuelve una tabla de anlisis de la devianza, en el que se


comparan las devianzas de dos o ms modelos. Mostramos a continuacin un
ejemplo, en el que se comparan dos modelos (modelo 1, slo con una variable y el
modelo 17 que contiene dos variables):

En la tabla que se obtiene en este anlisis aparece en las filas los modelos a
contrastar y de cada uno de ellos se obtiene los grados de libertad de la distribucin
chi-cuadrado del test de contraste de razn de verosimilitud, Resid. Df, la devianza
residual, Resid. Dev, la columna Test nos muestra qu modelos estamos
contrastando, Df, es la diferencia de los grados de libertad de ambos modelos, el
estadstico chi-cuadrado del contraste de razn de verosimilitud, LR stat. Y por ltimo
el p-valor del estadstico, Pr(Chi). Este p-valor es el que nos indica si nos quedamos
con el modelo 1 o 2, si es significativo es que nos debemos de quedar con el modelo
2, el cual incluye una variable ms.

3.4.2. Inferencia.
-

Odds ratio

Una vez ajustado el modelo, se debe de dar una interpretacin y para ello se
calculan las odds ratios. Para obtener las odds ratios de los parmetros del modelo,
stas estn definidas como la exponencial de los parmetros, por lo que se utiliza la
funcin exp.

56

exp(x)

Donde:

x: un nmero o vector. En nuestro caso ser el vector que incluye los


coeficientes del modelo.

Intervalos de confianza

Para calcular los intervalos de confianza de las odds ratio se utiliza la funcin
confint.
confint(object, parm, level=0.95,)

Donde:

object: un objeto de un modelo ajustado.

parm: una especificacin de los parmetros que se deben calcular los


intervalos de confianza, tanto un vector de nmeros como un vector de
nombres. Si este argumento no se especifica, todos los parmetros sern
considerados.

level: el nivel de confianza requerido.

Esta funcin devuelve una matriz o un vector, cuyas columnas resultan ser los
lmites inferiores y superiores de cada parmetro.

3.4.3. Contraste sobre los parmetros

Contraste de Wald. p-valores

Para contrastar los parmetros del modelo, se realiza mediante el contraste de


Wald. Hemos visto que con la funcin multinom obtenemos este estadstico, pero
para poderlo contrastar calculamos los p-valores, como vimos en la teora la
distribucin de este estadstico es asinttica, por lo que sigue una distribucin normal
de media 0 y desviacin estndar 1, por lo que utilizaremos el siguiente comando para
calcular los p-valores:

57

pnorm(x, mean = 0, sd = 1, lower.tail = TRUE)

Donde:

x: es el vector de los cuantiles que se desean calcular la probabilidad.

mean: la media de la distribucin normal.

sd: la desviacin estndar.

lower_tail: valor lgico que si es TRUE, se obtienen las probabilidades


P[X<x], si es FALSE se obtiene P[X>x].

Contraste condicional de razn de verosimilitud

Tambin se realizar un contraste condicional de razn de verosimilitud, para


contrastar el efecto conjunto de las variables predictoras, comparando las devianzas
del modelo ajustado con la del modelo slo con la constante, como se ha visto en el
apartado de seleccin del modelo, para realizar el contraste de razn de verosimilitud
se realiza mediante la funcin anova.

3.4.4. Bondad de ajuste del modelo


Para realizar el ajuste global del modelo, realizamos el test de chi-cuadrado de
la razn de verosimilitud comparando el modelo ajustado con el modelo saturado, que
resulta de multiplicar todas las variables, la ausencia de significacin de este test
significa que el ajuste del modelo es bueno. Se realizar comparando las desvianza de
ambos modelos y calculando el p-valor.

Tasa de clasificaciones correctas

Una de las formas tambin de contrastar la bondad del ajuste global del modelo
y detectar si el modelo presenta eficacia predictiva, es mediante las tasas de
clasificaciones correctas, para su clculo se deber de obtener el vector de las
observaciones de la variable dependiente y el vector las observaciones predichas, del
modelo que hayamos ajustado, mediante la funcin predict. Una vez obtenido esos
dos vectores se compararn para obtener los casos coincidentes. Para realizar este
anlisis utilizamos la siguiente sentencia:

58

obs<-datos$variable
pre <- predict(object, type=c(class, prob))
cont=0
for (I in 1:N) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont}
tcc<-cont/N

Donde:

object: objeto almacenado, que ser el modelo ajustado.

type: tipo de prediccin requerida, que puede ser class, que devuelve un
vector con la categora estimada a la que pertenecera cada individuo; o
prob que devuelve una matriz con las probabilidades predichas, donde las
columnas son las probabilidades de cada categora de la variable
dependiente.

3.4.5. Validacin del modelo


-

Residuos

Una vez ajustado el modelo para la validacin de este, vimos que se


estudiaban los residuos, en R obtenemos los residuos del modelo mediante la funcin
residuals, que explicamos a continuacin, pero para poderlo estudiar realizamos un
descriptivo de ellos, calculando la media, desviacin tpica, mnimo, mximo, mediana
y cuartiles.
residuals(object, )

Donde:

object: un objeto del cual se quieren obtener los residuos, que ser el
modelo.

Esta funcin nos devuelve los residuos de la devianza extrados del object.

59

CAPTULO 4:

APLICACIN CON DATOS REALES

60

4.1. Descripcin de la aplicacin

Una vez que se ha explicado la teora, en este captulo nos dedicamos a llevar
a la prctica esa teora, es decir, la aplicacin con datos reales de los modelos de
regresin logstica multinomial.
Como se coment en la introduccin usaremos los datos de un estudio
transversal que se llev a cabo con una muestra de centros de atencin primaria (AP)
en Espaa entre abril de 2006 y diciembre de 2006. Para obtener una muestra
representativa, el nmero de centros de AP elegidos en cada regin Espaola fue
proporcional al nmero de habitantes. Adems, el proceso de seleccin tuvo en cuenta
el ratio rural/urbano de Espaa con al menos un 20% de la muestra de los centros de
AP en ciudades de menos de 50000 habitantes.
En cada centro de AP se seleccion un mdico general que acept participar
voluntariamente, formando finalmente una muestra de 600 mdicos.
El estudio se llev a cabo de acuerdo con las declaraciones de Helsinki y con
los procedimientos habituales de trabajo y protocolos, siendo aprobado por el Comit
tico del Hospital Clnico y El Hospital Provincial de Barcelona, asegurando las
normas de la buena prctica clnica.

Pacientes
El estudio incluy hombres y mujeres mayores de 18 aos, que acudieron al
Centro de AP por dolor inexplicable (cabeza, cuello, espalda, extremidades o
articulares) con una duracin de al menos 6 semanas. A efectos de este estudio, los
pacientes considerados fueron los que presentaban dolor crnico inexplicable de tipo
osteomuscular. El criterio considerado para definir el dolor crnico fue la presencia de
dolor durante 6 semanas o ms y una intensidad mayor de 40 puntos en la Escala
Visual Analgica (EVA), medida que se utiliza para medir la intensidad del dolor y
presenta un rango de 0 a 100, donde 0 es no dolor y 100 el peor dolor posible (37).
Adems, los pacientes que no tenan un diagnstico actual de algn trastorno mental
en su expediente mdico, tenan que ser mental y fsicamente capaces de participar
en el estudio y tuvieron que dar su consentimiento informado por escrito.

61

Tamao de la muestra
Basndose en la literatura, para obtener una prevalencia de dolor crnico
inexplicable y trastornos mentales concomitantes del 20% con una exactitud del 3% y
un intervalo de confianza del 95%, el nmero mnimo de pacientes requerido era 683
(38). Se calcul un tamao de 3285 pacientes para detectar diferencias entre
subgrupos definidos por edad, sexo y tipo de tratamiento, ya que se consider el tipo
de tratamiento que estaban tomando los individuos en ese momento, considerando
una OR=1.5 con un nivel de confianza del 95% y una potencia del 80%. Este nmero
asume una probabilidad de exposicin del factor a estudiar del 15% en el grupo de
trastorno mental concomitante y tambin un ratio de 4 pacientes con trastornos
mentales frente a 1 sin trastornos mentales. Asumiendo un 10% de prdidas, el
tamao total para el estudio se estableci en 3641 pacientes. Para los objetivos de
este estudio, de este total se seleccion, tal y como se coment anteriormente, a los
pacientes con dolor crnico inexplicable de tipo osteomuscular, por lo que los
pacientes estudiados fueron 1006.
Para obtener el nmero de pacientes calculados cada uno de los 600 mdicos
seleccionados tuvieron que entrevistar alrededor de 7 pacientes que acudan a su
consulta y que cumplan los criterios de inclusin del estudio. Los pacientes fueron
seleccionados consecutivamente basndose en la llegada al centro de AP. Los
pacientes que rechazaron participar fueron sustituidos por el siguiente que cumpliese
el criterio.

Informacin recogida
La informacin relativa a variables recogidas, tanto socio-demogrficas (edad,
sexo, estado civil y nivel educativo), variables clnicas (duracin del dolor, intensidad,
localizacin del dolor, incapacidad para realizar actividades diarias a causa del dolor y
calidad y duracin del sueo) como variables relativas al uso de los servicios sanitarios
(nmero de visitas al mdico y hospital como consecuencia del dolor en las ltimas 6
semanas/pruebas diagnsticas relacionadas con el dolor en las ltimas 6 semanas)
fueron recogidas por un cuestionario estructurado y mediante el historial clnico de los
pacientes.
La intensidad del dolor fue medida con la Escala Visual Analgica (EVA) con un
rango de 0 a 100, donde 0 era no dolor y 100 el peor dolor posible como se mencion
anteriormente. Para la deteccin y evaluacin de los trastornos mentales se utiliz la
versin espaola validada del mdulo de estados mentales del cuestionario de

62

Evaluacin de Trastornos Mentales en AP (PRIME-MD). Este cuestionario, diseado


por Spitzer et al. (39) para ayudar en el diagnstico de la mayora de los trastornos
mentales comnmente observados especialmente en AP, est basado en el criterio
diagnstico del Manual Diagnstico y Estadstico de Trastornos Mentales Cuarta
Edicin (DSM-IV) con sensibilidad y especificidad de 83% y 88% respectivamente.
En el estudio se consideraron todos los posibles diagnsticos del PRIME-MD,
de acuerdo con el criterio DSM-IV: trastorno depresivo mayor, trastorno depresivo
menor, remisin parcial de un trastorno depresivo mayor, trastorno de distimia,
trastorno bipolar o depresin causada por una condicin mdica general,
medicamentos o drogas. De estas variables se recogi si los pacientes presentaban o
no algn trastorno de esos tipos de depresin, pero para poder alcanzar el objetivo de
este trabajo, se han agrupado en una sola variable, incluyendo, como veremos ms
adelante en los resultados, las siguientes categoras: sin depresin, depresin mayor,
depresin menor, otros tipos de depresin (que incluyen distimia, trastorno bipolar,
remisin

parcial

depresin

causada por

una

condicin mdica general,

medicamentos o drogas, ya que se han agrupado por la existencia de pocos casos en


esos tipos de trastornos) y presentar ms de un tipo de trastorno mental, sin
especificar cules, ya que podra existir mltiples posibilidades.
La base de datos de este estudio se dispona en un archivo de datos de SPSS,
por lo que se import a R, tal y como se menciona en el captulo anterior, y se ha
trabajado con esos datos tanto con R como con R-Commander, con la versin 2.11.1.
Para la importacin de los datos se utiliz la sentencia:
read.spss(D:/Usuario Mara/Desktop/TRABAJO FINAL/DEDO_Osteo_Reducida.sav,
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
Una vez importado, obtenemos una matriz de datos (data.frame), que se
denomina Datos en la que disponemos de 1006 casos y 43 variables, de las cuales
algunas son cuantitativas y otras cualitativas, posteriormente explicaremos ms
detalladamente las caractersticas de las variables (tipo, codificacin, unidad de
medida, etc.) que utilizaremos en nuestro estudio.
Al tener activo este conjunto de datos, lo guardamos como una matriz de datos
con extensin .rda, y lo llamamos Osteomuscular2, para posteriormente cargar
directamente desde R-commander los datos y no importarlos desde SPSS. Para
cargarlos lo hacemos de la siguiente manera desde R-commander: Datos->Cargar
conjunto de datos y seleccionamos los datos que deseamos cargar.

63

4.2. Resultados
4.2.1. Anlisis descriptivo unidimensional
A continuacin se muestra una tabla con la descripcin de todas las variables,
las unidades en las que se mide o los valores codificados que toman. La mayora de
las variables cualitativas estaban codificadas numricamente, sobre todo las variables
con dos categoras, que se codificaron con 0 y 1 para tratarlas posteriormente en el
modelo de regresin logstica multinomial como numrica. Tambin se muestra en la
tabla un anlisis descriptivo de estas variables, mostrndose frecuencias y porcentajes
para variables cualitativas y medias, desviaciones tpicas, mediana, percentiles,
mximo y mnimos para variables cuantitativas. De la mayora de las variables no se
dispone de los datos de los 1006 pacientes, es decir presentan datos perdidos, por lo
que junto a cada variable aparece el nmero de individuos de los que se dispone de
datos de dicha variable (N).
Mostramos a continuacin un ejemplo de cada sentencia utilizada para obtener
el descriptivo de las variables, todo el clculo de todas las variables se encuentra en el
anexo.
Para obtener las frecuencias de las variables cualitativas, como por ejemplo el
sexo, se utiliz la siguiente sentencia:
.Table <- table(Osteomuscular2$sexo1)
.Table # counts for sexo1
100*.Table/sum(.Table) # percentages for sexo1

64

Y obtenemos la siguiente salida:

Para las variables cuantitativas continuas, como por ejemplo la edad,


calculamos los parmetros correspondientes para resumir estas variables, de la
siguiente manera:
numSummary(Osteomuscular2[,c(EDAD, MES_SINTOMAS,
NUM_HOSPITALIZACION, NUM_LOC, NUM_PRUEBAS_REALIZA,
NUM_VISITA_ESPECIALI, NUM_VISITA_MEDICO_AP, SINTOMA_DOLOR1,
SINTOMA_DOLOR7, SINTOMA_DOLOR8)], statistics=c(mean, sd, quantiles),
quantiles=c(0,.25,.5,.75,1))
Obteniendo como resultados:

65

Tabla 1. Descripcin de las variables estudiadas.


Variables
Sexo (N=974)
Edad (N=862)
Se ha medido como una variable cuantitativa
continua.
Estado civil (N=973)

Unidades / Valores que


toma/Codificacin
- Hombre ->0
- Mujer ->1

Descriptivo
248 (25.5%)
726 (74.5%)

AOS

Media (DE): 58(12.7)


Min-Max: 19 93
Mediana (P25;P75): 58(49;66)

- Convive en pareja ->1


- Divorciado/separado ->2
- Soltero/a ->3
- Viudo/a ->4

644 (66.2%)
91 (9.4%)
52 (5.3%)
186 (19.1%)

Nivel educativo (N=1002)

- Sin 66rimari ->0


- Estudios 66rimaries ->1
- Estudios secundarios ->2
- Estudios universitarios ->3

148 (14.8%)
532 (53.1%)
218 (21.8%)
104 (10.4%)

Duerme menos a causa del dolor? (N=1002)

- S ->1
- No ->0

750 (74.9%)
252 (25.1%)

Se despierta a causa del dolor? (N=998)

- S ->1
- No ->0

536 (53.7%)
462 (46.3%)

Localizacin del dolor en la cervical (N=955)

- S ->1
- No ->0

503 (52.7%)
452 (47.3%)

Localizacin del dolor en la espalda (N=955)

- S ->1
- No ->0

768 (80.5%)
186 (19.5%)

Localizacin del dolor en las articulaciones


(N=955)

- S ->1
- No ->0

703 (73.6%)
252 (26.4%)

Localizacin del dolor en las extremidades


(N=955)

- S ->1
- No ->0

649 (68%)
306 (32%)

Intensidad Dolor
Del dolor en general, se muestra la
intensidad, medida con la Escala Visual
Analgica (EVA), por lo que es una variable
cuantitativa continua.
Meses desde la aparicin del primer sntoma
doloroso (N=481)
Variable cuantitativa continua
Nmero de localizaciones del dolor (N=955)
Se recogi en cuntas localizaciones se
presentaba dolor. Se ha medido la variable
como cuantitativa continua.
Incapacidad para realizar actividades diarias
a causa del dolor
Variable cuantitativa continua, medida en una
escala de 0 a 100.
Duracin dolor en la ltima semana.
Expresado como el porcentaje del da con
dolor en la ltima semana. Variable cuantitativa
continua, medida en una escala de 0 a 100.
Depresin (N=1006)
Variable cualitativa que indica si el paciente
presenta o no algn tipo de trastorno mental, de
los indicados posteriormente, evaluados
mediante el PRIME-MD.
Tipos de Trastorno mental
A partir de las variables que indican la
presencia o ausencia de algn tipo de trastorno
mental, se han reunificado en una sola variable
que indica si el paciente no presenta depresin,
o si lo presente de qu tipo es o si presenta

Rango de 0 a 100, donde 0 es no


dolor y 100 el peor dolor posible.

Media (DE): 58.9 (19.8)


Min-Max: 2 100
Mediana (P25;P75): 61(46;74)

Meses

Media (DE): 37.6(50.1)


Min-Max: : 2 324
Mediana (P25;P75):17(7;52.5)
Media (DE): 3.6(1.3)
Min-Max: 1 5
Mediana (P25;P75): 4(3;5)

Medida en una escala de 0 a 100,


donde 0 es totalmente capacitado
para realizar AVD y 100
totalmente incapacitado.

Media (DE): 56.8 (23.3)


Min-Max: 2 100
Mediana (P25;P75): 59(40;75)

Medida en una escala de 0 a 100,


donde 0 es ningn momento del
da con dolor, y 100 todo el da
con dolor.

Media (DE): 59.4 (23.3)


Min-Max: 1 100
Mediana (P25;P75): 61(45;77)

- S ->1
- No ->0

751 (74.7%)
255 (25.3%)

- Sin Depresin ->0


- Trastorno depresivo mayor ->1
- Trastorno depresivo menor ->2
- Otros tipos de trastorno ->3
- Ms de un tipo de depresin ->4

255 (25.3%)
330 (32.8%)
153 (15.2%)
57 (5.7%)
211 (21%)

66

ms de un trastorno mental.
N de visitas al mdico AP en las ltimas 6
semanas (N=927)
Se ha recogido el nmero de visitas al
mdico, por lo que es una variable cuantitativa
discreta, pero se ha medido como variable
cuantitativa continua.
N de visitas al mdico ESP en las ltimas 6
semanas (N=447)
Igual que la anterior, se ha recogido el
nmero de visitas al especialista, tambin se ha
medido como variable cuantitativa continua.
N pruebas realizadas en las ltimas 6
semanas (N=513)
Se recoge el nmero de pruebas realizadas,
por lo que es una variable cuantitativa discreta,
y se ha medido como cuantitativa continua.
N hospitalizaciones en el ltimo ao
(N=199)
Variable cuantitativa continua, igual que las
anteriores.

Media (DE): 3.20(1.98)


Min-Max: 0 24
Mediana (P25;P75): 3(2;4)

Media (DE): 1.18(1.38)


Min-Max: 0 20
Mediana (P25;P75): 1(1;1)

Media (DE): 1.49(1.04)


Min-Max: 0 10
Mediana (P25;P75): 1(1;2)
Media (DE): 0.45(1.03)
Min-Max: 0 8
Mediana (P25;P75): 0(0;1)

Con estos resultados podemos ver que de los pacientes estudiados, la mayora
eran mujeres (74.5%), esto es debido a que el dolor y en especial el dolor de tipo
osteomuscular se da ms frecuentemente en mujeres (40-42). La edad media fue de
58 aos (DE: 12.7). El 66.2% convivan en pareja y el 74.9% de los pacientes tenan
estudios primarios o secundarios (Tabla 1).
La intensidad media del dolor general fue de 58.9 de la escala EVA (DE: 19.8).
La duracin media de dolor de los pacientes estudiados es de 37.6 meses (DE: 50.1).
El nmero medio de localizaciones fue de 3.6 (DE: 1.3), siendo la espalda la
localizacin ms frecuente (sufrido por el 80.5% de la poblacin). De los 1002
pacientes que respondieron a la primera pregunta sobre el sueo, el 74.9%
respondieron que duermen menos a causa del dolor y de los 998 pacientes que
respondieron la segunda pregunta, el 53.7% se despertaban a causa del dolor. (Tabla
1).
Con respecto al uso de los servicios sanitario, se obtuvo que, a causa del dolor,
el nmero medio de visitas al mdico de AP en las ltimas 6 semanas fue de 3.2 y, de
513 pacientes, el nmero medio de pruebas que se les haba realizado en las ltimas
6 semanas fue de 1.49 (DE:1.04).
Veamos a continuacin cmo se comporta la depresin distinguiendo por sexo
y por grupos de edad. Se representa grficamente la prevalencia de depresin,
adems de sta por sexos mediante diagrama de sectores y por grupos de edad,
mediante diagrama de barras.

67

Para la representacin mediante diagramas de sectores, utilizamos la siguiente


sentencia:
pie(table(Osteomusculares$DEPRESION), laves=c(NO(25.4 %), S(74.7 %)),
main=DEPRESIN, col=rainbow(length(levels(Osteomusculares$DEPRESION))))
en la que se especifica las etiquetas de los sectores con lavels, as como el ttulo con
la opcin main y los colores.
Para realizar el diagrama de sectores por sexo, antes se debe de seleccionar el
subconjunto de individuos de cada sexo mediante la funcin subset.
HOMBRES <- subset(Osteomusculares, sexo1==HOMBRE)
MUJERES<- subset(Osteomusculares, sexo1==MUJER)
Una vez seleccionado se representan los diagramas de sectores:
pie(table(HOMBRES$DEPRESION), labels=c(NO(37.5%),S(62.5%)),
main=PREVALENCIA DEPRESIN EN HOMBRES,
col=rainbow(length(levels(HOMBRES$DEPRESION))))
pie(table(MUJERES$DEPRESION), labels=c(NO(21.3%),S(78.7%)),
main=PREVALENCIA DEPRESIN EN MUJERES,
col=rainbow(length(levels(MUJERES$DEPRESION))))

Figura 1. Prevalencia de depresin en toda la muestra y por sexos.

68

Para la prevalencia por grupos de edad, se utiliza el diagrama de barra,


mediante las siguientes sentencias, en las que primero se construye la tabla 2x2 y
posteriormente a partir de ella se representa grficamente tomando como medida los
porcentajes:
Tabla<-xtabs(~DEPRESION+CL_EDAD, data=Osteomusculares)
Tabaux<-colPercents(Tabla)
Tablapor<-Tabaux[1:2,]
barplot(Tablapor, xlab=Grupos de edad, ylab=Porcentaje,legend.text=c(Sin
depresin, Con Depresin),main=Prevalencia de depresin por edad,
beside=TRUE, col=cm.colors(2))
Para la representacin de los tipos de depresin por edad, se realiza de la
misma manera, se puede ver en el anexo la sentencia.

69

Figura 2. Prevalencia de depresin y de los tipos de depresin por grupos de


edad.

>80

Prevalencia de tipos de depresin por edad

60-70
50-60
40-50
30-40
<30

Grupos de edad

70-80

Trastorno depresivo menor


Trastorno depresivo mayor
Sin depresin
Otros tipos de trastornos
Ms de un tipo de depresin

Porcentaje

La prevalencia de depresin fue del 74.7% (IC 95%: 71.9; 77.4), siendo mayor
en mujeres, es habitual encontrar este resultado ya que existen muchos estudios que
afirman lo mismo (6,9,30,43). Vemos que por edad, la prevalencia es mayor en los
jvenes (< 30 aos), pero este resultado es debido a que todos los individuos de este
grupo de edad, que son un total de 9, tienen depresin y que en las edades
comprendidas entre 50 y 60 aos, predomina no tener depresin frente a tener algn
tipo de depresin (44,45).

70

10

A continuacin se representa grficamente la distribucin de los tipos de


trastornos mentales, mediante un diagrama de barras.

Figura 3. Distribucin de los tipos de depresin.

30
0

10

20

Porcentaje

40

50

Distribucin de los tipos de depresin

Ms de un tipo de trastorno

Otros tipos de trastornos

Sin depresin

Depresin mayor

Depresin meno

TIPOS DE DEPRESIN

Vemos que el tipo de trastorno mental que predomina en estos pacientes es el


trastorno de depresin mayor (32.8%). Existe un porcentaje alto de pacientes (21%),
que presentan ms de un tipo de trastorno mental, que concuerda con otros estudios
(45,46).

Mediante un histograma representamos la distribucin de la intensidad del


dolor, utilizando la siguiente sentencia:

Hist(Osteomuscular2$SINTOMA_DOLOR1, scale=percent, breaks=Sturges,


xlab=INTENSIDAD DOLOR GENERAL, ylab=Porcentaje, col=blue)

Donde le indicamos que lo represente mediante porcentajes, con la opcin


scale.

71

Porcentaje

10

15

20

Figura 4. Distribucin de la intensidad del dolor.

20

60

40

80

100

INTENSIDAD DOLOR GENERAL

Se observa que la mayora de los pacientes presentan una intensidad


comprendida entre 60 y 70 de la escala EVA.

4.2.2. Anlisis bidimensional


A continuacin mostramos el anlisis bidimensional, donde veremos relaciones
entre dos variables, en especial entre los tipos de depresin y otras variables.
Comenzaremos realizando el anlisis con variables cualitativas, por lo que usaremos
el test de Chi-cuadrado para comprobar si existen diferencias entre las variables y
posteriormente realizaremos ANOVA, o test de Kruskal-Wallis, en el caso de que las
variables cuantitativas no sigan una distribucin normal, para comprobar diferencias
con variables cuantitativas.

Dos variables cualitativas

Realizamos el anlisis bidimensional con las variables cualitativas categricas,


mostramos la relacin con los tipos de depresin, para realizar este anlisis cruzamos
las variables en tablas de contingencia, para ello utilizamos la opcin de tabla de
contingencia de doble entrada y seleccionamos el test de independencia de Chicuadrado.
Por ejemplo, para ver la asociacin entre el sexo y los tipos de trastornos
mentales, usamos la siguiente sentencia:
.Table <- xtabs(~TIPOS_DEPRESION+sexo1, data=Osteomuscular2)
.Table

72

.Test <- chisq.test(.Table, correct=FALSE)


.Test

Y obtenemos la siguiente salida:

En la cual se puede ver que dado el test de chi-cuadrado existe asociacin


entre el sexo y los tipos de depresin.

En la siguiente tabla, mostramos la relacin de todas las variables con los tipos
de depresin.

73

Tabla 2. Relacin entre los tipos de depresin y las variables categricas


estudiadas. (Frecuencias)
TIPOS DEPRESIN

SEXO
Hombre
Mujer
ESTADO CIVIL
Convive en pareja
Divorciado/separado
Soltero/a
Viudo/a
NIVEL ESTUDIOS
Sin estudios
Estudios primarios
Estudios secundarios
Estudios universitarios
Duerme menos a
causa del dolor?
S
NO
Se despierta a
causa del dolor?
S
NO
Localizacin del
dolor en la cervical
S
NO
Localizacin del
dolor en la espalda
S
NO
Localizacin del
dolor en las
articulaciones
S
NO
Localizacin del
dolor en las
extremidades
S
NO

Sin
depresin

Trastorno
depresivo
mayor

Trastorno
depresivo
menor

Otros tipos
de
depresin

Ms de un
tipo de
depresin

Chicuadrado

93
155

78
242

28
116

16
41

33
172

31.56

<0.001

183
18
15
30

193
32
13
85

102
15
10
22

35
5
4
9

131
21
10
40

25.15

0.014

31
136
50
36

58
184
57
30

20
75
42
15

7
25
23
2

32
112
46
21

26.96

0.008

163
90

267
63

107
45

40
12

173
17

29.63

<0.001

107
145

189
138

75
77

23
34

142
68

36.62

<0.001

146
86

251
63

11
38

36
20

172
32

159
73

270
44

120
29

44
12

176
28

151
81

243
71

107
42

40
16

162
42

151
81

226
88

89
60

40
16

143
61

34.97

31.68

<0.001

14.91

0.005

8.57

0.0727

p: Test de independencia de Chi-cuadrado. Nivel de significacin 0.05.

Se obtiene que existen diferencias en todas las variables, excepto en la


localizacin del dolor en las extremidades (p=0.0727). Por lo que a priori podramos
decir, que el presentar algn tipo de trastorno mental o no presentar depresin influye
de manera distinta en cada grupo de personas con caractersticas distintas, tanto
caractersticas sociodemogrficas como clnicas.

74

<0.001

Variable cualitativa y variables cuantitativas continuas

Para las variables cuantitativas continuas, para seleccionar el tipo de test


estadstico a realizar, tenemos que comprobar primero si las variables cumplen la
condicin de normalidad, para utilizar un test paramtrico o no paramtrico. Para
realizar esta comprobacin realizamos el test de normalidad de Shapiro-Wilk,
realizndolo de la siguiente manera, para por ejemplo la variable edad.
Shapiro.test(Osteomuscular2$EDAD)
Obteniendo:
Shapiro-Wilk normality test
data: Osteomuscular2$EDAD
W = 0.9967, p-value = 0.0659
En este caso el test es no significativo, por lo que la variable s cumple que
sigue una distribucin normal, por lo que hay que realizar un anlisis paramtrico, en
este caso un ANOVA.
Mostramos a continuacin los resultados obtenidos con cada variable del test
de Shapiro-Wilk.

Tabla 3. Test de normalidad de Shapiro-Wilk para variables cuantitativas


continuas.
Test ShapiroWilk

Edad

0.9967

0.0659

Intensidad Dolor General

0.985

<0.001

Meses desde la aparicin del primer sntoma doloroso

0.670

<0.001

Nmero de localizaciones del dolor

0.867

<0.001

Incapacidad para realizar actividades diarias a causa del dolor

0.976

<0.001

Duracin dolor en la ltima semana

0.977

<0.001

N de visitas al mdico AP en las ltimas 6 semanas

0.813

<0.001

N de visitas al mdico ESP en las ltimas 6 semanas

0.456

<0.001

N pruebas realizadas en las ltimas 6 semanas

0.805

<0.001

N hospitalizaciones en el ltimo ao

0.474

<0.001

Podemos ver que ninguna de las variables cumple el test de normalidad de


Shapiro-Wilk, excepto la edad. Por lo que utilizaremos un anlisis no paramtrico para
comparar las medias de las variables que no cumplen la normalidad, entre los distintos

75

tipos de depresin. Para realizar este anlisis, como los tipos de depresin divide a la
muestra en ms de dos grupos utilizaremos el test no paramtrico de Kruskal-Wallis.
En el caso de la edad, utilizaremos un ANOVA de un factor, para ver las
diferencias de medias de la edad en los distintos tipos de depresin.
Para el ANOVA, mediante R-commander, seleccionamos:

En el que se utiliza la siguiente sentencia, realizando un modelo lineal de la


edad con tipos de depresin y posteriormente un anlisis de la varianza de ese
modelo:
.Anova <- lm(EDAD ~ TIPOS_DEPRESION, data=Osteomuscular2)
anova(.Anova)
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, mean,
na.rm=TRUE) # means
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, sd,
na.rm=TRUE) # std. Deviations
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, function(x)
sum(is.na(x))) # counts
remove(.Anova)
As se obtiene el test del ANOVA, y tambin las medias, desviaciones tpicas y
las frecuencias de la edad en cada tipo de depresin.
El test del ANOVA que obtenemos es:

76

El test no paramtrico de Kruskal-Wallis, para por ejemplo, la intensidad del


dolor, se realiza de la siguiente manera:

Utilizando la siguiente sentencia:

tapply(Osteomuscular2$SINTOMA_DOLOR1, Osteomuscular2$TIPOS_DEPRESION,
median, na.rm=TRUE)
kruskal.test(SINTOMA_DOLOR1 ~ TIPOS_DEPRESION, data=Osteomuscular2)

Obteniendo, como se muestra a continuacin la mediana de la intensidad del


dolor en cada categora de la variable tipo de depresin, as como el test de KruskalWallis.

Mostramos a continuacin en la siguiente tabla los resultados para todas las variables.

77

Tabla 4. Relacin entre los tipos de depresin y las variables continuas


estudiadas. (Medias (DT))
TIPOS DEPRESIN

Edad
Intensidad Dolor
General
Meses desde la
aparicin del primer
sntoma doloroso
Nmero de
localizaciones del
dolor
Incapacidad para
realizar actividades
diarias a causa del
dolor
Duracin dolor en la
ltima semana
N de visitas al
mdico AP en las
ltimas 6 semanas
N de visitas al
mdico ESP en las
ltimas 6 semanas
N pruebas
realizadas en las
ltimas 6 semanas
N hospitalizaciones
en el ltimo ao

58.15(12.3)

KruskalWallis
Chicuadrado
1.667*

0.156*

56.01(17.9)

63.24(18.5)

33.76

<0.001

32.03(46.7)

27.88(46.4)

46.74(53.9)

21.58

<0.001

3.79(1.2)

3.50(1.3)

3.38(1.4)

3.82(1.2)

39.27

<0.001

48.35(23.6)

60.67(22.8)

55.80(22.5)

54.50(24.3)

62.47(20.9)

54.10

<0.001

51.30(25.1)

62.67(21.7)

58.65(22.3)

56.10(24.0)

65.72(21.2)

51.85

<0.001

2.75(2.3)

3.56(2.1)

3.11(1.7)

3.29(1.5)

3.20(1.7)

40.71

<0.001

1.15(1.7)

1.08(0.8)

1.51(2.6)

14.6(1.2)

1.09(0.7)

4.17

0.3834

1.48(1.2)

1.54(1.1)

1.56(1.1)

1.50(0.8)

1.37(0.9)

1.75

0.7814

0.26(0.5)

0.45(1.0)

0.27(0.7)

1.72(2.8)

0.44(0.7)

5.29

0.2587

Sin
depresin

Trastorno
depresivo
mayor

Trastorno
depresivo
menor

Otros tipos
de
trastornos

Ms de un
tipo de
depresin

58.69(11.9)

58.74(13.5)

56.07(12.5)

55.53(13.5)

53.52(21.4)

61.28(19.9)

58.37(17.2)

47.03(58.1)

29.78(41.4)

3.16(1.4)

*Estadstico F del ANOVA y su p-valor correspondiente.


P: Test no paramtrico de Kruskal-Wallis

Al igual que en el caso de las variables cualitativas, en casi todas las variables
hay diferencias estadsticamente significativas (p<0.05), excepto en la edad y en la
utilizacin de los servicios sanitarios que no sea la atencin primaria. Es decir, existen
diferencias entre los tipos de trastornos mentales en las medias de la mayora de las
variables, por ejemplo, la intensidad del dolor es mayor cuando se tiene ms de un tipo
de depresin. Lo mismo ocurre en el resto de variables significativas, que la media es
mayor cuando los individuos presentan ms de un tipo de depresin.

Dos variables cuantitativas continuas.

Por ltimo realizaremos un test de correlacin para comprobar si la edad de los


pacientes est correlacionada o no con algunas variables relacionadas con el dolor,
como la intensidad, el nmero de localizaciones o las relacionadas con los servicios
sanitarios. Para ello realizamos el test de correlacin de Pearson, que se realiza con la

78

siguiente sentencia, por ejemplo, para la intensidad del dolor, el resto se puede ver en
el anexo:
cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR1,
alternative=two.sided, method=pearson)
Obtenindose el test de correlacin de Pearson, el intervalo de confianza y el
coeficiente de correlacin:

Tabla 5. Test de correlaciones de Pearson entre la edad y variables cuantitativas


continuas.
EDAD
Coeficiente
de
correlacin

Estadstico t

Intensidad Dolor General

0.0162

0.475

0.635

Meses desde la aparicin del primer sntoma doloroso

0.1214

2.676

0.008

Nmero de localizaciones del dolor

-0.0145

1.217

0.224

Incapacidad para realizar actividades diarias a causa del dolor

0.0127

0.373

0.709

Duracin dolor en la ltima semana.

0.0313

0.917

0.359

N de visitas al mdico AP en las ltimas 6 semanas

-0.0621

-1.746

0.081

N de visitas al mdico ESP en las ltimas 6 semanas

-0.0842

-1.634

0.103

N pruebas realizadas en las ltimas 6 semanas

-0.0469

-0.994

0.321

N hospitalizaciones en el ltimo ao

-0.1642

-2.164

0.032

Podemos observar que las variables correlacionas con la edad son, el tiempo
desde la aparicin del primer sntoma doloroso, con una correlacin directamente
proporcional, a medida que aumenta la edad tambin aumenta la duracin del dolor y
el nmero de hospitalizaciones en el ltimo ao, que es inversamente proporcional, a
mayor edad menos hospitalizaciones se han realizado en el ltimo ao.

79

4.2.3. Modelo de regresin logstica multinomial. Factores asociados a los tipos


de depresin.
Como resultado final y para alcanzar el objetivo principal de esta aplicacin se
realiza el ajuste de un modelo de regresin logstica multinomial aplicando lo explicado
en el captulo 2 y mediante los comandos de R detallados en el captulo 3. En el
modelo se tiene que la variable dependiente es tipos de depresin, en la que se toma
como categora de referencia sin depresin y se introduce en el modelo como un
factor, y a la vista de los resultados obtenidos anteriormente en el anlisis descriptivo y
en los anlisis bidimensionales, las variables con las que los test resultaron ser
estadsticamente significativos (p<0.05), sern las variables independientes candidatas
que se introducirn en el modelo y que pueden ser posibles factores. stas variables
son:
-

Sexo, con categora de referencia los Hombres.

Edad, como continua.

Estado civil, cuyas categoras se introducirn como variables dummies, las


cuales ya se tenan en la base de datos y la categora de referencia es
Convive en pareja.

Nivel de estudios, igual que la anterior se introduce con variables dummies


y la categora de referencia es Sin estudios.

Duerme menos a causa del dolor?, con categora de referencia No.

Se despierta a causa del dolor?, con categora de referencia No.

Localizacin del dolor en cervical, espalda, articulaciones, extremidades,


todas con categora de referencia No.

Intensidad del dolor general, como continua.

Incapacidad para realizar actividades diarias a causa del dolor, como


continua.

Duracin dolor en la ltima semana, como continua.

N de visitas al mdico AP en las ltimas 6 semanas, como continua.

El caso de las variables dummies, aunque la funcin para el anlisis de la


regresin, multinom, al introducir estas variables como factor, ya considera las
categoras como variables dummies, se ha preferido introducir cada una de estas
categoras como variables dummies, al tenerlas ya calculadas en la matriz de datos
(en el captulo 3 se muestra el clculo de las variables dummies), para as poder tener
un mejor control sobre ellas.

80

El resto de variables que no se han considerado en el modelo, pero que se han


estudiado en los anlisis previos no se han incluido en el modelo por no haber salido
significativo los anlisis bidimensionales o por no ser clnicamente importante o por
ejemplo, la variable meses desde la aparicin del primer sntoma doloroso no se ha
considerado conveniente incluir en el modelo porque presenta muchos datos perdidos,
lo que llevara a perder muchos casos en el modelo y se perdera informacin.
Para la seleccin del modelo se realizar el mtodo stepwise, que se detall en
el captulo 2, en el que comenzaremos con el modelo con slo la constante e iremos
introduciendo cada una de las variables en cada paso y se considerar tambin la
posibilidad de eliminacin de variables en cada paso. Para contrastar los modelos
iniciales con los nuevos se realizar mediante contrastes condicionales de razn de
verosimilitudes, comparando las devianzas de cada modelo realizndolo en R
mediante la funcin anova, que permite realizar este contraste como se vio en el
captulo 3. Una vez seleccionado el modelo final, el ms parsimonioso, se contrastar
los parmetros del modelo mediante el contraste de Wald, calculndose adems, las
odds ratio de los coeficientes, sus intervalos de confianza y los p-valores,
interpretndose el modelo final. Se medir la bondad del ajuste global del modelo
mediante el test de Chi-cuadrado de razn de verosimilitudes y la tasa de
clasificaciones correctas. La calidad del ajuste se realizar mediante los parmetros
pseudo R-cuadrado de Cox-Snell, Nagelkerke y McFadden. Y por ltimo se realizar
una validacin del modelo mediante los residuos de la devianza.
A continuacin detallaremos todos los pasos anteriores. En el anexo incluimos
los comandos utilizados en R para ajustar el modelo.

4.2.3.1.

Seleccin del modelo

Para la seleccin del modelo, que resultar ser el que contenga el menor
nmero de variables y sea un modelo explicativo, se realizar mediante el mtodo de
stepwise, por lo que detallaremos a continuacin cada uno de los pasos que se
seguirn, comenzando con el modelo inicial que contiene slo la constante, en cada
paso se analizar la inclusin o no de alguna de las variables mediante contrastes de
razn de verosimilitudes, considerndose adems en cada paso la posibilidad de
eliminar alguna variable que se incluy en los pasos anteriores.
Para realizar los modelos se utilizar la funcin multinom que se describi en
el captulo 3, y con ella se obtendr los coeficientes del modelo, sus errores

81

estndares, el estadstico de wald, y la devianza, que se utilizar para comparar los


modelos en cada paso.

PASO 1
En primer lugar se realiza el modelo inicial sin incluir ninguna variable, slo con
la constante, realizndose con la siguiente sentencia:
modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data=Osteomuscular2, trace=FALSE)
summary(modelo0, cor=FALSE, Wald=TRUE)
donde con la funcin summary, se obtiene los coeficientes del modelo, sus errores
estndares, el estadstico de Wald, la devianza y el parmetro AIC, como vemos a
continuacin.
Para cada categora de la variable dependiente y para cada variable explicativa
se obtiene un coeficiente, su error estndar y el estadstico de Wald correspondiente.

Tabla 6. Modelo de regresin logstica multinomial slo con la constante.


Variables
Independientes
Contaste

Variable Dependiente
Depresin mayor
Depresin menor
Otros tipos depresin
Ms un tipo depresin

82

Coeficientes (b) (EE)

Test de Wald

0.594 (0.115)
-0.208 (0.138)
-1.236 (0.195)
0.113 (0.127)

5.161
-1.508
-6.343
0.889

A continuacin se realizan los modelos que resultan de incluir cada una de las
variables explicativas por separado, para compararlos con el modelo anterior mediante
el contraste condicional de razn de verosimilitud, para realizar este contraste
utilizamos la funcin anova, la cual, tal y como se explic en el captulo 3, realiza un
test que compara las devianzas de dos o ms modelos, y al comparar el modelo0 con
cada uno de los dems modelos, nos quedaremos con aquel en el que ese test sea el
ms significativo.
As que realizando todos los modelos con la funcin multinom y realizando el
contraste con anova obtenemos los siguientes resultados:

83

A la vista de los contrastes realizados podemos ver que la variable que debe
incluirse en el modelo es la llamada SINTOMA_DOLOR8, (modelo 13) que
corresponde con duracin del dolor en la ltima semana, ya que es el modelo cuyo
contraste con el modelo0 resulta ser el ms significativo y es el que produce el mayor
cambio en la devianza, del valor de 1745.914 que presenta el modelo inicial a
1703.385, que presenta el modelo con duracin del dolor en la ltima semana. Por lo
que el modelo que tenemos es:
Tipo de depresin=constante+Duracin del dolor en la ltima semana.

PASO 2
Partiendo del modelo que hemos obtenido del paso anterior, comparamos ste
con todos los modelos que resultan de incluir cada una del resto de variables,
contrastndolo con el contraste condicional de razn de verosimilitudes obtenemos los
siguientes resultados:

84

A la vista de estos contrastes, el modelo que reduce ms la devianza y el cual


hace que el contraste sea el ms significativo (p=0.00113) es el modelo 13, con una
devianza igual a 1685.192, por lo que debera de incluirse en el modelo la variable
nmero de visitas al mdico de atencin primaria a causa del dolor.
As que el modelo que tenemos hasta ahora es:
Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de
visitas al mdico de AP.

PASO 3
En este paso en primer lugar, realizamos al igual que en los pasos anteriores la
posibilidad de incluir alguna variable ms, por lo que partimos del modelo anterior y lo
comparamos con los modelos que resultan de incluir el resto de variables y los
contrastamos:

85

Como se puede observar, el contraste ms significativo es el que incluye el


modelo 7 (p=0.0153), en el que debera de entrar la variable localizacin del dolor en
las cervicales, as que tenemos el modelo:
Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de
visitas al mdico de AP+Localizacin del dolor cervical

Por otra parte, en este paso hay que contemplar la posibilidad de eliminar la
variable que se incluy en el paso 1, la variable duracin del dolor en la ltima
semana y contrastar si el test de razn de verosimilitud es significativo o no al eliminar

86

esta variable, en el caso que no lo sea, nos debemos de quedar con el modelo sin esa
variable
Al realizar el contraste obtenemos:

Como se puede observar el contraste es significativo, por lo que no se debe de


eliminar la variable duracin del dolor en la ltima semana del modelo, as que nos
mantenemos con el modelo:
Tipo de depresin=constante+Duracin del dolor en la ltima semana+Nmero de
visitas al mdico de AP+Localizacin del dolor cervical

PASO 4
Partiendo del modelo anterior, lo contrastamos con los que resultan de incluir el
resto de variables y realizando los contrastes de razn de verosimilitud obtenemos:

87

Vemos que ninguno de los contrastes es significativo, por lo que no se incluir


en el modelo ninguna covariable ms. As que el modelo final que obtenemos es el
que incluye como variables independientes, duracin del dolor en la ltima semana,
nmero de visitas al mdico de atencin primaria y localizacin del dolor en las
cervicales. Este modelo presenta una devianza de 1672.902 Mostramos a
continuacin los parmetros del modelo mediante la funcin summary.

88

4.2.3.2.

Odds ratios e Intervalos de Confianza

Calculamos a continuacin las exponenciales de los coeficientes, las odds


ratios, y los intervalos de confianza de stos al 95%, ya que el modelo se interpretar
en base a stas, por ser ms comn en la aplicacin dar los resultados en funcin de
los cocientes de ventajas.
-

Odds ratios

Para el clculo de las odds ratios de los coeficientes del modelo, se utiliza la
funcin exp, como vemos

a continuacin. As obtenemos para cada coeficiente

obtenido en el modelo una odds ratio.

Podemos ver que todos los cocientes de ventajas son mayores que 1, por lo
que todas las variables actan como factores de riesgo para los tipos de depresin.
Ms adelante se interpretarn detalladamente.
-

Intervalos de confianza al 95%.

Para calcular los intervalos de confianza de las odds ratios, se calcularn


primero los de los coeficientes, mediante el comando confint y posteriormente a
estos intervalos se les calculan la exponencial.

Se puede observar que la mayora de los intervalos de confianza no contienen


al 1, por lo que afirman la significacin de los parmetros por el test de Wald.

89

4.2.3.3.
-

Contraste sobre los parmetros.

Contraste de Wald

A continuacin contrastaremos los parmetros del modelo mediante el


contraste de Wald, el cual, tal y como se describi en la teora, se tena que el
estadstico era igual a: =

,
2

es decir, el cociente entre el coeficiente al

cuadrado y su error estndar, que tiene distribucin chi-cuadrado asinttica con un


grado de libertad. En nuestro caso, al obtener del modelo el valor del estadstico como
el valor del coeficiente entre el error estndar, se tiene que sigue una distribucin
normal de media 0 y desviacin tpica 1, por lo que calcularemos las probabilidades de
estos estadsticos mediante una distribucin normal.
As que obtendremos a continuacin los niveles de significacin de este
estadstico para contrastar si conservamos en el modelo cada uno de los coeficientes
de las variables explicativas considerando un nivel de significacin de 0.05.
Para ello, construimos una matriz con los estadsticos obtenidos en el modelo:
wald<-matrix(c(-4.991448,4.05727347,3.841494,2.3658128,4.374602,2.26473110,2.133899,2.4648983,3.860910,0.09863764,2.710359,0.9030975,5.969838,4.74582515,2.255481,3.2054501),nrow=4,ncol=4)

Obteniendo en las filas los estadstico de cada variable y las columnas


corresponden a cada categora de la variable dependiente, cada tipo de depresin.
Mediante la funcin pnorm, calculamos las probabilidades, en el caso de la
primera fila se tendr que calcular por la cola izquierda, al ser los valores negativos, y
en el resto de filas se calculan por la cola de la derecha. As obtenemos que las
probabilidades vienen dadas por:
pnorm(wald[1,], mean=0, sd=1, lower.tail=TRUE)

90

pnorm(wald[2:4,], mean=0, sd=1, lower.tail=FALSE)

Como vemos casi todos las probabilidades son mayores de 0.05, por lo que se
conservan en el modelo todas las variables, los nicos coeficientes que no obtienen
significacin estadstica corresponden a la duracin del dolor en la ltima semana y la
localizacin en las cervicales, ambos en otros tipos de depresin, pero al presentar
significacin estas variables en el resto de categoras de la variable dependiente
mantenemos estas covariables en el modelo.

Contraste condicional de razn de verosimilitud

Por otra parte, al realizar un contraste de razn de verosimilitud, para contrastar


el efecto conjunto de las variables predictoras, comparando las devianzas del modelo
final con el modelo con slo la constante, se obtiene el siguiente resultado.

Este estadstico que sigue una distribucin chi-cuadrado que presenta 12


grados de libertad es significativo con una probabilidad de error del 5%, por lo que
podemos decir que el modelo presenta un buen ajuste, es decir, el modelo predice
bien la probabilidad de ocurrencia de las categoras de la variable dependiente. Por lo
que se rechaza la hiptesis nula de que todos los coeficientes del modelo, a excepcin
de la constante, sean cero.

4.2.3.4.

Interpretacin del modelo

Una vez estudiado el ajuste del modelo presentamos a continuacin el modelo


final con los parmetros (B), sus errores estndares (EE), las odds ratio (OR), el
estadstico de Wald, el intervalo de confianza al 95% de las OR (IC95%) y el p-valor.
Posteriormente interpretamos sus parmetros en trminos de cociente de ventajas.

91

Este modelo final contiene un total de 589 individuos, ya que en el modelo de


regresin logstica multinomial no se tiene en cuenta los casos que presentan valores
perdidos en alguna de las variables.

Tabla 7. Factores asociados a los tipos de depresin. Modelo de regresin


logstica multinomial.
Tipos de
depresin

Depresin
mayor

Depresin
menor

Otros tipos
depresin

Ms un tipo
depresin

OR

IC95% OR

p-valor

-2.172 (0.435)

Test de
Wald
-4.991

0.114

(0.049;0.267)

<0.001

0.023 (0.006)

4.057

1.023

(1.012;1.035)

<0.001

0.309 (0.081)

3.841

1.363

(1.164;1.596)

<0.001

0.626 (0.264)

2.366

1.869

(1.113;3.138)

0.009

-2.219 (0.507)

-4.375

0.109

(0.040;0.29)

<0.001

0.015 (0.007)

2.265

1.015

(1.002;1.028)

0.012

0.199 (0.093)

2.134

1.220

(1.016;1.465)

0.016

0.801 (0.325)

2.465

2.228

(1.178;4.212)

0.007

-2.487 (0.644)

-3.861

0.083

(0.024;0.294)

<0.001

0.001 (0.009)

0.099

1.001

(0.983;1.019)

0.461

0.313 (0.116)

2.710

1.368

(1.091;1.716)

0.003

0.388 (0.430)

0.903

1.475

(0.635;3.426)

0.183

-3.124 (0.523)

-5.969

0.044

(0.016;0.123)

<0.001

0.031 (0.007)

4.746

1.032

(1.019;1.045)

<0.001

0.199 (0.088)

2.255

1.220

(1.026;1.450)

0.012

1.011 (0.315)

3.205

2.748

(1.481;5.098)

<0.001

Variables Independientes
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales

B (EE)

Cuando interpretamos las odds ratios de cada variable, se asume que el resto
de variables independientes se mantienen fijas. Interpretaremos cada una de las
variables independientes entre los distintos tipos de depresin tomando como
referencia sin depresin. (Tabla 7)
Con respecto a la duracin del dolor en la ltima semana, se presentarn los
resultados considerando un aumento en un 10% del porcentaje del da con dolor, por
lo que las odds ratio sern igual a exp(10*b). A medida que aumenta un 10% el
porcentaje del da con dolor en la ltima semana, la ventaja de presentar depresin
mayor frente a no presentar ningn tipo de depresin queda multiplicada por 1.26

92

veces, (exp(10*0.023)). La ventaja de presentar depresin menor frente a no presentar


depresin se multiplica por 1.16 veces a medida que aumenta un 10% la duracin del
dolor en la ltima semana. Presentar otros tipos de trastornos, distintos de la
depresin mayor y la depresin menor, no resulta estar relacionado con la duracin del
dolor en la ltima semana (p=461). La ventaja de presentar ms de un trastorno
mental frente a no presentar ninguno, se multiplica por 1.36 veces ms a medida que
aumenta en un 10% la duracin del dolor. Este resultado concuerda con el obtenido
por Agera et al., los que tambin obtienen una relacin directa entre los trastornos
mentales y la duracin del dolor en la ltima semana (30).
La ventaja a favor de tener depresin mayor frente a no tenerla queda
multiplicada por 1.36 veces a medida que aumenta en una unidad el nmero de visitas
al mdico de atencin primaria. Lo mismo ocurre al presentar otros tipos de depresin,
distintos a la depresin mayor y a la depresin menor, frente a no tener depresin. La
ventaja de tener depresin menor o de tener ms de un trastorno mental frente a no
tener depresin se multiplica por 1.22 veces, a medida que aumenta en una unidad el
nmero de visitas al mdico. Estos resultados tambin se replican a menudo en otros
estudios (30,47).
Por ltimo, con respecto a presentar dolor en las cervicales podemos decir que,
presentar depresin mayor o depresin menor frente a no tener ningn tipo de
depresin es aproximadamente dos veces superior (OR=1.869 y OR=2.228,
respectivamente) si se tiene dolor en las cervicales con respecto a no presentar dolor
en esa localizacin. La ventaja de presentar ms de un tipo de depresin frente a no
tener ninguno se multiplica por 2.748 veces si la localizacin del dolor de los pacientes
es en las cervicales con respecto a presentarlo en otra localizacin. No se muestra
relacin si se tiene otros tipos de depresin distintos de depresin mayor o depresin
menor con respecto al dolor en las cervicales (p=183).

4.2.3.5. Ajuste global del modelo

Para realizar el ajuste global del modelo, realizamos el test de chi-cuadrado de


la razn de verosimilitud comparando el modelo ajustado con el modelo saturado, que
resulta de multiplicar todas las variables, la ausencia de significacin de este test
significa que el ajuste del modelo es bueno. Los grados de libertad del test son 16 (32
parmetros del modelo saturado 16 parmetros del modelo ajustado). Calculando
este estadstico y su p-valor se obtiene:

93

Como vemos la significacin de este test no es significativa, por lo que el ajuste


del modelo es vlido, es decir el modelo es adecuado para el ajuste de los datos.

Tasa de clasificaciones correctas

Para cuantificar la bondad del ajuste global del modelo tambin utilizamos la
tasa de clasificaciones correctas, que nos permite clasificar cada observacin en la
categora ms probable, construyendo as una matriz de clasificacin observadospredichos.
Para calcular esta tasa, debemos de contabilizar de la matriz anterior los
valores coincidentes de los observados y de los predichos. Para obtener los valores
predichos utilizamos la funcin predict, explicada en el captulo 3, pidiendo que nos
devuelva, mediante type=class, de cada individuo la categora estimada a la que
pertenece, basndonos en nuestro modelo final, modelo1. De la siguiente manera
obtenemos el vector de las observaciones y el de las predicciones:
obs<-Osteomuscular2$TIPOS_DEPRESION
pre<-predict(modelo1, type="class")
Vemos a continuacin una muestra del resultado que se obtiene:

Una vez que se tiene los dos vectores, los observados y los predichos, los
comparamos y contabilizamos los casos coincidentes y la tasa de clasificaciones

94

correctas ser igual a los casos coincidentes entre el tamao total de la muestra, que
en este caso sera 589, que son los casos que se recogen en el modelo.
Con la siguiente sentencia obtenemos el resultado de la tasa de clasificaciones
correctas:

Como vemos la tasa de clasificaciones correctas es de 39.39%, A travs de la


misma se puede concluir acerca de la eficacia predictiva del modelo, que al ser de un
39.39%, el modelo no es demasiado predictivo, es decir, slo un 39.39% de los casos
analizados logran ser correctamente clasificados, al coincidir el tipo de depresin de
origen con el pronosticado por el modelo.

Calidad del ajuste del modelo

Para medir la calidad del ajuste del modelo se utiliza como vimos en el captulo
2 los coeficientes Pseudo-R2 de Mc-Fadden, de Cox-Snell y de Nagelkerke. El clculo
de stos dependen del valor de las devianzas del modelo final y del modelo inicial con
slo la constante, por lo que los calculamos de la siguiente manera:
Si tenemos nuestro modelo final, llamado modelo1 y el modelo con la constante
llamado modelo0, y sean respectivamente, y 0 sus desvianzas, obtenemos los
siguientes coeficientes:
-

R2 de Mc-Fadden
2

=1

En R lo calculamos como:

= 0.04181882
0

95

Este valor es menor que 0.2, por lo que podramos decir que no se considera
que el modelo presente un buen ajuste.
-

R2 de Cox-Snell

2
= 1 exp

0
= 0.1165843

Difcilmente este parmetro alcanza un valor cercano a 1, pero se obtiene un


valor pequeo, por lo que al igual que antes no se obtiene un buen ajuste.
-

R2 de Nagelkerke.
Este parmetro viene dado por la siguiente expresin:
2 =

0
1 exp

1 exp 0

= 0.1229275

Al igual que en los casos anteriores, este valor nos demuestra que nuestro
modelo no presenta un ajuste muy bueno.

4.2.3.6.

Validacin del modelo

Por ltimo realizamos la validacin del modelo mediante los residuos de la


devianza, considerando que los residuos que indican una falta de ajuste global son
aquellos cuyo valor absoluto son mayores que 4, y se considera que la observacin

96

correspondiente es anormal. Estos residuos se calculan mediante la funcin


residuals y realizando un descriptivo de todos los residuos obtenemos:

Como se puede observar, entre los mximos y mnimos de los valores


anteriores, todos los residuos en valor absoluto son menores de 1, por lo que no hay
ninguna observacin que se considere anormal.

97

4.3. CONCLUSIONES
Hemos obtenido que la prevalencia de depresin en general es alta en
pacientes con dolor de tipo osteomuscular, especialmente la depresin mayor y
tambin hay un porcentaje alto de individuos que presentan ms de un tipo de
depresin.
Adems, hemos visto que existen diferencias entre los distintos tipos de
depresin o no presentar ningn trastorno mental por sexos, edad, estado civil, nivel
de estudios, en presentar trastornos del sueo, en las distintas localizaciones del
dolor, excepto en las extremidades, en el nmero total de localizaciones, en la
intensidad del dolor tanto general como en la ltima semana, en la influencia del dolor
en las actividades de la vida diaria, en la duracin total del dolor y en el nmero de
veces que ha consultado al mdico de atencin primaria.
A pesar de influir todas estas variables segn el tipo de depresin cuando se
realiza el anlisis bidimensional, cuando se realiza el modelo ajustando con ellas, slo
influyen la duracin del dolor en la ltima semana, el nmero de visitas al mdico de
atencin primaria y la localizacin del dolor en las cervicales. As que podemos
concluir que los factores que afectan y pueden llegar aumentar el riesgo de presentar
algn tipo de depresin de los estudiados o de presentar ms de uno, frente a no
presentar ningn trastorno mental, es decir, son factores de riesgo para la depresin,
son presentar dolor en un mayor porcentaje del da en la ltima semana, acudir un
mayor nmero de veces al mdico de atencin primaria y presentar dolor en las
cervicales frente a presentarlo en otra localizacin.
Teniendo en cuenta estos resultados, podemos concluir que la depresin en
pacientes con dolor osteomuscular est infradiagnosticada en atencin primaria.
Parece necesaria la exploracin de estos trastornos mentales de manera sistemtica
en los pacientes con dolor crnico con objeto de realizar un diagnstico ms preciso y
un tratamiento adecuado.
Con respecto a la aplicacin del modelo, podemos concluir que acudir a la
estadstica y en concreto a modelos que nos predice el riesgo de presentar una
enfermedad y qu factores estn asociados a este riesgo, es una buena opcin e
importante a la hora de intentar disear estrategias preventivas, asistenciales o
teraputicas para el tratamiento de problemas de salud. Hemos visto que el modelo
que se ha obtenido se ajusta bien y es vlido, aunque no presente muy buena calidad
o no tenga tanta eficacia predictiva.

98

ANEXOS. CLCULOS CON R


IMPORTACIN DE LOS DATOS DESDE SPPS
read.spss("D:/Usuario Mara/Desktop/TRABAJO FINAL/DEDO_Osteo_Reducida.sav",
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)

RECODIFICAR LA VARIABLE TIPOS DE DEPRESIN


Osteomuscular2$TIPOS_DEPRESION <-recode(Osteomuscular2$TIPOS_DEPRESION2,
'c("DISTIMIA","TRASTORNO BIPOLAR","TRASTORNO POR DROGRAS","REMISIN PARCIAL" ) =
"OTROS TIPOS DE TRASTORNOS"; ; ', as.factor.result=TRUE)

Apartado 4.2.1. ANLISIS DESCRIPTIVO


Tabla 1. Frecuencias de las variables cualitativas.
Table <- table(Osteomuscular2$DEPRESION)
.Table # counts for DEPRESION
100*.Table/sum(.Table) # percentages for DEPRESION
.Table <- table(Osteomuscular2$DESPIERTA_PACIENTE)
.Table # counts for DESPIERTA_PACIENTE
100*.Table/sum(.Table) # percentages for DESPIERTA_PACIENTE
.Table <- table(Osteomuscular2$DUERME_PAC_MENOS)
.Table # counts for DUERME_PAC_MENOS
100*.Table/sum(.Table) # percentages for DUERME_PAC_MENOS
.Table <- table(Osteomuscular2$ESTADO_SOCIAL)
.Table # counts for ESTADO_SOCIAL
100*.Table/sum(.Table) # percentages for ESTADO_SOCIAL
.Table <- table(Osteomuscular2$LOC_DOLOR_ARTICULACIONES)
.Table # counts for LOC_DOLOR_ARTICULACIONES
100*.Table/sum(.Table) # percentages for LOC_DOLOR_ARTICULACIONES
.Table <- table(Osteomuscular2$LOC_DOLOR_CERVICAL)
.Table # counts for LOC_DOLOR_CERVICAL
100*.Table/sum(.Table) # percentages for LOC_DOLOR_CERVICAL
.Table <- table(Osteomuscular2$LOC_DOLOR_ESPALDA)
.Table # counts for LOC_DOLOR_ESPALDA
100*.Table/sum(.Table) # percentages for LOC_DOLOR_ESPALDA
.Table <- table(Osteomuscular2$LOC_DOLOR_EXTREMIDDADES)
.Table # counts for LOC_DOLOR_EXTREMIDDADES
100*.Table/sum(.Table) # percentages for LOC_DOLOR_EXTREMIDDADES
.Table <- table(Osteomuscular2$NIVEL_EDUCATIVO)
.Table # counts for NIVEL_EDUCATIVO
100*.Table/sum(.Table) # percentages for NIVEL_EDUCATIVO
.Table <- table(Osteomuscular2$sexo1)
.Table # counts for sexo1
100*.Table/sum(.Table) # percentages for sexo1
.Table <- table(Osteomuscular2$TIPOS_DEPRESION)
.Table # counts for TIPOS_DEPRESION
100*.Table/sum(.Table) # percentages for TIPOS_DEPRESION

99

remove(.Table)

Tabla 1. Descriptivos de las variables cuantitativas


numSummary(Osteomuscular2[,c("EDAD", "MES_SINTOMAS", "NUM_HOSPITALIZACION",
"NUM_LOC", "NUM_PRUEBAS_REALIZA", "NUM_VISITA_ESPECIALI", "NUM_VISITA_MEDICO_AP",
"SINTOMA_DOLOR1", "SINTOMA_DOLOR7", "SINTOMA_DOLOR8")], statistics=c("mean", "sd",
"quantiles"), quantiles=c(0,.25,.5,.75,1))

De este anlisis se obtienen los siguientes resultados:

Intervalos de confianza de la prevalencia de depresin


Mostramos los comandos para el clculo del intervalo de confianza de la depresin:
prop.test(751,1006, alternative = "two.sided", conf.level=0.95)

Figura 1. Prevalencia de depresin en toda la muestra y por sexos.


pie(table(Osteomuscular2$DEPRESION), laves=c(NO(25.4 %), S(74.7 %)), main="DEPRESIN",
col=rainbow(length(levels(Osteomusculares$DEPRESION))))

Para realizar el diagrama de sectores por sexo, antes se debe de seleccionar el


subconjunto de individuos de cada sexo mediante la funcin subset.
HOMBRES <- subset(Osteomusculares, sexo1=="HOMBRE")
MUJERES<- subset(Osteomusculares, sexo1=="MUJER")

Una vez seleccionado se representan los diagramas de sectores:


pie(table(HOMBRES$DEPRESION), labels=c("NO(37.5%)","S(62.5%)"), main="PREVALENCIA
DEPRESIN EN HOMBRES", col=rainbow(length(levels(HOMBRES$DEPRESION))))
pie(table(MUJERES$DEPRESION), labels=c("NO(21.3%)","S(78.7%)"), main="PREVALENCIA
DEPRESIN EN MUJERES", col=rainbow(length(levels(MUJERES$DEPRESION))))

100

Figura 2. Diagrama de barras de la prevalencia de depresin y de los tipos de


depresin por grupos de edad.
Para la depresin:
Tabla<-xtabs(~DEPRESION+CL_EDAD, data=Osteomuscular2)
Tabaux<-colPercents(Tabla)
Tablapor<-Tabaux[1:2,]
barplot(Tablapor, xlab="Grupos de edad", ylab="Porcentaje",legend.text=c("Sin depresin", "Con
Depresin"),main="Prevalencia de depresin por edad", beside=TRUE, col=cm.colors(2))

Para los tipos de depresin:


.Table <- xtabs(~TIPOS_DEPRESION+CL_EDAD, data=Osteomuscular2)
Tablapor<-totPercents(.Table) # Percentage of Total
Tablabar<-Tablapor[1:5,1:7]
barplot(Tablabar, xlab="Porcentaje", ylab="Grupos de edad", xlim=c(0,10), horiz=TRUE,
legend.text=c("Ms de un tipo de depresin", "Otros tipos de trastornos", "Sin depresin", "Trastorno
depresivo mayor", "Trastorno depresivo menor"),main="Prevalencia de tipos de depresin por edad",
beside=TRUE, col=cm.colors(5))

Figura 3. Diagrama de barra de los tipos de depresin


barplot(100*.Table/sum(.Table), names.arg=c("Ms de un tipo de trastorno","Otros tipos de
trastornos","Sin depresin","Depresin mayor","Depresin menor"), xlab="TIPOS DE DEPRESIN",
ylab="Porcentaje", main="Distribucin de los tipos de depresin", beside=TRUE, col="red", ylim= c(0,50))

Figura 4. Histograma de la intensidad de dolor.


Hist(Osteomuscular2$SINTOMA_DOLOR1, scale="percent", xlab="INTENSIDAD DOLOR GENERAL",
ylab="Porcentaje", col="blue")

Apartado 4.2.2. ANLISIS BIDIMENSIONAL


Tabla 2. Relacin entre los tipos de depresin y las variables categricas
estudiadas.
.Table <- xtabs(~TIPOS_DEPRESION+sexo1, data=Osteomuscular2)
.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+ESTADO_SOCIAL, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

101

.Table <- xtabs(~TIPOS_DEPRESION+NIVEL_EDUCATIVO, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+DUERME_PAC_MENOS, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+DESPIERTA_PACIENTE, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_CERVICAL, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

102

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_ESPALDA, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_ARTICULACIONES, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

.Table <- xtabs(~TIPOS_DEPRESION+LOC_DOLOR_EXTREMIDDADES, data=Osteomuscular2)


.Table
.Test <- chisq.test(.Table, correct=FALSE)
.Test

103

Tabla 3. Test de normalidad de Shapiro-Wilk para variables cuantitativas


continuas.
> shapiro.test(Osteomuscular2$EDAD)
Shapiro-Wilk normality test
data: Osteomuscular2$EDAD
W = 0.9967, p-value = 0.0659
> shapiro.test(Osteomuscular2$MES_SINTOMAS)
Shapiro-Wilk normality test
data: Osteo$MES_SINTOMAS
W = 0.6704, p-value < 2.2e-16
> shapiro.test(Osteomuscular2$NUM_LOC)
Shapiro-Wilk normality test
data: Osteo$NUM_LOC
W = 0.8673, p-value < 2.2e-16
> shapiro.test(Osteomuscular2$NUM_VISITA_MEDICO_AP)
Shapiro-Wilk normality test
data: Osteo$NUM_VISITA_MEDICO_AP
W = 0.8134, p-value < 2.2e-16
> shapiro.test(Osteomuscular2$NUM_VISITA_ESPECIALI)
Shapiro-Wilk normality test
data: Osteo$NUM_VISITA_ESPECIALI
W = 0.4564, p-value < 2.2e-16
> shapiro.test(Osteomuscular2$NUM_PRUEBAS_REALIZA)
Shapiro-Wilk normality test
data: Osteo$NUM_PRUEBAS_REALIZA
W = 0.8053, p-value < 2.2e-16
> shapiro.test(Osteomuscular2$NUM_HOSPITALIZACION)
Shapiro-Wilk normality test
data: Osteo$NUM_HOSPITALIZACION
W = 0.4738, p-value < 2.2e-16
>shapiro.test(Osteomuscular2$SINTOMA_DOLOR1)
Shapiro-Wilk normality test
data: Osteomusculares$SINTOMA_DOLOR1
W = 0.985, p-value = 1.200e-08
> shapiro.test(Osteomuscular2$SINTOMA_DOLOR7)
Shapiro-Wilk normality test
data: Osteomusculares$SINTOMA_DOLOR7
W = 0.9764, p-value = 1.058e-11
> shapiro.test(Osteomuscular2$SINTOMA_DOLOR8)
Shapiro-Wilk normality test
data: Osteomusculares$SINTOMA_DOLOR8
W = 0.9773, p-value = 1.920e-11

104

Tabla 4. Relacin entre los tipos de depresin y las variables cuantitativas


continuas estudiadas. (Medias (DT))
Para la edad, se realiza el ANOVA:
.Anova <- lm(EDAD ~ TIPOS_DEPRESION, data=Osteomuscular2)
anova(.Anova)
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, mean, na.rm=TRUE) # means
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, sd, na.rm=TRUE) # std.
deviations
tapply(Osteomuscular2$EDAD, Osteomuscular2$TIPOS_DEPRESION, function(x) sum(!is.na(x))) #
counts
remove(.Anova)

Obtenindose:

Para el resto de variables se utiliza el Test no paramtrico de Kruskal-Wallis.


tapply(Osteomuscular2$SINTOMA_DOLOR1, Osteomuscular2$TIPOS_DEPRESION, median,
na.rm=TRUE)
kruskal.test(SINTOMA_DOLOR1 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$MES_SINTOMAS, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE)


kruskal.test(MES_SINTOMAS ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_LOC, Osteomuscular2$TIPOS_DEPRESION, median, na.rm=TRUE)


kruskal.test(NUM_LOC ~ TIPOS_DEPRESION, data=Osteomuscular2)

105

tapply(Osteomuscular2$SINTOMA_DOLOR7, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(SINTOMA_DOLOR7 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$SINTOMA_DOLOR8, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(SINTOMA_DOLOR8 ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_VISITA_MEDICO_AP, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(NUM_VISITA_MEDICO_AP ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_VISITA_ESPECIALI, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(NUM_VISITA_ESPECIALI ~ TIPOS_DEPRESION, data=Osteomuscular2)

tapply(Osteomuscular2$NUM_PRUEBAS_REALIZA, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(NUM_PRUEBAS_REALIZA ~ TIPOS_DEPRESION, data=Osteomuscular2)

106

tapply(Osteomuscular2$NUM_HOSPITALIZACION, Osteomuscular2$TIPOS_DEPRESION, median,


na.rm=TRUE)
kruskal.test(NUM_HOSPITALIZACION ~ TIPOS_DEPRESION, data=Osteomuscular2)

Tabla 5. Test de correlaciones de Pearson entre la edad y variables cuantitativas


continuas
cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR1, alternative="two.sided",
method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR7, alternative="two.sided",


method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR8, alternative="two.sided",


method="pearson")

107

cor.test(Osteomuscular2$EDAD, Osteomuscular2$MES_SINTOMAS,
alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_LOC,alternative="two.sided", method="pearson")

cor.test(Osteomuscular2$EDAD,
method="pearson")

Osteomuscular2$NUM_VISITA_MEDICO_AP,alternative="two.sided",

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_VISITA_ESPECIALI,alternative="two.sided",
method="pearson")

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_PRUEBAS_REALIZA,alternative="two.sided",
method="pearson")

108

cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_HOSPITALIZACION,alternative="two.sided",
method="pearson")

Apartado 4.2.3.
MULTINOMIAL

AJUSTE

DEL

MODELO

DE

REGRESIN

LOGSTICA

Para el ajuste del modelo se muestran los comandos utilizados en R, pero los
resultados, las salidas, se muestran en el captulo 4, por lo que no se volvern a
mostrar.
Apartado 4.2.3.1. SELECCIN DEL MODELO
PASO 1
modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data= Osteomuscular2, trace=FALSE)
modelo1 <- multinom(TIPOS_DEPRESION ~ sexo1, data= Osteomuscular2, trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ EDAD, data= Osteomuscular2, trace=FALSE)
modelo3 <- multinom(TIPOS_DEPRESION ~ DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data=
Osteomuscular2, trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2,
trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~ DUERME_PAC_MENOS, data= Osteomuscular2,
trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~ DESPIERTA_PACIENTE, data= Osteomuscular2,
trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ESPALDA, data= Osteomuscular2,
trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ARTICULACIONES, data= Osteomuscular2,
trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_EXTREMIDDADES, data=
Osteomuscular2, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR1, data= Osteomuscular2,
trace=FALSE)
modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR7, data= Osteomuscular2,
trace=FALSE)
modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2,
trace=FALSE)
modelo14 <- multinom(TIPOS_DEPRESION ~ NUM_VISITA_MEDICO_AP, data= Osteomuscular2,
trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo0, modelo1)
anova(modelo0, modelo2)
anova(modelo0, modelo3)
anova(modelo0, modelo4)
anova(modelo0, modelo5)
anova(modelo0, modelo6)
anova(modelo0, modelo7)

109

anova(modelo0, modelo8)
anova(modelo0, modelo9)
anova(modelo0, modelo10)
anova(modelo0, modelo11)
anova(modelo0, modelo12)
anova(modelo0, modelo13)
anova(modelo0, modelo14)

PASO 2
modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2,
trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+EDAD, data= Osteomuscular2,
trace=FALSE)
modelo3 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data= Osteomuscular2,
trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS,
data= Osteomuscular2, trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DUERME_PAC_MENOS, data=
Osteomuscular2, trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DESPIERTA_PACIENTE, data=
Osteomuscular2, trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_CERVICAL, data=
Osteomuscular2, trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ESPALDA, data=
Osteomuscular2, trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ARTICULACIONES,
data= Osteomuscular2, trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_EXTREMIDDADES,
data= Osteomuscular2, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR1, data=
Osteomuscular2, trace=FALSE)
modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR7, data=
Osteomuscular2, trace=FALSE)
modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data=
Osteomuscular2, trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo1, modelo2)
anova(modelo1, modelo3)
anova(modelo1, modelo4)
anova(modelo1, modelo5)
anova(modelo1, modelo6)
anova(modelo1, modelo7)
anova(modelo1, modelo8)
anova(modelo1, modelo9)
anova(modelo1, modelo10)
anova(modelo1, modelo11)
anova(modelo1, modelo12)
anova(modelo1, modelo13)

PASO 3
Inclusin de variables:
modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data=
Osteomuscular2, trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+EDAD,
data= Osteomuscular2, trace=FALSE)

110

modelo3 <- multinom(TIPOS_DEPRESION ~


SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DIVORCIADO_SEPARADO+SOLTERO+VIUDO,
data= Osteomuscular2, trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+EST
UD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DUERME_PAC_MENOS, data= Osteomuscular2,
trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+DESPIERTA_PACIENTE, data= Osteomuscular2,
trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_ESPALDA, data= Osteomuscular2,
trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_ARTICULACIONES, data=
Osteomuscular2, trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_EXTREMIDDADES, data=
Osteomuscular2o, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+SINTOMA_DOLOR1, data= Osteomuscular2,
trace=FALSE)
modelo12 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+SINTOMA_DOLOR7, data= Osteomuscular2,
trace=FALSE)

Contrastes de razn de verosimilitud:


anova(modelo1, modelo2)
anova(modelo1, modelo3)
anova(modelo1, modelo4)
anova(modelo1, modelo5)
anova(modelo1, modelo6)
anova(modelo1, modelo7)
anova(modelo1, modelo8)
anova(modelo1, modelo9)
anova(modelo1, modelo10)
anova(modelo1, modelo11)
anova(modelo1, modelo12)

Posibilidad de eliminacin de una variable incluida en pasos anteriores:


modelo13<- multinom(TIPOS_DEPRESION ~ NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL,
data= Osteomuscular2, trace=FALSE)
anova(modelo7,modelo13)

PASO 4
Inclusin de variables:
modelo1 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+EDAD, data=
Osteomuscular2, trace=FALSE)

111

modelo3 <- multinom(TIPOS_DEPRESION ~


SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DIVORCIADO_SEPARAD
O+SOLTERO+VIUDO, data= Osteomuscular2, trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+ESTUD_PRIMARIOS+EST
UD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2, trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DUERME_PAC_MENOS,
data= Osteomuscular2, trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+DESPIERTA_PACIENTE,
data= Osteomuscular2, trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_ESPALDA,
data= Osteomuscular2, trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_ARTICULA
CIONES, data= Osteomuscular2, trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+LOC_DOLOR_EXTREMID
DADES, data= Osteomuscular2, trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+SINTOMA_DOLOR1,
data= Osteomuscular2, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+SINTOMA_DOLOR7,
data= Osteomuscular2, trace=FALSE)

Contraste de razn de verosimilitudes:


anova(modelo1, modelo2)
anova(modelo1, modelo3)
anova(modelo1, modelo4)
anova(modelo1, modelo5)
anova(modelo1, modelo6)
anova(modelo1, modelo7)
anova(modelo1, modelo8)
anova(modelo1, modelo9)
anova(modelo1, modelo10)
anova(modelo1, modelo11)

Resultados modelo final:


summary(modelo1, cor=FALSE, Wald=TRUE)

Apartado 4.2.3.2. CLCULO DE LAS ODDS RATIOS Y LOS INTERVALOS DE


CONFIANZA
coeficientes<-coef(modelo1)
exp(coeficientes)
ic<-confint(modelo1)
exp(ic)

Apartado 4.2.3.3. CONTRASTE SOBRE LOS PARMETROS.


-

Contraste de Wald

wald<-matrix(c(-4.991448,4.05727347,3.841494,2.3658128,-4.374602,2.26473110,2.133899,2.4648983,3.860910,0.09863764,2.710359,0.9030975,-5.969838,4.74582515,2.255481,3.2054501),nrow=4,ncol=4)
wald
pnorm(wald[2:4,], mean=0, sd=1, lower.tail=FALSE)
pnorm(wald[1,], mean=0, sd=1, lower.tail=TRUE)

112

Contraste condicional de razn de verosimilitud

modelo0<-multinom(TIPOS_DEPRESION ~1,data= Osteomuscular2, trace=FALSE)


anova(modelo0,modelo1)

Apartado 4.2.3.5. AJUSTE GLOBAL DEL MODELO


Test de chi-cuadrado de razn de verosimilitud:
modeloS<- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8*NUM_VISITA_MEDICO_AP*LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
deviance(modelo1)-deviance(modelos)
pchisq(deviance(modelo1)-deviance(modeloS), df=16)

TASA DE CLASIFICACIONES CORRECTAS

pre<-predict(modelo1, type="class")
obs<-Osteomuscular2$TIPOS_DEPRESION
cont=0
for (i in 1:589) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont}
tcc<-cont/589
tcc

CALIDAD DEL AJUSTE DEL MODELO

Clculo de las pseudo R2


dv1<-deviance(modelo1)
dv0<-deviance(modelo0)
mf<-1-(dv1/dv0)
mf
cs<-1-exp((dv1-dv0)/589)
cs
n<-(1-exp((dv1-dv0)/589))/(1-exp(-dv0/589))
n

Apartado 4.2.3.6. VALIDACIN DEL MODELO


residuos<-residuals(modelo1)
numSummary(residuos, statistics=c("mean", "sd", "quantiles"), quantiles=c( 0,.25,.5,.75,1 ))

113

BIBLIOGRAFA
(1) Michael J. Crawley. The R book. England: Wiley; 2007.
(2) Julian J. Faraway. Practical Regression and Anova using R. ; 2002.
(3) Arriaza Gmez, Fernndez Palacn,Lpez Snchez, Muoz Mrquez, Prez Plaza,
Snchez Navas. Titul. Estadstica Bsica con R y R-commander. Primera ed. Cdiz:
Servicio de Publicaciones de la Universidad de Cdiz; 2008.
(4) Means-Christensen AJ, Roy-Byrne PP, Sherbourne CD, Craske MG, Stein MB.
Relationships among pain, anxiety, and depression in primary care. Depress Anxiety
2008;25(7):593-600.
(5) Garcia-Campayo J, Ayuso-Mateos JL, Caballero L, Romera I, Aragones E,
Rodriguez-Artalejo F, et al. Relationship of Somatic Symptoms With Depression
Severity, Quality of Life, and Health Resources Utilization in Patients With Major
Depressive Disorder Seeking Primary Health Care in Spain. Prim Care Companion J
Clin Psychiatry 2008;10(5):355-362.
(6) Campbell LC, Clauw DJ, Keefe FJ. Persistent pain and depression: a
biopsychosocial perspective. Biol Psychiatry 2003 Aug 1;54(3):399-409.
(7) Bair MJ, Robinson RL, Katon W, Kroenke K. Depression and pain comorbidity: a
literature review. Arch Intern Med 2003 Nov 10;163(20):2433-2445.
(8) Kroenke K, Shen J, Oxman TE, Williams JW,Jr, Dietrich AJ. Impact of pain on the
outcomes of depression treatment: results from the RESPECT trial. Pain 2008
Jan;134(1-2):209-215.
(9) Ohayon MM, Schatzberg AF. Using chronic pain to predict depressive morbidity in
the general population. Arch Gen Psychiatry 2003 Jan;60(1):39-47.
(10) Levinson D, Karger CJ, Haklai Z. Chronic physical conditions and use of health
services among persons with mental disorders: results from the Israel National Health
Survey. Gen Hosp Psychiatry 2008 May-Jun;30(3):226-232.
(11) Lowe B, Spitzer RL, Williams JB, Mussell M, Schellberg D, Kroenke K.
Depression, anxiety and somatization in primary care: syndrome overlap and functional
impairment. Gen Hosp Psychiatry 2008 May-Jun;30(3):191-199.

114

(12) Bair MJ, Kroenke K, Sutherland JM, McCoy KD, Harris H, McHorney CA. Effects
of depression and pain severity on satisfaction in medical outpatients: analysis of the
Medical Outcomes Study. J Rehabil Res Dev 2007;44(2):143-152.
(13) Kirmayer LJ, Robbins JM, Dworkind M, Yaffe MJ. Somatization and the
recognition of depression and anxiety in primary care. Am J Psychiatry 1993
May;150(5):734-741.
(14) Hosmer DW LS. Applied logistic regression. Second edition ed. New York: Wiley;
2000.
(15) Mariz Cde A, Albuquerque Mde F, Ximenes RA, Melo HR, Bandeira F, Oliveira
TG, et al. Body mass index in individuals with HIV infection and factors associated with
thinness and overweight/obesity. Cad Saude Publica 2011 Oct;27(10):1997-2008.
(16) Khuwaja AK, Khawaja S, Motwani K, Khoja AA, Azam IS, Fatmi Z, et al.
Preventable Lifestyle Risk Factors for Non-Communicable Diseases in the Pakistan
Adolescents Schools Study 1 (PASS-1). J Prev Med Public Health 2011
Sep;44(5):210-217.
(17) Langley PC, Molina JS, Ferri CS, P Rez Hern Ndez CN, Varillas AT, Angel RuizIban M. The association of pain with labor force participation, absenteeism, and
presenteeism in Spain. J Med Econ 2011;14(6):835-845.
(18) Pharris A, Hoa NP, Tishelman C, Marrone G, Kim Chuc NT, Brugha R, et al.
Community patterns of stigma towards persons living with HIV: a population-based
latent class analysis from rural Vietnam. BMC Public Health 2011 Sep 18;11:705.
(19) Hoerster KD, Butler DA, Mayer JA, Finlayson T, Gallo LC. Use of conventional
care and complementary/alternative medicine among US adults with arthritis. Prev Med
2011 Aug 25.
(20) Okoro CA, Strine TW, Eke PI, Dhingra SS, Balluz LS. The association between
depression and anxiety and use of oral health services and tooth loss. Community Dent
Oral Epidemiol 2011 Aug 25.
(21) Cook PA, Phillips-Howard PA, Morleo M, Harkins C, Briant L, Bellis MA. The Big
Drink Debate: perceptions of the impact of price on alcohol consumption from a large
scale cross-sectional convenience survey in north west England. BMC Public Health
2011 Aug 23;11:664.
(22) Pedrosa AA, Camacho LA, Passos SR, Oliveira Rde V. Alcohol consumption by
university students. Cad Saude Publica 2011 Aug;27(8):1611-1621.

115

(23) Silva Ayaguer LC. Variables dummy. In: Silva Ayaguer LC, editor. Excursin a la
regresin logstica en ciencias de la salud Madrid: Daz de Santos; 1995. p. 33-42.
(24) Pando Fernndez V, San Martn Fernndez R. Regresin logstica multinomial.
Cuad Soc Esp Cien For 2004;18.
(25) Agresti A. Categorical Data Analysis. Second Edition ed. New York: Wiley; 2002.
(26) Aguilera del Pino, A. M. Modelos de Respuesta Discreta. Granada: Copias Coca,
Dep. Legal GR-11554-02; 2002.
(27) Silva Ayaguer LC, Barroso Ultra IM. Regresin logstica. Madrid: La muralla;
2004.
(28) Silva Ayaguer LC. Excursin a la regresin logstica en ciencias de la salud.
Madrid: Daz de Santos; 1995.
(29) Kleinbaum D. Logistic Regression. A Self-Learning Text. New York: SpringerVerlag; 1994.
(30) Aguera L, Failde I, Cervilla JA, Diaz-Fernandez P, Mico JA. Medically unexplained
pain complaints are associated with underlying unrecognized mood disorders in
primary care. BMC Fam Pract 2010 Mar 3;11:17.
(31) Fagerland MW, Hosmer DW, Bofin AM. Multinomial goodness-of-fit tests for
logistic regression models. Stat Med 2008 Sep 20;27(21):4238-4253.
(32) Andersen E. The Statistical Analysis of Categorical Data. New York: SpringerVerlag; 1990.
(33) Beltrn C. Aplicacin del anlisis de regresin logstica multinomial en la
clasificacin

de

textos

acadmicos:

Biometra,

Filosofa

Lingstica

informtica. Infosur 2011;5:53-64.


(34) The R Project for Statistical Computing. 2011; Available at: http://www.rproject.org/.
(35) Spector P. Data Manipulation with R. New York: Springer Science+Business
Media, LLC.; 2008.
(36) Thompson L. S-PLUS (and R) manual to accompany Agrestis categorical data
analysis. Second edition ed.: John Wiley and Sons.; 2007.
(37) Collins SL, Moore RA, McQuay HJ. The visual analogue pain intensity scale: what
is moderate pain in millimetres? Pain 1997 Aug;72(1-2):95-97.

116

(38) Onder G, Landi F, Gambassi G, Liperoti R, Soldato M, Catananti C, et al.


Association between pain and depression among older adults in Europe: results from
the Aged in Home Care (AdHOC) project: a cross-sectional study. J Clin Psychiatry
2005 Aug;66(8):982-988.
(39) Spitzer RL, Williams JB, Kroenke K, Linzer M, deGruy FV,3rd, Hahn SR, et al.
Utility of a new procedure for diagnosing mental disorders in primary care. The PRIMEMD 1000 study. JAMA 1994 Dec 14;272(22):1749-1756.
(40) Pueyo MJ, Suris X, Larrosa M, Auleda J, Mompart A, Brugulat P, et al. Importance
of chronic musculoskeletal problems in the population of Catalonia (Spain): prevalence
and effect on self-perceived health, activity restriction and use of health services. Gac
Sanit 2011 Jul 4.
(41) Martn Mola E, Woolfb AD, Zeidlerc H, Haglundd U, Carre AJ. Evaluacin del dolor
musculoesqueltico crnico en la poblacin adulta espaola y su manejo en Atencin
Primaria: actitudes, percepcin del estado de salud y uso de recursos sanitarios.
SEMERGEN 2005;31(11):508-15.
(42) Noceda Bermejo JJ, Moret Ten C, Lauzirika Alonso I. Quality of life in
osteomuscular chronic pain. Reumatol Clin 2006 Nov;2(6):298-301.
(43) Keogh E, McCracken LM, Eccleston C. Gender moderates the association
between depression and disability in chronic pain patients. Eur J Pain 2006
Jul;10(5):413-422.
(44) Bremander AB, Holmstrom G, Bergman S. Depression and age as predictors of
patient-reported outcome in a multidisciplinary rehabilitation programme for chronic
musculoskeletal pain. Musculoskeletal Care 2011 Mar;9(1):41-48.
(45) George SZ, Coronado RA, Beneciuk JM, Valencia C, Werneke MW, Hart DL.
Depressive symptoms, anatomical region, and clinical outcomes for patients seeking
outpatient physical therapy for musculoskeletal pain. Phys Ther 2011 Mar;91(3):358372.
(46) Lin EH, Katon WJ, VonKorff M, Russo JE, Simon GE, Bush TM, et al. Relapse of
depression in primary care. Rate and clinical predictors. Arch Fam Med 1998 SepOct;7(5):443-449.
(47) Bao Y, Sturm R, Croghan TW. A national study of the effect of chronic pain on the
use of health care by depressed persons. Psychiatr Serv 2003 May;54(5):693-697.

117

Vous aimerez peut-être aussi