Académique Documents
Professionnel Documents
Culture Documents
NDICE
Captulo 1: Introduccin ............................................................................................ 1
Captulo 2: Teora de los modelos de regresin logstica multinomial ............... 6
2.1. Formulacin e Interpretacin del modelo ................................................... 8
2.1.1. Formulacin ...................................................................................... 8
2.1.2. Interpretacin del modelo ............................................................... 11
2.1.3. Otros aspectos a tener en cuenta sobre las variables ................... 13
2.2. Mtodos de estimacin. Estimacin por mxima verosimilitud ................ 14
2.3. Bondad de ajuste del modelo ................................................................... 17
2.3.1. Contrastes de bondad de ajuste del modelo .................................. 17
2.3.1.1. Test chi-cuadrado de Pearson .......................................... 18
2.3.1.2. Test chi-cuadrado de razn de verosimilitudes.
Estadstico de Wilks. Devianza ........................................ 18
2.3.2. Calidad del ajuste ............................................................................ 19
2.3.2.1. Coeficiente pseudo-R2 de Mc-Fadden .............................. 19
2.3.2.2. Coeficiente pseudo-R2 de Cox-Snell ................................. 19
2.3.2.3. Coeficiente pseudo-R2 de Nagelkerke .............................. 20
2.3.3. Tasa de clasificaciones correctas ................................................... 20
2.4. Contrastes sobre los parmetros del modelo ........................................... 21
2.5. Inferencia en regresin logstica multinomial. Intervalos de confianza .... 23
2.6. Mtodos de seleccin del modelo ............................................................. 24
2.6.1. Hacia adelante ................................................................................ 25
2.6.2. Hacia atrs ...................................................................................... 25
2.6.3. Stepwise .......................................................................................... 25
2.7. Validacin del modelo ................................................................................ 26
2.7.1. Residuos de Pearson o residuos estandarizados .......................... 26
2.7.2. Residuos de Pearson o residuos estandarizados .......................... 27
Captulo 3: Funciones y comandos con R ............................................................ 29
3.1. Primeros pasos con R ............................................................................... 31
CAPTULO 1:
INTRODUCCIN
Este trabajo pretende dar una descripcin detallada de una aplicacin con
datos reales de modelos de respuestas discretas realizando el anlisis con el software
estadstico R. Concretamente se aplicar un modelo de regresin logstica multinomial.
El software utilizado tal y como se ha demostrado (1-3) es un paquete muy potente
que permite realizar numerosos anlisis, y entre ellos la regresin logstica
multinomial.
El objetivo principal del trabajo es describir la teora del anlisis que se llevar a
cabo (regresin logstica multinomial), detallar cmo se aplica esta teora con el
lenguaje de R y finalmente describir una aplicacin con datos reales en la que se
aplique estos modelos y se realicen los anlisis con R.
El trabajo se estructurar de la siguiente manera:
-
duracin del dolor en la ltima semana, influencia del dolor en las actividades de la
vida diaria y nmero de consultas al mdico a causa del dolor. As que estimaremos la
probabilidad de tener un tipo de trastorno mental influenciada por otros factores.
Finalmente se interpretar los resultados obtenidos llegando a alcanzar los
objetivos propuestos y obteniendo conclusiones.
CAPTULO 2:
En este captulo se explica toda la metodologa que ser utilizada para resolver
nuestro problema y alcanzar el objetivo que nos planteamos sobre nuestra aplicacin.
Como se ha indicado anteriormente, para el propsito de ese estudio, se utilizarn
modelos de respuesta discreta, concretamente el modelo de regresin logstica
multinomial. A continuacin se describir este modelo explicando entre otras cosas, la
formulacin, los mtodos de estimacin, interpretacin de parmetros, ajustes del
modelo, validacin, contrastes de hiptesis asociados. Todo este desarrollo terico
que se explica a continuacin, es lo que posteriormente se llevar a cabo a la prctica
con nuestra aplicacin.
Los modelos de regresin logstica son modelos estadsticos en los que se
pretende conocer la relacin entre una variable dependiente cualitativa, dicotmica
(regresin logstica binaria o binomial) o con ms de dos categoras (regresin
logstica multinomial) y entre variables explicativas independientes, que pueden ser
cualitativas o cuantitativas. Las covariables cualitativas que sean dicotmicas, es
aconsejable que se codifiquen tomando valores 0, para una de las categoras o para
su ausencia y 1 para la otra categora o para su presencia (esta codificacin es
importante, ya que cualquier otra codificacin podra provocar modificaciones en la
interpretacin del modelo). Pero si la covariable cualitativa tuviera ms de dos
categoras, se realiza una transformacin, para poderla incluir en el modelo. Esta
transformacin consiste en crear varias variables cualitativas dicotmicas ficticias o de
diseo, llamadas variables dummies, de forma que una de las variables se tomara
como categora de referencia y cada una de las variables creadas entrara en el
modelo de forma individual. En general, si la covariable cualitativa posee n categoras,
habr que realizar n 1 covariables ficticias (14,23).
La regresin logstica multinomial es utilizada en modelos con variable
dependiente de tipo nominal con ms de dos categoras (politmica) y es una
extensin multivariante de la regresin logstica binaria clsica.
Las variables
implementados
en
paquetes
estadsticos,
debido
la
mejor
dependiente
de
respuesta
se
modelan
varias
ecuaciones
2.1.1. Formulacin
Para los modelos de regresin logstica binaria, si tenemos una variable
dependiente Y, que toma valores Y=1 (presencia de una caracterstica u otra categora
de la variable) y Y=0 (ausencia de la caracterstica o la otra categora de la variable),
la ecuacin de partida del modelo viene dada por:
[ = 1|] =
exp (0 + =1 )
1 + (0 + =1 )
las covariables.
()
ln
= 0 +
1 ()
=1
Depresin mayor.
Depresin menor.
Ms de un tipo de depresin.
() = = Yj = = ()
= 1, ,
1(x),
. . . , pk(x)), siendo
=1 () = 1.
para comparar cada par de categoras de la variable respuesta, que sera de este tipo:
()
()
+ ()
()
ln
= ln (), , = 1, , ( )
()
() + ()
las observaciones de las variables independientes que caen en uno de ambos niveles.
Pero para construir el modelo logit de respuesta multinomial bastara con considerar (k
1) transformaciones logit bsicas, definidas con respecto a una categora de
1, , 1 ,
()
()
() = = = 1, , 1
para
cada
vector
de
=0
valores
x= (0 , 1 , 2 , , ) con 0 = 1
asociado a la categora Yj .
observados
de
las
variables
explicativas
y = (0 , 1 , , ) el vector de parmetros
siguiente forma:
() =
exp=0
1 + 1
=1 exp=0
() =
1+
= 1, , . 1
1
=1 exp (=0 )
10
Demostracin:
1
=1
=1
=1
()
1 ()
= exp ( )
= exp
()
()
As que tenemos: () =
1+1
=1 exp (=0 )
exp=0
1 + 1
=1 exp=0
= 1, , . 1
exp=0
=1 exp=0
siendo = 0 = 0,1, ,
= 1, ,
= 1, , 1
11
controlan fijas.
obtenemos sigue siendo un modelo lineal, como en los casos anteriores, para cada
logit generalizado en funcin de esas variables de diseo procedentes de la variable A
y viene dado por:
/
= ln
= 0 +
= 1, , ; = 1, , 1
=2
1, , 1
12
siendo 1 = 0, = 1, , 1.
exp (0 + )
=
=
= exp = 1, , 1,
1
exp (0 )
1
= 2, ,
13
falsamente muy elevados (sobreajuste). Por lo que se suele recomendar, que por cada
covariable se cuente con un mnimo de 10 individuos por cada categora de la variable
dependiente con menor representacin. Por ejemplo, si la variable dependiente Y es
dolor y en los datos hay 120 sujetos con dolor y 36 sujetos sin dolor, la categora de
Y menos representado es sin dolor, con 36 sujetos; de esta forma el modelo no
debera contener ms de 36/10 ~ 3 4 covariables (27).
Tambin otra cuestin a tener en cuenta de los modelos de regresin logstica,
es la inclusin de factores de interaccin, para estudiar cmo la asociacin de dos o
ms covariables puede influir en la variable dependiente. Estas interacciones pueden
ser de primer orden (tomadas las covariables dos a dos o de mayor orden, pero estas
ltimas suelen ser de difcil interpretacin). Las interacciones se incluyen siempre que
sean interpretables y tengan significado desde el punto de vista clnico. Si en un
modelo se incluye una interaccin de dos o ms covariables, stas deben de estar
incluidas tambin en el modelo de forma aislada (principio jerrquico) (28).
Por otra parte hay que tener en cuenta que la inclusin de interacciones puede
generar multicolinealidad, tanto ms probable cuanto mayor sea el nmero de
interacciones (29).
2.2. Mtodos
de
estimacin.
Estimacin
por
mxima verosimilitud
14
cada
combinacin
de
valores
de
las
variables
explicativas
por
vectores
probabilidad
1 , = 1, ,
multinomiales
siguen
una
distribucin
independientes, ( ; 1 , , ) ,
= = y verificando que =1 = 1
de
siendo =
=
=1
=1 !
=1
funcin auxiliar:
= 2ln ()
=0
=1
=1
=1
=0
= ln exp
=1 =1
= ln exp
=1 =1
=1
=0
15
=1
=0
=1
=1
exp =0
=1 exp=0
(1) = ((+1))
(1) = 1, , 1,
((+1))
siendo = 1 , ,
=
1 , ,
con
la frecuencia esperada
Para obtener los estimadores de mxima verosimilitud hay que resolver k-1
matriz
dimensin
(n+1)x(k-1)
formado
por
las
siguientes
columnas:
Para ello hay que calcular las derivadas segundas de K con rs:
exp=0 =1 =0 =0
2
=
2
exp
=1
=1
2
=
=0
= 1
K con rs y ji.
exp=0 =0
2
=
2
exp
=1
=1
=0
16
, =
Cov1
Cov1 , 2
Cov2
b = Cov1 , 2
Cov1 , 1 Cov2 , 1
Cov1 , 1
Cov2 , 1
Cov1
Denotamos por m
jq la frecuencia esperada de respuesta Yj en la combinacin
definida como m
jq = dq p jq .
As que para contrastar la bondad del ajuste global del modelo cuando el
exp=0
1 + exp=0
1 :
= 1, . . , ; = 1, ,
exp=0
1 + exp=0
17
2 (M)
yjq dq p jq
=
dq p jq
q=1 j=1
2Q(n+1)x(k1) , dq .
2 (M)
= 2 ln
q=1 j=1
2Q(n+1)x(k1) , dq .
18
decir el mnimo bajo el modelo nulo dado slo por un trmino constante y por el
mnimo de bajo el modelo ajustado con todos los parmetros, obtenemos la
siguiente expresin del pseudo-R2 de Mc-Fadden:
= 1 .
0
2
Siendo su rango terico de valores 0
1, pero muy raramente su valor
2
se aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 02
verosimilitud bajo el modelo nulo dado slo por un trmino constante y por Vf=exp( /2) el mximo de verosimilitud bajo el modelo ajustado con todos los parmetros,
definimos el coeficiente pseudo-R2 de Cox-Snell como:
19
0
0
= 1 = 1 exp
2
El rango terico de valores para el coeficiente es 0
1 0 , lo que le
hace poco interpretable al depender de 0 . Ya que puede ser prximo a cero cuando
hay pocos datos. Por ello es preferible utilizar el siguiente coeficiente como medida de
bondad de ajuste.
2 =
2
0
0
1 exp
1 exp 0
Por ltimo decir que, para comparar modelos de regresin logstica multinomial
con diferente nmero de variables predictoras suelen introducirse coeficientes PseudoR2 ajustados. El ms conocido es el de Mc-Fadden, definido como:
2
=1
0.5 ++1
0.5 0 +1
1: : 0
Contrastes de Wald.
() obtenida a partir de la
asinttica de media y matriz de covarianzas estimada
observado de este estadstico sea mayor o igual que el cuantil de orden (1- ) de la
distribucin 2 .
Su valor para un coeficiente concreto viene dado por el cociente entre el valor
1: : 0
21
el estadstico ser: = 2
2
1;
22
2
;
.
Intervalos de confianza
Basndonos en la normalidad asinttica de los estimadores de mxima
verosimilitud se pueden construir intervalos de confianza asintticos para cada uno de
los parmetros del modelo, utilizando la distribucin normal, y mediante las
transformaciones correspondientes, intervalos de confianza para las odds ratio.
-
23
exp = exp 2
24
2.6.3. Stepwise
En este mtodo se combinan los mtodos adelante y atrs. Puede empezarse
por el modelo vaco o por el completo, pero en cada paso se exploran las variables
incluidas, por si deben salir y las no seleccionadas, por si deben entrar. Pero no todos
los mtodos llegan a la misma solucin necesariamente. El mtodo de stepwise, est
basado en contrastes condicionales de razn de verosimilitudes.
Si partimos del modelo vaco, slo con la constante, este mtodo consiste en
partir de ese modelo inicial, y en cada paso se ajustarn todos aquellos modelos que
resultan de incluir cada una de las variables explicativas que no estn en el modelo
seleccionado en el paso anterior. Entonces se llevan a cabo contrastes condicionales
de razn de verosimilitudes que tienen en la hiptesis nula el modelo seleccionado en
el paso anterior y en la hiptesis alternativa el modelo resultante de la inclusin de
cada variable. De este modo se seleccionarn las variables para las que el contraste
sea significativo, y se incluira en el modelo aquella variable asociada al mnimo pvalor de entre todos los menores o iguales que 1. La inclusin de variables mediante
25
este mtodo contina hasta que ninguno de estos contrastes condicionales sea
significativo.
Por otra parte, a la misma vez, se considera en cada paso la posibilidad de
eliminar alguno de los parmetros del modelo seleccionado en el paso anterior
(mtodo hacia atrs). Pero no se puede eliminar en un paso la variable que acaba de
entrar en el paso anterior, por lo que se fijar para la eliminacin de variables un nivel
de significacin 2 mayor que 1. Al igual que antes, para la eliminacin de variables
se realizarn contrastes condicionales de razn de verosimilitudes que tienen en la
hiptesis nula el modelo que resulta de la eliminacin de cada variable y en la
hiptesis alternativa el modelo seleccionado en el paso anterior. As, las variables
candidatas a eliminar sern aquellas cuyo p-valor sea mayor de 2 y se eliminar la
variable con el mayor p-valor de stos. La eliminacin de variables contina hasta que
todos estos contrastes condicionales resulten significativos.
As finalmente, se llegar a un paso en el que ninguno de los contrastes
condicionales de introduccin de variables sean significativos y todos los de
eliminacin de variables sean significativos.
jq
yjq dq p
1
jq 2
dq p
2
2 =
=1 =1 / .
26
1: : / 0
Bajo la hiptesis nula rj/q tiene una distribucin asinttica normal con media
y varianza estimada
2 (rj/q ) <1, es decir que los residuos tienen menor
cero
variabilidad que una variable aleatoria estndar, pero suelen ser tratados como
/
=
(rj/q )
|
|/
2 .
2.7.2.
dj/q
2
yjq
= 2 yjq ln
m
jq
27
/
=
(dj/q )
|/
| 2 .
28
CAPTULO 3:
29
30
31
de
help(recode).
se
nos
abre
un
hipervnculo
32
33
Donde:
file: es el archivo de datos original que queremos importar, hay que escribir la
secuencia de la ubicacin del archivo y el nombre. (c:/Archivos de
programas/)
use.missings: valor lgico que indica si los valores perdidos por el usuario
deben asumirse como valores perdidos por la mquina.
Adems de estos argumentos, tambin se pueden incluir algunos ms que se
Estos datos una vez cargados, se pueden visualizar, los cuales, aparecen en
una matriz de datos, denomina data.frame, cuyas filas son cada caso y las columnas
son las variables. Estas variables pueden ser tanto numricas o factores, que son
variables de tipo cualitativo. A continuacin se muestra un ejemplo del data.frame.
34
Tenemos que tener en cuenta que podemos querer recodificar alguna variable,
es decir, que no estn en la forma adecuada para realizar el anlisis. As con RCommander seleccionaramos Datos->Modificar variables de los datos activos>Recodificar variables.
La sintaxis en R sera:
recode(var, recodes, as.factor.result, levels)
35
Donde:
levels: argumento opcional para especificar el orden de los niveles del factor
devuelto, por defecto el orden es el de los nombres del nivel.
subset: expresin lgica que indica los elementos o filas que se pretenden
seleccionar.
36
3.2.1
Variables cualitativas
Para dar un resumen de este tipo de variables, se calcula la distribucin de
frecuencias, donde se puede presentar tanto las frecuencias de cada categora como
el porcentaje.
El tipo de grfica que se puede utilizar sera un diagrama de sectores, o un
diagrama de barras.
Distribucin de frecuencias:
37
.Table<-table(Datos$V1)
100*.Table/sum(.Table)
Donde:
en una tabla las frecuencias absolutas y con la segunda orden obtenemos los
porcentajes, ya que realiza el cociente de cada valor con el tamao total, que se
obtiene con la funcin sum.
Donde:
x: vector con la frecuencia de los xitos o una matriz con dos columnas dando
la frecuencia de los xitos y fracasos, respectivamente.
38
Diagrama de sectores:
Donde:
radius: radio del sector, que puede comprender entre -1 y 1. Se puede reducir
si las etiquetas son muy largas.
clockwise: valor lgico que indica el sentido de giro del diagrama. Por defecto
es el sentido contrario a las agujas del reloj.
col: vector de colores que se desea usar para el relleno o la sombra del sector.
Si no aparece este argumento se fijan 6 colores pasteles.
39
Diagrama de barras:
Este tipo de grfica se puede usar tanto para variables cualitativas, como para
variables cuantitativas discretas o variables ordinales. Para realizar este grfico en RCommander seleccionamos Grficas->Grfica de barras y se elige la variable.
Pero al igual que con el diagrama de sectores y con todos los tipos de grficas,
aparecen las opciones por defecto. En R utilizamos para este grfico el comando
barplot:
barplot(height, width = 1, space = NULL, names.arg = NULL, legend.text = NULL,
beside = FALSE, horiz = FALSE, col = NULL, border = par(fg), main = NULL,
sub = NULL, xlab = NULL, ylab = NULL, xlim = NULL, ylim = NULL, log = , axes
= TRUE, inside = TRUE, plot = TRUE, axis.lty = 0, offset = 0, add = FALSE, ...)
Donde:
height: vector o matriz que describirn las barras que formarn el grfico. Si es
un vector, el grfico ser de barras rectangulares con alturas dadas por los
valores incluidos en el vector. Si es una matriz, dependiendo de si el
argumento beside es TRUE o FALSE, el grfico ser de barras apiladas o
juxtapuestas.
names.arg: vector de nombres que se quieren colocar bajo cada barra o grupo
de barras.
beside: valor lgico que indica si, las columnas de height se apilan, FALSE, o
aparecen en juxtaposicin, TRUE.
horiz: valor lgico para indicar que las barras estn en posicin vertical,
FALSE, u horizontal, TRUE.
40
inside: valor lgico para dibujar o no las lneas de divisin de las barras cuando
estn no apiladas.
offset: vector que indica cunto deben desplazarse las barras respecto del eje
x.
add: valor lgico que indica si las barras se aaden a un grfico previo.
41
los resultados por grupos, eligiendo una variable de agrupacin, que sera alguna
variable de tipo factor, mostrando los parmetros a calcular en cada grupo o factor.
La orden en R sera:
numSummary(Datos[,V1], statistics=c(mean, sd, quantiles),
quantiles=c(0,.25,.5,.75,1))
Donde
statistics: vector que indica los estadsticos a calcular. En este caso seran la
media (mean), la cuasi-desviacin tpica (sd) y los cuartiles (quantiles).
quantiles: vector que indica los cuartiles a calcular que por defecto calcula el
mnimo, el cuartil primero, la mediana, el cuartil tercero y el mximo.
42
Histograma
Desde R-Commander podemos dibujar un histograma seleccionando Grficas>Histograma, eligiendo en el cuadro la variable a representar grficamente, el
nmero de clase, que por defecto es automticamente y tambin se puede elegir la
escala de los ejes, o frecuencias, porcentajes o densidades.
Donde:
right: valor lgico para indicar si las celdas de los histogramas tienen los
intervalos cerrados por la derecha y abiertos por la izquierda.
col, border, main, xlab, ylab, xlim, ylim, axes son argumentos ya explicados en
los anteriores tipos de grficos.
labels: valor lgico o cadena para poder aadir etiquetas arriba de las barras.
43
Una vez realizado un anlisis unidimensional de las variables que presenta una
base de datos, para conocer una descripcin de esas variables, es conveniente
realizar un anlisis de conjuntos de variables, para analizar relaciones entre distintas
variables, mostrando tanto sus descriptivos, as como realizar algn test estadstico
que te confirme o te niegue la relacin o el grado de relacin y la significacin
estadstica entre esas variables. En este apartado nos centraremos en el anlisis
conjunto de dos variables, es decir, el cruce de dos variables. Pero al igual que antes
con el anlisis unidimensional hay que tener en cuenta la naturaleza de las variables,
as como los objetivos del estudio para fijar las tcnicas estadsticas que se llevarn a
cabo. Podra existir la posibilidad de realizar un anlisis bivariante de todas las
variables estudiadas en el anlisis unidimensional, pero no es aconsejable, ya que el
nmero de anlisis que se realizaran sera enorme, y adems algunos de ellos no
tendran un inters prctico. Es por ello que el investigador, basndose en la literatura
y en la experiencia propia, es el que decide qu variables cruzar para obtener
relaciones entre ellas (3).
Detallaremos a continuacin las funciones que presenta R que utilizaremos con
nuestros datos, para realizar anlisis bidimensionales, para ello tambin tendremos en
cuenta cmo son las variables.
3.3.1
44
Donde:
45
46
R-Commander
seleccionamos
Estadsticos->Resmenes->Test
de
Donde
ANOVA
47
Donde:
formula: es la descripcin del modelo que debe ser ajustado. Para este
caso sera Variable explicada~Variable de agrupacin.
48
En
R-Commander
seleccionamos
Estadsticos->Test
no
Donde
exact: valor lgico que indica que debe ser calculado un p-valor exacto.
49
50
R-Commander
seleccionamos
Estadsticos->Resmenes->Test
de
51
Donde
Esta funcin devuelve los siguientes valores: el valor del estadstico, los grados
de libertad del test estadstico en el caso de que siga una distribucin t de student, el
p-valor del test, la medida estimada de asociacin, o el coeficiente de Pearson,
Spearman o Kendall, dependiendo del mtodo elegido, el valor de la medida de
asociacin bajo la hiptesis nula, la hiptesis alternativa elegida y el intervalo de
confianza para la medida de asociacin.
Mostramos un ejemplo para este test:
Una vez que se realiza todo el anlisis exploratorio que se ha indicado en los
apartados anteriores, hay que cumplir con el objetivo principal que nos planteamos en
este trabajo que es la aplicacin de modelos de respuesta discreta. En nuestro caso,
queremos conocer los factores que afectan a los tipos de depresin, por lo que se
propone ajustar un modelo de regresin logstica multinomial.
Como vimos en el captulo 2, las variables explicativas que pueden introducirse
en el modelo pueden ser tanto cuantitativas continuas como cualitativas categricas, y
52
vimos que para las variables categricas haba que considerar variables dummies, es
decir dndole el valor 1 a la categora deseada y 0 al resto. A pesar de que la funcin
que veremos a continuacin para el anlisis de la regresin logstica multinomial, al
introducir estas variables como factor, considera las categoras como variables
dummies, se explicar a continuacin cmo se crean manualmente en R, ya que se ha
considerado realizarlo de esta manera por tenerlas en la base de datos y as poder
tener un mayor control sobre ellas. Para ello se utiliza la funcin recode, que ya se
explic anteriormente, as que por ejemplo, para la variable nivel de estudios, la cual
presenta como categoras y cdigos: Sin estudios=0, Estudios primarios=1, Estudios
secundarios=2 y Estudios universitarios=3; se obtendr una variable para todas las
categoras, excepto para la que se considere de referencia que ser Sin estudios, as
por ejemplo la nueva variable Estudios primarios ser codificada como 1 en los casos
con este nivel de estudios y 0 el resto de casos. As que en R la orden para crear
estas variables dummies sera:
Datos&ESTUD_PRIMARIOS<-recode(Datos$NIV_ESTUD, 1=1; else=0)
Datos&ESTUD_SECUNDARIOS<-recode(Datos$NIV_ESTUD, 2=1; else=0)
Datos&ESTUD_UNIVERSITARIOS<-recode(Datos$NIV_ESTUD, 3=1; else=0)
53
Donde:
54
model: valor lgico que indica si el modelo se guarda para incluirlo como
salida.
saturado
(que
explica
las
observaciones
individuales
Una vez que se realiza algn modelo de regresin logstica multinomial, para
ajustarlo se realizarn contrastes de razn de verosimilitudes, para ello en R se utiliza
55
Donde:
object: un objeto que contiene los resultados obtenidos por una funcin que
ajusta un modelo (como lm, glm o multinom). En nuestro caso, ser el
nombre de los modelos de regresin logstica multinomial, separados por
comas, que hayamos ajustados y queramos comparar.
En la tabla que se obtiene en este anlisis aparece en las filas los modelos a
contrastar y de cada uno de ellos se obtiene los grados de libertad de la distribucin
chi-cuadrado del test de contraste de razn de verosimilitud, Resid. Df, la devianza
residual, Resid. Dev, la columna Test nos muestra qu modelos estamos
contrastando, Df, es la diferencia de los grados de libertad de ambos modelos, el
estadstico chi-cuadrado del contraste de razn de verosimilitud, LR stat. Y por ltimo
el p-valor del estadstico, Pr(Chi). Este p-valor es el que nos indica si nos quedamos
con el modelo 1 o 2, si es significativo es que nos debemos de quedar con el modelo
2, el cual incluye una variable ms.
3.4.2. Inferencia.
-
Odds ratio
Una vez ajustado el modelo, se debe de dar una interpretacin y para ello se
calculan las odds ratios. Para obtener las odds ratios de los parmetros del modelo,
stas estn definidas como la exponencial de los parmetros, por lo que se utiliza la
funcin exp.
56
exp(x)
Donde:
Intervalos de confianza
Para calcular los intervalos de confianza de las odds ratio se utiliza la funcin
confint.
confint(object, parm, level=0.95,)
Donde:
Esta funcin devuelve una matriz o un vector, cuyas columnas resultan ser los
lmites inferiores y superiores de cada parmetro.
57
Donde:
Una de las formas tambin de contrastar la bondad del ajuste global del modelo
y detectar si el modelo presenta eficacia predictiva, es mediante las tasas de
clasificaciones correctas, para su clculo se deber de obtener el vector de las
observaciones de la variable dependiente y el vector las observaciones predichas, del
modelo que hayamos ajustado, mediante la funcin predict. Una vez obtenido esos
dos vectores se compararn para obtener los casos coincidentes. Para realizar este
anlisis utilizamos la siguiente sentencia:
58
obs<-datos$variable
pre <- predict(object, type=c(class, prob))
cont=0
for (I in 1:N) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont}
tcc<-cont/N
Donde:
type: tipo de prediccin requerida, que puede ser class, que devuelve un
vector con la categora estimada a la que pertenecera cada individuo; o
prob que devuelve una matriz con las probabilidades predichas, donde las
columnas son las probabilidades de cada categora de la variable
dependiente.
Residuos
Donde:
object: un objeto del cual se quieren obtener los residuos, que ser el
modelo.
Esta funcin nos devuelve los residuos de la devianza extrados del object.
59
CAPTULO 4:
60
Una vez que se ha explicado la teora, en este captulo nos dedicamos a llevar
a la prctica esa teora, es decir, la aplicacin con datos reales de los modelos de
regresin logstica multinomial.
Como se coment en la introduccin usaremos los datos de un estudio
transversal que se llev a cabo con una muestra de centros de atencin primaria (AP)
en Espaa entre abril de 2006 y diciembre de 2006. Para obtener una muestra
representativa, el nmero de centros de AP elegidos en cada regin Espaola fue
proporcional al nmero de habitantes. Adems, el proceso de seleccin tuvo en cuenta
el ratio rural/urbano de Espaa con al menos un 20% de la muestra de los centros de
AP en ciudades de menos de 50000 habitantes.
En cada centro de AP se seleccion un mdico general que acept participar
voluntariamente, formando finalmente una muestra de 600 mdicos.
El estudio se llev a cabo de acuerdo con las declaraciones de Helsinki y con
los procedimientos habituales de trabajo y protocolos, siendo aprobado por el Comit
tico del Hospital Clnico y El Hospital Provincial de Barcelona, asegurando las
normas de la buena prctica clnica.
Pacientes
El estudio incluy hombres y mujeres mayores de 18 aos, que acudieron al
Centro de AP por dolor inexplicable (cabeza, cuello, espalda, extremidades o
articulares) con una duracin de al menos 6 semanas. A efectos de este estudio, los
pacientes considerados fueron los que presentaban dolor crnico inexplicable de tipo
osteomuscular. El criterio considerado para definir el dolor crnico fue la presencia de
dolor durante 6 semanas o ms y una intensidad mayor de 40 puntos en la Escala
Visual Analgica (EVA), medida que se utiliza para medir la intensidad del dolor y
presenta un rango de 0 a 100, donde 0 es no dolor y 100 el peor dolor posible (37).
Adems, los pacientes que no tenan un diagnstico actual de algn trastorno mental
en su expediente mdico, tenan que ser mental y fsicamente capaces de participar
en el estudio y tuvieron que dar su consentimiento informado por escrito.
61
Tamao de la muestra
Basndose en la literatura, para obtener una prevalencia de dolor crnico
inexplicable y trastornos mentales concomitantes del 20% con una exactitud del 3% y
un intervalo de confianza del 95%, el nmero mnimo de pacientes requerido era 683
(38). Se calcul un tamao de 3285 pacientes para detectar diferencias entre
subgrupos definidos por edad, sexo y tipo de tratamiento, ya que se consider el tipo
de tratamiento que estaban tomando los individuos en ese momento, considerando
una OR=1.5 con un nivel de confianza del 95% y una potencia del 80%. Este nmero
asume una probabilidad de exposicin del factor a estudiar del 15% en el grupo de
trastorno mental concomitante y tambin un ratio de 4 pacientes con trastornos
mentales frente a 1 sin trastornos mentales. Asumiendo un 10% de prdidas, el
tamao total para el estudio se estableci en 3641 pacientes. Para los objetivos de
este estudio, de este total se seleccion, tal y como se coment anteriormente, a los
pacientes con dolor crnico inexplicable de tipo osteomuscular, por lo que los
pacientes estudiados fueron 1006.
Para obtener el nmero de pacientes calculados cada uno de los 600 mdicos
seleccionados tuvieron que entrevistar alrededor de 7 pacientes que acudan a su
consulta y que cumplan los criterios de inclusin del estudio. Los pacientes fueron
seleccionados consecutivamente basndose en la llegada al centro de AP. Los
pacientes que rechazaron participar fueron sustituidos por el siguiente que cumpliese
el criterio.
Informacin recogida
La informacin relativa a variables recogidas, tanto socio-demogrficas (edad,
sexo, estado civil y nivel educativo), variables clnicas (duracin del dolor, intensidad,
localizacin del dolor, incapacidad para realizar actividades diarias a causa del dolor y
calidad y duracin del sueo) como variables relativas al uso de los servicios sanitarios
(nmero de visitas al mdico y hospital como consecuencia del dolor en las ltimas 6
semanas/pruebas diagnsticas relacionadas con el dolor en las ltimas 6 semanas)
fueron recogidas por un cuestionario estructurado y mediante el historial clnico de los
pacientes.
La intensidad del dolor fue medida con la Escala Visual Analgica (EVA) con un
rango de 0 a 100, donde 0 era no dolor y 100 el peor dolor posible como se mencion
anteriormente. Para la deteccin y evaluacin de los trastornos mentales se utiliz la
versin espaola validada del mdulo de estados mentales del cuestionario de
62
parcial
depresin
causada por
una
63
4.2. Resultados
4.2.1. Anlisis descriptivo unidimensional
A continuacin se muestra una tabla con la descripcin de todas las variables,
las unidades en las que se mide o los valores codificados que toman. La mayora de
las variables cualitativas estaban codificadas numricamente, sobre todo las variables
con dos categoras, que se codificaron con 0 y 1 para tratarlas posteriormente en el
modelo de regresin logstica multinomial como numrica. Tambin se muestra en la
tabla un anlisis descriptivo de estas variables, mostrndose frecuencias y porcentajes
para variables cualitativas y medias, desviaciones tpicas, mediana, percentiles,
mximo y mnimos para variables cuantitativas. De la mayora de las variables no se
dispone de los datos de los 1006 pacientes, es decir presentan datos perdidos, por lo
que junto a cada variable aparece el nmero de individuos de los que se dispone de
datos de dicha variable (N).
Mostramos a continuacin un ejemplo de cada sentencia utilizada para obtener
el descriptivo de las variables, todo el clculo de todas las variables se encuentra en el
anexo.
Para obtener las frecuencias de las variables cualitativas, como por ejemplo el
sexo, se utiliz la siguiente sentencia:
.Table <- table(Osteomuscular2$sexo1)
.Table # counts for sexo1
100*.Table/sum(.Table) # percentages for sexo1
64
65
Descriptivo
248 (25.5%)
726 (74.5%)
AOS
644 (66.2%)
91 (9.4%)
52 (5.3%)
186 (19.1%)
148 (14.8%)
532 (53.1%)
218 (21.8%)
104 (10.4%)
- S ->1
- No ->0
750 (74.9%)
252 (25.1%)
- S ->1
- No ->0
536 (53.7%)
462 (46.3%)
- S ->1
- No ->0
503 (52.7%)
452 (47.3%)
- S ->1
- No ->0
768 (80.5%)
186 (19.5%)
- S ->1
- No ->0
703 (73.6%)
252 (26.4%)
- S ->1
- No ->0
649 (68%)
306 (32%)
Intensidad Dolor
Del dolor en general, se muestra la
intensidad, medida con la Escala Visual
Analgica (EVA), por lo que es una variable
cuantitativa continua.
Meses desde la aparicin del primer sntoma
doloroso (N=481)
Variable cuantitativa continua
Nmero de localizaciones del dolor (N=955)
Se recogi en cuntas localizaciones se
presentaba dolor. Se ha medido la variable
como cuantitativa continua.
Incapacidad para realizar actividades diarias
a causa del dolor
Variable cuantitativa continua, medida en una
escala de 0 a 100.
Duracin dolor en la ltima semana.
Expresado como el porcentaje del da con
dolor en la ltima semana. Variable cuantitativa
continua, medida en una escala de 0 a 100.
Depresin (N=1006)
Variable cualitativa que indica si el paciente
presenta o no algn tipo de trastorno mental, de
los indicados posteriormente, evaluados
mediante el PRIME-MD.
Tipos de Trastorno mental
A partir de las variables que indican la
presencia o ausencia de algn tipo de trastorno
mental, se han reunificado en una sola variable
que indica si el paciente no presenta depresin,
o si lo presente de qu tipo es o si presenta
Meses
- S ->1
- No ->0
751 (74.7%)
255 (25.3%)
255 (25.3%)
330 (32.8%)
153 (15.2%)
57 (5.7%)
211 (21%)
66
ms de un trastorno mental.
N de visitas al mdico AP en las ltimas 6
semanas (N=927)
Se ha recogido el nmero de visitas al
mdico, por lo que es una variable cuantitativa
discreta, pero se ha medido como variable
cuantitativa continua.
N de visitas al mdico ESP en las ltimas 6
semanas (N=447)
Igual que la anterior, se ha recogido el
nmero de visitas al especialista, tambin se ha
medido como variable cuantitativa continua.
N pruebas realizadas en las ltimas 6
semanas (N=513)
Se recoge el nmero de pruebas realizadas,
por lo que es una variable cuantitativa discreta,
y se ha medido como cuantitativa continua.
N hospitalizaciones en el ltimo ao
(N=199)
Variable cuantitativa continua, igual que las
anteriores.
Con estos resultados podemos ver que de los pacientes estudiados, la mayora
eran mujeres (74.5%), esto es debido a que el dolor y en especial el dolor de tipo
osteomuscular se da ms frecuentemente en mujeres (40-42). La edad media fue de
58 aos (DE: 12.7). El 66.2% convivan en pareja y el 74.9% de los pacientes tenan
estudios primarios o secundarios (Tabla 1).
La intensidad media del dolor general fue de 58.9 de la escala EVA (DE: 19.8).
La duracin media de dolor de los pacientes estudiados es de 37.6 meses (DE: 50.1).
El nmero medio de localizaciones fue de 3.6 (DE: 1.3), siendo la espalda la
localizacin ms frecuente (sufrido por el 80.5% de la poblacin). De los 1002
pacientes que respondieron a la primera pregunta sobre el sueo, el 74.9%
respondieron que duermen menos a causa del dolor y de los 998 pacientes que
respondieron la segunda pregunta, el 53.7% se despertaban a causa del dolor. (Tabla
1).
Con respecto al uso de los servicios sanitario, se obtuvo que, a causa del dolor,
el nmero medio de visitas al mdico de AP en las ltimas 6 semanas fue de 3.2 y, de
513 pacientes, el nmero medio de pruebas que se les haba realizado en las ltimas
6 semanas fue de 1.49 (DE:1.04).
Veamos a continuacin cmo se comporta la depresin distinguiendo por sexo
y por grupos de edad. Se representa grficamente la prevalencia de depresin,
adems de sta por sexos mediante diagrama de sectores y por grupos de edad,
mediante diagrama de barras.
67
68
69
>80
60-70
50-60
40-50
30-40
<30
Grupos de edad
70-80
Porcentaje
La prevalencia de depresin fue del 74.7% (IC 95%: 71.9; 77.4), siendo mayor
en mujeres, es habitual encontrar este resultado ya que existen muchos estudios que
afirman lo mismo (6,9,30,43). Vemos que por edad, la prevalencia es mayor en los
jvenes (< 30 aos), pero este resultado es debido a que todos los individuos de este
grupo de edad, que son un total de 9, tienen depresin y que en las edades
comprendidas entre 50 y 60 aos, predomina no tener depresin frente a tener algn
tipo de depresin (44,45).
70
10
30
0
10
20
Porcentaje
40
50
Ms de un tipo de trastorno
Sin depresin
Depresin mayor
Depresin meno
TIPOS DE DEPRESIN
71
Porcentaje
10
15
20
20
60
40
80
100
72
En la siguiente tabla, mostramos la relacin de todas las variables con los tipos
de depresin.
73
SEXO
Hombre
Mujer
ESTADO CIVIL
Convive en pareja
Divorciado/separado
Soltero/a
Viudo/a
NIVEL ESTUDIOS
Sin estudios
Estudios primarios
Estudios secundarios
Estudios universitarios
Duerme menos a
causa del dolor?
S
NO
Se despierta a
causa del dolor?
S
NO
Localizacin del
dolor en la cervical
S
NO
Localizacin del
dolor en la espalda
S
NO
Localizacin del
dolor en las
articulaciones
S
NO
Localizacin del
dolor en las
extremidades
S
NO
Sin
depresin
Trastorno
depresivo
mayor
Trastorno
depresivo
menor
Otros tipos
de
depresin
Ms de un
tipo de
depresin
Chicuadrado
93
155
78
242
28
116
16
41
33
172
31.56
<0.001
183
18
15
30
193
32
13
85
102
15
10
22
35
5
4
9
131
21
10
40
25.15
0.014
31
136
50
36
58
184
57
30
20
75
42
15
7
25
23
2
32
112
46
21
26.96
0.008
163
90
267
63
107
45
40
12
173
17
29.63
<0.001
107
145
189
138
75
77
23
34
142
68
36.62
<0.001
146
86
251
63
11
38
36
20
172
32
159
73
270
44
120
29
44
12
176
28
151
81
243
71
107
42
40
16
162
42
151
81
226
88
89
60
40
16
143
61
34.97
31.68
<0.001
14.91
0.005
8.57
0.0727
74
<0.001
Edad
0.9967
0.0659
0.985
<0.001
0.670
<0.001
0.867
<0.001
0.976
<0.001
0.977
<0.001
0.813
<0.001
0.456
<0.001
0.805
<0.001
N hospitalizaciones en el ltimo ao
0.474
<0.001
75
tipos de depresin. Para realizar este anlisis, como los tipos de depresin divide a la
muestra en ms de dos grupos utilizaremos el test no paramtrico de Kruskal-Wallis.
En el caso de la edad, utilizaremos un ANOVA de un factor, para ver las
diferencias de medias de la edad en los distintos tipos de depresin.
Para el ANOVA, mediante R-commander, seleccionamos:
76
tapply(Osteomuscular2$SINTOMA_DOLOR1, Osteomuscular2$TIPOS_DEPRESION,
median, na.rm=TRUE)
kruskal.test(SINTOMA_DOLOR1 ~ TIPOS_DEPRESION, data=Osteomuscular2)
Mostramos a continuacin en la siguiente tabla los resultados para todas las variables.
77
Edad
Intensidad Dolor
General
Meses desde la
aparicin del primer
sntoma doloroso
Nmero de
localizaciones del
dolor
Incapacidad para
realizar actividades
diarias a causa del
dolor
Duracin dolor en la
ltima semana
N de visitas al
mdico AP en las
ltimas 6 semanas
N de visitas al
mdico ESP en las
ltimas 6 semanas
N pruebas
realizadas en las
ltimas 6 semanas
N hospitalizaciones
en el ltimo ao
58.15(12.3)
KruskalWallis
Chicuadrado
1.667*
0.156*
56.01(17.9)
63.24(18.5)
33.76
<0.001
32.03(46.7)
27.88(46.4)
46.74(53.9)
21.58
<0.001
3.79(1.2)
3.50(1.3)
3.38(1.4)
3.82(1.2)
39.27
<0.001
48.35(23.6)
60.67(22.8)
55.80(22.5)
54.50(24.3)
62.47(20.9)
54.10
<0.001
51.30(25.1)
62.67(21.7)
58.65(22.3)
56.10(24.0)
65.72(21.2)
51.85
<0.001
2.75(2.3)
3.56(2.1)
3.11(1.7)
3.29(1.5)
3.20(1.7)
40.71
<0.001
1.15(1.7)
1.08(0.8)
1.51(2.6)
14.6(1.2)
1.09(0.7)
4.17
0.3834
1.48(1.2)
1.54(1.1)
1.56(1.1)
1.50(0.8)
1.37(0.9)
1.75
0.7814
0.26(0.5)
0.45(1.0)
0.27(0.7)
1.72(2.8)
0.44(0.7)
5.29
0.2587
Sin
depresin
Trastorno
depresivo
mayor
Trastorno
depresivo
menor
Otros tipos
de
trastornos
Ms de un
tipo de
depresin
58.69(11.9)
58.74(13.5)
56.07(12.5)
55.53(13.5)
53.52(21.4)
61.28(19.9)
58.37(17.2)
47.03(58.1)
29.78(41.4)
3.16(1.4)
Al igual que en el caso de las variables cualitativas, en casi todas las variables
hay diferencias estadsticamente significativas (p<0.05), excepto en la edad y en la
utilizacin de los servicios sanitarios que no sea la atencin primaria. Es decir, existen
diferencias entre los tipos de trastornos mentales en las medias de la mayora de las
variables, por ejemplo, la intensidad del dolor es mayor cuando se tiene ms de un tipo
de depresin. Lo mismo ocurre en el resto de variables significativas, que la media es
mayor cuando los individuos presentan ms de un tipo de depresin.
78
siguiente sentencia, por ejemplo, para la intensidad del dolor, el resto se puede ver en
el anexo:
cor.test(Osteomuscular2$EDAD, Osteomuscular2$SINTOMA_DOLOR1,
alternative=two.sided, method=pearson)
Obtenindose el test de correlacin de Pearson, el intervalo de confianza y el
coeficiente de correlacin:
Estadstico t
0.0162
0.475
0.635
0.1214
2.676
0.008
-0.0145
1.217
0.224
0.0127
0.373
0.709
0.0313
0.917
0.359
-0.0621
-1.746
0.081
-0.0842
-1.634
0.103
-0.0469
-0.994
0.321
N hospitalizaciones en el ltimo ao
-0.1642
-2.164
0.032
Podemos observar que las variables correlacionas con la edad son, el tiempo
desde la aparicin del primer sntoma doloroso, con una correlacin directamente
proporcional, a medida que aumenta la edad tambin aumenta la duracin del dolor y
el nmero de hospitalizaciones en el ltimo ao, que es inversamente proporcional, a
mayor edad menos hospitalizaciones se han realizado en el ltimo ao.
79
80
4.2.3.1.
Para la seleccin del modelo, que resultar ser el que contenga el menor
nmero de variables y sea un modelo explicativo, se realizar mediante el mtodo de
stepwise, por lo que detallaremos a continuacin cada uno de los pasos que se
seguirn, comenzando con el modelo inicial que contiene slo la constante, en cada
paso se analizar la inclusin o no de alguna de las variables mediante contrastes de
razn de verosimilitudes, considerndose adems en cada paso la posibilidad de
eliminar alguna variable que se incluy en los pasos anteriores.
Para realizar los modelos se utilizar la funcin multinom que se describi en
el captulo 3, y con ella se obtendr los coeficientes del modelo, sus errores
81
PASO 1
En primer lugar se realiza el modelo inicial sin incluir ninguna variable, slo con
la constante, realizndose con la siguiente sentencia:
modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data=Osteomuscular2, trace=FALSE)
summary(modelo0, cor=FALSE, Wald=TRUE)
donde con la funcin summary, se obtiene los coeficientes del modelo, sus errores
estndares, el estadstico de Wald, la devianza y el parmetro AIC, como vemos a
continuacin.
Para cada categora de la variable dependiente y para cada variable explicativa
se obtiene un coeficiente, su error estndar y el estadstico de Wald correspondiente.
Variable Dependiente
Depresin mayor
Depresin menor
Otros tipos depresin
Ms un tipo depresin
82
Test de Wald
0.594 (0.115)
-0.208 (0.138)
-1.236 (0.195)
0.113 (0.127)
5.161
-1.508
-6.343
0.889
A continuacin se realizan los modelos que resultan de incluir cada una de las
variables explicativas por separado, para compararlos con el modelo anterior mediante
el contraste condicional de razn de verosimilitud, para realizar este contraste
utilizamos la funcin anova, la cual, tal y como se explic en el captulo 3, realiza un
test que compara las devianzas de dos o ms modelos, y al comparar el modelo0 con
cada uno de los dems modelos, nos quedaremos con aquel en el que ese test sea el
ms significativo.
As que realizando todos los modelos con la funcin multinom y realizando el
contraste con anova obtenemos los siguientes resultados:
83
A la vista de los contrastes realizados podemos ver que la variable que debe
incluirse en el modelo es la llamada SINTOMA_DOLOR8, (modelo 13) que
corresponde con duracin del dolor en la ltima semana, ya que es el modelo cuyo
contraste con el modelo0 resulta ser el ms significativo y es el que produce el mayor
cambio en la devianza, del valor de 1745.914 que presenta el modelo inicial a
1703.385, que presenta el modelo con duracin del dolor en la ltima semana. Por lo
que el modelo que tenemos es:
Tipo de depresin=constante+Duracin del dolor en la ltima semana.
PASO 2
Partiendo del modelo que hemos obtenido del paso anterior, comparamos ste
con todos los modelos que resultan de incluir cada una del resto de variables,
contrastndolo con el contraste condicional de razn de verosimilitudes obtenemos los
siguientes resultados:
84
PASO 3
En este paso en primer lugar, realizamos al igual que en los pasos anteriores la
posibilidad de incluir alguna variable ms, por lo que partimos del modelo anterior y lo
comparamos con los modelos que resultan de incluir el resto de variables y los
contrastamos:
85
Por otra parte, en este paso hay que contemplar la posibilidad de eliminar la
variable que se incluy en el paso 1, la variable duracin del dolor en la ltima
semana y contrastar si el test de razn de verosimilitud es significativo o no al eliminar
86
esta variable, en el caso que no lo sea, nos debemos de quedar con el modelo sin esa
variable
Al realizar el contraste obtenemos:
PASO 4
Partiendo del modelo anterior, lo contrastamos con los que resultan de incluir el
resto de variables y realizando los contrastes de razn de verosimilitud obtenemos:
87
88
4.2.3.2.
Odds ratios
Para el clculo de las odds ratios de los coeficientes del modelo, se utiliza la
funcin exp, como vemos
Podemos ver que todos los cocientes de ventajas son mayores que 1, por lo
que todas las variables actan como factores de riesgo para los tipos de depresin.
Ms adelante se interpretarn detalladamente.
-
89
4.2.3.3.
-
Contraste de Wald
,
2
90
Como vemos casi todos las probabilidades son mayores de 0.05, por lo que se
conservan en el modelo todas las variables, los nicos coeficientes que no obtienen
significacin estadstica corresponden a la duracin del dolor en la ltima semana y la
localizacin en las cervicales, ambos en otros tipos de depresin, pero al presentar
significacin estas variables en el resto de categoras de la variable dependiente
mantenemos estas covariables en el modelo.
4.2.3.4.
91
Depresin
mayor
Depresin
menor
Otros tipos
depresin
Ms un tipo
depresin
OR
IC95% OR
p-valor
-2.172 (0.435)
Test de
Wald
-4.991
0.114
(0.049;0.267)
<0.001
0.023 (0.006)
4.057
1.023
(1.012;1.035)
<0.001
0.309 (0.081)
3.841
1.363
(1.164;1.596)
<0.001
0.626 (0.264)
2.366
1.869
(1.113;3.138)
0.009
-2.219 (0.507)
-4.375
0.109
(0.040;0.29)
<0.001
0.015 (0.007)
2.265
1.015
(1.002;1.028)
0.012
0.199 (0.093)
2.134
1.220
(1.016;1.465)
0.016
0.801 (0.325)
2.465
2.228
(1.178;4.212)
0.007
-2.487 (0.644)
-3.861
0.083
(0.024;0.294)
<0.001
0.001 (0.009)
0.099
1.001
(0.983;1.019)
0.461
0.313 (0.116)
2.710
1.368
(1.091;1.716)
0.003
0.388 (0.430)
0.903
1.475
(0.635;3.426)
0.183
-3.124 (0.523)
-5.969
0.044
(0.016;0.123)
<0.001
0.031 (0.007)
4.746
1.032
(1.019;1.045)
<0.001
0.199 (0.088)
2.255
1.220
(1.026;1.450)
0.012
1.011 (0.315)
3.205
2.748
(1.481;5.098)
<0.001
Variables Independientes
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
Interseccin
Duracin del dolor en la
ltima semana
Nmero de visitas al
mdico de atencin
primaria
Localizacin del dolor en
las cervicales
B (EE)
Cuando interpretamos las odds ratios de cada variable, se asume que el resto
de variables independientes se mantienen fijas. Interpretaremos cada una de las
variables independientes entre los distintos tipos de depresin tomando como
referencia sin depresin. (Tabla 7)
Con respecto a la duracin del dolor en la ltima semana, se presentarn los
resultados considerando un aumento en un 10% del porcentaje del da con dolor, por
lo que las odds ratio sern igual a exp(10*b). A medida que aumenta un 10% el
porcentaje del da con dolor en la ltima semana, la ventaja de presentar depresin
mayor frente a no presentar ningn tipo de depresin queda multiplicada por 1.26
92
93
Para cuantificar la bondad del ajuste global del modelo tambin utilizamos la
tasa de clasificaciones correctas, que nos permite clasificar cada observacin en la
categora ms probable, construyendo as una matriz de clasificacin observadospredichos.
Para calcular esta tasa, debemos de contabilizar de la matriz anterior los
valores coincidentes de los observados y de los predichos. Para obtener los valores
predichos utilizamos la funcin predict, explicada en el captulo 3, pidiendo que nos
devuelva, mediante type=class, de cada individuo la categora estimada a la que
pertenece, basndonos en nuestro modelo final, modelo1. De la siguiente manera
obtenemos el vector de las observaciones y el de las predicciones:
obs<-Osteomuscular2$TIPOS_DEPRESION
pre<-predict(modelo1, type="class")
Vemos a continuacin una muestra del resultado que se obtiene:
Una vez que se tiene los dos vectores, los observados y los predichos, los
comparamos y contabilizamos los casos coincidentes y la tasa de clasificaciones
94
correctas ser igual a los casos coincidentes entre el tamao total de la muestra, que
en este caso sera 589, que son los casos que se recogen en el modelo.
Con la siguiente sentencia obtenemos el resultado de la tasa de clasificaciones
correctas:
Para medir la calidad del ajuste del modelo se utiliza como vimos en el captulo
2 los coeficientes Pseudo-R2 de Mc-Fadden, de Cox-Snell y de Nagelkerke. El clculo
de stos dependen del valor de las devianzas del modelo final y del modelo inicial con
slo la constante, por lo que los calculamos de la siguiente manera:
Si tenemos nuestro modelo final, llamado modelo1 y el modelo con la constante
llamado modelo0, y sean respectivamente, y 0 sus desvianzas, obtenemos los
siguientes coeficientes:
-
R2 de Mc-Fadden
2
=1
En R lo calculamos como:
= 0.04181882
0
95
Este valor es menor que 0.2, por lo que podramos decir que no se considera
que el modelo presente un buen ajuste.
-
R2 de Cox-Snell
2
= 1 exp
0
= 0.1165843
R2 de Nagelkerke.
Este parmetro viene dado por la siguiente expresin:
2 =
0
1 exp
1 exp 0
= 0.1229275
Al igual que en los casos anteriores, este valor nos demuestra que nuestro
modelo no presenta un ajuste muy bueno.
4.2.3.6.
96
97
4.3. CONCLUSIONES
Hemos obtenido que la prevalencia de depresin en general es alta en
pacientes con dolor de tipo osteomuscular, especialmente la depresin mayor y
tambin hay un porcentaje alto de individuos que presentan ms de un tipo de
depresin.
Adems, hemos visto que existen diferencias entre los distintos tipos de
depresin o no presentar ningn trastorno mental por sexos, edad, estado civil, nivel
de estudios, en presentar trastornos del sueo, en las distintas localizaciones del
dolor, excepto en las extremidades, en el nmero total de localizaciones, en la
intensidad del dolor tanto general como en la ltima semana, en la influencia del dolor
en las actividades de la vida diaria, en la duracin total del dolor y en el nmero de
veces que ha consultado al mdico de atencin primaria.
A pesar de influir todas estas variables segn el tipo de depresin cuando se
realiza el anlisis bidimensional, cuando se realiza el modelo ajustando con ellas, slo
influyen la duracin del dolor en la ltima semana, el nmero de visitas al mdico de
atencin primaria y la localizacin del dolor en las cervicales. As que podemos
concluir que los factores que afectan y pueden llegar aumentar el riesgo de presentar
algn tipo de depresin de los estudiados o de presentar ms de uno, frente a no
presentar ningn trastorno mental, es decir, son factores de riesgo para la depresin,
son presentar dolor en un mayor porcentaje del da en la ltima semana, acudir un
mayor nmero de veces al mdico de atencin primaria y presentar dolor en las
cervicales frente a presentarlo en otra localizacin.
Teniendo en cuenta estos resultados, podemos concluir que la depresin en
pacientes con dolor osteomuscular est infradiagnosticada en atencin primaria.
Parece necesaria la exploracin de estos trastornos mentales de manera sistemtica
en los pacientes con dolor crnico con objeto de realizar un diagnstico ms preciso y
un tratamiento adecuado.
Con respecto a la aplicacin del modelo, podemos concluir que acudir a la
estadstica y en concreto a modelos que nos predice el riesgo de presentar una
enfermedad y qu factores estn asociados a este riesgo, es una buena opcin e
importante a la hora de intentar disear estrategias preventivas, asistenciales o
teraputicas para el tratamiento de problemas de salud. Hemos visto que el modelo
que se ha obtenido se ajusta bien y es vlido, aunque no presente muy buena calidad
o no tenga tanta eficacia predictiva.
98
99
remove(.Table)
100
101
102
103
104
Obtenindose:
105
106
107
cor.test(Osteomuscular2$EDAD, Osteomuscular2$MES_SINTOMAS,
alternative="two.sided", method="pearson")
cor.test(Osteomuscular2$EDAD,
method="pearson")
Osteomuscular2$NUM_VISITA_MEDICO_AP,alternative="two.sided",
cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_VISITA_ESPECIALI,alternative="two.sided",
method="pearson")
cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_PRUEBAS_REALIZA,alternative="two.sided",
method="pearson")
108
cor.test(Osteomuscular2$EDAD, Osteomuscular2$NUM_HOSPITALIZACION,alternative="two.sided",
method="pearson")
Apartado 4.2.3.
MULTINOMIAL
AJUSTE
DEL
MODELO
DE
REGRESIN
LOGSTICA
Para el ajuste del modelo se muestran los comandos utilizados en R, pero los
resultados, las salidas, se muestran en el captulo 4, por lo que no se volvern a
mostrar.
Apartado 4.2.3.1. SELECCIN DEL MODELO
PASO 1
modelo0 <- multinom(TIPOS_DEPRESION ~ 1, data= Osteomuscular2, trace=FALSE)
modelo1 <- multinom(TIPOS_DEPRESION ~ sexo1, data= Osteomuscular2, trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ EDAD, data= Osteomuscular2, trace=FALSE)
modelo3 <- multinom(TIPOS_DEPRESION ~ DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data=
Osteomuscular2, trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS, data= Osteomuscular2,
trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~ DUERME_PAC_MENOS, data= Osteomuscular2,
trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~ DESPIERTA_PACIENTE, data= Osteomuscular2,
trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ESPALDA, data= Osteomuscular2,
trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_ARTICULACIONES, data= Osteomuscular2,
trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~ LOC_DOLOR_EXTREMIDDADES, data=
Osteomuscular2, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR1, data= Osteomuscular2,
trace=FALSE)
modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR7, data= Osteomuscular2,
trace=FALSE)
modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2,
trace=FALSE)
modelo14 <- multinom(TIPOS_DEPRESION ~ NUM_VISITA_MEDICO_AP, data= Osteomuscular2,
trace=FALSE)
109
anova(modelo0, modelo8)
anova(modelo0, modelo9)
anova(modelo0, modelo10)
anova(modelo0, modelo11)
anova(modelo0, modelo12)
anova(modelo0, modelo13)
anova(modelo0, modelo14)
PASO 2
modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8, data= Osteomuscular2,
trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+EDAD, data= Osteomuscular2,
trace=FALSE)
modelo3 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+DIVORCIADO_SEPARADO+SOLTERO+VIUDO, data= Osteomuscular2,
trace=FALSE)
modelo4 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+ESTUD_PRIMARIOS+ESTUD_SECUNDARIOS+ESTUD_UNIVERSITARIOS,
data= Osteomuscular2, trace=FALSE)
modelo5 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DUERME_PAC_MENOS, data=
Osteomuscular2, trace=FALSE)
modelo6 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+DESPIERTA_PACIENTE, data=
Osteomuscular2, trace=FALSE)
modelo7 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_CERVICAL, data=
Osteomuscular2, trace=FALSE)
modelo8 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ESPALDA, data=
Osteomuscular2, trace=FALSE)
modelo9 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_ARTICULACIONES,
data= Osteomuscular2, trace=FALSE)
modelo10 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+LOC_DOLOR_EXTREMIDDADES,
data= Osteomuscular2, trace=FALSE)
modelo11 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR1, data=
Osteomuscular2, trace=FALSE)
modelo12 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+SINTOMA_DOLOR7, data=
Osteomuscular2, trace=FALSE)
modelo13 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data=
Osteomuscular2, trace=FALSE)
PASO 3
Inclusin de variables:
modelo1 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP, data=
Osteomuscular2, trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~ SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+EDAD,
data= Osteomuscular2, trace=FALSE)
110
PASO 4
Inclusin de variables:
modelo1 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL, data= Osteomuscular2,
trace=FALSE)
modelo2 <- multinom(TIPOS_DEPRESION ~
SINTOMA_DOLOR8+NUM_VISITA_MEDICO_AP+LOC_DOLOR_CERVICAL+EDAD, data=
Osteomuscular2, trace=FALSE)
111
Contraste de Wald
wald<-matrix(c(-4.991448,4.05727347,3.841494,2.3658128,-4.374602,2.26473110,2.133899,2.4648983,3.860910,0.09863764,2.710359,0.9030975,-5.969838,4.74582515,2.255481,3.2054501),nrow=4,ncol=4)
wald
pnorm(wald[2:4,], mean=0, sd=1, lower.tail=FALSE)
pnorm(wald[1,], mean=0, sd=1, lower.tail=TRUE)
112
pre<-predict(modelo1, type="class")
obs<-Osteomuscular2$TIPOS_DEPRESION
cont=0
for (i in 1:589) {if (pre[i]==obs[i]) cont=cont+1 else cont=cont}
tcc<-cont/589
tcc
113
BIBLIOGRAFA
(1) Michael J. Crawley. The R book. England: Wiley; 2007.
(2) Julian J. Faraway. Practical Regression and Anova using R. ; 2002.
(3) Arriaza Gmez, Fernndez Palacn,Lpez Snchez, Muoz Mrquez, Prez Plaza,
Snchez Navas. Titul. Estadstica Bsica con R y R-commander. Primera ed. Cdiz:
Servicio de Publicaciones de la Universidad de Cdiz; 2008.
(4) Means-Christensen AJ, Roy-Byrne PP, Sherbourne CD, Craske MG, Stein MB.
Relationships among pain, anxiety, and depression in primary care. Depress Anxiety
2008;25(7):593-600.
(5) Garcia-Campayo J, Ayuso-Mateos JL, Caballero L, Romera I, Aragones E,
Rodriguez-Artalejo F, et al. Relationship of Somatic Symptoms With Depression
Severity, Quality of Life, and Health Resources Utilization in Patients With Major
Depressive Disorder Seeking Primary Health Care in Spain. Prim Care Companion J
Clin Psychiatry 2008;10(5):355-362.
(6) Campbell LC, Clauw DJ, Keefe FJ. Persistent pain and depression: a
biopsychosocial perspective. Biol Psychiatry 2003 Aug 1;54(3):399-409.
(7) Bair MJ, Robinson RL, Katon W, Kroenke K. Depression and pain comorbidity: a
literature review. Arch Intern Med 2003 Nov 10;163(20):2433-2445.
(8) Kroenke K, Shen J, Oxman TE, Williams JW,Jr, Dietrich AJ. Impact of pain on the
outcomes of depression treatment: results from the RESPECT trial. Pain 2008
Jan;134(1-2):209-215.
(9) Ohayon MM, Schatzberg AF. Using chronic pain to predict depressive morbidity in
the general population. Arch Gen Psychiatry 2003 Jan;60(1):39-47.
(10) Levinson D, Karger CJ, Haklai Z. Chronic physical conditions and use of health
services among persons with mental disorders: results from the Israel National Health
Survey. Gen Hosp Psychiatry 2008 May-Jun;30(3):226-232.
(11) Lowe B, Spitzer RL, Williams JB, Mussell M, Schellberg D, Kroenke K.
Depression, anxiety and somatization in primary care: syndrome overlap and functional
impairment. Gen Hosp Psychiatry 2008 May-Jun;30(3):191-199.
114
(12) Bair MJ, Kroenke K, Sutherland JM, McCoy KD, Harris H, McHorney CA. Effects
of depression and pain severity on satisfaction in medical outpatients: analysis of the
Medical Outcomes Study. J Rehabil Res Dev 2007;44(2):143-152.
(13) Kirmayer LJ, Robbins JM, Dworkind M, Yaffe MJ. Somatization and the
recognition of depression and anxiety in primary care. Am J Psychiatry 1993
May;150(5):734-741.
(14) Hosmer DW LS. Applied logistic regression. Second edition ed. New York: Wiley;
2000.
(15) Mariz Cde A, Albuquerque Mde F, Ximenes RA, Melo HR, Bandeira F, Oliveira
TG, et al. Body mass index in individuals with HIV infection and factors associated with
thinness and overweight/obesity. Cad Saude Publica 2011 Oct;27(10):1997-2008.
(16) Khuwaja AK, Khawaja S, Motwani K, Khoja AA, Azam IS, Fatmi Z, et al.
Preventable Lifestyle Risk Factors for Non-Communicable Diseases in the Pakistan
Adolescents Schools Study 1 (PASS-1). J Prev Med Public Health 2011
Sep;44(5):210-217.
(17) Langley PC, Molina JS, Ferri CS, P Rez Hern Ndez CN, Varillas AT, Angel RuizIban M. The association of pain with labor force participation, absenteeism, and
presenteeism in Spain. J Med Econ 2011;14(6):835-845.
(18) Pharris A, Hoa NP, Tishelman C, Marrone G, Kim Chuc NT, Brugha R, et al.
Community patterns of stigma towards persons living with HIV: a population-based
latent class analysis from rural Vietnam. BMC Public Health 2011 Sep 18;11:705.
(19) Hoerster KD, Butler DA, Mayer JA, Finlayson T, Gallo LC. Use of conventional
care and complementary/alternative medicine among US adults with arthritis. Prev Med
2011 Aug 25.
(20) Okoro CA, Strine TW, Eke PI, Dhingra SS, Balluz LS. The association between
depression and anxiety and use of oral health services and tooth loss. Community Dent
Oral Epidemiol 2011 Aug 25.
(21) Cook PA, Phillips-Howard PA, Morleo M, Harkins C, Briant L, Bellis MA. The Big
Drink Debate: perceptions of the impact of price on alcohol consumption from a large
scale cross-sectional convenience survey in north west England. BMC Public Health
2011 Aug 23;11:664.
(22) Pedrosa AA, Camacho LA, Passos SR, Oliveira Rde V. Alcohol consumption by
university students. Cad Saude Publica 2011 Aug;27(8):1611-1621.
115
(23) Silva Ayaguer LC. Variables dummy. In: Silva Ayaguer LC, editor. Excursin a la
regresin logstica en ciencias de la salud Madrid: Daz de Santos; 1995. p. 33-42.
(24) Pando Fernndez V, San Martn Fernndez R. Regresin logstica multinomial.
Cuad Soc Esp Cien For 2004;18.
(25) Agresti A. Categorical Data Analysis. Second Edition ed. New York: Wiley; 2002.
(26) Aguilera del Pino, A. M. Modelos de Respuesta Discreta. Granada: Copias Coca,
Dep. Legal GR-11554-02; 2002.
(27) Silva Ayaguer LC, Barroso Ultra IM. Regresin logstica. Madrid: La muralla;
2004.
(28) Silva Ayaguer LC. Excursin a la regresin logstica en ciencias de la salud.
Madrid: Daz de Santos; 1995.
(29) Kleinbaum D. Logistic Regression. A Self-Learning Text. New York: SpringerVerlag; 1994.
(30) Aguera L, Failde I, Cervilla JA, Diaz-Fernandez P, Mico JA. Medically unexplained
pain complaints are associated with underlying unrecognized mood disorders in
primary care. BMC Fam Pract 2010 Mar 3;11:17.
(31) Fagerland MW, Hosmer DW, Bofin AM. Multinomial goodness-of-fit tests for
logistic regression models. Stat Med 2008 Sep 20;27(21):4238-4253.
(32) Andersen E. The Statistical Analysis of Categorical Data. New York: SpringerVerlag; 1990.
(33) Beltrn C. Aplicacin del anlisis de regresin logstica multinomial en la
clasificacin
de
textos
acadmicos:
Biometra,
Filosofa
Lingstica
116
117