Académique Documents
Professionnel Documents
Culture Documents
Universidad de Granada
MTODOS DE REGRESIN
NO PARAMTRICOS PARA
EL ANLISIS DE DATOS
LONGITUDINALES
Trabajo Fin de Mster
Lnea de Investigacin: Estimacin no paramtrica de curvas en R
ndice de contenidos
Captulo 1: Introduccin
1.1. Motivacin de ejemplos de datos longitudinales
1.1.1. Datos de progesterona
1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico
1
1
2
6
10
12
2.1. Introduccin
12
12
12
15
16
18
20
24
3.1. Introduccin
24
27
27
29
31
32
34
35
4.1. Introduccin
35
36
37
40
44
45
45
46
48
50
53
54
55
56
56
60
Referencias
74
Captulo 1: Introduccin
Los datos longitudinales tales como mediciones repetidas tomadas en cada uno
de una serie de sujetos a travs del tiempo surgen con frecuencia de muchos estudios
biomdicos y clnicos as como de otras reas cientficas. Estudios actualizados sobre
anlisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle,
Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramtricos de efectos
mixtos son una herramienta poderosa para modelar la relacin entre una variable
respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos
mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos
(nonlinear mixed-effects (NLME)) son los dos ejemplos ms populares. Varios libros se
han publicado para resumir los logros en estas reas (Jones 1993, Davidian y Giltinan
1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000,
Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo,
para muchas aplicaciones, los modelos paramtricos pueden ser demasiado restrictivos
o limitados, y a veces no estn disponibles al menos para el anlisis de los datos
preliminares. Para superar esta dificultad, las tcnicas de regresin no paramtricas se
han desarrollado para el anlisis de datos longitudinales en los ltimos aos. Con este
trabajo se tiene la intencin de estudiar los mtodos existentes e introducir tcnicas de
reciente desarrollo que combinan ideas de modelado de efectos mixtos y tcnicas de
regresin no paramtricas para el anlisis de datos longitudinales.
1.1. Motivacin de ejemplos de datos longitudinales
En los estudios longitudinales, los datos de los individuos se coleccionan varias
veces a travs del tiempo mientras que en los estudios de corte transversal slo se
obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo
por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de
corte transversal es que los datos longitudinales estn generalmente correlacionados en
un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal
a menudo son independientes.
Un desafo para el anlisis de datos longitudinales es cmo dar cuenta de las
correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para
el manejo de un problema cuando adecuados modelos paramtricos estn disponibles
para relacionar una variable de respuesta longitudinal a sus covariables. Muchos
1
-4
-2
log (prog)
-5
5
dias
10
15
1
0
-2
-1
log (prog)
-5
10
15
dias
-4
-2
log (prog)
-5
10
15
dias
0
-2
-1
log (prog)
-5
10
15
dias
donde
son las matrices de diseo asociadas a los efectos fijos y a los efectos aleatorios. Es fcil
notar que la media y la matriz de covarianza de
donde
con
una matriz de diseo y
no puede ser
, el modelo
, la
estimacin que resulta esencialmente interpola los puntos de datos. Por lo tanto, la
frontera entre el modelado paramtrico y no paramtrico no puede estar bien definida si
se toma el parmetro de suavizacin en cuenta. Los mtodos no paramtricos y
paramtricos de regresin no deben considerarse como competidores, sino que se
complementan entre s. En algunas situaciones, las tcnicas no paramtricas se pueden
utilizar para validar o sugerir un modelo paramtrico. Una combinacin de ambos
mtodos no paramtricos y paramtricos es ms poderoso que un nico mtodo en
muchas aplicaciones prcticas.
donde
indican los puntos de tiempo de diseo (por ejemplo, das en los datos de
progesterona),
la respuesta observada en
de progesterona),
es el
donde
,y
. Esto es,
. Aqu
cuantifica la variacin intra-
,y
y las funciones
11
donde
donde
,y
donde
es un vector
que
contiene las covariables entre sujetos. Es fcil ver que el modelo lineal de coeficiente
aleatorio (2.3) puede escribirse en la forma del modelo general LME (2.2) una vez que
se establece
13
es el asociado al vector de
. De hecho, es
fcil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es
equivalente al modelo general LME (2.2). En particular, cuando
, el modelo
donde
Por lo general se asume que las mediciones repetidas de sujetos diferentes son
independientes y estn correlacionadas solamente cuando vienen del mismo sujeto.
Basado
en
el
modelo
general
LME
(2.5),
tenemos
. Podemos ver
que la correlacin entre las mediciones repetidas puede ser inducida o a travs del
trmino de variacin entre-sujeto
sujeto
14
es diagonal en
el desarrollo de metodologas.
2.2.2. Estimacin de los efectos fijos y aleatorios
Las inferencias de
, las estimaciones de
(hasta una
constante):
Puesto que
Para determinadas
equivalente a resolver las denominadas ecuaciones del modelo mixto (Harville 1976,
Robinson 1991):
donde
donde
covarianzas de
. Las matrices de
son:
matrices
tales que
son
invertibles. Entonces
En particular, cuando
donde
16
es invertible. Entonces
donde
es un vector
, tenemos
donde
y :
se define en
(2.6).
Ntese que la especificacin de
, tenemos
no es informativo.
Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y (2.9) que minimizan
el criterio GLL (2.7) son los mismos que las expectativas del lmite a posteriori del
problema Bayesiano definido en (2.14) y (2.15) con
Adems, como
donde
Ntese que
. Si sustituimos
17
. Esto es,
en el
o cuando lo a priori en
no es
cuando
.
2.2.4. Estimacin de los componentes de varianza
Si las matrices de covarianza,
puntuales, por ejemplo,
. Las estimaciones de
sustitucin de
no se
contabilizan.
Bajo el supuesto de normalidad, el mtodo de mxima verosimilitud (maximum
likelihood (ML)) y el mtodo de mxima verosimilitud restringida (restricted maximum
likelihood (REML)) son dos tcnicas populares para estimar los componentes
desconocidos de
normalidad es cuestionable.
Bajo los supuestos de normalidad siguientes,
,
18
donde
es la dimensin de
es
. Sin embargo, la
de
y el vector de
en (2.8).
con el fin de
del mtodo ML, es
donde
tenemos que
19
siguiente:
Cuando
naturales ML de
y
y
no se conocen, las
se obtienen a travs de la
en (2.23) con
variacin de
an son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales
disponibles, los valores actualizados de
, se pueden actualizar
utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para
simplificar, los valores iniciales pueden tomarse como
. El ciclo
, calcular
(b) Dados
, actualizar
utilizando (2.25).
los
,
se
. Sea
Paso 1. Establecer
,y
. Actualizar
.
y
utilizando
donde
Paso 2. Actualizar
utilizando
donde
en
y
, donde
donde
23
24
-1
-1
10
-5
15
10
dias
dias
15
-1
1
-1
log (prog)
-5
log (prog)
log (prog)
1
0
log (prog)
-5
10
15
dias
-5
10
15
dias
donde
como
. Las
donde
es la esperanza condicionada de
, dado
, es decir,
mediciones.
Hay muchos suavizadores existentes que pueden ser utilizados para estimar la
en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro
aspecto. Por ejemplo, la suavizacin splines puede ser buena para el manejo de la
escasez de datos, mientras que los suavizadores polinomial local pueden ser
computacionalmente ventajosos para el manejo de diseos densos. En este captulo,
revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996)
en la Seccin 3.2. En captulos posteriores, se desarrollan la media de la poblacin no
paramtrica y modelos de efectos mixtos para datos longitudinales basados en estos
suavizadores.
26
en
tiene
en
en una zona de
-sima de
denota la derivada
Fijamos
Sea
los
donde
concretamente,
contribuyen al ajuste en
27
. Entonces
es
.
Una expresin explcita para
. Entonces el
donde
donde
. Resulta que
-dimensional cuya
-primera
Cuando
28
donde
es
despus de sustituir
con
. Sea
que
se puede
expresar como
donde
no depende
es
el ncleo Uniforme
(3.4):
s que estn
donde
dentro de la zona
que el caso cuando
est en la frontera de
de modo que
est en el interior de
efecto frontera, se remite al lector a Fan y Gijbels (1996) y Cheng, Fan y Marron
(1997).
El suavizador lineal local (Stone 1984, Fan 1992, 1993) se obtiene a travs de
ajustar un conjunto de datos a nivel local con una funcin lineal. Sea
que
. Se le conoce como un
suavizador con un efecto de frontera libre (Cheng, Fan y Marron 1997). Es decir, tiene
la misma tasa de convergencia en cualquier punto de . Tambin exhibe muchas buenas
propiedades que los otros suavizadores lineales pueden carecer. Buenas discusiones
sobre estas propiedades se pueden encontrar en Fan (1992, 1993), Hastie y Loader
(1993), y Fan y Gijbels (1996, Captulo 2), entre otros. Un suavizador lineal local puede
ser simplemente expresado como
donde
, no es tan importante
o lineal
y el ancho de banda
son adecuadamente
asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente,
especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y
Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es
altamente recomendable para la mayora de los problemas en la prctica.
3.2.3. Funcin del ncleo
La funcin del ncleo
, el ncleo
s se determina por la
, mayor es la
rpida del posible ajuste LPK, lo cual es ventajoso sobre todo para grandes conjuntos de
datos. El uso del ncleo Gaussiano a menudo resulta en buenos efectos visuales de los
suavizadores LPK, pero paga un precio de requerir ms esfuerzo computacional.
Los ncleos Uniforme y Gaussiano son dos miembros especiales de la siguiente
bien conocida familia Beta simtrica (Marron y Nolan 1989):
31
donde
La eleccin de
y .
como
donde
,y
es un punto interior,
donde
significa
Fan y Gijbels (1996, Captulo 3) para ms detalles. De esto, podemos ver que el ancho
de banda
LPK
. Cuando
. Cuando
especifica el
es pequeo,
sesgo de
es grande,
se reduzca al mnimo.
, que es demasiado
1
0
-1
log (prog)
-5
5
dias
34
10
15
el -simo
36
donde
, las
localmente.
expansin de Taylor,
. Es decir,
37
tiene un mximo
en . Entonces por la
y
. Sea
con
el estimador de
obtenido al minimizar el
donde
con
y el ncleo
es.
Para dar una expresin explcita para
donde
con
Sea
un vector unitario
que
son
, tenemos
es
tiene la siguiente
expresin sencilla:
Cuando
reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8) se llama un estimador del
ncleo constante local ya que es igual al minimizador,
En otras palabras,
en la zona local
donde
Del mismo modo, el estimador (4.10) se llama un estimador del ncleo lineal
local ya que se obtiene mediante aproximacin de
funcin lineal
39
en la expresin de
se
es limitada, en
son
tienden a infinito, la
para que
. En particular, supongamos
, tenemos
est
entonces como
. En este caso,
es
-consistente.
cuando
es limitada. Rice y
definido en el apartado
donde
con
y se establece
lleva al llamado
estimador LPK-GEE
utilizando (4.7).
La matriz de correlacin de trabajo
, tenemos
de manera
sujeto es pequea y por lo tanto los datos utilizados en la estimacin local son de sujetos
diferentes que se supone que son independientes. Esto implica que la matriz de
covarianza verdadera para los datos que contribuyen a la estimacin local es
asintticamente diagonal. Por lo tanto, el estimador LPK-GEE working independence
es asintticamente ptimo (Lin y Carroll 2000). Esto est en contraste con la
paramtrica habitual GEE (Liang y Zeger 1986) en que la mejor estrategia es utilizar la
verdadera correlacin de los datos. Como se mencion en Hoover, Rice, Wu y Yang
(1998), debemos interpretar los resultados asintticos con precaucin ya que en
aplicaciones de datos reales, el ancho de banda adecuado seleccionado por un selector
de ancho de banda no suele ser tan pequeo y los resultados asintticos pueden no ser
aplicables. En otras palabras, tomando adecuadamente en cuenta la correlacin puede
ser necesaria para anlisis de datos de muestras finitas.
Se puede observar que el mtodo LPK-GEE utiliza el peso del ncleo para
controlar los sesgos. Con el fin de reducir los sesgos, todos los datos localizados lejos
41
todos los puntos de datos de este sujeto o grupo se utilizarn. Para evitar sesgos, las
contribuciones de todos estos puntos de datos excepto el punto de datos cerca del punto
de estimacin local son a travs de sus residuos. Se define
con la -sima fila
procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente
manera (Wang 2003):
Paso 1. Obtener un estimador inicial consistente de
, por ejemplo
, por ejemplo
. Por
.
, resolviendo la
es
cuando
con
es
estando a un margen
cuando
no est a un margen
de , el residuo
cuyo tiempo de
, en lugar de
42
denota la
de trabajo para el
independence
-sima entrada de
con
, es decir,
de
se incorporan en el
de
cmo esto afecta a la seleccin del ancho de banda. Con el fin de implementar el
mtodo de Wang, la covarianza de trabajo tiene que ser estimada separadamente. En la
Seccin 4.4, presentaremos el enfoque de modelado de efecto mixto para incorporar las
correlaciones intra-sujeto de una manera ms natural.
Chen y Jin (2005) recientemente propusieron utilizar simplemente el mtodo
local de mnimos cuadrados generalizado (generalized least squares (GLS)) para
explicar las correlaciones de datos longitudinales. Su mtodo no es nada nuevo y se
puede considerar como un caso especial del modelo de efectos mixtos localmente
polinomial descrito en la Seccin 4.4. Adems, su mtodo tambin requiere determinar
43
modela
las funciones de efecto fijo o de efecto aleatorio. Es fcil ver que el trmino de error,
, del modelo (4.2), ahora se convierte en dos trminos,
, del nuevo
44
, y que los
Ntese que
tambin se les conoce como curvas de la poblacin e individual. Debido a que las
cantidades objetivo
, donde
fijo,
en
45
donde
De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser
razonablemente aproximado por un modelo LME:
donde
denota los
y la matriz de covarianza
local , por conveniencia, las llamamos la versin localizada del vector de efectos fijos
y la versin localizada de la matriz de covarianza, respectivamente, o en general los
parmetros localizados.
4.4.2. Estimacin por mxima verosimilitud local
Tibshirani y Hastie (1987) propusieron por primera vez el mtodo de mxima
verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels (1998) estudiaron ms a
fondo las propiedades de los estimadores de mxima verosimilitud local del ncleo
ponderado. En esta subseccin, aplicamos el mtodo de mxima verosimilitud local a
46
es un vector de observaciones
para
sujetos
Cuando
descritos
en la subseccin anterior, es ms natural definir el logaritmo de verosimilitud (loglikelihood) local. Una forma de hacerlo es utilizar el logaritmo de verosimilitud (loglikelihood) del ncleo ponderado como se discute en Staniswalis (1989) y Fan, Farmen
y Gijbels (1998), entre otros.
Sea
donde
banda. Sea
es un ancho de
. Entonces el logaritmo
donde
y
.
, entonces el
47
Esto coincide con los casos considerados por Hoover, Rice, Wu y Yang (1998) y
Lin y Carroll (2000).
En general, la forma del logaritmo de verosimilitud (log-likelihood) local es un
problema especfico. La aplicacin del peso del ncleo de diferentes maneras puede dar
lugar a diferentes estimadores. En las subsecciones siguientes se muestran las
aplicaciones del logaritmo de verosimilitud (log-likelihood) del ncleo ponderado (4.23)
en diferentes escenarios para modelos NPME.
4.4.3. Estimacin a partir de la verosimilitud local marginal
En esta subseccin, introducimos un mtodo de verosimilitud local marginal
para estimar la funcin de media poblacional
aproximacin del modelo LME (4.22), sea
en la
y varianza de
donde
48
como
donde
de residuos
simtricamente.
ponderando el vector
, la diferenciacin de (4.25)
donde
,y
Cuando
es
y la covariable
donde
es un vector
,y
lugar.
Las matrices de covarianza
49
son
donde
,
. Puesto que
aleatorios, el
y
son los vectores de parmetros de efectos
un
puede considerarse de
donde
,y
es un vector
En (4.31), los pesos del ncleo se aplican simtricamente slo a los trminos de
residuos
los pesos del ncleo se aplican a toda la funcin GLL de (4.30) en la que los trminos
50
mtodos diferentes de ponderacin del ncleo dan lugar a dos estimadores diferentes.
Minimizando el criterio LGLL (4.31) da lugar a estimadores exactos de efectos
mixtos polinomial local (local polynomial mixed-effects (LPME)) propuestos por Wu y
Zhang (2002a), y el modelado asociado que se denomina como el modelado LPME.
Para determinados
equivalente a resolver la llamada ecuacin del modelo mixto (Davidian y Giltinan 1995,
Zhang, Lin, Raz y Sowers 1998):
donde
son
donde
donde
estimadores.
Del mismo modo podemos obtener los estimadores LPME basados en el criterio
LGLL (4.32). De hecho, para determinados
51
donde
donde
se
de la poblacin se debe
es un
modelos NPME. Tambin se puede ver fcilmente que, a partir de (4.36) con
52
donde
variable de respuesta, mientras que el segundo se trata como las covariables de efectos
fijos y efectos aleatorios. Ellos son en realidad la variable de respuesta localizada, las
covariables de efectos fijos y efectos aleatorios en el punto de tiempo dado . Los
estimadores LPME (4.33) y sus desviaciones estndar se pueden obtener entonces a
travs de adaptacin (4.40) utilizando la funcin lme de R.
4.4.5. Estimacin de los componentes
A partir de (4.21) y (4.33), fcilmente se obtienen los estimadores LPME de
,
para
. En particular,
LPME de
El estimador de
53
Basado en
de hiptesis acerca de
elegido. Cuando
y el ancho de
es demasiado grande,
y
puede
sobresuavizarse los datos ya que alguna informacin importante en los datos no est
suficientemente capturada. En esta seccin, hablaremos de cmo elegir buenos anchos
de banda para los estimadores LPME.
En primer lugar, por (4.33), es fcil ver que el conjunto de datos est
involucrado en los estimadores de la poblacin
son no correlacionadas e
54
. Para
donde
representa el estimador de
se define como
(4.34), es decir
Por lo tanto, la nica aproximacin requiere ajustar el modelo LPME una vez
para calcular la puntuacin SCV (4.43) para todos los sujetos, y por tanto el esfuerzo
computacional es mucho menor.
55
todos los
Sean
tienen mediciones en
los estimadores de
tiempo de diseo
dado,
en cuenta. El ancho de
.
56
0
-2
-4
log (prog)
-5
5
dias
57
10
15
2
-4
-4
10
-5
15
10
dias
dias
15
-4
0
-4
-2
-2
log (prog)
-5
log (prog)
log (prog)
-2
0
-2
log (prog)
-5
5
dias
10
15
-5
10
15
dias
Por ltimo, vamos a representar todas las curvas individuales de los datos de
progesterona conceptiva utilizando la estimacin lineal paramtrica como se muestra en
la Figura 4.3 y usando tambin la estimacin lineal local no paramtrica como se
muestra en la Figura 4.4.
58
0
-4
-2
log (prog)
-5
10
15
dias
0
-2
-4
log (prog)
-5
5
dias
59
10
15
##### Los datos deben ir ordenados segn el efecto aleatorio (en este caso lo estn)
var.bi <- as.numeric(datos[,1])
##### var.bi recoge el cdigo de cada individuo en el anlisis (ciclos)
nis <- as.vector(table(var.bi))
##### nis recoge el nmero de observaciones por ciclo (aproximadamente 24)
q <- length(nis)
##### q es el nmero de individuos
cum.nis <- cumsum(nis)
##### cum.nis son las sumas acumuladas de nis
bi <- var.bi[cum.nis]
##### bi recoge los cdigos distintos en var.bi
##### Debemos elegir grupo <- 1 para representar, en este caso, el grupo no conceptivo
plot(vec.x, y.ij, col='gray', main='Figura 1.2 (a) Grupo no conceptivo', xlab='dias',
ylab='log (prog)')
##### Con esta orden representamos los puntos para el grupo no conceptivo
sapply(1:q, function(i) lines(vec.x[var.bi==bi[i]], y.ij[var.bi==bi[i]]))
##### Con esta orden unimos los puntos con lneas continuas para dicho grupo
##### Para superponer las tres curvas en un mismo grfico, como puede verse en la
##### Figura 1.1 (b) y Figura 1.2 (b) debemos utilizar la orden points como sigue:
points(time, medias, col='gray')
##### Con esta orden representamos los puntos de la curva media en color gris
points(time, positiva)
##### Con esta orden representamos los puntos de la curva SD positiva
points(time, negativa)
##### Con esta orden representamos los puntos de la curva SD negativa
62
vec.x
(Intercept) Residual
vec.x
(Intercept) Residual
###
### Number of Observations: 514
### Number of Groups: 22
69
73
74
75
76
78
pharmacokinetic
parameters.
I.
Michaelis-Menten
model:
routine
80